编辑推荐
微博副总|高德技术副总裁|百度主任架构师|百度技术委员会主席|UCloud创始人&;CEO联合作序推荐
大数据包罗万象,谷歌大数据平台技术权威独具匠心,站在全局高度析缕分条,让你不再迷失,能快速得其门而入
本书是大数据实战用书,包含大量真实案例、实际代码、详细解决方案。
? 掌握大数据成功及避开常见陷阱的4个指导原则
? 强调协作,避免数据孤岛带来的问题
? 高效且经济地托管和共享数TB的数据集
? “为未来而构建”以支持快速增长
? 使用Redis开发NoSQL Web应用来收集众包数据
? 使用Hadoop、Hive和Shark在大数据集上运行分布式查询
? 使用Google BigQuery构建数据信息面板
? 使用高级可视化技术探索大数据集
? 实现高效流水线以转换海量数据
? 使用Apache Pig和Cascading库将复杂处理过程自动化
? 运用机器学习方法进行分类、推荐及预测
? 使用R语言统计分析大数据集
? 建立合理的采购策略:何时选择自制、购买或外包
? 使用Python和Pandas构建高效分析工作流
? 展望可伸缩数据技术的新趋势及数据科学家的角色演变 ;
内容简介
??????????????????????????????????????????????????????????????????????????????????????????????????? ?????????Google ??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????
作者简介
????????????????Prof. Per Stenstr?ouml;m?????????????????????????????2011???IBM?????????????????????????????????
目录
???1 ?? ??????? 1?1 ? ??????? 31.1 ??????????? 31.2 ???????? 41.3 ?????? 51.3.1 ?????????????? 61.3.2 ????????????????? 71.3.3 ????????????? 81.3.4 ?????????? 81.4 ???????? 91.5 ????? 101.6 ?? 10?2 ?? ????????? 13?2 ? ?????TB ????? 152.1 ???? 162.1.1 ????????? 162.2 ?????????? 172.2.1 ???? 182.3 ????????? 182.3.1 XML ????????? 202.3.2 JSON ??????? 212.4 ???? 222.4.1 ???? 24XXII ??2.5 ?????????????? 252.5.1 Apache Thrift ?Protocol Buffers 262.6 ?? 27?3 ? ????NoSQL ?Web ???????? 293.1 ???????????? 303.1.1 ??????ACID ?? 323.2 ???????????? 333.2.1 CAP ???BASE 343.3 ?????????? 363.3.1 ?- ???? 363.3.2 ???? 383.4 ????????Redis 403.5 ???Redis ????? 433.5.1 ??Twemproxy ???? 443.5.2 Redis ????? 463.6 NewSQL ?Codd ?? 463.7 ?? 47?4 ? ??????????? 494.1 ??????? 494.1.1 ?????? 514.1.2 ????????? 524.1.3 ?????? 534.1.4 ???????????????? 544.2 Hadoop ????????? 554.3 ??????????? 554.3.1 ????????????? 564.3.2 ????????????? 574.3.3 ??????????? 574.4 ?????????? 58??XXIII4.4.1 Luhn ?????????????? 594.5 ?? 59?3 ?? ???? 61?5 ? ??Hadoop?Hive ?Shark ???????? 635.1 ??????? 645.2 Apache Hive ??Hadoop ???????? 665.2.1 Hive ?? 665.2.2 Hive ?? 675.2.3 ?Hive ???????? 715.3 Shark ??????????? 725.4 ??????? 735.5 ?? 74?6 ? ??Google BigQuery ???????? 776.1 ?????? 786.2 Dremel ???? 796.2.1 Dremel ?MapReduce ????? 806.3 BigQuery ???????? 816.3.1 BigQuery ????? 826.4 ???????????? 836.4.1 ????BigQuery API 846.4.2 ????????? 876.4.3 ?????? 886.4.4 ??????? 896.5 ?????????? 916.6 ?? 91?7 ? ??????????? 937.1 ????????????? 947.2 ???? VS ???? 97XXIV ??7.2.1 ??? 977.3 ????????? 987.3.1 ??R ?ggplot2 ???????? 987.3.2 matplotlib: Python ?2D ??? 1007.3.3 D3.js ???Web ???????? 1007.4 ?? 104?4 ?? ??????? 107?8 ? ???MapReduce ????? 1098.1 ???????? 1098.1.1 ????? 1108.2 ??Hadoop Streaming ??????? 1118.2.1 MapReduce ????? 1118.2.2 ????????stdin ?stdout 1138.3 ??MapReduce ?? 1158.3.1 ???NVSS ??????????map ?? 1168.3.2 ????????reducer ?? 1178.3.3 ?????MapReduce ??? 1188.3.4 ?Hadoop ????????MapReduce ?? 1198.4 ??????Hadoop ?Python ?MapReduce ?? 1208.4.1 ??mrjob ??Hadoop Streaming ?? 1218.4.2 ????????? 1228.4.3 ?Elastic MapReduce ???mrjob ?? 1248.4.4 ????Python ?MapReduce ?? 1258.5 ?? 125?9 ? ??Pig ?Cascading ????????? 1279.1 ?????????? 1289.2 ??MapReduce ????? 1289.2.1 Apache Pig ????? 129??XXV9.2.2 ?????Grunt shell ??Pig 1309.2.3 ?????????? 1329.2.4 ????????Pig ?? 1329.3 Cascading ????????????? 1339.3.1 ?source ?sink ????? 1349.3.2 ??Cascading ?? 1359.3.3 ????Cascade ??????JOIN ?? 1369.3.4 ?Hadoop ?????Cascading ?? 1389.4 ????Pig ?Cascading 1399.5 ?? 140?5 ?? ????????????? 141?10 ? ??Mahout ???????? 14310.1 ???????? 14410.2 ??????? 14410.2.1 ????? 14610.2.2 ?? 14610.2.3 ???? 14810.3 Apache Mahout ??????????? 14810.3.1 ??Mahout ?????? 14910.4 MLbase ?????????? 15210.5 ?? 152?6 ?? ????????????? 155?11 ? ??R ???????? 15711.1 ???????? 15811.1.1 R ??????????? 15911.1.2 R ??????? 161XXVI ??11.2 ????????? 16211.2.1 ??????bigmemory ?biganalytics 16211.2.2 ff: ?????????? 16411.2.3 biglm ???????????? 16511.2.4 RHadoop: ??R ??Apache Hadoop 16611.3 ?? 168?12 ? ??Python ?Pandas ??????? 17112.1 ????????????Python 17212.1.1 ???????????? 17212.1.2 ?????? 17312.1.3 ????? 17412.2 ???????Python ? 17412.2.1 NumPy 17512.2.2 SciPy ?Python ?????? 17612.2.3 ?????Pandas 17812.3 ????????? 18212.3.1 ?????????? 18412.4 iPython ????????????? 18512.4.1 ????????iPython 18612.5 ?? 190?7 ?? ???? 191?13 ? ???????????? 19313.1 ????????? 19313.2 ???????? 19513.3 ????????????? 19713.3.1 ???????????? 19713.3.2 ????? 19813.3.3 ????????? 198??XXVII13.4 ?????? 19913.5 ??????? 20113.6 ????? 20213.7 ?? 202?14 ? ???????????? 20514.1 Hadoop ????????? 20614.2 ?????? 20814.3 ???????? 20914.4 ???????? 21214.5 ???? 21314.6 ?? 214
媒体评论
大规模数据分析几乎对所有行业都极其重要。移动和社交技术产生了海量的数据集,分布式云计算提供了存储和分析这些数据所需的资源,专家们掌握着全新的技术,其中包括NoSQL数据库。但是迄今为止,关于“大数据”的大部分书籍只不过是业务争论或者产品目录。本书则不同:它是每个大数据决策者、实施者和战略制定者必不可少的实战指南。
Michael Manoochehri是一个前Google工程师和数据骇客,他为那些需要低资源消耗和时间开销的实用方案的专业人员写作了本书。借助其广博的知识,作者帮助您专注于构建应用而不是基础设施管理,因为这样您才能从中获得*的价值。
作者展示了如何结合使用不同的技术经济、有效地解决关键的大数据用例。您将看到进行海量数据集管理、数据可视化、数据流水线和信息面板构建、统计分析工具选择等的专业方法。纵观本书,作者演示了目前*的数据分析工具的使用技巧,其中包括Hadoop、Hive、Shark、R、Apache Pig、Mahout和Google BigQuery。
对数据进行采集、存储和分析的工具种类非常繁多,而且新的工具还在不断涌现。对于刚进入这个领域的新人来说,这往往意味着需要浏览众多网站和相关书籍才能对大数据处理的基础知识有个基本的了解。正因如此,这本书成为 Addison Wesley 数据分析(Data &; Analytics)丛书的一个有力补充 :本书对构建大数据分析系统的工具、技术和实用技巧进行了全面的介绍。
Michael 是介绍大数据分析的绝佳人选,他曾在 Google 的云平台开发者关系组工作,帮助开发者使用 BigQuery(Google 的 TB 级数据分析平台)进行大规模数据分析。他将自己在大数据领域广阔的知识面带到了这本书中,为刚接触大数据的人和寻求建议、技巧和工具的人提供了非常实用的实战指南。
本书从大数据系统的成功应用开始介绍,之后陆续对 NoSQL、分布式计算和CAP 理论进行了讲解。在介绍使用 Hadoop 和 Hive 分析大数据之后,又覆盖了使用 BigQuery 进行实时分析的相关内容。之后还包括了 MapReduce 流水线、Pig 和Cascading、使用 Mahout 进行机器学习等高级课题。在书的最后,读者会看到将Python 和 R 整合到大数据工具链中的实际案例。本书大部分章节都包含了很多例子以帮助读者学习和使用相关的大数据工具。如果你想要一本对大数据分析有一个全面了解的书籍,本书*是不二之选。
——Paul Dix
免费在线读
推荐序1
 ;  ; 《寻路大数据 :海量数据与大规模分析》是一本系统化解读大数据工程处理基础技术的书籍。技术热潮已然催生了形形色色的大数据处理技术及工具,但重要的并非鱼与熊掌的孰优孰劣,而是如何选择或组合这些技术并应用于实现不同的商业目标。
 ;  ; 《寻路大数据 :海量数据与大规模分析》正是从这个角度评估了针对不同使用场景的大数据处理技术,从而帮助技术负责人及架构师做出不同的选型决策。我很高兴看到了这《寻路大数据 :海量数据与大规模分析》的出版,它必将有益于大数据技术的各种具体实践。
刘子正
微博常务副总经理
推荐序2
 ;  ; 大数据这个概念,提出来已经有好几年了。在这几年中,作为一名数据工作者,我经常会参加各种大数据相关的讨论,也会有朋友和企业提出一些大数据相关的咨询需求。我感觉到,经过一波又一波的质疑和辩论,很多企业已经接受了大数据这个概念,认可大数据对于企业的重要性。眼前的问题,已经不是要不要开展大数据相关的工作,而是如何开展大数据工作。
 ;  ; 企业需要将大数据的概念、技术、能力和企业自身的数据充分结合,来切实地提升企业的业务能力。实现这个目标要解决的一个问题是,大数据技术的发展太快、太新,能够对大数据整体技术有了解的人很少。各类技术适合处理什么样的数据?适合解决什么样的问题?如何进行技术选型?这些问题对于实操规划企业整体大数据发展的人非常重要,他们迫切需要介于宏观的概念和细节的技术之间,对于规划和选型立刻就能够产生帮助的资源。
 ;  ; 几周之前,我有幸提前阅读到《寻路大数据 :海量数据与大规模分析》的部分章节,很高兴地发现,这本书所提供的,正好是这种立刻能够产生帮助的信息,可以更好地帮助大家规划和设计与企业业务 密切结合的大数据应用,而作者丰富的经验和对于大数据的深刻理解,也可以提高我们对于大数据的认知,避免在大数据的应用中走弯路,非常值得仔细阅读。
廖若雪
高德公司
大数据与移动技术中心副总裁
前百度主任架构师,百度公司技术委员会主席
推荐序3
 ;  ; 中国改革开放的总设计师曾经说 :“不管黑猫白猫,能抓住老鼠就是好猫”,针对大数据技术我想也是如此。我们曾经花费了很多时间讨论什么是大数据,多大才是大数据,而忽略了如何利用大数据技术来创造真正的价值。
 ;  ; 随着云计算、智能设备、物联网的快速发展,以后每一个公司都会有大量的数据。而现在最重要的,我认为是快速学习大数据的思维、技术和方法解决工作中的实际问题,并对公司的决策提供支撑,对业务的发展提出建议。这才是大数据的真正价值。
 ;  ; 正如《寻路大数据 :海量数据与大规模分析》中提到的“Data processing as a service”,从国内外的发展趋势来看,大数据和云计算的结合越来越紧密,各大云计算运营商都陆续推出大数据处理平台的产品,让每个企业的数据人员能够方便地应用大数据技术,从而专注于业务流程和数据本身,不被大数据基础架构的建设和维护成本所约束,从而快速地发挥大数 据的价值。
 ;  ; 国庆节前杨毅邀请我为《寻路大数据 :海量数据与大规模分析》作序,杨毅是具有丰富的实战经验和对于大数据有深刻理解的业内人士,《寻路大数据 :海量数据与大规模分析》内容也一样稳重而务实。不纠结于大数据名词的定义,而关注于:如何利用各种技术进行大数据处理,如何在各种应用场景下利用大数据产生价值,如何根据企业自身的实际情况选择合适的架构方案和技术解决实际问题,最终提升企业竞争力。这对于企业的技术负责人、大数据技术人员是非常有价值的。我认为每一个相信、追求并使用大数据的朋友都会和我一样,通过《寻路大数据 :海量数据与大规模分析》加深对大数据的理解,提高对大数据的把握能力,从而为业务创造更大的价值。
 ;  ; 大数据,大价值!
季昕华
UCloud 创始人 &; CEO
前盛大云 CEO,盛大在线首席安全官
寻路大数据:海量数据与大规模分析 pdf下载声明
本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版