欢迎光临
免费的PDF电子书下载网站

大数据猩球:海量数据处理实践指南 PDF下载

编辑推荐

从超大规模的事件流中发现模式可能很困难,但是学习如何发现这些模式却不见得很难。这本实战指南告诉我们如何利用Apache Hadoop,使用简单、有趣、精致的工具,解决大规模数据处理中的模式发现以及很多其他问题。通过处理真实数据、解决现实问题,你将对大数据有一个实用的、可操作的认识。本书非常适合Hadoop新手,也很适合那些想要提升技能的有经验的实践家。其中,*部分解释了Hadoop和MapReduce的工作原理,第二部分讲述了很多数据处理用到的分析模式。通过一些练习,你还将学会如何使用Apache Pig进行数据处理。

■ 学习使用Hadoop的必要原理,包括数据和计算在集群中的移动行为

■ 深入理解MapReduce机制,用Python创建你的*个MapReduce作业

■ 理解如何以Pig脚本的形式运行MapReduce作业链

■ 全书使用真实数据集,即棒球统计数据集

■ 提供分析模式的示例,并学习何时何地使用这些分析模式

 ;

内容简介

本书以实用的、可操作的视角解释了大数据——采用黑猩猩和大象的隐喻,基于棒球统计数据集,使用Apache Hadoop和Pig等工具展示了如何处理大规模数据。此外,通过处理真实数据、解决现实问题,作者还以实例的形式总结了一些实践分析模式,为有创造力的分析人员提供了最强大、最有价值的方法。本书特别适合那些需要大数据工具箱来解决实际问题的人们。

作者简介

大数据猩球:海量数据处理实践指南 PDF下载

目录

前言 ..................................................................................................XI
第一部分 入门 :理论和工具
第 1 章 Hadoop 基础 ........................................................................3
黑猩猩和大象创业 .................................................................................................................4
Map-Only 作业 :逐个处理记录 ...........................................................................................5
Pig Latin Map-Only 作业........................................................................................................6
创建 Docker Hadoop 集群 ......................................................................................................8
运行作业 .......................................................................................................................12
小结 .......................................................................................................................................15
第 2 章 MapReduce........................................................................17
黑猩猩和大象拯救圣诞节 ...................................................................................................17
玩具岛上的麻烦 ...........................................................................................................17
黑猩猩把信件变成带标签的玩具表 ...........................................................................19
小象将玩具表送到适当的工作台 .......................................................................................21

媒体评论

前沿

前言
《大数据猩球:海量数据处理实践指南》以实用、可操作的视角解释了大数据,以经过检验的最佳实践为中心,向读者展示了Hadoop的实战智慧。
读者将对大数据形成有用的、概念性的认识。数据就是洞察力,关键是理解大数据的可扩展性(scalability):即无限规模的数据取决于相异的枢轴点(pivot point)。我们会教你如何运用这些枢轴点进行数据操作。
最后,本书提供了真实数据和实际问题的具体示例,将概念和实际应用相结合。

本书梗概
《大数据猩球:海量数据处理实践指南》讲述了如何使用简单、有趣、精致的工具,解决大规模数据处理中的重要问题。
从超大规模的事件流中发现模式是一件重要而且困难的事情。大部分时候,地震是不会发生的——但是模式能够根据平静时期的数据提前预测是否会发生地震。如何在数以亿计的事件中逐个对比数万亿个连续事件,从而发现极少数事关紧要的事件呢?一旦找到了这些模式,如何实时地做出响应?
我们选用大家都能够理解的案例,而且它们具有普适性,能够适用于其他问题解决的场景。我们的目的是向读者提供:
■ 大规模思考的能力——使读者深刻理解如何将一个问题分解为有效的数据转换(data transformation),以及集群中的数据流动如何影响这些转换。
■ 用详细的示例代码在场景中展现如何使用Hadoop解决有意思的问题。
■ 关于有效软件开发的建议和最佳实践。
本书的全部示例都采用真实数据,用来描述很多问题领域中的模式,包括:
■ 创建统计概要。
■ 识别数据中的模式和组。
■ 批量查找、过滤和移动记录。
本书强调简洁性和趣味性,特别吸引初学者,但同样适合有经验的人。你会发现本书为有创造力的分析人员提供了最强大、最有价值的方法。我们的座右铭是“机器人是廉价的,而人是重要的”: 编写可读的、可扩展的代码,然后再确定是否需要一个较小的集群。本书的代码改编自Infochimps和Data Syndrome解决企业级业务问题的程序,这些简单的高级转换能够满足我们的需求。
很多章节都配有练习。如果你是初学者,我们强烈建议你每一章都至少完成一个练习。在面前摆本书看,不如边看书边写代码学得更深入。本书官网上有一些简单的解决方案和结果数据集。

本书适合谁
我们希望你至少熟悉一种编程语言,并不一定非要是Python或Pig。熟悉SQL会有些帮助,但这不是必需的。如果有商务智能方面的数据工作经历或分析背景,会很有帮助。
更重要的是,你应该有一个需要大数据工具箱来解决问题的实际项目——这个问题要求在多个机器之间横向扩展(scale out)。如果你没有这样的项目,但又确实很想学习大数据工具箱,看一下第3章,我们采用棒球数据。这是一个探索起来很有趣的大型数据集。

本书不适合谁
本书不是《Hadoop权威指南》(Hadoop: The Definitive Guide,已出版),而更像是《Hadoop固执指南》(Hadoop: A Highly Opinionated Guide)。本书唯一提到裸Hadoop API的地方就是,“大多数情况下,不要使用它”。我们推荐以某种空间不高效的格式存储数据,还有很多时候我们鼓励以小部分的性能损失换取程序员更多的愉悦。本书不厌其烦地强调编写可扩展的代码,却只字不提编写高性能的代码,因为获取成倍加速比的最佳途径是使用双倍数量的机器。
这是因为,对大部分人来说,集群的成本远远低于数据科学家使用它的机会成本。如果数据不仅大,还很巨大(比如100TB),而且我们期望在生产线上不断地运行作业,那就需要考虑其他权衡了。但是,即使是PB级规模,仍然要按照我们介绍的方式来开发。
本书涉及Hadoop的提供和部署问题,以及一些重要的设置。但是并没有真正介绍任何高级算法、操作或调优问题。

本书没有包括的内容
目前我们不讨论Hive。对于熟悉Hive的人,Pig脚本能够天然地翻译成Hive。
本书讲的是互联网上没有的东西。我们不准备花时间介绍基础教程和核心文档。另外,我们也不会涉及以下内容:
Hadoop的安装或维护。
其他类MapReduce的平台(Disco、Spark等),或其他框架(Wukong、Scalding、Cascading)。
有时候我们用到了Unix测试工具包(cut/wc/etc),但只是作为工具临时用一下。我们并不会深入讲述这些东西,有其他O’Reilly书籍详细介绍这些实用工具。

理论:黑猩猩和大象
从第2章开始,你会看到黑猩猩和大象公司(Chimpanzee and Elephant Company)热情的员工们。大象记性好(内存很大),易于进行大规模迁移。通过大象类比组装数据,有助于理解移动超大量数据的易点和难点。黑猩猩聪明,但是一次只能考虑一件事情。它们展示了如何在单个关注点下实现简单的转换,以及如何在不占用更多空间的情况下分析PB级的数据。
黑猩猩和大象结合起来,共同隐喻了如何处理大规模数据。

实战:Hadoop
Doug Cutting说,Hadoop是“大数据操作系统的内核”。Hadoop是最主流的批处理方案,既有商用企业支持,也拥有庞大的开源社区,能够在每一个平台和云上运行——短期内这种形势并不会改变。
本书中的代码无须改动即可在你的笔记本电脑或企业级Hadoop集群上运行。我们使用docker提供一个虚拟Hadoop集群,你可以在自己的笔记本上运行。

关于Python和MrJob
我们选择Python有两个原因。第一,作为一种高级语言(除了Python,还有Scala、R等),Python既拥有完美的Hadoop框架又具备广泛的支持。更重要的是,Python是一种可读性很强的语言。本书提供的示例代码能够清晰地映射到其他高级语言,而且我们推荐的方法在任何语言中都是可用的。
具体来说,我们选择Python语言框架MrJob。这是一个广泛使用的开源框架。

免费在线读

大数据猩球:海量数据处理实践指南 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:大数据猩球:海量数据处理实践指南