Spark与Hadoop大数据分析 PDF下载

编辑推荐

暂无

内容简介

本书介绍了ApacheSpark和Hadoop的基础知识，并深入探讨了所有Spark组件：SparkCore、SparkSQL、DataFrame、DataSet、普通流、结构化流、MLlib、Graphx，以及Hadoop的核心组件（HDFS、MapReduce和Yarn）等，此外，也讲解了在Spark Hadoop集群中实现的示例。

作者简介

暂无

Spark与Hadoop大数据分析 PDF下载

Contents　目　　录
译者序
前言
第1章　从宏观视角看大数据分析1
1.1　大数据分析以及 Hadoop 和 Spark 在其中承担的角色3
1.1.1　典型大数据分析项目的生命周期4
1.1.2　Hadoop和Spark承担的角色6
1.2　大数据科学以及Hadoop和Spark在其中承担的角色 6
1.2.1　从数据分析到数据科学的根本性转变 6
1.2.2　典型数据科学项目的生命周期 8
1.2.3　Hadoop和Spark 承担的角色9
1.3　工具和技术9
1.4　实际环境中的用例11
1.5　小结12
第2章　Apache Hadoop和Apache Spark入门13
2.1　Apache Hadoop概述13
2.1.1　Hadoop 分布式文件系统 14
2.1.2　HDFS 的特性15
2.1.3　MapReduce 16
2.1.4　MapReduce 的特性 17
2.1.5　MapReduce v1与MapReduce v2对比17
2.1.6　YARN 18
2.1.7　Hadoop上的存储选择20
2.2　Apache Spark概述24
2.2.1　Spark 的发展历史 24
2.2.2　Apache Spark 是什么25
2.2.3　Apache Spark 不是什么26
2.2.4　MapReduce 的问题 27
2.2.5　Spark 的架构28
2.3　为何把 Hadoop 和 Spark 结合使用31
2.3.1　Hadoop 的特性31
2.3.2　Spark 的特性31
2.4　安装 Hadoop 和 Spark 集群33
2.5　小结36
第3章　深入剖析Apache Spark37
3.1　启动 Spark 守护进程 37
3.1.1　使用CDH 38
3.1.2　使用 HDP、MapR 和Spark 预制软件包38
3.2　学习Spark的核心概念 39
3.2.1　使用 Spark 的方法 39
3.2.2　弹性分布式数据集 41
3.2.3　Spark 环境43
3.2.4　变换和动作44
3.2.5　RDD 中的并行度46
3.2.6　延迟评估 49
3.2.7　谱系图50
3.2.8　序列化 51
3.2.9　在 Spark 中利用 Hadoop文件格式 52
3.2.10　数据的本地性 53
3.2.11　共享变量 54
3.2.12　键值对 RDD 55
3.3　Spark 程序的生命周期 55
3.3.1　流水线 57
3.3.2　Spark 执行的摘要 58
3.4　Spark 应用程序59
3.4.1　Spark Shell 和 Spark 应用程序59
3.4.2　创建 Spark 环境59
3.4.3　SparkConf 59
3.4.4　SparkSubmit 60
3.4.5　Spark 配置项的优先顺序61
3.4.6　重要的应用程序配置 61
3.5　持久化与缓存 62
3.5.1　存储级别 62
3.5.2　应该选择哪个存储级别63
3.6　Spark 资源管理器：Standalone、YARN和Mesos63
3.6.1　本地和集群模式63
3.6.2　集群资源管理器 64
3.7　小结 67
第4章　利用Spark SQL、Data-Frame和Dataset进行大数据分析69
4.1　Spark SQL 的发展史 70
4.2　Spark SQL 的架构71
4.3　介绍Spark SQL的四个组件72
4.4　DataFrame 和 Dataset 的演变74
4.4.1　RDD 有什么问题74
4.4.2　RDD 变换与 Dataset 和DataFrame 变换75
4.5　为什么要使用 Dataset 和DataFrame75
4.5.1　优化 76
4.5.2　速度 76
4.5.3　自动模式发现 77
4.5.4　多数据源，多种编程语言77
4.5.5　RDD 和其他 API 之间的互操作性77
4.5.6　仅选择和读取必要的数据78
4.6　何时使用 RDD、Dataset 和DataFrame78
4.7　利用 DataFrame 进行分析 78
4.7.1　创建 SparkSession 79
4.7.2　创建 DataFrame 79
4.7.3　把DataFrame转换为RDD82
4.7.4　常用的 Dataset/DataFrame操作 83
4.7.5　缓存数据84
4.7.6　性能优化 84
4.8　利用 Dataset API 进行分析85
4.8.1　创建 Dataset 85
4.8.2　把 DataFrame 转换为Dataset 86
4.8.3　利用数据字典访问元数据87
4.9　Data Sources API 87
4.9.1　读和写函数 88
4.9.2　内置数据源 88
4.9.3　外部数据源 93
4.10　把 Spark SQL 作为分布式 SQL引擎 97
4.10.1　把 Spark SQL 的 Thrift 服务器用于 JDBC / ODBC访问97
4.10.2　使用 beeline 客户端查询数据 98
4.10.3　使用 spark-sql CLI 从 Hive查询数据99
4.10.4　与 BI 工具集成100
4.11　Hive on Spark 100
4.12　小结100
第5章　利用Spark Streaming和Structured Streaming进行实时分析102
5.1　实时处理概述 103
5.1.1　Spark Streaming 的优缺点 104
5.1.2　Spark Streaming 的发展史104
5.2　Spark Streaming 的架构 104
5.2.1　Spark Streaming 应用程序流106
5.2.2　无状态和有状态的流处理107
5.3　Spark Streaming 的变换和动作 109
5.3.1　union 109
5.3.2　join 109
5.3.3　transform 操作 109
5.3.4　updateStateByKey 109
5.3.5　mapWithState 110
5.3.6　窗口操作 110
5.3.7　输出操作 111
5.4　输入数据源和输出存储 111
5.4.1　基本数据源 112
5.4.2　高级数据源 112
5.4.3　自定义数据源112
5.4.4　接收器的可靠性 112
5.4.5　输出存储113
5.5　使用 Kafka 和 HBase 的 Spark Streaming113
5.5.1　基于接收器的方法 114
5.5.2　直接方法（无接收器）116
5.5.3　与 HBase 集成117
5.6　Spark Streaming 的高级概念118
5.6.1　使用 DataFrame118
5.6.2　MLlib 操作119
5.6.3　缓存/持久化 119
5.6.4　Spark Streaming 中的容错机制 119
5.6.5　Spark Streaming 应用程序的性能调优 121
5.7　监控应用程序 122
5.8　结构化流概述123
5.8.1　结构化流应用程序的工作流123
5.8.2　流式 Dataset 和流式

前沿

Preface　前　　言本书讲解了Apache Spark和Hadoop的基础知识，以及如何通过简单的方式将它们与最常用的工具和技术集成在一起。所有Spark组件（Spark Core、Spark SQL、DataFrame、Dataset、Conventional Streaming、Structured Streaming、MLlib、GraphX和Hadoop核心组件）、HDFS、MapReduce和Yarn 都在 Spark Hadoop 集群的实现示例中进行了深入的探讨。
大数据分析行业正在从 MapReduce 转向Spark。因此，本书深入讨论了 Spark 相比 MapReduce 的优势，从而揭示出它在内存计算速度方面的好处。我们还会讲解如何运用 DataFrame API、Data Sources API，以及新的 Dataset API 来构建大数据分析应用程序。书中还讲解了如何使用 Spark Streaming 配合 Apache Kafka 和 HBase 进行实时数据分析，以帮助构建流式应用程序（streaming application）。新的结构化流（Structured Streaming）概念会通过物联网（Internet of Things，IOT）用例来解释。在本书中，机器学习技术会使用 MLLib、机器学习流水线和 SparkR 来实现；图分析则会利用Spark的GraphX 和GraphFrames 组件包来进行。
本书还介绍了基于Web的笔记本（如Jupyter和Apache Zeppelin）和数据流工具Apache NiFi，它们用于分析和可视化数据，以及利用 Livy 服务器把Spark作为一个服务提供给用户。
本书包含的内容第 1 章从宏观的角度讲解了大数据分析的概念，并介绍了在Apache Hadoop和Apache Spark平台上使用的工具和技术，以及一些最常见的用例。
第 2 章介绍了 Hadoop 和 Spark 平台的基础知识。该章还讲解了Spark与MapReduce 有何不同，以及Hadoop平台上的Spark有哪些优点。随后介绍如何安装集群，以及如何设置分析所需的工具。
第 3 章介绍了 Spark 的更深层概念，例如 Spark Core 内部结构、如何使用键值对RDD、Spark程序的生命周期、如何构建Spark应用程序、如何持久化和缓存 RDD，以及如何使用 Spark 资源管理器（Standalone、Yarn 和 Mesos）。
第 4 章涵盖了Data Sources API、DataFrames API 和新的 Dataset API。本章会特别重点地讲解 DataFrame API 的用途，以及如何对具有内置数据源（CSV、Json、Parquet、ORC、JDBC 和 Hive）和外部数据源（如Avro、Xml 和 Pandas）的 DataFrame API 进行分析。Spark-on-HBase 连接器部分解释了如何使用 DataFrame 分析 Spark 中的 HBase 数据。该章还讲解了如何使用 Spark SQL 作为分布式 SQL 引擎。
第 5 章讲解了实时分析的含义，以及 Spark Streaming 与 Storm、trident、Flink 和 Samza 等其他实时引擎的不同之处。其中描述了具有输入数据源和输出存储的 Spark Streaming 的架构，涵盖无状态和有状态的流处理，以及使用基于接收器的方法和直接方法，把 Kafka 作为数据源，把 HBase 作为存储。该章还讲解了应用程序在驱动进程（Driver）或执行进程（Executor）出现故障的情况下，有关 Spark 流的容错概念。结构化流（Structured Streaming）的概念会通过一个物联网（IOT）的用例来解释。
第 6 章用 Jupyter、Zeppelin 和 Hue 等工具介绍了基于 Web 的笔记本。该章还介绍了 Livy REST 服务器，它用于把 Spark 构建为服务，并在多个用户之间共享 Spark RDD。该章还介绍了 Apache NiFi，它可以利用 Spark 和 Hadoop 构建数据流。
第 7 章旨在更深入地讲解利用 Spark 和 Hadoop 来实现数据科学中用到的机器学习技术。该章介绍了 Spark 使用的机器学习算法，包括垃圾邮件的检测、实现和构建机器学习流水线（machine learning pipeline）的方法，还讲解了使用 H2O 和 Hivemall 实现机器学习的方法。
第 8 章详细介绍了协同过滤技术，并解释了如何使用 Spark 和 Mahout 构建实时推荐引擎。
第 9 章介绍了图处理、GraphX 与 Giraph 的区别，以及 GraphX 的各种图运算，如创建图、计数、过滤、度、三元组、修改、连接、属性变换、顶点 RDD 和边 RDD 运算等。它还通过一个航班分析用例讲解了 GraphX 算法，如三角计数和连通分量。该章还介绍了基于 DataFrame 的新 GraphFrames 组件，用来解释模式发现（motif finding）这样的一些概念。
第 10 章讲解了 R 语言和 SparkR 之间的差异，以及如何开始通过 shell 脚本在 local、standalone 和 Yarn 模式下使用 SparkR 。该章还介绍了如何把 SparkR 与 RStudio、DataFrame、机器学习算法，以及 Apache Zeppelin 配套使用。
学习本书所需的资源为了方便入门，本书中的实践练习会在 Cloudera、Hortonworks、MapR 或预构建的 Spark for Hadoop 的虚拟机（VM）上演示。同样的练习也可以在更大的集群上运行。
在你的笔记本电脑上使用虚拟机的必要条件有：
内存：8 GB 及以上CPU：至少 2 个虚拟 CPU必须为 Windows 或 Linux 操作系统安装最新版本的 VMWare player 或 Oracle VirtualBoxMac 上需要安装最新版本的 Oracle VirtualBox 或 VMWare Fusion需要在 BIOS 里启用虚拟化浏览器：推荐使用 Chrome 25 、IE 9 、Safari 6 或 Firefox 18 （HDP Sandbox 无法在 IE 10 上运行）PuttyWinS