大数据实践 PDF下载

编辑推荐

本书介绍了目前大数据处理的两套主流框架Hadoop和Spark，包括Hadoop分布式文件系统、MapReduce计算框架、HBase数据库、Hive结构化数据处理模块、Spark计算框架和Spark SQL 结构化数据处理模块。书中按照顺序由浅入深地介绍了各模块的系统原理、部署方法、配置方法、基本操作等内容。本书侧重于实践操作，通过实践学习大数据技术，在使用大数据工具的过程中使读者逐步了解大数据处理的基本概念、方法和步骤，强化实际操作能力。可以作为大数据初学者的自学教材和参考手册。；

内容简介

本书内容涵盖了目前使用*为广泛的大数据处理系统Hadoop生态圈中的几大核心软件系统：分布式大数据处理系统Hadoop、数据库HBase、数据仓库工具Hive、内存大数据计算框架Spark和Spark SQL，详细介绍了它们的架构、工作原理、部署方法、常用配置、常用操作命令、SQL引擎等内容。本书对上述几大系统的各种安装部署方式给出了详细步骤，常用命令也都有具体示例介绍，是一本实操性很强的工具书，能帮助初学者快速掌握这几款常用的大数据处理系统。本书以浅显易懂的语言风格和图文并茂的操作示例引领读者迈入大数据实践之门，可以作为培养应用型人才的课程教材，也可作为开发人员的自学教材和参考手册。

作者简介

袁晓东-数据库和大数据专家，1998年毕业于南京大学计算机系，获软件博士学位。曾任职于Oracel公司纽约分部、趋势科技南京研发中心，现为南京市领军型科技创业人才，云白科技创始人，江苏省计算机学会软件专委会委员，东南大学研究生院校外导师。；；

大数据实践 PDF下载

第1章 ； 大数据概述
1.1 ； 从数据库到大数据库 1
1.1.1 ；关系型数据库 1
1.1.2 ；大数据库 2
1.2 ； 大数据库的类型 4
1.3 ； 大数据库的应用 5
习题1 8
参考文献 8
第2章 ； Hadoop基础
2.1 ；Hadoop简介 9
2.2 ；Hadoop部署 14
2.2.1 ；单节点部署 14
2.2.2 ；伪分布式部署 18
2.2.3 ；集群部署 25
2.3 ； ；Hadoop常用命令 33
2.3.1 ；用户命令 33
2.3.2 ；管理命令 35
2.3.3 ；启动/关闭命令 36
2.4 ；HDFS常用命令 38
2.4.1 ；用户命令 38
2.4.2 ；管理命令 39
实验1 ； Hadoop实验 41
习题2 42
参考文献 42
第3章 ； Hadoop数据库HBase
3.1 ；HBase简介 43
3.1.1 ；体系架构 43
3.1.2 ；数据模型 46
3.1.3 ；主要特性 51
3.2 ；HBase部署 51
3.2.1 ；准备工作 51
3.2.2 ；单节点部署 53
3.2.3 ；伪分布式部署 55
3.2.4 ；集群部署 57
3.2.5 ；版本升级 61
3.3 ；HBase配置 63
3.3.1 ；配置文件 63
3.3.2 ；主要配置项 65
3.3.3 ；配置建议 69
3.3.4 ；客户端配置 72
3.4 ；HBase Shell 72
3.4.1 ；交互模式 73
3.4.2 ；非交互模式 82
3.5 ；HBase模式设计 84
3.5.1 ；设计准则 84
3.5.2 ；列族属性88
3.5.3 ；表属性 91
3.5.4 ；设计实例 94
3.6 ；HBase安全 97
3.6.1 ；安全访问配置 97
3.6.2 ；数据访问权限控制 99
实验2 ； HBase集群搭建 100
习题3 101
参考文献 102
第4章 ； 数据仓库工具Hive
4.1 ；Hive简介 103
4.1.1 ；工作原理 104
4.1.2 ；体系架构 104
4.1.3 ；数据模型 106
4.2 ；Hive部署 108
4.2.1 ；Hive部署模式 109
4.2.2 ；Hive内嵌模式部署 110
4.2.3 ；Hive本地和远程模式部署 113
4.3 ；Hive配置 115
4.4 ；Hive接口 117
4.4.1 ；Hive Shell接口 117
4.4.2 ；Hive Web接口 119
4.5 ；Hive SQL 122
4.5.1 ；数据类型 122
4.5.2 ；DDL语句 122
4.5.3 ；DML语句 137
4.6 ；Hive操作实例 146
实验3 ； Hive实验 147
习题4 150
参考文献 150
第5章 ； 内存大数据计算框架Spark
5.1 ；Spark简介 151
5.1.1 ；Spark概览 151
5.1.2 ；Spark生态系统BDAS 152
5.1.3 ；Spark架构与原理 153
5.2 ；Spark部署 155
5.2.1 ；准备工作 155
5.2.2 ；Spark单节点部署 156
5.2.3 ；Spark集群部署 157
5.3 ；Spark配置 169
5.3.1 ；Spark属性 169
5.3.2 ；环境变量配置 171
5.3.3 ；日志配置 171
5.3.4 ；查看配置 172
5.4 ；Spark RDD 173
5.4.1 ；RDD特征 174
5.4.2 ；RDD转换操作 174
5.4.3 ；RDD依赖 175
5.4.4 ；RDD行动操作 177
5.5 ；Spark Shell 177
5.5.1 ；准备工作 177
5.5.2 ；启动Spark Shell 178
5.5.3 ；创建RDD 179
5.5.4 ；转换RDD 180
5.5.5 ；执行RDD作业 181
实验4 ； Spark Standalone集群搭建 184
习题5 185
参考文献 185
第6章 ； Spark SQL
6.1 ； SparkSQL简介 186
6.1.1 ；Spark SQL概览 186
6.1.2 Spark SQL特性 188
6.1.3 Spark SQL架构与原理 188
6.1.4 和Hive的兼容性 190
6.1.5 数据类型 191
6.2  分布式SQL引擎 192
6.2.1 Spark SQL配置 192
6.2.2 Spark SQL CLI 195
6.2.3 Thrift JDBC/ODBC Server的搭建与测试 198
6.3  使用DataFrameAPI处理结构化数据 201
实验5  Thrift JDBC/ODBC Server的搭建与测试 205
习题6 206
参考文献 206
附录A  大数据和人工智能实验环境
附录B  Hadoop环境要求
附录C  名词解释

前沿

前言近年来信息技术迅速发展，互联网、移动、云计算、物联网等技术不断浸入到人们的生活和各行业中，影响和改变着传统的生活与工作方式。普及的移动设备、随处部署的物联网设备、互联网后台服务、云计算中心时刻都在产生大量的数据，由此产生了数据的爆炸式增长。企业现在要处理的数据无论从规模还是产生速度上都远远超过了以前，传统的数据处理技术已无法适应当前需求。大数据处理技术因此诞生并迅速发展，一方面满足了传统的数据处理需求，另一方面利用大数据技术挖掘出的有价值信息促进了信息技术的应用和发展。大数据技术最初发展于互联网搜索引擎公司，如Google、YAHOO!等，这些公司要检索海量的互联网数据，对大数据处理有着实际的需求。Google公司于2003年发表了分布式文件系统论文，于2004年发表了MapReduce数据处理框架论文，把Google的大数据处理方法和系统公开了。随后基于这两篇论文的开源项目Hadoop诞生了，并在2006年发布了0.1.0版本。YAHOO!公司最初尝试了Hadoop，在2006年部署了300台机器的集群，并且逐步扩大集群规模。由于使用Hadoop处理大数据非常有效，并且Hadoop是开源软件，可以使用普通的机器搭建集群，不少公司开始使用Hadoop。从2007年的3家公司到2008年的20家公司，使用Hadoop的公司越来越多，包括YAHOO!、Facebook、腾讯、阿里巴巴等。其中不少公司还参与到Hadoop开源项目中，截止到2011年Facebook、LinkedIn、eBay、IBM集体贡献了20万行代码。大公司使用并参与改进Hadoop，使得Hadoop项目迅速发展，功能逐渐丰富、性能不断提高、稳定性得到了增强，Hadoop发展为大数据处理的主流工具和框架之一。在Hadoop的应用中也发现，基于MapReduce的数据处理框架存在着性能瓶颈，不适合响应性能要求高的数据处理。而Hadoop生态圈中的另一分布式计算框架Spark能够较好地解决这个问题。Spark诞生于加州大学伯克利分校的AMP实验室，最初的目标是迭代计算，适用于机器学习等领域（当时Hadoop数据处理框架的目标是数据批处理），后来发展为既适合数据批处理又适合迭代计算的并行处理框架。Spark的发展非常迅速，2010年开源；2013年贡献给Apache基金会；2014年成为Apache基金会顶级项目。项目活跃，版本更新快。Spark和Hadoop框架类似，都使用普通机器搭建集群，并且兼容Hadoop的分布式文件系统和HBase数据库。不同的是，Spark充分利用了内存资源，并且提供了比MapReduce更加灵活和丰富的计算框架。使用Spark处理大数据，响应时间更快、编程语言丰富（支持Java、Scala、Python、R语言）、数据处理效率高。随着Spark的不断发展，Spark自己也形成了庞大的生态圈，包括数据存储、计算框架、结构化数据处理、机器学习、流式处理等重要模块，成为主流的大数据处理工具和框架之一。Spark并非是Hadoop的替代，而是与Hadoop取长补短，相互兼容，各自适用于不同需求的数据处理和计算。本书介绍了目前大数据处理的两套主流框架Hadoop和Spark，包括 Hadoop 分布式文件系统、MapReduce 计算框架、HBase 数据库、Hadoop结构化数据处理模块Hive、Spark计算框架和Spark结构化数据处理模块Spark SQL。这些模块都是生态圈中重要的基本模块，模块间存在着依赖关系，如Hive中使用到了MapReduce计算框架、Spark计算框架中使用到了Hadoop文件系统等。书中按照顺序由浅入深地介绍了各模块的系统原理、部署方法、配置方法、基本操作等内容。本书侧重于实践操作，通过实践学习大数据技术，在使用大数据工具的过程中使读者逐步了解大数据处理的基本概念、方法和步骤，强化实际操作能力，为进一步学习其他大数据技术打下良好的基础。本书第1章和第2章由廖若飞编写，第3章由袁晓东编写，第4章由张爱民编写，第5章和第6章由黄必栋编写。本书编写过程中得到了刘鹏教授和清华大学出版社王莉、徐瑞鸿编辑的大力支持和悉心指导，在此深表感谢！虽然在完稿前我们反复审查校对，力求做到内容清晰无误、便于学习理解，但疏漏和不完善之处仍在所难免，恳请读者批评指正，不吝赐教。
袁晓东 2017.11