编辑推荐
Hadoop是目前受关注的大数据处理平台和解决方案,并且已经广泛应用于生产环境。本书基于新的Hadoop(CDH5,ApacheHadoop 2.6)版本介绍Hadoop技术的相关知识,不但详细介绍了Hadoop、HDFS、YARN、MapReduce、Hive、Sqoop和HBase等,还深入探讨了Hadoop、HBase的运维和性能调优,并包含了一个具有代表性的完整的基于Hadoop的商业智能系统的设计和实现。
本书的大特点是面向实践。基础篇介绍Hadoop及相关组件的同时,包含了大量动手实例,而应用篇包含的基于Hadoop的完整实例脱胎于生产环境的真实项目。在应用篇中,读者不仅能够通过项目实战巩固基础篇的学习效果,还能学习商业智能系统的开发过程。
本书由浅至深,从理论基础到项目实战,适合Hadoop的初学者阅读,也可以作为高等院校相关课程的教学参考书。
本书主要内容
包含了Hadoop新版本的几乎所有主要特性,是Hadoop目前成熟的形态。
深入介绍了NoSQL架构模式、HBase的架构和实现,以及HBase的高级特性。
深入介绍了统一资源管理和调度平台的范型和YARN实现。
深入介绍了Hadoop、HBase性能调优,满足海量数据处理的需求。
内容简介
本书介绍了Hadoop技术的相关知识,并将理论知识与实际项目相结合。全书共分为三个部分:基础篇、应用篇和总结篇。基础篇详细介绍了Hadoop、YARN、MapReduce、HDFS、Hive、Sqoop和HBase,并深入探讨了Hadoop的运维和调优;应用篇则包含了一个具有代表性的完整的基于Hadoop的商业智能系统的设计和实现;结束篇对全书进行总结,并对技术发展做了展望。
作者简介
范东来,北京航空航天大学硕士,技术图书作者和译者,著有《Hadoop海量数据处理》(该书台湾繁体字版为《Hadoop:BigData技術詳解與專案實作》),译有《解读NoSQL》。BBD(数联铭品)大数据技术部负责人,大数据平台架构师,极客学院布道师。研究方向:并行图挖掘、去中心化应用。
目录
目录
基础篇:Hadoop基础
第1章 绪论 2
1.1 Hadoop和云计算 2
1.1.1 Hadoop的电梯演讲 2
1.1.2 Hadoop生态圈 3
1.1.3 云计算的定义 6
1.1.4 云计算的类型 7
1.1.5 Hadoop和云计算 8
1.2 Hadoop和大数据 9
1.2.1 大数据的定义 9
1.2.2 大数据的结构类型 10
1.2.3 大数据行业应用实例 12
1.2.4 Hadoop和大数据 13
1.2.5 其他大数据处理平台 14
1.3 数据挖掘和商业智能 15
1.3.1 数据挖掘的定义 15
1.3.2 数据仓库 17
1.3.3 操作数据库系统和数据仓库系统的区别 18
1.3.4 为什么需要分离的数据仓库 19
1.3.5 商业智能 19
1.3.6 大数据时代的商业智能 20
1.4 小结 21
第2章 环境准备 22
2.1 Hadoop的发行版本选择 22
2.1.1 Apache Hadoop 22
2.1.2 CDH 22
2.1.3 Hadoop的版本 23
2.1.4 如何选择Hadoop的版本 25
2.2 Hadoop架构 26
2.2.1 Hadoop HDFS架构 27
2.2.2 YARN架构 28
2.2.3 Hadoop架构 28
2.3 安装Hadoop 29
2.3.1 安装运行环境 30
2.3.2 修改主机名和用户名 36
2.3.3 配置静态IP地址 36
2.3.4 配置SSH无密码连接 37
2.3.5 安装JDK 38
2.3.6 配置Hadoop 39
2.3.7 格式化HDFS 42
2.3.8 启动Hadoop并验证安装 42
2.4 安装Hive 43
2.4.1 安装元数据库 44
2.4.2 修改Hive配置文件 44
2.4.3 验证安装 45
2.5 安装HBase 46
2.5.1 解压文件并修改Zookeeper相关配置 46
2.5.2 配置节点 46
2.5.3 配置环境变量 47
2.5.4 启动并验证 47
2.6 安装Sqoop 47
2.7 Cloudera Manager 48
2.8 小结 51
第3章 Hadoop的基石:H
Hadoop海量数据处理 技术详解与项目实战(第2版) pdf下载声明
本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版