Hadoop构建数据仓库与实战分析 PDF下载

编辑推荐

暂无

内容简介

本书从Hadoop背景、特性、安装等开始，逐步讲解其配置、解决方案、元数据解析等内容。本书共10章，主要内容包括：Hadoop简介，Hadoop的安装与配置，HDFS HA及解决方案，HDFS元数据解析，Hadoop的元数据备份方案，Hadoop的BackupNode方案，MapReduce设计理念与基本架构，MapReduce编程模型，YARN设计理念与基本架构，YARN基础库。本书可作为高等院校计算机等相关专业的大数据或相关课程的教材，也可供大数据领域的工程技术人员学习、参考。

作者简介

小牛学堂是在线教育平台，网站内建设有在线学习行业课程专栏体系，通过用户基础推荐合适的学习方案，关联推荐课程，并通过大数据行为轨迹定位进行学员学习跟进。主要提供以SAP项目、云计算及大数据项目、Unity3D游戏开发项目的在线学习，直播互动，免费学习课程等服务。

Hadoop构建数据仓库与实战分析 PDF下载

目 录
第1章 Hadoop简介 1
1.1 Hadoop相关介绍 1
1.1.1 Hadoop概述 1
1.1.2　Hadoop的历史 1
1.1.3　Hadoop的功能与作用 1
1.1.4　Hadoop的优势 2
1.1.5　Hadoop的应用现状与趋势 2
1.2　Hadoop的项目 2
1.3　Hadoop的体系结构 4
1.4　Hadoop与分布式开发 5
1.5 Hadoop计算模型 8
1.6　Hadoop的数据管理 8
1.6.1　HDFS的数据管理 8
1.6.2　HBase的数据管理 10
1.6.3 Hive的数据管理 11
1.7　Hadoop集群安全策略 12
思考练习 14
第2章 Hadoop的安装与配置 15
2.1 在Linux上安装与配置Hadoop 15
2.1.1 安装JDK1.6 15
2.1.2　配置SSH免密码登录 16
2.1.3 安装并运行Hadoop 17
2.2　在Mac OSX上安装与配置Hadoop 19
2.2.1　安装Homebrew 19
2.2.2　使用Homebrew安装Hadoop 19
2.2.3　配置SSH和使用Hadoop 19
2.3　在Windows上安装与配置Hadoop 19
2.3.1　安装JDK1.6或更高版本 19
2.3.2　安装Cygwin 20
2.3.3　配置环境变量 20
2.3.4　安装sshd服务 20
2.3.5　启动sshd服务 20
2.3.6　配置SSH免密码登录 20
2.3.7　安装并运行Hadoop 21
2.4　安装与配置Hadoop集群 21
2.4.1　网络拓扑 21
2.4.2　定义集群拓扑 22
2.4.3　建立和安装Cluster 22
2.5　日志分析及几个小技巧 28
思考练习 29
第3章 HDFS HA及解决方案 30
3.1 HDFS系统架构 30
3.2 HA定义 31
3.3 HDFS HA原因分析及应对措施 31
3.3.1 可靠性 31
3.3.2 可维护性 32
3.4 Hadoop的HA解决方案 32
3.4.1 Hadoop的元数据备份方案 32
3.4.2 Hadoop的SecondaryNameNode方案 33
3.4.3 Hadoop的CheckpointNode方案 33
3.4.4 Hadoop的BackupNode方案 34
3.4.5 DRDB方案 34
3.4.6 Facebook的AvatarNode方案 34
3.5 方案的优点与缺点比较 35
思考练习 36
第4章 HDFS元数据解析 37
4.1 概述 37
4.2 内存元数据结构 37
4.2.1 INode 37
4.2.2 Block 38
4.2.3 BlockInfo和DatanodeDescriptor 39
4.2.4 小结 39
4.2.5 代码分析—元数据结构 39
4.3 磁盘元数据文件 43
4.4 format情景分析 45
4.5 元数据应用场景分析 56
思考练习 57
第5章 Hadoop的元数据备份方案 58
5.1 运行机制分析 58
5.1.1 NameNode启动加载元数据情景分析 59
5.1.2 元数据更新及日志写入情景分析 67
5.1.3 Checkpoint过程情景分析 73
5.1.4 元数据可靠性机制 95
5.2 使用说明 95
思考练习 96
第6章 Hadoop的BackupNode方案 97
6.1 BackupNode概述 97
6.1.1 系统架构 97
6.1.2 使用原则 97
6.2 运行机制分析 98
6.2.1 运行机制 98
6.2.2 元数据操作情景分析 113
6.2.3 日志池机制 119
6.2.4 故障切换机制 122
6.3 实验方案说明 124
6.4 构建实验环境 124
6.4.1 网络拓扑 124
6.4.2 系统安装及配置 124
6.4.3 安装JDK 131
6.4.4 虚拟机集群架设 132
6.4.5 NameNode安装及配置 133
6.4.6 BackupNode安装及配置 133
6.4.7 DataNode安装及配置 134
6.4.8 Clients安装及配置 134
6.5 异常解决方案 134
6.5.1 异常情况分析 134
6.5.2 NameNode配置 134
6.5.3 BackupNode配置 139
6.5.4 DataNode 配置 141
6.5.5 NameNode 宕机切换实验 143
6.5.6 NameNode 宕机读/写测试 148
思考练习 153
第7章 MapReduce设计理念与基本架构 154
7.1 Hadoop MapReduce设计目标 154
7.2 MapReduce编程模型概述 154
7.2.1 MapReduce编程模型简介 154
7.2.2 MapReduce编程实例 156
7.3 Hadoop基本架构 157
7.3.1 HDFS架构 158
7.3.2 Hadoop MapReduce架构 159
7.4 Hadoop MapReduce作业的生命周期 160
思考练习 162
第8章 MapReduce编程模型 163
8.1　MapReduce编程模型概述 163
8.1.1　MapReduce编程接口体系结构 163
8.1.2　新版与旧版MapReduce API比较 164
8.2　MapReduce API基本概念 165
8.2.1　序列化 165
8.2.2　Reporter参数 166
8.2.3　回调机制 166
8.3　Java API解析 167
8.3.1　作业配置与提交 167
8.3.2　InputFormat接口的设计与实现 170
8.3.3　OutputFormat接口的设计与实现 174
8.3.4　Mapper与Reducer解析 177
8.3.5　Partitioner接口的设计与实现 180
8.4　非Java API解析 181
8.4.1　Hadoop Streaming的实现原理 181
8.4.2　Hadoop Pipes的实现原理 184
8.5　Hadoop工作流 187
8.5.1　JobControl的实现原理 187
8.5.2　ChainMapper/ChainReducer的实现原理 189
8.5.3　Hadoop工作流引擎 191
思考练习 192
第9章 YARN设计理念与基本架构 193
9.1 YARN产生背景 193
9.1.1 MRv1的局限性 193
9.1.2　轻量级弹性计算平台 194
9.2　Hadoop基础知识 195
9.2.1　术语解释 195
9.2.2　Hadoop的版本变迁 196
9.3　YARN基本设计思想 198
9.3.1　基本框架对比 198
9.3.2　编程模型对比 200
9.4　YARN基本架构 200
9.4.1　YARN基本组成结构 200
9.4.2　YARN通信协议 202
9.5　YARN工作流程 203
9.6　多角度理解YARN 204
9.6.1　并行编程 204
9.6.2　资源管理系统 204
9.6.3　云计算 204
思考练习 205
第10章 YARN基础库 206
10.1 YARN基础库概述 206
10.2 第三方开源库 206
10.2.1　Protocol Buffers 206
10.2.2　Apache Avro 209
10.3　底层通信库 211
10.3.1　RPC通信模型 212
10.3.2　Hadoop RPC的特点概述 213
10.3.3　RPC总体架构 213
10.3.4　Hadoop RPC使用方法 214
10.3.5　Hadoop RPC类详解 215
10.3.6　Hadoop RPC参数调优 219
10.3.7　YARN RPC实现 219
10.3.8　YARN RPC应用实例 221
10.4　服务库与事件库 225
10.4.1　服务库 225
10.4.2　事件库 226
10.4.3　YARN服务库和事件库的使用方法 226
10.4.4　事件驱动带来的变化 229
10.5　状态机库 230
10.5.1　YARN状态转换方式 230
10.5.2　状态机类 230
10.5.3　状态机的使用方法 230
10.5.4　状态机可视化 233
10.6　源代码阅读引导 233
思考练习 234
参考文献 235

前沿

前；；；言
Hadoop是一个由Apache基金会开发的分布式计算平台。用户可以在不了解分布式底层细节的情况下开发分布式程序，充分利用集群的优势实现高速运算和存储。
Hadoop实现了一个分布式文件系统（Hadoop Distributed File System，HDFS）。HDFS具有高容错性的特点，可以用来设计、部署在价格低廉的硬件上，同时它可提供高吞吐量来访问应用程序中的数据，适合有超大数据集的应用程序。HDFS放宽了可移植操作系统接口（Portable Operating System Interface of Unix，POSIX）的要求，可以用流的形式访问文件系统中的数据。
本书从Hadoop背景、特性、安装等开始，逐步讲解其配置、解决方案、元数据解析等内容。第1、2章对Hadoop的历史、功能与应用、体系结构等方面进行简要介绍，并且详细地介绍在Linux、Windows等多个操作系统环境下安装与配置Hadoop集群的步骤，便于读者借鉴。从第3章开始，依次讲解HDFS HA及解决方案、HDFS元数据解析、Hadoop的元数据备份方案、Hadoop的BackupNode方案等，主要结合具体实例，使读者对Hadoop有一定了解。从第7章开始，进一步讲解MapReduce及YARN的相关知识，包括MapReduce设计理念与基本架构、MapReduce编程模型、YARN设计理念与基本架构、YARN基础库等。
本书结合实例对Hadoop进行讲解，从Hadoop基础知识着手，引导读者了解及搭建基本环境，由浅入深地引导读者开展Hadoop的相关学习。本书结合实例，给出详细的代码，实例代码演示中所涉及的环境在相关章节中有多处说明，读者可根据自身实际情况进行参考。
由于写作仓促且作者水平有限，本书难免存在不足，恳请各位专家、学者、读者批评指正。

；；；；；；；；；；；；；；；；；；；；；；；；；；；；；；；；作；者；；；
；；；；；；；；；；；；；；；；；；；；；；；；；；；；；；；；；；； 2019年4月