欢迎光临
免费的PDF电子书下载网站

HAWQ数据仓库与数据挖掘实战 PDF下载

编辑推荐

HAWQ安装、连接、对象与资源管理、查询优化、备份恢复、高可用性、运维监控ETL处理、自动调度系统、维度表与事实表技术、OLAP与数据的图形化表示降维、协同过滤、关联规则、回归、聚类、分类等常见数据挖掘与机器学习方法 ;

内容简介

Apache HAWQ是一个SQL-on-Hadoop产品,它非常适合用于Hadoop平台上快速构建数据仓库系统。HAWQ具有大规模并行处理、完善的SQL兼容性、支持存储过程和事务、出色的性能表现等特性,还可与开源数据挖掘库MADlib轻松整合,从而使用SQL就能进行数据挖掘与机器学习。 《HAWQ数据仓库与数据挖掘实战》内容分技术解析、实战演练与数据挖掘三个部分共27章。技术解析部分说明HAWQ的基础架构与功能特性,包括安装、连接、对象与资源管理、查询优化、备份恢复、高可用性等。实战演练部分用一个完整的示例,说明如何使用HAWQ取代传统数据仓库,包括ETL处理、自动调度系统、维度表与事实表技术、OLAP与数据的图形化表示等。数据挖掘部分用实例说明HAWQ与MADlib整合,实现降维、协同过滤、关联规则、回归、聚类、分类等常见数据挖掘与机器学习方法。 《HAWQ数据仓库与数据挖掘实战》适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。

作者简介

王雪迎 ,毕业于中国地质大学计算机专业,高级工程师,从事数据库、数据仓库相关技术工作20年。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。著有图书《Hadoop数据仓库实践》。

HAWQ数据仓库与数据挖掘实战 PDF下载

目录

目 ; 录

第一部分 HAWQ技术解析

第1章 ; HAWQ概述 ; ; ; ; ; 3

1.1 ;SQL-on-Hadoop ; ; ; ; ; ; 3

1.1.1 ;对SQL-on-Hadoop的期待 3

1.1.2 ;SQL-on-Hadoop的实现方式 ; ; ; ; ; ; 4

1.2 ;HAWQ简介 ; ; ; 6

1.2.1 ;历史与现状 ; ; ; ; ; ; ; ; 7

1.2.2 ;功能特性 ; ; ; 7

1.3 ;HAWQ系统架构 ; ; ; 9

1.3.1 ;系统架构 ; ; ; 10

1.3.2 ;内部架构 ; ; ; 11

1.4 ; 为什么选择HAWQ ; ; ; ; ; ; ; ; 12

1.4.1 ;常用SQL-on-Hadoop产品的不足 ; ; ; ; ; 12

1.4.2 ;HAWQ的可行性 ; ; ; ; ; ; ; ; ; 13

1.4.3 ;适合DBA的解决方案 ; ; ; ; ; ; ; 18

1.5 ; 小结 ; ; ; ; ; ; ; 18

第2章 ; HAWQ安装部署 ; ; ; ; ; 19

2.1 ; 安装规划        19

2.1.1 选择安装介质    19

2.1.2 选择HAWQ版本         20

2.1.3 确认Ambari与HDP的版本兼容性  20

2.2  安装前准备   21

2.2.1 确认最小系统需求    21

2.2.2 准备系统安装环境    22

2.2.3 建立本地Repository  24

2.3  安装Ambari   25

2.4  安装HDP集群       27

2.5  安装HAWQ    29

2.6  启动与停止HAWQ         34

2.6.1 基本概念    34

2.6.2 操作环境    34

2.6.3 基本操作    36

2.7  小结        40

第3章  连接管理          41

3.1  配置客户端身份认证   41

3.2  管理角色与权限   45

3.2.1 HAWQ中的角色与权限     45

3.2.2 管理角色及其成员    46

3.2.3 管理对象权限    48

3.2.4 口令加密    49

3.3 psql连接HAWQ     50

3.4 Kettle连接HAWQ 52

3.5  连接常见问题        55

3.6  小结        56

第4章  数据库对象管理     57

4.1  创建和管理数据库        57

4.2  创建和管理表空间        61

4.3  创建和管理模式   65

4.4  创建和管理表        72

4.4.1 创建表  72

4.4.2 删除表         74

4.4.3 查看表对应的HDFS文件  74

4.5  创建和管理视图   76

4.6  管理其他对象        77

4.7  小结        78

第5章  分区表     79

5.1 HAWQ中的分区表         79

5.2  确定分区策略        80

5.3  创建分区表   81

5.3.1 范围分区与列表分区         81

5.3.2 多级分区    86

5.3.3 对已存在的非分区表进行分区         86

5.4  分区消除        87

5.5  分区表维护   91

5.6  小结        98

第6章  存储管理          99

6.1  数据存储选项        99

6.2  数据分布策略        103

6.2.1 数据分布策略概述    103

6.2.2 选择数据分布策略    104

6.2.3 数据分布用法    108

6.3  从已有的表创建新表   111

6.4  小结        117

第7章  资源管理          118

7.1 HAWQ资源管理概述    118

7.1.1 全局资源管理    118

7.1.2 HAWQ资源队列          119

7.1.3 资源管理器配置原则         119

7.2  配置独立资源管理器   120

7.3  整合YARN      123

7.4  管理资源队列        129

7.5  查询资源管理器状态   134

7.6  小结        137

第8章  数据管理          138

8.1  基本数据操作        138

8.2  数据装载与卸载   141

8.2.1 gpfdist协议及其外部表    141

8.2.2 基于Web的外部表   148

8.2.3 使用外部表装载数据         151

8.2.4 外部表错误处理         151

8.2.5 使用hawq load装载数据  152

8.2.6 使用COPY复制数据 155

8.2.7 卸载数据    157

8.2.8 hawq register      159

8.2.9 格式化数据文件         159

8.3  数据库统计   163

8.3.1 系统统计    163

8.3.2 统计配置    166

8.4 PXF 168

8.4.1 安装配置PXF      168

8.4.2 PXF profile   168

8.4.3 访问HDFS文件  170

8.4.4 访问Hive数据   174

8.4.5 访问JSON数据  186

8.4.6 向HDFS中写入数据  190

8.5  小结        194

第9章  过程语言          195

9.1 HAWQ内建SQL语言    195

9.2 PL/pgSQL函数        197

9.3  给HAWQ内部函数起别名   198

9.4  表函数   198

9.5  参数个数可变的函数   201

9.6  多态类型        202

9.7 UDF管理        205

9.8 UDF实例——递归树形遍历        207

9.9  小结        214

第10章  查询优化       215

10.1 HAWQ的查询处理流程      215

10.2 GPORCA查询优化器  217

10.2.1 GPORCA的改进        218

10.2.2 启用GPORCA   224

10.2.3 使用GPORCA需要考虑的问题       225

10.2.4 GPORCA的限制        227

10.3 性能优化      228

10.4 查询剖析      232

10.5 小结      238

第11章  高可用性       239

11.1 备份与恢复 239

11.1.1 备份方法  239

11.1.2 备份与恢复示例       242

11.2 高可用性      247

11.2.1 HAWQ高可用简介   247

11.2.2 Master节点镜像      248

11.2.3 HAWQ文件空间与HDFS高可用     251

11.2.4 HAWQ容错服务       260

11.3 小结      262

第二部分  HAWQ实战演练

第12章  建立数据仓库示例模型       265

12.1 业务场景      265

12.2 数据仓库架构      267

12.3 实验环境      268

12.4 HAWQ相关配置  269

12.5 创建示例数据库 273

12.5.1 在hdp4上的MySQL中创建源库对象并生成测试数据        273

12.5.2 创建目标库对象       275

12.5.3 装载日期维度数据  283

12.6 小结      284

第13章  初始ETL         285

13.1 用Sqoop初始数据抽取      285

13.1.1 覆盖导入  286

13.1.2 增量导入  286

13.1.3 建立初始抽取脚本  287

13.2 向HAWQ初始装载数据     288

13.2.1 数据源映射       288

13.2.2 确定SCD处理方法  288

13.2.3 实现代理键       289

13.2.4 建立初始装载脚本  289

13.3 建立初始ETL脚本      291

13.4 小结      293

第14章  定期ETL         294

14.1 变化数据捕获      294

14.2 创建维度表版本视图 296

14.3 创建时间戳表      297

14.4 用Sqoop定期数据抽取      298

14.5 建立定期装载HAWQ函数 298

14.6 建立定期ETL脚本      303

14.7 测试      303

14.7.1 准备测试数据  303

14.7.2 执行定期ETL脚本   304

14.7.3 确认ETL过程正确执行   305

14.8 动态分区滚动      307

14.9 准实时数据抽取 309

14.10 小结   317

第15章  自动调度执行ETL作业        318

15.1 Oozie简介   318

15.2 建立工作流前的准备 320

15.3 用Oozie建立定期ETL工作流   324

15.4 Falcon简介  328

15.5 用Falcon process调度Oozie工作流 329

15.6 小结      332

第16章  维度表技术   333

16.1 增加列 333

16.2 维度子集      342

16.3 角色扮演维度      348

16.4 层次维度      354

16.4.1 固定深度的层次       355

16.4.2 多路径层次       357

16.4.3 参差不齐的层次       359

16.5 退化维度      361

16.6 杂项维度      366

16.7 维度合并      374

16.8 分段维度      380

16.9 小结      386

第17章  事实表技术   387

17.1 周期快照      388

17.2 累积快照      394

17.3 无事实的事实表 404

17.4 迟到的事实 409

17.5 累积度量      416

17.6 小结      422

第18章  联机分析处理       423

18.1 联机分析处理简介      423

18.1.1 概念  423

18.1.2 分类  424

18.1.3 性能  426

18.2 联机分析处理实例      427

18.2.1 销售订单  427

18.2.2 行列转置  433

18.3 交互查询与图形化显示      440

18.3.1 Zeppelin简介    440

18.3.2 使用Zeppelin执行HAWQ查询       441

18.4 小结      448

第三部分  HAWQ数据挖掘

第19章  整合HAWQ与MADlib 451

19.1 MADlib简介         452

19.2 安装与卸载MADlib     455

19.3 MADlib基础         458

19.3.1 向量  458

19.3.2 矩阵  469

19.4 小结      484

第20章  奇异值分解   485

20.1 奇异值分解简介 485

20.2 MADlib奇异值分解函数     486

20.3 奇异值分解实现推荐算法 489

20.4 小结      501

第21章  主成分分析   502

21.1 主成分分析简介 502

21.2 MADlib的PCA相关函数    504

21.3 PCA应用示例      509

21.4 小结      513

第22章  关联规则方法       514

22.1 关联规则简介      514

22.2 Apriori算法 517

22.2.1 Apriori算法基本思想       517

22.2.2 Apriori算法步骤       518

22.3 MADlib的Apriori算法函数         518

22.4 Apriori应用示例 519

22.5 小结      524

第23章  聚类方法       525

23.1 聚类方法简介      525

23.2 k-means方法       526

23.2.1 基本思想  527

23.2.2 原理与步骤       527

23.2.3 k-means算法    527

23.3 MADlib的k-means相关函数     529

23.4 k-means应用示例       532

23.5 小结      537

第24章  回归方法       538

24.1 回归方法简介      538

24.2 Logistic回归         539

24.3 MADlib的Logistic回归相关函数       539

24.4 Logistic回归示例         542

24.5 小结      546

第25章  分类方法       547

25.1 分类方法简介      547

25.2 决策树 549

25.2.1 决策树的基本概念  549

25.2.2 决策树的构建步骤  549

25.3 MADlib的决策树相关函数         551

25.4 决策树示例 555

25.5 小结      561

第26章  图算法   562

26.1 图算法简介 562

26.2 单源最短路径      565

26.3 MADlib的单源最短路径相关函数     566

26.4 单源最短路径示例      567

26.5 小结      569

第27章  模型验证       570

27.1 交叉验证简介      570

27.2 MADlib的交叉验证相关函数     573

27.3 交叉验证示例      575

27.4 小结      578

前沿

从Bill Inmon在1991年提出数据仓库的概念,至今已有27的时间。在这期间人们所面对的数据,以及处理数据的方法都发生了翻天覆地的变化。随着互联网和移动终端等应用的普及,运行在单机或小型集群上的传统数据仓库不再能满足数据处理要求,以Hadoop及其生态圈组件为代表的新一代分布式大数据处理平台逐渐流行。

尽管大多数人都在讨论某种技术或者架构可能会胜过另一种,而我更倾向于从“Hadoop与数据仓库密切结合”这个角度来探讨问题。一方面企业级数据仓库中已经积累了大量的数据和应用程序,它们仍然在决策支持领域发挥着至关重要的作用;另一方面,传统数据仓库从业人员的技术水平和经验也在逐步提升。如何才能使积累的大量历史数据平滑过渡到Hadoop上,并让熟悉传统数据仓库的技术人员能够有效地利用已有的知识,可以在大数据处理平台上一展身手,才是一个亟待解决的问题。

虽然伴随着大数据的概念也出现了以MongoDB、Cassandra为代表的NoSQL产品,但不可否认,SQL仍然是数据库、数据仓库中常使用的开发语言,也是传统数据库工程师或DBA的必会语言,从它出现至今一直被广泛使用。首先,SQL有坚实的关系代数作为理论基础,经过几十年的积累,查询优化器也已经相当成熟。再者,对于开发者,SQL作为典型的非过程语言,其语法相对简单,但语义却相当丰富。据统计95%的数据分析问题都能用SQL解决,这是一个相当惊人的结论。那么SQL怎样才能与Hadoop等大数据技术结合起来,既能复用已有的技能,又能有效处理大规模数据呢?在这样的需求背景下,近年来涌现出越来越多的SQL-on-Hadoop软件,比如从早期的Hive到Spark SQL、Impala、Kylin等,本书所论述的就是众多SQL-on-Hadoop产品中的一员——HAWQ。

我最初了解到HAWQ是在BDTC 2016大会上,Apache HAWQ的创始人常雷博士介绍了该项目。他的演讲题目是“以HAWQ轻松取代传统数据仓库”,这正是我的兴趣所在。HAWQ支持事务、性能表现优良,关键是与SQL的兼容性非常好,甚至支持存储过程。对于传统数据仓库的开发人员,使用HAWQ转向大数据平台,学习成本应该是比较低的。我个人认为HAWQ更适合完成Hadoop上的数据仓库及其数据分析与挖掘工作。

本书内容

一年来,我一直在撰写HAWQ相关的文章和博客,并在利用HAWQ开发Hadoop数据仓库方面做了一些基础的技术实践,本书就是对这些工作的系统归纳与总结。全书分为技术解析、实战演练、数据挖掘三个部分,共27章。

技术解析部分说明HAWQ的基础架构与功能特性,包括安装部署、客户端与服务器连接、数据库对象与资源管理、查询优化、备份恢复、高可用性等。

实战演练部分通过一个简单而完整的示例,说明使用HAWQ设计和实现数据仓库的方法,包括初始和定期ETL处理、自动调度系统、维度表与事实表技术、联机分析处理与数据的图形化表示等。这部分旨在将传统数据仓库建模、SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。

数据挖掘部分结合应用实例,讨论将HAWQ与MADlib整合,MADlib是一个开源机器学习库,提供了精确的数据并行实现、统计和机器学习方法,可以对结构化和非结构化数据进行分析。它的主要目的是可以非常方便地加载到数据库中,扩展数据库的分析功能。MADlib仅用SQL查询就能做简单的数据挖掘与机器学习,实现矩阵分解、降维、关联规则、回归、聚类、分类、图算法等常见数据挖掘方法。这也是HAWQ的一大亮点。

本书适合数据库管理员、数据仓库技术人员、Hadoop或其他大数据技术人员,也适合高等院校和培训学校相关专业的师生教学参考。

在本书编写过程中,得到了很多人的帮助与支持。感谢清华大学出版社图格事业部的老师和编辑们,他们的辛勤工作使得本书得以尽早与读者见面。感谢CSDN提供的技术分享平台,给我有一个将博客文章整理成书的机会。感谢我在优贝在线的所有同事,特别是技术部的同事们,他们在工作中的鼎力相助,使我有更多的时间投入到本书的写作中。感谢Apache HAWQ的创始人常雷先生在百忙之中为本书写推荐序。最后,感谢家人对我一如既往地支持。

因为水平有限,错漏之处在所难免,希望读者批评指正。

 著  者

2018年1月

HAWQ数据仓库与数据挖掘实战 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:HAWQ数据仓库与数据挖掘实战