欢迎光临
免费的PDF电子书下载网站

开源大数据分析引擎Impala实战 PDF下载

编辑推荐

暂无

内容简介

Impala是 Cloudera公司主导开发的新型查询系统,它提供 SQL语义,能查询存储在 Hadoop的 HDFS和 HBase中的 PB级大数据。Impala 1.0版比原来基于 MapReduce的 Hive SQL查询速度提升 3~90倍,因此, Impala有可能完全取代 Hive。作者基于自己在本职工作中应用 Impala的实践和心得编写了本书。

本书共分 10章,全面介绍开源大数据分析引擎 Impala的技术背景、安装与配置、架构、操作方法、性能优化,以及最富技术含量的应用设计原则和应用案例。本书紧扣目前计算技术发展热点,适合所有大数据分析人员、大数据开发人员和大数据管理人员参考使用。


作者简介

暂无

开源大数据分析引擎Impala实战 PDF下载

目录

第 1章  ;Impala概述、安装与配置  ;1 ;

1.1 Impala概述 . 1 ;

1.2 Cloudera Manager安装准备  ;2 ;

1.3 CM及 CDH安装 . 10 ;

1.4 Hive安装  ;23 ;

1.5 Impala安装 . 26 ;

第 2章  ;Impala入门示例  ;29 ;

2.1 数据加载 . 29 ;

2.2 数据查询 . 36 ;

2.3 分区表 . 37 ;

2.4 外部分区表 . 41 ;

2.5 笛卡尔连接 . 44 ;

2.6 更新元数据 . 45 ;

第 3章  ;Impala概念及架构. 47 ;

3.1 Impala服务器组件 . 47 ;

3.1.1 Impala Daemon. 47 ;

3.1.2 Impala Statestore  ;48 ;

3.1.3 Impala Catalog 49 ;

3.2 Impala应用编程 . 51 ;

3.2.1 Impala SQL方言 . 52 ;

3.2.2 Impala编程接口概述  ;52 ;

3.3 与 Hadoop生态系统集成  ;53 ;

3.3.1 与 Hive集成  ;53 ;

3.3.2 与 HDFS集成  ;53 ;

3.3.3 使用 HBase. 54 ;

第 4章  ;SQL语句 . 55 ;

4.1 注释 . 55 ;

4.2 数据类型 . 56 ;

4.2.1 BIGINT. 56 ;

4.2.2 BOOLEAN . 57 ;

4.2.3 DOUBLE 58 ;

4.2.4 FLOAT . 59 ;

4.2.5 INT 59 ;

4.2.6 REAL 60 ;

4.2.7 SMALLINT 60 ;

4.2.8 STRING 61 ;

4.2.9 TIMESTAMP . 62 ;

4.2.10 TINYINT 66 ;

4.3 常量 . 66 ;

4.3.1 数值常量  ;66 ;

4.3.2 字符串常量  ;67 ;

4.3.3 布尔常量  ;67 ;

4.3.4 时间戳常量  ;68 ;

4.3.5 NULL 68 ;

4.4 SQL操作符. 70 ;

4.4.1 BETWEEN 操作符 . 70 ;

4.4.2 比较操作符  ;71 ;

4.4.3 IN操作符 . 72 ;

4.4.4 IS NULL操作符 72 ;

4.4.5 LIKE操作符  ;73 ;

4.4.6 REGEXP操作符 74 ;

4.5 模式对象和对象名称 . 75 ;

4.5.1 别名  ;75 ;

4.5.2 标示符  ;76 ;

4.5.3 数据库  ;76 ;

4.5.4 表  ;77 ;

4.5.5 视图  ;78 ;

4.5.6 函数  ;83 ;

4.6 SQL语句. 83 ;

4.6.1 ALTER TABLE . 84 ;

4.6.2 ALTER VIEW 90 ;

4.6.3 COMPUTE STATS 92 ;

4.6.4 CREATE DATABASE  ;95 ;

4.6.5 CREATE FUNCTION . 96 ;

4.6.6 CREATE TABLE. 98 ;

4.6.7 CREATE VIEW . 103 ;

4.6.8 DESCRIBE.104 ;

4.6.9 DROP DATABASE . 106 ;

4.6.10 DROP FUNCTION  ;107 ;

4.6.11 DROP TABLE 107 ;

4.6.12 DROP VIEW  ;108 ;

4.6.13 EXPLAIN .108 ;

4.6.14 INSERT  110 

4.6.15 INVALIDATE METADATA  116 

4.6.16 LOAD DATA. 120 

4.6.17 REFRESH.124 

4.6.18 SELECT 125 

4.6.19 SHOW  143 

4.6.20 USE. 147 

4.7 内嵌函数 . 148 

4.7.1 数学函数  150 

4.7.2 类型转换函数  155 

4.7.3 时间和日期函数  155 

4.7.4 条件函数  160 

4.7.5 字符串函数  161 

4.7.6 特殊函数  166 

4.8 聚集函数 . 167 

4.8.1 AVG 167 

4.8.2 COUNT  168 

4.8.3 GROUP_CONCAT  169 

4.8.4 MAX. 169 

4.8.5 MIN  170 

4.8.6 NDV 170 

4.8.7 SUM 171 

4.9 用户自定义函数 UDF  171 

4.9.1 UDF概念 . 172 

4.9.2 安装 UDF开发包  176 

4.9.3 编写 UDF . 176 

4.9.4 编写 UDAF  179 

4.9.5 编译和部署 UDF . 183 

4.9.6 UDF性能 . 184 

4.9.7 创建和使用 UDF示例  184 

4.9.8 UDF 安全  193 

4.9.9 Impala UDF的限制 . 193 

4.10 Impala SQL &Hive QL . 193 

4.11 将 SQL移植到 Impala上  195 

第 5章  Impala shell . 201 

5.1 命令行选项 . 201 

5.2 连接到 Impalad . 209 

5.3 运行命令 . 210 

5.4 命令参考 . 210 

5.5 查询参数设置 . 211 

第 6章  Impala管理 228 

6.1 准入控制和查询队列 . 228 

6.1.1 准入控制概述  228 

6.1.2 准入控制和 YARN 229 

6.1.3 并发查询限制  229 

6.1.4 准入控制和 Impala客户端协同工作 . 230 

6.1.5 配置准入控制  230 

6.1.6 使用准入控制指导原则  236 

6.2 使用 YARN资源管理(CDH5). 237 

6.2.1 Llama进程 . 237 

6.2.2 检查计算的资源和实际使用的资源  237 

6.2.3 资源限制如何生效  238 

6.2.4 启用 Impala资源管理 . 238 

6.2.5 资源管理相关 impala-shell参数  238 

6.2.6 Impala资源管理的限制  238 

6.3 为进程,查询,会话设定超时限制 . 239 

6.4 通过代理实现 Impala高可用性  240 

6.5 管理磁盘空间 . 243 

第 7章  Impala存储 245 

7.1 文件格式选择 . 245 

7.2 Text 247 

7.2.1 查询性能  247 

7.2.2 创建文本表  248 

7.2.3 数据文件  249 

7.2.4 加载数据  249 

7.2.5 LZO压缩 . 250 

7.3 Parquet . 253 

7.3.1 创建 Parquet表 253 

7.3.2 加载数据  254 

7.3.3 查询性能  255 

7.3.4 Snappy/Gzip压缩  256 

7.3.5 与其他组件交换 Parquet数据文件 260 

7.3.6 Parquet数据文件组织方式. 260 

7.4 Avro . 263 

7.4.1 创建 Avro表 263 

7.4.2 使用 Hive创建的 Avro表  265 

7.4.3 通过 JSON指定 Avro模式  265 

7.4.4 启用压缩  265 

7.4.5 模式进化  266 

7.5 RCFile 268 

7.5.1 创建 RCFile表和加载数据. 268 

7.5.2 启用压缩  269 

7.6 SequenceFile 270 

7.6.1 创建和加载数据  270 

7.6.2 启用压缩  271 

7.7 HBase. 272 

7.7.1 支持的 Hbase列类型  273 

7.7.2 性能问题  273 

7.7.3 适用场景  280 

7.7.4 数据加载  281 

7.7.5 启用压缩  281 

7.7.6 限制  282 

7.7.7 示例  282

第 8章  Impala分区 284 

8.1 分区技术适用场合 . 284 

8.2 分区表相关 SQL语句 285 

8.3 分区修剪 . 285 

8.4 分区键列 . 288 

8.5 使用不同的文件格式 . 288 

第 9章  Impala性能优化  290 

9.1 最佳实践 . 290 

9.2 连接查询优化 . 291 

9.3 使用统计信息 . 301 

9.4 基准测试 . 309 

9.5 控制资源使用 . 309 

9.6 性能测试 . 310 

9.7 使用 EXPLAIN信息  311 

9.8 使用 PROFILE信息. 312 

第 10章  Impala设计原则与应用案例  322 

10.1 设计原则 . 322 

10.2 应用案例 . 323 

开源大数据分析引擎Impala实战 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:开源大数据分析引擎Impala实战