欢迎光临
免费的PDF电子书下载网站

基于Apache Kylin构建大数据分析平台 PDF下载

编辑推荐

 ; ;

Kyligence 联合创始人兼CEOApache Kylin项目管理委员会主席(PMC Chair)韩卿

武汉市云升科技发展有限公司董事长,智慧城市大数据、物联网和云计算之应用》作者杨正洪

万达网络科技集团大数据中心副总经理,《Spark高级数据分析》中文版译者龚少成

 ;

数据架构师,IT脱口秀(清风那个吹)创始人,《开源大数据分析引擎Impala实战》作者贾传青



等等业内专家联合推荐


        Apache Kylin将传统的数据仓库及商务智能分析能力带入到了大数据时代,作为新兴的技术已经被广大用户所使用。作为创始作者,我非常欣喜能看到关于Apache Kylin相关书籍的出版, 这无疑对中国用户更好地使用Kylin,解决实际的大数据分析架构及业务问题有很大帮助。

韩卿

Kyligence 联合创始人兼CEOApache Kylin项目管理委员会主席(PMC Chair)

 

伴随着大数据发展的三条主线是大数据技术、大数据思维和大数据实践。因为RDBMS很难处理单表10亿行数据,所以大数据技术应需而生。大数据技术从*初的解决海量数据的快速存储和读取,到今天的海量数据的OLAP,当中衍生出众多的技术产品,Apache Kylin就是其中的一个优秀产品,目标是解决大数据范畴中的OLAP

第二条主线是大数据思维。数据处理的*近几十年都被RDBMS的思想所束缚,小表、多表、表的连接、过分注重冗余性的坏处,等等,这些都限制了海量数据上的处理与分析。大数据技术出来之后,随着而来的大数据思维,给我们带来了海量数据处理的新思维。这个新思维的核心就是突破表的概念,而采用面向对象的数据模型在数据层上实现。Apache KylinCube模型就是在逐步体现大数据的思维。

*后一条主线是大数据实践。大数据实践分为数据梳理、数据建模、数据采集、数据管控、数据服务、数据可视化和数据分析。这是一环套一环的步骤,不能跳过。Apache Kylin作为数据分析环节的技术产品,一定要同数据管理的《基于Apache Kylin构建大数据分析平台》一书浅显易懂,实操性强,是目前Apache Kylin界不可多得的技术资料,值得细读和研究。

 

杨正洪

武汉市云升科技发展有限公司董事长

 

        Apache Kylin是基于MOLAP的实时大数据引擎,与Hadoop生态系统结合更加紧密,先天的优势注定了其支持更大的数据规模,更好的扩展性,独有的中国血统较其他开源软件更具本地化优势,更符合中国国情。本书包含了守壮多年的实践经验 ,系统全面的介绍了Apache Kylin技术,值得推荐。

 

贾传青

数据架构师,IT脱口秀(清風那个吹)创始人

基于Apache Kylin构建大数据分析平台 PDF下载

 

 

 

 

 

 

 

 

 

内容简介

Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,*初由eBay公司开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

本书分为21章,详细讲解Apache Kylin概念、安装、配置、部署,让读者对Apache Kylin构建大数据分析平台有一个感性认识。同时,本书从应用角度,结合Dome和实例介绍了用于多维分析的Cube算法的创建、配置与优化。*后还介绍了Kyligence公司发布KAP大数据分析平台,对读者有极大的参考价值。

本书适合大数据技术初学者、大数据分析人员、大数据架构师等,也适合用于高等院校和培训学校相关专业师生教学参考。

作者简介

蒋守壮,现就职于万达网络科技集团有限公司,资深大数据工程师,大数据实践者。曾任平安科技资深大数据分析师和架构师,CSDN社区专家,知识库特邀编辑。目前专注于DockerKubernetesMesosHadoopSparkKylin等技术领域。

基于Apache Kylin构建大数据分析平台 PDF下载

目录


第一部分 Apache Kylin基础部分
第1章 Apache Kylin前世今生 3
1.1 Apache Kylin的背景 3
1.2 Apache Kylin的应用场景 3
1.3 Apache Kylin的发展历程 4
第2章 Apache Kylin前奏 7
2.1 事实表和维表 7
2.2 星型模型和雪花型模型 7
2.2.1 星型模型 7
2.2.2 雪花型模型 8
2.2.3 星型模型示例 8
2.3 OLAP 9
2.3.1 OLAP分类 9

前沿

自2011年下半年开始,我就一直关注Apache开源社区,侧重点放在大数据方面的成熟框架和产品。在这期间,陆续研究过Hadoop、Hive、HBase、Mahout、Kafka、Flume、Storm,以及近两年很火的Spark和Flink等,和很多从事大数据的朋友一样,经历过无数的夜晚,对着电脑屏幕逐行研究这些源代码,同时也看到无数的开源爱好者和技术专家加入Hadoop开源社区,贡献自己的力量,日复一日,乐此不疲。谈起大数据,不得不提Hadoop,如今其早已发展成为了大数据处理的事实标准。Hadoop诞生于2005年,其受到Google的两篇论文(GFS和MapReduce)的启发。起初,Hadoop只是用来支撑Nutch搜索引擎的项目,从2006年开始,Hadoop脱离了Nutch,成为了Apache的顶级项目,无论是在学术界还是工业界都得到了迅猛的发展。如今已是2016年了,Hadoop十周岁了,这十年期间围绕其核心组件(HDFS、MapReduce、Yarn)陆续出现了一批工具,用来丰富Hadoop生态圈,解决大数据各方面的问题,这其中就包括Apache Kylin。

ApacheKylin(麒麟)是由eBay 研发并贡献给开源社区的Hadoop上的分布式大规模联机分析(OLAP)平台,它提供Hadoop之上的SQL查询接口及多维分析能力以支持大规模数据,能够处理TB乃至PB级别的分析任务,能够在亚秒级查询巨大的Hive表,并支持高并发。Apache Kylin于2014年10月开源,并于当年11月成为Apache孵化器项目,是eBay第一个贡献给Apache软件基金会的项目,也是第一个由中国团队完整贡献到Apache的项目,在这里对Apache Kylin的中国团队表示感谢,感谢贡献如此出色的大数据分析平台。从去年开始接触Apache Kylin,我感觉很亲切,也很惊喜。当前研究的版本为0.7.1,也就是Kylin加入Apache孵化器项目后的第一个Apache发行版本,虽然当时的Kylin存在一些问题,但是其基于Hadoop设计的框架还是很有创意和特色的。经过一年多的发展,截至目前,Apache Kylin的版本已经发展到1.5.3,并且从1.5版本开始,Apache Kylin进行了重构,支持可扩展架构,支持更多的数据源、构建引擎和存储引擎,构建算法不断优化,支持与更多的可视化工具集成等。如今,Apache Kylin已被应用在eBay、Exponential、京东、美团、明略数据、网易及其他公司。越来越多的大数据团队开始选择Apache Kylin作为公司大数据分析平台的组成部分,满足其海量数据的多维指标实时查询分析。

通过很多社区的交流分享,我发现不少朋友对Apache Kylin没有一个整体的认识,在使用过程中出现各种各样的问题,打击自信心,他们急切希望能有一本全面介绍Apache Kylin的书籍。因为我经常在博客和社区分享Apache Kylin实战方面的一些经验,所以很多朋友鼓励我能够写一本比较全面介绍Apache Kylin的书籍,帮助更多的爱好者更好地加入Apache Kylin的社区,并在生产环境中进行实践。刚开始比较犹豫,毕竟写书需要花费大量的时间和精力,而且要对读者负责,容不得半点马虎。后来有社区的几个朋友给我打电话劝说,以及清华大学出版社的夏毓彦编辑一再鼓励,还有家人的支持,我就下定决心写这本书,目的只有一个,就是希望读者能够通过这本书,对Apache Kylin有一个完整的认识,掌握各方面的技能,并最终应用在自己公司的生产环境中。

本书内容

这是一本全面介绍Apache Kylin的书籍,包括环境搭建、案例实战演示、源码分析、Cube优化等,此外还会涉及数据仓库、数据模型、OLAP、数据立方体等方面的知识。通过本书系统性学习和实战操作,朋友们将能够达到基于Apache Kylin搭建企业级大数据分析平台,并熟练掌握使用Apache Kylin多维度地分析海量数据,最终通过可视化工具展示结果。受众人群本书适合从事Hadoop、HBase、Hive和Kylin等方面工作的人员参考阅读,最好能掌握一点OLAP、数据立方体等数据仓库方面的知识。但是我相信这本书也适合任何想从事大数据方面工作的程序员和架构师。代码规范和下载本书中会涉及大量的Linux Shell命令,这些命令都是在CentOS操作系统上执行成功的,对于其他的一些Linux系统也同样适用,如有不适用的,可以查阅资料,修改命令以符合对应的操作系统。要下载本书章节中的样例代码,请到http://github.com/jiangshouzhuang下载。

读者服务

由于本人的写作能力有限,可能有些章节内容考虑并不全面,或者版本升级导致某些章节部分内容不是最新的。为了更好地为读者服务,我特意建立了一个QQ群:118152802,读者有关本书的任何问题,我都会及时给朋友们答复,谢谢支持。致谢这本书的面世,得到了很多朋友的鼎力相助,在这里感谢所有帮助我完成这本书的人。感谢公司的同事们,特别感谢项同德和万文兵两位项目经理给予的支持和鼓励,感谢施健健给予的技术支持和帮助。感谢CSDN和cnblogs博客中优秀的文章给予的技术支持。感谢清华大学出版社所有为本书的出版和发行付出了辛勤劳动的人们。最后,我要感谢我的家人,给予我的不懈支持。感谢父母帮我们照顾调皮捣蛋的宝宝;感谢妻子一如既往地照顾我的生活,给予我充足的时间用来写作。没有家人的支持和照顾,我是不可能完成这本书。

作者

2016年10月

免费在线读

第 4 章? 搭建CDH大数据平台 ?
CDH(ClouderasDistribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的ApacheHadoop构建,并集成了很多补丁,可直接用于生产环境。
CM(全称Cloudera Manager)则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机、Hadoop、Hive、Spark等服务的安装配置管理做了极大简化。
CM部署包括如下的软件安装:
? Oracle JDK安装。
? Cloudera Manager Server和Agent包安装。
? 存储相关元数据的数据库安装。
? CDH和管理服务的软件包安装。
Cloudera官方共给出了3种安装方式:
? 第一种方法必须要求所有机器都能连网。
? 第二种方法下载很多包。
? 第三种方法对系统侵入性最小,最大优点可实现全离线安装,而且重装什么的都非常方便。后期的集群统一升级也非常好。这也是我之所以选择离线安装的原因。
在安装部署CM和CDH之前,说明几点:
(1)由于我们的生产环境的集群节点比较多,这里为了方便演示,我们搭建了一个只有4个节点CDH集群,没有搭建ResourceManager的主备,以及没有HDFS的HA等,如果需要的话,可以通过CM进行动态扩展。
(2)我们的实际环境CM和CDH版本已经从5.6.0升级为5.7.0,为了方便朋友部署CDH 5.7.0版本,我们本章都是基于5.7.0版本部署的集群环境,但是截图都是5.6.0版本的(请朋友们谅解),这两个版本的部署界面和安装步骤都没什么变化,具体情况,朋友安装过程中可以进行参考。

基于Apache Kylin构建大数据分析平台 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:基于Apache Kylin构建大数据分析平台