欢迎光临
免费的PDF电子书下载网站

大数据技术和应用 PDF下载

编辑推荐

以Hadoop、Spark两大生态系统为基础,以大数据背景、软件、采集、存储、处理、分析、可视化、安全以及应用为线索,结合Flume、Sqoop、HDFS、HBase、Kafka、Kylin、Hive、Redis、MongoDB等主要组件技术,详解大数据技术基础。

 ;

内容简介

这是一本大数据技术入门的简明教材。全书理论和实践相结合,以应用实战为主,深入浅出地讲解每个知识点,对每个应用实验按学习习惯,分步骤讲解,每个步骤都有文字说明和效果截图,使读者能清晰地知晓动手实操的效果和错误之处。 全书分为9章,全面介绍了大数据技术的相关基础知识、HDFS和数据库、采集传输工具、挖掘分析算法、Spark计算框架、可视化、大数据安全、大数据应用等内容,着重介绍了HDFS分布式文件系统、NoSQL等各种数据库、数据仓库Hive,以及数据采集分析技术,并配套了详细的实验教程以及练习题。 本书适合作为高等院校计算机、软件工程、大数据专业高职、本科生的教材,同时可供企业中从事大数据开发的工程师和科技工作者参考。

作者简介

陈建平,资深讲师,技术总监,10年相关项目经历。长期从事大数据相关研究分析工作,曾担任IBM(上海)高级数据分析经理。

大数据技术和应用 PDF下载

目录

目 ; 录

第1章 ; 了解大数据............................................................................................................ 1

1.1 ; 大数据处理的基础技术........................................................................................................................... 1

1.1.1 ; 大数据相关概念.......................................................................................................................... 1

1.1.2 ; 大数据处理流程.......................................................................................................................... 2

1.1.3 ; 大数据处理基础技术................................................................................................................. 3

1.2 ; 主流大数据技术........................................................................................................................................ 6

1.2.1 ; 主流大数据技术各阶段............................................................................................................. 6

1.2.2 ; Hadoop生态系统....................................................................................................................... 6

1.2.3 ; Hadoop核心组件简介.............................................................................................................. 7

1.3 ; 大数据平台解决方案................................................................................................................................ 8

1.3.1 ; Cloudera........................................................................................................................................ 8

1.3.2 ; Hortonworks................................................................................................................................. 8

1.3.3 ; MapR............................................................................................................................................. 9

1.3.4 ; FusionInsight................................................................................................................................ 9

1.3.5 ; Transwarp Data Hub................................................................................................................ 10

1.4 ; 大数据发展现状和趋势......................................................................................................................... 11

1.4.1 ; 大数据市场规模........................................................................................................................ 11

1.4.2 ; 国内大数据发展面临的问题.................................................................................................. 11

1.4.3 ; 大数据发展趋势........................................................................................................................ 11

1.5 ; 习题............................................................................................................................................................ 12

第2章 ; 大数据基础软件................................................................................................... 14

2.1 ; Linux基础介绍....................................................................................................................................... 14

2.1.1 ; 用户和用户组管理................................................................................................................... 14

2.1.2 ; 文件和目录操作........................................................................................................................ 19

2.1.3 ; 文本编辑器................................................................................................................................ 23

2.2 ; Java基础介绍......................................................................................................................................... 25

2.2.1 ; Java基础.................................................................................................................................... 25

2.2.2 ; 编程开发..................................................................................................................................... 29

2.2.3 ; Java开发环境配置.................................................................................................................. 29

2.3 ; SQL语言基础介绍................................................................................................................................. 32

2.3.1 ; 数据库基础................................................................................................................................ 32

2.3.2 ; SQL简介.................................................................................................................................... 34

2.3.3 ; SQL语法.................................................................................................................................... 34

2.3.4 ; SQL基础语法............................................................................................................................ 36

2.4 ; 实验一:在Linux中安装和使用Java.............................................................................................. 38

2.4.1 ; 本实验目标................................................................................................................................ 38

2.4.2 ; 本实验知识点............................................................................................................................ 38

2.4.3 ; 项目实施过程............................................................................................................................ 39

2.4.4 ; 常见问题..................................................................................................................................... 45

2.5 ; 实验二:在Linux中安装和使用MySQL......................................................................................... 46

2.5.1 ; 本实验目标................................................................................................................................ 46

2.5.2 ; 本实验知识点............................................................................................................................ 46

2.5.3 ; 项目实施过程............................................................................................................................ 47

2.5.4 ; 常见问题..................................................................................................................................... 54

2.6 ; 习题............................................................................................................................................................ 55

第3章 ; 大数据采集.......................................................................................................... 59

3.1 ; 大数据采集技术介绍............................................................................................................................. 59

3.2 ; 常见采集工具和厂商............................................................................................................................. 60

3.2.1 ; 搜索引擎查看............................................................................................................................ 60

3.2.2 ; 工具分类..................................................................................................................................... 61

3.3 ; 八爪鱼采集器介绍.................................................................................................................................. 63

3.3.1 ; 八爪鱼采集原理........................................................................................................................ 63

3.3.2 ; 八爪鱼实现的功能................................................................................................................... 63

3.4 ; 爬山虎采集器介绍.................................................................................................................................. 65

3.4.1 ; 爬山虎介绍................................................................................................................................ 65

3.4.2 ; 产品特点和核心技术............................................................................................................... 65

3.4.3 ; 软件界面..................................................................................................................................... 66

3.5 ; 流数据采集工具Flume.......................................................................................................................... 68

3.5.1 ; Flume背景................................................................................................................................. 68

3.5.2 ; Flume NG基本架构................................................................................................................. 68

3.5.3 ; Flume案例分析........................................................................................................................ 70

3.6 ; 数据传输工具Sqoop介绍.................................................................................................................... 73

3.6.1 ; Sqoop工具介绍........................................................................................................................ 73

3.6.2 ; Sqoop2特性.............................................................................................................................. 74

3.6.3 ; Sqoop案例................................................................................................................................. 76

3.6.4 ; Sqoop问题集............................................................................................................................ 77

3.7 ; 实验三:Sqoop的安装配置及使用.................................................................................................... 78

3.7.1 ; 本实验目标................................................................................................................................ 78

3.7.2 ; 本实验知识点............................................................................................................................ 79

3.7.3 ; 项目实施过程............................................................................................................................ 79

3.7.4 ; 常见问题..................................................................................................................................... 87

3.8 ; 实验四:Kafka的安装、配置及使用............................................................................................... 90

3.8.1 ; 本实验目标................................................................................................................................ 90

3.8.2 ; 本实验知识点............................................................................................................................ 90

3.8.3 ; 项目实施过程............................................................................................................................ 91

3.8.4 ; 常见问题..................................................................................................................................... 97

第4章 ; 大数据存储.......................................................................................................... 99

4.1 ; 数据库和数据仓库.................................................................................................................................. 99

4.1.1 ; 数据库类型简介........................................................................................................................ 99

4.1.2 ; 数据仓库介绍.......................................................................................................................... 101

4.2 ; 分布式文件系统HDFS........................................................................................................................ 103

4.2.1 ; HDFS介绍............................................................................................................................... 103

4.2.2 ; HDFS体系结构...................................................................................................................... 106

4.3 ; 分布式分析引擎Kylin介绍............................................................................................................... 108

4.3.1 ; Kylin简介................................................................................................................................ 108

4.3.2 ; Kylin基本原理和架构........................................................................................................... 109

4.3.3 ; Kylin的最新特性................................................................................................................... 114

4.4 ; 大数据仓库Hive................................................................................................................................... 115

4.4.1 ; Hive简介................................................................................................................................. 115

4.4.2 ; Hive体系结构......................................................................................................................... 116

4.4.3 ; Hive数据存储模型................................................................................................................ 118

4.4.4 ; Hive应用场景......................................................................................................................... 121

4.5 ; NoSQL数据库....................................................................................................................................... 122

4.5.1 ; NoSQL简介............................................................................................................................. 122

4.5.2 ; NoSQL在系统架构中的应用.............................................................................................. 125

4.6 ; 键-值存储数据库Memcached、Redis............................................................................................ 128

4.6.1 ; Redis基本介绍....................................................................................................................... 128

4.6.2 ; Redis命令总结....................................................................................................................... 128

4.7  面向文档数据库MongoDB介绍...................................................................................................... 130

4.7.1  MongoDB简介....................................................................................................................... 130

4.7.2  MongoDB深入剖析.............................................................................................................. 131

4.8  实验五:Hadoop的安装、配置及HDFS使用............................................................................. 133

4.8.1  本实验目标.............................................................................................................................. 133

4.8.2  本实验知识点.......................................................................................................................... 133

4.8.3  项目实施过程.......................................................................................................................... 133

4.8.4  常见问题.................................................................................................................................. 147

4.9  实验六:Redis数据库的安装与使用............................................................................................... 148

4.9.1  本实验目标.............................................................................................................................. 148

4.9.2  本实验知识点.......................................................................................................................... 148

4.9.3  项目实施过程.......................................................................................................................... 148

4.9.4  常用命令及配置文件介绍.................................................................................................... 154

4.10  实验七:HBase的安装和配置....................................................................................................... 158

4.10.1  本实验目标............................................................................................................................ 158

4.10.2  本实验知识点....................................................................................................................... 159

4.10.3  项目实施过程....................................................................................................................... 159

4.10.4  常见问题................................................................................................................................ 165

4.11  习题....................................................................................................................................................... 167

第5章  Spark内存计算框架........................................................................................... 170

5.1  Spark简介.............................................................................................................................................. 170

5.2  Spark技术原理..................................................................................................................................... 173

5.2.1  Spark与Hadoop的对比...................................................................................................... 173

5.2.2  Spark运行架构....................................................................................................................... 175

5.2.3  RDD基本概念........................................................................................................................ 177

5.3  Spark SQL介绍..................................................................................................................................... 181

5.4  Spark Streaming实时处理技术......................................................................................................... 183

5.5  Spark MLlib数据挖掘库..................................................................................................................... 184

5.5.1  机器学习定义.......................................................................................................................... 184

5.5.2  Spark MLlib的优势............................................................................................................... 187

5.5.3  Spark MLlib支持的机器学习类型..................................................................................... 187

5.6  Spark GraphX图处理技术................................................................................................................. 188

5.7  Spark编程实例..................................................................................................................................... 190

第6章  大数据分析挖掘................................................................................................. 194

6.1  大数据分析概述.................................................................................................................................... 194

6.1.1  数据分析与数据挖掘的区别................................................................................................ 194

6.1.2  常见数据分析挖掘工具........................................................................................................ 195

6.1.3  数据挖掘十大算法介绍........................................................................................................ 197

6.2  分类算法概述........................................................................................................................................ 199

6.2.1  分类预测常见算法................................................................................................................. 199

6.2.2  分类预测实现过程................................................................................................................. 199

6.3  决策树算法介绍.................................................................................................................................... 201

6.3.1  决策树的定义.......................................................................................................................... 201

6.3.2  决策树的优缺点..................................................................................................................... 202

6.3.3  决策树的发展.......................................................................................................................... 202

6.3.4  决策树的构造流程................................................................................................................. 202

6.3.5  决策树的相关指标................................................................................................................. 203

6.3.6  常见决策树算法..................................................................................................................... 204

6.4  推荐算法介绍........................................................................................................................................ 208

6.4.1  常用推荐算法介绍................................................................................................................. 208

6.4.2  主要推荐方法对比................................................................................................................. 210

6.5  Apriori算法介绍................................................................................................................................... 211

6.5.1  Apriori算法.............................................................................................................................. 211

6.5.2  频繁项集的评估标准............................................................................................................. 211

6.5.3  Apriori算法思想..................................................................................................................... 212

6.5.4  Apriori算法流程..................................................................................................................... 213

6.5.5  Apriori算法小结..................................................................................................................... 214

第7章  大数据可视化..................................................................................................... 215

7.1  大数据可视化概述............................................................................................................................... 215

7.1.1  数据可视化概述..................................................................................................................... 215

7.1.2  数据可视化流程..................................................................................................................... 216

7.1.3  数据可视化展现形式............................................................................................................. 217

7.2  大数据可视化工具概述....................................................................................................................... 229

7.3  Tableau大数据可视化技术简介....................................................................................................... 230

7.4  Power BI大数据可视化技术简介..................................................................................................... 231

7.5  实验八:ECharts的安装与使用....................................................................................................... 232

7.5.1  本实验目标.............................................................................................................................. 232

7.5.2  本实验知识点.......................................................................................................................... 232

7.5.3  项目实施过程.......................................................................................................................... 232

7.5.4  常见问题.................................................................................................................................. 243

第8章  大数据安全........................................................................................................ 246

8.1  大数据安全的挑战与对策.................................................................................................................. 246

8.2  数据管理安全........................................................................................................................................ 248

8.3  数据安全分析........................................................................................................................................ 250

第9章  大数据应用........................................................................................................ 253

9.1  企业大数据应用.................................................................................................................................... 253

9.1.1  中国企业大数据现状............................................................................................................. 253

9.1.2  企业大数据应用需求............................................................................................................. 254

9.2  互联网大数据........................................................................................................................................ 256

9.2.1  互联网行业拥有大数据的关键因素................................................................................... 256

9.2.2  大数据方案后的价值体现.................................................................................................... 256

9.3  零售大数据............................................................................................................................................ 258

9.4  医疗大数据............................................................................................................................................ 262

9.5  大数据未来展望.................................................................................................................................... 263

9.6  大数据和云计算的关系....................................................................................................................... 265

9.6.1  云计算的特征.......................................................................................................................... 265

9.6.2  云计算与大数据的关系........................................................................................................ 265

9.6.3  云计算及其分布式结构是重要途径................................................................................... 266

9.6.4  云数据库的必然..................................................................................................................... 267

9.6.5  云数据库需满足的要求........................................................................................................ 267

9.6.6  云计算能为大数据带来的变化........................................................................................... 268

参考文献......................................................................................................................... 269

 

 

前沿

前  言

 

 

当前,大数据(Big Data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。

大数据在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。

大数据专业作为典型的“新工科”专业,在课程体系建设方面还处于摸索阶段,没有太多可供借鉴的现成经验,需要一大批热爱教学的高等学校教师积极投身课程体系和教材建设工作中,共同推动全国高等学校大数据教学工作不断向前发展。

关于本书

本书定位为大数据从入门到应用的简明系统教材,特色是理论和实践相结合,更多的是以应用实战为主,内容全面、深入浅出地讲解了每个知识点,通俗易懂。对每个实验基本是按照学习的习惯,分步骤式地讲述,每个步骤都有文字说明和效果截图,使得读者能很清晰地知晓自己在动手实操过程的效果和错误之处,一目了然。

本书使用Apache原生态的Hadoop环境,包括关系型数据库MySQL、分布式文件系统HDFS、非结构化数据库HBase、数据接入工具Kafka等组件。在撰写过程中,参考了大量网络的资料,百度、谷歌、知乎、CSDN等知名网站,阅读了多种大数据相关方面的文献,对比了各自介绍文章的优势和不足。

本书分为9章,第1章着重介绍大数据的基础应用和发展趋势;第2章着重介绍大数据开发所需的技术基础,包括Linux、Java、SQL等;第3章着重介绍常见的数据采集器以及采集工具Flume和传输工具Sqoop;第4章着重介绍大数据存储相关的HDFS和NoSQL、Redis、MongoDB、Neo4j等数据库;第5章着重介绍数据仓库Hive和大数据挖掘分析算法及应用;第6章着重介绍了Spark计算框架的原理机制和处理技术;第7章着重介绍了大数据可视化原理和Tebleau、Power BI等工具;第8章分析了大数据技术目前所面临的安全挑战及其对策;第9章对大数据技术的应用和发展做出了展望。全书提供了与章节学习内容配套的实验,重点章节配有习题。

本书适合的读者

本书是大数据技术的基础用书,适合作为中职、高职、应用型本科的前导课程,在整个人才培养方案里面属于大数据的专业基础课程部分,建议授课时间为第2学期或者第3学期。

本书同时也适合大数据的初学者,对大数据感兴趣的技术人员,以及想从事大数据开发工作的初学者。

阅读本书之前,读者应该具有如下基础:有一定计算机网络基础知识;了解 Linux基本原理;懂得基本的Linux操作命令;对Java语言有一定了解;了解传统的数据库的理论知识。

联系方式与资源下载

大数据技术的发展非常快速,在今后的工作中,笔者以及德明教育会持续跟踪大数据的发展趋势,把大数据最新的技术和本书相关补充资料及时发布到官网,方便本书读者通过网络及时获取到相关信息。由于笔者能力有限,书中难免存在不足之处,望广大读者能够提出宝贵意见。

本书是完整的学校指导用书,配套资源包括课程标准、课程大纲、教学日历、教学课件PPT、实训手册、习题题目和答案、期末考试卷和答案、实验环境、教学的微课、实验的视频,非常方便各高校教师的授课,相关的配套资源会在德明教育官网持续更新,欢迎大家在线查看和下载。网页地址二维码如下:

 

 

 

 

陈建平

2020年1月

 

 

大数据技术和应用 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:大数据技术和应用