欢迎光临
免费的PDF电子书下载网站

云计算环境下Spark大数据处理技术与实践 PDF下载

编辑推荐

以云计算与大数据融合的视角阐述了云计算环境下Spark大数据处理与相应的算法实现结合经典案例,详解云计算环境下Spark大数据处理生态圈,包括系统结构、大数据存储、批处理、流计算、交互式数据分析、并行机器学习架构与算法等技术掌握云计算环境下Spark大数据处理的架构搭建和算法实现过程等关键技术,扩展大数据从业人员的理论与实践能力 ;

内容简介

本书围绕互联网重大的技术革命:云计算、大数据进行阐述。云计算环境下大数据处理构建是国民经济发展的信息基础设施,发展自主的云计算核心技术,拥有自己的信息基础设施,当前正处于重要的机遇期。 本书重点在大数据与云计算的融合,给出了大数据与云计算的一些基本概念,并以Spark为开发工具,全面讲述云环境下的Spark大数据技术部署与典型案例算法实现,*后介绍了国内经典Spark大数据与云计算融合的架构与算法。 本书适合云计算环境下Spark大数据技术人员、Spark MLlib机器学习技术人员,也适合高等院校和培训机构相关专业的师生教学参考。

作者简介

邓立国,东北大学计算机应用博士毕业。2005年开始在沈阳师范大学软件学院、教育技术学院任教,主要研究方向:数据挖掘、知识工程、大数据处理、云计算、分布式计算等。以第一作者发表学术论文30多篇(26篇EI),主编教材 1 部,主持科研课题6项,经费10余万元,多次获得校级科研优秀奖,作为九三社员提出的智慧城市提案被市政府采纳,研究成果被教育厅等单位采用。

云计算环境下Spark大数据处理技术与实践 PDF下载

目录

第1章 ; 大数据处理概述 1

1.1 ; 大数据处理技术概述 1

1.1.1 ;什么是大数据 1

1.1.2 ;大数据来源 2

1.1.3 ;大数据应用价值 3

1.1.4 ;大数据技术特点和研究内容 4

1.1.5 ;大数据计算与系统 5

1.2 ; 数据挖掘及其相关领域应用9

1.2.1 ;数据挖掘概述 9

1.2.2 ;数据挖掘与机器学习 11

1.2.3 ;数据挖掘与数据库 11

1.2.4 ;数据挖掘与统计学 12

1.2.5 ;数据挖掘与决策支持 12

1.2.6 ;数据挖掘与云计算 13

1.3 ; 大数据应用 13

1.3.1 ;大数据应用案例 13

1.3.2 ;大数据应用场景 14

1.3.3 ;大数据应用平台方案案例 21

1.4 ; 并行计算简介 23

1.5 ;Hadoop介绍 24

1.6 ; 本章小结 26

第2章 ; 云计算时代 27

2.1 ; 云计算概述 27

2.1.1 ;云计算概念 27

2.1.2 ;云计算发展简史 28

2.1.3 ;云计算实现机制 30

2.1.4 ;云计算服务形式 31

2.1.5 ;云计算时代的数据库NoSQL 32

2.2 ; 云计算发展动力源泉 34

2.3 ; 云计算技术分析 34

2.3.1 ;编程模式 34

2.3.2 ;海量数据云存储技术 37

2.3.3 ;海量数据管理技术 38

2.3.4 ;虚拟化技术 39

2.3.5 ;分布式计算 41

2.3.6 ;云监测技术 41

2.4 ; 并行计算与云计算关系 43

2.4.1 ;并行计算与云计算 44

2.4.2 ;MapReduce 45

2.5 ; 云计算发展优势 51

2.6 ; 向云实现迁移 53

2.7 ; 本章小结 55

第3章 ; 大数据与云计算关系 56

3.1 ; 云计算与大数据关系 56

3.2 ; 大数据与云计算的融合是认识世界的新工具 57

3.3 ; 大数据隐私保护是大数据云快速发展和运用的重要前提 59

3.3.1 ;云计算的安全隐私 60

3.3.2 ;大数据的安全隐私 60

3.4 ; 大数据成就云计算价值 62

3.5 ; 数据向云计算迁移 63

3.6 ; 大数据清洗 64

3.7 ; 云计算时代的数据集成技术66

3.8 ; 云推荐 67

3.9 ; 本章小结 68

第4章 ; Spark大数据处理基础 69

4.1 ;Spark大数据处理技术 69

4.1.1 ;Spark系统概述 69

4.1.2 ;Spark生态系统BDAS(伯利克分析栈) 70

4.1.3 ;Spark的用武之地 71

4.1.4 ;Spark大数据处理框架 72

4.1.5 ;Spark运行模式分类及术语 73

4.2 ;Spark 2.0.0安装配置 74

4.2.1 ;在Linux集群上安装与配置Spark 74

4.2.2 ;Spark Shell 81

4.2.3 ;Spark RDD 88

4.2.4 ;Shark(Hive on Spark大型的数据仓库系统) 91

4.3 ;Spark配置 92

4.3.1 ;环境变量 92

4.3.2 ;系统属性 93

4.3.3 ;配置日志 95

4.3.4 ;Spark 硬件配置 95

4.4 ;Spark模式部署概述 96

4.5 ;Spark Streaming实时计算框架 98

4.6 ;Spark SQL 查询、DataFrames分布式数据集和Datasets API 101

4.7 ;Spark起始点 102

4.7.1 ;SparkSession 102

4.7.2 ;SQLContext 103

4.7.3 ;创建DataFrame 104

4.7.4 ;无类型的Dataset操作(aka DataFrame Operations) 105

4.7.5 ;编程执行SQL查询语句 111

4.7.6 ;创建Dataset 112

4.7.7 ;和RDD互操作 115

4.8 ;Spark数据源 125

4.8.1 ;通用加载/保存函数 125

4.8.2 ;Parquet文件 127

4.8.3 ;JSON数据集 135

4.8.4 ;Hive表 136

4.8.5 ;用JDBC连接其他数据库 143

4.9 ;Spark性能调优 144

4.10 ;分布式SQL引擎 145

4.11 ;本章小结 146

第5章 ; Spark MLlib机器学习算法实现 147

5.1 ;Spark MLlib基础 147

5.1.1 ;机器学习 148

5.1.2 ;机器学习分类 148

5.1.3 ;机器学习常见算法 149

5.1.4 ;Spark MLlib机器学习库 152

5.1.5 ;基于Spark常用的算法举例分析 156

5.2 ;Spark MLlib矩阵向量 159

5.2.1 Breeze创建函数 159

5.2.2 Breeze元素访问 161

5.2.3 Breeze元素操作 162

5.2.4 Breeze数值计算函数 165

5.2.5 Breeze求和函数 166

5.2.6 Breeze布尔函数 167

5.2.7 Breeze线性代数函数 168

5.2.8 Breeze取整函数 169

5.2.9 Breeze三角函数 170

5.2.10 BLAS向量运算 170

5.3 Spark MLlib线性回归算法 171

5.3.1 线性回归算法理论基础 171

5.3.2 线性回归算法 172

5.3.3 Spark MLlib Linear Regression源码分析 174

5.4 Spark MLlib逻辑回归算法 183

5.4.1 逻辑回归算法 184

5.4.2 Spark MLlib Logistic Regression源码分析 186

5.5 Spark MLlib朴素贝叶斯分类算法 199

5.5.1 朴素贝叶斯分类算法 200

5.5.2 朴素贝叶斯Spark MLlib源码 203

5.6 Spark MLlib决策树算法 217

5.6.1 决策树算法 217

5.6.2 决策树实例 220

5.7 Spark MLlib KMeans聚类算法 227

5.7.1 KMeans聚类算法 227

5.7.2 Spark MLlib KMeans源码分析 228

5.7.3 MLlib KMeans实例 235

5.8 Spark MLlib FPGrowth关联规则算法 236

5.8.1 基本概念 236

5.8.2 FPGrowth算法 237

5.8.3 Spark MLlib FPGrowth源码分析 241

5.9 Spark MLlib协同过滤推荐算法 244

5.9.1 协同过滤概念 244

5.9.2 相似度度量 245

5.9.3 协同过滤算法按照数据使用分类 246

5.9.4 Spark MLlib协同过滤算法实现 247

5.9.5 Spark MLlib电影评级推荐 252

5.10 Spark MLlib神经网络算法 261

5.11 本章小结 264

第6章  Spark大数据架构系统部署 265

6.1  大数据架构介绍 265

6.2  典型的商务使用场景 266

6.2.1 客户行为分析 266

6.2.2 情绪分析 267

6.2.3 CRM Onboarding 267

6.2.4 预测 268

6.3 Spark三种分布式部署模式 268

6.3.1 Standalone模式 268

6.3.2 Spark On Mesos 模式 269

6.3.3 Spark On YARN模式 269

6.4  创建大数据架构 270

6.4.1 数据采集 270

6.4.2 数据接入 271

6.4.3 Spark流式计算 273

6.4.4 数据输出 274

6.4.5 日志摄取 274

6.4.6 机器学习 277

6.4.7 处理引擎 277

6.5 Spark单个机器集群部署 278

6.6  本章小结 280

第7章  Spark大数据处理案例分析 282

7.1 Spark on Amazon EMR 282

7.1.1 Amazon EMR 282

7.1.2 配置 Spark 283

7.1.3 以交互方式或批处理模式使用 Spark 284

7.1.4 使用 Spark 创建集群 285

7.1.5 访问 Spark 外壳 286

7.1.6 添加 Spark 287

7.2 Spark在AWSKrux的应用 289

7.3 Spark在商业网站中的应用 290

7.4 Spark在Yahoo!的应用 291

7.5 Spark在Amazon EC2上运行 292

7.6  淘宝应用Spark onYARN架构 296

7.7  腾讯云大数据解决方案297

7.8  雅虎开源TensorFlowOnSpark298

7.9  阿里云E-MapReduce301

7.10 SequoiaDB Spark 打造一体化大数据平台 304

7.11 本章小结 305

第8章  大数据发展展望 306

8.1  大数据未来发展趋势 306

8.2  大数据给人类带来的认知冲击307

8.3  未来大数据研究突破的技术问题 308

8.4  本章小结 309

附录  Spark MLlib神经网络算法 312

参考文献 338

媒体评论

评论

前沿

麦肯锡全球研究所给出的大数据定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

大数据技术的战略意义不在于获取了庞大的数据,而在于对这些特定领域的数据进行处理分析。换而言之,关键是把这些巨大的数据实现盈利式的加工,提供效率,具有增值的处理模式。

本书背景

大数据像飓风一样席卷而来,改变着信息时代的数据处理方式。产业经营方式经历着革命性的变革,大数据与云计算的融合改变着数据处理流程和模式,对互联网、信息经济发展提出了新的方向和扩展空间。应用驱动技术发展产生的数据越多,可供分析的数据越多,越能推动研发和出现更先进的用来分析数据的工具和方法。

国家对互联网、信息经济的发展提出了方向,明确说要拓展发展新的空间,实施网络强国战略,实施“互联网 ”行动计划,发展分享经济,实施国家大数据战略,将网络强国战略作为新的一个创新的重要支撑。

本书内容

本书围绕互联网重大的技术革命:云计算、大数据(未来世界新一代信息技术的关键和核心)进行阐述。云计算环境下大数据处理构建是国民经济发展的信息基础设施,发展自主的云计算核心技术,拥有自己的信息基础设施,当前正处于重要的发展机遇期。本书重点在大数据与云计算的融合,给出了大数据与云计算的一些基本概念的同时,以Spark为开发工具,全面讲述云环境下的大数据技术部署与典型案例算法实现,最后介绍了国内经典Spark大数据与云计算融合的架构与算法。

本书目的

3年前就开始着手准备写关于大数据和云计算融合的相关技术方面的书,由于书中的算法需要模拟验证,所以交稿拖延了很长时间。目前这方面的书还不系统,还没有全面融合两者技术的书出现,也是笔者想写这本书的初衷。随着岁月侵蚀,白发杂生,大数据技术发展也日新月异。

得益于国内IT企业的后发制人战略,目前国内的IT公司在大数据应用方面已经迎头赶上了国际巨头,在云大数据技术方面的研发和技术突破经历了大幅的跨越发展。当今世界迎来大数据时代,工欲善其事,必先利其器,在大数据和云计算的规则制定和新技术研发上还需努力,这方面还需要加大研发与突破。

致谢

感谢家人给我的全身心的支持与关爱,没有你们的宽容与支持即使是10年也没法完成这本书。由于撰写时间紧迫,夜晚孤灯,每晚多想陪着妻子月夜树影婆娑,多想在闺女的校门口等待闺女背着书包颠颠地跑来。最后感谢单位给予的大力支持与帮助。

 

 

 

著者

2017年8月

免费在线读

第 1 章? 大数据处理概述 ?
大数据是当今一个最热门的话题,我们每一个人都无法置身其外。就像几年前出现的云计算一样,大数据已经引起市场的广泛关注;同样,企业迫切需要对大数据下定义。大数据缺少一个标准且普及性的定义,至少不像NIST 对云的定义那样,能被人们广泛接受。调研公司IDC的定义可能比较容易被人们所接受。它对大数据的定义是:一种新一代的技术和架构,具备高效率的捕捉、发现和分析能力,能够经济地从类型繁杂、数量庞大的数据中挖掘出价值。1.1  大数据处理技术概述近几年,大数据迅速发展成为科技界和企业界甚至世界各国政府关注的热点。《Nature》和《Science》等相继出版专刊专门探讨大数据带来的机遇和挑战。著名管理咨询公司麦肯锡称:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来”。美国政府认为大数据是“未来的新石油,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制将成为国家间和企业间新的争夺焦点。大数据已成为社会各界关注的新焦点,“大数据时代”已然来临[1]。“大数据”是一个体量特别大、数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。百度知道大数据(bigdata)的定义,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。大数据的5V特点:Volume、Velocity、Variety、Veracity、Value。1.1.1  什么是大数据“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务(AWS)大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。其研发小组对大数据的定义:“大数据是最大的、最时髦的技术,当这种现象出现时,定义就变得很混乱。”学者Kelly说:“大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数据的极限”。大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好地使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。相较于传统的数据,人们将大数据的特征总结为5个V,即体量大(Volume)、速度快(Velocity)、模态多(Variety)、难辨识(Veracity)和价值大(Value)。“大数据”首先是指数据体量(volumes)大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(Variety)多,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据;接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理;还有一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。但大数据的主要难点并不在于数据量大,因为通过对计算机系统的扩展可以在一定程度上缓解数据量大带来的挑战。其实,大数据真正难以对付的挑战来自于数据类型多样(Variety)、要求及时响应(Velocity)和数据的不确定性(Veracity)。因为数据类型多样使得一个应用往往既要处理结构化数据,同时还要处理文本、视频、语音等非结构化数据,这对现有数据库系统来说难以应付;在快速响应方面,在许多应用中时间就是利益;在不确定性方面,数据真伪难辨是大数据应用的最大挑战。追求高数据质量是对大数据的一项重要要求,最好的数据清理方法也难以消除某些数据固有的不可预测性。

云计算环境下Spark大数据处理技术与实践 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:云计算环境下Spark大数据处理技术与实践