欢迎光临
免费的PDF电子书下载网站

Spark全栈数据分析 PDF下载

编辑推荐

使用敏捷数据科学的开发方法论将科研成果转化为有意义的数据科学应用;

使用Python、Spark、Elasticsearch、Kafka、MongoDB、D3.js构建、部署、完善任意规模的数据分析应用;

帮助产品团队学会使用敏捷的方式协作开发分析应用来保障工作成效;

帮助你成长为数据科学与数据分析团队的主力成员。

 ;

内容简介

本书介绍了作者提出的敏捷数据科学的方法论,结合作者在行业中多年的实际工作经验,为数据科学团队提供了一套以类似敏捷开发的方法开展数据科学研究的实践经验。全书基于Spark做全栈数据分析,书中展示了工业界一些常见工具的使用,包括从前端显示到后端处理的各个环节,手把手帮助数据科学家快速将理论转化为真正面向用户的应用程序,从而让读者在利用数据创造真正价值的同时,也能不断完善自己的研究。本书适合初学者阅读,数据科学家、工程师、分析师都能在本书中有所收获。

作者简介

Russell Jurney在赌场游戏中练出了数据分析的技能,构建了网络应用程序分析美国和墨西哥的老虎机的表现。在涉足创业、互动媒体、记者等行业后,他搬到硅谷,在Ning和LinkedIn构建分析型应用。Russell现在是Data Syndrome的首席顾问,他帮助公司使用本书所介绍的原则和方法构建分析性产品。

王道远,毕业于浙江大学,目前就职于阿里巴巴计算平台事业部,在加入阿里巴巴之前,曾在英特尔亚太研发有限公司大数据部门工作了五年。

Spark全栈数据分析 PDF下载

目录

目录
前言 .................................................................................................. xiv
第Ⅰ部分 准备工作
第1章 理论 ..........................................................................................3
导论 .............................................................................................................................3
定义 .............................................................................................................................5
方法学 ................................................................................................................5
敏捷数据科学宣言 ............................................................................................6
瀑布模型的问题 .......................................................................................................10
研究与应用开发 ..............................................................................................11
敏捷软件开发的问题 ...............................................................................................14
最终质量:偿还技术债 ....................................................................................14
瀑布模型的拉力 ..............................................................................................15
数据科学过程 ...........................................................................................................16
设置预期 ..........................................................................................................17
数据科学团队的角色 ......................................................................................18
认清机遇与挑战 ..............................................................................................19
适应变化 ..........................................................................................................21
过程中的注意事项 ...................................................................................................23
代码审核与结对编程 ......................................................................................25
敏捷开发的环境:提高生产效率 ....................................................................25
用大幅打印实现想法 ......................................................................................27
第2章 敏捷工具 ................................................................................29
可伸缩性=易用性 ...................................................................................................30
敏捷数据科学之数据处理 .......................................................................................30
搭建本地环境 ...........................................................................................................32
配置要求 ..........................................................................................................33
配置Vagrant .....................................................................................................33
下载数据 ..........................................................................................................33
搭建EC2环境 ............................................................................................................34
下载数据 ..........................................................................................................38
下载并运行代码 .......................................................................................................38
下载代码 ..........................................................................................................38
运行代码 ..........................................................................................................38
Jupyter笔记本 ...................................................................................................39
工具集概览 ...............................................................................................................39
敏捷开发工具栈的要求 ..................................................................................39
Python 3 ...........................................................................................................39
使用JSON行和Parquet序列化事件 .................................................................42
收集数据 ..........................................................................................................45
使用Spark进行数据处理 .................................................................................45
使用MongoDB发布数据 .................................................................................48
使用Elasticsearch搜索数据 .............................................................................50
使用Apache Kafka分发流数据 .......................................................................54
使用PySpark Streaming处理流数据 ...............................................................57
使用scikit-learn与Spark MLlib进行机器学习 ................................................58
使用 Apache Airflow(孵化项目)进行调度 ....................................................59
反思我们的工作流程 ......................................................................................70
轻量级网络应用 ..............................................................................................70
展示数据 ..........................................................................................................73
本章小结 ...................................................................................................................75
第3章 数据 ........................................................................................77
飞行航班数据 ...........................................................................................................77
航班准点情况数据 ..........................................................................................78
OpenFlights数据库 ...........................................................................................79
天气数据 ...................................................................................................................80
敏捷数据科学中的数据处理 ...................................................................................81
结构化数据vs.半结构化数据 ..........................................................................81
SQL vs. NoSQL .........................................................................................................82
SQL ...................................................................................................................83
NoSQL与数据流编程 ......................................................................................83
Spark: SQL NoSQL ......................................................................................84
NoSQL中的表结构 ..........................................................................................84
数据序列化 ......................................................................................................85
动态结构表的特征提取与呈现 ......................................................................85
本章小结 ...................................................................................................................86
第Ⅱ部分 攀登金字塔
第4章 记录收集与展示 ......................................................................89
整体使用 ...................................................................................................................90
航班数据收集与序列化 ...........................................................................................91
航班记录处理与发布 ...............................................................................................94
把航班记录发布到MongoDB ..................

前沿

译者序
这几年,大数据、人工智能都是计算机学科中非常热门的话题,数据科学也越来越受到各公司的关注。我接触到的很多不同行业的公司都对大数据与人工智能的应用跃跃欲试,甚至部分公司早已尝到其中的甜头。不过还有很多公司并没有真正用上它们那些本应蕴含着无穷价值的数据,也有很多公司已经学会从数据中挖掘信息,但得到的信息无法及时转化为真正的价值。毕竟大数据还是比较新的技术,大多数公司还在探索中前进。很多公司早就拥有了自己的应用开发团队,雇佣一些数据科学的专家也并不难,难的是如何让开发工程师和数据科学家理解对方的工作,把他们整合到一个团队中,从而真正创造出价值。
本书作者对数据有天生的热情,且通过在各种行业的工作经历形成了对不同角色的理解,更拥有多年的实际数据分析应用开发经验。在他的职业生涯中,也曾遇到过很多公司在尝试运用数据分析时会遇到的各种问题。如今,他在咨询公司工作,专门帮助各种公司进行大数据方面的数据分析。本书正是作者多年经验的总结与升华,涵盖了从团队建设、工作制度到工具选择、任务划分与执行的方方面面。本书还以一个完整的项目为例,贯穿全书,展示了敏捷数据科学的整个流程,这也是我最喜欢本书的地方。从具体案例出发,让有需求的读者能够更快地依葫芦画瓢,也让初学者能够从做中学,让读者能根据自己的感受,更好地领会作者提出的“敏捷数据科学”的精髓。

Spark全栈数据分析 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:Spark全栈数据分析