欢迎光临
免费的PDF电子书下载网站

轻松学大数据挖掘:算法、场景与数据产品 PDF下载

编辑推荐

暂无

内容简介

Array

作者简介

Array

轻松学大数据挖掘:算法、场景与数据产品 PDF下载

目录

第1章 ; 数据情怀篇 1

1.1 ; 数据之禅1

1.2 ; 数据情怀1

1.2.1 ; 数据情怀这股劲2

1.2.2 ; 对数据情怀的理解2

1.3 ; 大数据时代的我们4

1.4 ; 成为DT时代的先驱者 6

1.4.1 ; 数据没有寒冬6

1.4.2 ; 数据生态问题7

1.4.3 ; 健康的数据生态8

1.4.4 ; 结尾8

第2章 ; 数据入门 9

2.1 ; 快速掌握SQL的基础语法 9

2.1.1 ; 初识SQL 9

2.1.2 ; 学会部署环境10

2.1.3 ; 常用的SQL语法(上篇) 13

2.1.4 ; 常用的SQL语法(下篇) 17

2.2 ; 在Windows 7操作系统上搭建IPythonNotebook 25

2.2.1 ; 学习Python的初衷 25

2.2.2 ; 搭建IPython Notebook 26

2.2.3 ; IPython.exe Notebook的使用说明27

2.2.4 ; 配置IPython Notebook远程调用 27

2.3 ; 快速掌握Python的基本语法 30

2.4 ; 用Python搭建数据分析体系 38

2.4.1 ; 构建的初衷38

2.4.2 ; 构建思路39

2.4.3 ; 开发流程39

2.5 ; Python学习总结44

2.5.1 ; 关于Python 45

2.5.2 ; Python其他知识点45

第3章 ; 大数据工具篇 48

3.1 ; Hadoop伪分布式的安装配置48

3.1.1 ; 部署CentOS环境 48

3.1.2 ; 部署Java环境 50

3.1.3 ; 部署Hadoop伪分布式环境 51

3.2 ; 数据挖掘中的MapReduce编程 54

3.2.1 ; 学习MapReduce编程的目的 54

3.2.2 ; MapReduce的代码规范55

3.2.3 ; 简单的案例58

3.3 ; 利用MapReduce中的矩阵相乘 60

3.3.1 ; 矩阵的概念60

3.3.2 ; 不同场景下的矩阵相乘61

3.4 ; 数据挖掘中的Hive技巧 67

3.4.1 ; 面试心得67

3.4.2 ; 用Python执行HQL命令67

3.4.3 ; 必知的HQL知识 69

3.5 ; 数据挖掘中的HBase技巧 75

3.5.1 ; 知晓相关依赖包75

3.5.2 ; 从HBase中获取数据 76

3.5.3 ; 往HBase中存储数据 77

第4章 ; 大数据挖掘基础篇 81

4.1 ; MapReduce和Spark做大数据挖掘的差异 81

4.1.1 ; 初识Hadoop生态系统 81

4.1.2 ; 知晓Spark的特点 83

4.1.3 ; 编程的差异性85

4.1.4 ; 它们之间的灵活转换88

4.1.5 ; 选择合适的工具89

4.2 ; 搭建大数据挖掘开发环境90

4.3 ; 动手实现算法工程99

4.3.1 ; 知晓Spark On Yarn的运作模式 101

4.3.2 ; 创作第一个数据挖掘算法102

4.3.3 ; 如何理解“朴素”二字103

4.3.4 ; 如何动手实现朴素贝叶斯算法103

第5章 ; 大数据挖掘认知篇 107

5.1 ; 理论与实践的差异107

5.2 ; 数据挖掘中的数据清洗110

5.2.1 ; 数据清洗的那些事110

5.2.2 ; 大数据的必杀技111

5.2.3 ; 实践中的数据清洗112

5.3 ; 数据挖掘中的工具包120

5.3.1 ; 业务模型是何物120

5.3.2 ; 想做一个好的模型121

第6章 ; 大数据挖掘算法篇 123

6.1 ; 时间衰变算法123

6.1.1 ; 何为时间衰变123

6.1.2 ; 如何理解兴趣和偏好124

6.1.3 ; 时间衰变算法的抽象124

6.1.4 ; 采用Spark实现模型 126

6.2 ; 熵值法130

6.2.1 ; 何为信息熵130

6.2.2 ; 熵值法的实现过程130

6.2.3 ; 业务场景的介绍132

6.2.4 ; 算法逻辑的抽象133

6.3 ; 预测响应算法136

6.3.1 ; 业务场景的介绍136

6.3.2 ; 构建模型的前期工作137

6.3.3 ; 常用的预测模型138

6.4 ; 层次分析算法140

6.5 ; 工程能力的培养与实践142

6.5.1 ; 工程能力的重要性142

6.5.2 ; 利用Python实现层次分析法 144

第7章 ; 用户画像实践 148

7.1 ; 用户画像的应用场景148

7.1.1 ; 背景描述148

7.1.2 ; 需求调研149

7.2 ; 用户画像的标签体系150

7.2.1 ; 需求分析151

7.2.2 ; 标签的构建151

7.3 ; 用户画像的模块化思维152

7.3.1 ; 何为模块化思维152

7.3.2  用户画像与模块化思维153

7.4  用户画像的工程开发154

7.4.1  对于开发框架的选择154

7.4.2  模块化功能的设计156

7.5  用户画像的智能营销158

7.5.1  业务营销158

7.5.2  营销构思159

7.5.3  技术难点160

第8章  反欺诈实践篇 162

8.1 “羊毛党”监控的业务 162

8.1.1 “羊毛党”的定义与特点 162

8.1.2 “羊毛”存在的必然性 163

8.1.3 “羊毛党”的进化 164

8.1.4 “羊毛党”存在的利与弊 165

8.1.5 “羊毛党”监控平台的意义 165

8.2 “羊毛党”监控的设备指纹 166

8.2.1  何为设备指纹166

8.2.2  底层参数167

8.2.3  应用场景168

8.2.4  移动端的数据持久化169

8.2.5  设备指纹生成算法169

8.3 “羊毛党”监控的数据驱动 170

8.3.1  监控的目的170

8.3.2  数据如何“食用”172

8.4 “羊毛党”监控的实践分享 173

第9章  大数据挖掘践行篇 178

9.1  如何从0到1转型到大数据圈子178

9.2  数据挖掘从业者综合能力评估180

9.2.1  度量的初衷180

9.2.2  综合能力评估181

9.2.3  个人指标体系(大数据挖掘)182

9.3  给想要进入数据挖掘圈子的新人一点建议183

9.3.1  诚信与包装184

9.3.2  筹备能力185

9.3.3  投好简历186

9.3.4  把握面试186

9.3.5  结尾187

后记  数据价值探索与数据产品实践188

前沿

这是一本关于大数据挖掘与数据产品的参考读物,为了使尽可能多的读者通过本书对大数据应用有所了解,笔者以个人所感所悟引导初学者正确学习大数据挖掘。但是基础知识归纳、开发环境部署、算法原理的介绍都是不可避免的。因此,本书更适合于工作经验在3年以内的数据挖掘工程师,以及转型入门做数据挖掘的人士,或者是对数据产品感兴趣的追逐者阅读。

全书共9章,第1~2章介绍数据情怀与数据入门;第3~6章讨论大数据挖掘相关的一系列学习体系;第7~9章为实践应用与数据产品的介绍。

本书在内容上尽可能以故事的形式,轻松愉快地介绍大数据、数据挖掘与数据产品实践应用的各方面内容。但作为学习方向性的引导读物且考虑到本书主题,很多常见的算法、技术知识点未能覆盖,毕竟相关的内容在网上已经有很多了,但大多数内容只是“术”,而缺乏“神”。所以本书才另寻思路,以笔者的真实经历告诉读者在学习过程中可能会遇到的“坑”,以及该如何正确学习。因此,建议有兴趣的读者进一步钻研探索,结合更多的学习资料实践应用。

笔者认为,大数据时代的发展,已经逐渐从基础性的建设、数据的积累,慢慢转变成对于数据价值的探索以及业务痛点的落地解决。因此,建议更多的数据挖掘学习者要结合业务场景思考,多了解数据生态圈的上下游,认清数据产品价值的重要性,以及知晓自身在整个数据流程中所扮演的角色的重要性。阅读这些内容的意义远远超过对数据分析工具、算法模型的熟练度的意义。

大数据、人工智能发展极为迅速,但是数据价值的输出仍然存在瓶颈,极大的原因是由于广大追逐者在对数据探索时走向了误区,把更多心思放在了“玩转数据”,而不是真正地解决业务痛点。所以,希望阅读本书的每一位读者都能够从笔者的过往经历和所感所悟中感受到数据之禅。参与本书编写的人员还有王勇老师,在此表示感谢。

笔者自认自己还有许多需要学习的地方,同时时间和精力有限,书中不足之处在所难免,望广大读者批评指正,不胜感激。

轻松学大数据挖掘:算法、场景与数据产品 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:轻松学大数据挖掘:算法、场景与数据产品