欢迎光临
免费的PDF电子书下载网站

大数据挖掘技术与应用 PDF下载

编辑推荐

暂无

内容简介

本书系统介绍大数据技术的原理、数据挖掘与应用,主要内容包括基本概念、数据收集、数据存储、数据处理、大数据可视化、信息检索、数据挖掘和效能评估。本书以简单易懂的语言、生动有趣的实例和图形展示知识点,将概念、原理与应用融会贯通,并对大数据工具软件进行了细致的梳理。

作者简介

周中元,中国电科集团公司第二十八研究所研究员,长期从事数据挖掘、大数据技术研究等工作,具有丰富的科研实践经验。

大数据挖掘技术与应用 PDF下载

目录

第1章 大数据概述
1.1 从AlphaGo说起
1.2 大数据定义
1.3 大数据产生的原因
1.4 大数据发展历程
1.5 大数据的特征
1.6 数据的度量
1.7 大数据思维
1.8 科学研究范式的发展
1.9 大数据的影响及应用
1.10 大数据计算模式及产品
第2章 数据收集
2.1 外部数据收集
2.1.1 网络爬虫原理
2.1.2 搜索排序策略
2.1.3 Web网络图
2.1.4 构建爬虫系统
2.2 内部数据收集
2.2.1 Flume
2.2.2 Chukwa
第3章 数据存储
3.1 文件存储
3.1.1 Hadoop简介
3.1.2 文件存储
3.1.3 HDFS的基本术语
3.1.4 HDFS运行架构
3.1.5 HDFS安全设计
3.1.6 HDFS的弱点
3.2 数据库存储
3.2.1 NoSQL简介
3.2.2 列族数据库HBase
3.2.3 文档数据库MongoDB
3.2.4 图数据库
3.2.5 键-值对数据库
第4章 数据处理
4.1 离线批处理框架
4.2 MapReduce计算框架
4.3 Hadoop简介
4.3.1 Hadoop生态圈
4.3.2 Hadoop发展历程
4.3.3 Hadoop的特性
4.3.4 Hadoop的版本
4.4 HDFS高可用性架构
4.5 HDFS联邦
4.6 YARN
4.7 Hadoop工具集
4.8 消息机制
4.8.1 消息处理模型
4.8.2 JMS
4.9 内存计算框架Spark
4.9.1 Spark的配置方式
4.9.2 Spark的主要特点
4.9.3 Spark生态圈
4.9.4 Spark与Hadoop比较
4.9.5 Spark运行架构
4.9.6 Spark基本运行流程
4.9.7 RDD
4.10 流式计算框架
4.10.1 流式计算处理过程
4.10.2 常见的流式计算软件
4.10.3 Storm系统
4.10.4 Spark Streaming
4.10.5 流计算与批处理计算的区别
4.11 图计算
4.11.1 Pregel图计算框架的提出
4.11.2 超步
4.11.3 Pregel计算模型
4.11.4 Pregel的C API
4.11.5 Pregel体系结构
4.11.6 容错性
第5章 大数据可视化
5.1 数据可视化定义
5.2 数据可视化发展历程
5.3 数据可视化的作用
5.4 数据可视化设计步骤
5.5 数据可视化设计要素
5.6 颜色可视化设计
5.6.1 色彩空间
5.6.2 色彩三要素
5.7 数据可视化基本图形选用
5.8 数据可视化工具
第6章 信息检索
6.1 信息检索定义
6.2 相关性
6.2.1 布尔模型
6.2.2 排序布尔模型
6.2.3 向量空间模型
6.2.4 语言模型
6.3 及时性
6.4 搜索引擎
6.4.1 网页链接分析法
6.4.2 电子商务中的商品排序
6.4.3 开源搜索引擎
6.5 推荐系统
6.5.1 何谓推荐系统
6.5.2 推荐系统与电商
6.5.3 推荐系统数据基础
6.5.4 推荐方法
6.5.5 开源推荐系统
6.6 互联网广告
第7章 数据挖掘
7.1 基本概念
7.1.1 数据挖掘的定义
7.1.2 相关技术
7.2 数据来源
7.3 数据表示与预处理
7.4 机器学习算法
7.4.1 关联分析
7.4.2 分类
7.4.3 回归分析算法
7.4.4 聚类分析
7.5 数据挖掘工具软件
第8章 效能评估
8.1 效果评估
8.1.1 对信息检索的评估
8.1.2 对分类的评估
8.1.3 对聚类的评估
8.2 性能评估
附录 Hadoop编年史
参考文献

前沿

前言
 ;  ;  ;  ; 从20世纪80年代中期开始,我一直在做数据分析工作——最初是做数据库管理信息系统的研发工作,接着从事数据建模工作,后来又做数据仓库系统研发,以及数据共享与交换平台构建的工作。从2015年起,我又开始从事行业大数据分析与数据挖掘工作。2017年年底,因为年龄的原因,我不再从事一线的研发工作,转而扮演技术顾问的角色,并应邀开办大数据技术讲座。出乎意料的是,讲座的反响非常热烈,并陆续接到各种讲课的邀请:有科普性质的,也有专业研讨性质的;既有二三十人的课堂讨论式讲座,也有三四百人的礼堂演讲式讲座,还有听众更广泛的中国电子科技集团内部视频会议方式的讲座。一年来,共开办了20多场大数据技术专题讲座,制作的讲课用幻灯片多达600多张。
 ;  ;  ;  ; 2018年5月,我的老领导,也是中国电科首席科学家、大数据与人工智能方面的知名专家,看了我的幻灯片后,建议我以此为素材,结合自己多年的工作经验,写一本大数据技术方面的专著。在领导和同事们的鼓励下,从2018年6月份开始,我一头扎进写作中,经过4个月的努力,终于完成了初稿。由于是第一次写书,很多方面没有经验,遇到了很多困难。幸得中国电子科技集团公司第二十八研究所C4ISR技术国防科技重点实验室主任丁峰研究员鼎力相助,他指派王菁博士协助我整理书稿。王菁博士不仅重新绘制了书中的图、表,补充编写了逻辑回归算法,还为每章增加了思考与练习题,并负责书稿出版的所有事务性工作。
 ;  ;  ;  ; 目前,国家正在大力倡导和鼓励大数据技术和产业的发展。但一年多来,通过与关心大数据技术的各个层次人员接触,我发现在具体承担技术决策、管理和研发任务的人员中,有些人对大数据技术的实现途径、能力与限定、关键环节的认识不够透彻,这很容易造成技术决策和方向选择出现偏差。因此,在编写本书时,我不仅要通俗易懂地介绍大数据挖掘技术全貌,还要讲解技术细节和技术难点,以免把这本书写成纯粹的科普读物。书中既要有通俗的比喻,也涉及严谨的数学公式推导;所参考的书籍既有经典、严谨的《数据挖掘概念与技术》和《信息检索导论》,也有通俗易懂的《世界是随机的大数据时代的概率统计学》和《图解机器学习》。这是一项十分艰巨的任务,希望这种尝试能够为各个层次的读者都能带来帮助。
 ;  ;  ;  ; 最后还要感谢我的家人对我的理解和支持,他们免除了我所有的家庭杂务,以使我有充足的时间和精力潜心写作。
 ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;周中元
 ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;                                           2018年11月于南京

大数据挖掘技术与应用 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:大数据挖掘技术与应用