欢迎光临
免费的PDF电子书下载网站

国之重器出版工程 大数据时代的数据挖掘 PDF下载

编辑推荐

(1)内容全面,覆盖当前数据挖掘的主要应用。在介绍每个应用案例时,详细阐述应用的背景,该领域中数据的来源和特点,数据采集与预处理方式,应用领域中数据挖掘的任务和实施数据挖掘技术的难点。同时提供相应的数据挖掘算法分析、工具设计以及系统实现。

(2)条理清晰、便于理解。一方面,面向热爱和关心数据挖掘技术的学术界和工业界读者,帮助他们更好地理解研究的目的和应用的基础;另一方面,让没有太多相关技术背景的读者可以通过阅读本书能够了解数据挖掘的意义和价值,可以看出数据挖掘是如何被广泛地应用于实际案例并成为解决各种问题的核心工具。

 ;
(2)条理清晰、便于理解。一方面,面向热爱和关心数据挖掘技术的学术界和工业界读者,帮助他们更好地理解研究的目的和应用的基础;另一方面,让没有太多相关技术背景的读者可以通过阅读本书能够了解数据挖掘的意义和价值,可以看出数据挖掘是如何被广泛地应用于实际案例并成为解决各种问题的核心工具。

内容简介

本书以当前热点的数据挖掘应用贯穿全书,通过详解大数据挖掘技术在系统日志、工作票、可持续性研究、推荐系统、智能问答系统、社交媒体、生物信息学与健康医疗、隐私保护等方面的实际应用案例,阐述了如何更好地应用和学习数据挖掘技术。本书融入了数据挖掘前沿技术和典型应用,不仅适合热爱和关心数据挖掘技术的学术界和工业界人士阅读,还适合作为各大高校的数据挖掘和机器学习课堂的实践教材和参考书籍。本书有助于读者更好地理解数据挖掘技术背后的根源和本质。

作者简介

李 涛(1975年10月出生)

2004年7月获美国罗彻斯特大学(University of Rochester)计算机科学博士学位。2004年至今先后任美国佛罗里达国际大学 (Florida International University,FIU) 计算机学院助理教授、副教授(终身教授)、正教授 (Full Professor) 、研究生主管(Graduate Program Director),FIU计算与信息学院数据挖掘实验室主任,博士生导师。目前担任南京邮电大学计算机学院、软件学院院长,南京邮电大学大数据研究院院长。 2016年入选创新类国家“千人计划”特聘专家。李涛博士的研究兴趣主要包括数据挖掘、机器学习、信息检索及生物信息学等领域,在基于矩阵方法的数据挖掘和学习,音乐信息检索,系统日志数据挖掘,数据挖掘的各种应用等方面做出了有影响力的研究。由于在数据挖掘及应用领域成效显著的研究工作,他曾多次获得各种荣誉和奖励,其中包括美国国家自然科学基金委颁发的杰出青年教授奖 (NSF CAREER Award, 2006-2010)和2010IBM大规模数据分析创新奖 (Scalable Data Analytics Innovation Award)。同时,他还是数据挖掘国际权威期刊《ACM Transactions on Knowledge Discovery from Data》《IEEE Transactions on Knowledge and Data Engineering》《Knowledge and Information Systems》杂志的副主编。 李涛博士在国际著名会议及期刊上已发表超过两百篇文章(绝大多数被EI/SCI检索)。根据Google Scholar的统计,李涛博士的引用指标 H-index=48,总引用次数超过8700次。

2004年7月获美国罗彻斯特大学(University of Rochester)计算机科学博士学位。2004年至今先后任美国佛罗里达国际大学 (Florida International University,FIU) 计算机学院助理教授、副教授(终身教授)、正教授 (Full Professor) 、研究生主管(Graduate Program Director),FIU计算与信息学院数据挖掘实验室主任,博士生导师。目前担任南京邮电大学计算机学院、软件学院院长,南京邮电大学大数据研究院院长。 2016年入选创新类国家“千人计划”特聘专家。李涛博士的研究兴趣主要包括数据挖掘、机器学习、信息检索及生物信息学等领域,在基于矩阵方法的数据挖掘和学习,音乐信息检索,系统日志数据挖掘,数据挖掘的各种应用等方面做出了有影响力的研究。由于在数据挖掘及应用领域成效显著的研究工作,他曾多次获得各种荣誉和奖励,其中包括美国国家自然科学基金委颁发的杰出青年教授奖 (NSF CAREER Award, 2006-2010)和2010IBM大规模数据分析创新奖 (Scalable Data Analytics Innovation Award)。同时,他还是数据挖掘国际权威期刊《ACM Transactions on Knowledge Discovery from Data》《IEEE Transactions on Knowledge and Data Engineering》《Knowledge and Information Systems》杂志的副主编。 李涛博士在国际著名会议及期刊上已发表超过两百篇文章(绝大多数被EI/SCI检索)。根据Google Scholar的统计,李涛博士的引用指标 H-index=48,总引用次数超过8700次。

国之重器出版工程 大数据时代的数据挖掘 PDF下载

目录

第 1章 数据挖掘简介 1

1.1 大数据时代的数据挖掘 2

1.1.1 大数据的特点“4V 4V” 3

1.1.2 数据挖掘 5

1.1.3 从数据挖掘应用的角度看大数据 7

1.2 数据挖掘技术的发展历史 8

1.3 十大数据挖掘算法简介 10

1.4 数据挖掘平台:FIU-Miner 21

1.4.1 FIU-Miner平台简介 22

1.4.2 FIU-Miner系统架构 22

1.4.3 FIU-Miner应用实例 23

参考文献 28

第 2章 系统日志和事件的挖掘 31

2.1 数据驱动的网络运维 32

2.1.1 网络运维1.0阶段:简单数据处理 33

2.1.2 网络运维2.0阶段:分布式大数据处理框架 34

2.1.3 网络运维3.0阶段:网络运维平台套件 34

2.1.4 网络运维4.0阶段:智能化网络运维 35

2.2 系统日志分析的目的 35

2.2.1 系统问题诊断 36

2.2.2 调试与优化 37

2.2.3 系统安全维护 37

2.3 日志数据分析管理系统的架构 38

2.3.1 日志数据的收集和预处理 39

2.3.2 历史日志数据存储 39

2.3.3 日志事件数据的分析以及对分析结果的展示和使用 39

2.4 系统日志的数据形式 40

2.4.1 无结构的日志数据 40

2.4.2 结构化与半结构化的日志数据 41

2.4.3 非结构化数据的转换 43

2.5 基于日志数据的异常检测 44

2.5.1 基于监督学习的异常检测 44

2.5.2 基于无监督学习的异常检测 48

2.6 系统故障根源跟踪 52

2.6.1 日志事件的依赖性挖掘 54

2.6.2 基于依赖关系的系统故障追踪 65

2.7 日志事件总结 65

2.7.1 事件总结算法基本要求及相关工作 66

2.7.2 基于事件发生频率变迁描述的事件总结 67

2.7.3 基于马尔可夫模型描述的事件总结 67

2.7.4 基于事件关系网络描述的事件总结 68

参考文献 69

第3章 工作票数据挖掘 75

3.1 工作票简介 76

3.2 工作票产生机制和亟待解决的问题 77

3.3 研究现状 79

3.3.1 工作票分类 80

3.3.2 工作票推荐 82

3.3.3 整体解决方案和工具 84

3.4 工作票漏报和误报检测 84

3.4.1 漏报和误报 84

3.4.2 基于规则的误报识别方法 86

3.4.3 半监督的工作票漏报发现方法 89

3.4.4 评价 92

3.5 层次多标签工作票分类 96

3.5.1 问题描述 98

3.5.2 层次损失函数和期望损失最小化 98

3.5.3 算法和解决方案 102

3.5.4 实验 104

3.6 工作票解决方案推荐 108

3.6.1 背景 108

3.6.2 基于KNN的推荐方法 109

3.6.3 划分方法 111

3.6.4 概率融合方法 112

3.6.5 度量学习方法 113

3.6.6 实验 116

参考文献 126

第4章 大数据与计算可持续性研究 131

4.1 大数据与可持续发展 132

4.1.1 可持续发展 132

4.1.2 大数据时代可持续发展面临的机遇和挑战 133

4.2 计算可持续性 133

4.2.1 计算可持续性数据及其特征 134

4.2.2 大数据环境下计算可持续性研究现状 137

4.3 研究案例 142

4.3.1 基于数据驱动的气象分析 142

4.3.2 基于数据驱动的建筑能耗分析 145

参考文献 155

第5章 推荐系统 159

5.1 个性化推荐系统概述 160

5.2 推荐技术 163

5.2.1 基于内容的推荐系统 163

5.2.2 基于协同过滤的推荐系统 164

5.2.3 基于知识的推荐系统 165

5.2.4 基于混合技术的推荐系统 165

5.2.5 基于计算智能的推荐系统 166

5.2.6 基于社交网络的推荐系统 167

5.2.7 基于上下文敏感的推荐系统 169

5.2.8 基于组群的推荐系统 170

5.3 推荐系统评测 170

5.3.1 推荐系统评测环境 171

5.3.2 推荐系统评测指标 174

5.4 推荐系统实例 181

5.4.1 新闻推荐 181

5.4.2 POI推荐 190

参考文献 198

第6章 智能问答系统 203

6.1 发展历史 204

6.2 句法分析 205

6.2.1 中文分词技术 205

6.2.2 词的分类和兼类 207

6.2.3 汉语句法分析 208

6.3 问题理解 210

6.3.1 词法分析 210

6.3.2 问题分类 210

6.3.3 关键词扩展与抽取 211

6.3.4 答案抽取 212

6.4 问题检索 212

6.4.1 基于词法的问句检索 212

6.4.2 基于句法的问句检索 213

6.4.3 基于语义的问句检索 213

6.4.4 常见问题集的问句检索 213

6.5 信息抽取 214

6.5.1 抽取的对象 214

6.5.2 抽取的种类 215

6.5.3 抽取的方法 215

6.6 知识库构建 217

6.6.1 基本概念 217

6.6.2 体系结构 218

6.6.3 关键技术 219

6.7 知识推理 223

6.7.1 线索挖掘 223

6.7.2 关系推理 224

6.7.3 关系预测 225

6.8 案例分析 225

6.8.1 限定域系统的现有案例分析 225

6.8.2 开放域系统的现有案例分析 233

参考文献 238

第7章 文本挖掘 245

7.1 文本表示 246

7.2 话题挖掘 248

7.2.1 非负矩阵分解 248

7.2.2 概率潜在语义分析 249

7.2.3 潜在狄利克雷分配模型 250

7.2.4 分析与实例比较 251

7.3 多文档自动文摘 253

7.3.1 目标函数选择:句子重要性评价 253

7.3.2 优化方法 257

7.3.3 其他的自动文摘问题 258

7.3.4 实例分析 259

7.4 情感分析和摘要 262

7.4.1 基于频繁项集的方法 264

7.4.2 实例分析 266

7.4.3 基于方面的话题模型分析方法 267

7.5 数据挖掘在专利分析中的应用 272

7.5.1 专利分析的内容、流程与方法 273

7.5.2 数据挖掘在专利分析中的应用方向 278

参考文献 284

第8章 多媒体数据挖掘 291

8.1 多媒体技术的特点 292

8.1.1 数字化 292

8.1.2 多样性 293

8.1.3 集成性 293

8.1.4 交互性 293

8.1.5 非线性 294

8.1.6 实时性 294

8.2 多媒体数据挖掘概述 294

8.2.1 背景 294

8.2.2 研究及应用现状 295

8.3 多媒体数据的特征抽取 296

8.3.1 文本特征抽取 296

8.3.2 图像特征表示 297

8.4 数据挖掘在图像检索中的应用 300

8.4.1 应用背景 300

8.4.2 数据集描述 302

8.4.3 数据挖掘在图像检索中的算法分析 304

8.4.4 图像检索案例 306

8.5 数据挖掘在多媒体信息融合中的应用 312

8.5.1 应用背景 313

8.5.2 数据集描述 314

8.5.3 数据挖掘在多媒体信息融合中的算法分析 315

8.5.4 多媒体信息融合案例 317

8.6 数据挖掘在人脸识别中的应用 334

8.6.1 应用背景 334

8.6.2 数据集描述 336

8.6.3 人脸识别算法分析 338

8.6.4 分布式人脸识别系统设计 348

参考文献 350

第9章 社交媒体挖掘 355

9.1 社交媒体数据挖掘简介 356

9.1.1 社交媒体分析的特点综述 357

9.1.2 社交媒体的典型应用 358

9.2 社交网络数据 360

9.3 数据挖掘在社交媒体热点问题上的应用 362

9.3.1 社交媒体数据挖掘需求 362

9.3.2 信息扩散分析 362

9.3.3 链接的预测 366

9.3.4 专家与关键人物的挖掘 371

9.3.5 搜索 380

9.3.6 信任 385

9.3.7 社交网络的内容与情感挖掘 388

参考文献 389

第10章 时空数据挖掘 395

10.1 时空数据挖掘的发展背景 396

10.2 时空数据挖掘的相关研究 397

10.2.1 时空数据的来源 397

10.2.2 时空数据的基本性质 398

10.2.3 时空数据挖掘的方法与任务 399

10.3 时空数据的模式挖掘 403

10.3.1 时空数据的频繁模式 403

10.3.2 时空数据的异常模式 404

10.4 时空数据的聚类和分类 406

10.4.1 时空数据的聚类 406

10.4.2 时空数据的分类 410

10.5 时空数据预测 411

10.5.1 位置预测 412

10.5.2 位置推荐 412

10.6 时空数据挖掘的案例研究 413

10.6.1 TerryFly GeoCloud 413

10.6.2 NUPT-ST-Miner 420

10.7 时空数据挖掘的挑战和发展 428

参考文献 430

第11章 生物信息学 437

11.1 生物医学知识综述 438

11.2 生物医学大数据 441

11.3 数据挖掘在蛋白质与核酸相互作用研究中的应用 442

11.3.1 基于机器学习的蛋白质与核酸相互作用的研究策略 443

11.3.2 案例分析:蛋白质中RNA—结合残基的预测模型 445

11.4 数据挖掘在生物医学文献中的应用 448

11.4.1 生物医学文献挖掘概述 448

11.4.2 数据挖掘应用方法描述 450

11.5 数据挖掘在基因表达数据中的应用 463

11.5.1 基因芯片技术 463

11.5.2 下一代高通量测序技术 463

11.5.3 RNA-Seq 技术与基因芯片技术的比较 464

11.5.4 数据挖掘在下一代高通量RNA-Seq测序数据中的应用 465

参考文献 468

第12章 隐私保护和数据挖掘 473

12.1 隐私保护概述 474

12.1.1 隐私侵害事件 474

12.1.2 隐私保护困境 475

12.1.3 隐私保护要求 477

12.1.4 隐私保护水平度量 477

12.2 隐私保护技术分类 478

12.2.1 匿名化技术 478

12.2.2 加密技术 480

12.2.3 数据扰动技术 481

12.3 隐私保护数据挖掘方法 485

12.3.1 隐私保护聚类 486

12.3.2 隐私保护决策树 488

12.3.3 隐私保护推荐系统 490

12.3.4 隐私保护贝叶斯算法 492

12.3.5 隐私保护支持向量机 493

12.3.6 隐私保护关联规则挖掘 494

12.4 复杂数据挖掘场景下的隐私保护 495

12.4.1 大数据隐私保护 495

12.4.2 图数据隐私保护 498

12.4.3 云数据隐私保护 499

12.4.4 隐私保护深度学习 500

参考文献 501

第13章 健康医疗大数据中的数据挖掘技术 507

13.1 健康医疗大数据的含义 508

13.2 数据特性 509

13.3 预警系统 510

13.3.1 数据预处理 513

13.3.2 Bucketing 514

13.3.3 Bucket Bagging 514

13.3.4 特征集构造 515

13.3.5 特征选择 517

13.3.6 探索性下采样 518

13.3.7 指数移动平均 519

13.4 非结构化文本信息的挖掘 519

13.5 数据挖掘实例 520

13.5.1 评价标准 521

13.5.2 实验设计 521

13.5.3 逻辑回归模型的实验结果 522

13.5.4 算法比较 523

13.5.5 预警时间分析 525

13.6 应用方向 526

13.6.1 疾病预警预测及生存期分析 527

13.6.2 疾病辅助诊断治疗 527

13.6.3 药物研究 528

13.6.4 医学影像 528

13.6.5 医院信息系统 529

13.6.6 远程医疗 530

13.6.7 健康数据库管理 531

13.6.8 医疗健康相关企业经营 531

参考文献 532



国之重器出版工程 大数据时代的数据挖掘 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:国之重器出版工程 大数据时代的数据挖掘