Java机器学习 PDF下载

编辑推荐

本书详细讲解机器学习中的高级技术，包括分类、聚类、离群值检测、流学习、主动学习、半监督学习、概率图建模、文本挖掘、深度学习以及大数据批处理与流机器学习。相应的，每一章的示例及现实世界的案例研究展示了如何使用完整的方法论以及目前可用的基于Java的佳工具，来应用刚刚学习的技术。

对于解决各个领域中数据科学方面的问题，以及构建强大的机器学习模型所需要的工具和技术，读完本书之后，你都会有所了解。

通过阅读本书，你将：

•掌握关键的Java机器学习库，通过理论和实践指导，发掘可以解决的每一类问题

•在机器学习的每一个大类中探索强大的技术，如分类、聚类、离群值检测、图建模和文本挖掘

•通过方法论、过程、应用和分析，将机器学习应用到真实的数据

•探索机器学习中有关新近专业化方面的技术和实验，如深度学习、流数据挖掘以及主动和半监督学习

•使用新的工具和方法，建立基于批量和基于流的大数据学习的高性能、实时、自适应预测模型

•对可应用于安全、金融犯罪、物联网和社交网络等领域方面的更强大的AI技术，获得更深入的理解。

；

内容简介

本书涵盖了机器学习中的经典技术，如分类、聚类、降维、离群值检测、半监督学习和主动学习。同时介绍了近期高深的主题，包括流数据学习、深度学习以及大数据学习的挑战。每一章指定一个主题，包括通过案例研究，介绍前沿的基于Java的工具和软件，以及完整的知识发现周期：数据采集、实验设计、建模、结果及评估。每一章都是独立的，提供了很大的使用灵活性。附带的网站提供了源码和数据。对于学生和数据分析从业员来说，这确实很难得，大家可以直接用刚学到的方法进行实验，或者通过将这些方法应用到真实环境中，加深对它们的理解。

作者简介

Uday Kamath博士是BAE系统应用智能公司的首席数据科学家，专门研究可扩展机器学习，并在反洗钱（AML）、金融犯罪欺诈检验、网络空间安全和生物信息学领域拥有20年的研究经验。Kamath博士负责BAE系统应用智能公司AI部门核心产品的研究分析，这些产品涉及的领域有行为科学、社交网络和大数据机器学习方面。在Kenneth De Jong博士的指导下，他获得了乔治梅森大学的博士学位，他的论文研究聚焦于大数据和自动化序列挖掘的机器学习领域。

Krishna Choppella在BAE系统应用智能公司的角色是作为解决方案架构师，构建工具和客户解决方案。他有20年的Java编程经验，主要兴趣是数据科学、函数编程和分布式计算。

Java机器学习 PDF下载

推荐序
译者序
前言
作者简介
审校者简介
第1章　机器学习回顾1
　1.1　机器学习历史和定义2
　1.2　哪些不属于机器学习3
　1.3　机器学习概念和术语4
　1.4　机器学习类型及其子类6
　1.5　用于机器学习的数据集8
　1.6　机器学习的应用10
　1.7　机器学习中的实际问题10
　1.8　机器学习角色与过程11
1.8.1　角色12
1.8.2　过程12
　1.9　机器学习工具和数据集14
　1.10　小结16
第2章　监督学习在现实世界中的实践方法18
　2.1　正式描述和符号19
2.1.1　数据质量分析20
2.1.2　描述性数据分析20
2.1.3　可视化分析20
　2.2　数据转换与预处理21
2.2.1　特征构造22
2.2.2　处理缺失值22
2.2.3　离群值23
2.2.4　离散化24
2.2.5　数据采样24
2.2.6　训练集、验证集和测试集26
　2.3　特征关联分析与降维28
2.3.1　特征搜索技术29
2.3.2　特征评估技术29
　2.4　模型建立32
2.4.1　线性模型32
2.4.2　非线性模型35
2.4.3　集成学习和元学习器40
　2.5　模型评价、评估和比较42
2.5.1　模型评价42
2.5.2　模型评估指标43
2.5.3　模型比较45
　2.6　Horse Colic分类案例研究47
2.6.1　业务问题48
2.6.2　机器学习映射48
2.6.3　数据分析48
2.6.4　监督学习实验49
2.6.5　结果、观察和分析58
　2.7　小结60
　2.8　参考文献61
第3章　无监督机器学习技术63
　3.1　与监督学习共同存在的问题63
　3.2　无监督学习的特定问题64
　3.3　特征分析和降维64
3.3.1　符号64
3.3.2　线性方法64
3.3.3　非线性方法67
　3.4　聚类70
3.4.1　聚类算法70
3.4.2　谱聚类75
3.4.3　仿射传播75
3.4.4　聚类的验证和评估77
　3.5　离群值或异常值检测79
3.5.1　离群值算法79
3.5.2　离群值评估技术85
　3.6　实际案例研究86
3.6.1　工具和软件86
3.6.2　业务问题86
3.6.3　机器学习映射86
3.6.4　数据收集87
3.6.5　数据质量分析87
3.6.6　数据采样和转换88
3.6.7　特征分析和降维88
3.6.8　聚类模型、结果和评估91
3.6.9　离群值模型、结果和评估94
　3.7　小结95
　3.8　参考文献95
第4章　半监督学习和主动学习98
　4.1　半监督学习99
4.1.1　表示、符号和假设条件99
4.1.2　半监督学习技术101
4.1.3　半监督学习的案例研究106
　4.2　主动学习111
4.2.1　表示和符号112
4.2.2　主动学习场景112
4.2.3　主动学习方法112
4.2.4　不确定性采样112
4.2.5　版本空间采样113
4.2.6　数据分布采样115
　4.3　主动学习中的案例研究116
4.3.1　工具和软件116
4.3.2　业务问题116
4.3.3　机器学习映射116
4.3.4　数据采集117
4.3.5　数据采样和转换117
4.3.6　特征分析和降维117
4.3.7　模型、结果和评估117
4.3.8　主动学习结果分析121
　4.4　小结121
　4.5　参考文献122
第5章　实时流机器学习123
　5.1　假设条件和数学符号124
　5.2　基本的流处理和计算技术124
5.2.1　流计算124
5.2.2　滑动窗口125
5.2.3　采样126
　5.3　概念漂移和漂移探测127
5.3.1　数据管理128
5.3.2　局部内存128
　5.4　增量监督学习130
5.4.1　建模技术130
5.4.2　在线环境的验证、评估和比较136
　5.5　使用聚类的增量无监督学习138
　5.6　使用离群值检测的无监督学习148
5.6.1　基于分区的聚类离群值检测148
5.6.2　基于距离的聚类离群值检测149
　5.7　流学习案例研究151
5.7.1　工具和软件152
5.7.2　业务问题152
5.7.3　机器学习映射152
5.7.4　数据采集153
5.7.5　数据采样和转换154
5.7.6　模型、结果和评估155
5.7.7　流学习结果分析158
　5.8　小结160
　5.9　参考文献160
第6章　概率图建模163
　6.1　回顾概率163
　6.2　图的概念166
6.2.1　图的结构和属性166
6.2.2　子图和团167
6.2.3　路、迹和环167
　6.3　贝叶斯网络168
6.3.1　表示169
6.3.2　推断171
6.3.3　学习180
　6.4　马尔可夫网络和条件随机场186
6.4.1　表示187
6.4.2　推断188
6.4.3　学习189
6.4.4　条件随机场189
　6.5　特殊网络190
6.5.1　树增强型网络190
6.5.2　马尔可夫链190
　6.6　工具和使用193
6.6.1　OpenMarkov193
6.6.2　Weka贝叶斯网络图形界面194
　6.7　案例研究194
6.7.1　业务问题196
6.7.2　机器学习映射196
6.7.3　数据采样和转换196
6.7.4　特征分析196
6.7.5　模型、结果和评估197
6.7.6　结果分析200
　6.8　小结201
　6.9　参考文献201
第7章　深度学习203
　7.1　多层前馈神经网络203
7.1.1　输入、神经元、激活函数和数学符号203
7.1.2　多层神经网络204
　7.2　神经网络的局限209
　7.3　深度学习210
　7.4　案例研究231
7.4.1　工具和软件232
7.4.2　业务问题232
7.4.3　机器学习映射233
7.4.4　数据采样和转换233
7.4.5　特征分析233
7.4.6　模型、结果和评估233
　7.5　小结242
　7.6　参考文献243
第8章　文本挖掘和自然语言处理245
　8.1　NLP及其子领域和任务246
8.1.1　文本分类247
8.1.2　词性标注247
8.1.3　文本聚类247
8.1.4　信息抽取和命名实体识别247
8.1.5　情感分析和观点挖掘247
8.1.6　指代消解248
8.1.7　词义消歧248
8.1.8　机器翻译248
8.1.9　语义推理及推断249
8.1.10　文本摘要249
8.1.11　自动问答249
　8.2　挖掘非结构化数据的问题249
　8.3　文本处理和转换250
8.3.1　文档收集与标准化250
8.3.2　词元化251
8.3.3　停止词移除251
8.3.4　词干提取或词形还原251
8.3.5　局部/全局字典或词汇表252
8.3.6　特征抽取/生成253
8.3.7　特征表示和相似度255
8.3.8　特征选择和降维258
　8.4　文本挖掘主题259
8.4.1　文本分类260
8.4.2　主题建模260
8.4.3　文本聚类263
8.4.4　命名实体识别267
8.4.5　深度学习与NLP270
　8.5　工具和使用272
8.5.1　Mallet272
8.5.2　用Mallet进行主题建模273
8.5.3　业务问题274
8.5.4　机器学习映射274
8.5.5　数据采集274
8.5.6　数据采样和转换275
8.5.7　特征分析和降维276
8.5.8　模型、结果和评估276
8.5.9　文本处理结果分析277
　8.6　小结278
　8.7　参考文献278
第9章　大数据机器学习：最终领域281
　9.1　大数据的特点283
　9.2　大数据机器学习283
　9.3　批量大数据机器学习290
　9.4　案例研究294
9.4.1　业务问题296
9.4.2　机器学习映射296
9.4.3　数据采集296
9.4.4　数据采样和转换296
9.4.5　使用Spark MLlib作为大数据机器学习平台298
　9.5　实时大数据机器学习305
　9.6　机器学习的未来310
　9.7　小结310
　9.8　参考文献311
附录A　线性代数313
附录B　概率论317

前沿

关于机器学习有许多著名的书籍，有的是从数据中学习的理论教材；有的是某个特定领域的标准参考书，例如聚类、离群值检测或概率图建模；有的是操作指导，提供使用某种编程语言及相应的工具和库函数进行实践的示例。其中那些对理论涵盖面比较广的书，对细节的阐述有所欠缺，而那些专注于某个课题或工具的书也有短板，例如，可能解释了很多在流环境和在批处理环境中的方法有什么不同之处。另外，对于一些有机器学习方面的经验，而且喜欢用Java工具的读者，若他们希望通过某本书来拓展他们的知识，从本质上获得提升，那么合适的书籍尤其凤毛麟角。
在一本书中，他们希望找到：
●各种不同技术之间的差别，对于不同场景中的数据——有标签数据和无标签数据、数据流或批处理、本地数据或者分布式存储的数据、结构化的或非结构化的数据，每种技术有哪些长处和短处。
●应用某种机器学习理论的成熟的方法示例，使用最合适的技术，包括该理论最重要的数学表达式，以及这些技术如何能够最大限度地发挥该理论的优势。
●对成熟的基于Java的框架、库、可视化工具的描述性的介绍，以及如何把这些技术应用到实践中。
据我们所知，目前为止，这样的书一本也没有。
鉴于以上情况，本书的核心思想就是要填补这个空白，力图在理论和实践中取得平衡：一方面使用概率论、统计学、基础线性代数、初等微积分等解释机器学习的理论；另一方面强调方法论、实例研究、工具和代码示例，作为实践的支撑。
根据KDnuggets 2016年的软件调查报告显示，在机器学习使用的编程语言中，有16.8%的人投了Java一票，它是第二受欢迎的语言，仅次于Python。更重要的是，比起2015年，Java的受欢迎程度提高了19%！显然，在建立和部署与机器学习相关的系统方面，Java仍然是一种重要且高效的工具，偶尔的支持率下降也不影响大局。在本书中，我们的目标是让有一定Java编程经验和机器学习基础知识的读者，成为该领域中既专业又热情的爱好者。本书的目的就是铺一条阳光大道，以便读者向成为资深的数据科学工作者这个方向迈进。为使读者的进阶之路更加顺利，本书囊括了一个名副其实的机器学习技术弹药仓库，包括数据分析方法、学习算法、模型性能评估以及更多的监督学习和无监督学习、聚类和异常检测、半监督学习和主动学习等相关的内容。读者可能对其中一些已十分熟悉，对另一些没那么熟悉，而只是粗略地了解。本书还讲述了一些特别的话题，例如概率图模型、文本挖掘和深度学习。鉴于如今企业级别的系统越来越受重视，本书也涵盖了这方面的独特挑战，包括从数据流中学习、可应用于实时系统的工具和技术，以及大数据世界的必要架构：
●机器学习如何在大规模分布式环境下工作？
●在上述条件下有哪些必要的权衡？
●算法需要做哪些必要的调整？
●上述这类系统如何与强大的Hadoop生态系统的其他技术交互操作？
本书将会解释如何把机器学习应用到真实世界的数据和相关领域中，并提供了正确的方法论、流程、应用软件以及分析。每一章都包含了案例研究，介绍如何使用最合适的开源Java工具来应用本章所学的技术。本书介绍了超过15种开源Java工具，广泛支持各种技术，既有代码示例，也有使用实践。所有的代码、数据和配置，读者都可以下载并进行实验。我们还展示了超过10个真实世界的机器学习案例，演示了数据科学家的工作流程。每个案例都有以下实验步骤的细节：数据提取、数据分析、数据清理、特征降维/选择、映射到机器学习、模型训练、模型选择、模型进化以及结果分析。读者可以将此作为实践指导，学习如何将各章介绍的工具和方法论用于解决手头的业务问题。
主要内容
第1章介绍了机器学习的基本概念和技术。读者在Packt的其他类似书籍中也可以看到这些内容，例如《Learning Machine Learning in Java》等。本章涉及的概念有：数据、数据转换、采样和偏移、特征及其重要性、监督学习、无监督学习、大数据学习、数据流和实时学习、概率图模型，以及半监督学习。
第2章单刀直入地展示了监督学习的广泛场景及其相关技术的全景，还涵盖了特征选择和降维、线性建模、逻辑模型、非线性模型、SVM和核函数、集成学习技术（例如装袋算法和提升算法）、验证技术和评价指标，还有模型选择。本章的案例研究使用了Weka和RapidMiner，包括从数据分析到模型性能分析的所有步骤。和其他各章一样，案例研究是作为示例来帮助读者理解本章介绍的技术是如何应用到真实生活中的。这个案例研究所使用的数据集来自UCI Horse Colic。
第3章展示了多种先进的聚类和离群值技术及其应用。本章涵盖的主题包括无监督数据的特征选择和降维、聚类算法、聚类的模型评估，以及使用统计学方法、距离和分布式技术做异常检测。在本章末尾，我们展示了一个案例研究，使用一组真实世界的图像数据集MNIST进行聚类和离群值检测。另外，使用Smile API完成特征降维，使用ELKI进行学习。
第4章讲述了当只有少量的标签数据可以使用时，学习的算法和技术的细节。本章涵盖的主题包括自训练、生成模型、转导SVM算法、协同训练、主动学习和多视角学习。案例研究使用了两种学习系统，基于UCI