编辑推荐
临床医学领域有海量数据,而这些大数据中蕴含着很多尚未发现的医学规律,这正是机器学习可以施展威力的地方,从临床医学大数据中挖掘、探索未知的医学特征、医学关系将为人类造福。本书介绍了作者20多年在医学领域耕耘的经验与成果,包括如何开发一套通用于医学各学科的临床医学科研平台,以及如何进行数据搜集、清洗、挖掘的实战经验。 ;
内容简介
本书作者曾在北美多家智能专业公司任高级架构师,有20年数据挖掘、机器学习方面的设计、开发、管理经验。他结合自己多年的行业经历,总结了自己在机器学习方面的知识和实际工程中的经验,提供了大量一线资料。本书不仅介绍了机器学习中的常用算法,而且给出了具体实施环境和经验总结。重点介绍了相关算法,包括:相关因子算法、聚类算法、分类算法、回归与测试算法等。不仅列举了详细示例,还介绍了算法在工程实践中的具体应用,特别是总结了自己独特的一些算法,例如矢量相关的因子选择算法、秩和相关因子选择算法、密度分布聚类算法、概率特征模型算法等。重点剖析了医药学领域的应用。
作者简介
洪松林(Hong Song Lin),加拿大籍,大数据深度分析技术专家,外国专家局引智技术专家,OCP国际(加拿大)认证专家。有二十余年数据仓库、数据挖掘、机器学习、人工智能等方面的研发和应用经验。福安易数据技术公司的创始人,带领团队走在机器学习和大数据深度分析的技术前沿,在结构化和非结构化数据挖掘、深度学习等领域,创新研发了众多领先和有效的机器学习新技术、新算法。多次受邀为全国性IT专业大会做大数据深度分析主题演讲,曾担任全国软件大会大数据论坛主持人。
目录
CONTENTS
目 录
前言
第1章 机器学习基础1
1.1 认识机器学习1
1.1.1 机器学习概念1
1.1.2 机器学习与生活4
1.1.3 机器学习与知识6
1.2 机器学习应用基础6
1.2.1 事物与维度7
1.2.2 分布与关系9
1.2.3 描绘与预测12
1.2.4 现象与知识13
1.2.5 规律与因果13
1.3 机器学习应用系统14
1.3.1 数据层14
1.3.2 算法层18
1.3.3 应用层23
1.3.4 经验积累与应用26
1.4 无限三维嵌套空间假说26
1.4.1 一维空间26
1.4.2 二维空间26
1.4.3 三维空间27
1.4.4 突破三维空间27
1.4.5 五维空间28
1.4.6 六维空间29
1.5 分数维度空间30
1.5.1 分数维度30
1.5.2 自相似性31
1.5.3 无限迭代32
1.6 不确定论33
1.7 本章小结34
第2章 数据探索35
2.1 数据关系探索36
2.1.1 业务发现36
2.1.2 关系发现38
2.1.3 数据质量探索38
2.1.4 数据整合42
2.2 数据特征探索43
2.2.1 数据的统计学特征43
2.2.2 统计学特征应用50
2.2.3 变量相关性探索53
2.3 数据选择56
2.3.1 适当的数据规模57
2.3.2 数据的代表性57
2.3.3 数据的选取59
2.4 数据处理61
2.4.1 数据标准化62
2.4.2 数据离散化63
2.5 本章小结64
第3章 机器学习技术65
3.1 聚类分析65
3.1.1 划分聚类(K均值)66
3.1.2 层次聚类(组平均)70
3.1.3 密度聚类75
3.2 特性选择76
3.2.1 特性选择概念76
3.2.2 线性相关80
3.2.3 相关因子SRCF82
3.3 特征抽取91
3.3.1 主成分分析91
3.3.2 因子分析93
3.3.3 非负矩阵因子分解94
3.4 关联规则95
3.4.1 关联规则概念95
3.4.2 Apriori算法96
3.4.3 FP树频集97
3.4.4 提升(Lift)97
3.5 分类和预测98
3.5.1 支持向量机98
3.5.2 Logistic回归102
3.5.3 朴素贝叶斯分类106
3.5.4 决策树112
3.5.5 人工神经网络116
3.5.6 分类与聚类的关系119
3.6 时间序列120
3.6.1 灰色系统预测模型120
3.6.2 ARIMA模型预测126
3.7 深度学习127
3.7.1 图像深度学习:卷积神经网络127
3.7.2 自然语言深度学习:循环神经网络141
3.8 本章小结145
第4章 机器学习应用案例146
4.1 特性选择的应用146
4.1.1 数据整合146
4.1.2 数据描绘147
4.1.3 数据标准化148
4.1.4 特性选择探索148
4.2 分类模型的应用——算法比较154
4.2.1 数据整合154
4.2.2 数据描绘155
4.2.3 数据标准化156
4.2.4 特性选择探索156
4.2.5 分类模型160
4.3 算法的综合应用——肿瘤标志物的研究161
4.3.1 样本选取161
4.3.2 癌胚抗原临床特征主题分析165
4.3.3 癌胚抗原临床特征规则分析169
4.3.4 癌胚抗原临床特征规则的比较分析173
4.3.5 癌胚抗原相关因子分析174
4.3.6 不同等级癌胚抗原组差异分析177
4.4 本章小结180
第5章 机器学习应用系统开发181
5.1 IMRS的设计思路181
5.1.1 IMRS核心功能设计182
5.1.2 IMRS主要功能184
5.1.3 IMRS的模块设计和应用实现185
5.1.4 IMRS的评估方法194
5.2 机器学习应用系统:IMRS技术设计199
5.2.1 对数据源的分析200
5.2.2 IMRS的总体设计203
5.3 IMRS异常侦测模型的开发210
5.3.1 异常侦测模型的功能展示211
5.3.2 技术开发要点214
5.4 IMRS特征抽取模型的开发221
5.4.1 特征抽取模型的功能展示221
5.4.2 技术开发要点221
5.5 IMRS的算法开发232
5.5.1 相关因子算法SRCF的实现232
5.5.2 朴素贝叶斯分类算法的实现237
5.6 本章小结241
第6章 机器学习系统应用(一):结构数据挖掘242
6.1 分布探索243
6.1.1 两维度聚类模型应用243
6.1.2 高维度聚类模型应用248
6.2 关系探索249
6.2.1 关联规则的应用249
6.2.2 特性选择的应用252
6.3 特征探索257
6.3.1 不稳定心绞痛的特征总结258
6.3.2 动脉硬化性心脏病的临床特征262
6.4 异常探索264
6.4.1 生理指标的异常侦测264
6.4.2 异常侦测模型的比较267
6.5 推测探索268
6.6 应用系统的高级应用269
6.6.1 异常侦测的高级用法270
6.6.2 关联规则的高级应用274
6.7 本章小结278
第7章 机器学习系统应用(二):非结构数据挖掘280
7.1 文本挖掘技术280
7.1.1 文本分词算法280
7.1.2 文本相似性算法283
7.1.3 文本聚类算法287
7.1.4 文本分类算法290
7.2 文本数据挖掘在医学上的应用293
7.2.1 医学自然文本挖掘的应用293
7.2.2 医学自然文本挖掘的方法294
7.2.3 医学自然文本挖掘的相关技术295
7.2.4 医学自然文本挖掘系统的实现295
7.3 文本分词的实现296
7.3.1 专业语料库与分词算法的结合297
7.3.2 专业分词库的自完善297
7.4 文本智能搜索298
7.4.1 文本相似性搜索298
7.4.2 文本相关性搜索299
7.5 文本聚类与分类的应用299
7.5.1 文本聚类应用300
7.5.2 文本分类应用302
7.6 文本主题提取应用303
7.7 本章小结305
第8章 基于机器学习的人工智能应用306
8.1 基于大数据和机器学习的人工智能306
8.1.1 广义大数据306
8.1.2 人工智能307
8.1.3 基于大数据的人工智能应用308
8.1.4 基于小数据的人工智能应用311
8.2 人工智能的应用:智能医学诊断系统314
8.2.1 智能诊断推理机314
8.2.2 临床智能诊断的实现319
8.2.3 临床智能诊断的应用321
8.2.4 临床智能诊断的验证:基于群体特征的个案临床评估323
8.3 混沌人工智能325
8.3.1 混沌理论325
8.3.2 人类大脑的混沌性327
8.3.3 大脑混沌性的应用328
8.3.4 人工智能大脑展望332
8.4 本章小结333
前沿
PREFACE前 言什么是机器学习?现在恐怕无需再做基本概念解释了。在本书中,我们谈机器学习的实用技术。我们知道,有了数据,就要做很多分析工作。其中很常见的、很基本的一个分析是,针对目标变量,我们需要从大量的候选变量(可能是几百个、几千个)中,探索、发现哪些变量与目标变量具有较强的广义相关性。我们可能应用很多不同的算法,一一对每个候选变量与目标变量进行相关性探索尝试,可有时还是没能找到一个有显著相关性的变量。不少人可能都觉得没办法了。但是,没有找到显著的独立相关变量,不意味着不存在任何相关变量了,数据中有可能存在着多个变量组合与目标变量具有较强的相关性(多变量相关组),或者说,与目标变量具有较强相关性的某个变量在数据中被“拆分”成了多个与目标变量不具有较强相关性的分变量。那么,在几百个甚至成千上万个候选变量中,如何有效地找到一个或多个多变量相关组呢?这是机器学习技术与工程实践中一个典型的深入课题。解决这个问题,就像下围棋一样,棋局太多、变化太多,着法也太多。机器学习中类似的分析课题有很多,这需要我们不断地探索、不断地实践、不断地创新、不断地积累,以便在千变万化的“棋局”中找到解决之道、制胜之道!
机器学习作为一种自动化、智能化的深度分析技术,从更高的层面上讲,其目的就是要从由数据代表的真实世界事物中探索和挖掘潜在规律和隐含机理,因此,机器学习除了是一门实用的应用技术外,它的发展前沿还是奥秘揭示、知识发现、科学探索!更高瞻远瞩一些,机器学习随着理论和实践的不断深入,已经不再是原先狭义的“数据利用”和“知识发现”了,正在越来越深入到数学发现、甚至哲学发现以及科学发现了。例如,机器学习通常从刻画客观事物的各类大数据中挖掘出内在的规律,并期望能得到可靠、精准的可预测性结果。但是,随着机器学习应用和研究的深入,我们发现了大量不可预测的现象与问题。通常,技术人员会想是数据出现了问题?还是算法出现了问题?因为人们的传统思维通常是建立在确定性理论基础之上的。但是,科学家们已经越来越多地意识到、甚至认识到了世界上大量不确定性现象的客观存在。
那么,数据中出现的这种不可预测性,很可能是由不确定性系统产生的。现实世界中,除了我们认识到的确定性系统之外,还存在着很多不确定性系统,这些系统中拥有大量的非线性的、无序的现象和事物。例如,量子力学中的不确定性原理、混沌学中确定性系统中的无序随机性,都属于不确定性,也就是说,至少是目前技术水平下,是不可预测的。但是,系统中存在着混沌性和无序性,并不意味着无规律性。实际上,很多系统中的非线性无序状态中蕴含着许多规律性,只不过现代的理论和技术比较有限,尚不能很好地认识和应用这些规律。例如,混沌学中洛伦茨奇异吸引子是一个美丽的无序状态,它是有规律的,数据的表现貌似随机,但却遵循着一定之规(数学模型)。
实际上,除了混沌学发现了大量的无序现象外,还有其他学科涉及不确定性系统的研究,例如,概率论也是研究无序(随机)问题的一个分支学科。无序(随机)与有序(确定)是相对的,而不同的无序(随机)之间是相对的。以上都体现了系统的不确定性,由数据表达的时候,就出现了不可预测性。这就需要机器学习或者数据挖掘的理论、技术与实践还要不断创新和发展。因此,我们说,机器学习在现在和未来,作为现实世界科学探索的一个工具和技术,将不断地探索和发现包括不确定性系统产生的大量客观规律,以便更好地服务于各行各业的应用实践!我们在本书中尽可能将理论与实践相结合,既重于实践应用又深入理论原理。理论是灰色的,而实践则是最鲜活的。本书是机器学习应用方面的书籍,我们希望尽可能多讲些实践和案例,并多用图画、图表说明大部分的机器学习原理和应用,让读者更能贴近实际。
本书主要内容第1章“机器学习基础”介绍机器学习应用的基础内容,希望能快速引领读者进入机器学习领域。该章包括机器学习中一些基本概念,如数据的“形状”、机器学习要素等;机器学习的应用概念,如事物与维度、分布与关系、描绘与预测、现象与知识、规律与因果;机器学习基础概念,如无限三维嵌套空间,分数维度空间,不确定论等。
第2章“数据探索”介绍机器学习应用活动的前期工作,即数据探索和数据准备工作,包括数据关系探索、数据特征探索、数据选择、数据处理。
第3章“机器学习技术”介绍机器学习的算法,一个好的、合适的算法在机器学习应用项目中起着至关重要的作用。本书从实际应用出发,介绍一些比较经典的算法,也包括一些我们为应用编写的新算法,以及一些算法流程,算法包括聚类分析、特性选择、特征抽取、关联规则、分类和预测、时间序列、深度学习等。
第4章“机器学习应用案例”介绍应用上一章中提到的一些算法开发商业应用的案例。这些案例不仅体现了算法的实践应用,也展现了机器学习应用各个环节的工作内容。该章将主要介绍特性选择模型的应用、分类模型的应用等。
第5章“机器学习应用系统开发”介绍智能医学科研系统IMRS的设计
机器学习技术与实战 医学大数据深度应用 pdf下载声明
本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版