欢迎光临
免费的PDF电子书下载网站

数据挖掘算法原理与实现(第2版) PDF下载

编辑推荐

1. 理论与实践结合。全书对数据挖掘的基本原理进行了详细而系统的介绍,并且还给出了其实现的源代码和运行结果界面。读者可以通过源程序深入了解算法的原理。2. 对常见的数据挖掘算法,本书均以例题的方式进行了应用说明,并且还对个算法的优缺点进行了总结,给出了各种算法的具体应用领域。3. 有配套的课件。 ;

内容简介

本书对数据挖掘的基本算法进行了系统介绍,每种算法不仅介绍了算法的基本原理,而且配有大量例题以及源代码,并对源代码进行了分析,这种理论和实践相结合的方式有助于读者较好地理解和掌握抽象的数据挖掘算法。 全书共分11章,内容同时涵盖了数据预处理、关联规则挖掘算法、分类算法和聚类算法,具体章节包括绪论、数据预处理、关联规则挖掘、决策树分类算法、贝叶斯分类算法、人工神经网络算法、支持向量机、Kmeans聚类算法、K中心点聚类算法、神经网络聚类算法以及数据挖掘的发展等内容。 本书可作为高等院校数据挖掘课程的教材,也可以作为从事数据挖掘工作以及其他相关工程技术工作人员的参考书。

作者简介

暂无

数据挖掘算法原理与实现(第2版) PDF下载

目录

目录

 ;

第1章绪论/1

1.1数据挖掘的概念/1

1.2数据挖掘的历史及发展/1

1.3数据挖掘的研究内容及功能/5

1.3.1数据挖掘的研究内容/5

1.3.2数据挖掘的功能/6

1.4数据挖掘的常用技术及工具/9

1.4.1数据挖掘的常用技术/9

1.4.2数据挖掘的工具/12

1.5数据挖掘的应用热点/12

1.6小结/14

思考题/15第2章数据预处理/16

2.1数据预处理的目的 /16

2.2数据清理/18

2.2.1填充缺失值/18

2.2.2光滑噪声数据/18

2.2.3数据清理过程/19

2.3数据集成和数据变换/20

2.3.1数据集成/20

2.3.2数据变换/21

2.4数据归约/23

2.4.1数据立方体聚集/23

2.4.2维归约/23

2.4.3数据压缩/24

2.4.4数值归约/25

2.4.5数据离散化与概念分层/28

2.5特征选择与提取/302.5.1特征选择/30

2.5.2特征提取/31

2.6小结/33

思考题/33第3章关联规则挖掘/35

3.1基本概念 /35

3.2关联规则挖掘算法——Apriori算法原理/36

3.3Apriori算法实例分析/38

3.4Apriori算法源程序分析/41

3.5Apriori算法的特点及应用/50

3.5.1Apriori算法特点/50

3.5.2Apriori 算法应用/51

3.6小结/52

思考题/52第4章决策树分类算法/54

4.1基本概念/54

4.1.1决策树分类算法概述/54

4.1.2决策树基本算法概述/54

4.2决策树分类算法——ID3算法原理/56

4.2.1ID3算法原理/56

4.2.2熵和信息增益/57

4.2.3ID3算法/59

4.3ID3算法实例分析/60

4.4ID3算法源程序分析/64

4.5ID3算法的特点及应用/72

4.5.1ID3算法特点/72

4.5.2ID3算法应用/72

4.6决策树分类算法——C4.5算法原理/73

4.6.1C4.5算法/73

4.6.2C4.5算法的伪代码/75

4.7C4.5算法实例分析/76

4.8C4.5算法源程序分析 /77

4.9C4.5算法的特点及应用/101

4.9.1C4.5算法特点/101

4.9.2C4.5算法应用/101

4.10小结/102

思考题/102第5章贝叶斯分类算法/103

5.1基本概念/103

5.1.1主观概率/103

5.1.2贝叶斯定理/104

5.2贝叶斯分类算法原理/105

5.2.1朴素贝叶斯分类模型/105

5.2.2贝叶斯信念网络/107

5.3贝叶斯算法实例分析/110

5.3.1朴素贝叶斯分类器/110

5.3.2BBN/112

5.4贝叶斯算法源程序分析/114

5.5贝叶斯算法特点及应用/119

5.5.1朴素贝叶斯分类算法/119

5.5.2贝叶斯信念网/120

思考题/121第6章人工神经网络算法/122

6.1基本概念/122

6.1.1生物神经元模型/122

6.1.2人工神经元模型/123

6.1.3主要的神经网络模型/124

6.2BP算法原理/126

6.2.1Delta学习规则的基本原理/126

6.2.2BP网络的结构/126

6.2.3BP网络的算法描述/127

6.2.4标准BP网络的工作过程/129

6.3BP算法实例分析/130

6.4BP算法源程序分析/134

6.5BP算法的特点及应用/143

6.5.1BP算法特点/143

6.5.2BP算法应用/144

6.6小结/145

思考题/145第7章支持向量机/146

7.1基本概念/146

7.1.1支持向量机理论基础/146

7.1.2统计学习核心理论/146

7.1.3学习过程的一致性条件/146

7.1.4函数集的VC维/147

7.1.5泛化误差界/148

7.1.6结构风险最小化归纳原理/148

7.2支持向量机原理/149

7.2.1支持向量机核心理论/149

7.2.2最大间隔分类超平面/149

7.2.3支持向量机/150

7.2.4核函数分类/153

7.3支持向量机实例分析/154

7.4支持向量机的特点及应用/156

7.4.1支持向量机的特点/156

7.4.2支持向量机的应用/157

7.5小结/158

思考题/158第8章Kmeans聚类算法/159

8.1简介/159

8.2Kmeans聚类算法原理/159

8.3Kmeans聚类算法实例分析/161

8.4Kmeans聚类算法源程序分析/164

8.5Kmeans聚类算法的特点及应用/171

8.5.1Kmeans聚类算法的特点/171

8.5.2Kmeans聚类算法的应用/171

8.6小结/172

思考题/172第9章K中心点聚类算法/173

9.1简介/173

9.2K中心点聚类算法原理/173

9.3K中心点聚类算法实例分析/174

9.4K中心点聚类算法源程序分析/175

9.5K中心点聚类算法的特点及应用/183

9.5.1K中心点聚类算法的特点/183

9.5.2K中心点聚类算法的应用/183

9.6小结/183第10章神经网络聚类方法:SOM /184

10.1简介/184

10.2竞争学习算法基础/184

10.2.1自组织神经网络结构/184

10.2.2自组织神经网络的原理/185

10.3SOM算法原理/187

10.3.1SOM网络的拓扑结构/187

10.3.2SOM权值调整域/188

10.3.3SOM网络运行原理/189

10.3.4学习方法/189

10.4SOM算法实例分析/190

10.4.1问题描述/190

10.4.2网络设计及学习结果/191

10.4.3结果输出/191

10.5SOM算法源程序分析/192

10.6SOM算法的特点及应用/202

10.6.1SOM特点/202

10.6.2SOM应用/202

10.7小结/203

思考题/203第11章数据挖掘的发展/204

11.1Web挖掘/204

11.1.1Web数据挖掘定义/204

11.1.2Web数据挖掘分类/204

11.1.3Web数据挖掘的数据源/206

11.1.4Web数据挖掘中知识的分类/207

11.1.5Web数据挖掘的关键问题/208

11.2空间数据挖掘/209

11.2.1空间数据挖掘的定义与特点/209

11.2.2空间数据挖掘的体系结构/210

11.2.3空间数据挖掘可获得的知识

类型/210

11.2.4空间数据挖掘的方法/212

11.3流数据挖掘/215

11.3.1流数据的特点/215

11.3.2流数据挖掘关键技术/215

11.3.3流数据挖掘的实际应用及前景/217

11.4数据挖掘与可视化技术/218

11.4.1什么是可视化/218

11.4.2数据可视化技术分类/219

11.4.3数据挖掘可视化技术的应用/221

11.5小结/222

思考题/223参考文献/224

媒体评论

评论

前沿

前言数据挖掘涉及数据库技术、人工智能、统计学、机器学习等多学科领域,并且已经在各行各业有了非常广泛的应用。为适应我国数据挖掘的教学工作,作者在数据挖掘教学实践的基础上,参阅了多种国内外最新版本的教材,编写了本书。本书可以作为高等院校研究生的教材,也可以为相关行业的工程技术人员提供有益的参考。本书在第1版的基础上对其中欠妥之处进行了修改,内容安排和第1版一致,循序渐进地对数据挖掘原理进行了通俗易懂的讲解。本书最大的特点是理论与实践相结合,全书几乎所有的算法都配有实例和源程序,这种理论与实际相结合的方法克服了重理论轻实践的内容组织方式,便于读者理解和掌握其中知识。具体而言,本书11章内容之间的关系如下图所示。

 ;本书配有教学课件,读者可登录www.tup.com.cn网站自行下载。由于编者水平有限,本书难免存在不少缺点和不足之处,恳请专家和读者批评指正。

 ; 编者2016年9月

免费在线读

第5章贝叶斯分类算法〖1〗5.1基本概念〖1〗5.1.1主观概率贝叶斯方法是一种研究不确定性的推理方法。不确定性常用贝叶斯概率表示,它是一种主观概率。通常的经典概率代表事件的物理特性,是不随人意识变化的客观存在。而贝叶斯概率则是人的认识,是个人主观的估计,随个人主观认识的变化而变化。例如事件的贝叶斯概率只指个人对该事件的置信程度,因此是一种主观概率。投掷硬币可能出现正反面两种情形,经典概率代表硬币正面朝上的概率,这是一个客观存在;而贝叶斯概率则指个人相信硬币会正面朝上的程度。同样的例子还有,一个企业家认为“一项新产品在未来市场上销售”的概率是0.8,这里的0.8是根据他多年的经验和当时的一些市场信息综合而成的个人信念。一个投资者认为“购买某种股票能获得高收益”的概率是0.6,这里的0.6是投资者根据自己多年股票生意经验和当时股票行情综合而成的个人信念。贝叶斯概率是主观的,对其估计取决于先验知识的正确性和后验知识的丰富和准确度。因此贝叶斯概率常常可能随个人掌握信息的不同而发生变化。对即将进行的羽毛球单打比赛结果进行预测,不同人对胜负的主观预测都不同。如果对两人的情况和各种现场的分析一无所知,就会认为两者的胜负比例为1∶1;如果知道其中一人为本届奥运会羽毛球单打冠军,而另一人只是某省队新队员,则可能给出的概率是奥运会冠军和省队队员的胜负比例为3∶1;如果进一步知道奥运冠军刚好在前一场比赛中受过伤,则对他们胜负比例的主观预测可能会下调为2∶1。所有的预测推断都是主观的,基于后验知识的一种判断,取决于对各种信息的掌握。经典概率方法强调客观存在,它认为不确定性是客观存在的。在同样的羽毛球单打比赛预测中,从经典概率的角度看,如果认为胜负比例为1∶1,则意味着在相同的条件下,如果两人进行100场比赛,其中一人可能会取得50场的胜利,同时丢掉另外50场。主观概率不像经典概率那样强调多次重复,因此在许多不可能出现重复事件的场合能得到很好的应用。上面提到的企业家对未来产品的预测,投资者对股票是否能取得高收益的预测以及羽毛球比赛胜负的预测中,都不可能进行重复的实验,因此,利用主观概率,按照个人对事件的相信程度而对事件做出推断是一种很合理且易于解释的方法。5.1.2贝叶斯定理〖*4/5〗1. 基础知识(1) 已知事件A发生的条件下,事件B发生的概率,叫作事件B在事件A发生下的条件概率,记为PBA,其中PA叫作先验概率,PBA叫作后验概率,计算条件概率的公式为PBA=PA∩BPA(51)条件概率公式通过变形得到乘法公式为PA∩B=PBAPA(52)(2) 设A,B为两个随机事件,如果有PAB=PAPB成立,则称事件A和B相互独立。此时有PAB=PA,PAB=PAPB成立。设A1,A2,…,An为n个随机事件,如果对其中任意m2≤m≤n个事件Ak1,Ak2,…,Akm,都有PAk1,Ak2,…,Akm=PAk1PAk2…PAkm(53)成立,则称事件A1,A2,…,An相互独立。(3) 设B1,B2,…,Bn为互不相容事件,PBi>;0,i=1,2,…,n,且∪ni=1Bi=Ω,对任意的事件A∪ni=1Bi,计算事件A概率的公式为PA=∑ni=1PBiPABi(54)设B1,B2,…,Bn为互不相容事件,PBi>;0,i=1,2,…,n,PA>;0,则在事件A发生的条件下,事件Bi发生的概率为PBiA=PBiAPA=PBiPABi∑ni=1PBiPABi(55)则称该公式为贝叶斯公式。2. 贝叶斯决策准则假设Ω=C1,C2,…,Cm是有m个不同类别的集合,特征向量X是d维向量,PXCi是特征向量X在类别Ci状态下的条件概率,PCi为类别Ci的先验概率。根据前面所述的贝叶斯公式,后验概率PCiX的计算公式为PCiX=PXCiPXPCi(56)其中PX=∑mj=1PXCjPCj。贝叶斯决策准则为: 如果对于任意i≠j,都有PCiX>;PCjX成立,则样本模式X被判定为类别Ci。3. 极大后验假设根据贝叶斯公式可得到一种计算后验概率的方法: 在一定假设的条件下,根据先验概率和统计样本数据得到的概率,可以得到后验概率。令Pc是假设c的先验概率,它表示c是正确假设的概率,PX表示的是训练样本X的先验概率,PXc表示在假设c正确的条件下样本X发生或出现的概率,根据贝叶斯公式可以得到后验概率的计算公式为PcX=PXcPcPX (57)设C为类别集合也就是待选假设集合,在给定未知类别标号样本X时,通过计算找到可能性最大的假设c∈C,具有最大可能性的假设或类别被称为极大后验假设(maximum a posteriori),记作cmap。cmap=argmaxc∈CPcX=argmaxc∈CPXcPcPX(58)由于PX与假设c无关,故上式可变为cmap=argmaxc∈CPXcPc(59)当没有给定类别概率的情形下,可做一个简单的假定。假设C中每个假设都有相等的先验概率,也就是对于任意的ci,cj∈Ci≠j,都有Pci=Pcj,再做进一步简化,只需计算PXc找到使之达到最大的假设。PXc被称为极大似然假设(maximum likelihood),记为cml。cml=argmaxc∈CPXc(510)5.2贝叶斯分类算法原理〖1〗5.2.1朴素贝叶斯分类模型贝叶斯分类器诸多算法中朴素贝叶斯分类模型是最早的。它的算法逻辑简单,构造的朴素贝叶斯分类模型结构也比较简单,运算速度比同类算法快很多,分类所需的时间也比较短,并且大多数情况下分类精度也比较高,因而在实际中得到了广泛的应用。该分类器有一个朴素的假定: 以属性的类条件独立性假设为前提,即在给定类别状态的条件下,属性之间是相互独立的。朴素贝叶斯分类器的结构示意图如图51所示。图51朴素贝叶斯分类器的结构示意图假设样本空间有m个类别C1,C2,…,Cm,数据集有n个属性A1,A2,…,An,给定一未知类别的样本X=x1,x2,…,xn,其中xi表示第i个属性的取值,即xi∈Ai,则可用贝叶斯公式计算样本X=x1,x2,…,xn属于类别Ck1≤k≤m的概率。由贝叶斯公式,有PCkX=PCkPXCkPXPCkPXCk,即要得到PCkX的值,关键是要计算PXCk和PCk。令CX为X所属的类别标签,由贝叶斯分类准则,如果对于任意i≠j都有PCiX>;PCjX成立,则把未知类别的样本X指派给类别Ci,贝叶斯分类器的计算模型为VX=argmaxPCiPXCi(511)由朴素贝叶斯分类器的属性独立性假设,假设各属性xii=1,2,…,n间相互类条件独立,则PXCi=∏nk=1PxkCi (512)于是式(511)被修改为VX=argmaxiPCi∏nk=1PxkCi(513)PCi为先验概率,可通过PCi=di/d计算得到,其中di是属于类别Ci的训练样本的个数;d是训练样本的总数。若属性Ak是离散的,则概率可由PxkCi=dik/di计算得到,其中dik是训练样本集合中属于类Ci并且属性Ak取值为xk的样本个数,di是属于类Ci的训练样本个数。朴素贝叶斯分类的工作过程如下: ;(1) 用一个n维特征向量X=x1,x2,…,xn来表示数据样本,描述样本X对n个属性A1,A2,…,An的量度。(2) 假定样本空间有m个类别状态C1,C2,…,Cm,对于给定的一个未知类别标号的数据样本X,分类算法将X判定为具有最高后验概率的类别,也就是说,朴素贝叶斯分类算法将未知类别的样本X分配给类别Ci,当且仅当对于任意的j,始终有PCiX>;PCjX成立,1≤i≤m,1≤j≤m,j≠i。使PCiX取得最大值的类别Ci被称为最大后验假定。(3) 由于PX不依赖类别状态,对于所有类别都是常数,故根据贝叶斯定理,最大化PCiX只需要最大化PXCiPCi即可。如果类的先验概率未知,则通常假设这些类别的概率是相等的,即PC1=PC2=…=PCm,所以只需要最大化PXCi即可,否则就要最大化PXCiPCi。其中可用频率Si/S对PCi进行估计计算,Si是给定类别Ci中训练样本的个数;S是训练样本(实例空间)的总数。(4) 当实例空间中训练样本的属性较多时,计算PXCi可能会比较费时,开销较大,此时可以做类条件独立性的假定: 在给定样本类别标号的条件下,假定属性值是相互条件独立的,属性之间不存在任何依赖关系,则下面等式成立: PXCi=∏nk=1PxkCi。其中概率Px1Ci,Px2Ci,…,PxnCi的计算可由样本空间中的训练样本进行估计。实际问题中根据样本属性Ak的离散连续性质,考虑下面两种情形: ; 如果属性Ak是连续的,则一般假定它服从正态分布,从而来计算类条件概率。 如果属性Ak是离散的,则PxkCi=Sik/Si,其中Sik是在实例空间中类别为Ci的样本中属性Ak上取值为xk的训练样本个数,而Si是属于类别Ci的训练样本个数。(5) 对于未知类别的样本X,对每个类别Ci分别计算PXCiPCi。样本X被认为属于类别Ci,当且仅当PXCiPCi>;PXCjPCj,1≤i≤m,1≤j≤m,j≠i,也就是说样本X被指派到使PXCiPCi取得最大值的类别Ci。朴素贝叶斯分类模型的算法描述如下: ;(1) 对训练样本数据集和测试样本数据集进行离散化处理和缺失值处理。(2) 扫描训练样本数据集,分别统计训练集中类别Ci的个数di和属于类别Ci的样本中属性Ak取值为xk的实例样本个数dik,构成统计表。(3) 计算先验概率PCi=di/d和条件概率PAk=xkCi=dik/di,构成概率表。(4) 构建分类模型VX=argmaxiPCiPXCi。(5) 扫描待分类的样本数据集,调用已得到的统计表、概率表以及构建好的分类准则,得出分类结果。5.2.2贝叶斯信念网络朴素贝叶斯分类器的条件独立假设似乎太严格了,特别是对那些属性之间有一定相关性的分类问题。下面介绍一种更灵活的类条件概率PXY的建模方法。该方法不要求给定类的所有属性条件独立,而是允许指定哪些属性条件独立。1. 模型表示贝叶斯信念网络(Bayesian Belief Networks,BBN),简称贝叶斯网络,用图形表示一组随机变量之间的概率关系。贝叶斯网络有以下两个主要成分: ;(1) 一个有向无环图(Directed Acyclic Graph,DAG),表示变量之间的依赖关系。(2) 一个概率表,把各节点和它的直接父节点关联起来。考虑三个随机变量A、B和C,其中A和B相互独立,并且都直接影响第三个变量C。三个变量之间的关系可以用图52(a)中的有向无环图概括。图中每个节点表示一个变量,每条弧表示变量之间的依赖关系。如果从X到Y有一条有向弧,则X是Y的父母,Y是X的子女。另外,如果网络中存在一条从X到Z的有向路径,则X是Z的祖先,而Z是X的后代。例如,在图52(b)中,A是D的后代,D是B的祖先,而且B和D都不是A的后代节点。贝叶斯网络的重要性质是: 贝叶斯网络中的一个节点,如果它的父母节点已知,则它条件独立于它所有的非后代节点。图52(b)中给定C,A条件独立于B和D,因为B和D都是A的非后代节点。朴素贝叶斯分类器中的条件独立假设也可以用贝叶斯网络来表示。如图52(c)所示,其中Y是目标类,X1,X2,…,X5是属性集。图52贝叶斯信念网络在贝叶斯信念网中,除了网络拓扑结构要求的条件独立性外,每个节点还关联一个概率表。如果节点X没有父母节点,则表中只包含先验概率PX。如果节点X只有一个父母节点Y,则表中包含条件概率PXY。如果节点X有多个父母节点Y1,Y2,…,Yk,则表中包含条件概率P(X|Y1,Y2,…,Yk)。如图53所示是贝叶斯网络的一个例子,对心脏病或心口痛患者建模。假设图中每个变量都是二值的。心脏病节点(HD)的父母节点对应于影响该疾病的危险因素,例如锻炼(E)和饮食(D)等。心脏病节点的子节点对应于该病的症状,如胸痛(CP)和高血压(BP)等。如图53所示,心口痛(HB)可能源于不健康的饮食,同时又可能导致胸痛。图53发现心脏病和心口痛病人的贝叶斯网影响疾病的危险因素对应的节点只包含先验概率,而心脏病、心口痛以及它们的相应症状所对应的节点都包含条件概率。为了节省空间,图中省略了一些概率。注意PX=x-=1-PX=x,PX=x-Y=1-PX=xY,其中x-表示与x相反的结果。因此,省略的概率可以很容易求得。例如,条件概率P心脏病=no锻炼=no,饮食=健康=1-P心脏病=yes锻炼=no,饮食=健康=1-0.55=0.452. 模型建立贝叶斯网络的建模包括两个步骤: 创建网络结构以及估计每一个节点的概率表中的概率值。网络拓扑结构可以通过对主观的领域专家知识编码获得,算法5.1给出了归纳贝叶斯网络拓扑结构的一个系统过程。算法5.1贝叶斯网络拓扑结构的生成算法。(1) 设T=X1,X2,…,Xd表示变量的一个总体次序。(2) FOR j=1 to d DO。(3) 令XTj表示T中第j个次序最高的变量。(4) 令πXTj=X1,X2,…,XTj-1表示排在XTj前面的变量的集合。(5) 从πXTj中去掉对Xj没有影响的变量(使用先验知识)。(6) 在XTj和πXTj中剩余的变量之间画弧。(7) END FOR。我们以图5.3为例解释上述步骤,执行步骤(1)后,设变量次序为(E,D,HD,HB,CP,BP),从变量D开始,经过步骤(2)~(7),得到以下条件概率: ; PDE化简为PD。 PHDE,D不能化简。 PHBHD,E,D化简为PHBD。 PCPHB,HD,E,D化简为PCPHB,HD。 PBPCP,HB,HD,E,D化简为PBPHD。基于以上条件概率,创建节点之间的弧E,HD、D,HD、D,HB、HD,CP、HB,CP和HD,BP。这些弧构成了如图53所示的网络结构。算法5.1保证生成的拓扑结构不包括环。这一点的证明也很简单。如果存在环,那么至少有一条弧从低序节点指向高序节点,并且至少存在另一条弧从高序节点指向低序节点。由于算法5.1不允许从低序节点到高序节点的弧存在,因此拓扑结构中不存在环。然而,如果对变量采用不同的排序方案,得到的网络拓扑结构可能会有变化。某些拓扑结构可能质量很差,因为它在不同的节点对之间产生了很多条弧。从理论上讲,可能需要检查所有d!种可能的排序才能确定最佳的拓扑结构,这是一项计算开销很大的任务。一种替代的方法是把变量分为原因变量和结果变量,然后从各原因变量向其对应的结果变量画弧。这种方法简化了贝叶斯网络结构的建立。一旦找到了合适的拓扑结构,与各节点关联的概率表就确定了。对这些概率的估计比较容易,与朴素贝叶斯分类器中所用的方法类似。5.3贝叶斯算法实例分析〖1〗5.3.1朴素贝叶斯分类器【例5.1】应用朴素贝叶斯分类器来解决这样一个分类问题:  ;根据天气状况来判断某天是否适合打网球。给定如表51所示的14个训练实例,其中每一天由属性outlook,temperature,humidity,windy来表征,类属性为play tennis。表5114个训练实例dayoutlooktemperaturehumiditywindyplay tennis1sunnyhothighweakno2sunnyhothighstrongno3overcasthothighweakyes4rainmildhighweakyes5raincoolnormalweakyes6raincoolnormalstrongno7overcastcoolnormalstrongyes8sunnymildhighweakno9sunnycoolnormalweakyes10rainmildnormalweakyes11sunnymildnormalstrongyes12overcastmildhighstrongyes13overcasthotnormalweakyes14rainmildhighstrongno现有一测试实例x:

,问这一天是否适合打网球?图54朴素贝叶斯分类器的结构显然,我们的任务就是要预测此新实例的类属性play tennis的取值(yes或no), 为此,我们构建了如图54所示的朴素贝叶斯网络分类器。图中的类节点C表示类属性play tennis, 其他4个节点A1,A2,A3,A4分别代表4个属性outlook,temperature,humidity,windy,类节点C是所有属性节点的父亲节点,属性节点和属性节点之间没有任何的依赖关系。根据公式有Vx=argmaxc∈yes,noPcPsunnycPcoolcPhighcPstrongc为计算Vx, 需要从如表51所示的14个训练实例中估计出概率。Pyes,Psunnyyes,Pcoolyes,Phighyes,Pstrongyes,Pno,Psunnyno,Pcoolno,Phighno,Pstrongno。具体的计算如下:Pyes=9/14Psunnyyes=2/9Pcoolyes=3/9Phighyes=3/9Pstrongyes=3/9Pno=5/14Psunnyno=3/5Pcoolno=1/5Phighno=4/5Pstrongno=3/5所以有PyesPsunnyyesPcoolyesPhighyesPstrongyes=0.005291PnoPsunnynoPcoolnoPhighnoPstrongno=0.0205704可见,朴素贝叶斯分类器将此实例分类为no。【例5.2】应用朴素贝叶斯分类器来解决这样一个分类问题: 给出一个商场顾客数据库(训练样本集合),判断某一顾客是否会买电脑。给定如表52所示的15个训练实例,其中每个实例由属性age,income,student,credit rating来表征,样本集合的类别属性为buy computer,该属性有两个不同的取值,即yes,no,因此就有两个不同的类别m=2。设C1对应yes类别,C2对应no类别。表5215个训练实例ageincomestudentcredit ratingbuy computer≤30 highnofairno≤30 highnoexcellentno31…40 highnofairyes>;40 mediumnofairyes>;40 lowyesfairyes>;40 lowyesexcellentno31…40 lowyesexcellentyes≤30 mediumnofairno续表ageincomestudentcredit ratingbuy computer≤30 lowyesfairyes>;40 mediumyesfairyes≤30 mediumyesexcellentyes31…40 mediumnoexcellentyes31…40 highyesfairyes>;40 medium noexcellentno现有一测试实例x: (age<;=30,income=medium,student=yes,credit rating=fair),问: 这一实例是否会买电脑?我们的任务是要判断给定的测试实例是属于C1还是C2。根据公式有Vx=argmaxc∈yes,noPcPage≤30cPmediumcPyescPfairc为计算Vx,我们计算每个类的先验概率PCi。PCi: Pbuycomputer=yes=9/14=0.643Pbuycomputer=
o=5/14=0.357为计算PXCi,i=1、2,计算下面的条件概率。Page=≤30uycomputer=yes=2/9=0.222Page=≤30uycomputer=
o=3/5=0.6Pincome=mediumuycomputer=yes=4/9=0.444Pincome=mediumuycomputer=
o=2/5=0.4Pstudent=yesuycomputer=yes=6/9=0.667Pstudent=yesuycomputer=
o=1/5=0.2Pcreditrating=fairuycomputer=yes=6/9=0.667Pcreditrating=fairuycomputer=
o=2/5=0.4X=age≤30,income=medium,student=yes,creditrating=fairPXCi: PXbuycomputer=yes=0.222×0.444×0.667×0.667=0.044PXbuycomputer=
o=0.6×0.4×0.2×0.4=0.019PXCi·PCi: PXbuycomputer=yes·Pbuycomputer=yes=0.028PXbuycomputer=
o·Pbuycomputer=
o=0.007因此,对于样本X,朴素贝叶斯分类预测buycomputer=yes。5.3.2BBN使用如图53所示的BBN来诊断一个人是否患有心脏病。下面阐释在不同的情况

数据挖掘算法原理与实现(第2版) pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:数据挖掘算法原理与实现(第2版)