数据挖掘十大算法（世界著名计算机教材精选） PDF下载

编辑推荐

1）阐述了由数据挖掘领域的*专家推荐的、在实际中用途最广、影响*的十种数据挖掘算法。

（2）对每一种算法都进行了多个角度的深入剖析，包括算法历史、算法过程、算法特性、软件实现、前沿发展等。

（3）每章末尾给出了丰富的习题和精挑细选的参考文献。

；

内容简介

数据挖掘这一学科近年来发展十分迅速，不仅产生了大量不同类型的挖掘算法，而且也表现出与机器学习等学科深度融合的态势。无论是从事研究的专家学者还是从事应用的开发人员都十分希望能一窥其大略，从而比较准确地把握数据挖掘领域当前的主干技术，并比较全面地了解当前的发展趋势。当前，在市场上流通的数据挖掘方面的著作已经不算少了，主要是两大类：一类是具有完整体系的教材类图书，一类是面向特定领域的应用型图书。前者主要是服务教学，所以侧重原理、逻辑严谨，但是通常对数据挖掘的前沿介绍比较欠缺。后者往往集中于介绍某一领域的问题和方法，或者是关于某些典型工具的使用方法，其优点在于直观有效，但相对于整个数据挖掘领域其覆盖面偏小。
为此，很有必要对整个数据挖掘领域的近期发展和前沿成果进行梳理，而这一类信息往往散见于相关的大量学术期刊和会议文集中，限于视野和精力，任何个人都难以完成这一任务。在此基础上，还需要对当前庞大的数据挖掘知识体系进行恰当的取舍和凝练，这一工作必须依靠该领域的高水平学者。所以，国际数据挖掘社区合众人之力，在2006年推出了The Top Ten Algorithms in Data Mining这一继往开来之作。该书列举了评选出来的十个*影响力的数据挖掘算法： C4.5、kmeans、SVM、Apriori、EM、PageRank、AdaBoost、kNN、Naive Bayes和CART。我们认为该书有其鲜明特色：<；span>；数据挖掘这一学科近年来发展十分迅速，不仅产生了大量不同类型的挖掘算法，而且也表现出与机器学习等学科深度融合的态势。无论是从事研究的专家学者还是从事应用的开发人员都十分希望能一窥其大略，从而比较准确地把握数据挖掘领域当前的主干技术，并比较全面地了解当前的发展趋势。<；/span>；<；p>；当前，在市场上流通的数据挖掘方面的著作已经不算少了，主要是两大类：；一类是具有完整体系的教材类图书，一类是面向特定领域的应用型图书。前者主要是服务教学，所以侧重原理、逻辑严谨，但是通常对数据挖掘的前沿介绍比较欠缺。后者往往集中于介绍某一领域的问题和方法，或者是关于某些典型工具的使用方法，其优点在于直观有效，但相对于整个数据挖掘领域其覆盖面偏小。<；/p>；<；p>；为此，很有必要对整个数据挖掘领域的近期发展和前沿成果进行梳理，而这一类信息往往散见于相关的大量学术期刊和会议文集中，限于视野和精力，任何个人都难以完成这一任务。在此基础上，还需要对当前庞大的数据挖掘知识体系进行恰当的取舍和凝练，这一工作必须依靠该领域的高水平学者。所以，国际数据挖掘社区合众人之力，在2006年推出了The ；Top ；Ten ；Algorithms ；in ；Data ；Mining这一继往开来之作。该书列举了评选出来的十个*影响力的数据挖掘算法：；C4.5、kmeans、SVM、Apriori、EM、PageRank、AdaBoost、kNN、Naive ；Bayes和CART。我们认为该书有其鲜明特色：；<；/p>；<；p>；第一，立意承前启后，推出的时机恰当。该书的内容涵盖了分类、聚类、统计学习、关联分析和链接分析等重要主题在近年来的发展，这不但对数据挖掘的研究和发展十分重要，也将数据挖掘推动到更大范围的真实应用中，激励更多数据挖掘领域的学者对这些算法的作用和新问题进行深入探索。<；/p>；<；p>；第二，汇集群体智慧，具有很高权威性。参评人员囊括了历届ACM ；KDD创新奖和IEEE ；ICDM研究贡献奖得主这些*学者，以及SIGKDD、ICDM和SDM这三大数据挖掘学术会议的程序委员会的全体委员。此外，还组织了专题会邀请了一百多位领域专家进行开放研讨。<；/p>；<；p>；第三，执行过程严谨，确保内容高品质。第一阶段是由*学者推荐算法并提供算法名称、简要理由和代表文献这些必要信息，第二阶段用google ；scholar对每个提名算法进行客观地引用验证和排序，第三个阶段由数据挖掘社区的专家和相关领域的专家进行投票，获得完全一致的结果。最后，邀请资深学者撰写上榜算法的介绍并集结成书。<；/p>；

作者简介

暂无

数据挖掘十大算法（世界著名计算机教材精选） PDF下载

第1章C4.51
1.1引言2
1.2算法描述3
1.3算法特性6
1.3.1决策树剪枝6
1.3.2连续型属性8
1.3.3缺失值处理8
1.3.4规则集诱导9
1.4软件实现10
1.5示例10
1.5.1Golf数据集10
1.5.2Soybean数据集11
1.6高级主题11
1.6.1二级存储12
1.6.2斜决策树12
1.6.3特征选择12
1.6.4集成方法12
1.6.5分类规则13
1.6.6模型重述13
1.7习题14
参考文献15
第2章kmeans18
2.1引言19
2.2算法描述19
2.3可用软件22
2.4示例23
2.5高级主题27
2.6小结28
2.7习题28
参考文献29
第3章SVM：支持向量机31
3.1支持向量分类器32
3.2支持向量分类器的软间隔优化34
3.3核技巧35
3.4理论基础38
3.5支持向量回归器40
3.6软件实现41
3.7当前和未来的研究41
3.7.1计算效率41
3.7.2核的选择41
3.7.3泛化分析42
3.7.4结构化支持向量机的学习42
3.8习题43
参考文献44
第4章Apriori47
4.1引言48
4.2算法描述48
4.2.1挖掘频繁模式和关联规则48
4.2.2挖掘序列模式52
4.2.3讨论53
4.3软件实现54
4.4示例55
4.4.1可行示例55
4.4.2性能评估60
4.5高级主题61
4.5.1改进Apriori类型的频繁模式挖掘61
4.5.2无候选的频繁模式挖掘62
4.5.3增量式方法63
4.5.4稠密表示: 闭合模式和最大模式63
4.5.5量化的关联规则64
4.5.6其他的重要性/兴趣度度量方法65
4.5.7类别关联规则66
4.5.8使用更丰富的形式： 序列、树和图66
4.6小结67
4.7习题67
参考文献68
第5章EM72
5.1引言73
5.2算法描述74
5.3软件实现74
5.4示例75
5.4.1例5.1： 多元正态混合75
5.4.2例5.2: 混合因子分析78
5.5高级主题80
5.6习题81
参考文献87
第6章PageRank90
6.1引言91
6.2算法描述92
6.3一个扩展： TimedPageRank95
6.4小结96
6.5习题96
参考文献97
第7章AdaBoost98
7.1引言99
7.2算法描述99
7.2.1符号定义99
7.2.2通用推举过程100
7.2.3AdaBoost算法101
7.3示例103
7.3.1异或问题求解103
7.3.2真实数据上的性能104
7.4实际应用105
7.5高级主题107
7.5.1理论问题107
7.5.2多类别AdaBoost110
7.5.3其他高级主题111
7.6软件实现111
7.7习题112
参考文献113
第8章kNN： k最近邻115
8.1引言116
8.2算法描述116
8.2.1宏观描述116
8.2.2若干议题117
8.2.3软件实现118
8.3示例118
8.4高级主题120
8.5习题121
致谢121
参考文献122
第9章Naive Bayes124
9.1引言125
9.2算法描述125
9.3独立给力127
9.4模型扩展128
9.5软件实现130
9.6示例130
9.6.1例1130
9.6.2例2132
9.7高级主题133
9.8习题133
参考文献134
第10章CART：分类和回归树136
10.1前身137
10.2概述138
10.3示例138
10.4算法描述140
10.5分裂准则141
10.6先验概率和类别均衡142
10.7缺失值的处理144
10.8属性的重要度145
10.9动态特征构造146
10.10代价敏感学习147
10.11停止准则、剪枝、树序列和树选择147
10.12概率树149
10.13理论基础150
10.14CART之后的相关研究150
10.15可用软件151
10.16习题152
参考文献153

前沿

数据挖掘这一学科近年来发展十分迅速，不仅产生了大量不同类型的挖掘算法，而且也表现出与机器学习等学科深度融合的态势。无论是从事研究的专家学者还是从事应用的开发人员都十分希望能一窥其大略，从而比较准确地把握数据挖掘领域当前的主干技术，并比较全面地了解当前的发展趋势。

；

当前，在市场上流通的数据挖掘方面的著作已经不算少了，主要是两大类：；一类是具有完整体系的教材类图书，一类是面向特定领域的应用型图书。前者主要是服务教学，所以侧重原理、逻辑严谨，但是通常对数据挖掘的前沿介绍比较欠缺。后者往往集中于介绍某一领域的问题和方法，或者是关于某些典型工具的使用方法，其优点在于直观有效，但相对于整个数据挖掘领域其覆盖面偏小。

；

为此，很有必要对整个数据挖掘领域的近期发展和前沿成果进行梳理，而这一类信息往往散见于相关的大量学术期刊和会议文集中，限于视野和精力，任何个人都难以完成这一任务。在此基础上，还需要对当前庞大的数据挖掘知识体系进行恰当的取舍和凝练，这一工作必须依靠该领域的高水平学者。所以，国际数据挖掘社区合众人之力，在2006年推出了The ；Top ；Ten ；Algorithms ；in ；Data ；Mining这一继往开来之作。该书列举了评选出来的十个最具影响力的数据挖掘算法：；C4.5、kmeans、SVM、Apriori、EM、PageRank、AdaBoost、kNN、Naive ；Bayes和CART。我们认为该书有其鲜明特色：；

；

第一，立意承前启后，推出的时机恰当。该书的内容涵盖了分类、聚类、统计学习、关联分析和链接分析等重要主题在近年来的发展，这不但对数据挖掘的研究和发展十分重要，也将数据挖掘推动到更大范围的真实应用中，激励更多数据挖掘领域的学者对这些算法的作用和新问题进行深入探索。

；

第二，汇集群体智慧，具有很高权威性。参评人员囊括了历届ACM ；KDD创新奖和IEEE ；ICDM研究贡献奖得主这些顶尖学者，以及SIGKDD、ICDM和SDM这三大数据挖掘学术会议的程序委员会的全体委员。此外，还组织了专题会邀请了一百多位领域专家进行开放研讨。

；

第三，执行过程严谨，确保内容高品质。第一阶段是由顶尖学者推荐算法并提供算法名称、简要理由和代表文献这些必要信息，第二阶段用google ；scholar对每个提名算法进行客观地引用验证和排序，第三个阶段由数据挖掘社区的专家和相关领域的专家进行投票，获得完全一致的结果。最后，邀请资深学者撰写上榜算法的介绍并集结成书。

；

本书的翻译工作由中科院软件研究所李文波和北京市科学技术情报研究所吴素研共同完成，我们非常希望能为国内数据挖掘方面的工作略尽一点绵薄之力，但是由于水平有限，译作难免有错漏之处，请不吝指出。

；

最后，我们还要感谢国家自然科学基金（项目编号：；61003117）、ISTICThomson ；Reuters科学计量学联合实验室开放基金（项目编号：；IT2011003）、国家863计划（项目编号：；2013AA01A603）和国家软科学计划（项目编号：；2009GXQ6D154）对我们工作的支持。

；

数据挖掘十大算法

前言

；

前言

；

在香港举办的2006年度IEEE数据挖掘国际会议(ICDM, ；http://www.cs.uvm.edu/～icdm/)上，与会专家遴选出了十个最具影响力的数据挖掘算法，也就是本书所列的十个算法：C4.5、kmeans、SVM、Apriori、EM、PageRank、AdaBoost、kNN、Naive ；Bayes和CART。

；

遴选过程第一步，在2006年9月，我们邀请ACM ；KDD创新奖得主和IEEE ；ICDM研究贡献奖得主每人推荐十个最著名的数据挖掘算法，并提供以下信息：

；

(a) ；算法名称；

；

(b) ；算法简介；

；

我们还要求每个被提名的算法都应被数据挖掘领域的学者广泛引述和使用，每位推荐人提名的算法集应能代表数据挖掘的不同领域。除一人外其他所有专家都给予了回复。

；

遴选过程第二步，在2006年10月，我们用Google ；Scholar对每项提名进行了验证，去除了引用数低于50的提名，将保留下的所有提名（共18个）分成十个主题：关联分析、分类、聚类、统计学习、装袋推举、序列模式、集成挖掘、粗糙集、链接挖掘和图挖掘。对于某些算法，如kmeans，不要求提供发明该算法的原始文献，但需要提供阐述该算法重要性的近期论文。可从ICDM站点(http://www.cs.uvm.edu/～icdm/algorithms/CandidateList.shtml)上找到这些代表性文献。

；

遴选过程第三步，我们动员了研究社区的很多人参与，其中包括KDD06 ；(the ；2006 ；ACM ；SIGKDD ；International ；Conference ；on ；Knowledge ；Discovery ；and ；Data ；Mining)、ICDM06 ；(the ；2006 IEEE International Conference on Data Mining)和SDM06 (the 2006 SIAM International Conference on Data Mining)的程序委员会的全体委员，以及ACM KDD创新奖得主和IEEE ICDM研究贡献奖得主。请每位参与人员从18个候选算法中选出不超过10个最知名算法，结果在ICDM06的“数据挖掘十大算法”专题研讨会上公布。

2006年12月21日，在ICDM06的一个专题讨论会上，邀请145名与会专家对这18个候选算法公开投票，从中选出十个得票最高的算法，得到和上面遴选第三步完全一致的结果。这个3小时的专题研讨会是ICDM06的一个环节，在同一地点并行召开的还有Web Intelligence(WI06)和Intelligent Agent Technology(IAT06)的共7个论文展示环节，共吸引到了145名学者参与。

在ICDM06之后，我们邀请了这十大算法的原创作者和专题研讨会部分发言人共同撰写了一篇期刊论文对每个算法的内容、影响进行介绍，对其现状和未来趋势加以评述。这篇期刊论文于2008年1月发表在Knowledge and Information Systems[1]上。本书是该期刊论文的扩展，每章介绍一个算法，内容包括算法描述、可用软件、示例应用、高级主题和习题等部分。

本书的每一章都邀请两位独立审稿人和本书的一位编辑来审核，有的章节在此基础上还要在最终定稿前再重审一遍。

我们希望这十个算法的遴选能有助于在世界范围推动数据挖掘的应用，激励更多数据挖掘领域的学者去扩大这些算法的影响，探索新的研究内容。这十个算法覆盖了分类、聚类、统计学习、关联分析和链接分析等重要的数据挖掘研究和发展主题，也对数据挖掘、机器学习和人工智能等学科的课程设计有指导意义。

致谢

遴选十大数据挖掘算法缘起于2006年5月曹建农博士和吴信东博士在香港理工大学的一次学术研讨。此间，吴博士做了《数据挖掘研究十大挑战》的报告[2]，之后，Vipin Kumar 博士又在KDD06大会上广邀众学者就算法遴选工作进行了探讨，一时应者云集。

明尼苏达大学计算机科学与工程系职员Naila Elliott为三轮遴选过程收集编纂了算法提名和投票结果。佛蒙特大学计算机科学系职员Yan Zhang负责将十份不同格式的提交文档转换成同一LaTex格式，这是一个非常耗时的工作。

参考文献

[1]Xindong Wu, Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang,Hiroshi Motoda, Geoffrey J. McLachlan, Angus Ng, Bing Liu, Philip S.Yu, ZhiHua Zhou, Michael Steinbach, David J. Hand, and Dan Steinberg. Top 10 algorithms in data mining, Knowledge and Information Systems,14(2008), 1: 137.

[2]Qiang Yang and Xindong Wu (Contributors: Pedro Domingos, Charles Elkan,Johannes Gehrke, Jiawei Han, David Heckerman, Daniel Keim, JimingLiu, David Madigan, Gregory PiatetskyShapiro, Vijay V. Raghavan, RajeevRastogi, Salvatore J. Stolfo, Alexander Tuzhilin, and Benjamin W. Wah). 10 challenging problems in data mining research, International Journal of Information Technology & Decision Making, 5, 4(2006), 597604.

关于作者

吴信东(Xindong Wu)教授英国爱丁堡大学人工智能学博士，任美国佛蒙特大学计算机科学系主任。吴教授在数据挖掘、知识系统和Web信息开发等研究领域内颇有建树，在IEEE TKDE、TPAMI、ACMTOIS、DMKD、KAIS、IJCAI、AAAI、ICML、KDD、ICDM和WWW等学术会议和期刊上发表了170余篇学术论文，另外，还出版了18部学术专著和会议文集。他还获得了IEEE ICTAI2005的最佳论文奖和IEEE ICDM2007的最佳理论/算法论文奖亚军。

吴博士是IEEE Transactions on Knowledge and Data Engineering (TKDE，由IEEE Computer Society主办)的主编，IEEE International Conference on Data Mining (ICDM)的创始人和指导委员会主席，Knowledge and Information Systems (KAIS, 由Springer发行)的创办人和荣誉主编， IEEE Computer Society Technical Committee on Intelligent Informatics (TCII)的创始主席(2002—2006)，Springer Advanced Information and Knowledge Processing (AI&KP)系列著作的编辑。他还是ICDM03 (the 2003 IEEE International Conference on Data Mining)程序委员会主席和KDD07 (the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining)程序委员会联合主席。他获得了2004 ACM SIGKDD服务奖、2006 IEEE ICDM杰出服务奖，是2005年合肥科技大学“长江学者奖励计划”讲座教授。他还是很多学术会议的特邀专家/专题报告人，如NSFNGDM07、PAKDD07、IEEE EDOC06、IEEE ICTAI04、IEEE/WIC/ACM WI04/IAT04、SEKE 2002和PADD97等。

Vipin Kumar教授明尼苏达大学计算机科学与工程系William Norris讲席教授、系主任。他于1977年获得印度鲁尔基理工学院（正式名称是鲁尔基大学）的电子和通信工程学士学位,1979年获得荷兰埃因霍温飞利浦国际学院的电子工程硕士学位，1982年获得马里兰大学帕克分校的计算机科学博士学位。Kumar教授的研究兴趣主要集中在数据挖掘、生物信息学和高性能计算领域。他提出了评估并行算法可扩展性的恒等效率度量指标，并研发了多款稀疏矩阵分解(PSPASES)和图剖分(METIS, ParMetis, hMetis)的高效并行算法及软件。他发表了200多篇研究论文，合编合著了9本学术专著，包括被广泛使用的教科书Introduction to Parallel Computing和Introduction to Data Mining，都由AddisonWesley出版。Kumar是众数据挖掘和多并行计算领域的学术会议、专题研讨会的主席或共同主席，如IEEE International Conference on Data Mining (2002)、International Parallel and Distributed Processing Symposium (2001)和SIAM International Conference on Data Mining (2001)。Kumar是SIAM International Conference on Data Mining指导委员会共同主席，IEEE International Conference on Data Mining和IEEE International Conference on Bioinformatics and Biomedicine指导委员会委员。Kumar是Journal of Statistical Analysis and Data Mining的创始主编之一，IEEE Intelligent Informatics Bulletin主编和Data Mining and Knowledge Discovery系列图书（由CRC Press/Chapman Hall出版）的编辑。Kumar还担任很多其他学术刊物的编辑，如Data Mining and Knowledge Discovery、Knowledge and Information Systems、IEEE Computational Intelligence Bulletin、Annual Review of Intelligent Informatics、Parallel Computing、Journal of Parallel and Distributed Computing、IEEE Transactions of Data and Knowledge Engineering (1993—1997)、IEEE Concurrency (1997—2000)和IEEE Parallel and Distributed Technology (1995—1997)等。他是ACM会士、IEEE会士、AAAS会士和SIAM会员。Kumar由于在并行算法设计、图剖分和数据挖掘领域的杰出贡献，获得了2005 IEEE Computer Society的技术成就奖。

贡献人员

陈松灿，南京航空航天大学，中国

Joydeep Ghosh，得克萨斯大学奥斯汀分校，得克萨斯州奥斯汀

David J. Hand，帝国理工学院，英国伦敦

Alexander Liu，得克萨斯大学奥斯汀分校，得克萨斯州奥斯汀

刘兵，伊利诺依大学芝加哥分校，伊利诺伊州芝加哥

Geoffrey J. McLachlan，昆士兰大学，布里斯班，澳大利亚

Hiroshi Motoda，大阪大学ISIR研究所和AFOSR/AOARD空军研究实验室，日本

ShuKay Ng，格里菲斯大学，澳大利亚梅多布鲁克

Kouzou Ohara，大阪大学ISIR研究所，日本

Naren Ramakrishnan, 弗吉尼亚理工，弗吉尼亚州布莱克斯堡

Michael Steinbach，明尼苏达大学，明尼苏达州

Dan Steinberg，Salford Systems公司，加利福尼亚州圣地亚哥

陈封能,密歇根州立大学，密歇根州东兰辛

薛晖，南京航空航天大学，中国

杨强，香港科技大学，香港九龙清水湾

Philip S. Yu，伊利诺依大学芝加哥分校，伊利诺伊州芝加哥

俞扬，南京大学，中国

周志华，南京大学，中国