欢迎光临
免费的PDF电子书下载网站

大数据挖掘与处理经典套装 大数据 互联网大规模数据挖掘与分布式处理 + 数据挖掘导论(套装共2册) PDF下载

编辑推荐

这套书以大数据环境下的数据挖掘和机器学习为重点,全面介绍了实践中行之有效的数据挖掘知识和数据处理算法。 ;

内容简介

《数据挖掘导论(完整版)》涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都包含两章:前面一章讲述基本概念、代表性算法和评估技术,后面一章较深入地讨论高级概念和算法,目的是使读者在透彻地理解数据挖掘基础的同时,还能了解更多重要的高级主题。《大数据:互联网大规模数据挖掘与分布式处理(第2版)》 源自斯坦福大学“海量数据挖掘”(CS246: Mining Massive Datasets)课程,主要关注极大规模数据的挖掘。主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。两本书都提供了大量示例、图表和习题。

作者简介

Pang-Ning Tan现为密歇根州立大学计算机与工程系助理教授,主要教授数据挖掘、数据库系统等课程。此前,他曾是明尼苏达大学美国陆军高性能计算研究中心副研究员(2002-2003)。Michael Steinbach 明尼苏达大学计算机与工程系研究员,在读博士。Vipin Kumar明尼苏达大学计算机科学与工程系主任,曾任美国陆军高性能计算研究中心主任。他拥有马里兰大学博士学位,是数据挖掘和高性能计算方面的国际大家,IEEE会士。Jure Leskovec 斯坦福大学计算机科学系助理教授,研究方向是大型社交和信息网络的数据挖掘。Anand Rajaraman 数据库和Web技术领域大家,创业投资基金Cambrian联合创始人,斯坦福大学计算机科学系助理教授。Jeffrey David Ullman 美国国家工程院院士,计算机科学家。早年在贝尔实验室工作,之后任教于普林斯顿大学,十年后加入斯坦福大学直至退休,一生的科研、著书和育人成果卓著。他是ACM会员,曾获SIGMOD创新奖、高德纳奖、冯诺依曼奖等多项科研大奖;他是“龙书”《编译原理》、数据库名著《数据库系统实现》等多部经典著作的合著者;麾下多名学生成为了数据库领域的专家,其中极有名的当属谷歌创始人Sergey Brin;本书第二作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。

大数据挖掘与处理经典套装 大数据 互联网大规模数据挖掘与分布式处理 + 数据挖掘导论(套装共2册) PDF下载

目录

第1章绪论11.1什么是数据挖掘21.2数据挖掘要解决的问题21.3数据挖掘的起源31.4数据挖掘任务41.5本书的内容与组织7文献注释7参考文献8习题10第2章数据132.1数据类型142.1.1属性与度量152.1.2数据集的类型182.2数据质量222.2.1测量和数据收集问题222.2.2关于应用的问题262.3数据预处理272.3.1聚集272.3.2抽样282.3.3维归约302.3.4特征子集选择312.3.5特征创建332.3.6离散化和二元化342.3.7变量变换382.4相似性和相异性的度量382.4.1基础392.4.2简单属性之间的相似度和相异度402.4.3数据对象之间的相异度412.4.4数据对象之间的相似度432.4.5邻近性度量的例子432.4.6邻近度计算问题482.4.7选取正确的邻近性度量50文献注释50参考文献52习题53第3章探索数据593.1鸢尾花数据集593.2汇总统计603.2.1频率和众数603.2.2百分位数613.2.3位置度量:均值和中位数613.2.4散布度量:极差和方差623.2.5多元汇总统计633.2.6汇总数据的其他方法643.3可视化643.3.1可视化的动机643.3.2一般概念653.3.3技术673.3.4可视化高维数据753.3.5注意事项793.4OLAP和多维数据分析793.4.1用多维数组表示鸢尾花数据803.4.2多维数据:一般情况813.4.3分析多维数据823.4.4关于多维数据分析的最后评述84文献注释84参考文献85习题86第4章分类:基本概念、决策树与模型评估894.1预备知识894.2解决分类问题的一般方法904.3决策树归纳924.3.1决策树的工作原理924.3.2如何建立决策树934.3.3表示属性测试条件的方法954.3.4选择最佳划分的度量964.3.5决策树归纳算法1014.3.6例子:Web机器人检测1024.3.7决策树归纳的特点1034.4模型的过分拟合1064.4.1噪声导致的过分拟合1074.4.2缺乏代表性样本导致的过分拟合1094.4.3过分拟合与多重比较过程1094.4.4泛化误差估计1104.4.5处理决策树归纳中的过分拟合1134.5评估分类器的性能1144.5.1保持方法1144.5.2随机二次抽样1154.5.3交叉验证1154.5.4自助法1154.6比较分类器的方法1164.6.1估计准确度的置信区间1164.6.2比较两个模型的性能1174.6.3比较两种分类法的性能118文献注释118参考文献120习题122第5章分类:其他技术1275.1基于规则的分类器1275.1.1基于规则的分类器的工作原理1285.1.2规则的排序方案1295.1.3如何建立基于规则的分类器1305.1.4规则提取的直接方法1305.1.5规则提取的间接方法1355.1.6基于规则的分类器的特征1365.2最近邻分类器1375.2.1算法1385.2.2最近邻分类器的特征1385.3贝叶斯分类器1395.3.1贝叶斯定理1395.3.2贝叶斯定理在分类中的应用1405.3.3朴素贝叶斯分类器1415.3.4贝叶斯误差率1455.3.5贝叶斯信念网络1475.4人工神经网络1505.4.1感知器1515.4.2多层人工神经网络1535.4.3人工神经网络的特点1555.5支持向量机1565.5.1最大边缘超平面1565.5.2线性支持向量机:可分情况1575.5.3线性支持向量机:不可分情况1625.5.4非线性支持向量机1645.5.5支持向量机的特征1685.6组合方法1685.6.1组合方法的基本原理1685.6.2构建组合分类器的方法1695.6.3偏倚—方差分解1715.6.4装袋1735.6.5提升1755.6.6随机森林1785.6.7组合方法的实验比较1795.7不平衡类问题1805.7.1可选度量1805.7.2接受者操作特征曲线1825.7.3代价敏感学习1845.7.4基于抽样的方法1865.8多类问题187文献注释189参考文献190习题193第6章关联分析:基本概念和算法2016.1问题定义2026.2频繁项集的产生2046.2.1先验原理2056.2.2Apriori算法的频繁项集产生2066.2.3 候选的产生与剪枝2086.2.4支持度计数2106.2.5计算复杂度2136.3规则产生2156.3.1基于置信度的剪枝2156.3.2Apriori算法中规则的产生2156.3.3例:美国国会投票记录2176.4频繁项集的紧凑表示2176.4.1极大频繁项集2176.4.2闭频繁项集2196.5产生频繁项集的其他方法2216.6FP增长算法2236.6.1FP树表示法2246.6.2FP增长算法的频繁项集产生2256.7关联模式的评估2286.7.1兴趣度的客观度量2286.7.2多个二元变量的度量2356.7.3辛普森悖论2366.8倾斜支持度分布的影响237文献注释240参考文献244习题250第7章关联分析:高级概念2597.1处理分类属性2597.2处理连续属性2617.2.1基于离散化的方法2617.2.2基于统计学的方法2637.2.3非离散化方法2657.3处理概念分层2667.4序列模式2677.4.1问题描述2677.4.2序列模式发现2697.4.3时限约束2717.4.4可选计数方案2747.5子图模式2757.5.1图与子图2767.5.2频繁子图挖掘2777.5.3类Apriori方法2787.5.4候选产生2797.5.5候选剪枝2827.5.6支持度计数2857.6非频繁模式2857.6.1负模式2857.6.2负相关模式2867.6.3非频繁模式、负模式和负相关模式比较2877.6.4挖掘有趣的非频繁模式的技术2887.6.5基于挖掘负模式的技术2887.6.6基于支持度期望的技术290文献注释292参考文献293习题295第8章聚类分析:基本概念和算法3058.1概述3068.1.1什么是聚类分析3068.1.2不同的聚类类型3078.1.3不同的簇类型3088.2K均值3108.2.1基本K均值算法3108.2.2K均值:附加的问题3158.2.3二分K均值3168.2.4K均值和不同的簇类型3178.2.5优点与缺点3188.2.6K均值作为优化问题3198.3凝聚层次聚类3208.3.1基本凝聚层次聚类算法3218.3.2特殊技术3228.3.3簇邻近度的Lance-Williams公式3258.3.4层次聚类的主要问题3268.3.5优点与缺点3278.4DBSCAN3278.4.1传统的密度:基于中心的方法3278.4.2DBSCAN算法3288.4.3优点与缺点3298.5簇评估3308.5.1概述3328.5.2非监督簇评估:使用凝聚度和分离度3328.5.3非监督簇评估:使用邻近度矩阵3368.5.4层次聚类的非监督评估3388.5.5确定正确的簇个数3398.5.6聚类趋势3398.5.7簇有效性的监督度量3408.5.8评估簇有效性度量的显著性343文献注释344参考文献345习题347第9章聚类分析:其他问题与算法3559.1数据、簇和聚类算法的特性3559.1.1例子:比较K均值和DBSCAN3559.1.2数据特性3569.1.3簇特性3579.1.4聚类算法的一般特性3589.2基于原型的聚类3599.2.1模糊聚类3599.2.2使用混合模型的聚类3629.2.3自组织映射3699.3基于密度的聚类3729.3.1基于网格的聚类3729.3.2子空间聚类3749.3.3DENCLUE:基于密度聚类的一种基于核的方案3779.4基于图的聚类3799.4.1稀疏化3799.4.2最小生成树聚类3809.4.3OPOSSUM:使用METIS的稀疏相似度最优划分3819.4.4Chameleon:使用动态建模的层次聚类3819.4.5共享最近邻相似度3859.4.6Jarvis-Patrick聚类算法3879.4.7SNN密度3889.4.8基于SNN密度的聚类3899.5可伸缩的聚类算法3909.5.1可伸缩:一般问题和方法3919.5.2BIRCH3929.5.3CURE3939.6使用哪种聚类算法395文献注释397参考文献398习题400第10章异常检测40310.1预备知识40410.1.1异常的成因40410.1.2异常检测方法40410.1.3类标号的使用40510.1.4问题40510.2统计方法40610.2.1检测一元正态分布中的离群点40710.2.2多元正态分布的离群点40810.2.3异常检测的混合模型方法41010.2.4优点与缺点41110.3基于邻近度的离群点检测41110.4基于密度的离群点检测41210.4.1使用相对密度的离群点检测41310.4.2优点与缺点41410.5基于聚类的技术41410.5.1评估对象属于簇的程度41510.5.2离群点对初始聚类的影响41610.5.3使用簇的个数41610.5.4优点与缺点416文献注释417参考文献418习题420附录A线性代数423附录B维归约433附录C概率统计445附录D回归451附录E优化457

前沿

自从我和孟小峰等人翻译J. Han和M. Kamber的《数据挖掘:概念与技术》以来,我们高兴地看到数据挖掘的研究正在我国蓬勃开展。许多学者和研究人员都对这个新兴的学科领域表现出了极大的兴趣,他们之中不仅有来自数据库领域的专家,而且不乏统计学、人工智能和模式识别、机器学习等领域的研究者。国内的学者和研究者在数据挖掘方面的研究已经取得了一些令人鼓舞的成果,并且正在逐渐与国际学术界同步。数据挖掘的产生和发展一直是分析和理解数据的实际需求推动的。数据挖掘研究的进展也正是在于一直重视与其他领域研究者的合作。数据挖掘从工业、农业、医疗卫生和商业的需求中获得动力,从统计学、机器学习等领域的长期研究与发展中汲取营养。我们相信,只要有理解数据的需求,就有推动数据挖掘研究与应用发展的动力;只要依靠多学科的团队,就能应对新的数据分析任务带来的挑战。P. Tan、M. Steinbach和V. Kumar编写的这本《数据挖掘导论》是继《数据挖掘:概念与技术》一书之后的另一本重要的数据挖掘著作。三位作者都从事数据挖掘研究多年,其中Vipin Kumar教授是数据挖掘和高性能计算领域的国际知名学者。本书原版在正式出版之前就已经被斯坦福大学、得克萨斯大学奥斯汀分校等众多名校采用。J. Han教授也高度评价该书:“这是一本全新数据挖掘的教材,值得大力推荐。它将成为我们的主要参考书。”本书不需要读者具备数据库背景,只需要少量统计学或数学背景知识,而且取材涉及的学科和应用领域较多,实用性强,因此适合的读者面较广。本书强调如何用数据挖掘知识解决各种实际问题,强调所挖掘的知识模式的评估。例如,就像我们能够从天空中的白云想象出各种动物和物体一样,每个聚类算法能够从几乎所有的数据集中发现聚类。如果数据集合中根本不存在自然的簇,所产生的聚类很难说具有实际意义。全书共分10章。范明负责第1~8章的翻译,范宏建负责第9章和第10章的翻译。蒋宏杰、贾玉祥、许红涛和温箐笛也参加本书的最初翻译工作。全书的译文由范明负责统一定稿。在翻译的过程中,对发现的错误进行了更正,并得到原书作者的确认。感谢P. Tan、M. Steinbach和V. Kumar为中文版撰写序言。感谢人民邮电出版社图灵公司的编辑们,他们在第一时间内引进本书,并组织翻译,使得中文版能够如此之快地与读者见面。译文中的错误和不当之处,敬请读者朋友指正。意见和建议请发往mfan@zzu.edu.cn。希望读者喜欢这本译著,希望这本译著有助于推动我国的数据挖掘研究与应用的深入开展。范 明2006年2月于郑州大学数据生成和收集技术的进步促使商业和科研领域产生了海量数据集。数据仓库能够存储多种数据,如:企业销售和运作的详细情况,地球轨道卫星发送回地球的高分辨率图像和遥感数据,对越来越多的有机体进行的基因组实验产生的序列、结构和机能数据。收集和存储数据变得轻松简便,已经完全改变了人们对数据分析的态度,人们开始尽可能地收集各个时期和各种来源的数据。人们相信收集的数据肯定会有价值,或者当初收集它就有明确的目的,或者只是先收集起来再说。传统数据分析技术在应对这些新型数据集提出的挑战时存在种种局限性,而数据挖掘技术突破了这些局限。数据挖掘并不是要取代其他分析领域,而是以它们为基础。尽管数据挖掘的某些主题(如关联分析)是其独有的,但是,还有许多主题(如聚类、分类和异常检测)则建立在其他领域长期工作的基础之上。事实上,数据挖掘研究者们主动利用已有技术对增强和拓展这个领域以及推动它的快速发展起到了促进作用。该领域一直强调与其他领域的研究者合作,因而充满了活力。要迎接新类型数据分析的挑战,抛开理解数据的人和数据所处的领域而简单地使用数据分析技术是不可行的。通常,能否组建好多学科研究团队,已经成为数据挖掘项目(如创建新的独创性算法)成败的决定因素。正如历史上统计学的许多进展都是由农业、工业、医疗卫生和商业需求推动的一样,今天,数据挖掘的许多进展也正在被这些领域的需求所推动。自1998年春季开始,我们在明尼苏达大学为高年级本科生和研究生开设了数据挖掘课程。为这些课程准备的演示幻灯片和习题随着时间不断积累,成为本书的基础。数据挖掘的聚类技术综述最初是为该领域的某项研究而写的,它也成为本书第8章的雏形。随着时间的推移,又增加了关于数据、分类、关联分析和异常检测的几章。本书定稿后已在作者所在的学校(明尼苏达大学和密歇根州立大学)以及其他一些大学作为教材试用。在此期间,出现了许多数据挖掘方面的书籍,但是都不能完全满足我们学生的需要——他们主要是计算机科学专业的研究生和本科生,也包括来自工科和其他专业的学生。他们的数学和计算机背景差异很大,但是都有一个共同目标:尽可能直接地学习数据挖掘,尽快地将其应用到各自的领域。因此,要求较多数学和统计学预备知识的书对他们中的许多人都没有吸引力,需要坚实的数据库背景的书也有同样的问题。为了满足这些学生需求而逐渐写成的本书,现在的完稿使用了大量例子、习题并用简洁的语言描述了关键算法,尽可能直接把重点放在数据挖掘的主要概念上。概述具体而言,本书全面介绍了数据挖掘,方便学生、教师、研究人员和专业人士理解有关概念和技术。本书所涵盖的领域包括数据预处理、可视化、预测建模、关联分析、聚类和异常检测。目标是讲述每个主题的基本概念和算法,从而为读者提供将数据挖掘应用于实际问题所需的必要背景。此外,本书也为有志于从事数据挖掘和相关领域研究的读者提供一个起点。本书涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都分两章讲述。对于分类、关联分析和聚类,前面一章讲述基本概念、代表性算法和评估技术,后面的一章深入讨论高级概念和算法。这样做的目的是使读者透彻地理解数据挖掘的基础,同时论述更多重要的高级主题。由于这种安排,本书既可用作为教材又可用作参考书。为了帮助读者理解书中概念,我们提供大量示例、图表和习题。每一章的结尾给出了文献注释,是为那些对更高级的主题、重要的历史文献和当前趋势感兴趣的读者提供的。致教师作为一本教材,本书广泛适合于高年级本科生和研究生。由于学习这门课程的学生背景不同,他们可能不具备广博的统计学和数据库知识,因此本书只要求最低限度的预备知识——不需要数据库知识,并假定读者只有一般的统计学或数学背景。本书尽可能自成一体。统计学、线性代数和机器学习的必要基础知识或者已经融入正文,或者包含在附录中。由于讨论主要数据挖掘主题的各章也是自成一体的,因此主题的讲授次序相当灵活。核心题材在第2、4、6、8和10章介绍。数据导论(第2章)应当最先讨论,基本的分类、关联分析和聚类(分别是第4、6、8章)可以以任意次序讲述。由于异常处理(第10章)与分类(第4章)和聚类(第8章)有一定的关系,这两章应当在第10章之前讲述。还可以根据课程安排和师生的兴趣从高级的分类、关联分析和聚类(分别为第5、7、9章)中选讲一些主题。我们也建议教师用数据挖掘的实际项目和练习强化课程的教学。尽管这样做很耗费时间,但是实践性的作业可以大大提高这门课程的价值。支持材料本书的教辅材料可以在Addison-Wesley的网站(www.aw-bc.com/cssupport)上找到 。提供给所有读者的支持材料如下。? 课程幻灯片。? 学生项目建议。? 数据挖掘资源,如数据挖掘算法和数据集。? 联机指南,使用实际的数据集和数据分析软件,为本书介绍的部分数据挖掘技术提供例子讲解。其他支持材料(包括习题答案)只向采纳本书做教材的教师提供。意见和建议以及勘误请通过dmbook@cs.unm.edu发给作者。致谢许多人都为本书做出了贡献。我们首先向家人表示感谢,这本书是献给他们的。没有他们的耐心和支持,不可能写出本书。我们要感谢明尼苏达大学和密歇根州立大学数据挖掘小组的学生所做的贡献。Eui-Hong(Sam)Han和Mahesh Joshi帮助我们准备了最初的数据挖掘课程。他们编制的某些习题和演示幻灯片已经收录在本书及其辅助幻灯片中。小组中的其他学生也为本书的初稿提出建议或以各种方式做出贡献,他们是Shyam Boriah、Haibin Cheng、Varun Chandola、Eric Eilertson、Levent Ert?z、Jing Gao、Rohit Gupta、Sridhar Iyer、Jung-Eun Lee、Benjamin Mayer、Aysel Ozgur、Uygar Oztekin、Gaurav Pandey、Kashif Riaz、Jerry Scripps、Gyorgy Simon、Hui Xiong、Jieping Ye和Pusheng Zhang。我们还要感谢明尼苏达大学和密歇根州立大学选修数据挖掘课程的学生,他们使用了本书的初稿,并提供了极富价值的反馈。我们特别感谢Bernardo Craemer、Arifin Ruslim、Jamshid Vayghan和Yu Wei的有益的建议。Joydeep Ghosh(得克萨斯大学)和Sanjay Ranka(佛罗里达大学)试用了本书的初稿。我们也直接从得克萨斯大学下列学生那里获得了许多有用的建议:Pankaj Adhikari、Rajiv Bhatia、Frederic Bosche、Arindam Chakraborty、Meghana Deodhar、Chris Everson、David Gardner、Saad Godil、Todd Hay、Clint Jones、Ajay Joshi、Joonsoo Lee、Yue Luo、Anuj Nanavati、Tyler Olsen、Sunyoung Park、Aashish Phansalkar、Geoff Prewett、Michael Ryoo、Daryl Shannon和Mei Yang。Ronald Kostoff(ONR)阅读了聚类部分的初稿,并提出了许多建议。Musetta Steinbach发现了图中的一些错误。我们要感谢明尼苏达大学和密歇根州立大学的同事,他们帮助创建了良好的数据挖掘研究环境。他们是Dan Boley、Joyce Chai、Anil Jain、Ravi Janardan、Rong Jin、George Karypis、Haesun Park、William F. Punch、Shashi Shekhar和Jaideep Srivastava。我们还要向我们的数据挖掘项目的合作者表示谢意,他们是Ramesh Agrawal、Steve Cannon、Piet C. de Groen、Fran Hill、Yongdae Kim、Steve Klooster、Kerry Long、Nihar Mahapatra、Chris Potter、Jonathan Shapiro、Kevin Silverstein、Nevin Young和Zhi-Li Zhang。明尼苏达大学和密歇根州立大学的计算机科学与工程系为本书写作及研究提供了计算资源和支持环境。ARDA、ARL、ARO、DOE、NASA和NSF等机构为本书作者提供了研究资助。特别应该提到的是,Kamal Abdali、Dick Brackney、Jagdish Chandra、Joe Coughlan、Michael Coyle、Stephen Davis、Frederica Darema、Richard Hirsch、Chandrika Kamath、Raju Namburu、N. Radhakrishnan、James Sidoran、Bhavani Thuraisingham、Walt Tiernin、Maria Zemankova和Xiaodong Zhang有力地支持了我们的数据挖掘和高性能计算研究。与培生出版集团的工作人员的合作令人愉快。具体地,我们要感谢Michelle Brown、Matt Goldstein、Katherine Harutunian、Marilyn Lloyd、Kathy Smith和Joyce Wells。我们还要感谢George Nichols帮助绘图,Paul Anagnostopoulos提供LA TEX支持。我们感谢出版社邀请的审稿人:Chien-Chung Chan(阿克伦大学)、Zhengxin Chen(内布拉斯加大学奥马哈分校)、Chris Clifton(普度大学)、Joydeep Ghosh(得克萨斯大学奥斯汀分校)、Nazli Goharian(伊利诺伊理工学院)、J. Michael Hardin(阿拉巴马大学)、James Hearne(西华盛顿大学),Hillol Kargupta(马里兰大学巴尔的摩县分校和Agnik公司)、Eamonn Keogh(加利福尼亚大学里弗赛德分校)、Bing Liu(伊利诺伊大学芝加哥分校)、Mariofanna Milanova(阿肯色大学小石城分校)、Srinivasan Parthasarathy(俄亥俄州立大学)、Zbigniew W. Ras(北卡罗莱纳大学夏洛特分校)、Xintao Wu(北卡罗莱纳大学夏洛特分校)和Mohammed J. Zaki(伦斯勒理工学院)。

大数据挖掘与处理经典套装 大数据 互联网大规模数据挖掘与分布式处理 + 数据挖掘导论(套装共2册) pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:大数据挖掘与处理经典套装 大数据 互联网大规模数据挖掘与分布式处理 + 数据挖掘导论(套装共2册)