数据挖掘原理与算法（第3版）教师用书 PDF下载

编辑推荐

本书为《数据挖掘原理与算法（第3版）》配套的教学用书。书中提供了习题答案、各章授课内容重点与课时分配、课时安排建议、试卷及其参考答案等内容，便于教师教学。；

内容简介

《数据挖掘原理与算法（第3版）》全面介绍了数据挖掘和知识发现技术，具有内容系统、知识含量高等特点，被许多高校作为本科生或者研究生教材使用。为了让教师更好地使用教材《数据挖掘原理与算法（第3版）》，作者又编写了这本教师用书。本书分四个部分： (1)对教材每章的部分习题给出了参考答案； (2)介绍各章授课内容重点与课时分配； (3)针对不同的授课学生对象给出了课时安排的建议； (4)提供了两套样本试卷及其参考答案。本书供使用《数据挖掘原理与算法（第3版）》一书的教师作参考。

作者简介

暂无

数据挖掘原理与算法（第3版）教师用书 PDF下载

目录
 ；
第一部分各章习题及部分参考答案
 ；
第1章绪论
 ；
第2章知识发现过程与应用结构
 ；
第3章关联规则挖掘理论和算法
 ；
第4章分类方法
 ；
第5章聚类方法
 ；
第6章时间序列和序列模式挖掘
 ；
第7章Web挖掘技术
 ；
第8章空间挖掘
 ；
 ；
第二部分各章授课重点与课时分配
 ；
第1章绪论
 ；
第2章知识发现过程与应用结构
 ；
第3章关联规则挖掘理论和算法
 ；
第4章分类方法
 ；
第5章聚类方法
 ；
第6章时间序列和序列模式挖掘
 ；
第7章Web挖掘技术
 ；
第8章空间挖掘
 ；
第三部分按总学时规划的教学大纲
 ；
48学时的教学大纲（本科生）
 ；
32学时的教学大纲（本科生）
 ；
48学时的教学大纲（研究生）
 ；
第四部分样本试卷
 ；
样本试卷1（本科生）
 ；
样本试卷2（本科生）
 ；
样本试卷3（本科生）
 ；
样本试卷4（本科生）
 ；
样本试卷5（研究生）
 ；
样本试卷6（研究生）
 ；
样本试卷1（本科生）的参考答案
 ；
样本试卷2（本科生）的参考答案
 ；
样本试卷3（本科生）的参考答案
 ；
样本试卷4（本科生）的参考答案
 ；
样本试卷5（研究生）的参考答案
 ；
样本试卷6（研究生）的参考答案

媒体评论

前沿

前言

《数据挖掘原理与算法》一书出版以来，被许多高校作为本科生或者研究生的教材使用。几年来许多教师给出了很好的建议，因此我们在2016年针对相关问题进行了修订并出版了其第3版。该教材是一种全面介绍数据挖掘和知识发现技术的专业书籍，具有内容系统、知识含量高等特点。可能也正是因为这些特点，作为教材来说给教师带来了一些授课难点。特别是，由于教材使用的对象不同，教师们必须对教材内容进行选择。为了让教师更好地使用《数据挖掘原理与算法(第3版)》一书，减轻教师的负担，我们编写了这本教师用书。《数据挖掘原理与算法（第3版）教师用书》主要从四个部分为教师提供了参考： (1)对教材每章的部分习题给出了参考答案； (2)介绍各章授课内容重点与课时分配； (3)针对不同的授课学生对象给出了课时安排的建议； (4)提供了两套样本试卷及其参考答案。　　目的是帮助教师提高讲课的效率，但不能代替教师的教学研究工作。特别考虑到教师用书也可能被学生使用，故对教材后面的习题并没有给出全部解答。　　整体上说，数据挖掘技术包含概念与过程、原理与方法两个主要部分。有关概念与过程的内容，主要集中在《数据挖掘原理与算法（第3版）》第1章和第2章，不论学生对象如何，教师都应该给予重视，力求全面而直观地进行介绍。数据挖掘中原理与方法的内容，分布在《数据挖掘原理与算法（第3版）》的第3~8章，涵盖关联规则、分类、聚类、序列、空间以及Web挖掘等分支。我们认为，关联规则、分类、聚类是经典内容，不论学生对象如何，教师都应该选择一些典型的理论和算法进行剖析。对于不同的教学对象，教师可以对第3~5章的内容进行合理选择。例如，如果准备给本科生开只有32课时的课程，那么在对于关联规则、分类、聚类等基本概念和原理讲述清楚的前提下，能把Apriori、ID3和kmeans算法剖析清楚即可。第6~8章的内容相对比较松散，对于研究生来说，可以进行选择性的介绍或讨论，因为这些内容属于数据挖掘较前沿的课题，而且有着很广泛的研究和应用价值，因此对于研究生将来的研究工作可能会有很大的帮助。　　《数据挖掘原理与算法（第3版）》共分8章，各章相对独立，而且每章的内容都是从前往后难度逐渐增大的。因此，教师完全可以发挥自己的想象力和知识上的优势进行内容选择。此外，如果读者是从事计算机相关研究和开发的人员，这本教师用书也能帮助读者节约宝贵时间，提高《数据挖掘原理与算法（第3版）》一书的利用效率。总之，作者希望通过这本教师用书，提供一个很好地利用《数据挖掘原理与算法（第3版）》的辅助材料，促进数据挖掘技术的普及与提高。
作者2016年12月于北京

免费在线读

第3章关联规则挖掘理论和算法

1. 简单地描述下列英文缩写或短语的含义。（1） Parallel Association Rule Mining ；（2） Quantities Association Rule Mining ；（3） Frequent Itemset（4） Maximal Frequent Itemset ；（5） Closed Itemset参考答案：；（1）并行关联规则挖掘。它是指利用并行处理技术、使用并行挖掘算法或在并行计算的环境下完成数据的高效挖掘工作。（2）数量关联规则挖掘。它是指对含有诸如工资、价钱等非离散的数值属性的数据进行挖掘的技术。数量关联规则挖掘需要解决连续属性的离散化等问题，有更广泛的商业应用。（3）频繁项目集。它是指出现频率高的项目对应的集合，反映交易数据中项目出现的频度信息。挖掘频繁项目集是关联规则挖掘的基础，许多关联规则挖掘方法是基于频繁项目集发现的。（4）最大频繁项目集。它是指在频繁项目集中不出现相互包含的项目子集。最大频繁项目集可以使用最少的信息来保证频度信息的不丢失。（5）关闭（或闭和）项目集。简单地说，对于一个关闭项目集的任何元素，要么不被任何元素所包含，要么只被小于它的支持度的元素所包含。
2. 解释下列概念（1）多层次关联规则（2）多维关联规则（3）事务数据库（4）购物篮分析（5）强关联规则参考答案：略。

3. 给出一个项目集I1在数据集D上的支持度（Support）的定义，并直观地解释它的含义。参考答案：设I1I，项目集I1在数据集D上的支持度是包含I1的事务在D中所占的百分比。直观上说，一个项目集在一个数据集D上的支持度反映了这个项目集在数据集中出现的频率。
4. 从统计学的观点说明一个项目集I1在数据集D上的支持度的含义。参考答案：略。
5. 满足什么样条件的项目集是频繁项目集和最大频繁项目集？参考答案：对项目集I和事务数据库D，D中的所有大于或者等于满足用户指定的最小支持度的项目集称为频繁项目集。在最大频繁项目集，任何元素是频繁的而且不被其他元素所包含。
6. 以购物篮应用为例说明挖掘频繁项目集所蕴含的商业价值。参考答案：略。
7. 给出一个规则的可信度（Confidence）的定义，并直观地解释它的含义。参考答案：给定一个被讨论的项目集I和数据库D，规则I1I2的可信度是指包含I1和I2的事务数在只包含I1的事务数所占的百分比。利用支持度定义可以描述为；
Confidence（I1I2）=support（I1∪I2）/support（I1）

其中I1，I2I，I1∩I2=Ф。
8. 以购物篮应用为例说明关联规则挖掘所蕴含的商业价值。参考答案：略。
9. 一般地，在一个事务数据库中挖掘关联规则通过哪两个主要步骤完成？各步骤的主要任务和目标是什么？参考答案：；（1）发现频繁项目集：通过用户给定的最小支持度，寻找所有频繁项目集，即满足support不小于最小支持度的所有项目子集。（2）生成关联规则：通过用户给定的最小可信度，在已经发现的最大频繁项目集中，寻找可信度不小于用户给定的最小可信度的关联规则。

10. 思考为什么事务数据库中挖掘关联规则一般要使用两个基本步骤？参考答案：略。
11. 证明著名的Agrawal挖掘原理之一：频繁项目集的子集是频繁项目集。参考答案：略。证明：设X是一个项目集，事务数据库T 中支持X 的元组数为s。对X的任一非空子集为Y，设T中支持Y的元组数为s1。根据项目集支持度的定义，很容易知道：支持X 的元组一定支持Y，所以s1≥s，即
support（Y）≥support（X）

按假设，项目集X是频繁项目集，即
support（X）≥minsupport

所以support（Y）≥support（X）≥minsupport，因此Y是频繁项目集。

12. 证明著名的Agrawal挖掘原理之一：非频繁项目集的超集是非频繁项目集。参考答案：略。
13. 给定如表31所示的一个事务数据库，写出Apriori算法生成频繁项目集的过程（假设Minsuport=50%）。

表31事务数据库示例1

TIDItemsetTIDItemset
1a，c，d，e,f4a,c,d,e
2b,c,f5a,b,d,e,f
3a,d,f

参考答案：；L1生成： C1={(a,4)(b,2)(c,3)(d,4)(e,3)(f,4)}； L1={a,c,d,e,f}L2生成： C2={(ac,2)(ad,4)(ae,3)(af,3)(cd,2)(ce,2)(cf,2)(de,3)(df,3)(ef,2)}； L2={ad,ae,af,de,df}L3生成： C3={(ade,3)(adf,3)(def,2)}； L3={ade,adf}L4生成： C4： {(adef,2)}； L4=L5生成： C5=，L5=结束后，最大频繁项目集为{ade,adf}
14. 给定如表32所示的一个事务数据库，写出Apriori算法生成频繁项目集的过程（假设Minsuport=40%）。

表32事务数据库示例2

TIDItemsetTIDItemset
11,3,442,5
22,3,4,551,2,4,6,7
31,3,5,762,4,6

参考答案：略。
15. 对上面的第13题所生成的最大频繁项目集，跟踪Rulegenerate来生成对应的关联规则（设minconfidence=80%）。参考答案：生成过程如表33所示。

表33生成过程

序号lkxm-1confidencesupport规则（是否是强规则）
1adead75%60%ad→e否
2adea75%60%a→de否
3aded75%60%d→ae否
4adeae100%60%ae→d是
5adee100%60%e→ad是
6adede100%60%de→a是
7adfad75%60%ad→f否
8adfa75%60%a→df否
9adfd75%60%d→af否
10adfaf100%60%af→d是
11adff75%60%f→ad否
12adfdf100%60%df→a是

16. 对上面的第14题所生成的最大频繁项目集，跟踪Rulegenerate来生成对应的关联规则（设minconfidence=60%）。参考答案：略。
17. Apriori算法的主要性能瓶颈是什么？参考答案： Apriori算法的主要性能瓶颈有：；（1）多次扫描事务数据库，需要很大的I/O负载；；（2）可能产生庞大的候选集，由Lk-1产生k候选集Ck是指数增长的。
18. 针对Apriori算法的主要性能瓶颈提出你的改进想法。参考答案：略。
19. 基于数据分割（Partition）的方法可以改善Apriori算法的效率。阐述它的理由。参考答案：；（1）合理利用主存空间。数据分割为块内数据一次性导入主存提供机会，因而提高了对大容量数据集的挖掘效率。(2) 支持并行挖掘算法。
20. 基于采样（Sampling）的方法可以改善Apriori算法的效率。阐述它的理由。参考答案：略。
21. 基于散列（Hash）的方法可以改善Apriori算法的效率。阐述它的理由。参考答案：使用散列的方法产生频繁项目集，可以改善Apriori算法的效率，主要是因为散列拥有能够快速查找元素的特性。这种方法把扫描的项目放到不同的哈希桶中，每个项目集最多只可能在一个特定的桶中。这样可以对每个桶中的项目子集进行测试，减少了候选集生成的代价。
22. 除了上面提到的技术可以用于改善Apriori算法的效率以外，你认为还有哪些技术可以被用来解决这个问题？参考答案：略。
23. 一个项目集是闭合的（Closed），简单地讲它应该满足什么条件？参考答案：一个项目集C是闭合的，当且仅当对于在C中的任何元素，不可能在C中存在小于或等于它的支持度的子集。
24. 为什么说在闭合项目集格空间里讨论关联规则挖掘问题要比Apriori算法效率高？参考答案：略。25. FPtree的算法是一个2次数据库扫描算法，这个算法的基本思想是什么？参考答案： FPtree算法只进行2次数据库扫描。它不使用候选集，直接压缩数据库成一个频繁模式树，最后通过这棵树生成关联规则。用 FPtree挖掘频繁集基本思想是分而治之，即用FPtree递归增长形成频繁集。
26. 比较Apriori算法，阐述FPtree的算法的优缺点。参考答案：略。
27. 给定如表34所示的一个事务数据库，画出FPtree树的生成过程。参考答案：；（1）首先扫描数据库按照支持度将序排列生成索引，如表35所示。

表34事务数据库示例3

TIDItemset
1a,b,c
2b，c，d，e
3a,c,e
4b,c,d
5b,c,d,e

表35索引表

ItemSCP
c5
b4
d3
e3
a2

（2）扫描数据库，对每个事务进行树的增长并改变支持度，其演化过程如图31所示。

图31FPtree生成过程示意图

（3）连接索引表，生成最终的结果，如图32所示。
28. 给定如表36所示的一个事务数据库，画出FPtree树的生成过程。

表36事务数据库示例4

TIDItemsetTIDItemset
1b,c,d,e4c,d,e,f
2a,c,e5a,b,c,d,e,f
3a,b,c,e

图32FPtree示意图

参考答案：略。
29. 衡量关联规则挖掘结果的有效性应该从哪些方面加以考虑？简述其理由。参考答案：；（1）准确性：挖掘出的规则必须反映数据的实际情况。尽管规则不可能是100%适用的，但是必须要在一定的可信度内。（2）实用性：挖掘出的规则必须是简洁可用的，而且是针对挖掘目标的。不能说有100条规则，其中50条与商业目标无关，30条用户无法理解。（3）新颖性：挖掘出的关联规则可以为用户提供新的有价值信息。如果它们是用户事先就知道的，那么这样的规则即使再正确也是毫无价值的。
30. 为什么说用户从主观层面上为关联规则挖掘设定约束条件是必要的？应该从几个方面来考虑这个问题？参考答案：略。
31. 简述约束在数据挖掘中的作用。参考答案：归纳起来，约束在数据挖掘中的使用可以在如下方面起到关键作用。（1）聚焦挖掘任务，提高挖掘效率：利用约束，把具体的挖掘任务转换成对系统工作的控制，从而使挖掘工作按着期望的方向发展。通过人机交互和探索实验，可以快速聚焦挖掘任务，进而提高挖掘效率。（2）保证挖掘的精确性：约束的使用可以帮助发现问题，并及时加以调整，使知识发现的各个阶段按着正确的方向发展。（3）控制系统的使用规模：约束数据挖掘的思想为系统的增量式扩充提供条件。当基本的原则和目标确定后，可以把一些有待验证和优化的问题以约束参数的形式交互式输入，通过实验找到最佳值。在挖掘阶段，可以针对不同的子目标进行约束，快速聚焦问题，加快知识形成进程。
32. 从挖掘所使用约束的类型看，可以把用于关联规则挖掘的约束分为哪些类型？通过实例来理解这些类型的应用。参考答案：略。
33. 多层次关联规则挖掘的有两种基本策略，简述它们可能存在的主要问题及相关对策。参考答案：多层次关联规则挖掘有以下两种基本的设置支持度的策略。（1）统一的最小支持度：对于所有层次，都使用同一个最小支持度。这样对于用户和算法实现来说，相对容易，而且很容易支持层间的关联规则生成，但是弊端也是显然的。首先，不同层次可能考虑问题的精度不同、面向的用户群不同。对于一些用户，可能觉得支持度太小，产生了过多不感兴趣的规则；而对于另外的用户来说，又认为支持度太大，有用信息丢失过多。（2）不同层次使用不同的最小支持度：每个层次都有自己的最小支持度。较低层次的最小支持度相对较小，而较高层次的最小支持度相对较大。这种方法增加了挖掘的灵活性，但是，也留下了许多相关问题需要解决。首先，不同层次间的支持度应该有所关联，只有正确地刻画这种联系或找到转换方法，才能使生成的关联规则相对客观。另外，由于具有不同的支持度，层间的关联规则挖掘也是必须解决的问题。例如，有人提出层间关联规则应该根据较低层次的最小支持度来定。
34. 为什么多层次关联规则挖掘可能产生规则的冗余问题？你认为应该如何有效地避免这些冗余问题可能带来的副作用？参考答案：略。
35. 举例说明单维关联规则和多维关联规则的区别。参考答案：多维和单维关联规则的主要区别在于维数。比如，“年龄（X，20~30）职业（X，学生）=>；购买（X，笔记本电脑）”。这里涉及三个维：年龄、职业、购买，所以它被称为多维关联规则。而又比如 “啤酒=>；尿布”这样的关联规则只涉及“购买”这一单一维，因此被称为单维关联规则。
36. 思考多维关联规则挖掘所带来的主要挑战。参考答案：略。
37. 数量关联规则要解决什么样的问题？简述处理数值属性的基本方法。参考答案：数量关联规则挖掘有许多问题值得讨论。目前比较集中和急需解决的关键问题有下面三个主要方面：；（1）连续数值属性的处理；；（2）规则的优化；；（3）提高挖掘效率。一般而言，连续数值属性的处理有两种基本的方法：；（1）对数值属性进行离散化处理，这样就把连续的数值属性转变成布尔型属性，因此可以利用已有的方法和算法。这是目前研究比较多的方法，比较著名的有等深度桶方法、部分K度完全方法等。（2）不直接对数值属性离散化，而是采用统计或模糊方法直接处理它们。直接用数值字段中的原始数据进行分析，可能结合多层次关联规则的概念，在多个层次之间进行比较从而得出一些有用的规则。
38. 简述数量关联规则挖掘的一般步骤。参考答案：略。