并行数据挖掘及性能优化——关联规则与数据相关性分析 PDF下载

编辑推荐

暂无

内容简介

大数据推动了各行各业的迅猛发展，各领域呈现出新产品、新技术、新服务和新的发展业态，但“信息丰富而知识贫乏”的现象仍然存在。逾越数据与知识之间的鸿沟，需要强有力的分析工具和分析方法的支撑。现有的关联规则挖掘算法，因其时空复杂性和I/O代价高，难以适应大数据分析任务。本书充分利用Hadoop、Spark等集群系统的强大数据处理能力，论述了支持大数据分析的关联规则并行挖掘算法与集群系统性能优化，并探讨了其在智能制造领域的应用。本书可供从事数据挖掘、机器学习及并行计算等相关专业的科研人员参考，也可作为高等院校计算机、大数据专业的高年级本科生与研究生的学习参考书。

作者简介

荀亚玲，女，1980年生，山西临汾霍州人，博士，现任太原科技大学计算机科学与技术学院副教授。在科研方面一直从事数据挖掘和并行与分布式计算等方面的研究工作。在关联规则挖掘、天体光谱数据挖掘技术、并行与分布式计算等领域进行了理论和应用研究，已取得了一些阶段性的研究成果。先后参与了多项国家自然科学基金、国家"863”高技术发展计划基金项目子课题。主持国家青年基金项目1项（"MapReduce集群环境下的恒星光谱关联规则挖掘及性能优化”项目（编号：61602335））。在《IEEE Transactions on Systems, Man, and Cybernetics: Systems》、《软件学报》等国内外期刊上, 已公开发表了第一作者学术论文若干，其中: SCI收录1篇， EI收录2篇；在《Soft Computing》、《Knowledge-Based Systems》、《软件学报》等期刊上，合作发表了论文十余篇；此外，以第一作者撰写的《FiDoop-DP: Data Partitioning in Frequent Itemset Mining on Hadoop Clusters》论文，已被CCF推荐的A类国际顶级SCI期刊《IEEE Transactions on Parallel and Distributed Systems 》，于2016年5月录用。2016年5月，《一种基于云存储的校园安防系统》获授权国家专利，专利号：ZL 2015 2 1058772.7。

并行数据挖掘及性能优化——关联规则与数据相关性分析 PDF下载

目录 
第一篇 基础理论篇 
第1章 绪论 3 
1.1 数据挖掘 4 
1.1.1 数据挖掘的产生和定义 4 
1.1.2 数据挖掘的任务与分类 6 
1.1.3 研究前沿和发展趋势 8 
1.2 关联规则 9 
1.2.1 关联规则及其分类 9 
1.2.2 关联规则挖掘算法 12 
1.3 集群系统与并行计算模型 17 
1.3.1 集群系统 17 
1.3.2 并行计算模型 18 
1.3.3 大数据处理架构Hadoop与Spark 21<；p>；目录 <；br />；第一篇 基础理论篇 <；br />；第1章 绪论 3 <；br />；1.1 数据挖掘 4 <；br />；1.1.1 数据挖掘的产生和定义 4 <；br />；1.1.2 数据挖掘的任务与分类 6 <；br />；1.1.3 研究前沿和发展趋势 8 <；br />；1.2 关联规则 9 <；br />；1.2.1 关联规则及其分类 9 <；br />；1.2.2 关联规则挖掘算法 12 <；br />；1.3 集群系统与并行计算模型 17 <；br />；1.3.1 集群系统 17 <；br />；1.3.2 并行计算模型 18 <；br />；1.3.3 大数据处理架构Hadoop与Spark 21 <；br />；1.4 大数据环境下的数据挖掘及应用 27 <；br />；1.4.1 大数据 27 <；br />；1.4.2 大数据挖掘及应用 29 <；br />；第2章 MapReduce集群环境下的数据放置策略 33 <；br />；2.1 引言 34 <；br />；2.2 数据放置策略的关键问题与度量标准 35 <；br />；2.3 数据放置策略的优化 37 <；br />；2.3.1 MapReduce集群系统能耗与数据放置策略 38 <；br />；2.3.2 负载均衡的数据放置策略 41 <；br />；2.3.3 改善I/O性能与通信负载的数据放置策略 46 <；br />；2.3.4 考虑其他因素的数据放置策略 49 <；br />；2.4 数据放置策略的分析与归纳 50 <；br />；2.5 本章小结 53 <；br />；第二篇 关联规则并行挖掘及性能优化篇 <；br />；第3章 压缩后缀链表与并行频繁项集挖掘算法 61 <；br />；3.1 问题提出 62 <；br />；3.2 基础理论 63 <；br />；3.3 基于MapReduce的频繁项集挖掘算法 65 <；br />；3.3.1 第一个MapReduce作业 67 <；br />；3.3.2 第二个MapReduce作业 67 <；br />；3.4 实验评价 68 <；br />；3.4.1 最小支持度 69 <；br />；3.4.2 可扩展性 70 <；br />；3.4.3 加速比 70 <；br />；3.5 本章小结 71 <；br />；第4章 FIUT算法与频繁项集并行挖掘 73 <；br />；4.1 引言 74 <；br />；4.2 FIUT算法描述 76 <；br />；4.3 FiDoop算法概述 77 <；br />；4.4 基于MapReduce的FiDoop算法 81 <；br />；4.4.1 第一个MapReduce作业 83 <；br />；4.4.2 第二个MapReduce作业 83 <；br />；4.4.3 第三个MapReduce作业 84 <；br />；4.5 实现细节 87 <；br />；4.5.1 负载均衡 87 <；br />4.5.2 高维优化 88 <br />4.6 FiDoop-HD算法 90 <br />4.7 实验评价 92 <br />4.7.1 最小支持度 93 <br />4.7.2 负载均衡 95 <br />4.7.3 加速比 96 <br />4.7.4 可扩展性 97 <br />4.8 本章小结 98 <br />第5章 MapReduce编程模型下的约束频繁项集并行挖掘算法 101 <br />5.1 问题提出 102 <br />5.2 约束频繁项集挖掘算法的并行化 103 <br />5.3 基于MapReduce的约束频繁项集并行挖掘 105 <br />5.4 基于MapReduce的约束频繁项集并行挖掘算法（PACFP） 108 <br />5.4.1 并行化计数过程 108 <br />5.4.2 并行化CFP-Growth算法 109 <br />5.4.3 结果聚合 111 <br />5.5 负载均衡 111 <br />5.6 实验结果及分析 112 <br />5.6.1 最小支持度 113 <br />5.6.2 可伸缩性 115 <br />5.6.3 可扩展性 116 <br />5.6.4 约束条件判断的代价分析 117 <br />5.6.5 负载均衡 118 <br />5.7 本章小结 120 <br />第6章 支持并行频繁项集挖掘的数据划分策略 121 <br />6.1 引言 122 <br />6.1.1 FiDoop-DP算法的研发动机 123 <br />6.1.2 FiDoop-DP算法要解决的数据划分问题 124 <br />6.1.3 FiDoop-DP算法的基本思想 125 <br />6.2 并行FP-Growth算法 126 <br />6.3 相关工作 128 <br />6.3.1 MapReduce下的数据划分 128 <br />6.3.2 应用系统相关的数据划分 129 <br />6.4 问题陈述和设计目标 131 <br />6.4.1 基本方法与问题陈述 131 <br />6.4.2 设计目标 132 <br />6.5 数据划分策略 133 <br />6.5.1 距离度量 134 <br />6.5.2 K-Means算法种子点的选择 135 <br />6.5.3 划分策略 135 <br />6.6 实现细节 138 <br />6.7 实验评价 143 <br />6.7.1 种子点个数对算法的影响 143 <br />6.7.2 最小支持度对算法的影响 145 <br />6.7.3 数据特征对算法的影响 147 <br />6.7.4 加速比 149 <br />6.7.5 可扩展性 150 <br />6.8 本章小结 151 <br />第7章 频繁项集并行化过程中的重定向任务调度 153 <br />7.1 问题提出 154 <br />7.2 重定向任务调度算法 156 <br />7.2.1 数据本地化的重要性 156 <br />7.2.2 计算响应时间 157 <br />7.2.3 重定向任务调度算法的设计 158 <br />7.3 实验结果及分析 160 <br />7.3.1 有效性 160 <br />7.3.2 可扩展性 161 <br />7.3.3 稳定性 162 <br />7.4 本章小结 163 <br />第8章 基于Spark内存计算的并行频繁项集挖掘及优化 165 <br />8.1 引言 166 <br />8.2 FP-Growth 算法的并行化分析 167 <br />8.3 Spark环境下的均衡FP-Growth算法 169 <br />8.3.1 负载均衡的分组策略 169 <br />8.3.2 负载均衡的FP-Growth算法并行化 172 <br />8.4 实验评价 174 <br />8.4.1 算法执行效率 175 <br />8.4.2 加速比 176 <br />8.4.3 可扩展性 177 <br />8.5 本章小结 178 <br />第三篇 应 用 篇 <br />第9章 冷轧辊加工质量管理过程相关性分析 181 <br />9.1 引言 182 <br />9.2 系统需求与总体设计 184 <br />9.2.1 轧辊生产工艺流程 184 <br />9.2.2 冷轧辊生产质量管理特点 186 <br />9.2.3 系统的软件体系结构及功能 188 <br />9.3 数据预处理及关键技术 190 <br />9.3.1 数据转换 190 <br />9.3.2 数据清理 190 <br />9.3.3 数据离散化 193 <br />9.4 提取关联规则 195 <br />9.5 系统实现及运行结果 196 <br />9.6 本章小结 203 <br />附录A 冷轧辊加工数据 205 <br />附录B 冷轧辊加工数据预处理格式 207 <br />参考文献 209 <br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br />第一篇 基础理论篇 <br />第1章 绪论 3 <br />1.1 数据挖掘 4 <br />1.1.1 数据挖掘的产生和定义 4 <br />1.1.2 数据挖掘的任务与分类 6 <br />1.1.3 研究前沿和发展趋势 8 <br />1.2 关联规则 9 <br />1.2.1 关联规则及其分类 9 <br />1.2.2 关联规则挖掘算法 12 <br />1.3 集群系统与并行计算模型 17 <br />1.3.1 集群系统 17 <br />1.3.2 并行计算模型 18 <br />1.3.3 大数据处理架构Hadoop与Spark 21 <br />1.4 大数据环境下的数据挖掘及应用 27 <br />1.4.1 大数据 27 <br />1.4.2 大数据挖掘及应用 29 <br />第2章 MapReduce集群环境下的数据放置策略 33 <br />2.1 引言 34 <br />2.2 数据放置策略的关键问题与度量标准 35 <br />2.3 数据放置策略的优化 37 <br />2.3.1 MapReduce集群系统能耗与数据放置策略 38 <br />2.3.2 负载均衡的数据放置策略 41 <br />2.3.3 改善I/O性能与通信负载的数据放置策略 46 <br />2.3.4 考虑其他因素的数据放置策略 49 <br />2.4 数据放置策略的分析与归纳 50 <br />2.5 本章小结 53 <br />第二篇 关联规则并行挖掘及性能优化篇 <br />第3章 压缩后缀链表与并行频繁项集挖掘算法 61 <br />3.1 问题提出 62 <br />3.2 基础理论 63 <br />3.3 基于MapReduce的频繁项集挖掘算法 65 <br />3.3.1 第一个MapReduce作业 67 <br />3.3.2 第二个MapReduce作业 67 <br />3.4 实验评价 68 <br />3.4.1 最小支持度 69 <br />3.4.2 可扩展性 70 <br />3.4.3 加速比 70 <br />3.5 本章小结 71 <br />第4章 FIUT算法与频繁项集并行挖掘 73 <br />4.1 引言 74 <br />4.2 FIUT算法描述 76 <br />4.3 FiDoop算法概述 77 <br />4.4 基于MapReduce的FiDoop算法 81 <br />4.4.1 第一个MapReduce作业 83 <br />4.4.2 第二个MapReduce作业 83 <br />4.4.3 第三个MapReduce作业 84 <br />4.5 实现细节 87 <br />4.5.1 负载均衡 87 <br />4.5.2 高维优化 88 <br />4.6 FiDoop-HD算法 90 <br />4.7 实验评价 92 <br />4.7.1 最小支持度 93 <br />4.7.2 负载均衡 95 <br />4.7.3 加速比 96 <br />4.7.4 可扩展性 97 <br />4.8 本章小结 98 <br />第5章 MapReduce编程模型下的约束频繁项集并行挖掘算法 101 <br />5.1 问题提出 102 <br />5.2 约束频繁项集挖掘算法的并行化 103 <br />5.3 基于MapReduce的约束频繁项集并行挖掘 105 <br />5.4 基于MapReduce的约束频繁项集并行挖掘算法（PACFP） 108 <br />5.4.1 并行化计数过程 108 <br />5.4.2 并行化CFP-Growth算法 109 <br />5.4.3 结果聚合 111 <br />5.5 负载均衡 111 <br />5.6 实验结果及分析 112 <br />5.6.1 最小支持度 113 <br />5.6.2 可伸缩性 115 <br />5.6.3 可扩展性 116 <br />5.6.4 约束条件判断的代价分析 117 <br />5.6.5 负载均衡 118 <br />5.7 本章小结 120 <br />第6章 支持并行频繁项集挖掘的数据划分策略 121 <br />6.1 引言 122 <br />6.1.1 FiDoop-DP算法的研发动机 123 <br />6.1.2 FiDoop-DP算法要解决的数据划分问题 124 <br />6.1.3 FiDoop-DP算法的基本思想 125 <br />6.2 并行FP-Growth算法 126 <br />6.3 相关工作 128 <br />6.3.1 MapReduce下的数据划分 128 <br />6.3.2 应用系统相关的数据划分 129 <br />6.4 问题陈述和设计目标 131 <br />6.4.1 基本方法与问题陈述 131 <br />6.4.2 设计目标 132 <br />6.5 数据划分策略 133 <br />6.5.1 距离度量 134 <br />6.5.2 K-Means算法种子点的选择 135 <br />6.5.3 划分策略 135 <br />6.6 实现细节 138 <br />6.7 实验评价 143 <br />6.7.1 种子点个数对算法的影响 143 <br />6.7.2 最小支持度对算法的影响 145 <br />6.7.3 数据特征对算法的影响 147 <br />6.7.4 加速比 149 <br />6.7.5 可扩展性 150 <br />6.8 本章小结 151 <br />第7章 频繁项集并行化过程中的重定向任务调度 153 <br />7.1 问题提出 154 <br />7.2 重定向任务调度算法 156 <br />7.2.1 数据本地化的重要性 156 <br />7.2.2 计算响应时间 157 <br />7.2.3 重定向任务调度算法的设计 158 <br />7.3 实验结果及分析 160 <br />7.3.1 有效性 160 <br />7.3.2 可扩展性 161 <br />7.3.3 稳定性 162 <br />7.4 本章小结 163 <br />第8章 基于Spark内存计算的并行频繁项集挖掘及优化 165 <br />8.1 引言 166 <br />8.2 FP-Growth 算法的并行化分析 167 <br />8.3 Spark环境下的均衡FP-Growth算法 169 <br />8.3.1 负载均衡的分组策略 169 <br />8.3.2 负载均衡的FP-Growth算法并行化 172 <br />8.4 实验评价 174 <br />8.4.1 算法执行效率 175 <br />8.4.2 加速比 176 <br />8.4.3 可扩展性 177 <br />8.5 本章小结 178 <br />第三篇 应 用 篇 <br />第9章 冷轧辊加工质量管理过程相关性分析 181 <br />9.1 引言 182 <br />9.2 系统需求与总体设计 184 <br />9.2.1 轧辊生产工艺流程 184 <br />9.2.2</p>

前沿

前言
数据已经渗透到当今每一个行业和业务职能领域，成为重要的生产要素。大数据虽然孕育于信息通信技术的日渐普及和成熟过程中，但它对社会经济生活产生的影响绝不限于技术层面。本质上，它为我们看待世界提供了一种全新的方法，即决策行为将日益基于数据分析做出，而不是像过去那样更多地凭借经验和直觉做出。数据挖掘是实现大数据知识发现的有效手段和途径，能帮助人们从海量数据中找到未知的、可能有用的、隐藏的规则，可以通过关联分析、聚类分析、时序分析等各种算法发现一些无法通过观察图表得出的深层次“知识”。关联规则作为数据挖掘领域中的一个主要研究内容，可以在不知道或无法确定数据的关联函数或模型时，有效发现大量数据项集之间有趣的关联信息，其已在零售、快消、电商、金融、搜索引擎、智能推荐等领域大有作为。自1993年Agrawal等人首先提出关联规则以来，关联规则的理论研究已经吸引了大量的国内外研究者。围绕关联规则的研究主要集中于两个方面：扩展经典关联规则能够解决问题的范围；改善经典关联规则挖掘算法效率和规则兴趣性。本书侧重于第二方面的研究内容。现有的关联规则挖掘算法因其时空复杂性和I/O代价高，难以适应大数据分析处理任务，利用集群系统、并行技术的强大数据处理能力，研究面向大数据的关联规则挖掘方法和性能优化，对于如今信息爆炸的大数据时代具有重要意义。前言 数据已经渗透到当今每一个行业和业务职能领域，成为重要的生产要素。大数据虽然孕育于信息通信技术的日渐普及和成熟过程中，但它对社会经济生活产生的影响绝不限于技术层面。本质上，它为我们看待世界提供了一种全新的方法，即决策行为将日益基于数据分析做出，而不是像过去那样更多地凭借经验和直觉做出。数据挖掘是实现大数据知识发现的有效手段和途径，能帮助人们从海量数据中找到未知的、可能有用的、隐藏的规则，可以通过关联分析、聚类分析、时序分析等各种算法发现一些无法通过观察图表得出的深层次“知识”。关联规则作为数据挖掘领域中的一个主要研究内容，可以在不知道或无法确定数据的关联函数或模型时，有效发现大量数据项集之间有趣的关联信息，其已在零售、快消、电商、金融、搜索引擎、智能推荐等领域大有作为。自1993年Agrawal等人首先提出关联规则以来，关联规则的理论研究已经吸引了大量的国内外研究者。围绕关联规则的研究主要集中于两个方面：扩展经典关联规则能够解决问题的范围；改善经典关联规则挖掘算法效率和规则兴趣性。本书侧重于第二方面的研究内容。现有的关联规则挖掘算法因其时空复杂性和I/O代价高，难以适应大数据分析处理任务，利用集群系统、并行技术的强大数据处理能力，研究面向大数据的关联规则挖掘方法和性能优化，对于如今信息爆炸的大数据时代具有重要意义。 近年来，作者一直进行数据挖掘与并行计算方面的研究，围绕大数据时代数据处理的核心理论与技术问题，将数据挖掘技术、并行算法设计及计算模型的优化技术有机结合，试图改善“信息丰富而知识贫乏”的窘境。本书是作者近年来相关科研成果的总结，全书主要内容分为三篇共9章，具体章节编排如下： 第一篇是基础理论篇（包括第1、2章）。该篇对本书涉及的一些相关概念和理论知识做了简要介绍。其中，第1章主要介绍数据挖掘、关联规则、集群系统与并行计算模型及大数据的相关概念、理论基础及应用；第2章对目前影响MapReduce集群性能的关键因素——数据放置策略的研究与进展进行了综述和分析。 第二篇是关联规则并行挖掘及性能优化篇（包括第3～8章）。该篇对并行环境下的关联规则挖掘算法及研究过程中发现的一些性能问题进行了深入探讨与研究。第3章和第4章均研究了基于MapReduce集群环境的关联规则挖掘算法；第5章提出基于约束的频繁项集并行挖掘算法，以提高挖掘结果的针对性，同时也考虑了挖掘过程中的负载均衡问题；第6章和第7章针对频繁项集并行挖掘过程中存在的数据非本地性问题，分别提出了一种新的数据划分策略和任务重定向方法；为了更好地适应关联规则挖掘的高迭代计算任务，第8章提出一种基于Spark平台的挖掘算法。 第三篇是应用篇（包括第9章）。本篇以某钢铁企业的冷轧辊产品生产为背景，将上述研究成果应用于冷轧辊产品质量控制过程的相关性分析中，从而为企业开展产品质量控制提供了一种新的技术方法和解决思路。 本书的完成得到了太原科技大学计算机学院数据挖掘和智能信息系统实验室团队成员的大力支持，尤其是张继福教授提出了宝贵建议，硕士研究生吴晓婷、闫晓妩、李永红、于晓龙等在实验过程中给予了大量帮助。另外，美国奥本大学秦啸教授在研究过程中给予了许多有益的指导和建议。在此一并致以诚挚的谢意。 本书所涉及的研究工作得到了国家自然科学基金资助项目（No.61602335、No.61876122、No.U1731126）、太原科技大学博士科研启动基金项目（No.20172017）的资助，在此谨向相关机构表示深深的感谢。 由于作者水平有限，书中难免有不妥之处，欢迎各位专家和广大读者批评指正。 作者