欢迎光临
免费的PDF电子书下载网站

海量数据挖掘技术研究 PDF下载

编辑推荐

暂无

内容简介

随着信息技术特别是网络技术的飞速发展,人们收集、存贮、传输数据的能力不断提高。数据出现了爆炸性增长,与此形成鲜明对比的是:对决策有价值的知识却非常匮乏。知识发现与数据挖掘技术正是在这一背景下诞生的一门新学科。数据挖掘要在实际应用中发挥作用,高性能挖掘算法和数据挖掘软件平台是重要的技术基础。本书以数据挖掘最基本问题、频繁模式与关联规则挖掘为切入点,研究高时间效率、高空间可伸缩性的挖掘算法和分布,异质、海量数据的协同挖掘软件模型,并探讨了数据挖掘过程中的隐私保护问题。
本书首先发现了基于树表示形式的虚拟投影方法,用于按深度优先挖掘密集型数据集;提出了稀疏型数据集表示形式及非过滤投影方法;进_步提出了基于伺机投影的思想,设计并实现了基于伺机投影的全新算法OpportuneProject,对比实验表明,该算法挖掘各种规模与特性数据库的效率与可伸缩性都是*的。
由于其内在的计算复杂性,挖掘密集型数据的频繁模式完全集非常困难,解决办法是挖掘频繁模式的闭合集或*集。本书提出了一种组织闭合模式集的复合型频繁模式树,支持搜索空间的高效剪裁,有效地平衡了树生成与树剪裁的代价,实现了闭合模式集挖掘算法CROP,其效率与可伸缩性大大优于CHARM等算法。在此基础上,本书提出了闭合性剪裁和一般性剪裁相结合,并能适时前窥的*模式挖掘算法MOP,大大优于MaxMiner和MAFIA等算法。

作者简介

刘君强,男,教授,浙江省杭州市人。毕业于加拿大Simon Fraser大学获哲学博士学位,浙江大学获工学博士学位和管理学硕士学位,北京大学获理学学士学位。以第一作者在ACM SIGKDD、IEEE ICDE、IEEE ICDM、PAKDD、《电子学报》、《计算机学报》、《软件学报》、《计算机研究

海量数据挖掘技术研究 PDF下载

目录

前言
摘要
ABSTRACT
第一章 概论
第一节 数据挖掘技术的兴起
第二节 数据挖掘的主要问题
一、数据挖掘任务与知识类型
二、数据挖掘的过程
三、数据挖掘的对象
四、数据挖掘的应用
五、数据挖掘面临的挑战
第三节 本书的工作
第四节 本书的结构
第二章 数据挖掘技术综述
第一节 频繁模式与关联规则挖掘
一、单层单维布尔型关联规则挖掘与Apriori算法
二、对Apriori算法的改进
三、频繁模式与关联规则挖掘研究的新发展
第二节 闭合模式挖掘与A-Close算法
一、闭合模式挖掘与A-Close算法
二、其他闭合模式挖掘算法
第三节 最大模式挖掘与Pincer-Search算法
一、最大模式挖掘与Pincer-Search算法
二、其他最大模式挖掘算法
第四节 多层多维关联规则挖掘
一、多层关联规则挖掘问题
二、多维关联规则挖掘问题
第五节 对关联规则挖掘的其他扩展
一、顺序模式挖掘
二、基于约束的关联规则挖掘
三、并行挖掘问题
四、复杂检索问题
五、关联规则与相关性
六、其他问题
第六节 数据挖掘软件系统
第七节 保护隐私的数据挖掘技术
一、全局概化技术
二、全消隐技术
三、局部概化技术
四、带宽矩阵方法
五、其他相关工作
第八节 数据挖掘技术的应用
一、数据挖掘的应用领域
二、企业营销应用数据挖掘技术
第三章 伺机投影策略的挖掘算法
第一节 引言
第二节 问题的描述
第三节 频繁模式树的构造
第四节 模式支持集的表示与投影
一、稀疏型PTS的基于数组表示及其投影
二、密集型PTS的基于树表示及虚拟投影
第五节 伺机投影策略与OpponuneProject算法
一、伺机投影的启发式原则
二、估计TVLA和TTF的大小
三、OpponuneProject算法
第六节 性能评价
一、数据集及其特性
二、基本实验结果
三、可伸缩性试验
第七节 小结
第四章 闭合模式与最大模式挖掘
第一节 引言
第二节 问题的描述
第三节 复合型频繁模式树及其生成
一、复合型频繁模式树CFIST
二、CFIST结点的合并
三、CFIST的生成算法
第四节 CFIST的剪裁与包含关系的检查
一、高效的CFIST局部剪裁
二、分枝包容关系的快速检查
三、快速杂凑法
第五节 CROP:挖掘闭合模式的高性能算法
一、平衡CFIST生成与剪裁效率
二、CROP算法
第六节 CROP性能测评
一、CROP与CHARM效率对比
二、CROP与CLOSET效率对比
三、CROP与MAFIA效率对比
四、可伸缩性实验
第七节 挖掘最大频繁模式的新算法MOP
一、最大频繁模式集及其剪裁
二、MOP算法
三、MOP的性能评价
第八节 小结
第五章 多维多层关联规则、分类规则与空间关联规则
第一节 关联规则与无冗余关联规则
第二节 多层频繁模式挖掘
一、问题的描述
二、逆字典树与多层频繁模式
三、层次标记技术与模式支持集
四、高性能多层频繁模式挖掘算法
五、性能测评
第三节 多维多层多数据类型关联规则挖掘
一、多维多层多数据类型关联规则挖掘问题
二、MDML-PP算法
三、性能测评
第四节 挖掘多支持率分类规则
一、分类规则挖掘与TTF扩展
二、多支持率剪裁
三、分类规则及其单阶段挖掘算法
四、对比实验
第五节 空间关联规则的挖掘
一、空间关联规则
二、两阶段挖掘策略
三、基于辅存分而治之的方法
第六节 提高挖掘算法可伸缩性的技术
一、海量数据挖掘策略
二、缓冲管理技术
三、挖掘算法改进及其性能分析
第七节 小结
第六章 智能型数据挖掘工具设计与实现
第一节 引言
第二节 数据仓库及其管理
一、数据仓库模型与OLAP
二、数据仓库的框架描述
三、数据仓库管理器
第三节 数据挖掘任务的描述、管理及执行机制
一、数据挖掘作业Job的描述
二、挖掘任务模型Scenario的定义
三、挖掘任务模型的管理与执行
第四节 智能型数据挖掘引擎
一、算法描述库与算法模块
二、知识库与引擎管理器
第五节 SmartMiner体系结构
第六节 关键技术与SmartMiner原型实现
第七节 小结
第七章 网络海量数据协同挖掘
第一节 引言
第二节 分布式黑板控制
一、问题求解的黑板系统
二、分布式问题求解与黑板控制
第三节 形式化描述语言
一、黑板的描述
二、知识源的描述
三、知识交换格式
第四节 实现分布式黑板控制的一般智能代理
一、智能代理GA的结构设计
二、智能代理软件DBC-MA的实现
第五节 分布式数据挖掘系统DistributedMiner
一、分布式知识发现功能
二、DistributedMiner的黑板设计
三、挖掘平台体系结构
四、DistributedMiner的实现与应用
第六节 从分布计算到移动计算
一、什么是智能代理
二、智能代理的特征
三、移动型智能代理
四、典型mobile agent系统
第七节 移动式数据挖掘系统模型
一、移动型智能代理服务器
二、DBC-MA变型
三、MobileMiner工作流程
第八节 小结
第八章 挖掘事务型数据过程中的隐私保护
第一节 引言
第二节 隐私保护与匿名化模型
第三节 集成概化与消隐技术的基本方法
一、割集栅格的自顶向下贪婪法搜索
二、为割集寻找一个好的消隐方案
三、算法描述
第四节 解决效率与可伸缩性瓶颈的关键技术
一、最小隐私威胁
二、多轮次求解策略
第五节 信息损失与性能的实验评估
一、信息损失评估
二、效率评估
三、可伸缩性评估
第六节 小结
参考文献
后记

海量数据挖掘技术研究 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:海量数据挖掘技术研究