数据仓库与数据挖掘（重点大学计算机专业系列教材） PDF下载

编辑推荐

暂无

内容简介

本书主要介绍数据仓库和数据挖掘技术的基本原理和应用方法，全书共分为12章，主要内容包括数据仓库的概念和体系结构、数据仓库的数据存储和处理、数据仓库系统的设计与开发、关联规则、数据分类、数据聚类、贝叶斯网络、粗糙集、神经网络、遗传算法、统计分析、文本和Web挖掘。

本书既重视理论知识的讲解，又强调应用技能的培养。每章首先介绍算法的主要思想和理论基础，之后利用算法去解决实例中给出的任务，而且对于数据仓库的组建方法和多数章节中的数据挖掘算法，本书都使用Microsoft SQL Server 2005进行了操作实现。本书通过对具体实例的学习和实践，使读者掌握数据仓库和数据挖掘中必要的知识点，达到学以致用的目的。

本书每章均配有习题，习题形式为选择题、简答题和操作题，可以帮助读者进一步巩固和掌握所学知识。此外，本书提供多媒体教学课件和习题参考答案，读者可到清华大学出版社网站（http://www.tup.com.cn/）下载。

本书可以作为高等学校计算机及相关专业本科、研究生的数据仓库和数据挖掘教材，也可供相关领域的广大科技工作人员和高校师生参考。

作者简介

暂无

数据仓库与数据挖掘（重点大学计算机专业系列教材） PDF下载

第1章 数据仓库的概念与体系结构
 1.1 数据仓库的概念、特点与组成
 1.2 数据挖掘的概念与方法
 1.3 数据仓库的技术、方法与产品
 1.4 数据仓库系统的体系结构
 1.5 数据仓库的产生、发展与未来
 1.6 小结
 1.7 习题
第2章 数据仓库的数据存储与处理
 2.1 数据仓库的数据结构
 2.2 数据仓库的数据特征
 2.3 数据仓库的数据ETL过程
 2.4 多维数据模型
 2.5 小结
 2.6 习题
第3章 数据仓库系统的设计与开发
 3.1 数据仓库系统的设计与开发概述
 3.2 基于SQL Server 2005的数据仓库数据库设计
 3.3 使用SQL Server 2005建立多维数据模型
 3.4 小结
 3.5 习题
第4章 关联规则
 4.1 概述
 4.2 引例
 4.3 经典算法
 4.4 相关研究与应用
 4.5 小结
 4.6 习题
第5章 数据分类
 5.1 引例
 5.2 分类问题概述
 5.3 决策树
 5.4 支持向量机
 5.5 近邻分类方法
 5.6 小结
 5.7 习题
第6章 数据聚类
 6.1 引例
 6.2 聚类分析概述
 6.3 聚类分析中相似度的计算方法
 6.4 kmeans聚类算法
 6.5 层次聚类方法
 6.6 小结
 6.7 习题
第7章 贝叶斯网络
第8章 粗糙集
第9章 神经网络
第10章 遗传算法
第11章 统计分析
第12章 文本和Web挖掘
参考文献

免费在线读

第1章数据仓库的概念与体系结构

随着企事业单位信息化建设的逐步完善，各单位信息系统将产生越来越多的历史数据信息。如何处理这些历史数据呢?现各单位至少有如下三种做法。

（1）将已经失效的历史数据简单地删除，以便减少磁盘空间的占用并提高系统性能。这种方法最简单。

（2）先对历史数据作介质备份，然后删除，以防万一需要查看。

（3）建立一个数据仓库系统，将各业务系统及其他档案数据中有分析价值的数据及需要存档的数据保存到数据仓库中，进而可以综合利用这些数据，建立分析模型，从中挖掘出符合规律的知识并用于未来的预测与决策中。

一方面，各信息化单位正逐步认识到这些历史业务数据就是金矿石，可以从中炼出金子来，因此越来越多的单位开始建立自己的数据仓库与数据挖掘系统，以从中掏出“金子”来。事实上，业务数据的积累年限越长，越容易发现规律，形成知识。

另一方面，基于Web的商务应用越来越普及，客户和供应商在商务网站上的活动提供了大量的点击流数据，通过分析可以进一步了解访问者的行为偏好，发现带普遍性的消费行为规律。同时，通过网站日志还可进一步获得访问者的活动细节，如时问、IP地址、经常访问的页面和内容、在网页上的停留时间等。如果将这些数据连同客户的交易、付款、产品利润、查询等历史记录都从各业务系统中合并到数据仓库中，将可以进一步改进网站页面内容和风格，让客户和业务伙伴更加满意，甚至带来利润更高的相关业务。

1.1 数据仓库的概念、特点与组成

数据仓库（data warehouse）通常指一个数据库环境，而不是指一件产品，它提供用户用于决策支持的当前和历史数据，这些数据在传统的数据库中通常不方便得到。

……