Web数据挖掘（世界著名计算机教材精选） PDF下载

编辑推荐

暂无

内容简介

本书旨在讲述这些任务以及它们的核心挖掘算法；尽可能涵盖每个话题的广泛内容，给出足够多的细节，以便读者无须借助额外的阅读，即可获得相对完整的关于算法和技术的知识。其中结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等4章是本书的特色，这些内容在已有书籍中没有提及，但它们在Web数据挖掘中却占有非常重要的地位。当然，传统的Web挖掘主题，如搜索、页面爬取和资源探索以及链接分析在书中也作了详细描述。

本书尽管题为“Web数据挖掘”，却依然涵盖了数据挖掘和信息检索的核心主题；因为Web挖掘大量使用了它们的算法和技术。数据挖掘部分主要由关联规则和序列模式、监督学习（分类）、无监督学习（聚类）这三大最重要的数据挖掘任务，以及半监督学习这个相对深入的主题组成。而信息检索对于Web挖掘而言最重要的核心主题都有所阐述。

作者简介

刘兵（Bing Liu），伊利诺伊大学芝加哥分校（tnc）教授，他在爱丁堡大学获得人工智能博士学位。刘兵教授是Web挖掘研究领域的国际知名专家，在Web内容挖掘、互联网观点挖掘、数据挖掘等领域有非常高的造诣，他先后在国际著名学术期刊与重要国际学术会议（如KDD、www、AAAl

Web数据挖掘（世界著名计算机教材精选） PDF下载

第一部分 数据挖掘基础
 第1章 概述
 1.1 什么是万维网
 1.2 万维网和互联网的历史简述
 1.3 Web数据挖掘
 1.4 各章概要
 1.5 如何阅读本书
 文献评注
 第2章 关联规则和序列模式
 2.1 关联规则的基本概念
 2.2 Apriori算法
 2.3 关联规则挖掘的数据格式
 2.4 多最小支持度的关联规则挖掘
 2.5 分类关联规则挖掘
 2.6 序列模式的基本概念
 2.7 基于GSP挖掘序列模式
 2.8 基于PrefixSpan算法的序列模式挖掘
 2.9 从序列模式中产生规则
 文献评注
 第3章 监督学习
 3.1 基本概念
 3.2 决策树推理
 3.3 评估分类器
 3.4 规则推理
 3.5 基于关联规则的分类
 3.6 朴素贝叶斯分类
 3.7 朴素贝叶斯文本分类
 3.8 支持向量机
 3.9 k-近邻学习
 3.10 分类器的集成
 文献评注
 第4章 无监督学习
 4.1 基本概念
 4.2 k-均值聚类
 4.3 聚类的表示
 4.4 层次聚类
 4.5 距离函数
 4.6 数据标准化
 4.7 混合属性的处理
 4.8 采用哪种聚类算法
 4.9 聚类的评估
 4.10 发现数据区域和数据空洞
 文献评注
 第5章 部分监督学习
 5.1 从已标注数据和无标注数据中学习
 5.2 从正例和无标注数据中学习
 附录： 朴素贝叶斯EM算法的推导
 文献评注
第二部分 Web挖掘
 第6章 信息检索与Web搜索
 6.1 信息检索中的基本概念
 6.2 信息检索模型
 6.3 关联性反馈
 6.4 评估标准
 6.5 文本和网页的预处理
 6.6 倒排索引及其压缩
 6.7 隐式语义索引
 6.8 Web搜索
 6.9 元搜索引擎和组合多种排序
 6.10 网络作弊
 文献评注
 第7章 链接分析
 第8章 Web爬取
 第9章 结构化数据抽取：包装器生成
 第10章 信息集成
 第11章 观点挖掘
 第12章 Web使用挖掘

免费在线读

第一部分数据挖掘基础

第1章概述

1.2 万维网和互联网的历史简述

万维网的创立：万维网最初是由Tim Berners—Lee于1989年发明的。当时，他在位于瑞士的欧洲粒子物理实验室（Centre European pour la Recherche Nucleaire，或European Laboratory for Particle Physics，CERN）工作。他给万维网命名，并且编写了世界上首个万维网服务器httpd和世界上首个客户端程序（包括一个浏览器和一个编辑器World Wide Web）。

事件起源于1989年3月，当时Tim Berners—Lee向他在CERN的导师提交了一份名为“信息管理提议”的提议书。在这份提议中，他讨论了层次化信息组织的缺点，并且描绘出基于超文本系统的优点。提议书建议设计一套简单的协议，使得用户可以通过网络请求存放在远端系统上的信息；并创立一套使信息可以用相同格式被互相交换，并且用户可以通过超链接把相关文档链接起来的机制。其中还提到如何使用当时在CERN的一些文本阅读和图形显示的技术。提议书完整地描述了分布式超文本系统（Distributed Hypertext System），也就是当今万维网的基础构架。

起初，这份提议书并没有获得足够的支持。然而，在1990年，Berners—Lee重新分发了提议书，并获得了足够的支持来展开工作。在这个项目中，Berners—Lee和他在CERN的团队为最终把万维网发展成为分布式超文本系统铺平了道路。他们设计了服务器、浏览器、用于在客户端和服务器之间进行通讯的协议——超本文传输协议（HyperText Transfer Protocol，HTTP）、用于编辑网络文档的超文本标记语言（HyperText Markup Language，HTML），以及统一资源定位符（Universal Resource Locator，URL）。万维网从此开始迅速发展。

Mosaic和Netscape：下一个万维网的重要事件是Mosaic的出现。1993年2月，来自美国伊利诺伊斯大学国家超级计算应用中心（National Center for Supercomputing Applications，NCSA）的Marc Andreesen和他的团队发布了UNIX操作系统上图形界面的网络浏览器一Mosaic for X。

……