文本数据管理与分析：信息检索与文本挖掘的实用导论 PDF下载

编辑推荐

信息检索与数据挖掘领域世界知名学者、ACM Fellow、美国伊利诺伊大学香槟分校(UIUC)翟成祥教授厚积薄发之作，

基于UIUC数据管理与分析相关课程多年的积累，覆盖作者两门在线课程“文本检索与搜索引擎”和“文本挖掘与分析”的主要内容

；

内容简介

本书以文本数据处理为核心，从理论到实践介绍了文本数据管理与分析的关键问题，广泛涵盖了信息检索和文本数据挖掘领域的主要概念、技术和方法，并包括许多专门设计并辅以配套软件工具包（例如META）的动手练习，来帮助读者学习如何运用文本挖掘和信息检索的技术来分析和处理现实世界中的文本数据，以及如何试验数据和为具体应用任务来改进一些算法。

；

具体内容：

l ；文本信息获取与挖掘基础：统计与概率论、信息论等相关理论和文本数据理解技术。

l ；文本信息获取关键技术：信息检索的模型、实现和评价，网络搜索以及推荐系统等。

l ；文本挖掘关键技术：文档分类，文档聚类，文本摘要，主题分析，观点挖掘与情感分析，文本与结构化数据联合分析等。

l ；文本管理和分析系统：整合信息检索与文本分析技术，结合配套软件工具META，构建统一的、人机结合的文本管理和分析系统。

；

主要特点：

l ； ·内容深入浅出，理论实践密切结合，可作为高等院校计算机科学或相关专业本科生、研究生信息检索与文本挖掘课程的教材。

l ； ·主题丰富，体系完整，逻辑清晰，便于与各种课程体系结合，可作为高等院校相关专业教师的参考书。

l ； ·兼顾广度与深度，覆盖经典模型与方法并提供丰富的扩展阅读文献，可作为专业科研人员与工业界人士的参考书或技术手册。

作者简介

作者简介：
翟成祥（ChengxiangZhai）；

信息检索与数据挖掘领域世界知名学者，ACM会士、ACM杰出科学家，伊利诺伊大学香槟分校计算机科学系以及图书馆与信息科学研究生院、基因生物学研究所和统计系教授、Willet学者。研究兴趣包括信息检索、文本挖掘、自然语言处理、机器学习、生物医学与健康信息学以及智能教育信息系统。他已经在主流会议与期刊发表超过300篇研究论文，现在是《ACM Transactions on Knowledge Discovery from Data》副主编，并担任多个国际会议的程序委员会主席和大会主席。他荣获多项荣誉，包括ACM SIGIR 2004 最佳论文、ACM SIGIR 2014 时间考验奖、 Alfred P. Sloan研究奖金、IBM 教师奖、HP 创新研究项目奖、微软超越搜索研究奖以及美国青年科学家和工程师总统奖。
肖恩•马森（Sean Massung）；
伊利诺伊大学香槟分校计算机科学专业博士生。他是META的联合发明者并在其所有研究中使用META，并且是多门课程的指导者。研究兴趣包括信息检索中的文本挖掘应用、自然语言处理和教育。

；

译者简介：

宋巍，博士，首都师范大学信息工程学院副教授。研究方向为自然语言处理与信息检索。在ACL、SIGIR、EMNLP等国际著名学术会议发表论文多篇。主持国家自然科学基金和北京市自然科学基金。

赵鑫，博士，中国人民大学信息学院副教授。研究方向为社交媒体数据挖掘和自然语言处理。近五年内在国内外著名学术期刊与会议上发表论文60余篇。担任多个重要的国际会议或者期刊评审，入选第二届CCF青年人才发展计划。

李璐旸，博士，北京外国语大学计算机系讲师。研究方向为自然语言处理与文本挖掘。在人工智能、自然语言处理等领域国际期刊及会议发表论文多篇。

李洋，博士，东北林业大学讲师。研究领域为自然语言处理与推荐系统。，在人工智能、自然语言处理等领域国际期刊和会议上发表多篇论文。

刘挺，哈尔滨工业大学长聘教授，哈工大人工智能研究院副院长，计算机学院社会计算与信息检索研究中心主任，国家“万人计划”科技创新领军人才，教育部人工智能科技创新专家组成员。中国计算机学会理事，中国中文信息学会常务理事。主要研究方向为人工智能、自然语言处理和社会计算，是国家973课题、国家自然科学基金重点项目负责人。

文本数据管理与分析：信息检索与文本挖掘的实用导论 PDF下载


 
  Text Data Management and Analysis:A PracticalIntroduction to Information Retrieval and Text Mining
  中文版序
  译者序
  前言
  作者简介
  第一部分　概述和背景
  第1章　绪论2
  　1.1　文本信息系统的功能4
  　1.2　文本信息系统的概念框架5
  　1.3　本书结构安排7
  　1.4　如何使用本书8
  　书目说明和延伸阅读9
  第2章　背景11
  　2.1　概率和统计基础11
  　　2.1.1　联合概率和条件概率12
  　　2.1.2　贝叶斯法则13
  　　2.1.3　抛硬币和二项分布14
  　　2.1.4　最大似然参数估计14
  　　2.1.5　贝叶斯参数估计15
  　　2.1.6　概率模型及其应用16
  　2.2　信息论17
  　2.3　机器学习19
  　书目说明和延伸阅读20
  　练习20
  第3章　文本数据理解22
  　3.1　自然语言处理的历史和研究现状23
  　3.2　自然语言处理和文本信息系统24
  　3.3　文本表示26
  　3.4　统计语言模型28
  　书目说明和延伸阅读31
  　练习31
  第4章　META：一个面向文本数据管理和分析的统一工具箱33
  　4.1　设计原则33
  　4.2　设置META34
  　4.3　架构34
  　4.4　用META分词35
  　4.5　相关工具箱37
  　练习38
  第二部分　文本数据获取
  第5章　文本数据获取概述44
  　5.1　获取模式：拉取与推送44
  　5.2　多模式互动获取45
  　5.3　文本检索47
  　5.4　文本检索与数据库检索48
  　5.5　文档选择与文档排序49
  　书目说明和延伸阅读50
  　练习51
  第6章　检索模型52
  　6.1　概述52
  　6.2　检索函数的一般形式53
  　6.3　向量空间检索模型54
  　　6.3.1　向量空间模型实例化55
  　　6.3.2　位向量表示的表现56
  　　6.3.3　改进的模型实例57
  　　6.3.4　TF变换60
  　　6.3.5　文档长度规范化62
  　　6.3.6　基本向量空间模型的进一步改进64
  　　6.3.7　小结65
  　6.4　概率检索模型65
  　　6.4.1　查询似然检索模型67
  　　6.4.2　文档语言模型的平滑69
  　　6.4.3　具体的平滑方法72
  　书目说明和延伸阅读76
  　练习76
  第7章　反馈78
  　7.1　向量空间模型中的反馈79
  　7.2　语言模型中的反馈81
  　书目说明和延伸阅读84
  　练习84
  第8章　搜索引擎实现86
  　8.1　分词器86
  　8.2　索引器87
  　8.3　打分器90
  　　8.3.1　逐个词项排序90
  　　8.3.2　逐个文档排序90
  　　8.3.3　过滤文档91
  　　8.3.4　索引分片91
  　8.4　反馈实现92
  　8.5　压缩92
  　　8.5.1　按位压缩93
  　　8.5.2　块压缩94
  　8.6　高速缓存95
  　　8.6.1　LRU缓存95
  　　8.6.2　DBLRU缓存96
  　书目说明和延伸阅读96
  　练习97
  第9章　搜索引擎评价98
  　9.1　引言98
  　　9.1.1　要度量什么98
  　　9.1.2　Cranfield评价方法98
  　9.2　集合检索的评价100
  　　9.2.1　准确率和召回率100
  　　9.2.2　F度量：准确率和召回率的结合101
  　9.3　有序列表的评价102
  　9.4　基于多级别判断标准的评价106
  　9.5　评价中的实际问题107
  　书目说明和延伸阅读110
  　练习110
  第10章　网络搜索112
  　10.1　网络爬虫113
  　10.2　网页索引113
  　10.3　链接分析117
  　　10.3.1　PageRank算法118
  　　10.3.2　HITS算法121
  　10.4　排序学习122
  　10.5　网络搜索的未来125
  　书目说明和延伸阅读127
  　练习127
  第11章　推荐系统130
  　11.1　基于内容的推荐131
  　11.2　协同过滤134
  　11.3　推荐系统的评价137
  　书目说明和延伸阅读138
  　练习138
  第三部分　文本数据分析
  第12章　文本数据分析概述142
  　12.1　动机：文本数据分析的应用142
  　12.2　文本与非文本数据：人类作为主观传感器143
  　12.3　文本挖掘任务概览145
  第13章　词关联挖掘148
  　13.1　词关联挖掘的基本思想149
  　13.2　聚合关系的发现150
  　13.3　组合关系的发现153
  　13.4　词关联挖掘的评价159
  　书目说明和延伸阅读160
  　练习160
  第14章　文本聚类162
  　14.1　聚类技术概述163
  　14.2　文档聚类164
  　　14.2.1　凝聚层次聚类法165
  　　14.2.2　K-均值165
  　14.3　词项聚类167
  　　14.3.1　语义关联的词语167
  　　14.3.2　点互信息169
  　　14.3.3　先进方法169
  　14.4　文本聚类的评价172
  　书目说明和延伸阅读173
  　练习173
  第15章　文本分类175
  　15.1　引言175
  　15.2　文本分类方法概述176
  　15.3　文本分类问题177
  　15.4　文本分类的特征177
  　15.5　分类算法179
  　　15.5.1　k-近邻180
  　　15.5.2　朴素贝叶斯181
  　　15.5.3　线性分类器182
  　15.6　文本分类的评价183
  　书目说明和延伸阅读184
  　练习184
  第16章　文本摘要185
  　16.1　文本摘要技术概述185
  　16.2　抽取式文本摘要186
  　16.3　抽象式文本摘要187
  　16.4　文本摘要的评价189
  　16.5　文本摘要的应用189
  　书目说明和延伸阅读190
  　练习190
  第17章　主题分析192
  　17.1　用词项表示的主题193
  　17.2　用单词分布表示的主题196
  　17.3　挖掘文本中的一个主题198
  　　17.3.1　最简单的主题模型：一元语言模型199
  　　17.3.2　添加背景语言模型201
  　　17.3.3　混合模型的参数估计205
  　　17.3.4　混合模型的行为206
  　　17.3.5　期望最大化209
  　17.4　概率潜在语义分析214
  　17.5　PLSA的扩展及潜在狄利克雷分布220
  　17.6　主题分析的评价223
  　17.7　主题模型的总结224
  　书目说明和延伸阅读224
  　练习225
  第18章　观点挖掘与情感分析226
  　18.1　情感分类228
  　18.2　有序回归230
  　18.3　潜在方面评分分析232
  　18.4　观点挖掘与情感分析的评价238
  　书目说明和延伸阅读238
  　练习238
  第19章　文本与结构化数据的联合分析240
  　19.1　引言240
  　19.2　上下文文本挖掘242
  　19.3　上下文概率潜在语义分析244
  　19.4　以社交网络作为上下文的主题分析249
  　19.5　以时间序列作为上下文的主题分析252
  　19.6　小结256
  　书目说明和延伸阅读256
  　练习257
  第四部分　统一的文本数据管理和分析系统
  第20章　面向一个统一的文本管理和分析系统260
  　20.1　文本分析操作262
  　20.2　系统架构264
  　20.3　META作为一个统一系统265
  附录A　贝叶斯统计266
  附录B　期望最大化271
  附录C　KL-散度和狄利克雷先验平滑275
  参考文献277
  索引287

前沿

中文版序
Text Data Management and Analysis:A Practical Introduction to InformationRetrieval and Text Mining
目前，我们正处在一个以大数据与人工智能技术为核心的新的工业革命时代，其主要特征是大量各种可利用的数据可以视为一种特殊的生产资料，经过高效的智能数据分析与挖掘以及机器学习等人工智能技术处理后，这些数据可以产生巨大价值，创造智能。<；p>；中文版序<；/p>； <；p>；Text Data Management and Analysis:A Practical Introduction to Information Retrieval and Text Mining<；/p>； <；p>；目前，我们正处在一个以大数据与人工智能技术为核心的新的工业革命时代，其主要特征是大量各种可利用的数据可以视为一种特殊的生产资料，经过高效的智能数据分析与挖掘以及机器学习等人工智能技术处理后，这些数据可以产生巨大价值，创造智能。<；/p>； <；p>；大数据可以用两种方式创造智能。其一，大量的数据可以作为训练数据，让监督式机器学习方法特别是深度学习，发挥巨大潜力，从大量数据中学得智能，从而使智能机器能够大量代替人力来完成各种任务（此类智能系统可称为自主型智能系统）。例如，大量的可用于训练无人驾驶车的数据可以很自然地从人的驾驶过程中通过传感器获得，使机器可以自动驾驶车辆；又如，大量的客户服务记录数据，可以用来训练客户服务机器人，自动回答客户的问题。其二，大量的数据可以作为对我们生活的世界的感知和观察的结果的描述，用数据挖掘或非监督式机器学习方法对数据加以处理，获得关于被观察系统的各种有用知识，从而拓展人类的感知能力，增强人的智能（此类系统自身往往智能程度不高，可以称为助理型智能系统）。例如，大量电子病历数据可以用来构造一个医生或病人的辅助诊疗的智能助手系统；又如，大量金融数据、社交媒体数据以及新闻数据可以用来构造金融方面的决策支持系统。<；/p>； <；p>；比较两类基于大数据的智能系统，自主型智能系统能完成的任务不能太复杂（因机器需独立完成任务），且对数据的要求较高，需要有标注的数据，而获取极大量的高质量的标注数据在很多问题领域并不现实，所以这类应用目前只能在少量的特定应用领域起作用。而且，由于机器的智能主要来自于人工标注的数据，机器的智能不容易超越人的智能。相反，助理型智能系统由于不需要有标注的数据，任何数据都可以利用，所以在任何领域都可以起作用，有着非常广泛的应用。而且，有趣的是，尽管助理型智能系统本身的智能不高，甚至没有太多智能，但这样的系统一旦与人结合，人与系统相加以后的综合智能往往能大大超越人的智能。这种情形下，助理型智能系统的功能有与显微镜及望远镜的功能相似之处，即它们都可以拓展人对世界的感知能力，从而增强人的智能，特别是有助于在复杂应用领域优化决策。<；/p>； <；p>；作为一种特殊的大数据，文本数据泛指各种以自然语言形式存在的数据，包括万维网页、新闻报道、社交媒体、产品评论、科学文献、政府文件等；语音和视频数据，经语音识别后也能产生文本数据。文本数据有着极其广泛的应用。第一，文本数据可被视为人，作为一个富有智能的主观“传感器”所产生的数据，它可以与所有其它非文本数据相结合，共同支持助理型智能系统；又因为任何应用领域都会涉及相关的人群，人们会以各种形式产生可用的文本数据，所以文本数据在任何领域都会有应用价值。第二，由于人的主观性，文本数据富含关于人的观点、偏好以及需求等信息，所以特别有助于挖掘关于人的各种属性，使智能系统可以更好地理解用户，从而可以对每一个特定的用户进行优化服务（即个性化服务）。第三，由于文本数据是人们用自然语言交流和通信的产物，它的语义很丰富，相比非文本数据来说，文本数据更加直接地表达知识。从数据挖掘的角度看，更容易让计算机自动获取知识。然而，由于自然语言是为人类通信而设计的，需要有大量的常识及推理能力，才能准确理解，所以尽管自然语言理解研究已取得很大进展，计算机目前还不能全面理解不受限的自然语言的结构和语义，所以在所有文本数据的应用中，必须充分利用人的自然语言理解能力，让计算机成为一个智能助理。<；/p>； <；p>；《文本数据管理与分析》这本书从文本检索与挖掘的角度，比较全面和系统地介绍了利用文本数据支持助理型智能系统的各种应用技术。文本检索技术可用于构造各种搜索和推荐系统；这类系统可帮助用户快速定位到与当前任务最相关的文本数据，从而避免处理大量不必要处理的不相关数据。而文本分析与挖掘技术则可进一步对相关文本数据进行分析，帮助用户消化相关文本信息，将文本转化为可直接支持任务和决策的知识。这些技术可以有机地结合在一起支持交互式的智能文本检索与分析系统。书中介绍的文本检索与分析技术大多为不依赖具体自然语言的基于统计的通用技术，因而可适用于管理、处理与分析包括英语及汉语的任何自然语言文本数据及构造各种应用领域的应用系统。与书中内容相配的MeTA工具集，可帮助读者进一步理解如何实现书中算法和利用已有算法进行科研或开发应用软件。<；/p>； <；p>；目前，大数据及人工智能技术的研究与开发在中国正方兴未艾，机械工业出版社华章公司出版《文本数据管理与分析》一书的中文版，可谓时机甚佳。作为原书的一位作者，在此特别感谢华章公司姚蕾编辑对此书翻译的大力支持和协调，以及哈尔滨工业大学刘挺教授和他带领的翻译团队，包括宋巍、赵鑫、李璐旸、李洋、赵森栋及段俊文等的杰出翻译工作。希望此书能有助于许多中文读者学习掌握文本数据检索、分析与挖掘的当前技术，开发基于文本大数据的智能信息应用系统。<；/p>； <；p>；；<；/p>； <；p>；翟成祥<；/p>； <；p>；2019年3月2日<；/p>； <；p>；于美国伊利诺伊州香槟市<；/p>； <；p>；；<；/p>； <；p>；；<；/p>； <；p>；；<；/p>； <；p>；译者序<；/p>； <；p>；Text Data Management and Analysis:A Practical Introduction to Information Retrieval and Text Mining<；/p>； <；p>；翟成祥教授是信息检索与数据挖掘领域世界知名学者，具有很高的学术影响力。他关于基于语言模型的信息检索以及概率主题模型相关的一系列研究在信息检索和数据挖掘领域写下了浓重一笔。从读研究生以来，我们一直深受翟老师研究的影响和启发。去年，刘挺教授问我们是否愿意翻译翟成祥老师2016年出版的这部著作，我们感到非常荣幸并欣然接受。<；/p>； <；p>；本书内容以文本数据处理为核心。文本是最常见也是最具表达能力的数据形式，以自然又自由的方式蕴含着丰富的人类智慧。近年来，文本数据呈现爆炸式增长的趋势，不仅包括传统的静态文本，还包括微博、评论等用户动态生成数据以及科技文献、教育、商务、政务、医疗等专业领域数据。在当前大数据与人工智能的背景下，迫切需要智能的文本数据处理系统来帮助人们及时有效地获取和分析文本中丰富而有价值的知识、信息以及人们的观点和偏好。<；/p>； <；p>；本书涵盖了实现以上文本信息系统所涉及的关键问题与核心技术，具有区别于以往类似书籍的独特之处。<；/p>； <；p>首先，本书将信息获取和数据挖掘统一起来，强调了在任何实用的文本信息系统中信息检索与文本分析都是不可或缺且相互依赖的组成部分。信息检索有助于从大规模文本数据中获取与目标任务最相关的小规模数据，数据挖掘则通过对相关文本进行分析得到知识，信息消费者又通过信息检索来验证知识。全书内容也依此逻辑进行组织，全面介绍了信息检索和文本数据挖掘的主要概念、技术和思想。 其次，本书从新的视角看待文本数据，将其视为人类作为主观传感器对现实世界的表达，强调了人既是文本生产者又是信息消费者的角色。书中介绍了情感计算、主题分析、文本摘要等近年来的热点研究课题和相关技术，有利于分析人类主观观点和有效消化信息，也阐述了文本数据与结构化数据联合分析的可能性和典型方法，将人类主观传感器与其他客观传感器产生的数据结合起来，突出在不同上下文下的文本分析。 最后，本书结构清晰，可读性强并注重实践性。尽管涵盖了广泛的主题，但主题之间具有清晰的逻辑关联。每章都提供了具体实例，有助于读者理解，每章最后都列举了参考文献，使得读者能够根据实际控制知识的深度，适用于广泛的读者人群。本书提供了配套软件工具包，并可以与作者以往的在线课程配合，极大地方便了读者的理论学习与工程实践。教材、在线课程、配套软件，三位一体的课程设置对国内教学实践也有着积极的借鉴意义。 本书的翻译由哈尔滨工业大学刘挺教授组织并作为主审。四位主要译者均曾就读于哈尔滨工业大学社会计算与信息检索研究中心，目前在各个高校从事与本书内容密切相关的教学和科研工作。在翻译过程中，宋巍负责翻译了前言、第1、6、7、9章以及全书的统稿，赵鑫翻译了第2、17章以及附录，李璐旸翻译了第3、5、8、10章，李洋翻译了第11、13、14、15章。哈尔滨工业大学社会计算与信息检索研究中心博士生赵森栋与段俊文同样承担了部分章节的翻译。赵森栋翻译了第4、19、20章，段俊文翻译了第12、16、18章。他们都曾访问伊利诺伊大学香槟分校得到翟成祥教授亲自指导。最后，特别感谢华章出版社姚蕾、朱秀英、唐晓琳等编辑在本书翻译过程当中提供的各种指导和帮助。 译者水平和经验有限，时间紧迫，书中难免存在理解不当和语言运用不妥之处，敬请读者批评指正。 译者 2018年8月 于北京