Web中文舆情信息挖掘 PDF下载

编辑推荐

互联网络,舆论,信息处理；

内容简介

随着互联网的快速发展，网络舆情成为一股强大的舆论力量，对社会发展和国家治理产生着较大影响，因此对网络舆情的监测和管理显得尤为重要，成为研究热点。《Web中文舆情信息挖掘》共7章，系统介绍Web中文舆情信息挖掘的概念、过程和分析技术。第1章介绍Web中文舆情信息挖掘的相关概念；第2章介绍网络舆情信息提取；第3章介绍中文分词；第4章介绍文本语义分析；第5章介绍文本特征向量表示和特征加权；第6章介绍聚类挖掘，这是《Web中文舆情信息挖掘》的重要内容；第7章介绍文本舆情倾向性分析及发现。

作者简介

暂无

Web中文舆情信息挖掘 PDF下载

目录
第1章 Web中文舆情信息挖掘导论 1
1.1 网络舆情信息挖掘概述 2
1.2 网络舆情研究现状 3
1.2.1 网络舆情的概念、特点与成因 3
1.2.2 网络舆情的传播与导控 4
1.2.3 高校网络舆情研究 4
1.3 数据挖掘简介 5
1.3.1 数据挖掘过程 6
1.3.2 数据挖掘功能 7
1.3.3 数据挖掘应用 8
1.3.4 数据挖掘发展 9
1.4 Web挖掘 10
1.4.1 Web挖掘的分类 11
1.4.2 Web挖掘应用前景 12
1.5 Web文本挖掘 12
1.5.1 Web文本挖掘技术 13
1.5.2 Web文本挖掘过程 14
1.5.3 文本表示和特征抽取 15
1.5.4 Web文档相似性度量 16
1.5.5 Web文本分类 16
1.5.6 Web文本聚类 17
1.5.7 Web文本关联规则挖掘 18
1.6 网络舆情信息采集 18
1.6.1 网络信息搜索发展简况 18
1.6.2 网络信息采集对象 19
1.6.3 信息采集算法 19
1.6.4 网络爬虫 20
1.6.5 信息采集工具 22
1.7 文本分词 23
第2章 网络舆情信息提取 26
2.1 检索词选择 26
2.2 主题词遴选 27
2.3 网站链接过滤 29
2.3.1 网站链接分类 29
2.3.2 链接提取 30
2.4 基于模板的网页正文抽取 30
2.4.1 网页抽取预处理 31
2.4.2 模板学习 31
2.4.3 正文提取 32
2.5 正文过滤 33
2.5.1 基于词频统计的正文过滤 33
2.5.2 主题知识自增长过滤 33
第3章 中文分词 37
3.1 汉语分词基本问题 37
3.1.1 分词规范问题 37
3.1.2 歧义切分问题 38
3.1.3 未登录词问题 39
3.2 汉语分词方法 42
3.2.1 N*短路径方法 43
3.2.2 基于词的n元语法模型的分词方法 45
3.2.3 由字构词的汉语分词方法 48
3.2.4 基于词感知机算法的汉语分词方法 49
3.2.5 基于字的生成式模型和区分式模型相结合的汉语分词方法 52
3.2.6 其他分词方法 54
3.2.7 分词方法比较 54
3.3 命名实体识别 57
3.3.1 方法概述 57
3.3.2 基于CRF的命名实体识别方法 59
3.3.3 基于多特征的命名实体识别方法 61
3.4 词性标注 68
3.4.1 方法概述 68
3.4.2 基于统计模型的词性标注方法 69
3.4.3 基于规则的词性标注方法 73
3.4.4 统计方法与规则方法相结合的词性标注方法 74
3.4.5 词性标注中的生词处理方法 76
3.5 词性标注的一致性检查与自动校对 77
3.5.1 词性标注一致性检查方法 77
3.5.2 词性标注自动校对方法 79
3.6 关于技术测评 81
第4章 文本语义分析 83
4.1 词义消歧概述 83
4.2 有监督的词义消歧方法 84
4.2.1 基于互信息的消歧方法 84
4.2.2 基于贝叶斯分类器的消歧方法 85
4.2.3 基于**熵的词义消歧方法 87
4.3 基于词典的词义消歧方法 87
4.3.1 基于词典语义定义的消歧方法 88
4.3.2 基于义类词典的消歧方法 88
4.3.3 基于双语词典的消歧方法 89
4.3.4 Yarowsky算法及其相关研究 89
4.4 无监督的词义消歧方法 91
4.5 词义消歧系统评价 92
4.6 语义角色标注概述 93
4.7 语义角色标注基本方法 94
4.7.1 自动语义角色标注的基本流程 94
4.7.2 基于短语结构树的语义角色标注方法 95
4.7.3 基于依存关系树的语义角色标注方法 97
4.7.4 基于语块的语义角色标注方法 99
4.7.5 语义角色标注的融合方法 100
4.8 语义角色标注的领域适应性问题 102
4.9 双语联合语义角色标注方法 105
4.9.1 基本思路 105
4.9.2 系统实现 106
4.9.3 实验 109
第5章 文本特征向量表示 114
5.1 基于特征降维的文本特征表示 114
5.2 相关特征加权算法 115
5.3 基于类别信息的特征加权算法 118
第6章 聚类挖掘 122
6.1 聚类挖掘概述 122
6.1.1 主要聚类算法 123
6.1.2 聚类分析研究方向 125
6.1.3 常用聚类策略 126
6.1.4 聚类的一般步骤 127
6.2 基本概念 127
6.2.1 类的定义 127
6.2.2 样本间距离、类间距离和相关系数 128
6.2.3 聚类分析中的数据类型 129
6.3 基于划分的聚类挖掘 130
6.3.1 k-means算法 130
6.3.2 模糊C均值算法 132
6.4 基于层次的聚类挖掘 132
6.4.1 BIRCH算法 133
6.4.2 CURE聚类算法 134
6.5 基于密度的聚类挖掘 135
6.6 基于网格的聚类挖掘 136
6.7 基于模型的聚类挖掘 137
6.8 高维海量数据的聚类挖掘 138
6.8.1 高维海量数据特点 138
6.8.2 高维海量数据聚类算法 139
6.9 基于蚁群算法的聚类挖掘 145
6.9.1 蚁群算法特征 147
6.9.2 蚁群算法的研究热点 148
6.9.3 基于蚁穴清理行为的聚类算法 150
6.9.4 基于蚁群觅食行为的聚类算法 152
6.9.5 粒子群优化算法 153
6.9.6 蚁群算法分析 154
6.10 文本特征词加权 155
6.11 主成分分析 155
6.12 分析文本聚类 156
6.12.1 粒子群密度聚类 156
6.12.2 基于模糊矩阵的蚁群聚类 157
6.13 本章小结 160
第7章 文本舆情倾向性分析及发现 162
7.1 文本倾向性分析 162
7.1.1 词语语义倾向性判别 162
7.1.2 词语的上下文倾向性判别 163
7.1.3 段落文本倾向性分析 164
7.2 舆情关键点发现 165
参考文献 168
附录 179

免费在线读

第1章 Web中文舆情信息挖掘导论<；BR>；　　近年来，随着网络技术的推陈出新，继网络新闻、网络论坛后，涌现了博客、聚合新闻（really simple syndication，RSS）、微博、腾讯QQ、高德地图、滴滴出行、易信、来往、微信等新形态的信息交互模式。范围广、交互性强、更新速度快的互联网传播从根本上改变了传播者与受众之间的关系，是对传统新闻媒介的传播模式的解构和颠覆。在网络这个人们共同拥有的信息平台上，传播者和受众处于完全平等的地位，共同享有根据自己的需要选择信息的自由和发表意见与观点的权利。目前，网络新闻媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。新闻媒体作为社会舆论的工具，具有反映和引导社会舆论的功能，网络新闻媒体在反映和引导舆论方面也具有与传统新闻媒体同样的功能。对网络舆情进行分析与监控，有助于及时应对网络舆情，由被动防堵转化为主动梳理、引导，解决仅依靠人工的方法难以应对网上海量信息的收集和处理的情况。通过网络获得的某一方面热点、焦点的舆情信息，有大量是重复和相似的，这样人们就无法快速获得自己真正需要的信息。因此迫切需要一个帮助人们快速整理归纳的工具，该工具通过对相似文档集合的加工整理，对重要的、全面的信息进行汇聚，形成简明扼要的一篇文摘，直接提供给用户。网络舆情信息文摘系统可以从文本集中挖掘提炼出一个简洁、浓缩的文摘，从而提高人们获取信息的效率，其目的就是将具有相同主题的多篇文档去除冗余、生成简明的摘要。<；BR>；　　舆情摘要生成系统是网络舆情监控系统的一个子系统，舆情分析系统的核心技术在于舆情分析引擎，涉及的*主要技术包括信息采集、文本分类、聚类、观点倾向性识别、主题检测与跟踪、自动摘要等计算机文本信息内容识别技术。这些技术一向是国内外信息工作者关注的领域。<；BR>；　　近年来，一些学者和研究机构已经进行了一些重要的舆情分析方面的研究，取得了一定的研究成果。同时也存在一些不足，主要表现为：其一，将数理统计软件化来代替舆情分析判据科学性；其二，将经典概率理论简单图示化来代替舆情分析判据复杂性；其三，将热点、重点层面的分析代替舆情分析的深层性。例如，虽然强调主题检测和追踪（topic detection and tracking，TDT）技术，试图自动发现并追踪社会热点和焦点内容及舆情，但是分析模式仅停留在热点发现方面，难以深化。究其原因，在于该模式忽视互联网内容及舆情本身的性质和特点，忽视内容及舆情内在的深层结构和关系，忽视内容及舆情演化的规律和条件。虽然有些学者对舆情的内在特性进行了研究，并对热点、焦点等舆情问题给出了定义，但是给出的数学模型过于简化，而且对文本倾向性考虑不足。对舆情的大多数特点的研究还仅仅是在分析模式方面，没有可行的数学模型和关键点提取方案。<；BR>；　　国外研究主要是面对英文信息的处理。比较有代表性的系统有美国哥伦比亚大学的多文档自动文摘系统Newsblaster，其研究主要针对新闻领域，对每天发生的同主题新闻进行摘要。美国密歇根大学研究开发了WebInEssence，这是基于Web的个性化的多文档自动文摘和内容推荐系统。美国南加利福尼亚大学的信息科学研究所原型系统NEATS也是比较有名的多文档自动文摘系统。进行多文档自动文摘相关研究和开发的公司有Vivisimo公司、Infonetware公司等。这两个公司对搜索引擎返回的结果进行了有效的聚类整理。而文档聚类是多文档自动文摘的一个关键的预处理步骤。<；BR>；　　国内研究有Web数据挖掘（web data mining，WDM）、Web内容挖掘（web content mining，WCM）、Web结构挖掘（web structure mining，WSM）、Web用法挖掘（web usage mining，WUM）等技术。基于Web内容挖掘的相关技术有文本收集、中文分词、文本分类和聚类等，这些技术已逐步应用到舆情监控系统中。国内在单文档文摘上的研究相对比较深入，如东北大学、上海交通大学、中国科学院、哈尔滨工业大学等科研机构进行的研究。在多文档自动文摘方面，复旦大学开发了一个基于统计的文本自动综述系统，该方法利用文档内和文档之间段落的语义相关性，实现多文档的自动综述。在文档聚类方面，北京大学计算机科学与技术学院提出了一种快速的Web文档聚类方法：部分聚类分类系统（partial clustering and classification system，PCCS）。中国科学院的陈宁等提出了基于模糊概念图的聚类方法。中国科学院计算技术研究所的吴斌提出了基于群体智能的文档聚类方法。国内的研究产品有北大方正技术研究院的“方正智思舆情预警辅助决策支持系统”：整合互联网搜索技术及信息智能处理技术，通过知识管理的方法，对互联网海量信息进行自动抓取、自动分类、自动聚类、主题检测、专题聚焦，实现用户的网络舆情监测和新闻专题追踪，形成简报、报告、图表等分析结果。<；BR>；　　1.1 网络舆情信息挖掘概述<；BR>；　　当今世界已进入全新的网络时代，正如埃瑟戴森（Esther Dyson）指出的那样：数字化世界是一片崭新的疆土，既可以释放难以形容的生产能量，也可能成为恐怖主义者和江湖巨骗的工具，或是弥天大谎和恶意中伤的大本营；同时，它是一个虚弱的宣传工具，也是施展阴谋的好地方[1]。人们在接受并享用互联网这一革命性媒体所带来的便利的同时，也不得不承受种种负面影响。在运用科学的方法探讨网络舆论的传播、影响、监督及引导等重要工作之前，对国内外网络舆论研究的现状进行梳理和对未来研究的前景进行粗线条式、有针对性的描绘是一项基础性的工作。<；BR>；　　近代计算机和Internet技术的广泛应用使网络信息呈爆炸式增长，信息量的增长极大地促进了人们的沟通与交流，加快了人类社会的文明进程。但同时产生了消极影响：一方面，信息产生的速度远远超过人们对信息的利用能力，使人们在海量的信息面前无所适从，给广大用户造成时间、资金和精力的巨大浪费；另一方面，有害和无用的信息正在严重影响国际政治、军事、经济和金融等的安全与决策效率。为了有效利用海量信息，从中提取知识，以数据挖掘为代表的信息处理手段应运而生并得到空前发展。<；BR>；　　数据挖掘处理的是结构化的数据，其过程包括数据取样、特征提取、模型选择、问题归纳和知识发现。随着数据处理工具、先进数据库技术以及网络技术的迅速发展，大量形式各异的复杂类型的数据（如结构化与半结构化数据、超文本与多媒体数据）不断涌现。因此，数据挖掘面临的一个重要课题就是对复杂数据类型的挖掘，这包括复杂对象、空间数据、多媒体数据、时间序列数据、文本数据和Web数据。文本数据是*广泛出现、占**比例的半结构化数据，Web数据的基本构件也是文本数据。因此，如何处理海量文本数据、如何快速高效地为海量文本数据建立分类目录，以及如何为文档集建立索引机制是在数据挖掘方法应用之前需要解决的重要课题。<；BR>；　　1.2 网络舆情研究现状<；BR>；　　互联网以其传播的开放性、便捷性和交互性等特点赋予了普通民众更多的话语权，激发了民众的参与热情。频发的网络舆情事件闯进了决策者的案头，也引起了广大网络管理工作者和理论研究者的关注和重视。在网络舆情基础理论、网络舆情与网络舆情事件、网络舆情导控方面形成的丰硕成果为进一步深化网络舆情研究提供了丰富的理论视野与方法论指导。现对网络舆情的研究成果进行扼要梳理和回顾，以期增进人们对网络舆情的正确认识、引导和利用。<；BR>；　　1.2.1 网络舆情的概念、特点与成因<；BR>；　　王来华[2]、刘毅[3]认为舆情概念有狭义和广义之分。狭义上，舆情是指在一定的社会空间内，围绕中介性社会事项的发生、发展和变化，作为主体的民众对作为客体的国家或管理者产生和持有的社会政治态度，是公众对社会问题和现象的表达和反映。广义上，舆情是指由个人以及各种社会群体构成的公众在一定的历史阶段和社会空间内，对自己关心或与自身利益紧密相关的各种公共事务所持有的多种情绪、意愿、态度和意见交错的总和，包括民情、民力、民智、民意四个因素[3]。舆情和舆论既相互联系又存在一定区别。郑雯等[4]认为，不但“网络民意”不能简单等同于“民意”，目前流行的网络舆情报告也未能准确体现网络民意特点。现有的网络舆情调查和网络问卷/投票调查均可被归纳为“事件/议题”路径的测量方法，其聚焦短期效应，易掺杂进“被污染”的虚假民意，群体极化现象高发；相比而言，“中国网络社会心态调查（2014）”尝试了一种“人”的路径的测量方法，覆盖多元社会群体，从长期的、相对稳定的视角探讨网络用户的深层心态与实际意愿，其展现出的“网络民意”与基于事件/议题的“网络舆情”存在较大差别。研究发现，网络社会中的“温和中间派”和“理性大多数”比例**，也是我们争取网络民意的关键。曾润喜[5]认为网络舆情在实质上是人们借助舆论造势、道德约束来争夺话语权，是非理性的社会心理反映。<；BR>；　　从网络舆情的特点看，网络舆情以互联网为传播媒介，是社会现实问题在网络虚拟社会的反映。崔智慧[6]认为，新媒体的发展丰富了信息传播的形式、拓展了信息的传播主体，使参与主体符号化，改变了信息的传递范式，增强了舆论的互动。新媒体时代网络舆情的特点有：网络舆情主体的丰富性、网络舆情表达的自由性、网络舆情事件的突发性、网络舆情渠道的广域性。邸彦彪等[7]从网络舆情的形成特点与影响角度进行分析，认为网络舆情具有直接性、突发性、偏差性等特点。高原等[8]从网络舆情的理论属性角度进行了分析，认为“网络舆情是意识形态中非理性的社会心理的反映形式”，具有开放性、多元性、冲突性、情绪性等特点。刘毅[9]认为，网络舆情所具有的自由性与可控性、互动性与即时性、丰富性与多元性、隐匿性与外显性、情绪化与非理性、个性化与群体极化等基本特点，说明了网络舆情和网络传播的密切关系，说明了网络舆情与其他社会舆情既相互区别又相互联系。<；BR>；　　从这种意义上说，网络舆情的产生主要是源于人们对利益的诉求，源于现实的社会矛盾、个体意见和偶发事件激发的在网络虚拟社会中的观点与立场倾向的表达。张玉亮[10]认为，基于舆情主体心理的突发事件网络舆情生成原因主要有：主观焦虑的强化与放大，集群情绪渲染与个人理性的迷失，心理失衡与情感宣泄的交织与碰撞，政治不信任的累加与表达机制的失语。柳明[11]认为，网络舆情作为舆情的一个重要组成部分，是现实社会的舆论情境在互联网上的一种特殊的集中表达，而推进民生发展、维护法律公平和监督贪污腐败三大领域热点事件*受网民关注，因此充分了解民情、知晓民意，具有重要意义。他研究了网络事件成为舆情热点的原因：网上网下反复炒作，网上热点与现实生活交汇，是网络舆情成为热点的催化剂；网络“把关人”的严重缺失、网络的匿名性和随意性特点，对信息的发布者缺乏监督机制；一些网民在上网时发表的言论缺乏理性思考和正确判断，比较情绪化、感性化，甚至发表一些带有攻击性、反动性、侮辱性的言论。<；BR>；　　1.2.2 网络舆情的传播与导控<；BR>；　　网络舆情的主要传播途径有BBS、网络新闻、微信、微博、博客、聚合新闻、即时通信工具。由于信息传播快、用户数量大、人际交流互动性强，网络舆情的即时质变、裂变难以预测，给社会的稳定带来双面影响。<；BR>；　　从网络舆情导控层面看，郑国军[12]认为网络舆情具有“冰山效应”、舆情爆发的“火山效应”、舆情演变的随意性、主体的能力局限性和客体的非理性等特点。对其导控应坚持公众利益**原则、及时发布官方消息原则、快速应对焦点问题原则、内部口径统一处理原则及邀请第三方参与应对原则。王宏艳等[13]提出网络舆情应对四原则：未雨绸缪、积极主动；快速反应、协同应对；信息公开、沟通畅顺；科学规范、加强管理。兰月新等[14]用数学模型研究了突发事件网络舆情监测：潜伏期高潮预测、扩散期负面信息监测、消退期衍生舆情监测。对网络舆情监控的研究成果还有许多。<；BR>；　　1.2.3 高校网络舆情研究<；BR>；　　高校网络舆情是指作为校园主体的师生通过网络传播产生的舆情，以及社会各界对高校发展高