电子商务产品质量网络舆情分析与管控理论 PDF下载

编辑推荐

随着市场的快速发展，网络购物突破了时间和空间的限制，极大地丰富了人们的购物选择，降低了人们的购物成本，得到了越来越多的青睐，但网络购物市场中的商品质量问题越来越突出，已成为制约行业进一步发展的重要瓶颈之一。为更好解决电子商务产品质量问题，本著作有效利用现有电子商务产品质量风险监测结果的海量数据，通过数据分析方法、统计学理论和数据挖掘方法对现有电子商务产品质量风险监测数据进行数据降维、建模和SPASS数据分析，为电子商务产品质量风险监测部门提供政策建议和治理依据。；

内容简介

为了更好地分析电子商务产品质量舆情信息，本书有效利用网络爬虫技术获取网络热门话题的相关舆情信息，构建中文分词情感词库，分析公众的情感倾向，通过设计实现的电子商务产品质量舆情数据分析平台，掌握电子商务产品质量舆情信息的传播规律。本书基于信息服务供应链理论研究纵向一体化、市场化和网络化的电子商务产品质量监管模式；基于互联思维提出构建政府监管制度供给、生产企业产品监管、电商平台信息整合与信用环境培育下的多层次电子商务产品质量协同治理机制，为政府相关部门科学监测处置电子商务产品质量风险提供方法工具和理论依据。本书适合相关领域的研究人员、科技工作者、高年级的本科生与研究生使用。

作者简介

暂无

电子商务产品质量网络舆情分析与管控理论 PDF下载

目录
 ；
序Ⅰ
 ；
前言Ⅲ
 ；
第1章绪论
 ；
1.1研究背景
 ；
1.2研究意义
 ；
1.3研究现状
 ；
1.3.1网络购物市场中产品质量问题的
 ；
发生机理
 ；
1.3.2减少网络购物市场中产品质量
 ；
问题的途径
 ；
1.3.3网络舆情信息研究现状
 ；
1.3.4网络内容分析法研究
 ；
1.4研究技术路线
 ；
1.5小结
 ；
第2章电子商务产品质量管控理论
 ；
2.1产品质量管理理论
 ；
2.1.1产品质量概念
 ；
2.1.2质量管理的内涵和外延
 ；
2.1.3商业流通领域对产品质量的管理
 ；
2.2网络购物产品质量问题发生机理
 ；
2.2.1买方逆向选择行为
 ；
2.2.2卖方道德风险
 ；
2.3电子商务网络购物平台产品质量管控演化分析
 ；
2.4小结
 ；
第3章电子商务产品质量评论观点识别及情感倾向分析
 ；
3.1电子商务产品质量情感倾向词典构建
 ；
3.1.1中文分词方法
 ；
3.1.2领域情感词典构建
 ；
3.1.3程度副词词典构建
 ；
3.1.4否定词词典构建
 ；
3.1.5网络用语词典构建
 ；
3.2电子商务产品质量话题评论情感倾向分析
 ；
3.2.1文本情感特征项抽取算法
 ；
3.2.2语句情感特征权值计算
 ；
3.2.3电子商务产品质量评论情感倾向计算
 ；
3.3电子商务产品质量话题观点识别
 ；
3.3.1支持向量机
 ；
3.3.2观点识别过滤规则
 ；
3.3.3基于规则—SVM观点识别算法
 ；
3.4电子商务产品质量评论情感分析实验
 ；
3.4.1实验设置
 ；
3.4.2实验的评价指标
 ；
3.4.3话题相关领域情感词扩展实验结果
 ；
3.4.4观点识别实验结果
 ；
3.4.5话题评论情感极性分类结果
 ；
3.5小结
 ；
第4章电子商务产品质量的网络舆情监测分析系统
 ；
4.1电子商务网站商家商品评价舆情分析难点
 ；
4.2网络舆情信息获取采集子系统
 ；
4.2.1系统概述
 ；
4.2.2采集流程
 ；
4.2.3功能模块设计
 ；
4.3网络舆情数据预处理子系统
 ；
4.3.1系统概述
 ；
4.3.2预处理流程
 ；
4.3.3功能模块设计
 ；
4.4网络舆情分析子系统
 ；
4.4.1系统概述
 ；
4.4.2分析预测流程
 ；
4.4.3舆情分析功能模块设计
 ；
4.5电子商务产品质量舆情分析信息系统
 ；
4.5.1系统概述
 ；
4.5.2系统功能界面
 ；
4.6小结
 ；
第5章基于信息服务供应链理论的电子商务产品
 ；
质量管控研究
5.1信息服务供应链研究
 ；
5.1.1服务供应链的内涵
 ；
5.1.2服务供应链的基本框架
 ；
5.2电子商务产品质量产业供应链治理
 ；
5.2.1Williamson的企业边界理论
 ；
5.2.2Gereffi的产业链治理模型
 ；
5.2.3电子商务产业链纵向治理模式解析
 ；
5.3基于信息服务供应链的电子商务产品
 ；
质量监管体系
 ；
5.4小结
 ；
第6章基于互联网思维的电子商务产品质量管控研究
 ；
6.1电子商务产品质量管控措施
 ；
6.1.1在线信誉机制
 ；
6.1.2信息传递手段
 ；
6.1.3社会信用体系
 ；
6.2电子商务产品质量信用管理体系构建研究
 ；
6.2.1改善政策环境，完善电子商务产品
 ；
质量信用管理
 ；
6.2.2规范产品质量信用信息的收集、
 ；
使用、共享及发布
 ；
6.2.3培育、发展电子商务产品质量信用
 ；
评价的中介机构
 ；
6.2.4建立电子商务产品质量信用信息
 ；
披露机制
 ；
6.2.5加强企业质量信用文化建设，
 ；
培养全社会诚信意识
 ；
6.3基于互联网思维完善电子商务产品质量监管
 ；
6.3.1正确理解把握电子商务产品质量
 ；
监管的三个维度
 ；
6.3.2基于互联网技术创新电子商务产品
 ；
质量监管模式
 ；
6.4小结
 ；
参考文献

媒体评论

前沿

前言
互联网和大数据时代，如何分析消费者对电子商务产品质量的倾向性与观点，及时有效地发现突发事件的舆情信息，研究提高电子商务平台的舆情预防管理能力和政府相关部门的产品质量管控机制，是促进我国电子商务产业健康发展迫切需要解决的问题。本书首先介绍利用中文分词情感词库、网络爬虫等技术，设计并实现了一个电子商务产品质量舆情数据分析平台，通过爬取新浪、腾讯上热门话题的相关数据，分析公众对相关话题的情感倾向，掌握电子商务产品质量舆情信息传播规律。然后，基于信息服务供应链理论研究提出了纵向一体化、市场化和网络化三种纵向治理模式下的电子商务产品质量监管模式。最后，基于互联思维提出利用大数据、云平台等技术构建政府监管制度供给、生产企业产品监管、电商平台信息整合与信用环境培育下的多层次电子商务产品质量协同管控机制。本书由杭州电子科技大学柳毅副教授负责组织、编写和最终定稿工作。王晓耘教授、刘铁桥博士、黄时友等参与了本书相关章节的编写和舆情程序编写工作，杭州电子科技大学陈畴镛教授对本书进行了认真审阅，提出了许多建设性意见，使本书内容日臻完善，在此对他们所付出的辛勤劳动表示诚挚的感谢。同时，感谢浙江省哲学社会科学重点研究基地项目(编号：14JDXX02YB)、浙江省高校人文社科重点研究基地“管理科学与工程”项目(编号：ZX1402043040011006)为编写、出版本书提供的经费资助。本书在编写过程中，参考了部分图书、期刊和论文资料，在书后以参考文献的形式列出。大数据分析技术、舆情信息管理理论的飞速发展，时刻影响着电子商务产品质量网络舆情分析与管控理论的研究，尽管我们付出了很多的努力，但由于作者水平有限，加之时间仓促，书中难免存在不足之处，敬请读者和同行专家不吝赐教。柳毅2016年10于杭州电子科技大学

免费在线读

第3章电子商务产品质量评论观点识别及情感倾向分析
随着电子商务的快速发展，越来越多的人通过电子商务网站来了解产品信息、购买商品，并且通过评价表达自己购买商品过程中的感受、对购买商品的满意程度和相关建议要求。评价和打分等商品舆情信息是买家了解电子商务网站产品和商家服务的一种重要渠道和表达方式［60］。文本情感分析是对给出的文本的感情色彩进行分析、归纳的过程［61］，即判断一篇文本中观点持有者对某个事件或商品持有的正向、负向或中立的态度。它属于信息检索或者自然语言处理的范畴。目前，国内已有许多专家、学者根据实现的方法将舆情分析技术分为基于词的倾向性分析和基于机器学习的倾向性分析［62］。例如，杨震等人在网络舆情内容分析中，提出基于字符串相似性聚类的网络短文本舆情热点发现技术［63］。Kouloumpis等利用微博中的口语和网络语言来提高情感倾向分析的准确性［64］。3.1电子商务产品质量情感倾向词典构建在林鸿飞教授等［65］所构建的中文情感词汇本体库的基础上构建出对电子商务产品质量主题针对性强的情感倾向词典，包括电子商务产品质量主题领域词汇和对应的网络用语词汇，最终构建情感倾向词典，能更加全面地对电子商务产品质量数据进行情感倾向分析。3.1.1中文分词方法中文不像英文那样每个词汇之间由空格分开，需先进行分词才能进一步处理。本研究采用最大匹配算法对中文文本进行分词，该方法属于基于字符串匹配的分词方法，需要分词词典支持。分词词典本研究采用中科院ICTCLAS分词系统［66］，该词典搜集了日常生活中使用频率较高的56008个词汇，基本能够满足分词的需要。在特征选择方法上，本研究采用了情感词典作为特征选择的依据，所以在分词过程中，将与电子商务产品质量主题领域相关的词汇以及网络用语添加到分词系统ICTCLAS的词典中，其中最大匹配的步长设置为四个汉字，只对中文内容进行分词处理，将其并集作为分词词典的结果，更加有效合理。本研究提出使用情感词典对文本进行表示，这个过程在中文分词阶段就能完成，不需要单独的特征选择步骤。文本处理流程如图3.1所示。
在构建适合于电子商务产品质量话题型的领域情感词典时，需要从评论中获取和话题相关的领域性词汇。为此，本研究通过搜狗细胞词库获取和话题相关的领域词汇，在对电子商务产品质量话题型评论文本进行分词中，向中科院分词系统加入领域词汇，进一步词频分析，然后通过预处理删除一些无关的字词和符号，最后通过和已有的情感词典进行匹配，筛选出和话题相关的领域词汇。

图3.1文本处理流程

3.1.2领域情感词典构建由于在不同话题微博评论中，往往会出现很多和微博话题相关的情感词汇，这些词汇不包含在基础情感词典中，但是却富含和情感相关的信息，对微博评论情感分析具有很重要的影响。例如，“#房价问题#现在房价太高了，有的新房没多少年就坍塌了！”，这句关于房价问题的微博话题评论中的“坍塌”词汇是基础情感词典中不具备的，但是却明显表明了关于房子的态度和想法。因此，本研究从搜狗细胞词库以及互联网搜集常见富含情感的网络用语，构建适合电子商务产品质量话题的领域情感词典。在构建领域词典时，同样需要利用基础情感词典计算领域词语的情感倾向和情感强度，具备更多情感词数量的基础情感词典将有效地提高领域词典的构建精确度。因此，本研究在林鸿飞教授等人所构建中文情感词汇本体库的基础上，对其进行修改和调整，构建适合话题型电子商务产品质量的基础情感词典。在情感词汇本体中，一般的格式如表3.1所示。

表3.1情感词汇本体格式举例

词语词性
种类词义数词义
序号主要情感分类主要
强度主要
极性辅助情感分类辅助
强度辅助
极性
脏乱Adj11NN72———臭名昭彰idiom11NN92———周到adj11PH51———言过其实idiom11NN52———
在构建情感倾向词典时，本研究采用中文情感词汇本体库的情感分类、情感强度两个维度，将基础情感词情感极性分为三类：正面情感、中立情感、负面情感。在情感强度中，中立情感用0表示，正面情感用正号表示，负面情感用负号-表示，情感强度分为-9，-7，-3，-1，0，1，3，5，7，9，其中9表示正面情感倾向程度最大，-9为负面情感倾向程度最大。由于中文情感词汇本体库缺乏中性情感词，本研究收集相关中性词语加入中文情感词汇本体库。最终得到正面情感词语10541个，负面情感词语10102个，中性情感词语4127个。具体示例如表3.2所示。

表3.2基础情感词典举例

极性权值基础情感词示例
正面［1,9］雅兴、怡悦、致敬、敬佩、高兴、喜欢负面［-9,-1］脏乱、糟糕、早衰、责备、悲伤、哭泣中立0一般、中立、平庸、无功无过、平淡
由于在汉语中，很多词语（多数为动词和形容词）存在一词多义的现象，在不同的话题领域中，一些词语的语义和情感极性有所不同。需要采取相应的方法，减少这方面因素影响情感分类精确度。例如，卢苇提出构建不受领域主题影响的中文基础情感词典［67］。但是这样的方法有一定缺陷：构建不受主题领域影响的基础情感词典，将会导致大量情感词被排除在外，导致基础情感词典过小，需要大量的人工参与。通过对话题型评论文本的研究，发现针对某一话题评论时，受话题领域影响的基础情感词是很小部分的。因此，为了减少人工参与量，并且增加基础情感词典中的基础词语数量，本研究针对话题型评论情感分析研究时，根据不同的话题，通过词频分析结合人工识别找出受该话题影响的词语，对基础情感词典进行一些调整。3.1.3程度副词词典构建程度副词是副词组成之一，主要用于修饰动词和形容词，改变词语情感的强弱。大多数用户直接用情感词表达观点和情感，并且常常使用程度副词来加强或减弱自己的情感。因此，程度副词也是影响情感的重要情感特征项之一。例如评论： “#房价问题#房价有一点点高”，评论中，“一点点”程度副词影响了评论句中的观点和情感。由此可见，程度副词的使用确实影响了评论中的情感倾向程度。本研究在构建程度副词词典时，参考游建平等人对程度副词的四个分类：低量、中量、高量、极量，选用知网提供的中文程度级别词语，一共219个［68］。同时参考宋静静对程度副词的权值设置进行改进，将程度副词权值范围设置为［0.5,2］，最终得到低量级别41个、中量级别37个、高量级别42个、极量级别99个［69］。具体示例如表3.3所示。

表3.3程度副词举例

级别权值程度副词示例
低量0.5多多少少、略加、一点、有些、稍许中量1.0进一步、较为、更加、愈发、越高量1.5多多、分外、实在、特别、尤其极量2过分、过猛、极度、非常、绝对

3.1.4否定词词典构建否定词是对行为或状态进行否定的副词。主要用于修饰动词、形容词。文本中出现否定词，将会影响被修饰情感词的极性。例如，若否定词个数为2a 1个，则被修饰情感词的极性将会相反；若否定个数为2a，则被修饰情感词的极性不变。在电子商务产品评论中，网民经常使用否定词来支持或否定一些事物。例如，“#房价问题#房价又涨了，很不高兴！”这句话中“高兴”表达正面情感，但是用否定词“不”修饰“高兴”后，这条关于房价问题的评论情感从正面情感转变为负面情感。因此，在分析电子商务产品评论情感时，需要构建合理的否定词词典，并赋予其权值为-1。本研究采用郝雷红提出的31个否定副词［70］。具体示例如表3.4所示。

表3.4否定副词举例

否定副词示例权值个数
白、甭、别、不、不必、不曾、不要、不用、非、干、何必、何曾、何尝、何须、空、没、没有、莫、徒、徒然、枉、未、未曾、未尝、无须(无须乎、无需、毋须)、毋庸(无庸)-131

3.1.5网络用语词典构建网络用语伴随着网络的发展而兴起，大量的网络词汇诞生，被广大网民熟知和使用。电子商务平台作为一种新兴社交媒体，已成为网民传播信息最为火热的工具。由于网络语言的魅力，电子商务产品质量评论文本包含大量网络用语，而这些网络用语往往具有强烈的情感倾向。尤其在话题型微博评论中，绝大多数网民更加倾向使用具有情感性的网络词汇。目前网络用词的类型有数字型、字母型、同音型等。例如，正面情感的网络用语有狂顶、大神、hold住等，负面情感的网络用语有菜鸟、555等。本研究从搜狗细胞词库以及互联网搜集常见富含情感的网络用语，最终采用人工判断的方法，给网络权值赋值，设置权值范围［-9,9］。具体示例如表3.5所示。；

表3.5网络用语举例

极性网络用语示例权值数目
正面情感大神、hold住、完爆、我顶［1,9］85负面情感菜鸟、呜呜、弱爆了［-9,-1］106
3.2电子商务产品质量话题评论情感倾向分析本研究采用情感词典对电子商务产品质量评论文本进行情感分类，建立高质量的情感词典，有效地保留了情感相关特征项之间的关系，考虑了情感词本身存在情感强度的因素。3.2.1文本情感特征项抽取算法本研究在上下文滑动算法基础上，将词性规则、情感词典、平滑算法相结合，对电子商务产品质量话题型评论的情感相关特征项(情感词、程度副词、否定词、表情符号、网络用语、评价对象)进行抽取。经过分词之后，评论文本转变为词汇序列串。上下文滑动窗口，是指在上下文环境中，以某一词为中心，向前和向后推进n个字或词，形成一个队列缓存区。通过上下文滑动窗口，考查词的词法层特征，包括局部词、局部词性、局部共现、词类搭配等。若文本为{t1,t2,…，tm}(m≥2n 1)，t表示文本中的词语，则以词语W为中心窗口建立大小为n的上下文滑动窗口，左窗口LW可表示为(LW1,LW2,…，LWn)，右窗口RW可表示为(RW1,RW2,…，RWn)。由于情感词的修饰词不会超过三个，故文本设定滑动窗口大小为3。在具体抽取与情感词相关的否定词、程度副词时，面对评论中时常出现多个情感词的情况，文本以词性规则锁定某一情感词，然后通过上下滑动算法，对其相关的否定词和程度副词进行抽取，以适应具体特征性抽取环境。1. 情感词、程度副词、否定词和评价对象的抽取在文本中程度副词和否定词为情感词的修饰词语，由于这两类修饰词通常离情感词最近，对情感词有重要影响，因此，文本采用上下文滑动窗口来抽取评论中每一个情感词组合单元时，设定滑动窗口大小的取值为3。具体算法如表3.6所示。

表3.6情感词、程度副词、否定词和评价对象的抽取算法

输入：话题评论文本集合D={D1,D2,D3,…,Dn}，词典资源(情感词典、程度副词词典、否定词典、评价对象词典)，四个标点集合{，，。，!，?}输出：情感词组合单元集合T及其评价对象集合EO特征抽取算法描述：（1）循环取出评论Di∈D（2）将Di根据标点集合划分为j份评论（3）根据一般用语习惯，在查找情感词时，从左到右查找情感词。如果Dij评论包含词性为动词或者名词的词语，则通过情感词典进行匹配，假设找到m个情感词，标记位置，获取其权值，并记住每个情感词位置，将第k个情感词标记为EWijk中心（4）以情感词EWijk为中心抽取程度副词、评价对象过程中，设置以下规则：如果抽取到程度副词、评价对象，那么抽取相应的特征项结束，接下来抽取其他特征项，或者利用平滑算法抽取，遇到其他情感词则换个方向抽取特征项（5）以情感词EWijk为中心，在Dijk内抽取程度副词、否定词、评价对象。采用上下文滑动算法，左右距离为3，按照一般用语习惯，从情感词的左到右，使用程度副词词典、否定词典抽取副词AWijk、否定词PNijk，并获取程度副词的权值以及否定词的个数。将Dij的情感组合单元添加到集合Tij中（6）对Dij抽取评价对象时，结合使用词性规则，设置以下规则：如果情感词EWijk的词性为动词，则采用上下文滑动算法，从情感词的右到左查找，利用评价对象词典，对词性为名词的评价对象Oijk进行抽取，并获取对应的权值，添加到集合EO中；如果情感词EWijk的词性为形容词，则采用上下文滑动算法，从情感词的右到左查找，利用评价对象词典，对词性为名词的评价对象进行抽取，并获取对应权值。在对Dij评论内容进行抽取对象时，会遇到两个评价对象或者无评价对象的情况，设置评价对象的选择规则： ①如果以词性为形容词的情感词EWijk为中心，抽取到两个权值极性相反的评价对象时，选择第一个抽取到的评价对象，并将该评价对象Oij添加到集合EO。②如果以词性为动词的情感词EWijk为中心，抽取到两个权值极性相反的评价对象时，选择第二个抽取到的评价对象，并将该评价对象Oij添加到集合EO。③如果以情感词EWij为中心，抽取到两个权值极性一样的评价对象时，选择权值较小的评价对象。④如果在第Dij份评论内容中没有指明评价对象，那么默认其评价对象为第i-1份评论内容中的评价对象。如果i为1，且没有评价对象，那么默认评价对象为话题本身
2. 网络用语的抽取网络用语经过分词后，通过网络用语词典，对分词后的每条评论进行匹配抽取网络用语并得到权值。具体算法如表3.7所示。

表3.7网络用语的抽取算法

输入：话题评论文本集合D={D1,D2,D3,…,Dn}，词典资源(网络用语词典)输出：网络用语集合NL（1）循环取出评论D1∈D（2）使用网络用语词典匹配D1，抽取网络用语NLi并获取其权值，添加到网络用语集合NL
3. 表情符号的抽取表情符号经过分词后，通过表情符号词典，对分词后的每条评论进行匹配抽取表情符号并得到权值。具体算法如表3.8所示

表3.8表情符号的抽取算法

输入：话题评论文本集合D={D1,D2,D3,…,Dn}，词典资源(表情符号词典)输出：表情符号集合EM（1）循环取出评论D1∈D（2）使用表情符号词典匹配D1，抽取表情符号EMi并获取其权值，添加到表情符号集合EM
电子商务产品质量话题型评论经过预处理、分词以及词性标注等情感特征项抽取处理后，通过平滑算法、结合词性规则、情感词典三者相结合，以情感词为中心，逐渐提取情感词、否定词、程度副词、评价对象、网络用语等情感特征项。3.2.2语句情感特征权值计算特征权值是指特征词在文本中的权重，也可称为词的向量，是分类器分类的重要依据。本研究使用词频、布尔型(Boolean)两种权值进行情感分类对比。一般在分词处理完成后就可以计算特征权值，然后特征选择后输入分类器。使用情感词典作为特征选择时，因为分词时可以完成特征选择，所以特征权值计算在特征选择之后进行。该模块的主要功能是计算电子商务产品质量语句的情感倾向值。在情感计算过程中，每条电子商务产品质量语句情感由情感词的情感和表情符号的情感构成。在情感词情感计算中，否定词对情感词存在正反意义的作用，若否定词个数为2a 1个，则用相反意义的词汇替代；若否定个数为2a，则情感词不变，程度副词对情感词的情感强弱具有增减作用。由于表情符号和情感词一样能体现情感倾向，因此将文字句子的权重α取为0.5，表情符号的权重β取为0.5。本研究通过改进陈晓东［71］提出的微博情感倾向计算公式，得到每条电子商务产品质量评论的情感值计算公式如下所示：
S=α∑m1（-1）NjCjMj ∑w1Wk β∑s1Oi(3.1)

其中，m为情感词个数，Mj为该条电子商务产品质量评论中第j个情感词，Cj为修饰情感词Mj的程度副词，Nj为修饰情感词Mj的否定词，w为网络用语个数，s为表情符号个数。本研究将每条电子商务产品质量语句情感值计算结果分为三大类：正面情感倾向、中立倾向、负面情感倾向。3.2.3电子商务产品质量评论情感倾向计算本研究选取和电子商务产品质量情感有关的特征项，获取每个特征项相应的权值，最后作求和运算，得到每条评论的情感倾向值，从而判断其情感倾向。在情感计算过程中，将每条电子商务产品质量语句情感分为两部分构成：一部分为文字表述情感；另一部分为表情符号情感。文字表述情感包括情感词及其修饰词构成的情感和网络用语的情感。表情符号的情感包括表情图片和输入法表情符号。对评论文本进行数据预处理之后，本研究抽取了情感词、否定词、程度副词、评价对象、网络用语、表情符号情感特征项，并通过构建好的词典获取特征项的权值。

本研究对每条话题电子商务产品质量评论，按照标点符号进行分割，假设分割成n个句子，即一条评论Di将会有n个句子Di1，Di2，Di3，…，Din，那么评论di的情感值由n个句子的情感值构成，并且在Din内只选择一个评价对象。在情感词情感计算中，否定词对情感词存在正反意义的作用，若否定词个数为2a 1个，则用相反意义的词汇替代；若否定个数为2a，则情感词不变，程度副词对情感词的情感强弱具有增减作用，评价对象对评论的极性也存在影响。在Dij句子中，1≤j≤n，情感词个数为m，网络用语为NLi，表情符号为EMi，评价对象为Oij，情感词为EWij，程度副词为AWij，否定词个数为PNij。Dij句子中第k(1≤k≤n)个情感词情感值的计算公式如下：
WEijk=［(－1)PNijkAWijk×EWijk］(3.2)

其中，EWijk表示第k个情感词的权值，AWijk表示修饰第k个情感词的程度副词的权值，PNijk表示修饰k个情感词的否定词的个数。Dij句子中文字表述情感值的计算公式如下：
WEij=Oij∑mk［(－1)PNijkAWijk×EWijk］(3.3)
其中，Oij表示Dij句子的评价对象，m表示情感词的个数。Di句子文字表示情感值的计算公式如下：
WEi=∑njOij∑mk(－1)PNijkAWijk×EWijk
∑wsNLis(3.4)
其中，n表示Di分为n个字句，m表示Di句子中表情符号的个数，NLis表示第s个网络用语。本研究认为表情符号和情感词一样能体现情感倾向，因此，将句子中文字表示情感值的权重α取为0.5，表情符号的权重β取为0.5。每条话题电子商务产品质量评论Di句子的总情感值计算公式如下：
WEi=α∑njOij∑mk(－1)PNijkAWijk×EWijk ∑wsNLis
β∑zhEMih(3.5)

3.3电子商务产品质量话题观点识别目前观点句识别的方法主要还是采用机器学习。基于机器学习的方法通过提取观点特征，然后训练分类器，最后得到合适的模型来进行观点识别。这种方法割裂了文本中应有的词语间的相互联系，不够灵活全面，无法应用于复杂和灵活的句子。基于规则的观点识别是对语言的表达习惯进行归纳总结，具有较高的准确率，但是其应用范围有限，并且也不适合大规模文本数据。本研究通过规则判断和机器学习相结合，首先对评论数据集进行观察，根据语言特点，归纳了一些置信度较高的观点判别规则，将明显属于观点句或是属于非观点句的句子提前进行筛选，然后通过机器学习的方法，通过训练分类器将剩余的句子分为观点句和非观点句两类，最终提高观点识别的效率和准确率。3.3.1支持向量机支持向量机(Support Vector Machine，SVM)是Cortes和Vapnik于1995年首先提出的，在小样本、非线性、高维模式识别问题中，相对于其他算法有较大的优势。并且它是建立在统计学习理论的VC维理论和结构风险最小理论基础上的，寻求最优间隔分类器(Optimal Margin Classifier)。支持向量机是一种常用的用于二分类的监督式学习方法，其主要思想可以概括为两点： (1) 它是针对线性可分情况进行分析，对于线性不可分的情况，通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分，从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。(2) 它基于结构风险最小化理论之上，在特征空间中建构最优分割超平面，使得学习器得到全局最优化，并且在整个样本空间的期望风险以某个概率满足一定上界。例如，针对线性问题，使用SVM构建一个简单的线性分类器，用一个简单的二维两类样本分类例子说明，如图3.2所示。

图3.2简单的线性分类

图3.2中间的直线是一个分类函数，它对C1和C2两类样本进行划分。这是一个线性函数，在分类过程中，附加一个阈值，通过判断分类函数的执行结果是大于还是小于这个阈值来确定类别。假设这个函数是g(x)=wx b，设置阈值为0，若g(xi)>0，则判别为类别C1；若g(xi)<0，则判别为类别C2。此时也等价于给函数g(x)附加一个符号函数sgn()，即f(x)=sgn［g(x)］是真正的判别函数。
对于非线性的情况，把样本从低维度空间映射到高维度空间，将原来的非线性问题转换为线性问题。升维会加大计算的复杂度，甚至引起维度灾难，SVM通过核函数有效解决了这个问题。因此，针对非线性问题，SVM的处理方法是选择一个核函数，通过将数据映射到高维空间来解决在原始空间线性不可分的问题，最终找到一个最佳分离超平面对样本进行分类，如图3.3所示。

图3.3线性可分情况下的最优分类线

图3.3中圆形和方形代表两类样本，H为分类线，H1、H2分别为各类样本中离分类线最近的样本并且平行于分类线的直线，它们之间的距离叫做分类间隔。其中，超平面记为(w,x) b=0，设(x1,y1),(x2,y2),…,(xn,yn)，x∈Rm，y∈{-1, 1}为给定样本训练集。其中，n代表训练样本的数目，m代表训练样本的维数。通过寻找最优分类面，使得分类间隔最大。
通常选择不同的核函数，可以生成不同的SVM，常用的核函数有以下四种： (1) 线性核函数K(x,y)=x·y。(2) 多项式核函数K(x,y)=［(x·y) 1］d。(3) 径向基函数K(x,y)=exp(-|x-y|2/d2)。(4) 二层神经网络核函数K(x,y)=tanh(a(x·y) b)。在自然语言处理领域中，支持向量机广泛应用于词义消歧、文本自动分类、信息过滤等方面。文献［72］进行对比实验表明支持向量机的分类方法效果最佳，分类精确度最高达到83%；文献［73］实验表明在训练集规模较大的情况下，使用支持向量机分类方法明显优于其他分类方法。因此，本研究采用支持向量机融合情感特征向量对文本进行文本观点判别。3.3.2观点识别过滤规则本研究通过对评论数据集的观察，设置非观点过滤规则如下：规则1：句子中包含超链接，缺少情感词语等直接和观点识别相关信息，可以判断为非观点句。规则2：句子中包含大量数字、乱码、特殊符号等无效信息，可以判断为非观点句。规则3：句子中没有与话题相关的评价对象，但是存在和话题无关的评价对象，例如天气、心情、推销等，可以判断为非观点句。规则4：仅含有标签，没有实际信息的句子，可以判断为非观点句。由于电子商务产品评论内容简短且用语不规范，用户表达观点的方式多样。在设置观点过滤规则中，一般认为只要评论包含与电子商务产品质量话题相关的评价对象，那么该条评论就属于话题相关的评论。如果评论中抽取不到任何评价对象，那么默认为话题本身。因此，本研究通过对评论数据集的观察，设置观点过滤规则如下：规则1：包含与电子商务产品质量话题相关的评价对象的句子，可以判断为观点句。例如： #鼠标#不灵敏、不好用！规则2：包含网络情感词、情感词且句子中有评价对象，这样的句子可以判断为观点句。例如： #鼠标#不灵敏、不好用、太可恶了！规则3：包含表情符号且句子中有评价对象，这样的句子可以判断为观点句。例如： #鼠标# ［伤心］［哭泣］文本在使用SVM分类器进行观点识别之前，基于规则进行观点识别，流程如图3.4所示。

图3.4基于规则的初步观点识别

3.3.3基于规则—SVM观点识别算法孙建旺等人研究表明：在中文文本数据集和英文文本数据集中，使用集中典型的文本分类算法，进行性能比较分析，实验结果显示，SVM算法在精确度方面最高，但是所需的时间开销最大［74］。由于文本分析的话题评论是小规模评论文本，因此不考虑开销时间，最终选择规则与SVM结合的观点识别算法。

对于一个文本di进行预处理后可以将该文本表示为di ={ti1, ti2, ti3,…, tin}(t表示特征，i表示特征的数量)和该文本所属类别ci，则文本数据集可表示为D={( d1, c1), (d2, c2), (d3, c3),…,( dm, cm)}和数量m，其中m表示数据集中文本的数量。基于规则—SVM算法描述如下：输入：文本数据集D={(d1, c1), (d2, c2), (d3, c3),…,(dm, cm)}和数量m。输出：分类结果F(di)，F(di)∈C。
(1) 将文本数据集转换成SVM模型。(2) 计算SVM模型中每一个特征的信息增益值IG(T)，所得的值保存在一个特征集合中。(3) 对该特征集合进行排序，并删除小于0的值。(4) 根据新的特征集合重新建立VSM模型。(5) 选择SVM分类器的数量。(6) 对于每一个SVM分类器，从新的特征集合中随机生成一个特征子空间样本。(7) 使用SVM分类器对特征子空间样本进行分类。(8) 结合每个SVM分类器结果，最终的输出由多数投票或通过组合后得出。经过本研究设置的规则进行观点识别之后，剩余评论通过SVM分类器进行观点分类。具体步骤：先选取一部分评论文本作为训练样本，并且以句子为单位进行标注。在预处理中使用中科院ICTCLAS分词系统对语料进行分词和词性标注，然后进行特征抽取，通过特性项将句子以向量表示，对SVM分类器进行训练，得到分类模型，最后对剩余评论文本进行观点分类。具体流程如图3.5所示。

图3.5基于SVM的观点识别具体流程

3.4电子商务产品质量评论情感分析实验3.4.1实验设置本研究数据来自于数据堂提供的电子商务产品质量话题型评论文本数据。数据堂是国内专业的科研数据共享服务平台，并且和各大高校、研究机构、企业相互合作，搜集大量的专业和高质量数据，为各种类型用户提供了各种数据需求，将数据价值充分发挥。目前，数据堂的数据库包含语音识别、健康医疗、交通地理、电子商务、社交网络、图像识别、统计年鉴、研发数据等多样化的数据类型，而且还提供更加专业的数据定制服务。为避免由于单一话题评论的特殊而导致实验的误差本研究选择房价问题、iPhone4手机两个话题领域的微博评论文本；为增加实验结果的合理性，每个话题评论数量各3000条。在下面的各个实验中，以人工计算为标准进行对比，选用四名志愿者对3000条数据进行人工标注。3.4.2实验的评价指标为验证本研究提出的方法相比以往情感分析方法的有效性，分别通过人工分类、本研究构建的情感倾向计算模型、现在比较成熟的武汉大学研发的内容挖掘软件中的ROST_EA［75］情感分析这三种方式分析两类评论数据的情感倾向，并且以人工计算为标准进行对比。采用两种常用的指标，即准确率(Precision)和召回率(Recall)。准确率指的是测试集中与人工计算结果一致的文本占所有测试集中文本数量的比例，计算公式如下：
准确率（Precision）=判断正确的类别数目判断为该类别的数目(3.6)

召回率指的是测试集中与人工计算结果一致的文本占测试集中所有被人工判定为该类的样本的比例，即被正确预测的样本占所有属于该类样本数量的比例，计算公式如下：
召回率（Recall）=判断正确的类别数目应判断为该类别的数目(3.7)

3.4.3话题相关领域情感词扩展实验结果本研究从中文情感词汇本体筛选出基础情感词一共24770个，其中正面情感基础情感词10541个，负面情感基础情感词10102个，中性情感基础情感词4127个，构建适用于话题的情感倾向词典，对情感词赋予情感强度。本研究针对两个话题构建领域情感词典，两个话题领域词汇包含的词汇数量：房价问题218个，iPhone4手机领域词汇271个。通过人工标注，得出两个话题领域词典的极性准确率如表3.9所示。

表3.9两个话题领域词典极性准确率

评价指标
话题
房价问题iPhone4手机

准确率0.8820.905
由表3.9的结果可以看出：文本构建领域词典的效果较好，具有较高的极性准确率。在构建房价问题领域词典时，准确率相对稍低，主要原因在于房价问题的话题存在一词多义和反语的情况，导致计算相似度过程中，将负面情感词汇误判为正面情感词汇。3.4.4观点识别实验结果对电子商务产品质量评论文本进行观察，发现评论文本中存在不少和话题无关的非观点句。因此，在进行情感分类之前，进行观点识别。本研究采用规则过滤和SVM算法相结合，首先通过设置的过滤规则，将表现明显的非观点句和观点句筛选出来。然后，选取一部分话题评论，作为训练样本，通过训练SVM分类器，得到一个合理的分类器，对剩余评论文本进行观点识别。对电子商务产品质量话题评论进行观点识别时，以人工标注为参考。本研究采用我国台湾大学林智仁教授等开发的易于使用和有效的SVM软件包。目前该软件包已经拥有多个版本，包括Java、MATLAB、C、C#等，软件包可以被编写的程序直接调用。为了体现采用规则和SVM算法相结合方法的有效性和合理性，本研究通过和直接采用SVM算法进行对比，具体两种方法的实验结果如表3.10所示。

表3.10两个话题评论观点识别结果

方法
话题
房价问题iPhone4手机
准确率召回率F1值准确率召回率F1值
本研究方法0.8310.7960.7920.8720.8370.854SVM算法0.7630.7840.7730.8160.7830.799

从表3.10可以看出：采用规则过滤和SVM算法相结合，确实比直接采用SVM算法进行分类的效果好一些。两种方法的各个指标并不是非常高，这和评论文本进行数据预处理中分词和词性标注的准确率有关，不合理的分词会导致有些关键的信息无法被抽取，并且也受特征抽取算法的影响。最后房价问题、iPhone4手机两个话题经过本研究观点识别之后，得到的观点句数量分别为1034条、1115条。3.4.5话题评论情感极性分类结果文本进行话题评论情感极性分类是建立于观点识别的基础上。通过观点识别之后，对评论文本进行预处理，使用已经构建好的词典，对电子商务产品质量话题情感相关的特征项进行抽取，并获取相应的权值，最后根据电子商务产品质量评论情感计算公式判断其情感极性。为验证本研究构建情感词典和评论情感计算方法的有效性及合理性，设计两个实验进行对比，最后实验结果以人工标注为标准。人工分类结果如表3.11所示。

表3.11两个话题评论人工极性分类结果

话题正面情感数目中性情感数目负面情感数目总数目
房价问题1371857121034iPhone4手机4152244561115
在实验一中，实验采用的情感词典包括基础情感词典、程度副词词典、否定词词典、表情符号词典、评价对象词典。评论文本情感判断方法还是采用本研究的情感计算公式。实验结果如表3.12所示。

表3.12实验一极性分类结果

话题评估指标正面情感中性情感负面情感
房价问题准确率0.7180.6860.728召回率0.7150.6780.736F1值0.7160.6820.732iPhone4手机准确率0.6970.6610.708召回率0.6910.6720.712F1值0.6940.6660.710
在实验二中，实验采用的情感词典包括基础情感词典、程度副词词典、否定词词典、表情符号词典、话题领域词典、评价对象词典。评论文本情感判断方法还是采用本研究的情感计算公式。实验结果如表3.13所示。

表3.13实验二极性分类结果

话题评估指标正面情感中性情感负面情感
房价问题准确率0.7410.7090.762召回率0.7370.7140.743F1值0.7390.7110.752iPhone4手机准确率0.7730.7010.751召回率0.7620.7240.758F1值0.7670.7120.754
在实验三中，实验采用的情感词典包括基础情感词典、程度副词词典、否定词词典、表情符号词典、话题领域词典。评论文本情感判断方法还是采用本研究的情感计算公式，但是去掉评价对象影响因素。实验结果如表3.14所示。

表3.14实验三极性分类结果

话题评估指标正面情感中性情感负面情感
房价问题准确率0.6570.6730.645召回率0.6410.6820.637F1值0.6490.6770.641iPhone4手机准确率0.6740.6860.686召回率0.6700.6730.675F1值0.6720.6790.680
(1) 通过实验一和实验二的结果对比，发现电子商务产品质量话题领域词典的加入确实可以提高评论情感分类的准确率。并且话题所包含的领域词汇越多，对评论的情感分类影响就越大，这说明话题领域词语包含评论情感信息，越具专业性的话题包含越多的专业领域词汇，对评论的情感分类具有很大的影响作用。因此，领域情感词典构建的完整度和准确性将会影响评论情感分类的准确率。在负面情感方面，评论数量相对较高，这是因为用户针对某个电子商务产品质量话题评论时负面情感居多。相对而言，负面情感评论分类效果较好。(2) 通过实验二和实验三的结果对比，针对电子商务产品质量话题，考虑到评价对象对电子商务产品质量评论语句的影响，引入评价对象词典，评论相对于电子商务产品质量话题的情感分类准确率确实有所提高。以往电子商务产品质量评论情感分析中，只考虑和情感相关的特征项，缺乏考虑评价对象。由于电子商务产品质量话题评论往往由多个字句构成，在不同字句中评价的对象常常不同，表达的情感极性也不同，如果还是按照以往不对评价对象加以区分，那么对评论句的情感分类容易造成错误。针对评论中具有多个不同的评价对象的情况，应该考虑评论相对于电子商务产品质量话题的极性。因此，应构建评价对象词典，将评价对象考虑到评论的情感极性分类中。3.5小结电子商务产品的评论信息对于电子商务产品质量舆情监测具有极大的参考价值。为准确评价电子商务产品质量评论的情感强弱程度，计算电子商务产品质量情感倾向度，本章提出改进以往情感词典中不区分情感词情感强弱的缺陷，构建计算电子商务产品质量评论情感倾向度分类模型，并通过数据验证该模型的科学准确性。最后用支持向量机对互联网上电子商务产品质量评论进行文本情感分类研究。实验表明基于支持向量机的分类器能够有效提高电子商务产品质量评论主题型情感分类准确性，具有分类速度快、健壮性强等特点。