欢迎光临
免费的PDF电子书下载网站

开放网络知识计算——模型、方法与应用 PDF下载

编辑推荐

该书是作者五年多的时间里研究成果的系统性介绍,全书从概率论、图论、矩阵分析、组合优化等开放网络知识计算所需的基础知识讲起,系统性介绍了开放知识网络的知识库快速构建、知识更新与融合、隐含知识推断与知识的时序预测的模型方法与技术,并通过开放网络知识库和应用系统,介绍了多种开放知识网络的典型应用案例。 ;

内容简介

网络大数据是指“人、机、物”三元世界在网络空间(cyberspace)中彼此交互与融合所产生并在互联网上可获得的大数据,简称网络数据。本书提出了开放知识网络的概念,以概率论、图论、矩阵分析、组合优化等为模型基础,给出了一套从开放知识的感知与获取、开放知识的融合与更新、开放知识的推断与预测,到开放知识计算引擎的构建及系统应用的开放知识处理流程。深入探讨了开放知识网络的建模与计算方法,并通过开放网络知识库和应用系统,介绍了典型应用案例,全面、系统地展示了本领域*的研究成果和进展。 本书可作为计算机、通信、信息等相关专业的教师、研究生和大学高年级学生的教材或教学参考书,也可供行业大数据分析、商业情报挖掘、语义检索、知识问答等方面的研究人员和工程技术人员参考。

作者简介

暂无

开放网络知识计算——模型、方法与应用 PDF下载

目录

开放网络知识计算——模型、方法与应用目录

第一部分网络大数据中的开放知识

第1章网络大数据

1.1网络大数据

1.2网络大数据研究的意义

1.3网络大数据带来的挑战

1.3.1网络大数据的复杂性

1.3.2网络大数据的不确定性

1.3.3网络大数据的涌现性

1.4网络空间感知与数据表示

1.4.1网络大数据的感知与获取

1.4.2网络大数据的质量评估与采样

1.4.3网络大数据的清洗与提炼

1.4.4网络大数据的融合表示

1.5网络大数据存储与管理体系

1.5.1分布式数据存储

1.5.2数据高效索引

1.5.3数据世系管理

1.6网络大数据挖掘和社会化计算

1.6.1基于内容信息的数据挖掘

1.6.2基于结构信息的社会化计算

1.7网络数据平台系统与应用

1.7.1网络大数据平台引擎建设

1.7.2网络大数据下的高端数据分析

1.7.3网络大数据的应用

1.8研究展望

1.9本章小结

参考文献

第2章开放网络知识

2.1概述

2.2开放网络知识库构建

2.2.1知识库构建

2.2.2多源知识的融合

2.2.3知识库的更新

2.3基于开放网络知识库的信息检索

2.3.1意图感知

2.3.2查询扩展

2.3.3语义问答

2.4基于开放网络知识库的数据挖掘

2.4.1线索挖掘

2.4.2关系推理

2.4.3关系预测

2.5研究展望

2.6本章小结

参考文献

第二部分模型 理 论

第3章概率论

3.1概述

3.2概率

3.3条件概率和全概率公式

3.3.1条件概率

3.3.2全概率公式

3.4贝叶斯定理

3.5本章小结

参考文献

第4章图论

4.1概述

4.2有向图与无向图

4.3完全图、稀疏图与二部图

4.3.1完全图与稀疏图

4.3.2二部图

4.4子图与树

4.5路径与连通性

4.5.1路径

4.5.2连通性

4.6图的邻接矩阵

4.7图的遍历

4.7.1DFS遍历

4.7.2BFS遍历

4.8本章小结

参考文献

第5章矩阵分析

5.1概述

5.2矩阵基本概念

5.3矩阵的基本运算

5.4矩阵的分解

5.5本章小结

参考文献

第6章组合优化

6.1概述

6.2图的匹配

6.2.1匹配的相关概念

6.2.2最大匹配

6.2.3最大权匹配

6.3背包问题

6.3.1分支限界法

6.3.2贪婪近似算法

6.3.3模拟退火算法

6.3.4多项式时间近似方案

6.3.5其他背包问题

6.4本章小结

参考文献

第7章开放知识网络

7.1开放知识网络的表示方法

7.1.1可演化的知识网络模型

7.1.2知识网络的分布式表示

7.1.3知识网络的增量表示

7.2开放知识网络表示的性质

7.2.1收敛性

7.2.2可增量性

7.3本章小结

参考文献

第三部分计算 方 法

第8章开放网络知识库的构建方法

8.1概述

8.2概念抽取方法

8.2.1相关工作

8.2.2基于词向量的领域概念抽取方法

8.2.3实验与结果分析

8.3属性抽取方法

8.3.1开放文本属性抽取方法

8.3.2实验与结果分析

8.4关系抽取方法

8.4.1相关工作

8.4.2基于多句特征的领域概念间关系抽取方法

8.4.3基于概念相似度的潜在领域关系推断方法

8.4.4实验与结果分析

8.5概念细化方法

8.5.1方法概述

8.5.2划分属性的挖掘

8.5.3实验结果

8.6本章小结

参考文献

第9章知识融合与更新方法

9.1概述

9.2实体融合方法

9.2.1相关工作

9.2.2基于依赖图联合推断的融合方法

9.2.3实验与分析

9.3关系融合方法

9.3.1相关工作

9.3.2基于实体关系嵌入的融合方法

9.3.3实验与分析

9.4类别融合方法

9.4.1基于复合结构的融合方法

9.4.2基于集成排序的融合方法

9.5自适应更新方法

9.6本章小结

参考文献

第10章知识推断方法

10.1概述

10.2静态关系推断

10.2.1相关工作

10.2.2融合结构与内容的关系推断

10.3非时序动态关系推断

10.3.1相关工作

10.3.2融合时间信息的关系推断

10.4本章小结

参考文献

第11章知识预测方法

11.1关系预测

11.1.1相关工作

11.1.2基于开放知识网络的关系预测

11.2实体预测

11.3本章小结

参考文献

第四部分系统与应用场景

第12章知识库与知识分析系统

12.1概述

12.2Freebase知识库

12.2.1Freebase的构建

12.2.2Freebase的融合与更新

12.2.3Freebase的知识计算

12.2.4Freebase的典型应用

12.3Yago知识库

12.3.1Yago的构建

12.3.2Yago的融合与更新

12.3.3Yago的知识计算

12.3.4Yago的典型应用

12.4Probase知识库

12.4.1Probase的构建

12.4.2Probase的融合与更新

12.4.3Probase的典型应用

12.5Knowledge Graph知识计算系统

12.5.1Knowledge Graph的构建

12.5.2Knowledge Graph的典型应用

12.6Knowledge Vault知识计算系统

12.6.1Knowledge Vault的构建

12.6.2Knowledge Vault的融合与更新

12.6.3Knowledge Vault的知识计算

12.6.4Knowledge Vault的典型应用

12.7Palantir

12.7.1Palantir的构建

12.7.2Palantir的知识计算

12.7.3Palantir的典型应用

12.8NELL

12.8.1NELL的构建

12.8.2NELL的应用

12.9开放网络知识库构建技术的评价

12.9.1相关工作

12.9.2开放网络知识库构建技术的多维指标体系

12.9.3开放网络知识库构建技术的多维量化评价方法

12.9.4实验

12.10本章小结

参考文献

第13章开放网络知识计算引擎OpenKN

13.1OpenKN的整体架构

13.2OpenKN的自适应性

13.3OpenKN的演化计算

13.3.1可演化知识网络

13.3.2OpenKN的演化计算算子库

13.4本章小结

参考文献

第14章应用场景分析

14.1概述

14.2人物谱系关系画像与分析

14.2.1背景与意义

14.2.2分析流程

14.2.3演示样例

14.3领域事件的演化态势分析

14.3.1背景与意义

14.3.2分析流程

14.3.3演示样例

14.4新闻语义推荐

14.4.1背景与意义

14.4.2分析流程

14.4.3演示样例

14.5本章小结

参考文献

前沿

网络大数据是指“人、机、物”三元世界在网络空间(cyberspace)彼此交互与融合所产生并在互联网上可获得的大数据,简称网络数据。当前,网络大数据在规模与复杂度上的快速增长对现有IT架构的处理和计算能力提出了挑战。网络大数据包含大量有价值的信息,根据其产生方式的不同可以分为Web内容数据、Web结构数据、自媒体数据和日志数据等。这些有价值的信息往往会通过某些属性或关系互相关联,这些反映相互关系的链接整合起来就是一个网络。这个网络中的数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的实时性强。数据自身的信息、数据间的关联信息以及网络的结构特征等都隐藏在这样的数据网络中,网络大数据往往以复杂关联的数据网络这样一种独特的形式存在。有效利用网络大数据的主要任务不是获取越来越多的数据,而是对数据去冗分类、去粗取精,从数据中挖掘知识,对大数据网络后面的知识进行深入分析。 ;面对复杂关联、动态变化、来源多样的网络知识,建构开放网络知识的有效模型是一个重要基础,它应该支持对开放网络知识自适应的感知、增量的更新、自动或半自动的新知识抽取等,并具有较为完备的基础理论支撑。同时,从应用角度,开放网络知识计算需要建立一套算子体系,实现面向领域的开放网络知识库的快速构建,并更好地支持知识演化、多源知识融合、隐性知识推断和时序知识预测等一系列问题的解决。本书主要以概率论、图论、矩阵分析、组合优化等为模型基础,深入探讨了开放知识网络的建模与计算方法,并通过开放网络知识库和应用系统,介绍了典型应用案例。本书共14章,从结构上可分为4个部分。第一部分主要介绍研究对象,包括第1章网络大数据和第2章开放网络知识。其中,在第1章网络大数据中,介绍了网络大数据研究体系,从网络空间感知与数据表示、网络大数据存储与管理体系、网络数据挖掘和社会化计算以及网络大数据平台系统与应用4个方面回顾了相关领域的新近发展,探讨了网络大数据研究方向和所面临的挑战,并展望了网络大数据的主要研究方向。在第2章开放网络知识中,对当前国内外知名的开放网络知识库以及其支持的应用进行了分析和论述,并从开放网络知识库的构建以及基于开放网络知识库对信息检索与数据挖掘方面的应用方法和技术现状进行了综述,最后,展望了开放网络知识计算的应用和发展方向。第二部分主要介绍开放网络知识计算的模型研究所需的基础理论和针对开放网络知识计算提出的模型方法。包括第3章概率论基础、第4章图论基础、第5章矩阵分析基础、第6章组合优化知识等基础理论知识。在此基础上,第7章给出了开放知识网络模型的表示方法、理论分析与证明。第三部分介绍基于开放知识网络模型的知识计算方法,包括开放知识网络的构建、知识的融合与更新、知识推断和知识预测等知识计算的全生命周期。包括第8章~第11章。其中,第8章开放网络知识库的构建方法,包括开放文本中的领域概念抽取、实体属性抽取、实体关系抽取、领域概念的细化等;第9章从实体融合、关系融合、类别融合、自适应更新4个方面介绍知识融合与更新方法;第10章介绍的知识推断方法包括静态关系的推断和非时序动态关系的推断两个方面;第11章解决知识的预测问题,即给出时序的动态关系的知识推断方法。第四部分介绍开放网络知识计算系统和应用场景。包括第12章~第14章。其中,第12章介绍现有的知识库与知识分析系统,包括早年由Metaweb公司创建的Freebase知识库、德国马普研究所的Yago知识库、微软公司的Probase知识库、谷歌公司的基于Knowledge Graph的知识计算系统、谷歌公司的基于Knowledge Vault的知识计算系统、大数据公司Palantir的知识计算系统、卡耐基梅隆大学的NELL系统以及国内知名知识库和知识系统。针对现有的知识库构建技术缺乏有效的评价标准的问题,最后,给出了开放网络知识库构建的多维指标体系与量化评价方法。第13章将给出开放知识计算引擎,即OpenKN的整体架构与特点,以应对网络大数据下知识计算的实际需求。第14章将从人物谱系关系画像与分析、领域事件的演化态势分析、新闻语义推荐3个方面,分别探讨开放知识网络的应用场景与实际应用效果。本书可供计算机、通信、信息等相关专业的教师、研究生和大学高年级学生作为教材或教学参考书,也适合大数据分析、商业情报挖掘、语义检索、知识问答等方面的研究人员和工程技术人员阅读使用。本书涉及的研究工作得到了国家自然科学基金项目(No.61572469,No.61402442,No.61602467)和国家重点基础研究发展计划“973”项目(No.2014CB340400)和北京市自然科学基金项目 (No.4154086)等的资助,在此表示深深的谢意!中国科学院计算技术研究所的硕士研究生赵泽亚、李晓静、常雨骁、陈新蕾、蔡朋杉、李曼玲、仇韫琦、苏家林等人参与了本书的材料收集、撰写和排版等工作,在此一并表示感谢。由于作者水平所限,加之开放知识计算方法的研究和应用仍处于不断发展和变化之中,书中错误和不足之处在所难免,恳请读者予以指正。开放网络知识计算——模型、方法与应用前言
作者〖〗2017年5月

免费在线读

第一部分网络大数据中的开放知识
“人、机、物”三元世界融合的网络空间(cyberspace)中的网络大数据存在数据规模巨大、数据关联复杂、数据状态演变等显著特征。其规模和复杂度的增长远远超出了符合摩尔定律增长的机器处理和计算能力。网络大数据带来了宝贵的机遇,同时也存在着巨大挑战。本书的第一部分包括第1章网络大数据和第2章开放网络知识。在第1章网络大数据中,介绍了网络大数据研究体系,从网络空间感知与数据表示、网络大数据存储与管理体系、网络数据挖掘和社会化计算以及网络大数据平台系统与应用4个方面回顾了相关领域的新近发展,探讨了网络大数据的研究方向和所面临的挑战,并展望了网络大数据的主要研究方向。在第2章开放网络知识中,对当前国内外知名的开放网络知识库及其支持的应用进行了分析和论述,并从开放网络知识库的构建以及基于开放网络知识库对信息检索与数据挖掘方面的应用方法和技术现状进行了综述,最后,展望了开放知识网络及其应用的未来发展方向。

第1章网络大数据近年来,随着互联网、物联网、云计算、三网融合等IT与通信技术的迅猛发展,数据的快速增长成为许多行业共同面对的严峻挑战和宝贵机遇,可以说信息社会已经进入了大数据(big data)时代。大数据的涌现不仅改变着人们的生活与工作方式、企业的运作模式,甚至还引起科学研究模式的根本性改变。第1章网络大数据开放网络知识计算——模型、方法与应用1.1网络大数据一般意义上,大数据是指无法在一定时间内用常规机器和软/硬件工具对其进行感知、获取、管理、处理和服务的数据集合[1]。网络大数据是指“人、机、物”三元世界在网络空间彼此交互与融合所产生并在互联网上可获得的大数据,简称网络数据。当前,网络大数据在规模与复杂度上的快速增长对现有IT架构的处理和计算能力提出了挑战。著名咨询公司IDC发布的研究报告指出,未来全球数据总量年增长率将维持在50%左右,到2020年,全球数据总量将达到40ZB(1Z=1021)。网络大数据中包含大量有价值的信息,根据其产生方式的不同可以分为Web内容数据、Web结构数据、自媒体数据、日志数据。其中,Web内容数据主要是通过互联网网页产生和发布的数据,它既可以是文字、文本、消息,也可以是图片音视频等,以及HTML、Java scripts、Interstitial间隙窗口、Microsoft Netshow、Flash等所产生或解析的数据。如今,Web内容数据量呈指数级增长,例如检索网页的总量达500亿,在线图书网页达7.5亿,其中,英文维基百科数量达427万个页面,中文百科数据达900万个页面。Web内容数据的特点既包括数据量巨大、内容信息丰富,还具有动态更新快,多源异构等特点。Web结构数据是指Web页面间的结构数据,主要包括页面间的超链接关系和Web的组织结构。伴随着Web内容数据的增长,Web页面间的链接关系也呈现出大规模增长的趋势。自媒体数据主要是指通过以Facebook、Twitter等为代表的社交网络中产生的用户生成数据(user generated content, UGC),具有空前的规模性和群体性,数据总量巨大,数据变化非常快。1min内,Twitter上新发的数据量超过10万条;Facebook用户每天分享的内容条目超过25亿个,数据库中的数据每天增加超过500TB。此外,自媒体数据还具有十分复杂的内在关系,超过10亿的Facebook用户的好友关系和超过5亿的Twitter用户之间的关注关系构成了极为复杂的关系网络。日志数据主要指各种网上服务提供商积累的系统和用户操作的日志记录,比如Google、百度等搜索引擎提供商积累的用户搜索行为日志等。此类数据的特点是,具有大量的历史性数据,同时数据增速极快、数据访问吞吐量巨大。以Google为例,目前有超过200个谷歌文件系统GFS(Google File System)集群在运行,而每个集群有1000~5000台机器,每个GFS都存储着高达5PB的数据;成千上万台机器需要的数据都从GFS集群中检索,这些集群中数据读写的吞吐量可高达40GB/s,每天都在产生着富含大量知识的数据。IBM将大数据的特点总结为3个V,即大量化(volume)、多样化(variety)和快速化(velocity)。首先,网络空间中数据的体量不断扩大,数据集合的规模已经从GB、TB到了PB,而网络大数据甚至以EB和ZB等单位来计数。IDC的研究报告称,未来10年全球大数据将增加50倍,管理数据仓库的服务器的数量将增加10倍,以迎合50倍的大数据增长http://www.emc.com/。其次,网络大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据。在现代互联网应用中,呈现出非结构化数据大幅增长的特点,至2012年末,非结构化数据占有比例达到互联网整个数据量的75%以上。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新技术的不断涌现和应用。再次,网络大数据往往呈现出突发涌现等非线性状态演变现象,因此难以对其变化进行有效的评估和预测。另一方面,网络大数据常常以数据流的形式动态、快速地产生,具有很强的时效性,用户只有把握好对数据流的掌控才能充分利用这些数据。近几年,网络大数据越来越显示出巨大的影响力,正在改变着人们的工作与生活。2012年11月《时代》杂志撰文指出奥巴马总统连任成功背后的秘密,其中的关键是对过去两年来相关网络数据的搜集、分析和挖掘http://swampland.time.com/。目前,eBay的分析平台每天处理的数据量高达100PB,超过了纳斯达克交易所每天的数据处理量。为了准确分析用户的购物行为,eBay定义了超过500种类型的数据,对顾客的行为进行跟踪分析http://www.chinacloud.com/。每年的互联网购物季,都发生着大规模的商业活动,其中,在“双十一”期间,天猫淘宝系网站的销售总额已经突破千亿元人民币。淘宝之所以能应对如此巨大的交易量和超高并发性的分析需求,得益于对往年的情况,特别是用户的消费习惯、搜索习惯以及浏览习惯等数据所进行的综合分析http://server.51cto.com/。网络大数据给学术界也同样带来了巨大的挑战和机遇。网络数据科学与技术作为信息科学、社会科学、网络科学、系统科学等相关领域交叉的新兴学科方向正逐步成为学术研究的新热点。近年来,“Nature”和“Science”等刊物相继出版专刊来探讨对大数据的研究。2008年,“Nature”出版专刊“Big Data”,从互联网技术、网络经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据带来的挑战[2]。2011年,“Science”推出关于数据处理的专刊“Dealing with data”,讨论了数据洪流(data deluge)所带来的机遇[3]。特别指出,倘若能够更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用。1.2网络大数据研究的意义总体而言,网络大数据研究的重要性体现在以下几个方面。(1) 网络大数据对捍卫国家网络空间的数字主权、维护社会稳定、推动社会与经济可持续发展有着独特的作用。信息化时代,国家层面的竞争力将部分体现为一国拥有网络大数据的规模、活性以及对数据的解释与运用的能力。国家在网络空间的数字主权也将是继海、陆、空、天这4个空间之后另一个大国博弈的空间。在网络大数据领域的落后,意味着失守产业战略制高点,意味着国家安全将在网络空间出现漏洞。为此,2012年3月,美国政府整合6个部门投资2亿美元启动“大数据研究和发展计划”。在该计划中,美国国家科学基金会提出要“形成一个包括数学、统计基础和计算机算法的独特学科”。该计划还强调,大数据技术事关美国的国家安全,影响科学研究的步伐,还将引发教育和学习的变革。这意味着网络大数据的主权已上升为国家意志,直接影响国家和社会的稳定,事关国家的战略安全。(2) 网络大数据是国民经济核心产业信息化升级的重要推动力量。“人、机、物”三元世界的融合产生了大规模的数据,如何感知、测量、利用这些网络大数据成为国民经济中许多行业面临的共同难题,成为这些行业数字化、信息化的障碍和藩篱。如何使不同行业都能突破这一障碍,关键在于对网络大数据基本共性问题的解决。譬如,对于非结构化数据的统一表示与分析,目前缺少有效的方法和工具。因此,通过对网络大数据共性问题的分析和研究,使企业能够掌握网络大数据的处理能力或者能够承受网络大数据处理的成本与代价,进而使整个行业迈入数字化与信息化的新阶段。从这个意义上看,对网络大数据基础共性问题的解决将是新一代信息技术融合应用的新焦点,是信息产业持续高速增长的新引擎,也是行业用户提升竞争能力的新动力。(3) 网络大数据在科学和技术上的突破,将可能诞生出数据服务、数据材料、数据制药等战略性新兴产业。网络数据科学与技术的突破意味着人们能够理清数据交互连接产生的复杂性,掌握数据冗余与缺失双重特征引起的不确定性,驾驭数据的高速增长与交叉互连引起的涌现性(emergence)[4],进而能够根据实际需求从网络数据中挖掘出其所蕴含的信息、知识甚至是智慧,最终达到充分利用网络数据价值的目的。涌现性是指由低层次的多个元素构成高层次的系统时展示出的每个单一元素所不具备的性质。网络数据不再是产业环节上产生的副产品,相反地,网络数据已成为联系各个环节的关键纽带。通过对网络数据纽带的分析与掌握,可以降低行业成本、提升行业效率和生产力。因此,可以预见,在网络数据的驱动下,行业模式的革新将可能催生出数据材料、数据制造、数据能源、数据制药等一系列战略性的新兴产业。(4) 大数据引起了学术界对科学研究方法论的重新审视,正在引发科学研究思维与方法的一场革命。科学研究最初只有实验科学,随后出现了理论科学,研究各种定律和定理。由于在许多问题上,理论分析方法变得太过复杂以至于难以解决难题,人们开始寻求模拟的方法,这又产生了计算科学。而大数据的出现催生了一种新的科研模式,即面对大数据,科研人员只需从数据中直接查找、分析或挖掘所需要的信息、知识和智慧,甚至无需直接接触被研究的对象。2007年,已故的图灵奖得主吉姆·格雷(Jim Gray)在他最后一次演讲中描绘了数据密集型科学研究的“第四范式(The Fourth Paradigm)”[5],把数据密集型科学从计算科学中单独区分开来。格雷认为,要解决所面临的某些最棘手的全球性挑战,“第四范式”可能是唯一具有系统性的方法。网络大数据的深入挖掘、大规模利用是新兴产业界的立足点。即便针对大数据的研究目前还没有建立一套完整的理论体系,也缺少高效快速的处理、分析与挖掘的算法与范式,但大数据的应用前景毋庸置疑,因为大数据从根本上来说就是来源于应用的问题。著名出版公司OReilly的创始人Tim OReilly断言,大数据就是下一个Intel Inside,未来属于那些能把数据转换为产品的公司和人群。麦肯锡全球研究院(McKinsey Global Institute,MGI)的研究报告也宣称,大数据是下一代革新、竞争力和生产力的先导,网络大数据可为世界经济创造巨大价值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益。1.3网络大数据带来的挑战如上所述,网络大数据面临着来自诸多方面的挑战。但从研究的角度来说,根本挑战在于其复杂性、不确定性和涌现性。对这3个基本特性的研究决定着网络大数据的发展趋势、研究进展和应用前景。1.3.1网络大数据的复杂性复杂性造成网络大数据存储、分析、挖掘等多个环节的困难。网络大数据的复杂性主要包括数据类型的复杂性、数据结构的复杂性和数据内在模式的复杂性。(1) 数据类型复杂性信息技术的发展使得数据产生的途径不断增加,数据类型持续增多。相应地,则需要开发新的数据采集、存储与处理技术。例如,社交网络的兴起,使得微博、SNS个人状态信息等短文本数据逐渐成为互联网上的主要信息传播媒介。与传统的长文本不同,短文本由于长度短,上下文信息和统计信息很少,给传统的文本挖掘(如检索、主题发现、语义和情感分析等)带来很大的困难。相关的研究包括利用外部数据源(如Wikepedia[6],搜索结果[7]等)扩充文档,或者利用内部相似文档信息来扩充短文本的表达[8]。然而,无论是利用外部数据,还是利用内部数据,都可能引入更多的噪声。另一方面,不同数据类型的有机融合给传统的数据处理方法带来了新的挑战。例如在社交媒体的研究当中,地域信息与内容的融合[9]、时空信息与内容信息的结合[10],等等。(2) 数据结构的复杂性传统上处理的数据对象都是有结构的,能够存储到关系数据库中。但随着数据生成方式的多样化,如社交网络、移动计算和传感器等技术,非结构化数据成为大数据的主流形式。非结构化数据具有许多格式,包括文本、文档、图形、视频,等等。非结构化数据当中蕴含着丰富的知识,但其异构和可变性质也给数据分析与挖掘工作带来了更大的挑战。与结构化的数据相比,非结构化数据相对组织凌乱,包含更多的无用信息,给数据的存储与分析带来很大的困难。目前相关的研究热点,包括开发非关系型数据库(如Google的BigTable,开源的HBase等)来存储非结构化数据。Google提出了MapReduce计算框架,Facebook等公司在此基础上实现了Hadoop、Hive之类的分布式架构,对非结构化数据做基本的分析工作。(3) 数据模式的复杂性随着数据规模的扩大,描述和刻画数据的特征必然随之增大,而由其组成的数据内在模式将会以指数形式增长。首先,数据类型的多样化决定了数据模式的多样化。不仅需要熟悉各种类型的数据模式,同时也要善于把握它们之间的相互作用。这种面向多模式学习的研究需要综合利用各个方面的知识(如文本挖掘、图像处理、信息网络,甚至社会学,等等)。为此,Han提出用网络来描述异质数据间的关系,同时提出了“元路径(metapath)”的概率来刻画目标数据模式[11]。这样,通过定义合适的元路径,便可在数据网络中挖掘有价值的模式。其次,非结构化的数据通常比结构化数据蕴含更多的无用信息和噪声,网络数据需要高效、鲁棒的方法来实现去粗取精,去冗存真。搜索引擎就是从无结构化数据中检索出有用信息的一种工具。尽管搜索技术在工业上已经取得极大的成功,但仍然存在很多不足(如对一些长尾词的查询,对二义性查询词的理解等),都有待长足的进步。另外,网络大数据通常是高维的,往往会带来数据高度稀疏与维度灾难等问题。在这种情况下,由于数据模式统计的显著性较弱,以往的统计学习的方法大多针对高频数据模式挖掘,因此难以产生令人满意的效果。近年来,受实际应用驱动,高维稀疏问题成为统计学习领域的热点问题[12]。相关理论研究发现,基于稀疏表达的学习方法(如LASSO等),在获得较好学习效果的同时,还具有更高的效率和鲁棒性[13]。1.3.2网络大数据的不确定性不确定性使得网络数据难以被建模和学习,从而难以有效利用其价值。网络数据的不确定性包括数据本身的不确定性、模型的不确定性和学习的不确定性。(1) 数据的不确定性原始数据的不准确,以及数据采集处理粒度、应用需求与数据集成和展示等因素使得数据在不同维度、不同尺度上都有不同程度的不确定性。传统的侧重于准确性数据的处理方法,难以应对海量、高维、多类型的不确定性数据。具体而言,在数据的采集、存储、建模、查询、检索、挖掘等方面都需要有新的方法来应对不确定性的挑战[14]。近年来,概率统计的方法被逐步应用于不确定性数据的处理中。一方面,数据的不确定性要求使用不确定的方法加以应对;另一方面,计算机硬件的发展也为这类方法提供了效率、效能上的可能。目前,该领域研究尚浅,在学术界和产业界尚有大量问题亟待解决。(2) 模型的不确定性数据的不确定性要求对数据的处理方式能够提出新的模型方法,并能够把握模型的表达能力与复杂程度之间的平衡。在对不确定数据的建模和系统设计上,最常用且朴素的观点是“可能世界模型”[15]。该观点认为,在一定的结构规范下,应将数据的每一种状态都加以刻画。但该种模型过于复杂,难以用一种通用的模型结构来适应具体的应用需求。在实际应用中,往往采取简化的模型刻画不确定性数据的特性,如独立性假设、同分布假设,等等。尤其值得注意的是,概率图模型[16]由于具有很强的表达能力而且可对数据相关性进行建模,因此已被广泛应用在不确定数据的建模领域。另外,在数据的管理和挖掘上,不确定性模型的构建应当考虑到数据的查询、检索、传输、展示等方面的影响[17]。(3) 学习的不确定性数据模型通常都需要对模型参数进行学习。然而,在很多情况下找到模型的最优解是NP问题,甚至找到一个局部最优解都很困难。因此,很多学习问题都采用近似的、不确定的方法来寻找一个相对不错的解。但在大数据的背景下,传统的近似的、不确定的学习方法需要面对规模和时效的挑战。随着多核CPU/GPU的普及以及并行计算框架的研究,分而治之的方法被普遍认为是解决网络大数据问题的一条必由之路。如何将近似的、不确定的学习方法拓展到这种框架上成为当前研究的重点。近年来,不少高校和研究机构,在该领域进行了一定的探索。如在矩阵分解运算中对数据进行分块的计算方法能够利用多台机器并行计算,从而提高数据的处理速度[18,19]。此外,除了学习模型参数值的不确定外,模型的复杂性和参数个数也受到不同领域、不同数据类型和应用需求的影响而不能提前确定。近年来,在统计学习领域,非参模型方法的提出[20,21]为自动学习出模型复杂度和参数个数提供了一种思路。但该类模型计算上较为复杂,如何分布式、并行地应用到网络大数据的处理上,还是一个开放问题。1.3.3网络大数据的涌现性涌现性是网络数据有别于其他数据的关键特性。涌现性在度量、研判与预测上的困难使得网络数据难以被驾驭。网络数据的涌现性主要表现为模式的涌现性、行为的涌现性和智慧的涌现性。(1) 模式的涌现性在多尺度、异质关系的网络数据中,由于不同的数据在属性、功能等方面既存在差异又相互关联,因此使网络大数据在结构、功能等方面涌现出了局部结构所不具备的特定模式特征。在结构方面,数据之间不同的关联程度使得数据构成的网络涌现出模块结构。在功能方面,网络在演化过程中会自发地形成相互分离的连通小块[2224]。这一涌现性结果对于研究更多的社会网络模型和理解网络瓦解失效的发生有重要意义。(2) 行为的涌现性随着数据采集技术的不断发展,人们得到的很多数据都具有时序性,而社会网络中个体行为的涌现性则是基于数据时序分布的统计结果。在社会网络中有较大相似性的个体之间容易建立社会关系。通过研究Schelling给出的个体社会关系网络模型发现,网络在演化过程中会自发地形成相互分离的连通块,这一个体行为涌现的结果不依赖于初始网络的拓扑结构,对于研究更多社会网络模型和理解行为涌现的规律具有重要意义[25]。著名的网络科学家Barabasi研究发现,人们发邮件的数量在一天的某些时刻会出现“爆发”现象,并发现每个人连发两封邮件之间的时间间隔涌现出幂率分布特征。此外,自然界和社会中个体之间不同的竞争模式会导致不同的同步状态的涌现性。(3) 智慧的涌现性网络数据在没有全局控制和预先定义的情况下,通过对来自大量自发个体的语义进行互相融合和连接而形成语义,整个过程随着数据的变化而持续演进,从而形成网络数据的涌现语义,也可以称之为智慧涌现。作为一种特殊的智慧涌现形式,众包正在通过互联网和社会网络快速发展, 成为一种新的商业模式、新的数据产生模式和新的数据处理协作模式。总体而言,尽管与网络大数据研究密切相关的数据库、数据挖掘、机器学习、知识工程等领域近些年来都有很大的进展,甚至在许多不同的领域得到了深入的应用,但是,由于网络大数据规模海量、关系复杂等根本特性,使得相关领域的研究成果难以被直接借鉴于网络大数据的研究。因此,网络大数据的研究需要一套全新的理论和方法来进行方向性的指导。但到目前为止,甚至连大数据的精确定义还缺乏一个统一的标准。网络大数据科学与技术这门学科的内涵和外延还缺乏严格的限定和翔实的论证;在大数据的环境下,传统的“假设、模型、检验”的科学方法受到质疑,从“数据”到“数据”的第四范式还没有建立,需要一个完备的新的理论体系来指导该学科的发展和研究。1.4网络空间感知与数据表示网络数据具有跨媒体关联、强时效演变、多主体互动等特点,使得对网络大数据的态势感知、质量评估、融合表示等均面临新的问题。1.4.1网络大数据的感知与获取按照网络空间中数据的蕴藏深度,整个网络空间可以划分为Surface Web和Deep Web[26],或称作Hidden Web[27]。Surface Web是指Web中通过超链接可被传统搜索引擎爬取到的静态页面,而Deep Web则由Web中可在线访问的数据库组成。Deep Web的数据隐藏在Web数据库提供的查询接口后面,只有通过向查询接口提交查询才能获得。与 Surface Web相比,Deep Web所包含的信息更丰富。同时,Deep Web具有规模大、实时动态变化、异构性、分布性以及访问方式特殊等特点。为了充分利用Deep Web中的数据资源,需要充分获取Deep Web中高质量的数据并予以集成,整个集成过程可以分为数据获取、数据抽取和数据整合这3个环节。1.4.2网络大数据的质量评估与采样对网络空间中多源数据进行质量评估,一方面需要建立数据模型或提出适当的采样方法;另一方面,需要提出对采样数据的评价与检验方法。网络数据采样是将数据从Web数据库提取出来的过程。传统的数据库采样是随机地从数据库中选取数据记录以获得数据库的统计信息的过程,典型方法可参考文献[2830]。但是要获取Web数据库中的数据只能通过向查询接口提交查询,不能自由地从Web数据库获取记录,故而传统方法不能实现对Web数据库的采样。针对Web数据库采样,HIDDENDBSAMPLER[31]是第1项工作,它给出了对范围属性和分类属性的处理方法,而对查询接口中设计的必填的可任意取值的关键词属性未作处理。文献[32]提出基于图模型的增量式Web数据库采样方法WDBSampler,通过查询接口从Web数据库中以增量的方式获取近似随机的样本。但是该方法是针对样本中每条数据作为顶点来建立图模型,每一轮查询后都要将查询结果扩充到图模型中用于产生下一轮查询词,这样做的代价比较高。1.4.3网络大数据的清洗与提炼由于现实世界数据的多源性、异质性以及采集数据时的一些人工错误,导致网络数据是含有噪音、冗余和缺失的。如何有效地衡量数据的质量是一个重要的研究方向。文献[33]定义了衡量数据质量的4个指标: 一致性、正确性、完整性和最小性。文献[34]提出了数据工程中数据质量的需求分析和模型,认为存在很多候选的数据质量衡量指标,用户应根据应用的需求选择其中一部分。数据的清洗建立在数据质量标准之上,为了得到高质量的数据,清洗与提炼过程必须满足几个条件: 检测并除去数据中所有明显的错误和不一致;尽可能地减小人工干预和用户的编程工作量,而且要容易扩展到其他数据源;应该和数据转化相结合;要有相应的描述语言来指定数据转化和数据清洗操作,所有这些操作应在一个统一的框架下完成。对于数据清洗,工业界已经开发了很多数据抽取、转化和装载工具(如ETL tool)[35]。一些研究人员研究相似重复记录的识别和剔除(如文献[34,36]),还有一些研究包括数据的变换和集成(如文献[37,38])。1.4.4网络大数据的融合表示对网络数据的建模和表达理论方面的研究,主要集中在网络中的文本信息方面。对文本信息进行表示和建模的目的是让计算机能够正确理解人类的语言,能够分析和表达出其中的语义信息。文本信息的表达经历了从浅层词语表达方式到深层语义表达方式这样一个历程,其中代表性的工作包括了向量空间表示(VSM)[29]、隐语义索引(LSI)[39]和概率话题模型(如图11所示)[40]等。随着研究的不断深入,话题模型被广泛应用在各个领域,并进一步提出了改进的话题模型[41],以增强已有话题模型的学习能力,解决其跨领域的问题等,从而使其能够更好地应用于文本数据的表达。图11概率话题模型[40]尽管对数据表达的研究历经了很长时间,但是对于网络大数据的建模和表达还面临着很多新的挑战。例如,对于海量文本数据的建模,需要模型能够对更大规模的参数空间进行有效的学习,需要能够有效地建模并解决数据的稀疏性所带来的问题,需要能够对动态演化的网络大数据进行合理的表达。此外,对于图片和多媒体数据,也需要进一步探索其建模与表达方式,以便能够更加有效地表达其内在的语义信息。1.5网络大数据存储与管理体系网络大数据处理的数据规模从TB级上升到PB、EB级,面临着如何降低数据存储成本、充分利用计算资源、提高系统并发吞吐率、支持分布式的非线性迭代算法优化等众多难题。1.5.1分布式数据存储Google公司提出的GFS、MapReduce、BigTable等技术是分布式数据处理技术的具体实现,是Google搜索引擎系统三大核心技术。此后,Apache软件基金会推出了开放源码Hadoop和HBase系统,实现了MapReduce编程模型、分布式文件系统和分布式列簇数据库。Hadoop系统在Yahoo!、IBM、百度、Facebook等公司得到了大量应用和快速的发展。

开放网络知识计算——模型、方法与应用 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:开放网络知识计算——模型、方法与应用