短文本数据理解 PDF下载

编辑推荐

短文本数据理解 PDF下载；

内容简介

短文本理解是伴随着搜索引擎、社交网络,以及聊天机器人等应用场景而兴起的一个研究课题。它是近年来的一个研究热点，且对未来人工智能的发展有重要的影响。本书所介绍的短文本数据理解技术，涵盖学术界及工业界前沿的理论及方法，可以广泛应用于搜索引擎、广告系统、智能助手等场景中，是大数据管理不可或缺的部分，具有较高的实际应用价值。

作者简介

中国人民大学博士，微软亚洲研究院研究员。负责微软研究院大型Web知识库系统Probase项目，以及企业知识库系统Enterprise Dictionary项目。已在VLDB、ICDE、IJCAI、CIKM等国际*学术会议上发表论文十余篇，并获得ICDE 2015佳论文奖。出版技术专著2本，拥有美国专利5项。研究领域包括：人工智能、知识库系统、自然语言处理、机器学习、数据挖掘等。

短文本数据理解 PDF下载

目录‖

从书前言
推荐序一
推荐序二
前言
第1章短文本理解及其应用
11短文本理解
12短文本理解研究现状
121短文本理解模型概述
122短文本理解模型粒度分析
13短文本理解框架
第2章基于概率的属性提取与推导
21引言
22属性提取
221属性提取的整体框架
222概率isA网络
223基于概念和基于实体的属性提取
23属性得分推导
231典型度得分
232根据CB列表计算典型度
233根据IB列表计算典型度
234典型度聚合
235同义属性集合
24相关研究
25小结
第3章单实体概念化模型
31引言
311基本层次类别
312应用
313BLC计算方法
32语义网络
33基本层次类别化
331典型性
332将典型性用于BLC
333将平滑典型性用于BLC
334将PMI用于BLC
335将Rep(e，c)用于BLC
34小结
第4章基于概念化的短文本理解
41引言
42预备知识
421概念
422概念聚类
423属性
424整体框架和符号表示
43挖掘词汇关系
431概述
432解析
433P(z|t)推导
434P(c|t,z)推导
435语义网络
44查询理解
441方法概况
442算法
45小结
第5章基于概念化的短文本主题词与修饰词检测
51引言
52整体框架
53非限定性修饰词挖掘
54限定性修饰词挖掘
541Probase:一个大规模的isA知识库
542实体级别主题词修饰词
543概念级别主题词修饰词
55主题词与修饰词检测
551解析
552针对两个组件的主题词修饰词检测
553针对两个以上组件的主题词修饰词检测
56相关工作
57小结
第6章基于概念化的词相似度计算
61引言
62语义网络和同义词集合
63基本方法
631类型判别
632语境表示
633语境相似度
634讨论
64改进方法
641概念聚类
642MaxMax相似度计算方法
643聚类删减优化
65相关工作
66小结
第7章基于概念化的海量竞价关键字匹配
71引言
72语义网络
73系统框架
74概念化
741实体检测
742词义推导
743消除歧义
75检索
751基于点击数据的候选竞价关键字选择
752基于概念的候选竞价关键字选择
753排名
76相关工作
77小结
第8章短文本理解研究展望
81知识语义网
82显性知识和隐性知识的结合
参考文献

前沿

‖丛书前言陈寅恪先生说：“ 一时代之学术，必有其新材料与新问题。取用此材料，以研求问题，则为此时代学术之新潮流。治学之士，得预于此潮流者，谓之预流（借用佛教初果之名）。其未得预者，谓之未入流。”对今天的信息技术而言，“新材料”即为大数据，而“新问题”则是产生于“新材料”之上的新的应用需求。
当下大数据技术发展变化日新月异，大数据应用已经遍及工业和社会生活方方面面，原有的数据管理理论体系与大数据产业应用之前的差距日益加大，而工业界对于大数据人才的需求却极剧增加。大数据专业人才的培养是新一轮科技较量的基础，高等院校承担着大数据人才培养的重任。因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程。近来越来越多的院校急切地开设大数据方面的人才培养计划，以求占得“先机”。但纵观大数据人才培养课程体系尚不尽如人意，多是已有课程的“冷拼盘”，顶多是加点“调料”，原材料没有新鲜感。现阶段无论多么新多么好的人才培养计划，都只能在六七十年代编写的计算机知识体系上施教，无法把当下的大数据带给我们的新思维方式和知识体系传导给学生。
为此我们意识到，缺少基础性工作和原始积累，就难以培养符合工业界需要的大数据复合型和交叉型人才。因此急需在思维和理念方面进行转变，为现有的课程和知识体系按大数据应用需求进行延展和补充，加入新的可以因材施教的知识模块。每一位学者都有责任和义务去为此“增砖添瓦”。
在此背景下，我们策划和组织了这套大数据管理丛书，希望能够培养数据思维的理念，对原有数据管理知识体系进行完善和补充，面向新的技术热点，提出新的知识体系/知识点，拉近教材体系与大数据应用的距离，为受教者应对现代技术带来的大数据领域的新问题和挑战，扫除障碍。现时要求学者编写大部头著作费时费力，不太现实。这使我们想到二十世纪八九十年代风靡一时的“五角丛书”，它短小精湛，题材丰富，选题新颖，恰到好处地迎合了那个时代人们对新知识的渴望，因此成为了那个时代的共同记忆。所以我们受此启发，选择了这种更容易实现的“五角丛书”的形式，促使学者们力所能及地把各自工作中的积累呈现给大家，为大数据人才培养的“大厦”增砖添瓦。我们相信，假以时日，这些小部头的著作汇溪成河，必将对未来大数据人才培养起到“基石”的作用。
丛书定位：面向新形势下的大数据技术发展对人才培养提出的挑战，旨在为学术研究和人才培养提供可供参考的“基石”。虽然是一些不起眼的“砖头瓦块”，但可以为大数据人才培养积累可用的新模块（新素材），弥补原有知识体系与应用问题之前的鸿沟，力图为现有的数据管理知识查漏补缺，聚少成多，最终形成适应大数据技术发展和人才培养的知识体系和教材基础。
丛书特点：丛书借鉴Morgan &； Claypool Publishers出版的Synthesis Lectures on Data Management，特色在于选题新颖，短小精湛。选题新颖即面向技术热点，弥补现有知识体系的漏洞和不足（或延伸或补充），内容涵盖大数据管理的理论、方法、技术等诸多方面。短小精湛则不求系统性和完备性，但每本书要自成知识体系，重在阐述基本问题和方法，并辅以例题说明，便于施教。
丛书组织：丛书采用国际学术出版通行的主编负责制，为此特邀中国人民大学孟小峰教授（email: xfmeng@ruceducn）担任丛书主编，负责丛书的整体规划和选题。责任编辑为机械工业出版社华章分社姚蕾编辑（email:yaolei@hzbookcom）。
在此期望有志于大数据人才培养并具有丰富理论和实践经验的学者和专业人员能够加入到这套书的编写工作中来，共同为中国大数据研究和人才培养贡献自己的智慧和力量，共筑属于我们自己的“时代记忆”。欢迎读者对我们的出版工作提出宝贵意见和建议。
丛书即将出版书目大数据管理概论孟小峰主编2017年2月出版异构信息网络挖掘：原理和方法［美］孙艺洲（Yizhou Sun）韩家炜(Jiawei Han)著；段磊朱敏唐常杰译2017年1月出版大规模元搜索引擎技术［美］孟卫一（Weiyi Meng）於德（Clement TYu）著；朱亮译2017年1月大数据集成［美］董欣（Xin Luna Dong）戴夫士·斯里瓦斯塔瓦（Divesh Srivastava）著；王秋月杜治娟王硕译2017年2月短文本数据理解王仲远编著2017年2月