欢迎光临
免费的PDF电子书下载网站

大数据大家谈 PDF下载

编辑推荐

暂无

内容简介

本书邀请了14位国内外大数据产学研有影响力的一线专家学者,总结各自的研究与工作专长,以专题的形式发表了各自的研究成果。本书主要包括了大数据综述、大数据思维、大数据技术与大数据应用四个部分。其中,大数据综述主要介绍大数据的概念、背景、技术与国内外政策等,让读者对大数据有个全景式的了解;大数据思维包括大数据的开放式创新与流动的大数据两方面;大数据技术分别介绍了大数据平台架构、大数据语义分析、情感分析、大数据可视化、多媒体搜索分析等当前的技术热点;大数据应用主要介绍了新媒体、企业大数据基础设施、金融行业应用、大数据传播第四范式、金融大数据等应用。本书适合大数据行业研究者、技术开发工程师与研究人员使用。

作者简介

张华平,北京理工大学计算机语言信息处理研究所副所长,兼任网络搜索与挖掘实验室主任,博士,副研究员,汉语分词系统ICTCLAS的创始人,研究生导师,"百星计划”首批入选者,钱伟长中文信息处理科学技术奖一等奖获得者(2010年);同时担任首都师大兼职硕导,辽宁师大客座教授,中国计算机学会高级会员,北京市重点产业知识产权联盟专家,北京市科委评审专家,中关村管委会技术评审专家,先后获得计算所所长特别奖,中科院院长奖。主要研究领域为:自然语言处理、信息检索、网络信息内容安全,先后主持了国家863、242等相关的课题15项,研制的天玑舆情系统已经广泛地应用于中国证监会、银监会、广电、工信部等 单位,已经成为实际的业务系统。

大数据大家谈 PDF下载

目录

第1章 大数据技术及其相关政策 1
1.1 大数据产生的背景 1
1.2 大数据的概念和特征 3
1.2.1 大数据的概念 3
1.2.2 大数据的特征 3
1.3 大数据技术发展趋势 4
1.3.1 大数据带来的决策方式的革命 4
1.3.2 大数据面临的挑战及其对应的技术概览 7
1.3.3 大数据架构下的人才需求及产业结构 12
1.4 大数据近期政策及其响应 14
1.5 本章小结 17
参考文献 18
第2章 大数据的开放式创新 20
2.1 开放数据 21
2.2 基于数据安全流通和定价的数据市场 23
2.3 开放的基础设施 26
2.4 开放的社会化分析服务 28
2.5 跨越领域界限的开放数据思维 30
2.6 本章小结 31
参考文献 31
第3章 流动的大数据 33
3.1 总论 33
3.2 三个案例看互联网 34
3.3 “爽”的体验与流动性 35
3.4 从个体到关系:笛卡儿两分法的破灭 38
3.5 本章小结 40
参考文献 41
第4章 大数据技术架构与发展趋势 42
4.1 大数据技术概览 42
4.2 Hadoop生态系统 46
4.3 Spark生态系统 54
4.4 Spark和Hadoop的性能对比 59
4.5 大数据技术前景及未来 62
4.6 本章小结 64
参考文献 66
第5章 大数据语义分析关键技术 68
5.1 引言 68
5.2 国内外研究现状及发展动态分析 71
5.2.1 语义计算 71
5.2.2 文本表示 72
5.2.3 语义知识本体构建 73
5.2.4 情感分析 74
5.3 技术框架 76
5.3.1 信息客体表示模型 77
5.3.2 跨语言本体概念空间的大数据自动构建 78
5.3.3 知识抽取与大数据关联分析 79
5.3.4 社会个体的语义表示与群体发现 79
5.3.5 基于知识本体的语义计算与情感量化分析 80
5.3.6 面向公共安全事件的群体态势推演 81
5.4 关键科学问题与技术特色 82
5.5 研究方法 84
5.6 技术路线 85
5.6.1 信息客体表示模型 85
5.6.2 跨语言本体概念空间的大数据自动构建 86
5.6.3 知识抽取与大数据关联分析 87
5.6.4 社会个体的语义表示与群体发现 89
5.6.5 基于知识本体的语义计算与情感量化分析 90
5.6.6 面向公共安全事件的群体态势推演 91
5.7 基于知识本体大数据语义分析技术的应用实践 93
5.7.1 NLPIR大数据搜索与挖掘共享平台 93
5.7.2 JZSearch语义精准搜索引擎 101
参考文献 108
第6章 社会网络大数据的情感分析与情绪感知技术 112
6.1 概述 112
6.2 国内外相关研究进展 115
6.3 基于微博热点话题的情感分析及其应用 116
6.4 基于多维度分析的群体情感摘要抽取及其应用 122
6.5 基于统计学习的情绪分类及其时序变化分析应用 125
6.6 未来研究方向 129
6.7 本章小结 130
参考文献 130
第7章 大数据时代的数据挖掘与可视化传播 133
7.1 大数据时代来临 133
7.2 大数据的基本特征 134
7.3 大数据挖掘与应用 136
7.4 大数据与小数据 139
7.5 数据挖掘的基本原理与方法 140
7.6 大数据时代的数据可视化技术 145
7.7 大数据挖掘和数据可视化工具 148
第8章 大规模社会多媒体数据搜索与处理 156
8.1 社会多媒体简介 156
8.1.1 社会多媒体的发展 156
8.1.2 社会多媒体的特点和挑战 158
8.2 大规模社会多媒体数据的搜索 160
8.3 社会多媒体搜索模式 161
8.3.1 基于开放API的搜索 161
8.3.2 基于页面的搜索 161
8.3.3 基于语义模式的搜索 162
8.4 社会多媒体的在线实时搜索架构 165
8.4.1 在线分布式实时搜索 166
8.4.2 反封堵管理模块 167
8.5 大规模社会多媒体的基本处理技术 168
8.5.1 社会多媒体存储计算 169
8.5.2 社会多媒体数据的特征学习 172
8.6 大规模社会多媒体数据的挖掘与应用 176
8.6.1 以用户为中心的社会多媒体建模 178
8.6.2 以内容为中心的社会多媒体建模 180
8.6.3 基于用户和内容的关联挖掘 183
8.7 本章小结 186
参考文献 186
第9章 第四范式下的大数据分析 模型构建 189
9.1 第四范式的提出 189
9.2 第四范式真的不需要理论吗 190
9.2.1 总体问题 190
9.2.2 因果关系问题 191
9.2.3 效度低 191
9.3 如何用理论模型来架构网络数据 191
9.4 传播学理论的应用 198
9.5 简单的效果分析模型——品牌明星代言调查 201
9.6 本章小结 203
第10章 大数据视角下的新媒体指数 205
10.1 新媒体指数简介 205
10.2 大数据视角下的新媒体指数 205
10.2.1 从信息源看新媒体指数 205
10.2.2 从信息分析方法看新媒体指数 207
10.2.3 从数据应用场景看新媒体指数 209
10.3 本章小结 210
第11章 企业级数据仓库向大数据基础设施转型中的若干问题 212
11.1 扩容与换代叠加 213
11.2 迁移与新需求交织 213
11.3 设备轻型化、平台开源化与团队重构同步 214
11.4 “互联网 ”与非结构化数据爆炸 214
第12章 金融行业大数据综述 216
12.1 金融行业大数据相关政策 216
12.1.1 中央政府的相关政策 216
12.1.2 地方政府的相关政策 217
12.2 金融大数据的定义与概述 217
12.3 金融大数据的市场分析 219
12.4 金融大数据支撑的业务 220
12.4.1 第三方支付 220
12.4.2 P2P业务 222
12.4.3 互联网征信 223
12.4.4 众筹 225
12.4.5 互联网银行 225
12.5 主要互联网金融公司介绍 227
12.5.1 阿里巴巴 227
12.5.2 腾讯 228
12.5.3 百度 228
12.5.4 大象金服 230
第13章 金融行业大数据应用 235
13.1 导言 235
13.2 大数据技术在金融行业的实际应用 235
13.2.1 第一类应用:个体公司内部数据的动员 236
13.2.2 第二类应用:行业数据平台 238
13.2.3 第三类应用:行业外部数据在金融行业的应用 240
13.2.4 金融行业数据从关系型数据库向大数据技术平台的迁移 242
13.3 金融行业的应用对大数据技术提出严格的要求 243
13.4 本章小结 249
第14章 智慧旅游大数据应用 251
14.1 导言 251
14.2 旅游舆情分析 252
14.2.1 中国旅游目的地网络舆情指数 252
14.2.2 舆情分析方法 253
14.2.3 舆情热点分析 255
14.3 基于大数据的游客行为分析 256
14.3.1 旅游大数据预测 257
14.3.2 电商OTA数据分析 259
14.3.3 交通数据分析 259
14.4 基于运营商的LBS数据的游客轨迹分析及用户画像 260
14.4.1 游客画像监测 260
14.4.2 游客轨迹分析 262
14.5 本章小结 263

前沿

近年来,大数据引起了政府部门产业界、科技界与学术界的高度关注。2008 年 9 月,Nature杂志发表了文章Big Data: Science in the Petabyte Era,“大数据”这个词开始广泛传播。2012年3月22日,奥巴马宣布美国政府投资2亿美元启动“大数据研究和发展计划”。在此基础上,美国又于2016年5月发布了《联邦大数据研究与开发战略计划》(以下简称《计划》),其目标是对联邦机构的大数据相关项目和投资进行指导。中国政府于2015年9月发布了《促进大数据发展行动纲要》,明确指出:坚持创新驱动发展,加快大数据部署,深化大数据应用,已成为稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要和必然选择。
目前,我国互联网、移动互联网用户规模居全球第一,拥有丰富的数据资源和应用市场优势,大数据部分关键技术研发取得突破,涌现出一批互联网创新企业和创新应用,一些地方政府已启动大数据相关工作。与此同时,大数据产业也随之蓬勃发展,市场研究公司Marketsand Markets公布的报告显示,2013—2018年,全球大数据市场的年复合增长率预计为26%,将从2013年的148.7亿美元增长至463.4亿美元。中国大数据产业起步晚,发展速度快。2014 年,中国大数据市场规模达到767亿元,同比增长了27.8%。预计到 2020 年,中国大数据产业规模将达到 8228.81亿元。
同时,我们还必须清晰地认识到,当前大数据还处在快速成长期。科学研究、技术开发与产业应用都处在探索阶段,缺乏科学的标准,企业也缺乏明确的评价指标,与成熟产业健康有序发展还有距离。目前大数据产学研均存在一定的炒作和泡沫,遍地开花的大数据产业园、大数据项目和投资,几乎无人不谈大数据,不同专业的学者均会做有利于自己的大数据解释,各类企业纷纷高举大数据的旗帜吸引投资,经过技术炒作周期,大数据已经成为了民众的科学常识。盲目的炒作与投资实际上违背了大数据的科学发展规律,对大数据产学研的健康发展是极其不利的。
大数据涉及方法论层面的哲学思考,也包括大数据的架构、平台、存储与硬件等基础性平台,同时还包括了大数据处理、挖掘、分析与可视化等大数据技术;从数据形态上,大数据又分为结构化大数据与非结构化大数据,从媒体形态上,还包括了大数据文本、语音、视频等;大数据的应用则更加宽泛。国内的大数据论著侧重于大数据处理的分布式架构方面,如Hadoop、Spark等平台;而且大部分书籍重在阐述大数据思维,如英国牛津大学的维克托?迈尔—舍恩伯格教授的《大数据时代》、涂子沛的《大数据》。但是,还缺乏大数据相对综合而又理性权威的论述著作。
2015年初,笔者组织创立了中国大数据千人会,吸引了国内外大数据政产学研相关的专业人士数千人,并邀请了国内外一线的大数据专家在线演讲,先后做了30多期(后因工作繁忙,很遗憾未能持续进行)。为凝练整理多期的访谈成果,笔者从所有演讲中优中选优,邀请了14位大数据产学研有影响力的专家学者,将演讲稿进一步凝练,各负其责,每位专家一章,只写自己专注研究的部分,要求去除水分只留干货,综合写作了《大数据大家谈》?书名隐含两层意思,一方面指的是本书由大家一起写作,非一家之言;另外一方面每章的写作者基本上都是大数据特定方向上有影响力的“大家”。
本书主要包括四个部分,分别是大数据综述、大数据思维、大数据技术与大数据应用。第一部分大数据综述由北京理工大学商建云执笔,对大数据的概念、背景、技术与国内外政策等进行介绍,让我们对大数据有个全景式的了解。第二部分大数据思维分别由两位杰出的大数据实践者与思想家完成。驭势科技CEO吴甘沙先生写作的《大数据的开放式创新》,提出了开放的数据、基于数据安全流通和定价的数据市场、开放的基础设施、开放的社会化分析服务、跨越领域界限的开放数据思维五点大数据创新过程;吴甘沙先生是英特尔中国研究院前院长,笔者有幸聆听过他关于大数据的开放式创新的演讲,确实脑洞大开。财讯传媒集团首席战略官段永朝对互联网与大数据有过很多冷静的哲学思考,也是网络智酷的发起人,定期的沙龙吸引了大量的专家学者,他所写作的《流动的大数据》一文,延续了段总的深入思考。第三部分大数据技术分别由北理工刘驰教授、北理工张华平副教授、河北大学的高凯教授、中国传媒大学沈浩教授、中国科学院计算技术研究所的曹娟博士分别介绍了大数据平台架构、大数据语义分析、情感分析、大数据可视化、多媒体搜索分析等当前的技术热点。第四部分大数据应用主要是介绍大数据的落地实践,我们分别邀请了清博大数据的郝雅婕、上海证券交易所的白硕研究员、美国律商联讯风险信息公司吕晓辉博士、北京师范大学张洪忠教授、大象金服研究员梅其文、北京第二外国语学院邓宁博士六位做学术与产业的专家分别就新媒体、企业大数据基础设施、金融行业应用、大数据传播第四范式、金融大数据等话题介绍了各种的实践总结分析。
在本书的策划写作过程中,得到了不少专家学者的指点与参与,同时也通过大数据千人会公众号收集了几百万感兴趣的读者反馈。在这里,特别感谢互联网实验室的方兴东博士的前期倡议,感谢北京理工大学黄河燕教授、赵燕平教授,以及大数据搜索与挖掘实验室潘红岩、徐程程、吴松泽、张亚男等多位同学的前期工作。同时,我们还要感谢电子工业出版社的李敏博士的精心编辑与整理。最后,还要感谢我的太太曾飞和孩子的支持。
本书作为大数据的跨界融合之作,希望提供更多视角,以更严谨务实的方式为各位朋友提供冷静的思考。水平有限,敬请批评指正。

张华平
2016.9

大数据大家谈 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:大数据大家谈