海量数据分析前沿 PDF下载

编辑推荐

暂无

内容简介

　　近年来，大数据成为学术界和工业界的热点，其本质就是海量数据分析。海量数据的来源包括互联网、传感器、生产生活、科学观测、科学实验等。海量数据分析不仅可以帮助人们取得新的科学发现，也可以推动技术的适应性、个性化和健壮性方面的进步。

　　海量数据分析是一个跨学科的研究领域，理解本书的内容需要具备计算机科学、统计学和优化理论的基础知识。美国国家学术院国家研究委员会编著的《海量数据分析前沿》从计算和推理的角度分析了与海量数据分析相关的前沿问题，重点介绍海量数据挖掘分析以及流数据挖掘的进展，讨论了并行和分布式系统架构方面的*发展，具体内容包括数据建模、任务建模、计算复杂性问题分析、数据采样以及人工参与的数据分析方法等。

作者简介

暂无

海量数据分析前沿 PDF下载

概要
海量数据的机遇与挑战
结论
第一章 引言
 挑战
 当前进展
 报告组成
 参考文献
第二章 科学、技术、商业、国防、电信及其他领域的海量数据
 海量数据出现在哪里
 海量数据分析的挑战
 大数据分析趋势
 样例
 参考文献
第三章 数据管理基础设施的规模扩大
 扩大数据集的数量
 通过分布式和并行系统实现计算技术的扩展
 未来研究的趋势
 参考文献
第四章 时态数据和实时算法
 概述
 数据采集
 数据处理、表示和推理
 针对时态数据集的系统和硬件
 挑战
 参考文献
第五章 大规模数据表示
 概述
 数据表示的目标
 挑战和未来方向
 参考文献
第六章 资源、权衡与局限性
 概述
 理论计算机科学的相关知识
 差异与机会
 参考文献
第七章 由海量数据建立模型
 统计模型介绍
 数据清洗
 模型分类
 模型调整与评估
 挑战
 参考文献
第八章 采样与海量数据
 统计采样的常用技术
 海量数据采样的挑战
 参考文献
第九章 人类与数据的交互
 概述
 最新进展
 人机协同的数据分析
 机遇、挑战和方向
 参考文献
第十章 海量数据分析的七个计算“巨人”
 基本统计
 广义N|体问题
 图论计算
 线性代数计算
 优化
 积分
 对齐问题
 讨论
 参考文献
第十一章 结论
附录A 缩略语
附录B 委员会成员简介

前沿

译者序
这是一本值得一读的书，我第一次读到它的时候就想把它介绍给大家。由于各种原因，这本书的中文译本的出版比我们期望的晚了一年多，但我相信它仍不过时，还是值得认真拜读。我是在2013年11月13日下午陪同国家自然科学基金委员会信息学部大数据考察团访问加州大学伯克利分校时获赠这本书的，伯克利AMP实验室主任Michael J. Franklin在介绍美国大数据研究计划以及他们实验室的工作之后把这本他参与撰写的刚刚出版的书送给了我们。我们考察团一行四人，包括基金委信息学部常务副主任秦玉文教授、计算机处处长刘克教授、华东师范大学何晓丰教授。考察的首站是硅谷，我们拜访了位于Mountain View的微软硅谷研究院搜索实验室的Rakesh Agrawal博士和位于Palo Alto的SAP美国总部的Dina Bitton博士和Ming|Chien Shan博士。访问伯克利是我们大数据考察的重要一站，2013年11月13日上午，我们一行受到劳伦斯伯克利国家实验室（LBNL）常务副主任Horst Simon的热情接待。LBNL不仅是世界上第一个加速器的诞生地，也是科学数据管理的发祥地。来自LNBL的科学家们向我们介绍了他们在科学计算、科学数据管理、可视化和可视分析等方面的工作，让我们领略了他们在科学数据管理和分析方面源远流长的历史和做出的卓越贡献。加州大学伯克利分校AMP实验室是受美国大数据研究计划资助成立的。AMP实验室主任Michael J. Franklin教授2013年上半年受邀在华东师范大学进行学术休假访问，访问期间他两次返回美国华盛顿就是为了讨论本书的撰写和定稿，他在学术报告和学术交流中，多次提到这本书，很令我们期待。
“大数据”无疑是近几年最热的一个科技术语。据2012年12月4日美国《时代》周刊网站报道，在美国的2012年十大流行词评比中，“大数据”名列第二，排第一的是美国人当年最为关心的政治事件“财政悬崖”。在IT领域，“大数据”是继高性能计算机、互联网、网格计算、云计算之后的又一被大众所关注的技术术语。从某种意义上讲，“大数据”已经远远超出了技术范畴，变成一个被赋予各种解读的流行词。“大数据”在我国的热度还在持续上升，只是从今年两会以后稍稍让位于“互联网+”。正是因为“大数据”这个词的含义太过宽泛，各人可以有自己的一套解读方式。在不少场合听到过各种有关“大数据”的报告，一个普遍的情况是：报告的大数据应用大多不是报告人熟悉的领域。似乎印证了那句话“互联网企业做大数据，做的不说，说的不做”。
实际上，虽然互联网是推动大数据热的始作俑者，但广泛来说，大数据不仅仅局限于互联网数据。要讨论这林林总总的数据，从认识论的观点来看，首先就是要对大数据进行分类，这非常必要，是确保大家在同一论域进行讨论的前提。按照我的理解，大数据大致可以分为Web数据、决策数据、科学数据三大类。顾名思义，Web数据是与Web相关的数据，包括网页、链接、日志等具体类型，门户网站、搜索引擎、社交网络、电子商务等以Web形式呈现或以Web为载体的新型信息服务系统产生的数据大多可以归纳为此类型。决策数据主要指以前由传统的数据库和数据仓库管理的，在生产过程中产生的数据，是用于决策的，也可称为商务智能（BI）数据。科学数据实际上是最早的一类大数据，包括科学实验数据、科学观测数据、科学文献数据、设计数据等，这类数据与科学领域密切相关，品种最多，研究最难，没有领域专家的参与IT专家难以胜任科学数据的管理和分析任务。
以上是大数据类型的一个划分，关于大数据研究的认识，我也有一个分三个层次的观点。大数据的研究全景可以看作是一个倒立的三角形。这个倒立三角形分为三层，最上面一层，也就是最宽的那一层，代表形形色色的各种应用，这些应用是数据的来源也是数据的应用场所；最底下的一层，也就是那个小三角形，就代表IT计算系统或平台，这是传统信息技术行业关心和擅长的领域；中间那一层代表模型和算法，指的就是对应用进行理解、抽象、建模，然后在底层的计算平台上予以实现。我读这本书，就是按照这三个层次来理解的。这也是我喜欢这本书的一个原因。这三个层次中，应用这一层，每一类应用有各自对应的学科去深入研究；计算平台那一层对应的学科就是我们计算机或IT学科。关于这两层，本书的第二、第三章以及其他部分章节有所涉及。本书的主要章节讨论的内容都是和第二层模型和算法相关的。
按照本书的观点，大数据的本质就是海量数据分析。海量数据的来源包括互联网、传感器、生产生活、科学观测、科学实验等。海量数据分析不仅可以帮助人们获得新的科学发现，也可以推动技术在适应性、个性化和健壮性方面的进步。海量数据分析是个跨学科的研究领域，理解本书的内容需要具备计算机科学、统计学和优化理论的基础知识。本书从计算和推理的角度分析了与海量数据分析相关的前沿问题，重点介绍海量数据挖掘分析以及流数据挖掘的进展，讨论了并行和分布式系统架构方面最新发展，具体内容包括数据建模、任务建模、计算复杂性问题分析、数据采样以及人工参与的数据分析方法等。
本书是由美国国家科学院、美国国家工程院和医学科学研究院的运营机构——美国国家研究委员会下属的海量数据分析委员会、应用和理论统计委员会、数学科学及其应用委员会、工程和物理科学部组织编写的。项目得到了美国国家安全局的支持，全美多个领域七八十位国际顶级专家参与了本书的撰写或评审工作。本书的中文翻译得到了清华大学出版社的大力支持，华东师范大学数据科学与工程研究院的周傲英教授、何晓丰教授、周敏奇副教授、金澈清教授、王晓玲教授、王长波教授、钱卫宁教授、宫学庆教授、张蓉副教授、张召副教授、高明副教授，以及云南大学的岳昆教授和复旦大学的沙朝锋副教授参与了本书的翻译和校对。由于本书涉及的学科领域广泛，参与翻译的人员较多，再加上译者水平有限，如有翻译不准确甚至错误之处，敬请读者谅解并给予指正。

华东师范大学数据科学与工程研究院
周傲英
2015年4月13日