欢迎光临
免费的PDF电子书下载网站

大数据原理与实践:复杂信息的准备 共享和分析(原书第2版) PDF下载

编辑推荐

暂无

内容简介

当大数据资源变得越发复杂时,仅靠更强大的计算机系统已无法解决问题。本书带我们重新审视数据准备环节,重点讨论了其中至关重要但又常常被忽略的主题——标识符、不变性、内省和数据索引。此外,书中也涵盖常见的与大数据设计、架构、操作和分析相关的内容,以及涉及法律、社会和伦理问题的非技术性章节。全书视角独特,涉猎广博,尤以医学大数据分析见长,强调基本原理,不关注编程细节和数学公式,适合企业决策者、技术专家以及计算机相关专业的学生阅读。

作者简介

朱尔斯·J. 伯曼(Jules J. Berman) 拥有麻省理工学院数学和地球与行星科学两个学士学位,天普大学哲学博士学位,以及迈阿密大学医学博士学位。撰写信息科学、计算机程序设计和病理学三个专业领域的著作近20本。2006年,伯曼博士成为美国病理信息学协会主席,2011年荣获该协会终身成就奖。

大数据原理与实践:复杂信息的准备 共享和分析(原书第2版) PDF下载

目录

译者序
第2版前言
第1版前言
作者简介
第1章 引言1
1.1 大数据的定义1
1.2 大数据与小数据2
1.3 大数据在哪里5
1.4 大数据最常见的目的是产生小数据6
1.5 大数据是研究领域的中心话题6
术语表7
参考文献11
第2章 为非结构化数据提供结构13
2.1 几乎所有数据都是非结构化的、
 不可用的原始形式13
2.2 词汇索引14
2.3 术语提取16
2.4 构建索引19
2.5 自动编码20
2.6 案例研究:宇宙中任意原子精确位置的快速定位(需要安装一些软件)24
2.7 案例研究(高级):一个完整的自动编码器(12行Python代码)26
2.8 案例研究:以词汇索引进行文本转换28
2.9 案例研究(高级):Burrows Wheeler变换30
术语表32
参考文献43
第3章 标识、去标识和重标识45
3.1 什么是标识符45
3.2 标识符和标识系统之间的区别46
3.3 生成唯一标识符48
3.4 糟糕的标识方法50
3.5 注册唯一对象标识符53
3.6 去标识和重标识55
3.7 案例研究:数据清理57
3.8 案例研究(高级):图像标题中的标识符59
3.9 案例研究:单向散列函数61
术语表63
参考文献69
第4章 元数据、语义和三元组71
4.1 元数据71
4.2 可扩展标记语言71
4.3 语义和三元组72
4.4 命名空间74
4.5 案例研究:三元组的语法75
4.6 案例研究:Dublin Core77
术语表78
参考文献80
第5章 分类和本体论81
5.1 关于对象关系的全部81
5.2 分类:最简单的本体84
5.3 本体:有多个父类的类86
5.4 分类模型选择88
5.5 类混合91
5.6 本体开发的常见陷阱92
5.7 案例研究:上层本体93
5.8 案例研究(高级):悖论94
5.9 案例研究(高级):RDF框架和类属性96
5.10 案例研究(高级):可视化类关系98
术语表102
参考文献111
第6章 内省113
6.1 自我认知113
6.2 数据对象:每个大数据集合中最基本的元素116
6.3 大数据如何使用内省117
6.4 案例研究:时间戳数据119
6.5 案例研究:TripleStore 简介121
6.6 案例研究(高级):大数据必须是面向对象的证明125
术语表126
参考文献127
第7章 标准和数据集成128
7.1 标准128
7.2 规范与标准132
7.3 版本控制134
7.4 合规问题135
7.5 案例研究:标准化巧克力茶壶135
术语表136
参考文献137
第8章 不变性和永久性139
8.1 数据不变性的重要性139
8.2 不变性和标识符140
8.3 数据产生数据142
8.4 跨机构协调标识符143
8.5 案例研究:可信时间戳144
8.6 案例研究:区块链和分布式账本145
8.7 案例研究(高级):零知识协调147
术语表148
参考文献150
第9章 评估大数据资源的充分性152
9.1 观察数据152
9.2 大数据的最小必要属性158
9.3 附加条件的数据161
9.4 案例研究:用于查看和搜索大型文件的实用程序162
9.5 案例研究:数据扁平化164
术语表164
参考文献169
第10章 测量170
10.1 准确性与精度170
10.2 数据范围171
10.3 计数173
10.4 数据标准化和变换176
10.5 约简数据179
10.6 理解控制181
10.7 没有实际意义的统计意义182
10.8 案例研究:基因计数183
10.9 案例研究:早期生物特征和狭窄数据范围的意义184
术语表185
参考文献186
第11章 快速简单的大数据分析必不可少的技巧188
11.1 速度和可扩展性188
11.2 适用于大数据的快速操作,并且每台计算机都支持193
11.3 点积—一种简单快速的相关方法197
11.4 聚类199
11.5 数据持久性方法(不使用数据库)201
11.6 案例研究:爬升分类202
11.7 案例研究(高级):数据库示例203
11.8 案例研究(高级):NoSQL205
术语表205
参考文献209
第12章 寻找大型数据集中的线索211
12.1 分母211
12.2 词频分布212
12.3 异常值和异常215
12.4 封底分析216
12.5 案例研究:预测用户偏好218
12.6 案例研究:人口数据的多模态219
12.7 案例研究:大小黑洞220
术语表220
参考文献224
第13章 使用随机数将大数据分析问题的规模缩小225
13.1 (伪)随机数的显著效用225
13.2 重采样230
13.3 蒙特卡罗模拟法234
13.4 案例研究:中心极限定理的证明236
13.5 案例研究:发生一连串小概率事件的频率237
13.6 案例研究:臭名昭著的生日问题238
13.7 案例研究(高级):蒙提霍尔问题239
13.8 案例研究(高级):贝叶斯分析241
术语表242
参考文献244
第14章 大数据分析中的特殊注意事项246
14.1 数据搜索理论246
14.2 理论搜索中的数据247
14.3 巨大的偏差248
14.4 大数据的数据子集:不可加和不传递251
14.5 其他大数据陷阱252
14.6 案例研究(高级):维数灾难254
术语表257
参考文献258
第15章 大数据的失败以及如何避免260
15.1 失败很常见260
15.2 失败的标准261
15.3 复杂性264
15.4 逐步走进大数据分析265
15.5 失败之后272
15.6 案例研究:癌症生物医学信息学网格—遥远的桥273
15.7 案例研究:高斯Copula函数277
术语表278
参考文献280
第16章 数据再分析:比分析更重要283
16.1 第一次分析(几乎)总是错的283
16.2 为什么再分析比分析更重要285
16.3 案例研究:旧JADE对撞机数据的再分析287
16.4 案例研究:通过再分析证明287
16.5 案例研究:从旧数据中寻找新行星288
术语表289
参考文献290
第17章 大数据再利用294
17.1 什么是数据再利用294
17.2 暗数据、废弃数据和遗留数据296
17.3 案例研究:从邮政编码到人口统计学基础297
17.4 案例研究:基因序列数据库的科学推断298
17.5 案例研究:将全球变暖与高强度飓风联系起来298
17.6 案例研究:用地质数据推断气候趋势299
17.7 案例研究:环月影像恢复工程299
术语表301
参考文献301
第18章 数据共享和数据安全303
18.1 什么是数据共享,为什么我们不共享更多数据303
18.2 常见的不满303
18.3 数据安全和加密协议308
18.4 案例研究:火星上的生命313
18.5 案例研究:个人标识符314
术语表315
参考文献317
第19章 合法性320
19.1 对数据的准确性和合法性负责320
19.2 创建、使用和共享资源的权利322
19.3 因使用标准而招致的版权和专利侵权行为324
19.4 对个人的保护325
19.5 许可问题326
19.6 未经许可的数据330
19.7 隐私策略332
19.8 案例研究:大数据的时效性333
19.9 案例:哈瓦苏派的故事334
术语表335
参考文献336
第20章 社会问题338
20.1 公众的大数据感知338
20.2 用大数据降低成本和提高生产效率340
20.3 公众的疑虑342
20.4 从自己做起343
20.5 谁是大数据344
20.6 傲慢和夸张349
20.7 案例研究:公民科学家351
20.8 案例研究:乔治·奥威尔的《1984》354
术语表354
参考文献355

前沿

第2版前言
一切都说过了,但因为大家都没有听,我们不得不回归原点,从头开始。
—Andre Gide

优秀的科学作家总是抓住机会为早期的作品写一部第2版。无论多么努力地尝试,第1版总是会含有不准确,甚至产生误导的言论。随着时间的推移,那些在第1版中看起来很精彩的句子也变成了夸大智慧的例子。那些由于太过微不足道而在原始手稿中没有包含进去的部分现在似乎成了需要被完整阐释的深刻内容。第2版为懊恼的作者提供了纠正这些的机会。
当2013年本书第1版出版的时候,这个领域还很年轻,很少有科学家知道大数据能够做什么。在世界各处,无时无刻不断涌入的数据被存储起来,就像小麦被保存在筒仓中一样。对于数据管理者来说,很显然这些被存储起来的数据是没有任何科学价值的,除非它们通过元数据、标识符、时间戳和一组基本描述符恰当地注释。在这种情况下,本书第1版指出了在大数据收集、注释、组织并展开过程中那些适当且重要的方法。处理大数据的过程伴随着独特的挑战,第1版充满了警告和劝告,旨在引导读者远离灾难。
自第1版出版至今已有数年了,此后有数百本关于大数据主题的书籍相继出版。作为一名科学家,我很失望地发现,现今关于大数据的主题都聚焦于营销和预测分析(例如,“谁有可能购买产品x,由于他们两周前购买了产品y”),以及机器学习(例如,无人驾驶汽车、计算机视觉、语音识别)等问题上。机器学习在很大程度上依赖于那些大肆宣传的技术,如神经网络和深度学习,这两者并没有简化和拓宽我们理解自然界和物质世界的基本法则和原则。在大多数情况下,这些技术使用的都是相对较新的(即新收集的)、标注较差的(即仅提供一个特定的分析过程所需的最小信息)、不被保存以便于公共评估或重复使用的数据。简而言之,大数据已经走上了阻力最小的道路,避免了本书第1版中提出的大多数棘手问题,例如,与公众共享数据的重要性,探索数据对象之间关系(非相似性)的价值,以及创建鲁棒的、不变的且注释良好的数据这一沉重但不可避免的负担。
我当然希望大数据的伟大进步将成为医学、生物学、物理学、工程学和化学领域的根本性突破。为什么大数据的重点从基础科学转向了机器学习?这可能与这样一个事实有关,即包括本书第1版在内的所有书籍都没能为读者提供将大数据原理付诸实践的方法。回想起来,光描述理论,然后寄期望于读者开拓出自己的方法是不够的。
因此,在第2版中,在介绍理论的同时,亦将提供与之相应的实践手段。读者会发现用于实现大数据准备和分析的所有方法都非常简单。在大多数情况下,为了理解计算机方法,需要对编程语言有一些基本的了解。尽管会有疑虑,但Python将作为本书的首选语言。Python的优点如下:
Python是一种免费的、开源的高级编程语言,易于获取、安装、学习和使用,并且适用于所有主流的计算机操作系统。
Python目前非常受欢迎,并且其受欢迎程度似乎越来越高。
Python发行版(例如Anaconda)绑定了数百个非常有用的模块(例如numpy、matplot和scipy)。
Python有一个庞大而活跃的社群,这为Python方法和模块提供了大量的参考文档。
Python支持一些面向对象的技术,这些技术将在第2版中有所讨论。
事物都有其两面性,Python也有缺点:
最新版本的Python并不向后兼容其早期版本。因此,本书中所包含的脚本和代码块适用于大多数Python 3.x版本,但可能不适用于Python 2.x版本及更早版本,除非读者准备花费一些时间来进行代码调整。当然,这些简短的脚本和代码块旨在作为概念的简单演示,不能用于构建应用程序的代码。
内置的Python方法有时优化了速度以利用随机存取存储器(RAM)来保存数据结构,包括通过循环构建的数据结构。对大数据进行迭代可能会耗尽可用的内存,从而导致那些在小数据集上运行良好的Python脚本失败。
Python面向对象的实现允许多类继承(即,类可以是多个父类的子类)。我们将解释为什么在使用Python对大型复杂数据进行编程操作时使用多类继承会引起麻烦,并且给出所对应的补救措施。
本书中描述的每个算法的核心概念都可以在现代计算机上通过任何操作系统、利用主流的编程语言通过几行代码加以实现。本书会提供许多Python代码,并讲解主流的操作系统上被广泛使用的开源应用。本书强调,对于大型复杂数据集上的数据分析,大部分都可以通过简单的方法加以实现,而不需要专门的软件系统(例如,并行化的计算过程)或硬件(例如,超级计算机)。同时,完全不熟悉Python的读者可能会惊奇地发现,当代码很简短并且附有注释的时候,他们能够轻易地读懂Python代码。当然,对于那些主要关注如何掌握大数据原理的读者,可以跳过代码段,不用担心会错过书中的任何理论概念。
第2版同时包含了那些被大数据分析领域的其他书籍所忽视的方法论,包括:
数据准备。如何使用元数据注释数据以及如何创建由三元组组成的数据对象。作为计算科学意义的基本延伸,三元组的概念将被全面地讲解。
与大数据相关的数据结构。涵盖诸如TripleStore、分布式账本、唯一标识符、时间戳、一致性、索引、字典对象、数据持久性、用于数据存储和分布的单向

大数据原理与实践:复杂信息的准备 共享和分析(原书第2版) pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:大数据原理与实践:复杂信息的准备 共享和分析(原书第2版)