大数据：规划、实施、运维 PDF下载

编辑推荐

展现作者在国内外大数据*线的实战经验，面向不同行业的共性诉求来指导读者大数据该怎么做，并阐明大数据发展的误区。本书对大数据，从经济价值、商业模式、框架搭建、数据挖掘、网络布置、安全防护、人员能力和后续运维管理多个维度，以及基础设施、中间件、重点应用等多个层面进行系统阐述。；

内容简介

你是不是有这样的困惑：“读了不少关于大数据的书，发现这大数据既可以用于竞选美国总统，又能够预测禽流感，还能卖啤酒和尿不湿，又是围棋高手……大数据好像什么都能干耶！可是咋整呀？大数据多大为大呀？大数据能赚钱不？……唉，怎么还是一头雾水。”本书将为你答疑解惑。本书将展现作者在国内外大数据*线的实战经验，面向不同行业的共性诉求来指导读者大数据该怎么做，并阐明大数据发展的误区。本书对大数据，从经济价值、商业模式、框架搭建、数据挖掘、网络布置、安全防护、人员能力和后续运维管理多个维度，以及基础设施、中间件、重点应用等多个层面进行系统阐述。帮助决策者将大数据概念落地，建立起理性的预期、合理的规划，并*终收获满意的经济效益。企业正面临从传统IT转入大数据环境这一不可避免的范式变化，恰好为我国追赶发达国家信息化建设带来了契机。本书以企业共同关注的客户关系管理（CRM）为实例谈大数据落地，利用大数据采集、分析、决策以达到客户维系拓展、精准营销和创新产品的目的，提出一整套从规划到实施再到后续运维的技术路线和策略。并用一个已上线的实例将各部分内容串起来综合展示，以解决大数据热潮中的“老虎吃天，无处下爪”的窘境。这对于大数据的正确理解，企业信息系统的建立，以及相应的商业模式改变都具有实际指导意义。

作者简介

谢朝阳，美国弗吉尼亚理工学院暨州立大学博士，中组部“千人计划”特聘专家。于美国硅谷工作20余载，历任Sun、Intel、Sony等公司研发和技术管理高级职务，履历涵盖了信息技术领域内的产品研发、工程实践、市场推广等多个环节。曾任中国数据中心联盟云计算专家委员会主任委员，运营专家委员会主任委员，大数据专家委员会副主任委员，领导组建了中国电信云计算公司并担任首任总经理。现任中国电子科技集团大数据首席专家，上海华东电脑CTO及上海华讯网络系统有限公司董事、高级副总裁，兼任国家数字化学习工程实验室特聘教授。著有本书的姊妹篇《云计算：规划、实施、运维》。

大数据：规划、实施、运维 PDF下载

第1篇 大数据导论 1
第1章 初识大数据 5
1.1 大数据概念谈 7
1.1.1 大数据的定义 7
1.1.2 大数据发展现状 10
1.1.3 大数据建设需求分析 10
1.1.4 大数据建设目标 11
1.1.5 机器学习与人工智能 11
1.2 大数据的科学性 12
1.3 客户关系管理 18
1.4 大数据的理解误区 21
1.5 小结 29
第2章 大数据产业链初探 30
2.1 现金流与产业模式 31
2.2 国外IT企业 33
2.3 国内IT企业 35
2.4 开源软件 36
2.5 小微企业 39
2.6 政策制定者 41
2.7 小结 43
第2篇 规划篇 44
第3章 大数据体系规划 47
3.1 大数据技术体系 48
3.1.1 大数据采集与预处理 49
3.1.2 大数据存储 52
3.1.3 大数据计算 56
3.1.4 大数据分析 58
3.1.5 大数据治理 64
3.1.6 大数据安全保障 68
3.1.7 大数据应用支撑 73
3.2 大数据共性技术重点课题 76
3.2.1 开放域数据采集与共享 76
3.2.2 多源异构数据分析技术 78
3.2.3 异构计算模式集成技术 82
3.2.4 数据安全与隐私保护 86
3.3 大数据风险管控 90
3.3.1 企业大数据建设风险分析 90
3.3.2 大数据安全标准体系框架 90
3.3.3 大数据安全标准规划 91
3.4 小结 94
第4章 大数据技术要求 95
4.1 大数据总体架构 98
4.1.1 背景概述 98
4.1.2 现状分析 98
4.1.3 总体目标 99
4.1.4 技术架构 100
4.1.5 实施指引 102
4.2 采集要求 104
4.2.1 功能架构 104
4.2.2 技术架构 105
4.2.3 处理技术 106
4.2.4 场景应用 111
4.2.5 接口协议 113
4.2.6 接口约定 113
4.2.7 性能指标 116
4.3 基础能力要求 117
4.3.1 总体概述 117
4.3.2 基础框架 119
4.3.3 能力开放 135
4.3.4 性能指标 141
4.4 核心处理能力要求 142
4.4.1 总体概述 142
4.4.2 数据模型 149
4.4.3 数据处理 152
4.4.4 数据质量 155
4.4.5 系统性能 158
4.5 需求与项目管理 160
4.6 小结 161
第3篇 实施篇 163
第5章 大数据并行计算框架 166
5.1 并行计算技术 167
5.1.1 基本命题 167
5.1.2 设计模式分类 170
5.1.3 关键技术点 173
5.2 MapReduce计算技术 177
5.2.1 处理模型设计原则 177
5.2.2 主要功能与技术设计 178
5.3 Hadoop MapReduce设计与工作模式 181
5.3.1 程序执行模式 181
5.3.2 作业调度模式 183
5.3.3 执行框架及流程设计 186
5.4 Hadoop MapReduce组件接口 187
5.4.1 InputFormat 187
5.4.2 InputSplit 188
5.4.3 RecordReader 189
5.4.4 Mapper 190
5.4.5 Combiner 192
5.4.6 Partitioner 193
5.5 小结 193
第6章 大数据分布式处理系统 194
6.1 Hadoop系统平台 195
6.1.1 分布式结构设计 195
6.1.2 Hadoop生态系统 196
6.2 HDFS分布式文件系统 200
6.2.1 系统架构 200
6.2.2 可靠性设计 203
6.2.3 文件存储组织 205
6.2.4 数据读写过程 207
6.2.5 文件系统操作 209
6.3 HBase分布式数据库 211
6.3.1 技术特点 211
6.3.2 系统结构设计 212
6.3.3 数据存储模型 213
6.3.4 查询模式 215
6.3.5 数据表设计 217
6.3.6 RegionServer配置 218
6.4 小结 222
第7章 大数据存储 223
7.1 磁盘阵列技术 224
7.2 数据存储接口 225
7.2.1 对象存储 225
7.2.2 裸设备存储 226
7.2.3 块存储 227
7.3 存储集群架构 228
7.3.1 共享与非共享型 228
7.3.2 对称与非对称式 229
7.3.3 自助式与服务式 230
7.3.4 SPI与SFI 231
7.3.5 串行方式与并行方式 232
7.4 数据存储技术本质 233
7.4.1 三网统一理论 234
7.4.2 并行概念理解 236
7.4.3 集群分层架构 238
7.5 数据分级存储探讨 238
7.5.1 超融合 238
7.5.2 冷数据 239
7.5.3 平台架构 241
7.5.4 应用场景 248
7.6 小结 249
第8章 机器学习与人工智能 250
8.1 数据挖掘 251
8.1.1 数据分类采集 253
8.1.2 模式类型设计 258
8.1.3 模式价值分析 261
8.1.4 系统关键技术 262
8.2 机器学习 264
8.2.1 算法分类 265
8.2.2 合适算法选择 265
8.2.3 程序开发设计 266
8.3 人工智能 267
8.3.1 模式定义 268
8.3.2 人工智能举例 269
8.4 小结 276
第4篇 运维篇 277
第9章 大数据集群网络架构 280
9.1 现有数据中心网络架构 281
9.1.1 架构分析 281
9.1.2 存在弊端 281
9.2 大数据网络设计要点 283
9.2.1 大数据业务分析 283
9.2.2 大数据网络流量模型 284
9.2.3 大数据网络新需求 286
9.3 新兴网络技术 287
9.3.1 SDN 287
9.3.2 NFV 291
9.3.3 VXLAN 292
9.3.4 InfiniBand 295
9.4 小结 297
第10章 大数据安全 298
10.1 大数据安全挑战 299
10.2 基础设施安全 300
10.2.1 存在威胁 300
10.2.2 虚拟化安全 301
10.3 数据安全 302
10.3.1 数据采集安全技术 302
10.3.2 数据存储安全技术 303
10.3.3 数据挖掘安全技术 307
10.3.4 数据发布安全技术 309
10.4 大数据平台Hadoop安全 311
10.4.1 Hadoop安全问题概述 311
10.4.2 Kerberos概述 313
10.4.3 Kerberos认证过程 313
10.4.4 Hadoop安全机制 314
10.4.5 Kerberos的优缺点 316
10.5 小结 317
第11章 大数据备份与恢复 318
11.1 数据备份与恢复 319
11.1.1 数据备份 319
11.1.2 数据恢复 323
11.2 分布式存储系统备份与恢复 324
11.2.1 概述 324
11.2.2 HDFS数据备份策略 328
11.3 小结 330
第12章 大数据环境的监管 331
12.1 概述 332
12.2 大数据集群配置管理 333
12.3 大数据集群监控 337
12.3.1 大数据监控特点 337
12.3.2 监控系统 338
12.3.3 监控系统建立途径 341
12.3.4 商业监控软件 342
12.3.5 开源监控软件 343
12.3.6 传统网络管理软件：NetEagle 352
12.3.7 统一管理平台：UMP 354
12.4 大数据日志分析 356
12.5 小结 359
第13章 大数据的运维方法 361
13.1 运维服务 362
13.2 运维流程模型 363
13.2.1 故障排查 363
13.2.2 紧急事故管理 366
13.2.3 处理连锁故障 368
13.3 运维人员 371
13.3.1 需要具备的能力 371
13.3.2 任务内容 372
13.4 自动化运维 374
13.4.1 自动化运维价值 374
13.4.2 自动化运维工具 376
13.5 小结 379
第5篇 实例篇 380
第14章 Oracle MoviePlex 大数据规划 383
14.1 案例概述 384
14.1.1 案例背景 386
14.1.2 架构规划 387
14.2 大数据组件介绍 395
14.2.1 Cloudera的CDH 396
14.2.2 Cloudera管理器 397
14.2.3 Oracle大数据连接器 398
14.2.4 Oracle大数据加载器 398
14.2.5 Oracle大数据整合器 400
14.2.6 Oracle R语言连接器 400
14.2.7 Oracle NoSQL数据库 401
14.3 小结 402
第15章 Oracle MoviePlex大数据实施 404
15.1 环境准备 405
15.1.1 MoviePlex环境部署 405
15.1.2 MoviePlex环境初始化 409
15.2 案例演示 413
15.2.1 配置Oracle Big Data SQL 413
15.2.2 建立存放在HDFS日志表 414
15.2.3 HIVE访问HDFS和NoSQL 416
15.2.4 Oracle Big Data SQL新功能 418
15.2.5 Oracle Big Data安全策略 420
15.2.6 Oracle分析SQL 422
15.2.7 Oracle SQL模式匹配 423
15.2.8 创建汇总数据集 425
15.2.9 Oracle 12c SQL解析特点 426
15.3 推荐系统 428
15.3.1 百万美元大奖赛 428
15.3.2 技术细节 429
15.4 小结 433
第16章 Oracle MoviePlex大数据运维 434
16.1 集群 436
16.1.1 Hadoop 436
16.1.2 ZooKeeper 439
16.2 文件系统和非关系数据库 442
16.2.1 HDFS 443
16.2.2 HBase 444
16.2.3 NoSQL 446
16.2.4 Kafka 449
16.3 中间件 451
16.3.1 WebLogic 451
16.3.2 HUE 454
16.3.3 Solr 456
16.4 数据转换 458
16.4.1 Hive 458
16.4.2 Impala 460
16.4.3 Sqoop2 462
16.5 资源整合调度 463
16.5.1 Oozie 463
16.5.2 YARN 464
16.6 小结 467
第6篇 明天的大数据 468
第17章 大数据面临的挑战 470
17.1 可靠性挑战 472
17.2 可扩展性挑战 473
17.3 系统安全挑战 473
17.4 节能降耗 475
17.5 算法挑战 477
17.6 测不准原理 477
17.7 小结 478
第18章 大数据应用 479
18.1 客户关系与供求管理 480
18.2 科学研究 483
18.3 教育大数据应用 485
18.4 区块链与加密货币 490
18.5 小结 493
结束语 494
附录A 安装Cloudera Apache Hadoop 502
A.1 环境准备 504
A.1.1 Cloudera Manager架构 504
A.1.2 服务器环境准备 504
A.1.3 安装介质下载 505
A.1.4 本地yum源搭建 505
A.2 安装Cloudera Manager Server 506
A.3 部署Hadoop集群 507
A.4 安装结果 508
附录B 在Matlab中应用 MapReduce 509
B.1 datastore简介 510
B.2 搜寻需要的项 511
B.3 MapReduce简介 512
B.4 如何运用MapReduce进行运算 512
B.5 MapReduce中对于键的使用 514
B.6 使用mapreduce计算分组指标 514
B.7 输出结果可视化 516
附录C 从AlphaGo到 AlphaZero 518
参考文献 526

前沿

你是不是有这样的困惑：“读了不少关于大数据的书，发现这大数据既可以用于竞选美国总统，又能够预测禽流感，还能卖啤酒和尿不湿，又是围棋高手……大数据好像什么都能干耶！可是咋整呀？大数据多大为大呀？大数据能赚钱不？……唉，怎么还是一头雾水。”
当你拿到这本书就对了。大数据，大数据，多大算大呢？当所要处理的数据量超过了现有的计算环境的数据处理能力时，就是大数据了。它可以是ZB、EB、PB、TB级的，也可以是GB级的。当然，如果你的资金足够充裕，可以买得起TB级的内存、上百个处理器插槽以及海量的存储设备，那对别人来说是大数据，对你而言可能就只是小数据了。
大数据本身就是人类求知的过程，从数字，到数据，到信息，到知识，再到知识的运用，而后，优劣有别的运用结果又反馈到数据中，周而复始。其实，大数据所面临的场景只有两种：已知和未知。在已知的场景下需要累积大量的样本，或者，在有公认规则的前提下—如棋艺类，按照规则自己生成样本，AlphaZero就属于这一类。而未知的场景就只能是做预测了。预测究竟能有多准？或许“Most likely”是最保险的答案。大数据既没有预测到美国总统特朗普的当选，也没有准确预测到埃博拉，沃尔玛也从未把啤酒和尿不湿放在一起。预测不准是常态，预测准是概率事件。
国内的IT热潮一波接着一波，俨然就像一场场运动。先是云计算，接着又是大数据。各路玩家都想追一下这些时髦热词的风潮，生怕赶不上，纷纷试着寻找将大数据整合到自身IT系统中的可能性。而原本的IT公司和从业者更是绞尽脑汁地想要在大数据业务中开拓新的市场。媒体对大数据产业未来几年的发展更是持有过热的描述，甚至对2020年的大数据产业规模给出了5万亿元的惊人估值，充满了Big Data = IT的味道。
在此背景下，一大批冠以大数据标题的书籍上架。就当前每年出版的大数据书籍的性质与数量来看，多数都属于通俗类、科普类以及吸引眼球的读物范畴。有些大数据著作中充满着“正确的废话”，而在真正意义上具有实践价值的内容少而又少。然而，其中并不乏受到热捧的作品。
这也在一定程度上反映出读者的求知心理：希望只需遵循一定的阅读捷径，就能消化掌握相关的技术，成为高手。然而，在阅读完众多所谓的技术类书籍后，读者却并不能收获到预期的效果。要么只模模糊糊地“见森林见不到树木”，要么又好像“摸到了树木见不到森林”，越来越迷茫。
究其原因，这类书籍并未本着科学的理念来传播可用于实践的知识与技术，更多的是为了迎合热点话题，以一种美化的甚至扭曲的形式来对新技术做介绍，缺乏严谨性和实用性，缺乏将技术以“科学知识”的高度进行传授的态度，更少了如何将技术落地到实处的关键内容，甚至很多书是作者为了提升职称和赚取稿酬等目的而拼凑的。当然，写书也是一门营生，追逐热潮没有错，可是过热的“泡沫来，泡沫往”却并不可取。对新技术的学习应该落到实处，切不可以讹传讹，Be careful with what you read，就是这个意思。
事实上，大数据的应用实情或许并不像许多例子中所描述的那样可以用来当兴奋剂。现阶段对大数据，从概念到应用，连认识都不清晰，更谈不上数据挖掘的深度。此时如果不对大数据有一个严谨客观的传授，可能会使读者在理解上产生谬误、从路线上走偏，甚至当前已经出现了不少对大数据认识的误区。可以发现，众多谈大数据的书籍中反复引用着几个所谓“经典”的例子，其实只不过是作者们的想象，经不起推敲。甚至一些例子所谈论的情况与大数据这个词汇一点关系都没有，譬如廉价机票、啤酒和尿不湿等。
今天再谈大数据，应该先摒弃盲目乐观以及炒作的成分。如果还是停留在反复谈论具有吸引眼球效果的数字和示例（如谷歌预测流感、奥巴马竞选总统等）上，谈论便失去了意义。
大数据或大数据技术就是工具。要让工具用得好，首先得用对地方，其次要会正确地使用。
基于以上认识，身为一线的数据从业者，作者深感为大数据从业者提供系统的正确的知识与观念正当其时。本书即是在此背景下编写的，旨在根据作者个人多年的从业经验和心得，从科学知识的高度出发，一步步帮助读者将大数据变成看得见摸得着的东西，使之有效实施，真正落地成为有用的工具。
除技术层面的内容外，本书立足于大数据的实践和商业价值，从规划、实施到运维来进行阐述。本书在构想与撰写时，遵循了以下原则。
在对象方面，本书兼顾专业化与大众化，且遵循着可以将本书作为研究生课程教材的撰写原则，在知识的深度和广度上，一方面与高校专业教育水准相符合，另一方面也进阶到大数据专业从业者水准。此外，大数据作为当前的IT技术热点，也是大众非常想了解的领域。为适应大众读者的需要，也为了使大数据技术可以获得更广泛的推广，本书力求要使普通读者也能够理解吸收。因此在取材与撰写时，除在文字上深入浅出外，在用例方面也尽量运用合适的例子把事情说清说透。事实上，本书的大部分内容曾用在作者为华中师范大学和上海交通大学硕士、博士研究生开设的大数据科学应用课程中，收到了良好的反馈。
在内容方面，本书采用将学术性与实用性相结合且更突出实用性的原则。大数据技术可以算作一种理论性的学科技术，需要重视对其所包含理论的探讨。在大数据范畴内，涉及包括统计学、人工智能等在内的各类专业知识，就连大数据这个词本身也是一个含义纷呈、范围甚广、概念抽象的名词。而在大数据技术的另一个层面上，它又是与实践紧密联系的，多数读者希望通过学习大数据书籍来解决最实际的大数据软硬件平台及应用的建设问题，而且大数据这一概念本身也是从实际的数据行业需求中产生出来的。因此，本书在内容上，力求结合理论与实际，既探讨必要的理论知识，给予读者正确的概念，又重视实践的各个环节。
在架构方面，本书采用专门性与普遍性均衡原则。就知识范围而言，大数据技术是多种技术的组合，从单一的需求出发点可以分化到涉及大数据规划、实施、运维全生命周期的各个不同的细分技术环节。本书内容注重大数据技术中的普通知识与深入的专业技术之间的均衡，以指引有志从事大数据行业的读者，在普通知识之外，找到自己感兴趣的方向。为达到这一目标，本书的编排涉及大数据的各个环节，并对每个环节的各细分方向都做了由浅入深的专题介绍。
所谓God creates the numbers, men do the rest。自从有人类文明以来就有了数字，进而有了数据，甚至可以说就有了大数据。为什么今天把大数据提到如此的高度呢？这和数据的产生量以及相应的处理能力（软的、硬的）是分不开的。中国的智能手机用户数量居全球第一，企业的数量也居全球第一，随着IT业的推进和渗透，每时每刻都有海量的数据产生和被保存，这也正是大数据在中国发展的基础。利用好大数据技术，了解数据、管理数据、共享数据、使用数据，可方便人们的日常生活，有助于企业打破信息孤岛，有效地融合各方面的信息，从而为合作伙伴的选择、供应链的管理、目标市场的锁定等提供定量的决策依据。
除论述大数据是什么、能做什么外，更侧重的是怎么做。本书以“用户关系管理（Customer Relationship Management，CRM）”这一企业级应用场景为例，这也是目前大数据应用为数不多的成功案例，深入、细致、完整地展示大数据的各个环节。紧扣如何利用大数据来实现以用户行为来指导销售推送以及生产决策的过程，也就是“推荐系统”，力求使读者能真正将大数据落地于实践。
本书立足于作者所处企业的案例和产品，结合流行的开源软件（Hadoop、Spark等），实打实地谈大数据，并给出了一手的市场情况以及真实的数据。全书从规划到实施再到运维，系统、全面地帮助读者把握大数据落地的各个环节，了解大数据的全貌。大数据的实践是与业务密切关联的，本书以一个实际的大数据项目为专题，将书中讲述的规划、实施、运维穿针引线，Put it all together，向读者完整展示大数据实践过程，拉近读者与大数据的距离，让大数据理念切实与读者的工作相结合。
在市场环境下，任何技术都要围绕商战的“三匹老马”（价格、质量、服务）以及经济社会的三个主要环节（生产、流通、消费）来发展。对于各个企业的大数据活动而言，其目的是寻找一条利用大数据来提高自身业务运作效率、维系现有客户、扩大新客户群的路线，从而达到以大数据促进产业链并实现精准客户管理的效果，做到向数据要效益。直白地说，就是怎样通过多渠道、多维度获取有用的用户消费行为数据，对其进行建模分析，从而做出决策来服务现有的用户，通过给用户推荐其感兴趣的相关产品以达到精准营销，挖掘已有客户的价值。而大数据的高级阶段则是—设计出新的产品。
本书在撰写中秉持以下观点。
1）大数据的定义应该是多层次的。狭义的大数据停留在技术处理的层面；而广义的大数据则包含了大数据产业链的各个环节所提供的产品和服务；泛义的大数据扩展到每个细分的行业大数据中，成为“数据 ”；伪义大数据则以营销为目的，虽不可避免地包含了一部分炒作的成分，但也确确实实起到了一定的推广效用，是一股不可低估的市场力量。
2）做好大数据和做成任何一件事情一样，只有三种方法：Work hard，Work smart，Getting help。Work hard体现在对处理单元性能的提升上，Work smart则是对算法的改进，Getting help是指借助多个处理单元以集群的思维来解决对超大规模数据集的处理。
3）大数据的处理过程可形成一个持续提升的迭代闭环。由原始的数据开始，大数据先将其处理为信息，进而利用算法抽取出其中所蕴含的知识，知识的正确运用可以帮助决策，最终知识的集成和梳理就可以晋升为智慧和文化。而在开展决策实践的过程中，还会产生新的数据，即，数字—数据—信息—知识—应用—数据。因此，上述过程又会进入新的一轮，并不断提升，也就是所谓的波浪式前进、螺旋式上升。
4）大数据并非一次技术的跳跃式飞升。多数IT技术领域在相当长的一段时间内并未出现划时代的本质变化，其技术增强点大都集中在计算能力（