欢迎光临
免费的PDF电子书下载网站

大数据湖最佳实践 PDF下载

编辑推荐

挖掘大数据和数据科学的价值。 数据湖利用大数据技术为企业提供便捷的数据自助服务能力,这是一项别具一格的创新。但这适合每一个公司吗?本书基于与100多个组织的从业者和高管的讨论,涉及的组织类型包括Google、LinkedIn和Facebook这类数据驱动型公司以及政府和传统企业。通过本书,你将了解什么是数据湖,为什么企业需要它,以及如何使用本书中的*实践成功地构建数据湖。 本书作者是Waterline Data的首席技术官兼创始人,他解释了为什么旧系统、旧流程无法再支持企业的数据需求。在关于数据湖实施的一系列文章中,他介绍了来自各行业数据专家的数据湖方案、分析项目、经验以及*实践。 “Alex是位富有远见的数据人。他把他的实践见解融入到本书,探讨了过渡到数据驱动型企业涉及的技术因素、对公司整体的影响以及由此产生的对业务的影响。” ——Keyur Desai TD Ameritrade首席数据官 “本书很好地阐述了各类数据湖的架构,包括它们提供了什么价值,带来了哪些挑战,以及如何应对这些挑战。” ——Jari Koister FICO产品和技术副总裁, 加州大学伯克利分校的数据科学教授

 ;

内容简介

数据仓库、大数据、数据科学的简单介绍。
了解企业建立数据湖的各种途径。
探索如何构建自助服务模型,以及如何让分析师便捷访问数据的*实践。
使用不同的方法来构建数据湖。
了解不同行业专家实现数据湖的方法。

作者简介

Alex Gorelik是Waterline Data的首席技术官和创始人,也是三家初创公司的创始人。他曾经担任Informatica的数据质量部经理,负责管理公司的平台和数据集成技术。此外,他还曾是IBM杰出的工程师,也是Exeros和Acta Technology的联合创始人、首席技术官和工程副总裁。

大数据湖最佳实践 PDF下载

目录

目录
前言 1
第1 章 数据湖概述 7
数据湖的成熟度 9
数据水洼  ;11
数据池  ;12
创建成功的数据湖  ;12
适合的平台 13
适合的数据 14
适合的界面 16
数据沼泽  ;18
成功实施数据湖的路线图  ;20
建立数据湖 20
规划数据湖 21
构建自助服务的数据湖  ;23
构建数据湖  ;28
云上数据湖 29
逻辑数据湖 29
小结  ;34
第2 章 历史背景 35
数据自助服务驱动——数据库的诞生  ;36
分析必要性驱动——数据仓库的诞生  ;39
数据仓库生态系统  ;40
存储和查询数据  ;41
加载数据——数据集成工具  ;47
组织和管理数据  ;51
消费数据  ;57
小结  ;58
第3 章 大数据和数据科学概述 59
Hadoop 引领大数据的历史性转变  ;60
Hadoop 文件系统  ;60
MapReduce 作业中计算和存储如何交互  ;61
Schema on Read  ;63
Hadoop 项目  ;64
数据科学  ;65
你的分析机构应该关注什么?  ;67
机器学习  ;71
可解释性  ;72
变更管理  ;73
小结  ;74
第4 章 建立数据湖 75
为什么是Hadoop 75
防止数据水洼扩散  ;78
利用大数据的优势  ;79
以数据科学为先导  ;80
策略1: 迁移已有功能  ;83
策略2: 为新项目建立数据湖  ;85
策略3: 建立数据治理中心  ;85
哪种策略最适合你?  ;86
小结  ;88
第5 章 从数据池/ 大数据仓库到数据湖 89
数据仓库的基本功能  ;90
用于分析的维度模型  ;91
整合不同源的数据  ;92
使用缓慢变化维保存历史记录  ;93
数据仓库作为历史库的局限性  ;93
迁移至数据池  ;94
数据池中保存历史数据  ;94
在数据池中使用缓慢变化维  ;96
数据池演化为数据湖——加载数据仓库中未包含的数据  ;98
原始数据  ;98
外部数据  ;99
IoT 与其他流式数据  ;102
实时数据湖  ;103
Lambda 架构  ;105
数据转换  ;106
目标系统  ;108
数据仓库  ;109
业务数据存储  ;109
实时应用和数据产品  ;110
小结  ;111
第6 章 自助服务优化  ;112
自助服务起源  ;113
业务分析师  ;115
发现和理解数据——企业数据归档  ;116
建立信任  ;119
数据预置  ;126
为分析准备数据  ;128
数据湖数据整理  ;129
用Hadoop 来准备数据  ;129
数据预处理的常见案例  ;130
分析和可视化  ;133
自助式商业智能的新世界  ;133
新的分析工作流  ;134
门卫向店主的角色转变  ;136
管理自助服务  ;137
小结  ;137
第7 章 数据湖架构  ;139
规划数据湖  ;139
原始区  ;141
产品区  ;142
工作区  ;144
敏感区  ;145
多数据湖  ;146
保持各数据湖独立的优势  ;147
合并多数据湖的优势  ;147
云上数据湖  ;148
虚拟数据湖  ;151
数据联邦  ;151
大数据虚拟化  ;152
消除冗余  ;154
小结  ;156
第8 章 数据湖元数据  ;157
组织数据  ;157
技术元数据 159
业务元数据 164
打标  ;166
自动编目  ;167
逻辑数据管理  ;169
敏感数据管理和访问控制  ;169
数据质量  ;170
连接分散的数据  ;172
建立血缘关系  ;174
数据预置  ;176
创建目录的工具  ;176
工具对比  ;177
数据洋  ;178
小结  179
第9 章 数据访问控制  180
授权与访问控制  181
基于标签的控制策略  182
数据脱敏  186
数据主权与法规  189
自助服务访问管理  191
预置数据  196
小结  204
第10 章 行业案例  205
金融服务大数据  206
消费者、数字化和数据正在改变我们所熟知的金融行业  206
拯救银行  208
新数据提供新机遇  212
使用数据湖的关键过程  215
数据湖为金融服务领域带来的价值  218
保险行业中的数据湖  220
智慧城市  222
医疗大数据  224
作者介绍  227
封面介绍  227

前沿

前言
近些年来,很多企业开始尝试使用大数据和云技术来构建数据湖(data lake),用于支持数据驱动的企业文化和决策,但这些项目经常会陷入停滞甚至失败。因为很多互联网公司的工作方式未必适合这些企业,而市面上又没有全面实用的指南来指导大家如何进行相应的调整。在这个背景下我写了这本书,目的是希望能在这方面提供帮助。
我曾在IBM 和Informatica(主要的数据技术供应商)任管理职务,在Menlo Ventures(一家领先的VC 公司)担任常驻企业家,目前是Waterline(一家大数据初创企业)的创始人兼CTO,在此期间我有幸能和上百位专家、有想法的人、行业分析师以及一线从业者讨论关于成功建立数据湖、培养数据驱动文化的挑战。本书正是我对各个行业(从社交媒体到银行和政府机构)和各种角色(从首席数据官和其他IT 主管到数据架构师、数据科学家和业务分析师)将会遇到的不同场景及其最佳实践的总结。
大数据、数据科学和数据分析实现了数据驱动决策,并有望在许多方面带来前所未有的洞察力和效率,例如我们处理数据的方式、与客户合作的方式以及寻找治愈癌症的方法,但数据科学和数据分析都需要访问历史数据。认识到了这一点,许多公司开始部署大数据湖,将所有数据集中在一个地方并开始保存历史记录,使得数据科学家和分析人员可以访问他们需要的信息,以实现数据驱动的决策。企业大数据湖弥合了不同的现代互联网公司自由文化之间的鸿沟,在这种统一的文化中,数据是所有实践的核心,每个人都是分析师,大部分人都可以对自己的数据集进行编码和处理。
想要取得成功,企业数据湖必须提供三项新的能力:
• 高性价比、可扩展的存储和计算能力,用于在存储和分析大量数据的同时不至于引入过高的计算开销。
• 经济高效的数据获取和治理方式,使得每个人在查找和使用正确数据的同时避免进行编程或手工临时取数,从而避免引入过高的人力成本。
• 分层的、受管理的访问方式,根据不同的用户需求、技术水平和适用的数据管理策略,不同级别的数据可供不同用户使用。
Hadoop、Spark、NoSQL 数据库和基于弹性云的系统是令人兴奋的新技术,它们提供了第一项能力——高性价比、可扩展的存储和计算能力。虽然它们仍处在逐渐成熟的过程中,并面临着任何新技术固有的一些挑战,但它们已迅速趋向稳定并成为主流。然而这些强大的技术并不能提供另外两项能力——经济高效和分层数据访问。因此,当企业创建大型集群并收集大量数据后,最终得到的是数据沼泽而不是数据湖。这是由不可用数据集组成的大型存储库,人们无法查找或理解这些数据集,也无法依赖它做任何决策,因为这太危险了。
本书主要讲解为全面实现大数据湖的三项能力所经历的思考以及最佳实践,讨论了创建和发展数据湖的各种方法,包括数据水洼(data puddle,用作分析沙盒)和数据池(data pond,用作大数据仓库),以及从零开始构建数据湖的方法。书中探讨了自建、云上和虚拟三种不同体系结构数据湖的优缺点,内容包括如何建立不同的区域来存储原始未处理的数据、精心管理和汇总的数据,以及如何管理对这些区域的访问。它解释了如何启用自助服务以便用户能够自助查找、理解和取用数据,如何为具有不同技术能力的用户提供不同的交互,以及如何在此过程中不违反企业的数据管理政策。
目标读者
本书的目标读者是在大型传统企业工作的下面这几类人员:
• 数据服务和治理团队:首席数据官和数据管理员。
• IT 主管和架构师:首席技术官和大数据架构师。
• 分析团队:数据科学家、数据工程师、数据分析师和分析主管。
• 合规团队:首席信息安全官、数据保护官、信息安全分析师和合规检查主管。
本书内容得益于我在30 年的职业生涯中接触过的先进数据技术,以及帮助世界上那些超大型企业解决过的棘手数据问题。它借鉴了世界领先的大数据公司和企业的最佳实践,以及来自一线从业者和行业专家的短文和成功案例,为成功构建和部署大数据湖提供了全面的指导。如果你想充分利用这些令人兴奋的新型大数据技术和方法给企业带来优势,那么本书是一个很好的起点。对于管理层来说,他们可以先读一遍此书,当工作中遇到大数据问题时再来翻阅。对于一线从业者来说,他们可以将此书作为规划和执行大数据湖项目的实用参考。
排版约定
本书采用下述排版约定。
斜体(Italic)
表示新术语、URL、电子邮件地址、文件名和扩展名。
等宽字体(Constant Width)
表示程序清单,在段落中出现则表示程序元素,例如变量、函数名、数据类型、环境变量、语句和关键字。
斜体等宽字体(Constant Width Italic)
表示应该替换成用户提供的值,或者由上下文决定的值。
O’Reilly 在线学习平台(O’Reilly Online Learning)
近40 年来,O’Reilly Media 致力于提供技术和商业培训、知识和卓越见解,来帮助众多公司取得成功。
我们拥有独一无二的专家和革新者组成的庞大网络,他们通过图书、文章、会议和我们的在线学习平台分享他们的知识和经验。O’Reilly 的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境,以及O’Reilly 和200 多家其他出版商提供的大量文本和视频资源。有关的更多信息,请访问http://oreilly.com。
联系我们
请把对本书的评价和问题发给出版社。
美国:
O’Reilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
中国:
北京市西城区西直门南大街2号成铭大厦C座807室(100035)
奥莱利技术咨询(北京)有限公司
这本书有专属网页,你可以在那儿找到本书的勘误、示例和其他信息,地址是:http://bit.ly/Enterprise-Big-Data-Lake。
如果你对本书有一些评论或技术上的建议, 请发送电子邮件到bookquestions@oreilly.com。
要了解O’Reilly 图书、培训课程、会议和新闻的更多信息,请访问我们的网站,地址是:http://www.oreilly.com。
我们的Facebook:http://facebook.com/oreilly。
我们的Twitter:http://twitter.com/oreillymedia。
我们的YouTube 视频: http://www.youtube.com/oreillymedia。
致谢
首先我要对所有与我分享故事、专业知识和最佳实践的专家和从业者们表示深深的感谢,这是一本关于你们的书,也是为你们而写的书!
此外也非常感谢所有帮助我完成本书书写的人,这是我的第一本书,没有你们的帮助我肯定无法完成。感谢:
O’Reilly 团队:我的O’Reilly 编辑Andy Oram,他在我精疲力竭的时候为本书注入了新的活力,并帮助它从意识流转变为连贯的内容;产品编辑Tim McGovern,他帮助此书出版;文案编辑Rachel Head,她让我震惊的是,即便经过了两年多的写作、编辑、重写、评论,以及反复的修改与重写,这本书仍然可以改进那么多。
通过短文分享了自己想法和最佳实践的行业贡献者,你可以在书中相应论文旁找到他们的名字和履历。
以全新的视角、批判性的眼光和行业专业知识为本书做出巨大改进的审校者:Sanjeev Mohan、Opinder Bawa 和Nicole Schwartz。
最后,感谢我的妻子Irina,我的孩子Hannah、Jane、Lisa 和John,我的妈妈Regina,我的朋友以及Waterline 大家庭的各位。如果没有你们的支持和爱,就不会有这本书。

大数据湖最佳实践 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:大数据湖最佳实践