欢迎光临
免费的PDF电子书下载网站

纵横大数据——云计算数据基础设施 PDF下载

编辑推荐

1) NoSQL,NewSQL,Hadoop,InfiniData等各种云计算、大数据技术全面解读。

2) 本书通过对企业大数据战略、数据架构规划、大数据和云计算技术的深入解析,高屋建瓴又深入浅出地解答了大数据,云计算上的重要的方向性和技术性问题。

3) 甲骨文大中华区技术战略部总经理刘松、中科院博导刘世平等6位业内专家联袂推荐。

4) 十二五国家重点图书出版规划项目。

 ;

内容简介

大数据的概念很火,但人们对它的认识却是混乱的:有人说大数据就是指所有的数据,有人说大数据是指线上行为、日志等半结构/非结构化的数据形态,有人说大数据就是以Hadoop为代表的新技术……到底什么是大数据?同样风风火火了很久的云计算与大数据有什么关系?令人眼花缭乱的众多大数据技术的本质是什么?各有什么优缺点?争论不休的“小变大 ”与“大变小”技术策略到底孰正孰邪?企业究竟应该如何定位与使用大数据,难道是为了Hadoop而 Hadoop?未来的技术方向究竟如何? 《纵横大数据(云计算数据基础设施)/云计算实践指南丛书》结合现代企业数据管理实践,从策略、技术、应用、企业数据架构等多个维度,体系化地对大数据及相关技术进行了全面深入的论述:首先对大数据相关概念予以澄清;接着深入剖析各种大数据技术的内在本质,指出其各自的优缺点、适用场景与相互关系;同时对大数据技术“分”与“合”这两种广受争议的技术策略的内在联系进行了分析与讨论,明确指出现代数据管理技术的发展趋势;最后结合大数据时代企业新一代数据架构规划的实际,对大数据及相关技术在企业数据体系中的具体定位给出了切实可行的建议,并且面向云数据中心建设,提出了大数据云——云计算数据基础设施的概念与方法。
  《纵横大数据(云计算数据基础设施)/云计算实践指南丛书》由何小朝编著。

作者简介

何小朝,工学博士,北京大学计算机系博士后,第一届中国软件业十大杰出青年候选人,专著《不是三维——软件项目的设计、开发与管理》,第十六届世界计算机大会电子商务大会数据管理分会主席,中国青年科技工作者协会第二届会员,中国航空史研究会会员,中小企业创新基金评审专家。作者从1992年起从事软件的设计、开发与管理工作,自2002年起,在北美从事软件系统分析与设计工作近七年之久。迄今为止,共负责、参与国内外大中型软件项目20多项,涉及网络与分布式系统、数据管理、嵌入式系统及工业设计与生产等领域,历任中国大中型IT企业总工程师、技术管理部部长、事业部副总经理、BI首席架构师、软件开发总监及北美PPMC技术总监等职。在国内外发表科技论文30余篇,多篇获奖,并被美国《工程索引》(The Engineering Index,简称EI)检索6篇。

纵横大数据——云计算数据基础设施 PDF下载

目录

第1部分 大数据概论
第1章 大数据与云计算
1.1 云计算概论
1.2 大数据概论
1.2.1 现代数据管理需求分析
1.2.2 大数据的引入
1.2.3 大数据的定义与特征
1.2.4 大数据与互联网
1.2.5 大数据战略、大数据与大数据技术
1.3 大数据的技术实现——云计算
1.4 本章小结
第2章 关系数据库的挑战与应对
2.1 关系数据库技术的核心特征
2.2 主流关系数据库的挑战

免费在线读

“云计算”与“大数据”应该说是目前IT界最为热门的两个概念了。云计算以各种软硬件资源新的消费与交付模式为核心理念,被普遍认为将会成为未来社会最为深远的革新。而现实却是:在多“云”的天空,成功的实践却少得可怜,致使其很多情况下只是充当了一个时髦的噱头。
令人遗憾的是,如今风头已远远盖过“云计算”的“大数据”,其现实情况与此类似。大数据概念最初是伴随着Hadoop等开源技术的推广而出现的,在国内外众多互联网公司依靠它们取得巨大成功的强力推动下,传统数据管理技术的地位受到了严重的挑战,似乎不知Hadoop、不用Hadoop就会落后!但如何才能在本企业或者某个具体需求中正确有效地使用这些新技术呢?这至今依然是众多企业技术决策者的困惑。
大多数企业目前对大数据潮流的热烈响应其实是“雷声大,雨点小”,其中相当一部分是不分青红皂白,纯粹为了Hadoop而Hadoop,很少有产生实际成效的案例。本书认为,要正确回答这些问题,给出合适的决策,必须对这些技术本身进行较为深入的了解与分析,然后结合自己企业的实际,做出自己的判断。任何其他企业的经验都不可以照搬照抄;任何资料中关于各种技术的适用场景描述,即使是正确的,也都有其特殊的上下文环境,不可以当成普遍真理去盲目遵从。这里所说的对技术的了解,并不是指具体如何去使用它,而是指其内在本质、特点与相互联系,这些往往比使用方法更重要,也是本书区别于其他大数据资料的主要特点之一。
首先,让我们看看云计算与大数据的关系,目前人们对此的理解更是混乱不堪,有人认为两者完全不同,有人则认为大数据技术其实就是云计算。对“云”,最开始,人们普遍认为那是一种采用一堆闲散资源完成一件重大任务的技术。后来,人们又意识到现代社会对“云”的诠释,其实更多的是指一种以服务为主的商业模式,而不是一种技术。现在,绝大多数人对“云”的理解停留于此,认为“云计算”与技术无关的人大都是这种思路。但在对“云”业务模式的实践中却发现,要搞“云”服务,必须从技术手段与商业模式两个维度同时入手才有意义,只拥有其中任何一个方面都是不行的,甚至可以说前者要比后者重要得多。大多数情况下,在“云”能适用的领域内,如果没有前者,后者所能提供的服务水平自然也就很有限,从而也就自然失去了“云”的含义。所以说,云计算的本质是商业模式,但其核心却仍然是技术问题。
而云在技术层面的核心问题又是什么呢?有人认为是“小变大”的分布式计算,有人认为是“大变小”的虚拟化,而本书认为,云计算最核心的问题是数据,具体地讲,是现代业务环境下的数据管理问题,也就是能实现海量、多类型、高负载、高性能、低成本需求的数据管理技术,这实际上就是传统数据管理技术在现代的最大挑战。这其中最耀眼的,就是各种新兴的大数据家族成员的出现,包括开源体系的Hadoop、各种NoSQL数据库、NewSQL数据库(关系数据库联邦)、分布式文件系统等,甚至还包括非开源体系的新一代关系数据库。这样看来,“大数据”应该是“云计算”业务模式得以实现在数据管理层面的核心技术支撑,两者密不可分。
而从纯技术的角度看,“云计算”概念最初出现时就是指采用网络互联起来的设备共同完成一项庞大任务的技术策略,而Hadoop等流行大数据技术的核心思路大多如此。因此,我们又可以说:“云计算”是大数据的技术实现方法。这便是云计算与大数据的联系,两者无论是在业务上,还是技术上,都是相互依存的。一句话,无论叫什么名称,其实都是代表现代IT发展的最新进展而已。
再来看看各种流行的大数据技术本身,包括Hadoop,NoSQL,NewSQL,甚至一些新一代的关系数据库等。对它们,在现代数据管理领域内,目前的状态却是:人们普遍困惑的并不是能不能掌握这些技术的具体用法,而是到底什么时候,在什么场景下,如何定位与使用这些技术?这主要表现在以下几个方面。
一是如何定位新旧技术。即指新兴的以Hadoop为代表的开源技术,与传统的关系数据库技术,到底是新技术彻底颠覆传统技术,还是两者共存?如果是共存,如何共存?这是目前各个企业普遍感到困惑的最重要的问题。
二是部分技术人员对新事物只是盲从。大家在应用实践中或多或少地会遇到一些困难,于是很多技术人员就会把希望寄托在新出现的技术上,认为只要一用上如Hadoop或NoSQL这些新东西,目前的问题就会迎刃而解。接下来就立即紧张地投入到新技术的学习与使用上去,而不做是否适合自己需求的合理判断。很显然,这种对新技术的崇拜是盲目的。
三是各种技术之间出现了互相攻击、互相否定的态势。一度以来,传统的主流关系数据库(如Oracle,DB2等)在实践中出现了一些问题,主要是对高负荷环境下的海量数据应用出现了力不从心的现象,同时,其水平扩展性的限制与高昂的成本问题使客户越来越难以忍受。于是,一些非关系型的NoSQL数据库,或者一些低端数据库集群方案(如MySQL集群)就在一些场合替代了主流的商业数据库,并且表现出很优秀的性价比;另外,有些企业在分析领域也出现了以Hadoop MapReduce等开源产品全面替代关系型数据仓库的现象。于是,便出现了一种思潮,认为关系数据库最终将退出历史舞台。而另有一部分人则认为,所谓极其成功的新技术,只是昙花一现的暂时现象而已,传统的关系数据库经过改良以后,依然会是数据管理领域的王者,其他的技术会像30多年前关系数据库与其他数据管理技术之争的结果一样,逐渐消失。这些观点中,大多都是凭直觉、凭感觉、凭个人经验的判断得出,虽然不能说是武断,但如果没有令人信服的技术分析做支撑,就很难说谁对谁错。
四是新技术本身在实践中也出现了很多的问题。例如Hadoop MapReduce,虽然已经出现了Hadoop 2.0中的各项重要改进,但相信只要是真正用过它的人都知道,其在方便性、可靠性、可用性、效率等方面都还很不尽如人意。笔者记得一位很熟悉Hadoop的朋友说:“如果企业能用关系数据库解决问题,就尽量不要用它!”再如Twitter放弃了用Cassandra替代MySQL的决策,Digg使用Cassandra后出现的一系列严重问题等,都使很多人开始重新审视这些新技术。
其实,究其根本,以上现象出现的主要原因是:人们只是去学习如何使用这些新技术,却很少独立思考,对它们进行较为深入的学习与剖析;很少在设计思想、技术架构、内在本质等方面将它们与其他技术进行对比,以能在真正掌握后,做出属于自己、适合自己的判断。而这些又正是本书的主体内容。
如果在数据库技术领域继续探究,会发现NoSQL技术虽然适合海量数据的快速存取,却无法满足较复杂的关系模型数据管理及人们对习惯使用SQL语言的要求,而标准的关系数据库在水平扩展性上又严重受限。那么,是否存在一种技术,既可以使用关系模型存储数据,使用SQL操作数据,又可以像NoSQL一样方便扩展?于是,本书还与读者分享了笔者自主研发的一个关系型云数据库的设计与实践,它既不同于目前流行的Hadoop/NoSQL等开源技术,也不同于传统的关系数据库,是一种介于两者之间的技术模式,目前的状态正好满足Hadoop与传统关系数据库都不太适用的企业级海量历史数据管理的需求,并已经在实践中取得一定的成果。接着,由该自主产品的设计实践活动出发,我们产生了对Hadoop本身许多固有技术问题更大胆的、更进一步的深入思考:PB级海量数据的批量分析能不能比Hadoop再提高一个数量级,例如,达到秒级?在保守的认识中,这样的要求似乎是不合理的,也是不可能实现的。然而大数据领域最新的技术进展—Hadoop的缔造者Google近年来一系列更前沿的、被称为“Google新三驾马车”的研究成果,通过模式(Schema)的回归与精巧的设计,已经向这样似乎是“不可能的任务”的宏伟目标迈出了一大步。这使我们意识到:技术的发展瞬息万变,Hadoop本身已不见得有多么先进了,想要在实践中做出正确的决策,就必须不断学习,勇于创新,不断经历破与立的过程,而不能故步自封,原地不动。
除了需要对各种大数据技术手段进行深入剖析以外,当今IT界还在云计算技术两个不同的技术策略上有着广泛的争议,即“分”为云与“合”为云,前者是指数据切分后以小变大,后者是指以大变小,将分散的小资源集中整合起来管理后,再将资源进行统一的按需调度与分配。两者都称自己是云计算技术(或者说是大数据技术)的正宗,相互攻击与否定的现象极为激烈,并且各自都有坚实的成功实践为基础。表现最明显的就是以淘宝为代表的新兴互联网技术力量与IBM、Oracle等老牌的数据库厂商之间关于以“分”为主的开源技术及以“合”为主的一体机技术之间的争论与竞争,可以说已经到了白热化的阶段。他们各说各话,各有千秋,已经成为企业技术决策者的主要困惑之一。而实际上,经过研究与分析,很容易就可以发现,他们所争论的“分”与“合”,看起来是完全相反的,实际上并不矛盾,其实是你中有我,我中有你,两者是有机结合的统一体,在现代数据管理的需求中都有各自的定位。企业所要做的并不是对技术策略进行非你即他的选择,而是根据自己的实际情况与需求,对各种技术与产品进行合理的定位;同时,更加重要的工作并不是某一项技术的正确定位与使用,而是能站在云数据中心建设的高度,将传统关系数据库资源与Hadoop集群资源集中起来形成PaaS平台,再对外提供分散的、数据相关的云服务,包括数据库云与Hadoop平台云,可以将之统称为大数据云。将大数据的话题提高到这样的层面,虽然相关的资源池调度与分配技术也非常重要,但更重要的却已经是面向云计算的大数据服务模式了。
另一方面,虽然关系数据库将与Hadoop等技术共存的思想被大多数人接受,也是本书所认同的观点,但广大读者可能还注意到一个现象:新兴的Hadoop/NoSQL等非SQL技术在不断发展的过程中,已经在逐步引进一些原本属于SQL技术体系的功能,如索引与事务;而关系数据库领域,也在逐步将这些新兴的技术引入其技术体系,如AsterData与最新Oracle 12C所具备的InDB MapReduce功能,都是除原有的SQL引擎以外,在其数据库内引入MapReduce处理引擎。那么,未来数据管理技术的发展趋势究竟如何呢?我们说,在物理基础设施上,分布式集群架构应该是未来发展的大趋势,而在软基础设施层面,虽然SQL与非SQL技术体系在相当长的时间内会共存,但未来的趋势是相互融合的。现在看来,起码对数据管理技术来讲,开源是大趋势,摒弃产品销售为主导的商业模式,以技术服务为主体应该是各大厂商应该尽早考虑的策略。
在本书最后,笔者结合企业数据架构规划的实际,针对当今各个企业在响应大数据潮流时最为关心、最为困惑的问题:“到底如何在本企业实施与推广大数据”给出了切实可行的建议。可以看到,企业引入大数据的本质就是:以适合更多更广的数据源,以及提供更强大的数据管理处理能力为目标,面向新时代的业务规划(如互联网金融),对现有数据体系的各个层面(包括采集、传输、加工、集成、分析、展现等)进行全面改造,推出大数据时代的新一代企业级数据架构,并将其作为现代企业IT架构的重要组成部分之一。笔者认为,企业引入云计算与大数据的战略思想应该是:“业务上是改造,技术上是改进;业务上是创新,技术上是补充”,仅供企业参考。
最后借此机会向王建波、李鹏、葛荪葳等朋友表示感谢,与他们的讨论使我受益匪浅,也一并感谢所有对我的写作有过帮助的人。希望本书是一个成功的尝试,同时也希望能为广大读者与企业的相关设计、规划与实践活动提供有用的借鉴与帮助。

何小朝
2014年2月

纵横大数据——云计算数据基础设施 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:纵横大数据——云计算数据基础设施