欢迎光临
免费的PDF电子书下载网站

大数据挑战与NoSQL数据库技术(大数据技术的学习指南。突破迷局,厘清思路,拥抱变化。) PDF下载

编辑推荐

  本书从理论、系统、应用三个方面详细讲述了大数据的技术知识,并针对NoSQL数据库技术做了深入的分享,是学习大数据技术的地图、指南手册。帮助读者跳出迷局,厘清思路,系统地做好相关知识储备,拥抱大数据时代!

 ;

内容简介

  本书共分为三部分。理论篇重点介绍大数据时代下数据处理的基本理论及相关处理技术,并引入NoSQL数据库;系统篇主要介绍了各种类型NoSQL数据库基本知识;应用篇对国内外知名公司在利用NoSQL数据库在处理海量数据方面的应用做了阐述。本书对大数据时代面临的挑战,以及NoSQL数据库的基本知识做了清晰的阐述,有助于帮助读者整理思路,了解需求,并更有针对性、有选择的深入学习相关知识。

作者简介

暂无

大数据挑战与NoSQL数据库技术(大数据技术的学习指南。突破迷局,厘清思路,拥抱变化。) PDF下载

目录

第1章 概论 ;

1.1 引子 ;

1.2 大数据挑战 ;

1.3 大数据的存储和管理 ;

1.3.1 并行数据库 ;

1.3.2 NoSQL数据管理系统 ;

1.3.3 NewSQL数据管理系统 ;

1.3.4 云数据管理 ;

1.4 大数据的处理和分析 ;

1.5 小结 ;

参考文献 ;

理 论 篇

第2章 数据一致性理论 ;

2.1 CAP理论 ;

2.2 数据一致性模型 ;

2.3 ACID与BASE ;

2.4 数据一致性实现技术 ;

2.4.1 Quorum系统NRW策略 ;

2.4.2 两阶段提交协议 ;

2.4.3 时间戳策略 ;

2.4.4 Paxos ;

2.4.5 向量时钟 ;

2.5 小结 ;

参考文献 ;

第3章 数据存储模型 ;

3.1 总论 ;

3.2 键值存储 ;

3.2.1 Redis ;

3.2.2 Dynamo ;

3.3 列式存储 ;

3.3.1 Bigtable ;

3.3.2 Cassandra与HBase ;

3.4 文档存储 ;

3.4.1 MongoDB ;

3.4.2 CouchDB ;

3.5 图形存储 ;

3.5.1 Neo4j ;

3.5.2 GraphDB ;

3.6 本章小结 ;

参考文献 ;

第4章 数据分区与放置策略 ;

4.1 分区的意义 ;

4.1.1 为什么要分区 ;

4.1.2 分区的优点 ;

4.2 范围分区 ;

4.3 列表分区 ;

4.4 哈希分区 ;

4.5 三种分区的比较 ;

4.6 放置策略 ;

4.6.1 一致性哈希算法 ;

4.6.2 容错性与可扩展性分析 ;

4.6.3 虚拟节点 ;

4.7 小结 ;

参考文献 ;

第5章 海量数据处理方法 ;

5.1 MapReduce简介 ;

5.2 MapReduce数据流 ;

5.3 MapReduce数据处理 ;

5.3.1 提交作业 ;

5.3.2 初始化作业 ;

5.3.3 分配任务 ;

5.3.4 执行任务 ;

5.3.5 更新任务执行进度和状态 ;

5.3.6 完成作业 ;

5.4 Dryad简介 ;

5.4.1 DFS Cosmos介绍 ;

5.4.2 Dryad执行引擎 ;

5.4.3 DryadLINQ解释引擎 ;

5.4.4 DryadLINQ编程 ;

5.5 Dryad数据处理步骤 ;

5.6 MapReduce vs Dryad ;

5.7 小结 ;

参考文献 ;

第6章 数据复制与容错技术 ;

6.1 海量数据复制的作用和代价 ;

6.2 海量数据复制的策略 ;

6.2.1 Dynamo的数据库复制策略 ;

6.2.2 CouchDB的复制策略 ;

6.2.3 PNUTS的复制策略 ;

6.3 海量数据的故障发现与处理 ;

6.3.1 Dynamo的数据库的故障发现与处理 ;

6.3.2 CouchDB的故障发现与处理 ;

6.3.3 PNUTS的故障发现与处理 ;

6.4 小结 ;

参考文献 ;

第7章 数据压缩技术 ;

7.1 数据压缩原理 ;

7.1.1 数据压缩的定义 ;

7.1.2 数据为什么可以压缩 ;

7.1.3 数据压缩分类 ;

7.2 传统压缩技术[1] ;

7.2.1 霍夫曼编码 ;

7.2.2 LZ77算法 ;

7.3 海量数据带来的3V挑战 ;

7.4 Oracle混合列压缩 ;

7.4.1 仓库压缩 ;

7.4.2 存档压缩 ;

7.5 Google数据压缩技术 ;

7.5.1 寻找长的重复串 ;

7.5.2 压缩算法 ;

7.6 Hadoop压缩技术 

7.6.1 LZO简介 

7.6.2 LZO原理[5] 

7.7 小结 

参考文献 

第8章 缓存技术 

8.1 分布式缓存简介 

8.1.1 分布式缓存的产生 

8.1.2 分布式缓存的应用 

8.1.3 分布式缓存的性能 

8.1.4 衡量可用性的标准 

8.2 分布式缓存的内部机制 

8.2.1 生命期机制 

8.2.2 一致性机制 

8.2.3 直读与直写机制 

8.2.4 查询机制 

8.2.5 事件触发机制 

8.3 分布式缓存的拓扑结构 

8.3.1 复制式拓扑 

8.3.2 分割式拓扑 

8.3.3 客户端缓存拓扑 

8.4 小结 

参考文献 

系 统 篇

第9章 key-value数据库 

9.1 key-value模型综述 

9.2 Redis 

9.2.1 Redis概述 

9.2.2 Redis下载与安装 

9.2.3 Redis入门操作 

9.2.4 Redis在业内的应用 

9.3 Voldemort 

9.3.1 Voldemort概述 

9.3.2 Voldemort下载与安装 

9.3.3 Voldemort配置 

9.3.4 Voldemort开发介绍[3] 

9.4 小结 

参考文献 

第10章 Column-Oriented数据库 

10.1 Column-Oriented数据库简介 

10.2 Bigtable数据库 

10.2.1 Bigtable数据库简介 

10.2.2 Bigtable数据模型 

10.2.3 Bigtable基础架构 

10.3 Hypertable数据库 

10.3.1 Hypertable简介 

10.3.2 Hypertable安装 

10.3.3 Hypertable架构 

10.3.4 基本概念和原理 

10.3.5 Hypertable的查询 

10.4 Cassandra数据库 

10.4.1 Cassandra简介 

10.4.2 Cassandra配置 

10.4.3 Cassandra数据库的连接 

10.4.4 Cassandra集群机制 

10.4.5 Cassandra的读/写机制 

10.5 小结 

参考文献 

第11章 文档数据库 

11.1 文档数据库简介 

11.2 CouchDB数据库 

11.2.1 CouchDB简介 

11.2.2 CouchDB安装 

11.2.3 CouchDB入门 

11.2.4 CouchDB查询 

11.2.5 CouchDB的存储结构 

11.2.6 SQL和CouchDB 

11.2.7 分布式环境中的CouchDB 

11.3 MongoDB数据库 

11.3.1 MongoDB简介 

11.3.2 MongoDB的安装 

11.3.3 MongoDB入门 

11.3.4 MongoDB索引 

11.3.5 SQL与MongoDB 

11.3.6 MapReduce与MongoDB 

11.3.7 MongoDB与CouchDB对比 

11.4 小结 

参考文献 

第12章 图存数据库 

12.1 图存数据库的由来及基本概念 

12.1.1 图存数据库的由来 

12.1.2 图存数据库的基本概念 

12.2 Neo4j图存数据库 

12.2.1 Neo4j简介 

12.2.2 Neo4j使用教程 

12.2.3 分布式Neo4j——Neo4j HA 

12.2.4 Neo4j工作机制及优缺点浅析 

12.3 GraphDB 

12.3.1 GraphDB简介 

12.3.2 GraphDB的整体架构 

12.3.3 GraphDB的数据模型 

12.3.4 GraphDB的安装 

12.3.5 GraphDB的使用 

12.4 OrientDB 

12.4.1 背景 

12.4.2 OrientDB是什么 

12.4.3 OrientDB的原理及相关技术 

12.4.4 Windows下OrientDB的安装与使用 

12.4.5 相关Web应用 

12.5 三种图存数据库的比较 

12.5.1 特征矩阵 

12.5.2 分布式模式及应用比较 

12.6 小结 

参考文献 

第13章 基于Hadoop的数据管理系统 

13.1 Hadoop简介 

13.2 HBase 

13.2.1 HBase体系结构 

13.2.2 HBase数据模型 

13.2.3 HBase的安装和使用 

13.2.4 HBase与RDBMS 

13.3 Pig 

13.3.1 Pigr的安装和使用 

13.3.2 Pig Latin语言 

13.3.3 Pig实例 

 

媒体评论

前言
为什么写本书
计算机技术已经深刻地影响了我们的工作、学习和生活。大数据及NoSQL技术是当下IT领域最炙手可热的话题,其发展非常迅速,潜力巨大,悄然改变着整个行业的面貌。随着Web2.0技术的发展,微博、社交网络、电子商务、生物工程等领域的不断发展,各领域数据呈现爆炸式的增长,传统关系型数据库越来越显得力不从心。NoSQL数据库技术的出现为眼下的问题提供了新的解决方案,它摒弃了传统关系型数据库ACID的特性,采用分布式多节点的方式,更加适合大数据的存储和管理。
政府和高校都十分重视对大数据及NoSQL技术的研究和投入;在产业界,各大IT公司也在投入大量的资源研究和开发相关的NoSQL产品,与之相应的新兴技术和产品正在不断涌现。这一切都极大地推动了NoSQL技术的发展。
大数据处理和NoSQL技术涉及的内容繁多,目前不同公司也有不同的NoSQL数据库产品,而且某一产品往往是为特定的应用而设计的,并不一定能够适用于所有的场景。很多人在学习的初始阶段需要进行大量的摸索和实践,然而目前这方面系统的参考资料却非常少。为了便于所有想了解和掌握NoSQL技术的朋友学习并在学习的过程中少走弯路,笔者将自己在该领域的经验和积累凝聚成了这本书,希望能够推动大数据处理及NoSQL相关技术在国内的发展。
本书面向的读者
在编写本书时,我们力图使不同背景和职业的读者都能从其中获益。
如果你是专业技术人员,本书将带领你快速度进入大数据处理及NoSQL的世界,全面掌握NoSQL及其相关技术,能帮助你使用NoSQL技术解决当前面临的问题或提供必要的参考。
如果你是高等院校计算机及相关专业的学生,本书为你在课堂之外了解*的IT打开一扇窗户,能帮助你拓宽视野,完善知识结构,为迎接未来的挑战做好知识准备。
在学习本书之前,应具有如下的基础:
有一定的Linux操作系统的基础知识。
有较好的编程基础和阅读代码的能力。
对数据库知识有一定的了解。
如何阅读本书
本书一共包括16章,分为三个部分。其中第一部分为理论篇,包括:大数据产生的背景,数据一致性理论、数据存储模型、数据分区与防治策略、海量数据处理方法、数据复制与容错技术、数据压缩技术和数据缓存技术。此部分重点从理论上介绍、分析大数据管理过程中遇到的各方面问题。第二部分为系统篇,包括:键值数据库、列存数据库、文档数据库、图存数据库、基于Hadoop的数据库管理系统、NoSQL数据库以及分布式缓存系统。该部分以理论篇为基础,根据数据存储模型对数据库类型进行划分,每一部分以具体开源数据库为实例进行介绍,涉及系统的架构、安装以及使用等方面,力图使读者对NoSQL数据库有具体的认识。第三部分为应用篇,包括企业应用以及总结和展望。该部分介绍企业如何使用NoSQL数据库解决自身遇到的问题。
在阅读本书时,读者可以先系统地学习理论篇的知识,目的是对海量数据处理方法有一个很好的理解,在此基础之上,读者可以对后面的章节进行选择性的学习。本书涉及内容较多,从开源数据库方面讲,包括了Dynamo、Redis、Voldemort、Cassandra、Hypertable、CouchDB、MongoDB、Neo4j、GraphDB、OrientDB、HBase、Hive、Pig、MySQLCluster、VolteDB、MS-Velocity、Memcached等将近20个数据库。因此,建议读者可以重点学习感兴趣或有一定需求的数据库系统。当然,如果时间允许,还是建议读者系统地学习本书的内容。
另外,在系统篇的学习过程中,建议读者能够一边阅读,一边根据书中的指导动手实践,亲自实践本书中所给出的编程范例。
致谢
在本书的编写过程中,还有很多NoSQL领域的实践者和研究者为本书做了大量的工作,他们是张林林、许翔、程明、王海涌、顾向楠、吴少辉、杨宁、杨华、吴梦迪、任乔意、於洋、张轩等,在此特别感谢。
在线资源及勘误
本书官方网站为:http://datasearch.ruc.edu.cn/NoSQL/。本书的勘误、讨论以及相关资料等都会在该网站上发布和更新。
在本书的撰写和相关技术的研究中,尽管笔者投入了大量的精力,付出了艰辛的努力,然而受知识水平所限,错误和疏漏之处在所难免,恳请大家批评指正。如果有任何问题和建议,可发送邮件至jiahenglu@gmail.com或jiahenglu@ruc.edu.cn。

陆嘉恒
2012年6月于北京

免费在线读

  1.2 大数据挑战

  什么是大数据?多大的数据量可以称为大数据?不同的年代有不同的答案[2]。20世纪80年代早期,大数据指的是数据量大到需要存储在数千万个磁带中的数据;20世纪90年代,大数据指的是数据量超过单个台式机存储能力的数据;如今,大数据指的是那些关系型数据库难以存储、单机数据分析统计工具无法处理的数据,这些数据需要存放在拥有数千万台机器的大规模并行系统上。大数据出现在日常生活和科学研究的各个领域,数据的持续增长使人们不得不重新考虑数据的存储和管理。

  随着社会计算的兴起,人们习惯于在网上分享和交流信息。比如,社交网站Facebook拥有庞大的用户群,而且在不断增长。这些用户每天发出的日志以及分享的资料更是不计其数,其数据量已经达到PB级别,传统的解决方案已经不能很好地处理这些数据。Facebook自己开发了Cassandra系统,现在又采用HBase,这些针对海量数据的管理系统能够较好地为用户提供服务,而且具有可扩展性和容错性,这是解决大数据问题所需要的性能。微博服务商Twitter也面临大数据的挑战,消息的发送量达到每天数亿条,而查询量则达到每天数十亿次,这要求存储管理系统不仅能够存储大规模数据,而且能够提供高吞吐的读/写服务。Twitter原先使用MySQL数据库,之后由于用户暴增便将数据迁移到NoSQL系统上,尽管NoSQL系统还未成熟,但却是解决海量数据的较为有效的方案。其他的互联网公司同样面临着大数据带来的问题,如Goolge搜索引擎需要处理大规模的网页信息,YouTube则需要存储和提供用户分享的视频数据,维基百科提交用户分享的知识等,这些都涉及大规模数据信息存储与管理。

  随着电子商务的发展,越来越多的人在网上选购商品,商务网站需要存储大量的商品信息和用户的交易信息,涉及大规模的数据。同时网站需要提供迅速的请求响应,以提高用户体验来吸引客户。而且网站还要对这些海量数据进行处理和分析,以便更有针对性地向用户推荐商品,海量数据成为系统构建和业务成败的关键因素。中国商业网站淘宝使用HBase来存储数据,同时不断探索自己的解决之路,开发了支持大数据的数据库系统OceanBase来实现部分在线应用。全球最大的线上拍卖和购物网站eBay也积极寻求海量数据的解决方案,其基于Hadoop建立了自己的集群系统Athena来处理大规模数据,同时开发了自己的开源云平台项目Turmeric来更好地开发和管理各种服务。同时,各大零售公司无论是在线销售还是实体销售,都会注意收集客户的消费信息以便有针对性地提供服务或推荐商品,这些都涉及大规模数据的应用。

  各个领域的科学研究同样面临海量数据的挑战,从生物基因到天文气象,从物理实验到临床医学,得益于测量技术和设备的发展,这些领域在实验或实践中产生了大量的数据,而人们需要对这些数据进行处理分析从而挖掘出有价值的信息,但这不是容易的事情。随着下一代基因测序技术的发展,基因中所蕴含的信息逐渐被人们所发掘,人们获得更多更准确的基因数据,但是如何匹配基因数据,如何从这些数据中挖掘出所需要的信息,这是生物信息学遇到的新挑战。在环境气象研究中,科学家已经收集了数十年甚至上百年的气象环境数据,在这些数据中分析气候的变化需要海量数据处理技术的支持。在医学药物研究中搜集的大量的病人生理数据和药物测试数据,这些数据的规模很大,需要从中分析出有用的信息。在人文社会科学中,社会学家开始注意互联网社交网络上的人际交往和社会关系,其涉及的数据量也是非常巨大的,从海量数据中找出社会学家感兴趣的内容是富有挑战性的。人工智能研究方面,人们希望计算机拥有人类的学习能力和逻辑推理能力,这就需要机器存储大量的经验数据和知识数据,还需要从这些大量数据中迅速获得所需要的内容,并对其进行分析处理,从而做出正确有效的判断。

  如今传感器的广泛使用,数据采集更加方便,这些传感器会连续地产生数据,如实时监控系统、网络流量监测等。除了传感器源源不断地产生数据外,许多领域都会涉及流数据,如经济金融领域中股票价格和交易数据、零售业中的交易数据、通信领域中的数据等都是流数据,这些数据最大的特点就是海量,因为它们每时每刻连续不断地产生,但与其他的海量数据不同,流数据连续有序、变化迅速,而且对处理分析的响应度要求较高,因此对于流数据的处理和挖掘往往采用不同的方法。经济金融领域各个方面都产生海量数据,如证券价格变化和股票交易形成的流数据,企业或个人各种经济活动而产生的数据等。现代经济已经步入海量数据时代,在新时代下可以带来创新和生产率增长,并可能出现新的商业模式。利用好经济生活产生的海量数据,可以发挥重要的经济作用,不仅有利于企业的商业活动,也有利于国民经济,提高国家的竞争力。面对大规模的经济数据,人们除了需要提高获取、存储和分析数据的能力,同时需要保障数据的安全和隐私,但这仍然是巨大的挑战。

  传统的关系型数据库并不能够很好地解决海量数据带来的问题,单机的统计和可视化工具也变得力不从心。一些新的数据管理系统如并行数据库、网格数据库、分布式数据库、云平台、可扩展数据库等孕育而生,它们为解决海量数据提供了多种选择。

  ……

大数据挑战与NoSQL数据库技术(大数据技术的学习指南。突破迷局,厘清思路,拥抱变化。) pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:大数据挑战与NoSQL数据库技术(大数据技术的学习指南。突破迷局,厘清思路,拥抱变化。)