欢迎光临
免费的PDF电子书下载网站

Hadoop大数据解决方案 PDF下载

编辑推荐

本书面向使用Hadoop来执行数据相关作业的任何人,也适合希望更好地从任意数据存储中获取有意义信息的读者。这包括大数据解决方案架构师、Linux系统和大数据工程师、大数据平台工程师、Java程序员和数据库管理员。
Hadoop大数据解决方案 PDF下载 ;

内容简介

"使用Hadoop构建更优秀的大数据解决方案   Hadoop开源且基于Java、几乎没有入门障碍,它提供了迅速占据市场的实用大数据解决方案。 《Hadoop大数据解决方案》由包括已认证Hadoop开发者、Committers和峰会演讲者在内的专家团队编写,可以作为有关该框架流程和功能的自学教程。书中单独介绍了各个组件,*后用实际项目将它们联系起来并构建示例应用。本书跳过数据库开发基础知识,直奔主题,帮助有经验的开发者快速上手,并开始在真实场景中使用Hadoop。 主要内容 ◆ 向你展示使用Hadoop Stack配置存储、用户体验和内存计算的方法 ◆ 解释使用Kafka实时消息和Storm数据流将Hadoop与其他系统集成的方法 ◆ 演示关键安全特性与技术,同时给出保证数据安全的专家建议 ◆ 讲授使用Apache BigTop打包、测试和配置的基础知识,以及使用Ignite更快速执行MapReduce的方法 ◆ 带你领略示例应用构建过程,展示核心组件如何协同工作,同时提供了所有示例代码"

作者简介

暂无

Hadoop大数据解决方案 PDF下载

目录

第1章 Hadoop概述 1
1.1 商业分析与大数据 2
1.1.1 Hadoop的组件 3
1.1.2 Hadoop分布式文件系统(HDFS) 3
1.1.3 MapReduce是什么 4
1.1.4 YARN是什么 5
1.2 ZooKeeper是什么 6
1.3 Hive是什么 7
1.4 与其他系统集成 8
1.4.1 Hadoop生态系统 9
1.4.2 数据集成与Hadoop 11
1.5 小结 16
第2章 存储 19
2.1 Hadoop HDFS的基础知识 20

媒体评论

评论

前沿

序言

Hadoop是一个在Apache 2.0许可证下可用的开源项目。它能在分布式服务器群集中管理和存储超大规模的数据集。Hadoop最具优势的特性之一是其容错性,这使得大数据应用在遇到失败事件时能够继续正常运行。使用Hadoop的另一个优势是可扩展性。这种编程逻辑拥有从单机向大量服务器扩展的潜质,而每台服务器均具备本地计算和存储能力。本书读者对象本书面向使用Hadoop来执行数据相关作业的任何人,也适合希望更好地从任意数据存储中获取有意义信息的读者。这包括大数据解决方案架构师、Linux系统和大数据工程师、大数据平台工程师、Java程序员和数据库管理员。如果你有兴趣学习关于Hadoop的更多知识并且想了解如何抽取特定组件做进一步分析或研究,那么这本书正好适合你。阅读本书的前提 你应该拥有开发经验并且了解Hadoop的基础知识,而且要对在实际环境中应用它感兴趣。示例的源代码可以从www.wrox.com/go/professionalhadoop或者https://github.com/backstopmedia/hadoopbook下载。本书的结构 本书共分为8章,内容如下: 第1章:Hadoop概述 第2章:存储 第3章:计算 第4章:用户体验 第5章:与其他系统集成 第6章:Hadoop安全 第7章:自由的生态圈:Hadoop与Apache BigTop第8章:Hadoop软件栈的In-Memory计算 约定 为帮助你尽可能地理解文章含义并抓住重点,我们在本书中使用了大量约定。文中所使用的样式如下: ● 当介绍新术语和重要词语时,我们会突出展现它们。● 我们像这样展示正文中的代码:persistence.properties。● 我们以此种样式来展示本书中的所有代码片段:    FileSystem fs = FileSystem.get(URI.create(uri), conf);   InputStream in = null;   try {● 我们以这样的字体展示URL: http://
:50075p2p.wrox.com要与作者和同行讨论,请加入http://p2p.wrox.com上的P2P论坛。这个论坛是一个基于Web的系统,便于你张贴与Wrox图书相关的消息和相关技术,与其他读者和技术用户交流心得。该论坛提供了订阅功能,当论坛上有新的消息时,它可以给你传送感兴趣的论题。Wrox作者、编辑和其他业界专家和读者都会到这个论坛上探讨问题。在http://p2p.wrox.com上,有许多不同的论坛,它们不仅有助于阅读本书,还有助于开发自己的应用程序。要加入论坛,可以遵循下面的步骤:(1) 进入http://p2p.wrox.com,单击Register链接。(2) 阅读使用协议,并单击Agree按钮。(3) 填写加入该论坛所需要的信息和自己希望提供的其他信息,单击Submit按钮。(4) 你会收到一封电子邮件,其中的信息描述了如何验证账户,完成加入过程。

加入论坛后,就可以张贴新消息,响应其他用户张贴的消息。可以随时在Web上阅读消息。如果要让该网站给自己发送特定论坛中的消息,可以单击论坛列表中该论坛名旁边的Subscribe to this Forum图标。关于使用Wrox P2P的更多信息,可阅读P2P FAQ,了解论坛软件的工作情况以及P2P和Wrox图书的许多常见问题。要阅读FAQ,可以在任意P2P页面上单击FAQ链接。源代码读者在学习本书中的示例时,可以手动输入所有的代码,也可以使用本书附带的源代码文件。本书使用的所有源代码都可以从站点http://www.wrox.com下载。具体而言,本书的代码可以通过网站http://www.wrox.com/go/professionalhadoop上的Download Code选项卡下载。还可以在站点http://www.wrox.com上通过输入ISBN(本书的ISBN为9781119267171)来获取本书的代码。也可以扫描封底的二维码获取本书的源代码。当前所有Wrox图书的代码下载的完整列表都可以通过www.wrox.com/dynamic/books/download.aspx站点来获取。

下载代码后,只需要用自己喜欢的解压缩软件对它进行解压缩即可。另外,也可以进入http://www.wrox.com/dynamic/books/ download.aspx上的Wrox代码下载主页,查看本书和其他Wrox图书的所有代码。勘误表尽管我们已经尽了各种努力来保证文章或代码中不出现错误,但是错误总是难免的,如果你在本书中找到了错误,例如拼写错误或代码错误,请告诉我们,我们将非常感激。通过勘误表,可以让其他读者避免受挫,当然,这还有助于提供更高质量的信息。请给wkservice@vip.163.com发电子邮件,我们就会检查你的信息,如果是正确的,我们将在本书的后续版本中采用。要在网站上找到本书的勘误表,可以登录www.wrox.com/go/ professionalhadoop,并单击Errata链接。在该页面上可以查看到Wrox编辑已提交和粘贴的所有勘误项。如果在Book Errata页面上没有看到你找出的错误,请进入www.worx.com/contact/techsupport.shtml,并填写表单,发电子邮件,我们就会检查你的信息,如果是正确的,就在本书的勘误表中粘贴一个消息,我们将在本书的后续版本中采用。


Hadoop是一个在Apache 2.0许可证下可用的开源项目。它能在分布式服务器群集中管理和存储超大规模的数据集。Hadoop最具优势的特性之一是其容错性,这使得大数据应用在遇到失败事件时能够继续正常运行。使用Hadoop的另一个优势是可扩展性。这种编程逻辑拥有从单机向大量服务器扩展的潜质,而每台服务器均具备本地计算和存储能力。本书读者对象本书面向使用Hadoop来执行数据相关作业的任何人,也适合希望更好地从任意数据存储中获取有意义信息的读者。这包括大数据解决方案架构师、Linux系统和大数据工程师、大数据平台工程师、Java程序员和数据库管理员。如果你有兴趣学习关于Hadoop的更多知识并且想了解如何抽取特定组件做进一步分析或研究,那么这本书正好适合你。阅读本书的前提 你应该拥有开发经验并且了解Hadoop的基础知识,而且要对在实际环境中应用它感兴趣。示例的源代码可以从www.wrox.com/go/professionalhadoop或者https://github.com/backstopmedia/hadoopbook下载。本书的结构 本书共分为8章,内容如下: 第1章:Hadoop概述 第2章:存储 第3章:计算 第4章:用户体验 第5章:与其他系统集成 第6章:Hadoop安全 第7章:自由的生态圈:Hadoop与Apache BigTop第8章:Hadoop软件栈的In-Memory计算 约定 为帮助你尽可能地理解文章含义并抓住重点,我们在本书中使用了大量约定。文中所使用的样式如下: ● 当介绍新术语和重要词语时,我们会突出展现它们。● 我们像这样展示正文中的代码:persistence.properties。● 我们以此种样式来展示本书中的所有代码片段:    FileSystem fs = FileSystem.get(URI.create(uri), conf);   InputStream in = null;   try {● 我们以这样的字体展示URL: http://
:50075p2p.wrox.com要与作者和同行讨论,请加入http://p2p.wrox.com上的P2P论坛。这个论坛是一个基于Web的系统,便于你张贴与Wrox图书相关的消息和相关技术,与其他读者和技术用户交流心得。该论坛提供了订阅功能,当论坛上有新的消息时,它可以给你传送感兴趣的论题。Wrox作者、编辑和其他业界专家和读者都会到这个论坛上探讨问题。在http://p2p.wrox.com上,有许多不同的论坛,它们不仅有助于阅读本书,还有助于开发自己的应用程序。要加入论坛,可以遵循下面的步骤:(1) 进入http://p2p.wrox.com,单击Register链接。(2) 阅读使用协议,并单击Agree按钮。(3) 填写加入该论坛所需要的信息和自己希望提供的其他信息,单击Submit按钮。(4) 你会收到一封电子邮件,其中的信息描述了如何验证账户,完成加入过程。

加入论坛后,就可以张贴新消息,响应其他用户张贴的消息。可以随时在Web上阅读消息。如果要让该网站给自己发送特定论坛中的消息,可以单击论坛列表中该论坛名旁边的Subscribe to this Forum图标。关于使用Wrox P2P的更多信息,可阅读P2P FAQ,了解论坛软件的工作情况以及P2P和Wrox图书的许多常见问题。要阅读FAQ,可以在任意P2P页面上单击FAQ链接。源代码读者在学习本书中的示例时,可以手动输入所有的代码,也可以使用本书附带的源代码文件。本书使用的所有源代码都可以从站点http://www.wrox.com下载。具体而言,本书的代码可以通过网站http://www.wrox.com/go/professionalhadoop上的Download Code选项卡下载。还可以在站点http://www.wrox.com上通过输入ISBN(本书的ISBN为9781119267171)来获取本书的代码。也可以扫描封底的二维码获取本书的源代码。当前所有Wrox图书的代码下载的完整列表都可以通过www.wrox.com/dynamic/books/download.aspx站点来获取。

下载代码后,只需要用自己喜欢的解压缩软件对它进行解压缩即可。另外,也可以进入http://www.wrox.com/dynamic/books/ download.aspx上的Wrox代码下载主页,查看本书和其他Wrox图书的所有代码。勘误表尽管我们已经尽了各种努力来保证文章或代码中不出现错误,但是错误总是难免的,如果你在本书中找到了错误,例如拼写错误或代码错误,请告诉我们,我们将非常感激。通过勘误表,可以让其他读者避免受挫,当然,这还有助于提供更高质量的信息。请给wkservice@vip.163.com发电子邮件,我们就会检查你的信息,如果是正确的,我们将在本书的后续版本中采用。要在网站上找到本书的勘误表,可以登录www.wrox.com/go/ professionalhadoop,并单击Errata链接。在该页面上可以查看到Wrox编辑已提交和粘贴的所有勘误项。如果在Book Errata页面上没有看到你找出的错误,请进入www.worx.com/contact/techsupport.shtml,并填写表单,发电子邮件,我们就会检查你的信息,如果是正确的,就在本书的勘误表中粘贴一个消息,我们将在本书的后续版本中采用。

免费在线读

1.1 商业分析与大数据商业分析通过统计和业务分析对数据进行研究。Hadoop 允许你在其数据存储中进行业务分析。这些结果使得组织和公司能够做出有利于自身的更好商业决策。为加深理解,让我们勾勒一下大数据的概况。鉴于所涉及数据的规模,它们会分布于大量存储和计算节点上,而这得益于使用Hadoop。由于Hadoop 是分布式的(而非集中式的),因而不具备关系型数据库管理系统(RDBMS)的特点。这使得你能够使用Hadoop 所提供的大型数据存储和多种数据类型。第1 章 Hadoop 概述3例如,让我们考虑类似Google、Bing 或者Twitter 这样的大型数据存储。所有这些数据存储都会随着诸如查询和庞大用户基数等活动事件而呈现出指数增长。Hadoop 的组件可以帮助你处理这些大型数据存储。类似Google 这样的商业公司可使用Hadoop 来操作、管理其数据存储并从中产生出有意义的结果。通常用于商业分析的传统工具并不旨在处理或分析超大规模数据集,但Hadoop 是一个适用于这些商业模型的解决方案。1.1.1 Hadoop 的组件Hadoop Common 是Hadoop 的基础,因为它包含主要服务和基本进程,例如对底层操作系统及其文件系统的抽象。HadoopCommon 还包含必要的Java 归档(Java Archive,JAR)文件和用于启动Hadoop 的脚本。Hadoop Common 包甚至提供了源代码和文档,以及贡献者的相关内容。如果没有Hadoop Common,你无法运行Hadoop。与任何软件栈一样,Apache 对于配置Hadoop Common 有一定要求。大体了解Linux 或Unix 管理员所需的技能将有助于你完成配置。Hadoop Common 也称为Hadoop Stack,并不是为初学者设计的,因此实现的速度取决于你的经验。事实上,Apache 在其网站上明确指出,如果你还在努力学习如何管理Linux 环境的话,那么Hadoop并不是你能够应付的任务。建议在尝试安装Hadoop 之前,你需要先熟悉此类环境。1.1.2 Hadoop 分布式文件系统(HDFS)在Hadoop Common 安装完成后,是时候该研究Hadoop Stack的其余组件了。HDFS(Hadoop Distributed File System)提供一个分布式文件系统,设计目标是能够运行在基础硬件组件之上。大多数企业被其最小化的系统配置要求所吸引。此环境可以在虚拟机(VirtualHadoop 大数据解决方案4Machine,VM)或笔记本电脑上完成初始配置,而且可以升级到服务器部署。它具有高度的容错性,并且被设计为能够部署在低成本的硬件之上。它提供对应用程序数据的高吞吐量访问,适合于面向大型数据集的应用程序。在任何环境中,硬件故障都是不可避免的。有了HDFS,你的数据可以跨越数千台服务器,而每台服务器上均包含一部分基础数据。这就是容错功能发挥作用的地方。现实情况是,这么多服务器总会遇到一台或者多台无法正常工作的风险。HDFS 具备检测故障和快速执行自动恢复的功能。HDFS 的设计针对批处理做了优化,它提供高吞吐量的数据访问,而非低延迟的数据访问。运行在HDFS 上的应用程序有着大型数据集。在HDFS 中一个典型的文件大小可以达到数百GB 或更大,所以HDFS 显然支持大文件。它提供高效集成数据带宽,并且单个群集可以扩展至数百节点。Hadoop 是一个单一功能的分布式系统,为了并行读取数据集并提供更高的吞吐量,它与群集中的机器进行直接交互。可将Hadoop想象为一个动力车间,它让单个CPU 运行在群集中大量低成本的机器上。既然已经介绍了用于读取数据的工具,下一步便是用MapReduce 来处理它。1.1.3 MapReduce 是什么MapReduce 是Hadoop 的一个编程组件,用于处理和读取大型数据集。MapReduce 算法赋予了Hadoop 并行化处理数据的能力。简而言之,MapReduce 用于将大量数据浓缩为有意义的统计分析结果。MapReduce 可以执行批处理作业,即能在处理过程中多次读取大量数据来产生所需的结果。对于拥有大型数据存储或者数据湖的企业和组织来说,这是一种重要的组件,它将数据限定到可控的大小范围内,以便用于分析第1 章 Hadoop 概述5或查询。如图1-1 所示,MapReduce 的工作流程就像一个有着大量齿轮的古老时钟。在移动到下一个之前,每一个齿轮执行一项特定任务。它展现了数据被切分为更小尺寸以供处理的过渡状态。主节点客户端HDFS分布式数据存储YARN分布式数据处理从属NAMENODE活动NAMENODE备用NAMENODE调度器共享编辑日志或者JOURNALNODE从节点容器 容器容器资源管理器数据节点 数据节点节点管理器 节点管理器数据节点节点管理器图1-1MapReduce 的功能使得它成为最常用的批处理工具之一。该处理器的灵活性使其能利用自身的影响力来挑战现有系统。通过将数据处理的工作负载分为多个并行执行的任务,MapReduce 允许其用户处理存储于HDFS 上不限数量的任意类型的数据。因此,MapReduce让Hadoop 成为了一款强大工具。在Hadoop 最近的发展中,另有一款称为YARN 的组件已经可用于进一步管理Hadoop 生态系统。1.1.4 YARN 是什么YARN 基础设施(另一个资源协调器)是一项用于提供执行应用程序所需的计算资源(内存、CPU 等)的框架。YARN 有什么诱人的特点或是性质?其中两个重要的部分是资源管理器和节点管理器。让我们来勾勒YARN 的框架。首先考虑一个两层的群集,其中资源管理器在顶层(每个群集中只有一个)。资Hadoop 大数据解决方案6源管理器是主节点。它了解从节点所在的位置(较底层)以及它们拥有多少资源。它运行了多种服务,其中最重要的是用于决定如何分配资源的资源调度器。节点管理器(每个群集中有多个)是此基础设施的从节点。当开始运行时,它向资源管理器声明自己。此类节点有能力向群集提供资源,它的资源容量即内存和其他资源的数量。在运行时,资源调度器将决定如何使用该容量。Hadoop 2 中的YARN框架允许工作负载在各种处理框架之间动态共享群集资源,这些框架包括MapReduce、Impala 和Spark。YARN 目前用于处理内存和CPU,并将在未来用于协调其他资源,例如磁盘和网络I/O。1.2 ZooKeeper 是什么ZooKeeper 是另一项Hadoop 服务——分布式系统环境下的信息保管员。ZooKeeper 的集中管理解决方案用于维护分布式系统的配置。由于ZooKeeper 用于维护信息,因此任何新节点一旦加入系统,将从ZooKeeper 中获取最新的集中式配置。这也使得你只需要通过ZooKeeper 的一个客户端改变集中式配置,便能改变分布式系统的状态。名称服务是将某个名称映射为与该名称相关信息的服务。它类似于活动目录,作为一项名称服务,活动目录的作用是将某人的用户ID(用户名)映射为环境中的特定访问或权限。同样,DNS 服务作为名称服务,将域名映射为IP 地址。通过在分布式系统中使用ZooKeeper,你能记录哪些服务器或服务正处于运行状态,并且能够通过名称查看它们的状态。如果有节点出现问题导致宕机,ZooKeeper 会采用一种通过选举leader 来完成自动故障切换的策略,这是它自身已经支持的解决方案(见图1-2)。选举leader 是一项服务,可安装在多台机器上作为冗余备用,但在任何时刻只有一台处于活跃状态。如果这个活跃的第1 章 Hadoop 概述7服务因为某些原因发生了故障,另一个服务则会起来继续它的工作。

Hadoop大数据解决方案 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:Hadoop大数据解决方案