欢迎光临
免费的PDF电子书下载网站

从零开始学Hadoop大数据分析(视频教学版) PDF下载

编辑推荐

从零开始学Hadoop大数据分析(视频教学版) PDF下载从零开始学Hadoop大数据分析(视频教学版) PDF下载从零开始学Hadoop大数据分析(视频教学版) PDF下载

 ;

内容简介

本书共19章,分为3篇。第1篇Hadoop基础知识,涵盖大数据概述、Hadoop的安装与配置、Hadoop分布式文件系统及基于Hadoop 3的HDFS高可用等相关内容;第2篇Hadoop核心技术,涵盖的内容有Hadoop的分布式协调服务——ZooKeeper;分布式离线计算框架——MapReduce;Hadoop的集群资源管理系统——YARN;Hadoop的数据仓库框架——Hive;大数据快速读写——HBase;海量日志采集工具——Flume;Hadoop和关系型数据库间的数据传输工具——Sqoop;分布式消息队列——Kafka;开源内存数据库——Redis;Ambari和CDH;快速且通用的集群计算系统——Spark。第3篇Hadoop项目案例实战,主要介绍了基于电商产品的大数据业务分析系统、用户画像分析、基于个性化的视频推荐系统及电信离网用户挽留4个项目实战案例,以提高读者的大数据项目开发水平。
本书内容全面,实用性强,适合作为Hadoop大数据分析与挖掘的入门读物,也可作为Java程序员的进阶读物。另外,本书还特别适合想要提高大数据项目开发水平的人员阅读。对于专业的培训机构和相关院校而言,本书也是一本不可多得的教学用书。
本书特色:
资深专家12年一线开发经验总结,业内7位大咖点评力荐

作者简介

温春水  毕业于中国人民大学,获硕士学位。历任森途国信新工科研究院院长、大唐网络和三点一刻大数据技术总监,负责大数据技术架构。12年以上的IT从业经验,其中从事IT培训超过5年,直接授课学员超过3万人。受邀为燕山石化和中国石油等企业完成Python及大数据技术等企业内训;受聘面向哈尔滨工业大学、南开大学、天津大学、华南农业大学、山东科技大学、北京交通大学、西安交通大学、天津师范大学和北京航空航天大学等高校的本科生及研究生讲授项目管理、需求分析、软件体系设计和项目开发等课程。 

毕洁馨  亚信科技高级开发工程师。参与过北京联通看板中心及专线透明化建设,另外还参与过相关公司的门店客流分析平台和分布式网络爬虫等多个项目的开发工作。目前致力于大数据和人工智能方向的前沿技术研究。

从零开始学Hadoop大数据分析(视频教学版) PDF下载

目录

前言
第1篇 Hadoop基础知识
第1章 初识Hadoop 2
1.1 大数据初探 2
1.1.1 大数据技术 2
1.1.2 大数据技术框架 3
1.1.3 大数据的特点 3
1.1.4 大数据在各个行业中的应用 4
1.1.5 大数据计算模式 4
1.1.6 大数据与云计算、物联网的关系 4
1.2 Hadoop简介 5
1.2.1 Hadoop应用现状 6
1.2.2 Hadoop简介与意义 6
1.3 小结 6

媒体评论

这本书概念清晰,讲解通俗易懂,实例非常丰富,是一本适合通过实践的方式学习大数据的书籍。尤其是书中的商业案例,极具参考价值,相信每位读者都能从中汲取相应的知识与启发。
——见知集团董事长 张之戈
本书是一本不可多得的大数据实践类书籍。从大数据分布式环境的搭建,到HDFS、MapReduce、Hive、Zookeeper、Flume、Kafka和Redis等技术,书中均有涉猎,并延伸到了大数据的商业应用案例。读完本书,你可以全面掌握大数据的核心技术及具体应用。
——中软国际CTO 徐建民
作为一本大数据专业书籍,本书倾向于动手实践,通过大量的实例代码分析,帮助读者理解和实践。另外,作者还专门录制了大数据核心技术教学视频,这必将极大地提高读者的学习效率。
——慧科集团研究院院长 陈滢

前沿

随着互联网的发展,人们日常工作和生活中产生的数据越来越多,伴随着信息的爆炸,大数据应运而生。分布式集群对大量数据的存储和分析处理有极大优势,因此Hadoop的各种技术得到了广泛应用和普及。大数据项目的开发除了需要扎实的理论基础外,还需要掌握Hadoop的搭建环境和运行部署方法,这样才能在大数据技术领域有更强的竞争力和职业发展前景。
目前市场上关于Hadoop的原理介绍和环境搭建的图书不少,但是真正从实战出发,通过“理论讲解→环境搭建→项目案例实战”这种符合初学者学习规律的科学编排体系的图书却不多。本书便是基于这一编排体系而写,以实战为主旨,通过Hadoop的14个基础组件的相关模块和4个完整的项目实战案例,让读者在理解大数据原理的同时,完成Hadoop的环境搭建,并亲自动手实现书中的实战案例,提高开发水平和项目实战能力。
本书可以帮助大数据开发人员充分了解当下流行的大数据技术和应用方法,从而在大数据项目中能更加自信、高效地完成项目开发。书中为有意涉猎大数据领域的人提供了详尽的指导,让他们能够更快、更好地掌握大数据的核心技术,并应用于项目实践,从而脱颖而出,顺利进军大数据行业。另外,本书也为大数据项目开发小组提供了可参考和借鉴的选拔大数据人才的技术标准。
本书特色
1.提供了20小时同步配套教学视频,高效、直观
为了便于读者高效、直观地学习,笔者专门为本书重点内容录制了20小时同步配套教学视频。读者可以一边看书,一边结合教学视频进行学习,取得更好的学习效果。
2.对Hadoop开发做了基础上的准备
本书从一开始就对大数据的应用、特点和Hadoop的起源与发展做了基本介绍,并简要介绍了大数据的技术框架及Hadoop的核心构件,然后详细介绍了Hadoop的安装和配置步骤,便于读者理解后续章节中介绍的各种组件和案例。
3.全面涵盖Hadoop的各种核心技术
本书介绍了Hadoop的核心构件HDFS和MapReduce,并详细介绍了基于存储和计算的YARN、Hive、HBase、Flume、Sqoop、Kafka和Redis等大数据技术的原理、环境搭建步骤和整合应用示例。
4.模块驱动,实用性强
本书介绍了Hadoop开发的14个典型模块,有很强的实用性。这些模块都是Hadoop开发经常要用到的模块,开发人员可以随时查阅和参考。
5.详解4个高价值项目实战案例
本书介绍了4个项目实战案例,这些案例来源于大数据实际项目,有较高的参考价值和实际应用价值。这些案例用不同的大数据整合技术实现,读者稍加修改即可用于自己的实际项目中。通过这些实战案例,可以让读者对书中介绍的相关理论知识和技术细节有更加透彻的理解。
6.提供完善的售后服务
本书提供了专门的售后服务邮箱:hzbook2017@163.com。读者在阅读本书的过程中有任何疑问都可以通过该邮箱获得帮助。
7.提供教学PPT,方便老师教学和学生学习
笔者专门为本书制作了专业的教学PPT,以方便相关院校的教学人员讲课时使用;读者也可以通过教学PPT,来提纲挈领地掌握书中的内容脉络。
本书内容
第1篇  Hadoop基础知识(第1~4章)
第1章初识Hadoop,介绍了大数据的特点和在各行业的应用;阐述了大数据和云计算、物联网之间的关系;讲述了Hadoop的起源、发展和意义。
第2章Hadoop的安装与配置,介绍了Hadoop安装与配置的相关知识,主要包括虚拟机的创建、克隆服务器、SSH免密码登录、JDK安装、Hadoop环境变量配置及Hadoop分布式安装等。
第3章Hadoop分布式文件系统,主要介绍了Hadoop的分布式文件系统,包括HDFS的核心概念、读写文件的流程,以及HDFS基于Shell和Java API的操作。
第4章基于Hadoop 3的HDFS高可用,主要介绍了Hadoop 3.x的发展和HDFS的高可用实现原理,以及如何基于Hadoop 3搭建完全分布式和NameNode的高可用。
第2篇  Hadoop核心技术(第5~15章)
第5章Hadoop的分布式协调服务——ZooKeeper,介绍了ZooKeeper的核心概念,包括Session、数据节点(Znode)、版本、Watcher和ACL等;还介绍了ZooKeeper的安装步骤、服务器端和客户端的相关命令,以及Java API访问ZooKeeper的多种操作。
第6章分布式离线计算框架——MapReduce,主要介绍了MapReduce的原理和应用知识,包括MapReduce的特点、应用场景、执行原理和测试实例。
第7章Hadoop的集群资源管理系统——YARN,比较了YARN和MapReduce的异同,并介绍了YARN集群资源管理系统的基本架构、工作流程和环境搭建步骤等。
第8章Hadoop的数据仓库框架——Hive,介绍了Hive的理论基础,以及Hive和数据库的异同、Hive设计目的与应用、Hive运行框架及执行原理;完成了Hive的环境搭建、内部表的创建、外部表的创建及数据操作;另外,还介绍了如何通过Java访问Hive及Hive的优化等相关内容。
第9章大数据快速读写——HBase,介绍了HBase列式数据库的体系架构、执行原理及安装步骤,还介绍了通过Shell操作HBase,以及基于Java API访问HBase实现数据增加和查询的相关内容。
第10章海量日志采集工具——Flume,主要介绍了Flume的概念、特点、架构,以及其主要组件Event、Client、Agent、Source、Channel和Sink的作用,并详细介绍了本地读取和配置设置的分日期储存和自动读取实例。
第11章Hadoop和关系型数据库间的数据传输工具——Sqoop,主要介绍了数据采集工具Sqoop的运行机制、安装和配置,以及Sqoop的导入和导出实例。
第12章分布式消息队列——Kafka,介绍了在大数据背景下的分布式消息队列Kafka的相关知识,主要包括Kafka的基本概念、核心组件、Kafka集群安装及应用案例等。
第13章开源的内存数据库——Redis,介绍了Redis的核心概念、特点、安装和配置步骤及基于客户端登录Redis实例;还介绍了Redis的数据类型,包括String、List、Hash和Set等。
第14章Ambari和CDH,主要介绍了Ambari和CDH的基本概念及其特点,并详细介绍了Ambari和CDH的安装步骤。
第15章快速且通用的集群计算系统——Spark,主要介绍了Spark的核心概念和运行机制,涉及Spark分布式集群的安装、平台搭建和应用案例等。
第3篇  Hadoop项目案例实战(第16~19章)
第16章基于电商产品的大数据业务分析系统实战,通过一个项目实战案例,详细介绍了数据采集、数据存储、数据清洗、数据转化、数据分析及最终数据的展现过程。
第17章用户画像分析实战,通过一个项目实战案例,详细介绍了项目背景、数据采集、数据预处理、模型构建、数据分析等项目开发的过程,并对项目核心代码做了详细解读和部署运行。
第18章基于个性化的视频推荐系统实战,通过一个项目实战案例,详细介绍了推荐系统的基本概念、协同过滤推荐算法、项目架构、模型构建的详细过程,并对相关核心代码做了详细解读。
第19章电信离网用户挽留实战,通过一个项目实战案例,详细介绍了数据挖掘标准流程中的商业理解、数据理解、数据准备、建模、评估和部署这6个步骤,并利用代码实现了数据建模、评估和部署,最终得到用户离网预警清单,有效防止用户流失。
本书配套资源及获取方式
本书提供了以下配套资源:
? 20小时配套教学视频;
? 实例源代码文件;
? 教学PPT。
这些资源需要读者自行下载。请在华章公司的网站(www.hzbook.com)上搜索到本书,然后单击“资料下载”按钮,即可在本书页面上找到“配书资源”下载链接。
适合阅读本书的读者
? 需要全面学习Hadoop大数据技术的人员;
? Java程序员;
? 大数据开发工程师;
? 需要提高大数据项目开发水平的人员;
? 大数据开发项目经理;
? 专业培训机构的学员;
? 对大数据技术感兴趣的学生;
? 需要一本案头必备查询手册的人员。
阅读建议
? 没有Hadoop技术基础的读者,建议从第1章开始顺次阅读并搭建环境,演练每一个实例。
? 有一定Hadoop框架基础的读者,可以根据实际情况有重点地选择阅读相关章节和项目案例。
? 对于每一个实例和项目案例,读者可以先自己思考一下实现的思路,然后再详细阅读,这样学习效果会更好。
? 对于重点内容,建议读者先看一遍教学视频,对相关内容有个基本了解,然后再详细阅读书中的内容,会更加事半功倍。
本书作者
本书由温春水和毕洁馨编写。感谢在本书编写过程中提供过帮助的各位编辑!
由于作者的水平所限,加之成书时间较为仓促,书中可能还存在一些疏漏和不当之处,敬请各位读者斧正。联系我们请发电子邮件。
编著者

 


目前市场上关于Hadoop的原理介绍和环境搭建的图书不少,但是真正从实战出发,通过“理论讲解→环境搭建→项目案例实战”这种符合初学者学习规律的科学编排体系的图书却不多。本书便是基于这一编排体系而写,以实战为主旨,通过Hadoop的14个基础组件的相关模块和4个完整的项目实战案例,让读者在理解大数据原理的同时,完成Hadoop的环境搭建,并亲自动手实现书中的实战案例,提高开发水平和项目实战能力。

免费在线读

第1章  初识Hadoop
随着互联网的高速发展,越来越多的用户在日常使用网络的过程中产生了数量庞大的结构化数据,同时在日常生活中也产生了大量的非结构化数据,如视频、音频和图像等。因此,对大量数据的有效存储管理和计算分析成为了信息行业迫切需要解决的问题。大数据就是基于数据爆炸的现状产生的。
Hadoop的前身由Doug Cutting创建,起源于开源的网络搜索引擎Apache Nutch,本章将从大数据的技术、特点和存储计算模式为起点,初步探究大数据的雏形。
以下是本章主要涉及的知识点。
? 了解大数据的特点及在各行业中的应用。
? 了解大数据技术,掌握大数据与云计算和物联网的关系。
? 了解Hadoop的起源、发展和意义。
1.1  大数据初探
本章首先介绍大数据的基本概念,理解这些概念是进一步学习和掌握大数据的基础。了解概念后,才能从大数据和云计算中找到学习的技巧。
在当前的技术领域内,大家提的比较多的当属大数据了,那么到底什么是大数据呢?关于大数据的定义目前有很多种,其实“大数据”就是收集各种数据,经过分析后用来做有意义的事,其中包括对数据进行采集、管理、存储、搜索、共享、分析和可视化。
关于数据的采集、存储和分析较容易理解,因为当数据量足够大的时候,很难存储,如FaceBook每天生成500TB的数据,如何存储这些数据就成了一个问题。有时我们需要存储大量的数据并进行分析,将分析结果用于运营决策,给决策者提供运营参考,而传统的技术无法实现大批量数据的存储和计算,毕竟单台机器的存储和计算性能都是有限的。
1.1.1  大数据技术
那么,大数据技术又是什么呢?从本质上来说,大数据技术是发现大规模数据中的规律,通过对数据的分析实现对运营层决策的支持。在此处需要注意大数据技术与其他学科之间的关系,Excel也可以做数据分析,那么为什么还要用到大数据技术呢?
主要原因是,大数据技术面对的是大规模的数据,每一天都会有大批量的数据生成,如何存储与计算这批数据,就是大数据技术要解决的问题。
1.1.2  大数据技术框架
大数据技术框架主要包含6个部分,分别是数据收集、数据存储、资源管理、计算框架、数据分析和数据展示,每部分包括的具体技术如图1.1所示。
 
图1.1  大数据技术框架图
1.1.3  大数据的特点
大数据的特点可以用“4v”来表示,分别为volume、variety、velocity和value,下面具体介绍。
? 海量性(volume):大数据的数据量很大,每天我们的行为都会产生大批量数据。
? 多样性(variety):大数据的类型多种多样,比如视频、音频和图片都属于数据。
? 高速性(velocity):大数据要求处理速度快,比如淘宝“双十一”需要实时显示交易数据。
? 价值性(value):大数据产生的价值密度低,意思是说大部分数据没有参考意义,少部分数据会形成高价值,比如私家汽车安装的摄像头,大部分情况下是用不到的,但是一旦出现“碰瓷”等现象就会很有价值。
1.1.4  大数据在各个行业中的应用
大数据的本质是发现数据规律,实现商业价值。在生活中有很多大数据应用的场景,包括金融、经济、医疗和体育行业等。
例如在金融行业中,支付宝平台通过大数据进行消费者信用评分,金融机构利用大数据进行金融产品的精准营销。在医疗行业中通过分析病人特征和疗效数据,找到特定病人的最佳治疗方案;还可以在病人档案方面应用高级分析,确定某类疾病的易感人群。在体育行业中可以通过分析数据来制定战术、进行运动员能力评估,定制最佳训练方案。
1.1.5  大数据计算模式
常见的大数据计算模式分为4类,如图1.2所示。
 
图1.2  大数据计算模式
? 批处理计算又称为离线计算,是针对大规模历史数据的批量处理,如MapReduce。
? 流计算是针对流数据的实时计算,可以实时处理产生的数据。商业版的有IBM InfoSphere Streams和IBM StreamBase,开源的有Storm和S4(Simple Scalable Streaming System),还有一部分是企业根据自身需求而定制的,如Dstream(百度)。
? 图计算是针对大规模图结构数据的处理,常用于社交网络,如Pregel、GraphX、Giraph(FaceBook)、PowerGraph和Hama等。
? 查询分析计算是针对大规模数据的存储管理和查询分析,如Hive、Cassandra和Impala等。
1.1.6  大数据与云计算、物联网的关系
关于云计算的解释有很多种,被人们广为接受的是美国国家标准与技术研究院所定义的,即云计算是一种按网络使用量付费的便捷模式,能进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),使资源被利用。
? 云计算的特点:超大规模、通用性、高拓展性、虚拟化、高可靠性、按需服务、极其廉价、具有潜在危险性。
? 云计算的模式:公有云、私有云、混合云。
? 云计算服务的分类:Saas、Paas和Iaas。
大数据与云计算是一种不可分的、相互依存的关系。首先,云计算是计算资源的底层,它的主要作用是支撑上层大数据的处理任务。而大数据的主要处理任务则是提升实时交互式查询效率和分析数据的能力。
物联网,其实就是物物相连的互联网。这其中包含两个意思,一个是在互联网基础上的延伸和扩展,起到核心作用的仍然是互联网;另一个是不管用户端延伸到任何物品上,最终都实现物物相连。
在物联网应用中有3项关键技术:传感器技术、RFID标签和嵌入式系统技术。
物联网产生大数据,大数据助力物联网。随着物联网的发展,产生数据的终端由PC转向了包括PC、智能手机和平板电脑等在内的多样化终端,因此物联网推动了大数据技术的发展。
大数据、云计算和物联网三者息息相关,是互相关联、相互作用的。物联网是大数据的来源(设备数据),大数据技术为物联网数据的分析提供了强有力的支撑;物联网还为云计算提供了广阔的应用空间,而云计算为物联网提供了海量数据存储能力;云计算还为大数据提供了技术基础,而大数据能为云计算所产生的运营数据提供分析和决策依据。三者的关系如图1.3所示。
 
图1.3  三者相互关系图
1.2  Hadoop简介
Apache Hadoop本身是一个框架,它可以用简单的编程模型在计算机集群中对大型数据集进行分布式处理。它可以被设计成单个机器或成千上万台机器的集群,实现提供计算和存储服务。
然而,不同于依赖硬件实现的高可用性,Hadoop本身被设计为能够检测和处理应用层的错误,因此在计算机集群的整体层面上就提供了高可用服务。
1.2.1  Hadoop应用现状
随着大数据的快速发展,目前Hadoop已经应用在了很多大大小小的互联网企业中。对于国内来说,百度的日志分析、阿里的内部云,以及淘宝都在使用Hadoop;在国际上,英特尔、微软和Oracle等也都有了自己基于Hadoop的产品。
1.2.2  Hadoop简介与意义
Apache开源软件基金会开发了运行在大规模普通服务器上,用于大数据存储、计算、分析的分布式存储系统和分布式运算框架——Hadoop。Hadoop的两大核心如下。
? HDFS(Hadoop Distributed File System,分布式存储系统):是Hadoop中的核心组件之一,除了可以保存海量数据,还具有高可靠性、高扩展性和高吞吐率的特点。
? MapReduce:属于分布式计算框架,一般用于对海量数据的计算,它的特点是易于编程、高容错和高扩展等优点。另外,MapReduce可以独立于HDFS使用。
总结来说,Hadoop中的核心HDFS为海量数据提供了存储,而MapReduce则为海量数据提供了计算服务。
通过Hadoop可以快速搭建自己的分布式存储系统和分布式运算系统,它可以缩短处理数据的时间,同时可以尽量在低成本的情况下完成数据的分析与挖掘。这里说的低成本,主要是因为Hadoop可以基于廉价的普通PC机搭建集群。
1.3  小    结
本章首先解释了什么是大数据,然后介绍了大数据的特点和在各行业中的应用,并说明了大数据和当下云计算、物联网之间的关系,最后讲述了在大数据的发展过程中Hadoop的起源、发展和意义。


随着互联网的高速发展,越来越多的用户在日常使用网络的过程中产生了数量庞大的结构化数据,同时在日常生活中也产生了大量的非结构化数据,如视频、音频和图像等。因此,对大量数据的有效存储管理和计算分析成为了信息行业迫切需要解决的问题。大数据就是基于数据爆炸的现状产生的。

从零开始学Hadoop大数据分析(视频教学版) pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:从零开始学Hadoop大数据分析(视频教学版)