欢迎光临
免费的PDF电子书下载网站

大数据基础编程、实验和案例教程 PDF下载

编辑推荐

 ;步步引导,循序渐进,详尽的安装指南为顺利搭建大数据实验环境铺平道路? 深入浅出,去粗取精,丰富的代码实例帮助快速掌握大数据基础编程方法? 精心设计,巧妙融合,五套大数据实验题目促进理论与编程知识的消化和吸收? 结合理论,联系实际,大数据课程综合实验案例精彩呈现大数据分析全流程 ;

内容简介

本书以大数据分析全流程为主线,介绍了数据采集、数据存储与管理、数据处理与分析、数据可视化等环节典型软件的安装、使用和基础编程方法。本书内容涵盖操作系统(Linux和Windows)、开发工具(Eclipse)以及大数据相关技术、软件(Sqoop、Kafka、Flume、Hadoop、HDFS、MapReduce、HBase、Hive、Spark、MySQL、MongoDB、Redis、R、Easel.ly、D3、魔镜、ECharts、Tableau)等。同时,本书还提供了丰富的课程实验和综合案例,以及大量免费的在线教学资源,可以较好地满足高等院校大数据教学实际需求。 本书是《大数据技术原理与应用——概念、存储、处理、分析与应用》的“姊妹篇”,可以作为高等院校计算机、信息管理等相关专业的大数据课程辅助教材,用于指导大数据编程实践;也可供相关技术人员参考。

作者简介

作 者 介 绍

林子雨(1978—),男,博士,厦门大学计算机科学系助理教授,厦门大学云计算与大数据研究中心创始成员,厦门大学数据库实验室负责人,中国计算机学会数据库专委会委员,中国计算机学会信息系统专委会委员;于2001年获得福州大学水利水电专业学士学位,2005年获得厦门大学计算机专业硕士学位,2009年获得北京大学计算机专业博士学位;中国高校首个“数字教师”提出者和建设者(http://www.cs.xmu.edu.cn/linziyu),2009年至今,“数字教师”大平台累计向网络免费发布超过100万字高价值的教学和科研资料,累计网络访问量超过100万次。主要研究方向为数据库、数据仓库、数据挖掘、大数据和云计算,发表期刊和会议学术论文多篇,并作为课题组负责人承担了国家自然科学基金和福建省自然科学基金项目。曾作为志愿者翻译了Google Spanner、BigTable和Architecture of a Database System等大量英文学术资料,与广大网友分享,深受欢迎;2013年在厦门大学开设大数据课程,并因在教学领域的突出贡献和学生的认可,成为2013年度和2017年度厦门大学教学类奖教金获得者。主讲课程: “大数据处理技术”。个人主页: http://www.cs.xmu.edu.cn/linziyu。Email: ziyulin@xmu.edu.cn。数据库实验室网站: http://dblab.xmu.edu.cn。建设了中国高校大数据课程公共服务平台(http://dblab.xmu.edu.cn/post/bigdatateachingplatform/),成为全国高校大数据教学知名品牌。平台为教师教学和学生学习大数据课程提供包括教学大纲、讲义PPT、学习指南、备课指南、实验指南、上机习题、授课视频、技术资料等全方位、一站式免费服务,平台年访问量超过100万次;同时提供面向高校的大数据实验平台建设方案和大数据课程师资培训服务。

大数据基础编程、实验和案例教程 PDF下载

目录

目录

1章大数据技术概述/1

1.1大数据时代/1

1.2大数据关键技术/2

1.3大数据软件/3

1.3.1Hadoop/4

1.3.2Spark/5

1.3.3NoSQL数据库/5

1.3.4数据可视化/6

1.4内容安排/7

1.5在线资源/8

1.5.1在线资源一览表/9

1.5.2下载专区/9

1.5.3在线视频/10

1.5.4拓展阅读/11

1.5.5大数据课程公共服务平台/11

1.6本章小结/122Linux系统的安装和使用/13

2.1Linux系统简介/13

2.2Linux系统安装/13

2.2.1下载安装文件/14

2.2.2Linux系统的安装方式/14

2.2.3安装Linux虚拟机/15

2.2.4生成Linux虚拟机镜像文件/36

2.3Linux系统及相关软件的基本使用方法/38

2.3.1Shell/38

2.3.2root用户/38

2.3.3创建普通用户/382〗〖4〗大数据基础编程、实验和案例教程目录〖32.3.4sudo命令/39

2.3.5常用的Linux系统命令/40

2.3.6文件解压缩/40

2.3.7常用的目录/41

2.3.8目录的权限/41

2.3.9更新APT/41

2.3.10切换中英文输入法/43

2.3.11vim编辑器的使用方法/43

2.3.12Windows系统中使用SSH方式登录Linux系统/44

2.3.13Linux中安装Eclipse/48

2.3.14其他使用技巧/49

2.4关于本书内容的一些约定/49

2.5本章小结/503Hadoop的安装和使用/51

3.1Hadoop简介/51

3.2安装Hadoop前的准备工作/52

3.2.1创建hadoop用户/52

3.2.2更新APT/52

3.2.3安装SSH/52

3.2.4安装Java环境/53

3.3安装Hadoop/55

3.3.1下载安装文件/55

3.3.2单机模式配置/56

3.3.3伪分布式模式配置/57

3.3.4分布式模式配置/66

3.3.5使用Docker搭建Hadoop分布式集群/75

3.4本章小结/874HDFS操作方法和基础编程/88

4.1HDFS操作常用Shell命令/88

4.1.1查看命令使用方法/88

4.1.2HDFS目录操作/90

4.2利用HDFSWeb管理界面/92

4.3HDFS编程实践/92

4.3.1Eclipse中创建项目/93

4.3.2为项目添加需要用到的JAR/94

4.3.3编写Java应用程序/96

4.3.4编译运行程序/98

4.3.5应用程序的部署/100

4.4本章小结/1025HBase的安装和基础编程/103

5.1安装HBase/103

5.1.1下载安装文件/103

5.1.2配置环境变量/104

5.1.3添加用户权限/104

5.1.4查看HBase版本信息/104

5.2HBase的配置/105

5.2.1单机模式配置/105

5.2.2伪分布式配置/107

5.3HBase常用Shell命令/109

5.3.1HBase中创建表/109

5.3.2添加数据/110

5.3.3查看数据/110

5.3.4删除数据/111

5.3.5删除表/112

5.3.6查询历史数据/112

5.3.7退出HBase数据库/112

5.4HBase编程实践/113

5.4.1Eclipse中创建项目/113

5.4.2为项目添加需要用到的JAR/116

5.4.3编写Java应用程序/117

5.4.4编译运行程序/123

5.4.5应用程序的部署/124

5.5本章小结/1246章典型NoSQL数据库的安装和使用/125

6.1Redis安装和使用/125

6.1.1Redis简介/125

6.1.2安装Redis/125

6.1.3Redis实例演示/127

6.2MongoDB的安装和使用/128

6.2.1MongDB简介/129

6.2.2安装MongoDB/129

6.2.3使用Shell命令操作MongoDB/130

6.2.4Java API编程实例/136

6.3本章小结/1397MapReduce基础编程/140

7.1词频统计任务要求/140

7.2MapReduce程序编写方法/141

7.2.1编写Map处理逻辑/141

7.2.2编写Reduce处理逻辑/141

7.2.3编写main方法/142

7.2.4完整的词频统计程序/143

7.3编译打包程序/144

7.3.1使用命令行编译打包词频统计程序/145

7.3.2使用Eclipse编译运行词频统计程序/145

7.4运行程序/154

7.5本章小结/1568章数据仓库Hive的安装和使用/157

8.1Hive的安装/157

8.1.1下载安装文件/157

8.1.2配置环境变量/158

8.1.3修改配置文件/158

8.1.4安装并配置MySQL/159

8.2Hive的数据类型/161

8.3Hive基本操作/162

8.3.1创建数据库、表、视图/162

8.3.2删除数据库、表、视图/163

8.3.3修改数据库、表、视图/164

8.3.4查看数据库、表、视图/165

8.3.5描述数据库、表、视图/165

8.3.6向表中装载数据/166

8.3.7查询表中数据/166

8.3.8向表中插入数据或从表中导出数据/166

8.4Hive应用实例: WordCount/167

8.5Hive编程的优势/167

8.6本章小结/1689Spark的安装和基础编程/169

9.1基础环境/169

9.2安装Spark/169

9.2.1下载安装文件/169

9.2.2配置相关文件/170

9.3使用 Spark Shell编写代码/171

9.3.1启动Spark Shell/171

9.3.2读取文件/172

9.3.3编写词频统计程序/174

9.4编写Spark独立应用程序/174

9.4.1Scala语言编写Spark独立应用程序/175

9.4.2Java语言编写Spark独立应用程序/178

9.5本章小结/18210章典型的可视化工具的使用方法/183

10.1Easel.ly信息图制作方法/183

10.1.1信息图/183

10.1.2信息图制作基本步骤/183

10.2D3可视化库的使用方法/186

10.2.1D3可视化库的安装/187

10.2.2基本操作/187

10.3可视化工具Tableau使用方法/194

10.3.1安装Tableau/195

10.3.2界面功能介绍/195

10.3.3Tableau简单操作/197

10.4使用“魔镜”制作图表/202

10.4.1“魔镜”简介/202

10.4.2简单制作实例/202

10.5使用ECharts图表制作/206

10.5.1ECharts简介/206

10.5.2ECharts图表制作方法/206

10.5.3两个实例/210

10.6本章小结/21711章数据采集工具的安装和使用/218

11.1Flume/218

11.1.1安装Flume/218

11.1.2两个实例/220

11.2Kafka/225

11.2.1Kafka相关概念/225

11.2.2安装Kafka/225

11.2.3一个实例/225

11.3Sqoop/227

11.3.1下载安装文件/227

11.3.2修改配置文件/228

11.3.3配置环境变量/228

11.3.4添加MySQL驱动程序/228

11.3.5测试与MySQL的连接/229

11.4实例: 编写Spark程序使用Kafka数据源/230

11.4.1Kafka准备工作/230

11.4.2Spark准备工作/232

11.4.3编写Spark程序使用Kafka数据源/234

11.5本章小结/23912章大数据课程综合实验案例/241

12.1案例简介/241

12.1.1案例目的/241

12.1.2适用对象/241

12.1.3时间安排/241

12.1.4预备知识/241

12.1.5硬件要求/242

12.1.6软件工具/242

12.1.7数据集/242

12.1.8案例任务/242

12.2实验环境搭建/243

12.3实验步骤概述/244

12.4本地数据集上传到数据仓库Hive/245

12.4.1实验数据集的下载/245

12.4.2数据集的预处理/246

12.4.3导入数据库/249

12.5Hive数据分析/253

12.5.1简单查询分析/253

12.5.2查询条数统计分析/255

12.5.3关键字条件查询分析/256

12.5.4根据用户行为分析/258

12.5.5用户实时查询分析/259

12.6HiveMySQLHBase数据互导/260

12.6.1Hive预操作/260

12.6.2使用Sqoop将数据从Hive导入MySQL/261

12.6.3使用Sqoop将数据从MySQL导入HBase/265

12.6.4使用HBase Java API把数据从本地导入到HBase/269

12.7利用R进行数据可视化分析/275

12.7.1安装R/275

12.7.2安装依赖库/277

12.7.3可视化分析/278

12.8本章小结/28313章实验/284

13.1实验一: 熟悉常用的Linux操作和Hadoop操作/284

13.1.1实验目的/284

13.1.2实验平台/284

13.1.3实验步骤/284

13.1.4实验报告/286

13.2实验二: 熟悉常用的HDFS操作/286

13.2.1实验目的/286

13.2.2实验平台/286

13.2.3实验步骤/287

13.2.4实验报告/287

13.3实验三: 熟悉常用的HBase操作/288

13.3.1实验目的/288

13.3.2实验平台/288

13.3.3实验步骤/288

13.3.4实验报告/290

13.4实验四: NoSQL和关系数据库的操作比较/290

13.4.1实验目的/290

13.4.2实验平台/290

13.4.3实验步骤/290

13.4.4实验报告/293

13.5实验五: MapReduce初级编程实践/294

13.5.1实验目的/294

13.5.2实验平台/294

13.5.3实验步骤/294

13.5.4实验报告/297附录A大数据课程实验答案/298

A.1实验一: 熟悉常用的Linux操作和Hadoop操作/298

A.1.1实验目的/298

A.1.2实验平台/298

A.1.3实验步骤/298

A.2实验二: 熟悉常用的HDFS操作/303

A.2.1实验目的/303

A.2.2实验平台/303

A.2.3实验步骤/303

A.3实验三: 熟悉常用的HBase操作/323

A.3.1实验目的/323

A.3.2实验平台/323

A.3.3实验步骤/323

A.4实验四: NoSQL和关系数据库的操作比较/331

A.4.1实验目的/331

A.4.2实验平台/331

A.4.3实验步骤/332

A.5实验五: MapReduce初级编程实践/349

A.5.1实验目的/349

A.5.2实验平台/349

A.5.3实验步骤/350附录BLinux系统中的MySQL安装及常用操作/360

B.1安装MySQL/360

B.2MySQL常用操作/363参考文献/367

媒体评论

评论

前沿


扫一扫访问平台主页大数据带来了信息技术的巨大变革,并深刻影响着社会生产和人民生活的方方面面。大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任,需要及时建立大数据课程体系,为社会培养和输送一大批具备大数据专业素养的高级人才,满足社会对大数据人才日益旺盛的需求。高质量的教材是推进高校大数据课程体系建设的关键支撑。2013年12月,笔者根据自己主讲厦门大学计算机系研究生大数据课程的教学实践,编写了电子书《大数据技术基础》,通过网络免费发布,获得了较好的反响。此后两年多的时间里,笔者继续对大数据技术知识体系进行深入学习和系统梳理,并结合教学实践和大量调研,编著出版了《大数据技术原理与应用》教材,该书第1版于2015年8月出版发行,第2版于2017年2月出版发行。《大数据技术原理与应用》一书侧重于介绍大数据技术的实现原理,编程实践内容较少,该教材定位为入门级大数据教材,以“构建知识体系、阐明基本原理、开展初级实践、了解相关应用”为原则,旨在为读者搭建起通向大数据知识空间的桥梁和纽带,为读者在大数据领域深耕细作奠定基础、指明方向。教材系统论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、大数据处理架构Spark、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。《大数据技术原理与应用》一书出版以后,获得了读者较高的认可,目前已经成为国内多所高校的大数据课程教材。与此同时,笔者在最近两年通过各种形式助力全国高校加快推进大数据课程建设,包括建设全国高校大数据课程公共服务平台、开展全国高校大数据公开课巡讲计划、组织全国高校大数据教学论坛、举办全国高校大数据课程教师培训交流班等。通过这些活动,笔者与全国高校广大大数据课程教师有了更深的接触和交流,也收集到了广大一线教师的核心教学需求。很多高校教师在高度肯定《大数据技术原理与应用》教材的同时,也提出了很多中肯的改进意见和建议,其中,有很多教师指出,应该加强大数据实践环节的训练,提供实验指导和综合案例。为了更好地满足高校教学实际需求,笔者带领厦门大学数据库实验团队,开展了大量的探索和实践,并对实践材料进行系统整理,在此基础上编写了本教程。本教程侧重于介绍大数据软件的安装、使用和基础编程方法,并提供大量实验和案例。由于大数据软件都是开源软件,安装过程一般比较复杂,也很耗费时间。为了尽量减少读者搭建大数据实验环境时的障碍,笔者在本书中详细写出了各种大数据软件的详细安装过程,可以确保读者顺利完成大数据实验环境搭建。〖2〗〖4〗大数据基础编程、实验和案例教程前言〖3〗本书共13章,详细介绍系统和软件的安装、使用以及基础编程方法。第1章介绍大数据的关键技术和代表性软件,帮助读者形成对大数据技术及其代表性软件的总体性认识。第2章介绍Linux系统的安装和使用方法,为后面其他章节的学习奠定基础。第3章介绍分布式计算框架Hadoop的安装和使用方法。第4章介绍分布式文件系统HDFS的基础编程方法。第5章介绍分布式数据库HBase的安装和基础编程方法。第6章介绍典型NoSQL数据库的安装和使用方法,包括键值数据库Redis和文档数据库MongoDB。第7章介绍如何编写基本的MapReduce程序。第8章介绍基于Hadoop的数据仓库Hive的安装和使用方法。第9章介绍基于内存的分布式计算框架Spark的安装和基础编程方法。第10章介绍5种典型的可视化工具的安装和使用方法,包括Easel.ly、D3、魔镜、ECharts、Tableau等。第11章介绍数据采集工具的安装和使用方法,包括Flume、Kafka和Sqoop。第12章介绍一个大数据课程综合实验案例,即网站用户购物行为分析。第13章通过5个实验让读者加深对知识的理解。本书面向高校计算机和信息管理等相关专业的学生,可以作为专业必修课或选修课的辅助教材。本书是《大数据技术原理与应用》的“姊妹篇”,可以作为《大数据技术原理与应用》的辅助配套教程,两本书组合使用,可以达到更好的学习效果。此外,本书也可以和市场上现有的其他大数据教材配套使用,作为教学辅助用书。本书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生谢荣东、罗道文、邓少军、阮榕城、薛倩、魏亮、曾冠华等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。本书的官方网站是http://dblab.xmu.edu.cn/post/bigdatapractice/,免费提供了全部配套资源的在线浏览和下载,并接受错误反馈和发布勘误信息。同时,在学习大数据课程的过程中,欢迎读者访问厦门大学数据库实验室建设的国内高校首个大数据课程公共服务平台(http://dblab.xmu.edu.cn/post/bigdatateachingplatform/),该平台为教师教学和学生学习大数据课程提供讲义PPT、学习指南、备课指南、上机习题、技术资料、授课视频等全方位、一站式免费服务。本书在撰写过程中,参考了大量网络资料,对大数据技术及其典型软件进行了系统梳理,有选择地把一些重要知识纳入本书。由于笔者能力有限,本书难免存在不足之处,望广大读者不吝赐教。
林子雨2017年2月于厦门大学计算机科学系数据库实验室

免费在线读

第5章HBase的安装和基础编程HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价的计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。Hadoop安装以后,不包含HBase组件,需要另外安装。本章首先介绍HBase的安装方法,并介绍HBase的两种不同模式的配置方法,包括单机模式和伪分布式模式,然后介绍一些操作HBase的常用的Shell命令,最后,介绍如何使用Eclipse开发可以操作HBase数据库的Java应用程序。5.1安装HBase本节介绍HBase的安装方法,包括下载安装文件、配置环境变量、添加用户权限等。5.1.1下载安装文件HBase是Hadoop生态系统中的一个组件,但是,Hadoop安装以后,本身并不包含HBase,因此,需要单独安装HBase。登录Linux系统,在Linux系统(不是Windows系统)中打开火狐浏览器,访问本书官网的“下载专区”,在“软件”目录下下载HBase安装文件hbase1.1.5bin.tar.gz。火狐浏览器会默认把下载文件都保存到当前用户的下载目录,由于本书全部采用hadoop用户登录Linux系统,所以,hbase1.1.5bin.tar.gz文件会被保存到/home/hadoop/下载/目录下。需要注意的是,如果是在Windows系统下面下载安装文件hbase1.1.5bin.tar.gz,则需要通过FTP软件上传到Linux系统的“/home/hadoop/下载/”目录下,这个目录是本书所有安装文件的中转站。下载完安装文件以后,需要对文件进行解压。按照Linux系统使用的默认规范,用户安装的软件一般都是存放在/usr/local/目录下。使用hadoop用户登录Linux系统,打开一个终端,执行如下命令:$ sudotar-zxf~/下载/hbase-1.1.5-bin.tar.gz-C/usr/local将解压的文件名hbase1.1.5改为hbase,以方便使用,命令如下:〖2〗〖4〗大数据基础编程、实验和案例教程第5章HBase的安装和基础编程〖3〗$ sudomv/usr/local/hbase-1.1.5/usr/local/hbase5.1.2配置环境变量将HBase安装目录下的bin目录(即/usr/local/hbase/bin)添加到系统的PATH环境变量中,这样,每次启动HBase时就不需要到/usr/local/hbase目录下执行启动命令,方便HBase的使用。使用vim编辑器打开~/.bashrc文件,命令如下:$ vim ~/.bashrc打开.bashrc文件以后,可以看到,已经存在如下所示的PATH环境变量的配置信息,因为,之前在第3章安装配置Hadoop时,已经为Hadoop添加了PATH环境变量的配置信息:$ export PATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin这里需要把HBase的bin目录/usr/local/hbase/bin追加到PATH中。当要在PATH中继续加入新的路径时,只要用英文冒号“:”隔开,把新的路径加到后面即可,追加后的结果如下:$ export PATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin:/usr/local/hbase/bin添加后执行如下命令使设置生效:$ source ~/.bashrc5.1.3添加用户权限需要为当前登录Linux系统的hadoop用户添加访问HBase目录的权限,将HBase安装目录下的所有文件的所有者改为hadoop,命令如下:$ cd/usr/local$ sudochown-Rhadoop./hbase5.1.4查看HBase版本信息可以通过如下命令查看HBase版本信息,以确认HBase已经安装成功:$ /usr/local/hbase/bin/hbase version执行上述命令以后,如果出现如图51所示的信息,则说明安装成功。图51查看HBase版本信息5.2HBase的配置HBase有3种运行模式,即单机模式、伪分布式模式和分布式模式。(1) 单机模式: 采用本地文件系统存储数据。(2) 伪分布式模式: 采用伪分布式模式的HDFS存储数据。(3) 分布式模式: 采用分布式模式的HDFS存储数据。本书仅介绍单机模式和伪分布式模式。在进行HBase配置之前,需要确认已经安装了3个组件: JDK、Hadoop、SSH。HBase单机模式不需要安装Hadoop,伪分布式模式和分布式模式需要安装Hadoop。JDK、Hadoop和SSH的安装方法,已经在第3章中做了详细介绍,如果已经按照第3章的方法安装了Hadoop,则这里不需要另外安装JDK、Hadoop和SSH。5.2.1单机模式配置〖*2〗1. 配置hbaseenv.sh文件使用vim编辑器打开/usr/local/hbase/conf/hbaseenv.sh,命令如下:$ vim /usr/local/hbase/conf/hbase-env.sh打开hbaseenv.sh文件以后,需要在hbaseenv.sh文件中配置JAVA环境变量,在第3章中已经配置了JAVA_HOME=/usr/lib/jvm/java7openjdkamd64,这里可以直接复制该配置信息到hbaseenv.sh文件中。此外,还需要添加Zookeeper配置信息,配置HBASE_MANAGES_ZK为true,表示由HBase自己管理Zookeeper,不需要单独的Zookeeper,由于hbaseenv.sh文件中本来就存在这些变量的配置,因此,只需要删除前面的注释符号#并修改配置内容即可,修改后的hbaseenv.sh文件应该包含如下两行信息:export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64export HBASE_MANAGES_ZK=true修改完成以后,保存hbaseenv.sh文件并退出vim编辑器。2. 配置hbasesite.xml文件使用vim编辑器打开并编辑/usr/local/hbase/conf/hbasesite.xml文件,命令如下:$ vim /usr/local/hbase/conf/hbase-site.xml在hbasesite.xml文件中,需要设置属性hbase.rootdir,用于指定HBase数据的存储位置,如果没有设置,则hbase.rootdir默认为/tmp/hbase${user.name},这意味着每次重启系统都会丢失数据。这里把hbase.rootdir设置为HBase安装目录下的hbasetmp文件夹,即/usr/local/hbase/hbasetmp,修改后的hbasesite.xml文件中的配置信息如下:

hbase.rootdir


file:///usr/local/hbase/hbase-tmp
保存hbasesite.xml文件,并退出vim编辑器。3. 启动并运行HBase现在就可以测试运行HBase,命令如下:$ cd /usr/local/hbase$ bin/start-hbase.sh#启动HBase$ bin/hbase shell#进入HBase Shell命令行模式进入HBase Shell命令行模式以后,用户可以通过输入Shell命令操作HBase数据库。成功启动HBase后会出现如图52所示的界面。图52进入HBase Shell模式最后可以使用如下命令停止HBase运行:$ bin/stop-hbase.sh需要说明的是,如果在操作HBase的过程中发生错误,可以查看{HBASE_HOME}目录(即/usr/local/hbase)下的logs子目录中的日志文件,来寻找可能的错误原因,然后搜索网络资料寻找相关解决方案。5.2.2伪分布式配置〖*2〗1. 配置hbaseenv.sh文件使用vim编辑器打开/usr/local/hbase/conf/hbaseenv.sh,命令如下:$ vim /usr/local/hbase/conf/hbase-env.sh打开hbaseenv.sh文件以后,需要在hbaseenv.sh文件中配置JAVA_HOME、HBASE_CLASSPATH和HBASE_MANAGES_ZK。其中,HBASE_CLASSPATH设置为本机Hadoop安装目录下的conf目录(即/usr/local/hadoop/conf)。JAVA_HOME和HBASE_MANAGES_ZK的配置方法和上面单机模式的配置方法相同。修改后的hbaseenv.sh文件应该包含如下3行信息:export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64export HBASE_CLASSPATH=/usr/local/hadoop/confexport HBASE_MANAGES_ZK=true修改完成以后,保存hbaseenv.sh文件并退出vim编辑器。2. 配置hbasesite.xml文件使用vim编辑器打开并编辑/usr/local/hbase/conf/hbasesite.xml文件,命令如下:$ vim /usr/local/hbase/conf/hbase-site.xml在hbasesite.xml文件中,需要设置属性hbase.rootdir,用于指定HBase数据的存储位置。在HBase伪分布式模式中,使用伪分布式模式的HDFS存储数据,因此,需要把hbase.rootdir设置为HBase在HDFS上的存储路径。根据第3章Hadoop伪分布式模式的配置可以知道,HDFS的访问路径为hdfs://localhost:9000/,因为,这里设置hbase.rootdir为hdfs://localhost:9000/hbase。此外,由于采用了伪分布式模式,因此,还需要将属性hbase.cluter.distributed设置为true。修改后的hbasesite.xml文件中的配置信息如下:

hbase.rootdir


hdfs://localhost:9000/hbase

hbase.cluster.distributed


true
保存hbasesite.xml文件,并退出vim编辑器。3. 启动运行HBase首先登录SSH,由于之前在第3章中已经设置了无密码登录,因此这里不需要密码;然后切换至/usr/local/hadoop,启动Hadoop,让HDFS进入运行状态,从而可以为HBase存储数据,具体命令如下:$ ssh localhost$ cd /usr/local/hadoop$ ./sbin/start-dfs.sh输入命令jps,如果能够看到NameNode、DataNode和SecondaryNameNode这3个进程,则表示已经成功启动Hadoop。然后启动HBase,命令如下:$ cd /usr/local/hbase$ bin/start-hbase.sh输入命令jps,如果出现以下进程,则说明HBase启动成功:JpsHMaster

大数据基础编程、实验和案例教程 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:大数据基础编程、实验和案例教程