编辑推荐
基于开源的大数据处理软件工具 ; 呈现数据生命周期中的典型实验
本书中的十个实验,涉及了大数据生命周期中的内容的基本实验,主要在大数据处理平台Hadoop开发环境下完成。主要应用了MapReduce分布编程模型,完成基本的分析处理功能。
 ;
基于开源的大数据处理软件工具 ; 呈现数据生命周期中的典型实验
内容简介
本书是《数据科学与大数据技术导论实验》课程的实验教材,可以配合主教材使用。主要内容包括:Linux环境部署、Hadoop开发环境部署、网页数据采集、大数据去重、大数据*值计算、大数据排序、大数据倒排索引、大数据平均值计算、大数据单表关联、大数据可视化。
本书选材先进、特点鲜明,注重应用。通过本书所提供的实验练习,可以提高大数据处理能力。可用于大数据实验教材,也可以作为科学技术人员学习和应用大数据的科技参考书。
作者简介
陈明,博士生导师,曾任吉林大学计算机科学系副教授、教研室主任;大连理工大学计算机科学与工程系教授、系主任;中国石油大学(北京)计算机科学与技术系教授、系主任。北京高校计算机与信息类专业群专家委员会委员兼教学协作委员会委员。 ;
目录
实验1 Linux操作系统部署
实验2 Hadoop开发环境部署
实验3 网页数据获取
实验4 大数据去重
实验5 大数据最大值计算
实验6 大数据排序
实验7 Hadoop倒排索引
实验8 大数据平均值计算
实验9 大数据单表关联
实验10 大数据可视化
参考文献
数据科学与大数据技术导论实验 pdf下载声明
本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版