编辑推荐
暂无
内容简介
本书详细介绍了大数据分析,尤其是数据分类相关算法的原理及实现细节,并给出了每个算法的编程实例。全书共计21章,内容包括十大数据分类算法、十大从二元分类到多类分类的算法、九大属性选择算法、五大数据选择算法,若干集成学习方法和不均衡数据分类算法,以及大数据分析的平台与技术。本书可作为高等学校计算机科学与技术、数据科学与大数据技术、统计学、软件工程、地理信息系统等专业的研究生和高年级本科生的教材,也可作为科研人员、工程师和大数据爱好者的参考书。
作者简介
张重生,男,1982年9月生,博士,教授,硕士生导师,河南大学大数据团队带头人。研究领域为大数据分析、深度学习、数据挖掘、数据库、实时数据分析。博士毕业于 INRIA,France(法国国家信息与自动化研究所)。2010年08月至2011年3月,在美国加州大学洛杉矶分校(UCLA)计算机系,师从Carlo Zaniolo教授进行流数据挖掘方面的研究。 十多年来,一直从事数据库、数据挖掘、大数据分析相关的研究,发表SCI/EI论文20篇,含Information Sciences、Neurocomputing、IEEE ICDM、PAKDD、SSDBM等国际期刊和会议论文。作为项目负责人主持 4项科研项目,出版学术专著3部,获得3项国家发明专利,指导硕士研究生12名。
目录
前沿
大数据分析,尤其是数据分类与预测是数据挖掘中最重要的分支领域,也是企业需要最多且应用最广泛的技术。本书专注于大数据分析和数据分类技术。本书的目标有三:一是成为我国“最接地气的”、最实用的、最完整、最专业的数据分析专著,成为数据挖掘爱好者、研究生、科研人员、工程师在解决数据分类和大数据分析相关问题时的首选之作。二是成为理论与实践并重的专业书籍。本书的特点是采用示例驱动的方式讲解原理和相关实验。在讲解算法原理时,本书通过举例子的方式,详解算法的每个步骤及对应示例的结果,使得一些晦涩的公式和原理变得直接、具体、易理解。笔者翻阅了很多数据挖掘和机器学习专著,鲜有书籍能做到在原理部分示例驱动。而且,本书十分注重对于算法的应用的实战能力的培养,在讲解算法原理之后,给出具体例子,引导读者进行相关的实验,获得实践能力、解决实际问题的能力。三是成为传播大数据分析和数据分类技术的重要媒介、培养大数据人才的首选教材。最近几年,国内外的大数据人才供不应求,其薪资通常是普通IT从业人员的两倍以上。而绝大多数国内高校在培养大数据人才时,都遇到了各种瓶颈和问题。究其原因,合适中文教材的匮乏是极为重要的一个原因。因为,大数据人才不能只是泛泛地了解数据挖掘的相关原理介绍,他们更应该深入理解算法的原理且掌握解决实际数据挖掘问题的动手能力和实战经验。而现有的教材大多是泛泛教授数据挖掘相关原理的书籍。本书采用平民化、“接地气”的原理讲解方式,及原理与应用实践并重的思路。普通读者(本科及以上学历的读者,甚至是大三以上的学生)很容易理解、掌握本书介绍的相关算法的原理,并切实掌握相关的应用开发技能和解决实际问题的能力。这对于大数据分析、数据分类技术在我国的广泛传播,对于大数据分析人才的大规模培养,具有重要意义。全书共21章,可以分为六个部分:第一部分包括第1~11章,此部分将讲述12个主流的数据分类算法;第二部分包括12~15章,此部分讲述从二分类(只能对两类数据进行分类)到多分类的三种主流技术及其实验对比分析;第三部分包括第16章,主要讲述若干集成学习相关的算法;第四部分包括第17~18章,主要讲述属性选择相关的原理和算法;第五部分包括第19~20章,主要讲述数据选择和不均衡数据分类相关的原理和技术;第六部分包括第21章,主要讲述大数据分析相关的平台与开发技术。研究生毕璟君、刘畅畅、张愿承担了本书相关实验部分的程序实现与撰写的工作。针对数据挖掘领域的初学者,建议选择第1~7章、第12章、第16~17章、第19章、第21章作为主要学习内容。如果读者是数据挖掘方向的专家、工程师、研究生、科研人员,则建议通读全书。在遇到具体问题时,请仔细阅读、理解相关章节,必要时,可以去查阅参考文献中列出的原始英文论文,进行深入的推敲和探究。由于笔者水平有限,书中错谬之处在所难免,如蒙读者赐教,本人将感激之至。张 重 生2016年10月于河南大学
大数据分析:数据挖掘必备算法示例详解 pdf下载声明
本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版