欢迎光临
免费的PDF电子书下载网站

R语言数据挖掘方法及应用 PDF下载

编辑推荐

暂无

内容简介

大数据不仅意味着数据的积累、存储与管理,更意味着大数据的分析。数据挖掘无可争议地成为当今大数据分析的核心利器。R语言因彻底的开放性策略业已跻身数据挖掘工具之首列。本书以“R语言数据挖掘入门并不难”为开篇,总览了数据挖掘的理论和应用轮廓,明确了R语言入门的必备知识和学习路线,并展示了数据挖掘的初步成果,旨在使读者快速起步数据挖掘实践。后续围绕数据挖掘应用的四大核心方面,安排了数据预测篇:立足数据预测未知,数据分组篇:发现数据中的自然群组,数据关联篇:发现数据的内在关联性,离群数据探索篇:发现数据中的离群点。每篇下各设若干章节,各章节从简单易懂且具代表性的案例问题入手,剖析理论方法原理,讲解R语言实现,并给出案例的R语言数据挖掘代码和结果解释。本书内容覆盖之广泛,原理讲解之通俗,R语言实现步骤之详尽,在国内外同类书籍中尚不多见。相关数据资料及电子教案,可登录华信教育资源网www.hxedu.com.cn免费下载。

作者简介

薛薇,中国人民大学副教授,教研室主任,资深作者。主要著作:《SPSS统计分析方法及应用》、《SPSS MODOLER数据挖掘方法及应用》。

R语言数据挖掘方法及应用 PDF下载

目录

目录第一篇 起步篇:R语言数据挖掘入门并不难第1章 数据挖掘与R语言概述【本章学习目标】1.1 为什么要学习数据挖掘和R语言1.2 什么是数据挖掘1.3数据挖掘能给出什么1.3.1数据挖掘结果有哪些呈现方式1.3.2 数据挖掘结果有哪些基本特征1.4 数据挖掘能解决什么问题1.4.1 数据预测1.4.2 发现数据的内在结构1.4.3 发现关联性1.4.4 模式诊断1.5 数据挖掘解决问题的思路1.6数据挖掘有哪些典型的商业应用1.6.1 数据挖掘在客户细分中的应用1.6.2 数据挖掘在客户流失分析中的应用1.6.3 数据挖掘在营销响应分析中的应用1.6.4 数据挖掘在交叉销售中的应用1.6.5 数据挖掘在欺诈甄别中的应用1.7 R语言入门需要知道什么1.7.1 什么是R的包1.7.2 如何获得 R1.7.3 R如何起步1.7.4 R的基本操作和其他【本章附录】第2章 R语言数据挖掘起步:R对象和数据组织 【本章学习目标】2.1 什么是R的数据对象2.1.1 R的数据对象有哪些类型2.1.2 如何创建和访问R的数据对象2.2 如何用R的向量组织数据2.2.1 创建只包含一个元素的向量2.2.2 创建包含多个元素的向量2.2.3 访问向量中的元素2.3 如何用R的矩阵组织数据2.3.1 创建矩阵2.3.2 访问矩阵中的元素2.4 如何用R的数据框组织数据2.4.1 创建数据框2.4.2 访问数据框2.5 如何用R的数组、列表组织数据2.5.1 创建和访问数组2.5.2 创建和访问列表2.6 R数据对象的相互转换2.6.1 不同存储类型之间的转换2.6.2 不同结构类型之间的转换2.7 如何将外部数据组织到R数据对象中2.7.1 将文本数据组织到R对象中2.7.2 将SPSS数据组织到R对象中2.7.3 将数据库和Excel表数据组织到R对象中2.7.4 将网页表格数据组织到R对象中2.7.5 R有哪些自带的数据包2.7.6 如何将R对象中的数据保存起来2.8 R程序设计需哪些必备知识2.8.1 R程序设计涉及哪些基本概念2.8.2 R有哪些常用的系统函数2.8.3 用户自定义函数提升编程水平2.8.4 如何提高R程序处理的能力2.9 R程序设计与数据整理综合应用2.9.1 综合应用一:数据的基本处理2.9.2 综合应用二:如何将汇总数据还原为原始数据【本章附录】第3章 R语言数据挖掘初体验:对数据的直观印象【本章学习目标】【案例与思考】3.1 数据的直观印象3.1.1 R的数据可视化平台是什么?3.1.3 R的图形边界和布局3.1.2 R的图形组成和图形参数3.1.4 如何修改R的图形参数?3.2如何获得单变量分布特征的直观印象3.2.1核密度图:车险理赔次数的分布特点是什么?3.2.2 小提琴图:不同车型车险理赔次数的分布有差异吗?3.2.3克利夫兰点图:车险理赔次数存在异常吗?3.3如何获得多变量联合分布的直观印象3.3.1 曲面图和等高线图3.3.2 二元核密度曲面图:投保人年龄和车险理赔次数的联合分布特点是什么?3.3.3 雷达图:不同区域气候特点有差异吗?3.4如何获得变量间相关性的直观印象3.4.1 马赛克图:车型和车龄有相关性吗?3.4.2 散点图:这些因素会影响空气湿度吗?3.4.3 相关系数图:淘宝各行业商品成交指数有相关性吗?3.5如何获得GIS数据的直观印象3.5.1 绘制世界地图和美国地图3.5.2 绘制中国行政区划地图3.5.3 依据地图绘制热力图:不同省市的淘宝女装成交指数有差异吗?3.7如何获得文本词频数据的直观印象:政府工作报告中有哪些高频词?【本章附录】第二篇 数据预测篇:立足数据预测未知第4章 基于近邻的分类预测:与近邻有趋同的选择!【本章学习目标】【案例与思考】4.1近邻分析: K-近邻法4.1.1 K-近邻法中的距离4.1.2 K-近邻法中的近邻个数4.1.3 R的K-近邻法和模拟分析4.1.4 K-近邻法应用:天猫成交顾客的分类预测4.2 K-近邻法的适用性及特征选择4.2.1 K-近邻法的适用性4.2.2 特征选择:找到重要变量4.3基于变量重要性的加权K-近邻法4.3.1 基于变量重要性的加权K-近邻法的基本原理4.3.2 变量重要性判断应用:天猫成交顾客预测中的重要变量4.4基于观测相似性的加权K-近邻法4.4.1 加权K-近邻法的权重设计4.4.2 加权K-近邻法的距离和相似性变换4.4.3 加权K-近邻法的R实现4.4.4加权K-近邻法应用:天猫成交顾客的分类预测【本章附录】第5章 基于规则的分类和组合预测:给出易懂且稳健的预测!【本章学习目标】【案例与思考】5.1决策树概述5.1.1 什么是决策树?5.1.2 决策树的几何意义是什么?5.1.3 决策树的核心问题5.2 分类回归树的生长过程5.2.1 分类树的生长过程5.2.2 回归树的生长过程5.2.3损失矩阵对分类树的影响5.3 分类回归树的剪枝5.3.1 最小代价复杂度的测度5.3.2 分类回归树后剪枝过程5.3.3 分类回归树的交叉验证剪枝5.4 分类回归树的R实现和应用5.4.1 分类回归树的R实现5.4.2 分类回归树的应用:提炼不同消费行为顾客的主要特征5.5 建立分类回归树的组合预测模型:给出稳健的预测5.5.1 袋装技术5.5.2 袋装技术的R实现5.5.3 袋装技术的应用:稳健定位目标客户5.5.4 推进技术5.5.5 推进技术的R实现5.5.6 推进技术的应用:稳健定位目标客户5.6 随机森林:具有随机性的组合预测5.6.1 什么是随机森林?5.6.2 随机森林的R实现5.6.3 随机森林的应用:稳健定位目标客户【本章附录】第6章 基于神经网络的分类预测:给出高精确的预测!【本章学习目标】【案例与思考】6.1 人工神经网络概述6.1.1 人工神经网络和种类6.1.2 节点:人工神经网络的核心处理器6.1.3 建立人工神经网络的一般步骤6.1.4感知机模型:确定连接权重的基本策略6.2 B-P反向传播网络:最常见的人工神经网络6.2.1 B-P反向传播网络的三大特点6.2.2 B-P反向传播算法:确定连接权重6.2.3 学习率:影响连接权重调整的重要因素6.3 B-P反向传播网络的R实现和应用6.3.1 neuralnet包中的neuralnet函数6.3.2 neuralnet函数的应用:精准预测顾客的消费行为6.3.3 利用ROC曲线确定概率分割值6.3.4 nnet包中的nnet函数【本章附录】第7章 基于支持向量的分类预测:给出最大把握的预测!【本章学习目标】【案例与思考】7.1 支持向量分类概述7.1.1支持向量分类的基本思路:确保把握程度7.1.2支持向量分类的三种情况7.2理想条件下的分类:线性可分时的支持向量分类7.2.1如何求解超平面7.2.1如何利用超平面进行分类预测7.3 一般条件下的分类:广义线性可分时的支持向量分类7.3.1如何求解超平面7.3.2 可调参数的意义:把握程度和精度的权衡7.4 复杂条件下的分类:线性不可分时支持向量分类7.4.1 线性不可分的一般解决途径和维灾难问题7.4.2 支持向量分类克服维灾难的途径7.5 多分类的支持向量分类:二分类的拓展7.6 支持向量回归:解决数值预测问题7.6.1 支持向量回归与一般线性回归:目标和策略7.6.2 支持向量回归的基本思路7.7 支持向量机的R实现及应用7.7.1支持向量机的R实现7.7.2 利用R模拟线性可分下的支持向量分类7.7.3 利用R模拟线性不可分下的支持向量分类7.7.4 利用R模拟多分类的支持向量分类7.7.5 支持向量分类应用:天猫成交顾客的预测【本章附录】第三篇 数据分组篇:发现数据中的自然群组第8章 常规聚类:直观的数据全方位自动分组【本章学习目标】【案例与思考】8.1 聚类分析概述8.1.1聚类分析目标:发现数据中的“自然小类”8.1.2 有哪些主流的聚类算法?8.2基于质心的聚类:K-Means聚类8.2.1 K-Means聚类中的距离测度:体现全方位性8.2.2 K-Means聚类过程:多次自动分组8.2.3 K-Means聚类的R实现和模拟分析8.2.4 K-Means聚类的应用:环境污染的区域划分8.3 PAM聚类:改进的K- Means聚类8.3.1 PAM聚类过程8.3.2 PAM聚类的R实现和模拟分析8.3基于联通性的聚类:层次聚类8.3.1 层次聚类的基本过程:循序渐进的自动分组8.3.2 层次聚类的R实现和应用:环境污染的区域划分8.4基于统计分布的聚类:EM聚类8.4.1 基于统计分布的聚类出发点:有限混合分布8.4.2 EM聚类:如何估计类参数和聚类解8.4.3 EM聚类的R实现和模拟分析8.4.4 EM聚类的应用:环境污染的区域划分【本章附录】第9章 特色聚类:数据分组还可以这样做!【本章学习目标】【案例与思考】9.1 BIRCH聚类概述9.1.1 BRICH聚类有哪些特点?9.1.2 聚类特征和聚类特征树:BIRCH聚类的重要策略9.1.3 BIRCH的聚类过程:由存储空间决定的动态聚类9.1.4 BRICH聚类的R实现9.1.5 BRICH聚类应用:两期岗位培训的比较9.2 SOM网络聚类概述9.2.1 SOM网络聚类设计出发点

前沿

前言大数据时代不仅仅意味着数据的积累、存储与管理,更意味着对数据的建模与分析。数据挖掘无可争议地成为当今大数据分析的核心利器。尽管早在20世纪末数据挖掘的概念就被提出来,但数据挖掘的蓬勃应用其实才刚刚起步。这不仅得益于数据挖掘不断汲取并集成机器学习、统计学和可视化等学科领域的研究成果,理论日趋成熟,得益于大数据环境基础和大数据分析需求,更得益于开放性的数据挖掘应用实施平台。因采取彻底的开放性策略,R语言已成为近年来出类拔萃的数据挖掘工具之一。其特点主要是:开源性,即可以免费下载并升级;全面性,即数据挖掘方法丰富全面,覆盖面广泛;操作简便性,即直接采用函数调用相关算法,且通过简单编程可完成复杂的数据处理和方法拓展;可扩展性,即R语言通过网络社区平台,吸引越来越多的专家学者和应用人员成为R的开发者,为R语言不断增添更有效、更前沿的数据挖掘方法。所以,R语言是一款应用前景广阔的数据挖掘工具。本书以R语言数据挖掘入门并不难为起步篇,总览了数据挖掘的理论轮廓,厘清了相关概念,明确了R语言入门的必备知识和深入学习路线,并给出了对数据的直观印象这个R语言数据挖掘的初步成果。旨在使读者在没有相关知识储备的情况下,也能够快速起步数据挖掘实践。后续,本书围绕数据挖掘应用的四大核心方面,安排了数据预测篇:立足数据预测未知,数据分组篇:发现数据中的自然群组,数据关联篇:发现数据的内在关联性,离群数据探索篇:发现数据中的离群点。每篇下各设若干章节,每个章节从简单的案例问题入手,剖析理论方法原理,讲解R语言实现,给出案例的R语言数据挖掘代码和结果解释。覆盖内容之广泛,R实现步骤之详尽,都是国内外同类书籍中不多见的。这是本书的特点之一。我们认为“道”和“术”的结合,无论对数据挖掘的初学者还是应用实践者都是必要的。“道”是数据挖掘方法,“道”是原理,此原理不是数学公式的简单罗列,而是透彻的知识认知。所以,本书希望努力给出“道”的直观阐述,并以尽量准确、简短和通俗的语言,将“道”体现在章节的主副题目上,使读者一目了然。“术”是数据挖掘的R代码,“术”是操作,此操作不是R函数的简单呈现,而是算法实现和应用的通用模板,是帮助读者实现数据挖掘实践的有效工具。所以,本书力图利用R语言模拟充分直观展现“道”,并通过有代表性的数据案例,画龙点睛地阐明R的“术”。每章都配有案例数据和R程序代码,使读者不但知其然,更知其所以然和如何然。此外,各章均以附录形式给出本章涉及的R函数列表,方便读者查阅。这是本书的特点之二。进一步,目前R语言包的数量已多达7000多个,且还在快速增长。R的开放性决定了可能有诸多包都可以实现相同的数据挖掘算法。对此,本书选择R中主流的且被有效验证和广泛使用的包,既保证经典性也兼顾有效性,同时也解决了初学者因陷于众多R的“包”围中而无从下手的问题。这是本书的特点之三。最后,对R语言数据挖掘的初学者,建议按照本书章节结构,循序渐进地学习,并参照书中示例,边学边做,加深概念理解和提升R语言熟练度。对有一定R语言基础或数据挖掘应用经验的学习者,因本书各篇和章节具有相对独立性,采用“以数据为导向”和“以问题为导向”的有针对性的R语言数据挖掘学习策略均是可行的。本书适合高等院校相关专业的本科生和研究生学习使用,也适合商业企业、科研机构、政府管理部门等相关人员阅读参考。感谢付强、高峰、何建成、王晓静、肖伟、黄玉婷、陈笑语等同仁同学对本书的贡献和宝贵建议。书中不妥和错误之处,诚望读者不吝指正。 薛薇 于中国人民大学统计学院

R语言数据挖掘方法及应用 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:R语言数据挖掘方法及应用