内容简介
本书旨在为已有一定基础的R用户提供现成的方法来实现重要的数据分析任务。全书共分为11章。第1章涵盖了进行真正的数据分析任务之前的准备工作。第2章讨论了数据分析师在实施特定的分析手段之前常用的理解数据的做法。第3章涵盖了运用分类技术肚饿方法。第4章是关于回归技术的方法。第5章介绍数据简化。第6章介绍时间序列分析。第7章讨论了社交网络分析。第8章介绍制作文档和呈现分析的方法。第9章解决了面对大型数据如何书写高效且简洁的R代码的问题。第10章讨论了R在处理空间数据上的强大功能。第11章介绍了R与其他系统的连接。
作者简介
目录
目 录 Contents译者序作者简介审校者简介前言第1章 获取并准备好材料—数据 11.1 引言 11.2 从csv文件中读取数据 11.3 读取XML数据 41.4 读取JSON数据 61.5 从定宽格式文件中读取数据 71.6 从R数据文件和R库中读取数据 81.7 删除带有缺失值的样本 101.8 用均值填充缺失值 111.9 删除重复样本 131.10 将变量缩放至[0,1]区间 141.11 对数据框中的数据做正则化或标准化 151.12 为数值数据分箱 171.13 为分类变量创建哑变量 18第2章 那里面有什么——探索性数据分析 212.1 引言 212.2 创建标准化数据概览 212.3 抽取数据集的子集 232.4 分割数据集 252.5 创建随机数据分块 262.6 创建直方图、箱线图、散点图等标准化图像 292.7 在网格窗口上创建多个图像 372.8 选择图形设备 382.9 用lattice包绘图 392.10 用ggplot2包绘图 422.11 创建便于比较的图表 472.12 创建有助于发现因果关系的图表 512.13 创建多元图像 53第3章 它属于哪儿——分类技术 553.1 引言 553.2 创建误差/分类–混淆矩阵 553.3 创建ROC图 583.4 构建、绘制和评估—分类树 613.5 用随机森林模型分类 663.6 用支持向量机分类 693.7 用朴素贝叶斯分类 723.8 用K最近邻分类 743.9 用神经网络分类 773.10 用线性判别函数分类 793.11 用逻辑回归分类 803.12 用AdaBoost来整合分类树模型 83第4章 给我一个数——回归分析 864.1 引言 864.2 计算均方根误差 864.3 建立用于回归的KNN模型 884.4 运用线性回归 944.5 在线性回归中运用变量选择 994.6 建立回归树 1024.7 建立用于回归的随机森林模型 1084.8 用神经网络做回归 1124.9 运用K-折交叉验证 1144.10 运用留一交叉验证来限制过度拟合 116第5章 你能化简它吗——数据简化技术 1185.1 引言 1185.2 用K-均值聚类法实现聚类分析 1185.3 用系统聚类法实现聚类分析 1245.4 用主成分分析降低维度 127第6章 从历史中学习——时间序列分析 1346.1 引言 1346.2 创建并检查日期对象 1346.3 对日期对象进行操作 1386.4 对时间序列数据做初步分析 1406.5 使用时间序列对象 1436.6 分解时间序列 1496.7 对时间序列数据做滤波 1516.8 用HoltWinters 方法实现平滑和预测 1526.9 创建自动的ARIMA模型 155第7章 这都是你的关系——社交网络分析 1577.1 引言 1577.2 通过公共API下载社交网络数据 1577.3 创建邻接矩阵和连边列表 1617.4 绘制社交网络数据 1647.5 计算重要的网络度量指标 176第8章 展现你最好的一面——制作文档和呈现分析报告 1828.1 引言 1828.2 用R Markdown 和 knitR创建数据分析报告 1828.3 用shiny创建交互式Web应用 1918.4 用R Presentation为分析报告创建PDF幻灯片 196第9章 事半功倍——高效且简洁的R代码 2019.1 引言 2019.2 利用向量化操作 2019.3 用apply函数操作整行或整列 2039.4 用lapply和sapply将函数应用于整组元素 2069.5 在向量的一个子集上应用函数 2089.6 用plyr完成分割–应用–组合策略 2109.7 用数据表对数据进行切片、切块和组合 213第10章 在哪儿——地理空间信息数据分析 21910.1 引言 21910.2 下载并绘制一个地区的谷歌地图 21910.3 在已下载的谷歌地图上叠加数据 22210.4 将ESRI形状文件导入到R中 22410.5 使用sp包绘制地理数据 22610.6 从maps包中获取地图 22810.7 从包含空间及其他数据的普通数据框中创建空间数据框 22910.8 通过合并普通数据框和空间对象生成空间数据框 23010.9 为已有的空间数据框添加变量 234第11章 友好协作——连接到其他系统 23711.1 引言 23711.2 在R中使用Java对象 23711.3 从Java中用JRI调用R函数 24311.4 从Java中用Rserve调用R函数 24511.5 从Java中执行R脚本 24811.6 使用xlsx包连接到Excel 24911.7 从关系型数据库—MySQL中读取数据 25211.8 从非关系型数据库—MongoDB中读取数据 256
前沿
Preface 前 言作为一种统计计算、数据分析和绘图环境,自从2000年1.0版本问世以来,R的流行度获得了指数级的增长。一些电子表格用户想要完成电子表格软件无法实现的功能,或需要处理的数据量大到电子表格软件无法方便地完成,他们寄希望于R。类似地,商业分析软件用户也被这个免费且强大的选项所吸引。于是,一大群人目前正寄希望于用R快速处理事务。 作为一个可扩展的系统,R的功能分布在众多的包中,每一个包囊括了大量函数。即使是经验丰富的使用者也很难将所有的细节记在脑海中。本书旨在为已有一定基础的R用户提供现成的方法来实现很多重要的数据分析任务。当面对一个特定任务时,用户可以在几分钟内找到合适的方法并实施,而不必在互联网或众多书籍中苦苦搜索。 本书涵盖以下内容第1章涵盖了进行真正的数据分析任务之前的准备工作。本章提供了从不同源文件格式中读取数据的方法。此外,在实际分析数据前,我们执行了几个预处理和数据清洗步骤,本章还提供了以下任务的处理方法:处理缺失值和重复值、数值的缩放或标准化、在数值型变量和分类变量之间的转换,以及创建哑变量。 第2章讨论了分析师在实施特定的分析手段之前常用来理解数据的几种做法。本章提供了用于汇总数据、分割数据、抽取子集和建立随机数据分块的方法,也提供了使用标准化图像来展现潜在模式的方法,还提供了使用lattice和ggplot2包绘图的方法。 第3章涵盖了运用分类技术的方法。本章包括分类树、随机森林、支持向量机、朴素贝叶斯、K最近邻、神经网络、线性和二次判别分析,以及逻辑回归。 第4章是关于回归技术的方法。本章包括K最近邻、线性回归、回归树、随机森林和神经网络。 第5章介绍了数据简化的方法。本章提供了通过K-均值和系统聚类的聚类分析手段,同时也涵盖了主成分分析。 第6章包含了一些技巧,包括处理日期和日期/时间对象,创建时间序列对象并画图,时间序列的分解、滤波和平滑,以及执行ARIMA分析。 第7章讨论了社交网络。本章介绍如何通过公共API获取社交网络数据,创建、绘制社交网络图,并计算重要的网络度量指标。 第8章讨论了呈现分析结果的技术。本章包含以下方法:使用 R Markdown 和 knitR 来创建报告,通过使用 shiny 创建交互式应用使读者直接与数据进行交互,用RPres创建幻灯片。 第9章解决了面对大型数据时如何书写高效且简洁的R代码的问题。 本章包含了通过apply系列函数、plyr包和数据表来切割数据的方法。 第10章包含了开拓R在处理空间数据上的强大功能的主题。本章涵盖了以下方法:通过RGoogleMaps来获取GoogleMaps数据并且在其上添加自有数据,导入ESRI形状文件并绘图,从maps包中导入地图数据,利用sp包创建并绘制空间数据框对象。 第11章包含了R与其他系统的交互。本章包含了R与Java、Excel、关系型数据库和非关系型数据库(分别以MySQL和MongoDB为例)之间的连接。 阅读须知本书中的所有代码均在 R 3.0.2 (Frisbee Sailing) 版本和 3.1.0 (Spring Dance)版本上测试通过。当安装或者载入某些包时,你也许会得到警告消息,提示你这些代码是为不同的版本编译的,不过这并不会实际影响本书中的任何代码。 本书面向的读者对象本书非常适合于那些已经有一定的R基础,但尚无将R广泛用于各种数据分析的经验,同时希望快速入门分析任务的读者。本书有助于在下列几个方面提高分析技巧的人士: 实现高级分析并创建信息充实的专业图表。 熟练地从各种来源获取数据。 应用监督型和无监督型的数据挖掘技术。 使用R的功能来呈现专业的分析报告。 每章的内容安排在本书中,你会发现有几个标题是频繁出现的(准备就绪、要怎么做、工作原理、更多细节、参考内容)。 为了让读者在完成一个方法时获得清晰的指导,我们采用了以下内容编排方式: 准备就绪这一节会给出内容概述,并且会描述如何准备好本节所需的软件以及任何其他前期准备工作。 要怎么做这一节包含了完成方法所需的步骤。 工作原理这一节通常包含了前一节中每一步的具体解释。 更多细节这一节包含了关于所用方法的额外信息,以便让读者获得一个更加全面的认识。 参考内容这一节提供了其他有用信息的链接。 本书约定在本书中,你会发现我们使用不同类型的字体来区分不同类型的信息。下面有一些例子和解释。 文字形式的代码、数据库表名、文件夹名、文件名、文件扩展名、路径名、URL、用户输入和Twitter账户展示如下: “函数 read.csv()从.csv文件的数据中创建了一个数据框。” 代码块写成如下形式: 命名行的输入和输出写成如下格式: 小提示和小技巧出现在这里。 本书相关资源下载下载代码范例和数据本书提供代码范例和数据下载,读者可登录华章网站(www.hzbook.com)关于本书的页面获取相关资源。 关于本书中用到的数据我们已经生成了本书中用到的很多数据文件。我们也使用了一些公开可获取的数据集。下表列出了这些公开的数据集。大部分公开数据集来自于加州大学欧文分校的机器学习库http://archive.ics.uci.edu/ml/。表中我们用“下载自 UCI-MLR”来标志这些数据集。 数据文件名 来 源auto-mpg.csv Quinlan, R. Combining Instance-Based and Model-Based Learning, Machine Learning Proceedings on the Tenth International Conference 1993, 236-243, held at University of Massachusetts, Amherst published by Morgan Kaufmann.(下载自 UCI-MLR)BostonHousing. csv D. Harrison and D.L. Rubinfeld, Hedonic prices and the demand for clean air, Journal for Environmental Economics a Management, pages 81–102, 1978. (下载自 UCI-MLR)daily-bike- rentals.csv Fanaee-T, Hadi, and Gama, Joao, Event labeling combining ensemble detectors and background knowledge, Progress in Artificial Intelligence (2013): pp. 1-15, Springer Berlin Heidelberg. (下载自 UCI-MLR)banknote- authentication. csv 数据库来源: Volker Lohweg, University of AppliedSciences, Ostwestfalen-Lippe数据库捐赠: Helene Darksen, University of AppliedSciences, Ostwestfalen-Lippe(下载自 UCI-MLR)education.csv Robust Regression and Outlier Detection, P. J. Rouseeuw and A. M. Leroy, Wiley, 1987.(下载自 UCI-MLR)walmart.csvwalmart- monthly.csv 下载自 Yahoo!金融prices.csv 下载自美国劳工统计局infy.csv, infy- monthly.csv 下载自 Yahoo!金融nj-wages.csv 下载自新泽西州教育部网站以及http://federalgovernmentzipcodes.us.nj-county-data. csv 改编自维基百科: http://en.wikipedia.org/wiki/List_of_counties_in_New_Jersey下载本书中的彩色图片我们为你提供了本书中用到的截图和图表的彩色PDF文件。这些彩图有助于你更好的理解输出中的变化。可以从https://www.packtpub.com/sites/default/files/ downloads/9065OS_ ColorImages.pdf下载这个文件,也可以登录华章网站获取相关内容。
R数据分析秘笈 pdf下载声明
本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版