欢迎光临
免费的PDF电子书下载网站

CDA数据分析师系列丛书 PDF下载

编辑推荐

 ;  ;  ; CDA数据分析师系列丛书按照数据分析师规范化学习体系而定,对于一名初学者,应该先掌握必要的概率、统计理论基础,包括描述性分析,推断性分析,参数估计,假设检验,方差分析,回归分析等内容,这在**本书《从零进阶!数据分析的统计基础》中进行了专业详细的讲解。其次,数据分析需要按照标准流程进行,即数据的获取、储存、整理、清洗、归约等系列数据处理技术,这在《如虎添翼!数据处理的SAS EG实现》中利用SAS EG和编程技术进行了操作过程的详解。*后,经过处理的数据需要根据业务问题,利用相关方法进行建模分析,得出结果,结果检验,绘制图表并解读数据,这在《胸有成竹!数据分析的SAS EG进阶》中进行了详细的讲解和操作分析。

 ;  ;  ; CDA数据分析师丛书整体风格是“理论>;技术>;应用”的一个学习过程,*终目的在于商业业务应用、职场数据分析,为欲从事于数据分析领域的各界人士提供了一个规范化数据分析师的学习体系。

 ;

内容简介

《从零进阶!数据分析的统计基础》共 6 章,分别讲解了数据分析的步骤和方法、描述性统计分析、抽样估计、假设检验、方差分析、 相关与回归分析,使用简单的语言介绍了这些数据分析基本方法的核心思想和涉及的统计学、概率论等方面 的理论内容,并使用图示的方法详细介绍了使用 Excel 2013 进行简单的描述性统计分析和使用 SPSS 进行相 关的数据分析的过程与结果分析。
《从零进阶!数据分析的统计基础》适合需要提升自身数据分析理论和实践能力的职场新人;在市场营销、金融、财务、人力资源管理 中需要数据分析的人士;从事咨询、研究、分析等的专业人士。也可以作为数据分析师职业培训的教材,普通高等院校非统计专业数据分析的选修教材。

《胸有成竹!数据分析的SAS EG进阶》共5章,涉及使用SAS EG做数据分析的主要分析方法。其中,第1章为数据分析方法概述,第2章至第4章为横截面数据分析方法。第5章为时间序列分析方法。每章都根据所涉及的知识点的不同,选取了实用的案例,并为读者准备了相应的思考和练习题。

作者简介

人大经济论坛(bbs.pinggu.org):于2003年成立,致力于推动经管学科的进步,传播优秀教育资源,目前已经发展成为国内*的经济、管理、金融、统计类的在线教育和咨询网站,也是国内最活跃和*影响力的经管类网络社区。
人大经济论坛从2006年起在国内最早开展数据分析培训,累计培训学员数万人,在大数据的趋势背景下,作为Certified Data Analyst Institute(注册数据分析师协会,简称CDA协会)的中国唯一授权中心,根据CDA协会的数据分析师LevelⅠ(业务分析师)、Level Ⅱ(建模分析师)、Level Ⅲ(数据专家)的等级标准,致力于培养正规化、科学化、专业化的数据分析师队伍,为企事业单位输送更多优秀数据分析人才。(Certified Data Analyst Institute,亦称“注册数据分析师协会”,成立于美国特拉华州,主要宗旨为汇聚国际先进的数据分析技术,建设国际性规范化数据分析师职业标准,推进数据分析师的行业发展及认证工作,目前标准行业认证为CDA数据分析师)

曹正凤,统计学专业博士,具有多年的数据分析项目实践经验和统计学教学经验,人大经济论坛CDA金牌讲师,北京石油化工学院实验师,研究方向为数据挖掘领域的前沿算法研究,包括*森林算法、神经网络等,发表多篇论文,且发表的EI核心收录论文受到多次检索。

徐筱刚,统计学硕士。拥有近十年的丰富的数据分析、数据挖掘实战经验,曾就职于咨询公司、金融机构等多家著名企业,目前在一家金融机构担任资深数据分析顾问,具有零售、电信、金融等多个数据挖掘的项目经验和行业背景。

常国珍,北京大学光华管理学院会计学在读博士生,北京大学人口研究所社会学硕士,河北联合大学土木工程专业学士。德勤管理咨询公司兼职咨询顾问,SAS资深培训讲师。曾以数据挖掘工程师身份就职于亚信科技(中国)有限公司市场部。具有八年的数据挖掘实战经验,主要从事电信和银行业数据挖掘工作。项目涉及客户精准营销、信用评估、欺诈侦测和流失预警等,尤其熟悉银行个人客户精准营销的建模工作。

CDA数据分析师系列丛书 PDF下载

目录

《从零进阶!数据分析的统计基础》
第 1 章 数据分析概述 1
1.1 什么是数据分析 . 2
1.2 数据分析六步曲 . 2
1.2.1 明确分析目的和内容 . 2
1.2.2 数据收集. 3
1.2.3 数据预处理. 3
1.2.4 数据分析. 3
1.2.5 数据展现. 4
1.2.6 报告撰写. 5
1.3 数据分析方法简介 . 5
1.3.1 统计分析方法简介 . 5
1.3.2 数据挖掘方法简介 . 6
1.3.3 统计分析与数据挖掘的区别和联系 . 9
1.4 常用数据分析工具的安装 . 10
1.4.1 在 Excel 2013 中安装数据分析工具 . 10
1.4.2 数据分析软件 SPSS 的安装 13
1.5 课后练习 . 18
第 2 章 描述性统计分析 19
2.1 直方图 . 20
2.1.1 什么是直方图. 20
2.1.2 如何看直方图. 20
2.1.3 如何画直方图. 20
2.1.4 使用 Excel 2013 进行直方图的绘制 . 22
2.2 数据的计量尺度 . 24
2.3 数据的集中趋势 . 25
2.3.1 定量数据:平均数 . 25
2.3.2 顺序数据:中位数和分位数 . 27
2.3.3 分类数据:众数. 27
2.4 数据的离中趋势 . 28
2.4.1 极差 28
2.4.2 分位距 29
2.4.3 平均差 29
2.4.4 方差与标准差 30
2.4.5 离散系数 32
2.5 数据分布的测度 . 33
2.5.1 数据偏态及其测定. 34
2.5.2 数据峰度及其测定. 34
2.5.3 数据偏度和峰度的作用. 35
2.6 数据的展示——统计图 . 35
2.6.1 条形图与扇形图. 36
2.6.2 折线图 36
2.6.3 茎叶图 37
2.6.4 箱线图 40
2.6.5 统计图小结 42
2.7 使用 Excel 实现数据的描述性统计及分析 43
2.7.1 使用 Excel 实现三国全部武将武力描述性统计 43
2.7.2 使用 Excel 分别实现三个国家武将武力描述性统计分析 44
2.8 课后习题. 45
第 3 章 抽样估计 . 48
3.1 抽样估计基础 . 49
3.1.1 随机事件 49
3.1.2 随机事件的概率. 50
3.1.3 随机变量及其概率分布. 52
3.1.4 随机变量的数字特征. 55
3.2 正态分布及三大分布 . 56
3.2.1 正态分布的概率密度函数. 56
3.2.2 正态分布的特征. 57
3.2.3 标准正态分布 58
3.2.4 基于正态分布的三大分布. 61
3.3 中心极限定理 . 63
3.3.1 中心极限定理的提法. 63
3.3.2 中心极限定理的内容. 64
3.3.3 中心极限定理的意义与应用 . 64
3.4 抽样估计 . 65
3.4.1 抽样估计概述. 66
3.4.2 抽样估计的基本概念 . 66
3.4.3 抽样估计的误差 . 70
3.4.4 抽样估计的理论基础 . 72
3.4.5 抽样估计的方法 . 73
3.4.6 抽样的组织形式 . 77
3.4.7 必要抽样数目的确定 . 78
3.5 课后习题 . 80
第 4 章 假设检验 86
4.1 假设检验概述 . 87
4.1.1 假设检验的概念 . 87
4.1.2 假设检验的基本思想 . 87
4.1.3 假设检验在数据分析中的作用 . 88
4.2 假设检验的分析方法 . 88
4.2.1 假设检验的基本步骤 . 88
4.2.2 假设检验与区间估计的联系 . 90
4.2.3 假设检验中的两类错误 . 92
4.2.4 利用 P 值进行决策 92
4.2.5 应用假设检验需要注意的问题 . 94
4.3 常见的检验统计量 . 94
4.3.1 z 检验统计量 95
4.3.2 t 检验统计量. 96
4.3.3 2 检验统计量. 97
4.3.4 F 检验统计量 . 97
4.3.5 各种检验统计量一览表 . 97
4.4 SPSS 中常用的几种 t 检验实例 99
4.4.1 单样本 t 检验 99
4.4.2 两独立样本 t 检验 102
4.4.3 配对样本 t 检验 106
4.5 课后习题 . 110
第 5 章 方差分析 114
5.1 方差分析 . 115
5.1.1 方差分析的概述 . 115
5.1.2 方差分析的几个概念 . 115
5.1.3 单因素方差分析中的基本假定 . 116
5.2 单因素方差分析 . 116
5.2.1 单因素方差分析的原理. 116
5.2.2 单因素方差分析的数据结构 . 117
5.2.3 单因素方差分析的统计量. 118
5.2.4 单因素方差分析的基本步骤 . 119
5.3 使用 SPSS 实现单因素方差分析的步骤及结果分析 . 119
5.3.1 操作步骤及必要说明. 119
5.3.2 对操作结果的分析. 123
5.4 课后习题. 126
第 6 章 相关与回归分析 130
6.1 变量间的关系 . 131
6.1.1 函数关系及特点. 131
6.1.2 相关关系及特点. 131
6.2 相关分析. 132
6.2.1 相关分析及步骤. 132
6.2.2 散点图的绘制 132
6.2.3 相关系数 133
6.2.4 相关系数的显著性检验. 134
6.2.5 使用 SPSS 实现相关分析 135
6.3 一元线性回归分析 . 137
6.3.1 一元回归模型及相关假定. 138
6.3.2 一元线性回归方程及求法. 138
6.3.3 回归直线的拟合优度. 139
6.3.4 回归模型的检验. 139
6.4 使用 SPSS 实现一元线性回归分析 141
6.4.1 画散点图和趋势线. 142
6.4.2 简单相关分析 145
6.4.3 一元线性回归分析的操作步骤 . 145
6.4.4 一元线性回归分析的结果解读 . 150
6.5 课后习题. 153
附录 A 三国武将数据 . 160
附录 B CDA(注册数据分析师)致力于最好的数据分析人才建设 . 175


《如虎添翼!数据处理的SAS EG实现》
第1章 软件入门介绍 1
1.1 SAS EG介绍 2
1.1.1 SAS EG简介 2
1.1.2 SAS EG的窗口及菜单 3
1.2 数据挖掘的流程介绍 4
1.2.1 KDD介绍 4
1.2.2 CRISP-DM 5
1.2.3 SEMMA 5
1.2.4 三种数据挖掘流程的比较 6
第2章 使用数据 7
2.1 通过SAS逻辑库访问数据 8
2.1.1 商业背景 8
2.1.2 SAS相关功能介绍 8
2.1.3 EG菜单解决方案 9
2.1.4 程序实现 10
2.2 理解SAS数据集的定义 11
2.2.1 理解SAS数据集的含义 11
2.2.2 商业背景 11
2.2.3 SAS相关功能介绍 11
2.2.3 EG菜单解决方案 15
2.2.4 程序实现 17
2.3 导入其他格式的数据文件 18
2.3.1 商业背景 18
2.3.2 SAS相关功能介绍 18
2.3.3 EG菜单解决方案 18

2.3.4 程序实现 21
2.4 扩展阅读 22
第3章 探索性数据分析及数据的清理 23
3.1 探索性数据分析 24
3.1.1 基本理论讲解 24
3.1.2 EG菜单解决方案 24
3.2 数据清理介绍 28
3.2.1 商业背景 28
3.2.2 需要清理的数据类型 28
3.3 类别变量的清理 30
3.3.1 EG菜单解决方案 30
3.3.2 类别变量的清理 34
3.4 数值型变量的清理 35
3.4.1 EG菜单解决方案 35
3.4.2 程序实现 38
3.5 正态分布的验证 40
3.5.1 商业背景 40
3.5.2 相关理论介绍 40
3.5.3 EG菜单解决方案 40
3.5.4 程序实现 43
3.6 扩展阅读 45
第4章 数据的行处理 46
4.1 数据筛选 47
4.1.1 商业背景 47
4.1.2 相关理论介绍 47
4.1.3 EG菜单解决方案 47
4.1.4 程序实现 49
4.2 排序与求秩 54
4.2.1 商业背景 54
4.2.2 理论介绍 54
4.2.3 菜单解决方案 55
4.2.4 EG菜单解决方案-求秩 57
4.2.5 程序实现 61
4.3 抽样 62
4.3.1 商业背景 62
4.3.2 抽样理论介绍 62
4.3.3 EG 菜单解决方案 64
4.3.4 程序实现 66
4.4 数据分组和汇总 67
4.4.1 商业背景 67
4.4.2 EG菜单解决方案 67
4.4.3 程序实现 69
4.5 扩展阅读 69
第5章 数据的列处理 70
5.1 计算新变量 71
5.1.1 商业背景 71
5.1.2 EG菜单解决方案 71
5.2 拆分列 74
5.2.1 商业背景 74
5.2.2 EG菜单解决方案 74
5.3 堆叠列 76
5.3.1 商业背景 76
5.3.2 EG菜单解决方案 76
5.4 转置列 79
5.4.1 商业背景 79
5.4.2 EG菜单解决方案 79
5.4.3 程序实现 81
5.5 函数及运算符的使用 82
5.5.1 运算符 82
5.5.2 函数 84
5.6 对列重编码 91
5.6.1 商业背景介绍 91
5.6.2 EG菜单解决方案 91
5.6.3 程序实现 95
5.7 标准化 97
5.7.1 商业背景 97
5.7.2 相关理论介绍 97
5.7.3 EG菜单实现 97
5.7.4 实现程序 99
5.8 扩展阅读 100
第6章 数据集的操作 101
6.1 纵向连接 102
6.1.1 商业背景 102
6.1.2 相关的理论 102
6.1.3 EG菜单解决方案 102
6.1.4 程序实现 105
6.2 横向连接 109
6.2.1 商业背景 109
6.2.2 相关理论介绍 109
6.2.3 EG菜单解决方案 109
6.2.4 程序实现 113
6.3 数据集的比较 117
6.3.1 商业背景介绍 117
6.3.2 相关理论介绍 117
6.3.3 EG菜单解决方案 117
6.3.4 程序实现 120
6.4 创建格式 121
6.4.1 商业背景 121
6.4.2 相关理论介绍 121
6.4.3 EG菜单解决方案 123
6.4.4 程序实现 126
6.5 删除数据集和格式 127
6.5.1 EG菜单解决方案 127
6.5.2 程序实现 128
6.6 扩展阅读 128
第7章 数据的展示:图形及报告的编制 129
7.1 数据可视化与图表 130
7.1.1 商业背景 130
7.1.2 相关理论介绍 130
7.1.3 EG菜单解决方案 133
7.2 创建Listing报表 136
7.2.1 商业背景 136
7.2.2 相关理论介绍 136
7.2.3 EG菜单解决方案 138
7.2.4 程序实现 140
7.3 扩展阅读 141
第8章 在SAS EG中使用提示和条件处理 142
8.1 提示与宏变量 143
8.1.1 商业背景 143

前沿

《从零进阶!数据分析的统计基础》

感谢您选择“CDA 数据分析师”LevelⅠ学习系列丛书”之《从零进阶!数据分析的统计基础》 众所周知,数据分析的基础是统计学,没有概率论和数理统计的知识,数据分析尤如无根之草, 只能浮游在华丽的词藻上,数据分析师的职业发展之路也走不长远,因此掌握数据分析的统计学基础 知识是非常重要的。统计学作为一门学科,其内容之多,不是一本书能概括得了的,而为了使零基础 的读者,尽快进阶成一名具有统计基础的数据分析师,本书为此做出了积极的探索。取其精华,论其 重点,使读者能尽快地掌握一些数据分析师必备的统计学知识,这是本书的目的,也是学习本书的读 者所想要达到的最终目标。掌握本书中的内容,您将在数据分析师这个职业之路上走得更远,更踏实。 本书按照数据分析必备的统计学基础知识来讲解,以三国武将数据为案例背景,由浅入深、由易 到难地向您展示统计学基础理论。由于三国时期的历史背景家喻户晓,读者可以不必费力地探究案例 的背景知识,让您能够将更多的精力放在学习核心的理论知识上,从而为今后的数据分析工作打下坚实的理论基础。

读者对象

本书适合需要提升自身数据分析理论和实践能力的职场新人;在市场营销、金融、财务、人力资 源管理中需要数据分析的人士;从事咨询、研究、分析等的专业人士,也可以将其作为数据分析师职 业培训的教材,普通高等院校非统计专业数据分析的选修教材。

阅读指南
全书共 6 章,分别讲解数据分析的步骤和方法、描述性统计分析、抽样估计、假设检验、方差分 析、相关与回归分析,使用简单的语言介绍了这些数据分析基本方法的核心思想和涉及的统计学、概 率论等方面的理论内容,并使用图示的方法详细介绍了使用 Excel 2013 进行简单的描述性统计分析和使用 SPSS 进行相关的数据分析的过程与结果分析。其中,第 1 章为数据分析的步骤和方法介绍,第 2 章为 描述性统计分析的内容,包括平均值、标准差及统计图的介绍,第 3 章至第 4 章为抽样推断的内容, 包括抽样估计和假设检验,这是全书的重要内容,也是最重要的数据分析理论基础。第 5 章至第 6 章 为统计分析的初步,介绍方差分析、相关分析和回归分析的原理及其软件操作实现。每章都根据所涉 及的知识点的不同,选取了案例,并为读者准备了相应的思考题和练习题。
详细的章节内容如下:

第 1 章 数据分析概述 本章主要介绍数据分析的概念、分析步骤和分析方法,介绍如何在 Excel 2013 中安装数据分析工 具,这是在后续课程中进行数据分析的基础。
第 2 章 描述性统计分析 本章主要介绍数据分析中最基本的分析方法——描述性统计分析,主要包括数据的集中趋势、离中趋势和数据分布的测度指标分析方法,直方图、茎叶图、箱线图等统计图的含义和画法,介绍如何在 Excel 2013 中实现数据的描述性统计分析。
第 3 章 抽样估计 本章主要介绍推断统计的基础——抽样估计,主要包括抽样估计的基础知识、三种在数据分析中经常用到的分布及中心极限定理等内容,详细介绍抽样误差、抽样估计方法和抽样组织形式等抽样估 计的重要内容,本章介绍的内容为数据分析师在进行数据分析时所需要的最基础的知识。
第 4 章 假设检验 本章主要介绍数据分析中必须用到的一种统计分析方法——假设检验,它是抽样推断的主要内容之一,本章的主要内容包括假设检验的基本思想、步骤和假设检验中经常用到的检验统计量,并介绍SPSS 中常用的几种 T 检验方法。
第 5 章 方差分析 本章主要介绍数据分析中比较多个总体的均值是否相等的检验方法——方差分析,主要包括方差分析的相关概念、单因素方差分析的原理、统计量构造过程等内容,并介绍如何在 SPSS 中实现单因 素方差分析及对结果的分析。
第 6 章 相关与回归分析 本章主要介绍相关和回归分析,两者均是应用极其广泛的数据分析方法。主要内容包括变量间的关系、相关分析的概念和步骤、一元线性回归分析的相关概念和相关假定、一元线性回归方程及求法、一元线性回归分析和检验的内容,并介绍如何使用 SPSS 实现相关分析和回归分析。

本书特点

本书的主要特点有两个方面。 一是理论内容画龙点睛。 数据分析涉及统计学、概率论等众多内容,如何较快地实现从菜鸟到数据分析师的进阶,就必须有针对性地学习必要的知识,如何正确地引导读者抓住数据分析的精髓和要点,这是本书试图解决的 问题。如果这个问题得到解决,那么将极大地节省读者进行数据分析的成本,从而较快地进阶为一名 数据分析师。读者有时候也会有这样的一些感觉,当面对厚厚的一本统计学教材时,总有一种望而却 步的感觉,失去了学下去的勇气。编写本书的本意,就在于让读者能在短期内,对数据分析师需要知 道的基础知识做一个系统而完整的介绍,恰到好处地对精华内容进行展示,使读者能少而精地把握数 据分析的基本要领,从而激起读者进一步学习的欲望。读完本书后,你会发现,其实要成为一名数据 分析师,需要掌握的知识也不是太多,因为有些内容贵在精,而不在多。
二是一个案例贯穿始终。

本书在讲解统计基础理论时,均使用同一个案例,且该案例贯穿全书的始终。以三国时期的武将数据作为例子进行介绍数据分析的过程,由于三国的历史背景大家都较为熟悉,因此读者不必费力熟 悉数据分析的业务背景,而是直接进入使用数据说话的奇妙世界。

学习方法

本书是数据分析师入门的基础理论部分,其宗旨在于将数据分析师需要具备的核心理论进行描述, 而有些统计学理论没有全面的展开,因此读者需要根据自己的需要适当地查阅相关的理论知识,对所 学的内容进一步巩固,达到由点到线,由线到面的学习效果。
书中前 4 章的结构是从易到难,由基础到提高,建议读者顺序阅读,以掌握数理统计的基本理论 知识。从第 5 章开始,其结构虽然是从易到难,但章节之间相互独立,即可以从任意章节开始学习,不需要遵照从前到后的顺序阅读。

售后服务
为方便读者学习,本书提供了书中实例的源文件下载,请读者进入人大经济论坛,注册后搜索“CDA 教材源文件”关键词下载相应的源文件。 本书读者可以在人大经济论坛的“数据挖掘与商业智能”就书中的问题进行提问,也欢迎大家就自己遇到的业务问题和大家讨论。同时,也可以向作者发邮件,

致谢

本书由人大经济论坛策划,曹正凤负责编写和完成统稿。 丛书从策划到出版,倾注了电子工业出版社计算机图书分社张慧敏、石倩、官杨、张童等多位编辑的心血,特在此表示衷心地感谢! 为保证丛书的质量,使其更贴近读者,我们组织了人大经济论坛的多位版主和高级会员参与了本书的预读工作,他们是杨同梅、田佳、孙华枫、原瑜芬、叶阵雨、郑赟、李剑宇、江翊雪、陈鹏、刘 莎莎、丁亚军。感谢各位预读员的辛勤、耐心与细致,使得本丛书能以更加完善的面目与各位读者见 面,特别感谢覃智勇圆满地组织了本次预读工作和审校工作。
尽管作者们对书中的案例精益求精,但疏漏仍然在所难免,如果您发现书中的错误或某个案例有 更好的解决方案,敬请登录社区网站向作者反馈,我们将尽快在社区中给出回复,且在本书再次印刷 时修正。
再次感谢您的支持!

《如虎添翼!数据处理的SAS EG实现》

感谢您选择“CDA数据分析师”Level I学习系列丛书之《如虎添翼!数据处理的SAS EG实现》。
该丛书按照数据分析师规范化学习体系而定,对于一名初学者,应该先掌握必要的概率、统计理论基础,包括描述性分析、推断性分析、参数估计、假设检验、方差分析、回归分析等内容,这在第一本书《从零进阶!数据分析的统计基础》中进行了专业详细的讲解。其次,数据分析需要按照标准流程进行,即数据的获取、储存、整理、清洗、归约等系列数据处理技术,这在《如虎添翼!数据处理的SAS EG实现》中利用SAS EG和编程技术进行了操作过程的详解。最后,经过处理的数据需要根据业务问题,利用相关方法进行建模分析,得出结果,结果检验,绘制图表并解读数据,这在《胸有成竹!数据分析的SAS EG进阶》中进行了详细的讲解和操作分析。
CDA数据分析师丛书整体风格是“理论>;技术>;应用”的一个学习过程,最终目的在于商业业务应用、职场数据分析,为欲从事于数据分析领域的各界人士提供了一个规范化数据分析师的学习体系。
读者对象
作为丛书中的一本,本书上承基础理论部分,下启最终建模及案例分析。本书将关注点集中到数据的探索及预处理上,通过本书的学习将会加深对基础理论部分的理解,为后续的建模分析做好数据上的准备。本书适合那些想了解数据预处理,或者被数据的预处理占去大部分时间而想提高效率,或者囿于菜单操作的局限性而希望通过程序实现的数据分析人员。
阅读指南
对数据分析师而言,合适的数据就像好的食材,对最终分析结果的影响不言而喻,但是在日常的工作中我们会经常遇到两个问题,一是数据的质量不高,数据在收集、存储等过程中不可避免地出现了脏数据、不一致数据、噪声数据、重复数据等,如果我们不做任何预处理而直接输入模型,就会出现“garbage in, garbage out”,即垃圾进垃圾出的情况。二是数据的形式不符,因为不同的模型,建模技术都有一定的前提假设,对数据的展现形式、分布状态等都有较为严格的要求,如果不做预处理,模型出来的结果很可能与数据底层真正蕴含的规律背道而驰,对这种形式的数据盲目地进行建模分析,极容易误人误己。
数据预处理占到整个数据挖掘的60%~80%的时间,要想高效正确地完成数据的预处理工作其实不是一件容易的事情,本书作者根据在咨询公司、电信及金融行业的多年经验,将常用的数据预处理思路融入到SAS EG的菜单操作中,并配以SAS程序的讲解,使得读者在熟悉菜单的同时,能用简单的SAS语言完成相对复杂的数据处理要求。

全书共分为九章:
第1章介绍了SAS EG软件,并介绍了三种常见的数据分析流程;
第2章介绍了如何通过多种方式使SAS EG可以轻松地访问多种形式的外部数据;、
第3章介绍了探索性数据分析的基本思路,以及数据清理的相关理论,并分别演示了如何对类别数据、数据数据进行清理;
第4章、第5章介绍了如何对数据观测进行筛选和排序、抽样,以及数据的分组和汇总,如何对数据进行转置,使用函数等,
第6章介绍了如何在整体上对数据集进行操作,包括如何对数据集进行横向连接和纵向连接,数据集之间的比较创建格式等。
第7章讲解了数据的可视化及图表、报告的编制方法。
第8章、第9章介绍了如何在SAS EG中运用提示、程序等来提高数据处理效率。
各部分相互独立,读者可以根据自己的需要选择性阅读。
本书特点
1.关于SAS EG模块的首本中文教材;
2.非单纯的逐个讲解菜单,而是将数据分析的基本思路、流程融入到软件的操作之中;
3.每一章节通过设置商业背景,基本理论讲解的形式更贴近读者的实际工作;
4.本书除讲解软件操作,还同时介绍了各种操作的SAS语言的实现过程,读者可以根据自己的基础逐步学习,进而走进SAS处理数据的大门。
学习方法
本书在编写上力求从读者的实战角度出发,每章基本上分为五部分:
1.商业背景的介绍;
2.相关的理论介绍;
3.EG软件的解决方案;
4.程序实现,包含实现菜单的程序的简单必要功能,读者可以轻松过渡到编程;
5.扩展阅读,对于想深入学习SAS编程、数据准备的读者,进一步介绍了相关的学习内容及方向。
读者可以根据自己的需要来阅读,本书的菜单操作部分以SAS Eenterprise guide 5.1为例进行示范,代码部分以SAS 9.3为基础进行编写,读者在理解基本思路之后可以方便将其应用到其它版本之上。
售后服务
为方便读者学习,本书提供了书中实例的源文件下载,请读者进入人大经济论坛,注册后搜索“CDA教材源文件”关键词下载相应的源文件。
本书读者可以在人大经济论坛的“数据挖掘与商业智能”就书中的问题进行提问,也欢迎大家就自己遇到的业务问题和大家讨论。同时,也可以向作者发邮件
致谢
本书由人大经济论坛策划,徐筱刚负责编写和完成统稿。
丛书从策划到出版,倾注了电子工业出版社计算机图书分社张慧敏、石倩、官杨、张童等多位编辑的心血,特在此表示衷心地感谢!
为保证丛书的质量,使其更贴近读者,我们组织了人大经济论坛的多位版主和高级会员参与了本书的预读工作,他们是杨同梅、田佳、孙华枫、原瑜芬、叶阵雨、郑赟、李剑宇、江翊雪、陈鹏、刘莎莎、丁亚军。感谢各位预读员的辛勤、耐心与细致,使得本丛书能以更加完善的面目与各位读者见面,特别感谢覃智勇圆满地组织了本次预读工作和审校工作。
尽管作者们对书中的案例精益求精,但疏漏仍然在所难免,如果您发现书中的错误或某个案例有更好的解决方案,敬请登录社区网站向作者反馈,我们将尽快在社区中给出回复,且在本书再次印刷时修正。
再次感谢您的支持!

《胸有成竹!数据分析的SAS EG进阶》

感谢您选择“CDA数据分析师”LevelⅠ学习系列丛书”之《胸有成竹!数据分析的SAS EG进阶》。
该丛书按照数据分析师规范化学习体系而定,对于一名初学者,应该先掌握必要的概率、统计理论基础,包括描述性分析、推断性分析、参数估计、假设检验、方差分析、回归分析等内容,这在第一本书《从零进阶!数据分析的统计基础》中进行了专业详细的讲解。其次,数据分析需要按照标准流程进行,即数据的获取、储存、整理、清洗、归约等系列数据处理技术,这在《如虎添翼!数据处理的SAS EG实现》中利用SAS EG和编程技术进行了操作过程的详解。最后,经过处理的数据需要根据业务问题,利用相关方法进行建模分析,得出结果,结果检验,绘制图表并解读数据,这在《胸有成竹!数据分析的SAS EG进阶》中进行了详细的讲解和操作分析。
CDA数据分析师丛书整体风格是“理论>;技术>;应用”的一个学习过程,最终目的在于商业业务应用、职场数据分析,为欲从事于数据分析领域的各界人士提供了一个规范化数据分析师的学习体系。
读者对象
本书是一本面向商业数据分析初学者的教材,从具体的商业数据分析案例入手,使读者掌握数据分析的目的、理念、思路与分析步骤。本书力图淡化技术,对于方法的介绍也尽量避免涉及过多的数学内容,和高等数学相关的内容只在线形回归和主成分分析这两节中涉及到,而且都辅以图形作形象的展现。因此本书的读者只需要具有高中水平的数学基础即可。但是本书强调每种方法的假设、适用条件和与商业数据分析主题的匹配。实践教学中,发现业务经验丰富和有较好商业模式理解的学员,在学习数据分析有更好的效果,这主要原因可能是因为这类学员有较强的思辨能力、分析能力、学习目的性和质量意识,而不是简单的模仿和套用数学公式。
本书以SAS Enterprise Guide(以下简称SAS EG)为演示软件,但是操作方法可以自由的转换到SPSS Statistics这类图形化统计软件,同时也是学习SAS编程的捷径。
工具介绍
SAS EG是一个以项目为导向的Windows应用软件,它被用于实现对SAS系统大多数分析能力的快速访问。它通常会被统计专家、业务分析员以及 SAS程序员使用。利用SAS多平台的强大能力,SAS EG能够使用户访问本地或SAS服务器上的数据、管理数据、编写基本报表和汇总,做基本和复杂的数据分析,运用最高质量的SAS图形能力,最后将结果输出或发送到SAS服务器或其他基于服务器或Windows的应用中。在SAS EG中进行的工作也可以容易地被其他的EG使用者分享。通过生成SAS代码,大多数在SAS EG中进行的工作也可以被EG外部的SAS使用者共享。
SAS EG面向企业中数据轻度使用客户,它的同类产品是SPSS。而与R、Stata和Eviews等科研教学类软件有明显不同。SAS EG基本继承了SAS Base的所有功能,可以方便地调用其他模块的程序。可以说在商业数据分析领域,SAS EG是SAS Base的升级换代产品。SAS EG和SPSS类似,都是可以直接使用鼠标点击操作的,这降低了使用人员的入门难度,而且记录脚本可以便于使用者学习SAS语言。它的文档管理功能是目前统计软件中最强大的。其中的流程图使单次分析过程一目了然,这与SPSS等有明显差别。SPSS较难记录分析过程,而SAS EG可以将分析过程记录下来,便于使用者反复使用和组织内部共享分析文档。在统计方法方面,SAS EG的菜单中实现的统计方法少而精炼,满足90%以上的商业分析需求,而且其拓展性强大,可以调用SAS其他模块的过程,可以实现SPSS无法很好实现的时间序列和面板数据分析。在和其他软件衔接方面,SAS EG以SAS Base为基础,而SAS Base在某些公司作为ETL工具,可见SAS具有强大的数据管理功能,可以和企业内部数据库做透明访问。
目前各大金融机构、国有企业和著名外企,尤其是咨询公司都在使用SAS产品。SAS Base是面向数据处理程序员的,入门难度较大,只在专门的数据分析部门使用。而SAS EG的用户多为业务部门的工作人员,入门难度较低。在公司内部培训的过程中,发现公司数据分析人员和业务人员对学习SAS EG有较大兴趣,部门领导也倾向于让员工多学习SAS EG的课程。而且SAS公司也逐步将其部分产品免费化,其中University-Edition就是一个有益的尝试,其操作方式和SAS EG类似。相信在统计技能大众化的今天,SAS EG有着巨大的发展潜力。
当前R和Python等开源软件方兴未艾,但是这类软件学习曲线缓慢,使很多初学者的热情在进入数据分析的核心领域

免费在线读

序言:这是一个用数据说话的时代

在 CDA(注册数据分析师)Level I 级教材付诸印刷之际,关于数据分析这个职业及其价值的报 道就有很多。比如,下面两条报道就充分体现了在大数据时代下,数据分析的价值。这在以前是从来 没有过的。
LinkedIn 的最新投票结果显示,‘统计分析和数据挖掘’是 2014 年最大的求职法宝。LinkedIn 对 全球超过 3.3 亿用户的工作经历和技能进行分析,公布 2014 年最受雇主喜欢、最炙手可热的 25 项技 能,其中位列榜首的是统计分析和数据挖掘。
麦肯锡公司的一份研究预测称,到 2018 年,在“具有深入分析能力的人才”方面,美国可能面临 着 14 万到 19 万人的缺口,而“可以利用大数据分析来做出有效决策的经理和分析师” 缺口则会达到150 万人。数据科学家将成为 2015 年最热门的职业。
早在 2010 年 2 月,肯尼斯库克尔在《经济学人》上发表了一份关于管理信息的特别报告——《数 据,无所不在的数据》,文中写道:“世界上有着无法想象的巨量数字信息,并以极快的速度增长……
从经济界到科学界,从政府部门到艺术领域,很多地方都已感受到了这种巨量信息的影响。”2011 年, 麦肯锡发布了《大数据:下一个具有创新力、竞争力与生产力的前沿领域》,使人们在这篇文章里认识到了数据的力量。于是,一夜之间,面向数据分析市场的新产品、新技术、新服务、新业态正在不断 涌现。从个人、企业到国家层面,都把数据作为一种重要的战略资产,逐渐认识到了数据的价值,不 同程度地渗透到每个行业领域和部门,大大提升了企业的经营利润,推动了经济的发展。
这是一个用数据说话的时代,也是一个依靠数据竞争的时代。目前世界 500 强企业中,有 90%以 上都建立了数据分析部门。IBM、微软、Google 等知名公司都积极投资数据业务,建立数据部门,培养数据分析团队。各国政府和越来越多的企业意识到数据和信息已经成为企业的智力资产和资源,数据的分析和处理能力正在成为日益倚重的技术手段。 作为一个数学和统计学的强国,数据分析、数据挖掘和大数据价值挖掘行业在我国仍属于朝阳行业,数据分析人才仍然比较稀缺。各行各业在平常工作中积累的各种各样的数据分析问题仍然没有得 到及时有效地解决,有些问题,还是关乎本行业发展的至关重要的问题。数据积累越来越多,期待解 决分析的数据问题也越来越多,人们逐渐习惯使用数据作为决策的重要参考依据。据艾瑞的研究报告,未来与数据分析相关的就业岗位会在 1000 万人左右,而目前来说国内合格的数据分析师不足 5 万人, 建立一个科学有效的数据分析师培训体系迫在眉睫。
在这样一个用数据说话的时代,积累了丰富的数据分析培训经验的人大经济论坛承担起使命,几番调查研究,几番反复推演论证,在 2013 年,这个大数据的“元年”,CDA 注册数据分析师应运而生!
2003 年,人大经济论坛依托中国人民大学成立,在金融、管理、统计领域已积淀 11 个年头,在国内享有良好声誉。
2006 年,人大经济论坛数据分析培训中心设立,至今经历 8 个春秋,建立了大陆、台湾一线师资 团队,培养人才已达 3 万余人。
2013 年,“中国数据挖掘与数据分析俱乐部 CDMC”在人大经济论坛旗下成立,2014 年改名为 “CDA 数据分析师俱乐部”。来自政府、金融、电信、零售、电商、互联网、教育等行业人士加入会员, 成功举办了数十场行业聚会。紧接着,积累了数据分析培训丰富经验的人大经济论坛在国内展开 CDA 数据分析师系统培训和认证考试,成功见证了 1000 余名数据分析师的成长。
2015 年,人大经济论坛将提供高水平、多层次的数据分析培训服务,以在行业积累 多年的影响 力,吸引更好更多的优秀师资,瞄准行业内重要的数据分析问题和难点,攻坚突破,建立更加规范的行业培训体系,引领数据分析培训行业向规范化、有效化和前瞻化方向发展,为数据分析培训做出应 有的贡献。
其实,数学(含统计)和英语一样重要,都是人们不可或缺的重要技能。既然英语全民这么重视, 数学及其数据分析的技能更加需求于方方面面,更应被做大做强。让我们共同期待人大经济论坛办成 另一个数据的“新东方”!

覃智勇

2015 年 1 月 1 日

CDA数据分析师系列丛书 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:CDA数据分析师系列丛书