欢迎光临
免费的PDF电子书下载网站

统计分析:从小数据到大数据 PDF下载

编辑推荐

《统计分析:从小数据到大数据》是一名统计分析老兵多年潜心学习,深入理解统计分析的内涵和精髓,并结合自己丰富的培训经验,以及大量的一线工程实践经验编写而成,从统计调查小数据到电商实战大数据, 厘清数据分析的技术脉络、算法的进化,CDA数据分析理事赵坚毅倾情作序。

 ;

内容简介

面对小数据和大数据,数据分析师应该如何收集数据信息?传统的业务框架如何与统计学相关联?测量学扮演着什么角色?建模过程有哪些预分析技术和修正技术?建模工作完成后,如何解析?如何归因?如何预测?等等,这些数据分析能力构成了本书的分析框架。本书分为8章,小数据与大数据分析模式的动态切换贯穿全书,展示了数据分析案例的模块化分析思路。第1~3章为数据预分析部分,强调业务问题与统计问题的衔接;第4~6章为统计建模阶段,其中附有对行业案例和业务敏感度的训练、对统计和业务整合的审美建议,进而构造出一套具有灵活调校的数据分析模式。第7~8章解决的问题是,如何将晦涩难懂的统计解释转换成业务解释。由衷地希望本书能够成为数据运营人员与初中级数据分析师分析数据的行动指南。

作者简介

丁亚军自由职业者,兼CDA数据科学研究院研究员、电子工业出版社大数据专家委员会成员、学习路径图国际技术中心顾问、经管之家培训中心讲师。研究方向:统计软件与数据分析、市场调查研究、电商CRM数据挖掘、银行申请与行为评分卡。

统计分析:从小数据到大数据 PDF下载

目录

目录
第1 部分 数据分析准备
第1 章 从业务到统计
1.1 业务需求从哪来 / 002
1.1.1 学习业务的最快途径:阅读运营报告 / 002
1.1.2 当务之急:研究痛点 / 004
1.1.3 数据分析之锚:未来战略方向 / 005
1.1.4 对数据分析“小白”的有益建议 / 005
1.2 从小数据到大数据:数据体量与信息分布 / 008
1.2.1 实验室:理论验证 / 009
1.2.2 问卷:理论验证 探索 / 011
1.2.3 数据库:业务验证 探索 / 012
1.2.4 数据信息与统计模型 / 013
1.2.5 算法应用:是否跨界 / 015
1.2.6 算法特征:角色 / 016
1.3 数据分析流程的启示 / 019
1.3.1 假设:验证与归因 / 021
1.3.2 小概率:黑天鹅的不确定 / 025
1.3.3 抽样技术:经济是根本 / 026
1.3.4 选择模型:方法论 / 028
1.3.5 显著性判断:可证伪 / 029

第2 章 变量角色与描述
2.1 如何描述变量 / 032
2.1.1 分类变量与连续变量的分界线 / 032
2.1.2 分类变量及可视化 / 033
2.1.3 连续变量及可视化 / 037
2.2 因变量的测量 / 040
2.2.1 测量级别问题 / 040
2.2.2 是否存在测量误差 / 045
2.2.3 谁会成为“主角” / 047
2.2.4 y 的量化场景 / 050
2.3 自变量的选择 / 053
2.3.1 验证性:x 的选择 / 054
2.3.2 探索性:x 的选择 / 054

第3 章 数据预分析
3.1 填补缺失 / 056
3.1.1 描述缺失数据:行、列、单元格 / 056
3.1.2 缺失类型:随机性 / 060
3.1.3 小数据填补方案:精确性探讨 / 061
3.1.4 大数据填补方案:速度问题探讨 / 068
3.2 处理异常值 / 069
3.2.1 单变量与双变量异常 / 069
3.2.2 无监督异常:聚类分析 / 070
3.2.3 监督异常:回归残差分析 / 073
3.2.4 小数据与大数据如何看待异常值 / 076
3.3 消除共线性 / 080
3.3.1 共线性及其危害 / 081
3.3.2 小数据的方案:岭回归 / 082
3.3.3 大数据方案:项目合并与逐步回归 / 084
3.4 内生性问题 / 088
3.4.1 内生性及其危害 / 088
3.4.2 问题核心:特征选择 / 089
3.4.3 三驾马车之一:数据库的应对策略 / 094
3.5 变量变换技术 / 102
3.5.1 正态分布变换:对数变换 / 102
3.5.2 从0 到1:老板最喜欢的符号% / 104
3.5.3 强异常值:秩的应用 / 105
3.5.4 量纲:标准化变换 / 106
3.6 编码技术 / 107
3.6.1 为什么需要分箱化 / 107
3.6.2 分箱技术要义:数据拐点 / 111
3.7 避免过拟合 / 113
3.7.1 导致过拟合:行列问题 / 113
3.7.2 小数据为什么不谈过拟合 / 114
3.7.3 避免过拟合:方法学 / 115

第2部分 构建模型与修正技术
第4 章 线性回归与统计家族
4.1 差异性问题:方差分析 / 121
4.1.1 差异的来源:主效应 / 121
4.1.2 差异的来源:交互效应 / 128
4.1.3 交互性解释:交互效应图制作 / 129
4.2 结构性问题:回归分析 / 131
4.2.1 回归分析流程 / 131
4.2.2 相关的风向标作用:文氏图 / 135
4.2.3 偏相关的归因:中介和调节 / 137
4.2.4 回归系数解释:偏回归图 / 142
4.2.5 如何相信R2 / 149
4.2.6 以残差看假设 / 152
4.2.7 残差信息的有和无 / 158
4.2.8 小数据需求归纳:重结构轻预测 / 158
4.3 算法进化REG:小数据专家的努力 / 159
4.3.1 算法1.0:精确度 结构 / 160
4.3.2 算法2.0:精确度 结构与预测 / 163
4.3.3 算法3.0:速度 预测 / 164
4.3.4 算法4.0:加速度 / 167

第5 章 Logistic 回归与统计家族
5.1 预测性问题:Logistic 回归 / 168
5.1.1 卡方的风向标作用 / 169
5.1.2 不一样的R2:预测分类表 / 170
5.1.3 回归系数解释:or 值与rr 值 / 171
5.1.4 修正技术:是x 而不是y / 174
5.1.5 大数据需求归纳:轻结构重预测 / 177
5.2 算法进化Logistic:大数据与智能 / 178
5.2.1 算法1.0:稳定性 结构 / 178
5.2.2 算法2.0:稳定性 结构与预测 / 179
5.2.3 算法3.0:速度 预测 / 179
5.2.4 算法4.0:加速度 / 179
5.3 算法3.0 的榜样:神经网络 / 180
5.3.1 神经网络算法 / 180
5.3.2 DM 算法预分析 / 183
5.3.3 基于神经网络的常规应用 / 185

第6 章 降维技术
6.1 主成分回归与压缩技术 / 192
6.1.1 四驾马车:实验室、问卷、数据库、云 / 192
6.1.2 主成分算法:降维 / 192
6.1.3 主成分与因子:谁应该有名字? / 194
6.1.4 主成分回归:“回归 回归”模式 / 196
6.2 对应分析:一个市场调查案例 / 197
6.2.1 案例背景介绍 / 197
6.2.2 模型预分析 / 199
6.2.3 构建模型:“广义”双标图 / 203
6.2.4 结论及营销 / 214

第3部分 模型应用与评估
第7 章 回归类模型应用
7.1 结构性问题:偏回归系数 / 216
7.1.1 单结构:偏的意义 / 216
7.1.2 整体结构:条件规则 / 217
7.2 预测性问题:估计值 / 217
7.2.1 老样本预测:内衍与市场细分 / 218
7.2.2 新样本预测:外推与潜在行为 / 219
7.3 模型优劣与模型评价 / 219
7.3.1 R2 变形记 / 219
7.3.2 图示R2:R2 图与ROC 曲线 / 221
7.4 模型优劣与业务评价 / 221
7.4.1 小数据的标准:R2 / 221
7.4.2 大数据的标准:老板 / 222

第8 章 数据分析报告
8.1 可视化图形制作 / 223
8.1.1 条形图与折线图 / 223
8.1.2 频数与分布 / 223
8.1.3 多变箱体图 / 224
8.1.4 散点图与气泡图 / 225
8.2 图形制作与格式 / 227
8.2.1 图形制作:绘图、颜色 / 227
8.2.2 图形模板制作与调用 / 229
8.3 表格制作与格式 / 230
8.3.1 表格制作:制表、格式 / 230
8.3.2 表格模板制作与调用 / 232
8.3.3 OMS 控制面板 / 234
附录A 数据集__

前沿

序言:数据是通往智能化的阶梯
早在1996 年,尼葛洛庞帝在其出版的《数字化生存》一书中就指出:人类生存在一个虚拟的、数字化的空间,人们在这个空间里应用数字技术(信息技术)进行信息传播、交流、学习、工作等活动,这便是数字化生存。2010 年2 月,肯尼斯?库克尔在《经济学人》上发表了一篇长达14 页的大数据专题报告——《数据,无所不在的数据》,该报告中写道,“世界上有着无法想象的巨量数字信息,它们以极快的速度增长……从经济界到科学界,从政府部门到艺术领域,很多地方都已受到这种巨量信息的影响。科学家和计算机工程师已经为这个现象创造了一个新词汇——‘大数据’”。库克尔也因此成为最早洞见大数据时代趋势的数据科学家之一。2018 年,人工智能风起云涌,苹果手机装上了AI 芯片,百度无人驾驶汽车开进了北京海淀公园。展望未来,AI 不仅将走入寻常百姓家,还将成为与生命科学并肩的技术。它一方面使机器更像人;另一方面使人更像机器(基于基因和量子科技等技术,使现代医学更好地了解人类)。

统计分析:从小数据到大数据 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:统计分析:从小数据到大数据