编辑推荐
从统计学观点出发,以数理统计为基础,全面系统地介绍了机器学习的主要方法。
根据全新设计的学习路线图编写,注重夯实理论基础,更便于深化对知识点的理解,建立系统性的全局观。
对机器学习所涉及的数学基础进行了完整的解释和必要的铺垫,更便于读者对深化相关知识的理解。
 ;
内容简介
本书从统计学观点出发,以数理统计为基础,全面系统地介绍了统计机器学习的主要方法。内容涉及回归(线性回归、多项式回归、非线性回归、岭回归,以及LASSO等)、分类(感知机、逻辑回归、朴素贝叶斯、决策树、支持向量机、人工神经网络等)、聚类(K均值、EM算法、密度聚类等)、蒙特卡洛采样(拒绝采样、自适应拒绝采样、重要性采样、吉布斯采样和马尔科夫链蒙特卡洛等)、降维与流形学习(SVD、PCA和等),以及概率图模型基础等话题。此外,为方便读者自学,本书还扼要地介绍了机器学习中所需必备数学知识(包括概率论与数理统计,凸优化及泛函分析基础等)。本书是统计机器学习及相关课程的教学参考书,适用于高等院校人工智能、机器学习或数据挖掘等相关专业的师生研习之用,也可供从事计算机应用特别是数据科学相关专业的研发人员参考。
作者简介
左飞 ; ;博士,技术作家、译者。著作涉及人工智能、图像处理和编程语言等多个领域,其中两部作品的繁体版在中国台湾地区发行。同时,他还翻译出版了包括《编码》在内的多部经典著作。曾荣获“最受读者喜爱的IT图书作译者奖”。他撰写的技术博客(https://baimafujinji.blog.csdn.net/)非常受欢迎,累计拥有超过400万的访问量。
目录
第1章 ; 概率论基础
1.1基本概念
1.2随机变量数字特征
1.2.1期望
1.2.2方差
1.2.3矩与矩母函数
1.2.4协方差与协方差矩阵
1.3基本概率分布模型
1.3.1离散概率分布
1.3.2连续概率分布
1.3.3在R中使用内嵌分布
1.4概率论中的重要定理
1.4.1大数定理
1.4.2中央极限定理
1.5经验分布函数
 ;
第2章 ; 统计推断
2.1参数估计
2.1.1参数估计的基本原理
2.1.2单总体参数区间估计
2.1.3双总体均值差的估计
2.1.4双总体比例差的估计
2.2假设检验
2.2.1基本概念
2.2.2两类错误
2.2.3均值检验
2.3极大似然估计
2.3.1极大似然法的基本原理
2.3.2求极大似然估计的方法
2.3.3极大似然估计应用举例
 ;
第3章 ; 采样方法
3.1蒙特卡洛法求定积分
3.1.1无意识统计学家法则
3.1.2投点法
3.1.3期望法
3.2蒙特卡洛采样
3.2.1逆采样
3.2.2博克斯穆勒变换
3.2.3拒绝采样与自适应拒绝采样
3.3矩阵的极限与马尔科夫链
3.4查普曼柯尔莫哥洛夫等式
3.5马尔科夫链蒙特卡洛
3.5.1重要性采样
3.5.2马尔科夫链蒙特卡洛的基本概念
3.5.3MetropolisHastings算法
3.5.4Gibbs采样
 ;
第4章 ; 非参数检验方法
4.1列联分析
4.1.1类别数据与列联表
4.1.2皮尔逊(Pearson)的卡方检验
4.1.3列联分析应用条件
4.1.4费希尔(Fisher)的确切检验
4.2符号检验
4.3威尔科克森符号秩检验
4.4威尔科克森的秩和检验
4.5克鲁斯卡尔沃利斯检验
 ;
第5章 ; 一元线性回归
5.1回归分析的性质
5.2回归的基本概念
5.2.1总体的回归函数
5.2.2随机干扰的意义
5.2.3样本的回归函数
5.3回归模型的估计
5.3.1普通最小二乘法原理
5.3.2一元线性回归的应用
5.3.3经典模型的基本假定
5.3.4总体方差的无偏估计
5.3.5估计参数的概率分布
5.4正态条件下的模型检验
5.4.1拟合优度的检验
5.4.2整体性假定检验
5.4.3单个参数的检验
5.5一元线性回归模型预测
5.5.1点预测
5.5.2区间预测
 ;
第6章 ; 多元线性回归
6.1多元线性回归模型
6.2多元回归模型估计
6.2.1最小二乘估计量
6.2.2多元回归的实例
6.2.3总体参数估计量
6.3从线性代数角度理解最小二乘
6.3.1最小二乘问题的通解
6.3.2最小二乘问题的计算
6.4多元回归模型检验
6.4.1线性回归的显著性
6.4.2回归系数的显著性
6.5多元线性回归模型预测
6.6格兰杰因果关系检验
 ;
第7章 ; 线性回归进阶
7.1更多回归模型函数形式
7.1.1双对数模型以及生产函数
7.1.2倒数模型与菲利普斯曲线
7.1.3多项式回归模型及其分析
7.2回归模型的评估与选择
7.2.1嵌套模型选择
7.2.2赤池信息准则
7.2.3逐步回归方法
7.3现代回归方法的新进展
7.3.1多重共线性
7.3.2岭回归
7.3.3从岭回归到LASSO
7.3.4正则化
 ;
第8章 ; 方差分析方法
8.1方差分析的基本概念
8.2单因素方差分析方法
8.2.1基本原理
8.2.2分析步骤
8.2.3强度测量
8.3双因素方差分析方法
8.3.1无交互作用的分析
8.3.2有交互作用的分析
8.4多重比较
8.4.1多重t检验
8.4.2Dunnett检验
8.4.3Tukey的HSD检验
8.4.4NewmanKeuls检验
8.5方差齐性的检验方法
8.5.1Bartlett检验法
8.5.2Levene检验法
 ;
第9章 ; 逻辑回归与最大熵模型
9.1逻辑回归
9.2牛顿法解Logistic回归
9.3多元逻辑回归
9.4最大熵模型
9.4.1最大熵原理
9.4.2约束条件
9.4.3模型推导
9.4.4极大似然估计
 ;
第10章 ; 聚类分析
10.1聚类的概念
10.2K均值算法
10.2.1距离度量
10.2.2算法描述
10.2.3数据分析实例
10.2.4图像处理应用举例
10.3最大期望算法
10.3.1算法原理
10.3.2收敛探讨
10.4高斯混合模型
10.4.1模型推导
10.4.2应用实例
10.5密度聚类与DBSCAN算法
 ;
第11章 ; 支持向量机
11.1线性可分的支持向量机
11.1.1函数距离与几何距离
11.1.2最大间隔分类器
11.1.3拉格朗日乘数法
11.1.4对偶问题的求解
11.2松弛因子与软间隔模型
11.3非线性支持向量机方法
11.3.1从更高维度上分类
11.3.2非线性核函数方法
11.3.3机器学习中的核方法
11.3.4默瑟定理
11.4对数据进行分类的实践
11.4.1基本建模函数
11.4.2分析建模结果
 ;
第12章 ; 贝叶斯推断
12.1贝叶斯公式与边缘分布
12.2贝叶斯推断中的重要概念
12.2.1先验概率与后验概率
12.2.2共轭分布
12.3朴素贝叶斯分类器
12.4贝叶斯网络
12.4.1基本结构单元
12.4.2模型推理
12.5贝叶斯推断的应用举例
 ;
第13章 ; 降维与流形学习
13.1主成分分析(PCA)
13.2奇异值分解(SVD)
13.2.1一个基本的认识
13.2.2为什么可以做SVD
13.2.3SVD与PCA的关系
13.2.4应用举例与矩阵的伪逆
13.3多维标度法(MDS)
 ;
第14章 ; 决策树
14.1决策树基础
14.1.1Hunt算法
14.1.2基尼测度与划分
14.1.3信息熵与信息增益
14.1.4分类误差
14.2决策树进阶
14.2.1ID3算法
14.2.2C4.5算法
14.3分类回归树
14.4决策树剪枝
14.4.1没有免费午餐原理
14.4.2剪枝方法
14.5分类器的评估
 ;
第15章 ; 人工神经网络
15.1从感知机开始
15.1.1感知机模型
15.1.2感知机学习
15.1.3多层感知机
15.2基本神经网络
15.2.1神经网络结构
15.2.2符号标记说明
15.2.3后向传播算法
15.3神经网络实践
15.3.1核心函数介绍
15.3.2应用分析实践
 ;
附录A必不可少的数学基础
A.1泰勒公式
A.2海塞矩阵
A.3凸函数与詹森不等式
A.3.1凸函数的概念
A.3.2詹森不等式及其证明
A.3.3詹森不等式的应用
A.4泛函与抽象空间
A.4.1线性空间
A.4.2距离空间
A.4.3赋范空间
A.4.4巴拿赫空间
A.4.5内积空间
A.4.6希尔伯特空间
A.5从泛函到变分法
A.5.1理解泛函的概念
A.5.2关于变分的概念
A.5.3变分法的基本方程
A.5.4哈密尔顿原理
A.5.5等式约束下的变分
 ;
参考文献
 ;
前沿
在大量数据背后很可能隐藏了某些有用的信息或知识,而数据挖掘就是通过一定方法探寻这些信息或知识的过程。此外,数据挖掘同时受到很多学科和领域的影响,大体上看,数据挖掘可以被视为数据库、机器学习和统计学三者的交叉。简单来说,对数据挖掘而言,数据库提供了数据管理技术,而机器学习和统计学则提供了数据分析技术。
从名字中就不难看出,机器学习最初的研究动机是为了让计算机具有人类一样的学习能力以便实现人工智能。显然,没有学习能力的系统很难被认为是智能的。而这个所谓的学习,就是指基于一定的“经验”而构筑起属于自己的“知识”过程。
小蝌蚪找妈妈的故事很好地说明了这一过程。小蝌蚪没有见过自己的妈妈,它们向鸭子请教。鸭子告诉它们: “你们的妈妈有两只大眼睛。”看到金鱼有两只大眼睛,它们便把金鱼误认为是自己的妈妈。于是金鱼告诉它们: “你们妈妈的肚皮是白色的。”小蝌蚪看见螃蟹是白肚皮,又把螃蟹误认为是妈妈。螃蟹便告诉它们: “你们的妈妈有四条腿。”小蝌蚪看见一只乌龟摆动着四条腿在水里游,就把乌龟误认为是自己的妈妈。于是乌龟又说: “你们的妈妈披着绿衣裳,走起路来一蹦一跳。”在这个学习过程中,小蝌蚪的“经验”包括鸭子、金鱼、螃蟹和乌龟的话,以及“长得像上述四种动物的都不是妈妈”这样一条隐含的结论。最终,它们学到的“知识”就是“两只大眼睛、白肚皮、绿衣裳、四条腿,一蹦一跳的就是妈妈”。当然,故事的结局,小蝌蚪们就是靠着学到的这些知识成功地找到了妈妈。
反观机器学习,由于“经验”在计算机中主要是以“数据”的形式存在的,所以机器学习需要设法对数据进行分析,然后以此为基础构建一个“模型”,这个模型就是机器最终学到的“知识”。可见,小蝌蚪学习的过程是从“经验”学到“知识”的过程。相应地,机器学习的过程则是从“数据”学到“模型”的过程。正是因为机器学习能够从数据中学到“模型”,而数据挖掘的目的恰恰是找出数据背后的“信息或知识”,两者不谋而合,所以机器学习才逐渐成为数据挖掘最为重要的智能技术供应者而备受重视。
正如前面所说的,机器学习和统计学为数据挖掘提供了数据分析技术。而另一方面,统计学也是机器学习得以建立的一个重要基础。换句话说,统计学本身就是一种数据分析技术的同时,它也为以机器学习为主要手段的智能数据分析提供了理论基础。可见,统计学、机器学习和数据挖掘之间是紧密联系的。
统计学大师乔治·博克斯有一句广为人们提及的名言: “所有的模型都是错的,但其中一些是有用的。”无论是基于统计的方法,还是基于机器学习的方法,最终的模型都是对现实世界的抽象,而非毫无偏差的精准描述。相关理论只有与具体分析实例相结合才有意义。而在这个所谓的结合过程中,你既不能期待一种模型(或者算法)能够解决所有的(尽管是相同类型的)问题,也不能面对一组数据时,就能(非常准确地)预先知道哪种模型(或者算法)才是最适用的。或许你该记住另外一句话: “No clear reason to prefer one over another. Choice is task dependent(没有明确的原因表明一种方法胜于另外一种方法,选择通常是依赖于具体任务的)”。这也就突出了数据挖掘领域中实践的重要性,或者说由实践而来的经验的重要性。
以上所描述的观点正是激发本书写作初衷的核心理念。鉴于此,本书从统计学观点入手,并以统计分析理论为基础,进而对现代机器学习方法进行系统性的介绍。循序渐进,又兼收并蓄地将机器学习与统计分析中较为核心的理论与方法呈现给各位读者朋友。具体来说,本书主要涉及(但不限于)的内容有:
概率与数理统计基础,其中统计分析方法涉及参数估计、假设检验、极大似然法、非参数检验(含列联分析、符号检验、符号秩检验、秩和检验等)、方差分析方法等。
回归方法,包括线性回归、多元回归、多项式回归、非线性回归(含倒数模型、对数模型等)、岭回归,以及LASSO等。
监督学习与分类方法,包括感知机、逻辑回归(含最大熵模型)、朴素贝叶斯、决策树(含ID3、C4.5、CART)、支持向量机、人工神经网络等。
无监督学习与聚类方法,包括K均值算法、EM算法(含高斯混合模型)、密度聚类中的DBSCAN算法等。
蒙特卡洛采样方法,包括逆采样、拒绝采样、自适应拒绝采样、重要性采样、吉布斯采样和马尔科夫链蒙特卡洛等。
概率图模型基础,主要以贝叶斯网络为例进行介绍。
降维与流形学习,包括奇异值分解、主成分分析和多维标度法等。
附录部分还简述了机器学习中所必备的其他数学基础,包括拉格朗日乘数法、詹森不等式与凸优化、多元函数最优化、泛函空间理论(在解释核方法时会用到)等内容。
在叙述方式上,本书也注意从具体问题或实例入手,力求阐明问题提出的原委,从而由浅入深地阐明思路,并给出详细的数学推导过程,让读者知其然,更知其所以然。
此外,鉴于本书是以统计方法为切入点讲解机器学习理论的,在涉及数值计算、算法演示和数据分析应用时,我们特别选用R作为描述语言。R是当前在统计学领域占据统治地位的一种解释型语言。它语法简洁、容易上手,即使非专业人士也能轻松掌握。事实上,R语言在世界范围内的众多使用者绝大多数都来自于数学、统计学、应用经济学,以及生物信息学等其他非计算机领域。此外,R还是一种免费的、开源的数据分析集成环境。它拥有丰富而完善的软件包资源,甚至很多最新的算法都可以在R中找到对应的实现。更重要的是,由于R对很多算法提供了非常完善的封装,再加之其简单易用的特点,本书并不要求读者已经具备R编程方面的背景。即使从未使用过R语言的人依然可以阅读本书。
读者亦可以访问笔者在CSDN上的技术博客(白马负金羁),本博客主要关注机器学习、数据挖掘、深度学习及数据科学等话题,其中提供的很多技术文章可以作为本书的补充材料,供广大读者在自学时参考。读者在阅读本书时遇到的问题以及对本书的意见或建议,可以在本博客上通过留言的方式同笔者进行交流。
自知论道须思量,几度无眠一文章。由于时间和能力有限,书中纰漏在所难免,真诚地希望各位读者和专家不吝批评、斧正。
 ;
左飞2020年4月
统计学习理论与方法——R语言版 pdf下载声明
本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版