模式识别：数据质量视角 PDF下载

编辑推荐

暂无

内容简介

几十年来，实际需求激发了对模式识别的大量理论和应用研究。在这个过程中，限制因素和恒久问题一直是数据——它的多样性、丰富性和可变质量是模式识别创新的主要挑战。本书关注高级数据分析和数据挖掘，创新之处是对数据质量的重新定位——将数据质量看作一个可以处理的因素，而非当作需要克服的困难。

作者简介

---作者简介---

伍拉迪斯罗·霍曼达（Władysław Homenda）波兰华沙理工大学数学与信息科学学院教授，主要研究兴趣包括知识表示与处理、智能计算、模糊建模、粒度计算和数据挖掘等。

维托德·派提兹（Witold Pedrycz）波兰科学院系统研究所教授，兼任加拿大阿尔伯塔大学电子与计算机工程系教授。IEEE会士，加拿大皇家学会会士。主要研究兴趣包括智能计算、信息处理、人工智能等。

---译者简介---

张轶，四川大学计算机学院副教授，研究方向为模式识别、视觉计算和机器智能，担任“模式识别”课程的主讲教师。

模式识别：数据质量视角 PDF下载

译者序
前言
第一部分　基础知识
第1章　模式识别：特征空间的构建2
　1.1　概念2
　1.2　从样本到特征5
　　1.2.1　向量型特征7
　　1.2.2　特征变换：从向量型到向量型8
　　1.2.3　特征变换：从向量型到数值型9
　　1.2.4　数值型特征10
　1.3　特征尺度化12
　　1.3.1　特征归一化13
　　1.3.2　标准化14
　　1.3.3　特征尺度的经验评价15
　1.4　特征评估和选择18
　　1.4.1　相关性18
　　1.4.2　特征评估：两种方法20
　　1.4.3　基于指数的特征评估：单特征与特征集21
　　1.4.4　特征评估指数21
　　1.4.5　基于指数的方法和基于包装的方法23
　　1.4.6　使用指数和分类器的单特征评估方案24
　　1.4.7　特征子集的选择27
　　1.4.8　特征子集的生成29
　1.5　结论37
　附录1.A38
　附录1.B40
　参考文献40
第2章　模式识别：分类器42
　2.1　概念42
　2.2　最近邻分类方法43
　2.3　支持向量机分类算法45
　　2.3.1　线性可分类的线性划分46
　　2.3.2　线性不可分类的线性划分48
　　2.3.3　线性不可分类的非线性划分50
　2.4　分类问题中的决策树52
　　2.4.1　决策树一览52
　　2.4.2　特征分解57
　　2.4.3　度量类的差异性57
　　2.4.4　选择一个分解特征60
　　2.4.5　限制树的结构61
　2.5　集成分类器62
　　2.5.1　袋装63
　　2.5.2　提升64
　　2.5.3　随机森林65
　2.6　贝叶斯分类器67
　　2.6.1　应用贝叶斯理论67
　　2.6.2　最小化错分概率68
　　2.6.3　最小化损失69
　　2.6.4　拒绝不确定样本70
　　2.6.5　类条件概率分布71
　2.7　结论79
　参考文献79
第3章　分类拒绝问题规范及概述82
　3.1　概念82
　3.2　拒绝架构的概念87
　3.3　基于原始样本的拒绝91
　　3.3.1　构建拒绝机制91
　　3.3.2　全局拒绝架构下的拒绝机制92
　　3.3.3　局部拒绝架构下的拒绝机制95
　　3.3.4　嵌入式拒绝架构下的拒绝机制96
　3.4　原始样本数据集中的拒绝选项：案例研究97
　　3.4.1　数据集97
　　3.4.2　构建一个树形二值分类器100
　　3.4.3　针对手写数字数据集构建一个树形二值分类器101
　　3.4.4　针对手写数字数据集构建一个带拒绝的树形二值分类器103
　　3.4.5　拒绝被错分的原始样本：一些想法105
　3.5　结论106
　参考文献106
第4章　评估模式识别问题108
　4.1　评估带拒绝项的识别：基本概念108
　　4.1.1　评估拒绝的效率108
　　4.1.2　不平衡原始集与异类集109
　　4.1.3　度量拒绝质量的有效性110
　　4.1.4　分离原始样本和异类样本111
　　4.1.5　对多类原始样本的适应112
　　4.1.6　评估带拒绝项的多类分类问题113
　　4.1.7　说明性示例114
　4.2　没有异类样本时带拒绝的分类问题117
　4.3　带拒绝的分类：局部特征120
　　4.3.1　多类问题的特性描述120
　　4.3.2　说明性示例122
　4.4　结论125
　参考文献126
第5章　带拒绝的识别：经验分析127
　5.1　实验结果127
　　5.1.1　拒绝架构的对比128
　　5.1.2　减少特征集数量131
　　5.1.3　分类器质量与拒绝性能133
　　5.1.4　用于处理不平衡数据集的带拒绝的分类137
　5.2　几何方法140
　　5.2.1　超矩形141
　　5.2.2　椭球体142
　　5.2.3　在几何模型中限制为原始样本保留的区域143
　　5.2.4　文献评论153
　5.3　结论155
　参考文献155
第二部分　高级主题：粒度计算框架
第6章　信息粒的概念158
　6.1　信息粒度和粒度计算158
　6.2　信息粒度的正式平台161
　6.3　区间和区间微积分164
　6.4　模糊集微积分166
　　6.4.1　模糊集的隶属函数和类167
　　6.4.2　三角范数和三角余模作为模糊集上运算的模型170
　6.5　信息粒的特征：覆盖率和特异性173
　6.6　信息粒匹配176
　6.7　结论177
　参考文献177
第7章　信息粒：基本构造179
　7.1　合理粒度原则179
　　7.1.1　一般观察182
　　7.1.2　加权数据182
　　7.1.3　抑制性数据183
　7.2　对设计有价值的信息粒度184
　　7.2.1　粒映射184
　　7.2.2　信息粒度分配协议187
　　7.2.3　粒度聚合：通过分配信息粒度增强聚合操作187
　7.3　时间序列模型中暂存数据的单步和多步预测188
　7.4　高级类型的粒模型的开发189
　7.5　粒样本的分类192
　　7.5.1　分类问题的公式化193
　　7.5.2　从数值数据到粒数据193
　　7.5.3　粒分类器：增强问题195
　7.6　结论195
　参考文献196
第8章　聚类197
　8.1　模糊c均值聚类方法197
　8.2　k均值聚类算法201
　8.3　带有聚类和变量加权的增强模糊聚类201
　8.4　基于知识的聚类202
　8.5　聚类结果的质量202
　8.6　信息粒与聚类结果解释204
　　8.6.1　数字原型的粒度描述符的形成204
　　8.6.2　数据粒度及其在FCM算法中的融合205
　8.7　层次聚类205
　8.8　隐私问题中的信息粒：微聚集的概念208
　8.9　更高类型信息粒的开发208
　8.10　实验研究209
　8.11　结论217
　参考文献218
第9章　数据质量：填补和数据平衡219
　9.1　数据填补：基本概

前沿

模式识别以其明确的方法、丰富的算法和清晰的应用领域确立了自己先进的学科地位。近些年来，模式识别成了一门由实际应用需求驱动的、理论与实践相结合的学科。精心制定的模式识别评估策略及方法，尤其是一套分类算法，构成了众多模式分类器的核心。模式识别有许多具有代表性的应用领域，包括识别印刷文本和手稿、识别音乐符号、支持多模式生物识别系统（语音、虹膜、签名）、分类医疗信号（包括心电图、脑电图、肌电图等），以及分类和解释图像。
随着数据的丰富，它们的数量和多样性带来了明显的挑战。我们需要认真解决这些挑战，以促进该领域的进一步发展，从而满足不断增长的应用的需要。简言之，这些都涉及数据质量（data quality）的问题。这个名词开始出现在很多领域，故而得到了广泛的关注。数据缺失、噪声、异类样本（foreign pattern）、有限精度、信息粒度以及不平衡数据都是在构建模式分类器和进行综合数据分析时经常碰到且必须充分考虑的因素。特别是，在进行分析、分类和解析前，我们必须进行适当的数据（样本）变换（或预处理）。
数据质量影响着模式识别的本质，因此需要对该领域的原理进行详尽的研究。数据质量可对分类器开发方案和架构产生直接影响。本书旨在从一个全新的角度（数据质量）来覆盖模式识别的精髓，本质上我们主张建立新的模式识别框架及其方法和算法，以应对数据质量的挑战。比如，本书中讲述的所谓异类样本（奇异样本）就是一个极具代表性的有趣示例。这里提到的异类样本指的是不属于已知类别中的任意一类。模式识别技术不断发展的现状使得辨识异类样本尤为重要。例如，在印刷体文本的识别问题上，奇异样本（比如墨渍、油污或损坏的符号）出现的频率极低。而在处理其他诸如测绘地图或音乐符号等识别问题时，异类样本则经常出现，这不能被忽略。与印刷体文本不同，此类文档包含不规则位置、不同尺寸、重叠或形状复杂的对象，过于严格的字符分割会导致很多可识别字符被拒绝。由于识别模式的可分离性较弱，因此分割准则需要制定得宽松一些，而与可识别样本相近的异类样本则需要仔细审查甚至拒绝。
本书的内容分为两大部分：第一部分是“基础知识”，第二部分是“高级主题：粒度计算框架”。这样安排反映了本书覆盖的主要内容的本质。
第一部分探讨带拒绝的模式识别问题的原理。其中，将拒绝异类样本的任务作为模式识别标准方案和实践的扩展和加强。本书重温并详细阐述了模式识别最基本的概念，以便解释如何通过添加拒绝项来增强现有分类器，从而更好地处理所讨论的问题。正如前文强调的那样，本书内容齐备，介绍了众多知名方法和算法，并全面回顾了模式识别学科的主要目的和研究阶段。关键主题涉及对问题的公式化和理解，特征空间构成、选择、变换和降维，模式分类，以及性能评估。重点分析带拒绝的模式识别领域的研究进展，包括历史及展望。同时，当前和未来的一些解决方案也被提出来，以帮助读者了解该领域未来的发展，特别是针对现有一些挑战所诞生的新技术的发展趋势。相应章节重温了重要技术环节，详述了带拒绝的模式识别问题的解决方法。第1章讨论特征空间构成的基本概念，特征空间在很大程度上决定了分类器的质量。这一章的重点是分析和比较用于特征构建、变换和降维的主要方法。第2章讲述一系列基本分类器的设计方法，包括著名的k-NN（k最近邻）算法、朴素贝叶斯分类器（nave Bayesian classifier）、决策树（decision tree）、随机森林（random forest）和支持向量机（SVM），此章提供了一系列案例以进行比较学习。第3章详尽阐述关于带拒绝的识别问题，附带有大量实例，并且详细介绍了现在在这一领域进行的研究。第4章讲述一套实现带拒绝的模式识别任务所需的评估方法以及经典的性能评估途径，从多方面对模式识别评估机制进行深入的探讨。同时，在平衡和不平衡数据集上进行扩展分析。从标准模式识别问题的评估开始讨论，接下来进入带拒绝的模式识别问题。当不平衡数据的存在使问题进一步恶化时，我们将讨论如何对带拒绝的模式识别问题进行评估。这一章讨论了广泛的解决方法，并将其应用到实验当中，包括那些实验数据的对比。在第5章中，对不同的拒绝架构进行实证评估。我们以一组手写数字和印刷体音乐符号的数据集为例来进行经验验证。另外，我们还提出一种基于几何区域概念的带拒绝的识别方法。不同于拒绝架构，这是一种独立的方法，可用于区分原始和异类样本。我们研究了基本几何区域的用法，特别是超矩形和超椭球体。
第二部分集中讨论信息粒（information granule）和信息粒度（information granularity）的基本概念。信息粒开创了粒度计算这一领域——一个集生成、处理和解析信息粒于一体的典范。信息粒度与数据质量的关键概念紧密相连，有助于对特定质量的模式进行辨识、定量分析和处理。该部分针对这些内容做了自顶向下的组织安排。第6章介绍信息粒的基础知识，给出了关键的激励因素，阐述了其基本形式（包括集合、模糊集、概率），以及操作、变换机理和信息粒的特征描述。第7章介绍信息粒的设计。第8章将聚类放在新环境下，揭示其作为构建信息粒机