模块二：模式识别系统

模块2 学习目标：
1. 理解模式识别的基础概念：包括特征与特征空间、有监督学习与无监督学习、紧致性、维数灾难、泛化能力与过拟合；

2.	理解模式识别系统的一般结构，并理解各个环节的主要任务；

3.	了解模式识别算法体系的全貌，理解算法之间的逻辑关系；

4.	了解贯穿本课程的工程案例的主要任务和数据内容；

5.	能够通过编程实现模板匹配算法来解决简单的模式识别问题。

特征与特征空间

我们把一个个用于识别的具体事物称为“样本”,如果我们抽取出样本能够用于识别的某个重要特性,就称为样本的一个“特征”
我们找到了一组可以用于识别的特征时, 每一个样本就可以用这些特征的集合来加以表示, 这就完成了样本到特征表达之间的数学转换。
所有样本转换为特征表达后, 它们的整体就构成了一个空间,我们称为“特征空间”
特征空间中属于同一类事物样本的点,也会聚集在一起,就形成了特征空间中的“类”的概念
(2) 集合空间
如果样本用于识别的每一个特征,可以作为一个向量空间中的一个维度,那么一个样本抽象到特征空间中就成为一个向量
样本与样本之间的相似度, 就可以用向量空间中定义的某种 “距离” 来度量
特征构成一个集合空间
样本与样本之间的相似性,会表现为结构关系或拓扑关系上的相似性

有监督与无监督学习

分类器的学习

在已经确定分类器模型和样本特征的前提下,分类器通过某些算法找到自身最优参数的过程,就称为分类器的训练

有监督学习

具有类别标签的训练样本集。
从训练集中学习到具体的分类决策规则
有监督学习,事实上是从人的经验中学习分类知识。
它的智能水平的上限是人脑在相应问题上的能力。

无监督学习

使用没有类别标签的训练集进行分类器学习的模式

紧致性与维数灾难

“紧致性“准则

样本的类内相似度远大于类间相似度。

相似度的度量

紧致性作为一项定性的准则,如果要进行定量的评判,就需要确定如何度量相似性。
用距离度量（距离的要求：正定性、对称性、三角不等式）
余弦相似度:用向量空间中两个向量之间的夹角来表达相似程度
相关系数相似度:例如皮尔逊相关系数
布尔值度量的相似度:例如 JACCARD 相似系数

维数灾难问题

特征的维度越多,用于识别的信息就越丰富,就有越多的细节信息可以将不同的样本之间的相似度降低,提高样本集的紧致性。
维数灾难最早是由贝尔曼在研究动态规划时发现并命名的,它指当一个问题描述的维度不断增加时, 会带来计算量剧增与解法性能下降等严重问题。
模式识别问题中的维数灾难时, 指的是随着特征维度的增加, 分类器的性能将在一段快速增加的区域后急速地下降,并且最终无法使用。
根本原因,在于训练集样本的数量不足

同步地大量增加样本集样本的数量,但这无论是在样本采集还是在分类器训练和使用时的计算量上都难以实现
减少问题所使用的特征维度, 在降低维度的同时, 尽可能地提升每一个维度在分类中的效能
特征生成和特征降维是模式识别技术中重点研究的一个领域

泛化能力与过拟合

泛化能力

训练好的分类器对未知新样本正确分类的能力

过拟合

由于过分追求训练样本集中样本的分类正确性, 导致的分类器泛化能力降低

过拟合问题产生的原因

由于数据采集方法的问题或噪声干扰,得到的样本特征会存在误差,甚至会出现少数“异常数据”
(1) 模式采集 Sampling
通过采集转换成计算机能接受和处理的数据
(2) 预处理 Preprocessing
预处理环节通过各种滤波降噪措施, 降低干扰的影响,增强有用的信息,在此基础上,生成在分类上具有意义的各种特征。
特征生成的方法和思路与待解决的模式识别问题和所采用的模式识别方法密切相关

模式识别系统

整个模式识别系统的各个环节都应当是由计算机自己完成, 而无需人工干预。
我们设计一个模式识别系统,只是设计分类器的模型、所使用的特征和分类器参数的调整算法。
(3) 特征降维 Dimensionality Reduction
从大量的特征中选取出对分类最有效的有限的特征, 降低模式识别过程的计算复杂度,提高分类准确性,是特征降维环节的主要任务。
特征降维的方法主要包括特征选择( Feature Selection)和特征提取(Feature Extraction)
特征选择是从已有的特征中,选择一些特征,抛弃掉其他特征; 特征提取是对原始的高维特征进行映射变换, 生成一组维数更少的特征。
(4) 分类器设计
分类器设计过程就是分类器学习的过程
(5) 分类决策 Classification Decision
分类决策是对待分类的样本按照已建立起来的分类决策规则进行分类, 分类的结果要进行评估(Evaluating)
待分类样本也与训练样本一样要进行模式采集、预处理等环节

模式识别算法体系

模式识别算法树

模糊模式识别

将模糊数学引入模式识别技术后, 对现有各种算法的模糊化改造, 它在更精确地描述问题和更有效地得出模式识别结果方面都有许多有价值的思路

特征降维

特征降维通过寻找数量更少, 对分类更有效的特征来提升整个模式识别系统的性能。

结构模式识别

它抽取的不是一系列数值型的特征, 而是将样本结构上的某些特点作为类别和共同的特征, 通过结构上的相似性来完成分类任务。

手写数字识别

模板匹配的基本原理

模板匹配算法直接、简单,在类别特征稳定、明显,类间差距大的时候可以使用。但是它在建立模板的时候需要依赖于人的经验和观察, 适应能力会比较差。
为每个类别建立一个或多个标准模板,分类决策时将待识别的样本与每个类别的模板进行比对, 根据与模板的匹配程度将样本划分到最相似的类别中。

amnesiagreen

发布了45 篇原创文章 · 获赞 1 · 访问量 2452

私信关注