CV——Recognition图像识别

1.图像识别概述

(1)图像识别是计算机视觉中最基础的一项任务,目的是在图像或视频序列中找到给定的物体,或者是对场景的属性进行判断。

(2)要对图像中的物体进行识别,首先需要对物体赋予合适的表示,使得物体表示对于图像变化(视角、光照、遮挡、尺度、形变、物体聚集等)有较强的不变性。

(3)图像和目标识别有着广泛的应用,例如车牌识别、条形码识别、指纹识别、人脸识别等。

2.发展

(1)最早期的识别方法采用配准的方式

1965-late 1980s: alignment, geometric primitives

配准(registration):是指同一区域内以不同成像手段所获得的不同图像图形的地理坐标的匹配。包括几何纠正、投影变换与统一比例尺三方面的处理。目的是拟合一个合适的几何变换,建立两张图像间特征的对应关系。

主要针对由于相机位置、光照变化和相机参数等导致的图像的几何变化。利用目标物体的几何表示,寻找图像中合适的配准,可以找到图像中的目标物体。

缺点:这种方法只能寻找图像中简单的几何目标,对于一般的物体,其几何表示通常是复杂的,采用几何表示和配准对于一般物体类别不够实用。

(2)基于图像外观的方法,利用经验模型表征图像

Early 1990s: invariants, appearance-based methods

最经典的是1991年提出的特征脸方法(Eigenface),

主要思想是利用大量人脸图像构建人脸的表示空间(利用主成分分析),每个主成分是一张标准脸,每张具体的人脸图像可视为这些标准脸的线性组合。

另外,通过构建图像的颜色直方图,以及外观流形等方法也是基于图像外观的代表方法。

缺点:基于整体图像外观方法对于简单的表征模式有效,但是对于物体聚集、遮挡和光照变化等不够鲁棒。

(3)图像特征表示物体

Mid-late 1990s: sliding window approaches 
Late 1990s: feature-based methods 
Early 2000s: parts-and-shape models 

随着图像特征点表示的提出,利用图像特征(例如SIFT等特征)表示物体也成为代表性方法。

通过结合图像局部特征、特征点空间关系和机器学习中的分类方法,可以有效对目标物体进行分类和识别。

(4)“bag of features”(特征词袋)方法

2003 – present: bags of features 

更进一步,可将目标物体分解成若干个部分,通过判断每个部分之间的外观表示,以及每个部分之间的位置关系,来判定被检测的是否是目标物体。

这种基于物体部分和结构的表示,可进一步演化为“bag of features”(特征词袋)方法,将物体的每个部分看作是物体纹理,随机分在若干个词袋中。

物体的表示为每个词袋中对应的纹理出现的频率。基于词袋的表示在图像检索中是比较有代表性的方法。

(5)目前趋势

①Present trends: combination of local and global methods, modeling context, integrating recognition and segmentation

近年来目标识别的趋势是结合局部和全局方法,建模图像上下文表示,结合识别和分割方法。

3.模式识别中的问题

图像和物体识别基于上面所说的图像和物体的合适表征,需要利用模式识别方法对物体和场景所属类别进行推断。

(1)统计角度

①从统计角度建模,可将该问题表示为一个最大后验概率估计问题,即给定图像,最大化目标类别的后验(posterior)概率。由贝叶斯法则,可将该问题转化为似然(likelihood)和模型先验(prior)。

②由此分出两个解决问题的分支:判别式方法(直接建模后验概率)和生成式方法(建模似然和模型先验)。判别式方法直接学习分类结果,高效且通常有更好精度,但是模型可解释性较弱;生成式模型有较强的模型可解释性。

4.数据集

(1)按照数据集对识别方法分类

根据训练集数据标注使用的程度,分为监督学习(大量利用标注框、物体类别等标注好的数据)、弱监督学习(仅使用部分标注的训练数据,例如只使用图像类别标注)和无监督学习(训练数据中不含任何标注信息)。

(2)标注信息

标注信息与任务相关,不同的任务有不同标注信息,

eg:物体检测和识别任务,标注信息包括物体类别信息(某种物体是否在图像中存在,是否有与目标物体有较强关联的背景)和定位/检测信息(目标物体在图像中的位置,通常是bounding box或像素级标注)。

(3)目标检测代表性的数据集

目标检测和识别有几个代表性的数据集,早期的数据图像数量和类别数较少,已满足不了目前机器学习和深度学习算法训练的需求。

目前的训练数据集,以ImageNet和MSCOCO等数据集为代表,在图像数据、目标类别数量大幅增长的同时,也注重同一类别数据的多样性,使得训练数据能更好覆盖真实场景,提高识别算法在实际应用中的有效性。

猜你喜欢

转载自www.cnblogs.com/sybil-hxl/p/12796445.html
今日推荐