低速啃书计算机视觉：一种现代方法（中文版）第二版第九章

第九章关于中层视觉

核心问题：关于图像的表征（是论文里常常看到的representation？）

核心思想：将像素点或者模式元素进行收集组合，进行总结表征————>分割、分组、感知组织、拟合

通用准则：较少的成分具备提示作用

两类方法：侧重局部信息，通过聚类方法侧重不同项之间的局部关系——区域

侧重全局信息，在数据集合中建立参数模型

9.1 人类视觉：分组和格式塔符合生态学现象

分组：视觉系统将一幅图片的某些部分组合在一起并且将它们作为整体感知的倾向。

格式塔原理：完形及其性质——指定一系列的规则，将图像元素分类和分组。

性质：邻近性、相似性、相同趋向性、同一区域性、平行性、封闭性、对称性、连续性、熟悉的形状。

9.2简单的分割算法应用

背景差分

原理：从图像中减去背景图像的估计值，从结果中寻找绝对值较大的部分获得有用的分割

难点：背景随着时间的推移慢慢改变

解决方法：使用运动平均方法：计算每一个背景像素点先前值的加权平均作为他的当前估计值。

远离当前帧的像素值权重为0，越接近权重越大。

时域平滑的滤波器，在粗尺度图像中应用

算法9.1

镜头的边界检测（自动寻找镜头边界）

镜头：同一物体的较短视频流，可以用关键帧表示，然后用于视频的检索或者概括视频内容

边界检测：在视频中找出那些和上一帧相差很大的帧

原理：采用某种形式的距离度量，如果距离大于一个给定阈值，则镜头边界被检测到。

计算距离的技巧：

帧差分算法：两帧对应点之间的差的平方和

基于直方图算法：每一帧的色彩直方图之间的差，不易受颜色影响

块比较算法：将帧切分成许多小的网格，用块间距离的合成计算帧间距离，取最大值。

边缘差分算法：计算每一帧的边缘图，并比较一致的边缘，几乎没有就是镜头边界帧。

交互分割

对前景和背景的分割，要求前景连贯，背景不要求。

不同的交互方式：智能剪刀、绘画、抓取切割、抠图、转描机方法（视频）、

抠图——非纯背景和非纯前景的像素：采用交互分割准备一个蒙板

matte：位于【0-1】之间的一个掩码图 αf+（1-α）b，α表示权重，f前景像素值，b背景像素值

形成图像区域

区域：颜色、纹理连贯

用途：识别两幅图像之间的对应性、对已经存在的物体进行标记跟踪、查找图像中重复的部分

超像素：小而紧凑的区域

用途：过分割（像素网格较小、内容丰富的表征）、亮度计算、识别任务

9.3基于像素点聚类的图像分割

聚类：指将一堆没有标签的数据自动划分成几类的方法，属于无监督学习方法，这个方法要保证类内相似性高，类间相似性低

图像中每一个像素是三维空间的一个点，对应着红绿蓝三原色的强度。利用聚类的图像分割以图像的像素为数据点，按照指定的簇数进行聚类，然后将每一个像素点用对应的聚类中心代替，重构该图像。

聚类包含属于同一类的数据点，每个聚类代表一个图像分割

常规方法：对图像中的每个像素点用一个特征向量表示，该特征向量包括描述该像素点的所有相关信息

（亮度值、强度值、颜色信息、位置信息、采用一定滤波器输出的局部纹理表示）

基本的聚类方法：

分解式聚类算法：整个数据集作为集合，递归方法逐步分裂

凝聚式聚类算法：每一个数据项都被看作一个独立的类，对这些聚类通过递归的方法合并

两个问题：

类间距离：凝聚式聚类——融合邻近的类

分解式聚类——切分不够凝聚的类：

聚类中，主要的距离计算方法包括最短距离法（single linkage）、最大距离法（complete linkage）、平均距离法（average linkage）等

•最短距离法：

取两个类中距离最近的两个样本的距离作为两个类的距离。也就说最近的两个样本的距离越小，两个类的相似性越大。

优点：只要两个类的间距不是很小，就可以很好的分离非椭圆形状的样本分布。

缺点：当两个类的整体距离较大，可是其中的一些点距离较近而被计算成为较近的类。这样合并之后，最后会得到比较松散的类。

•最长距离法：

和最短聚类法相反，取两个类中距离最远的两个样本的距离作为两个类的距离。

优点：可以很好的分离类中有噪声的数据集。

缺点：两个类已经很接近了，但是只要有不配合的点存在，就认为这两个类的相似度十分低，永远不会合并。

最长和最短距离只考虑了有特点的数据，没有考虑类内整体的数据

•平均距离法：

两个集合的点两两距离全部放在一起，然后求平均。

优点：可以很好的分离有噪声的数据集

缺点：对球型数据集会产生偏差。

细长型聚类（单连接）：两类之间最近的两个元素（最短距离法）

团状型聚类（全连接）：第一个聚类与第二个聚类元素的最大距离（最长距离法）

圆形的聚类（基于分组均值）：聚类元素间距离的平均值（平均距离法）

划分种类：树状图——难点：像素点量大——改进：保证分割区域的连通性（不易实现）

——分解式：使用类的某种概要形式（像素点的颜色直方图）来确定好的分裂；

凝聚式：注意类间距离（质心之间的距离）的选择

分水岭算法

1计算图像梯度幅度图，零值为局部极大强度值

2将零值作为一个分割区域起点，沿着梯度向后遍历，在一个区域内的邻近像素点都划入该区域

（此处为我个人理解，与书本表达不同）

最短路径算法+凝聚式聚类

结果：过分割

k均值算法（分布未知，进行k均值划分，第六章有k均值的内容）

计算每个像素点特征向量，采用k均值，根据表征该像素点特征的向量（如坐标），靠近聚类中心得到对应分割

结果：分割大区域

均值漂移：（分布已知，根据概率密度函数pdf划分）

核平滑（离散——>连续），求众数（pdf极大值点），划分区域（梯度收敛）

聚类（密度估计）特征空间样本点（基础概率密度）、

将聚类看作该密度的局部极大值（局部模型）

密度估计方法：核平滑：数据点邻近分布，大；广泛分散，小

算法：将带有均值权重的点进行偏移

处理：连续变量，模型表征，凝聚式估计。

9.4 分割、聚类和图论

根据图论进行

凝聚式分类：

从每个像素点开始形成一个聚类，对他们进行组合直到不需要组合。

分解式分类：

能量最小化问题，基于图的最小切问题

归一化切割：（NP问题）

定义像素之间的相似度，将图切割为两个联通的部分。

对分割器的量化评估：预测人们手动画出的图像中物体的边界

F准则：召回率和精确度

HimeAnole

发布了46 篇原创文章 · 获赞 5 · 访问量 1万+

私信关注