重要的 CNN 概念

博客http://www.dataguru.cn/article-11219-1.html

重要的 CNN 概念

1. 特征（图案，神经元的激活，特征探测）

当一个特定的图案（特征）被呈现在输入区（接受域）中时，一个隐藏的神经元就被会被激活。

神经元识别的团可以被进行可视化，其方法是：1）优化其输入区，将神经元的激活（deep dream）较大化；2）将梯度（gradient）可视化或者在其输入像素中，引导神经元激活的梯度（反向传播以及经引导的反向传播）3）将训练数据集中，激活神经元最多的图像区域进行可视化。

2. 感受野（特征的输入区）

输入图像区会影响特征的激活。换句话说，它就是特征参考的区域。

通常，越高层上的特征会的接受域会更宽，这能让它能学会捕捉更多的复杂/抽象图案。ConvNet 的架构决定了感受野是如何随着层数的改变而改变的。

3. 特征地图（feature map，隐藏层的通道）

指的是一系列的特征，通过在一个滑动窗口（例如，卷积）的方式，在一个输入地图中的不同位置应用相同的特征探测器来创造。在相同的特征地图上的特征，有着一致的可接收形状，并且会寻找不同位置上的相同图案。这构成了ConvNet的空间不变性。

4. 特征量（卷积中的隐藏层）

这是一组特征地图，每一张地图会在输入地图中的一些固定位置搜寻特定的特征。所有的特征的接受域大小都是一样的。

5.作为特征量的全连接层

全连接层（fc layers，在识别任务中通常粘附在一个ConvNet的尾端），这一特征量在每一张特征滴入上都有一个特征，其接收域会覆盖整张图像。全连接层中的权重矩阵W可以被转化成一个CNN核。

将一个核wxhxk 卷积成一个CNN 特征量wxhxd会得到一个1x1xk特征量（=FC layer with k nodes)。将一个1x1xk 的过滤核卷积到一个1x1xd特征量，得到一个1x1xk的特征量。通过卷积层替换完全连接的图层可以使ConvNet应用于任意大小的图像。

6. 反卷积

这一操作对卷积中的梯度进行反向传播。换句话说，它是卷积层的反向传递。反向的卷积可以作为一个正常的卷积部署，并且在输入特征中不需要任何插入。

左图，红色的输入单元负责上方四个单元的激活（四个彩色的框），进而能从这些输出单元中获得梯度。这一梯度反向传播能够通过反卷积（右图）部署。

7. 端到端物体识别管道（端到端学习/系统）

这是一个包含了所有步骤的物体识别管道（预处理、区域建议生成、建议分类、后处理），可以通过优化单个对象函数来进行整体训练。单个对象函数是一个可差分的函数，包含了所有的处理步骤的变量。这种端到端的管道与传统的物体识别管道的完全相反。在这些系统中，我们还不知道某个步骤的变量是如何影响整体的性能的，所以，么一个步骤都必须要独立的训练，或者进行启发式编程。

重要的目标识别概念

1. Bounding box proposal

提交边界框（Bounding box proposal，又称兴趣区域，提交区域，提交框）

输入图像上的一个长方形区域，内含需要识别的潜在对象。提交由启发式搜索（对象、选择搜索或区域提交网络RPN）生成。

一个边界框可以由4 元素向量表示，或表达为 2 个角坐标（x0,y0,x1,y1），或表达为一个中心坐标和宽与高（x,y,w,h）。边界框通常会配有一个信心指数，表示其包含对象物体的可能性。

两个边界框的区别一般由它们的向量表示中的 L2 距离在测量。w 和 h 在计算距离前会先被对数化。

2. Intersection over Union

重叠联合比（Intersection over Union，又称 IoU，Jaccard 相似度）

两个边界框相似度的度量值=它们的重叠区域除以联合区域

3. 非较大抑制（Non Maxium Suppression，又称 NMS）

一个融合重叠边界框（提交或侦测出的）的一般性算法。所有明显和高信度边界框重叠的边界框（IoU > IoU_threshold）都会被抑制（去除）。

4. 边界框回归（边界框微调）

观察一个输入区域，我们可以得到一个更适合隐含对象的边界框，即使该对象仅部分可见。下图显示了在只看到一部分对象时，得出真实边界框（ground truth box）的可能性。因此，可以训练回归量，来观察输入区域，并预测输入区域框和真实框之间的 offset △（x,y,w,h）。如果每个对象类别都有一个回归量，就称为特定类别回归量，否则就称为不可知类别（class-agnostic，一个回归量用于所有类别）。边界框回归量经常伴有边界框分类器（信度评分者），来评估边界框中在对象存在的可信度。分类器既可以是特定类别的，也可以是不可知类别的。如果不定义首要框，输入区域框就扮演首要框的角色。

5. 首要框（Prior box，又称默认框、锚定框）

如果不使用输入区域作为首要框，我们可以训练多个边界框回归量，每一个观测相同的输入区域，但它们各自的首要框不同。每一个回归量学习预测自己的首要框和真实框之间的 offset。这样，带有不同首要框的回归量可以学习预测带有不同特性（宽高比，尺寸，位置）的边界框。相对于输入区域，首要框可以被预先定义，或者通过群集学习。适当的框匹配策略对于使训练收敛是至关重要的。

6. 框匹配策略

我们不能指望一个边界框回归量可以预测一个离它输入区域或首要框（更常见）太远的对象边界框。因此，我们需要一个框匹配策略，来判断哪一个首要框与真实框相匹配。每一次匹配对回归来说都是一个训练样本。可能的策略有：（多框）匹配每一个带有较高 IoU 的首要框的真实框；（SSD，FasterRCNN）匹配带有任何 IoU 高于 0.5 的真实框的首要框。

7. 负样本挖掘（Hard negative example mining）

对于每个首要框，都有一个边界框分类器来评估其内部含有对象的可能性。框匹配之后，所有其他首要框都为负。如果我们用了所有这些负样本，正负之间本会有明显的不平衡。可能的解决方案是：随机挑选负样本（FasterRCNN），或挑选那些分类器判断错误最严重的样本，这样负和正之间的比例大概是3：1 。

猜你喜欢