计算机视觉(四)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/yeyustudy/article/details/82385558

循环神经网络

1、循环神经网络使用的输出为什么不是得分最大的而是其概率分布:这样更具有多样性,相同输入的情况下使用概率分布能得到更多样的输出,这取决于第一个时间步的输入。(这里还有一个采样的概念,这个还是不太懂)
2、反向传播并非沿时间步整个进行传播,而是通过时间的截断一部分一部分的进行。
3、使用LSTM的好处:有效的控制了梯度消失与爆炸,而且有利于梯度的传播(具体原理不太了解)

识别与分割

1、语义分割的一种思路是将图像分成不同的小块输入到卷积神经网络中进行分类,通过参数共享来减小运算量
2、上采样:一种思路是去池化,示意图如下:
这里写图片描述
转置卷积也是去池化的一种,它可以类比于下采样中的跨卷积,跨卷积示意图如下:
这里写图片描述
反卷积其实是用特征值这个标量做输入给卷积核加权,示意图如下:
这里写图片描述
3、目标识别
1)对于目标识别来说,使用滑窗法的代价太大,因为不知道目标的尺寸大小,这里比较常用的是候选区域,先使用传统的方法划定许多个候选区域,之后针对这些候选区域进行识别等操作;fastrcnn的进一步改进是先将图片进行卷积得到高分辨率的特征图,然后划分候选区域进行操作,之后fasterrcnn还有进一步改进,自动学习候选框,这里不再细讲。
这里写图片描述
2)另一种是yolo或ssd的方法,将图像划分成不同的网格,使用几个不同的候选框,要做的就是在每个网格中预测候选框的偏移以及相应的类别
这里写图片描述

猜你喜欢

转载自blog.csdn.net/yeyustudy/article/details/82385558
今日推荐