关于卷积神经网络的粗浅认识_分类与回归

本文将从个人学习与实践的角度简单介绍卷积神经网络

一,卷积神经网络能做什么?

卷积神经网络(convolution neural network,简称cnn),宽泛地说,两种用途:分类与回归。分类顾名思义,将目标对象进行类别的划分;回归通俗而言即是预测。

用一个例子简单介绍二者。图片来自网络,侵权即删),哪一图片是狗,哪一图片是猫?他们各自在哪里?

区分猫狗便是分类,可以用一个三维向量标记,[1, 0, 0]:非猫非狗;[0,1,0]:猫;[0,0,1]:狗。这种标记方法不唯一,也可以采用[1,0]:猫;[0,1]:狗;[0,0]:非猫非狗,对于非猫非狗一般可以记为背景(并非重点关注的目标)。

找到猫狗各自在哪里,便是对图像中的目标位置进行预测,一般采用矩形边框预测,即使用一个四维向量标记[left, top, right, bot],分别表示目标的左侧,上边,右侧,下边。标记方法不唯一,也可以使用[left, top, width, height]进行预测目标的位置。对于较为特殊的目标,甚至可以采用圆形边框进行预测,即[x, y, r],即圆心(x,y)和半径r。

将上例两个任务合二为一,可以称之为目标检测任务,即是什么?在哪里?常见的人脸识别的前提就是先检测人脸,即找到人脸的位置。而人脸识别的任务则是确定这个人是谁。

 

二,CNN如何做到分类或回归?

老实讲,弄清这个问题需要一定的数学功底和图像处理的知识。(然而我并没有)

试图介绍我个人的理解。

我可以轻而易举的区分猫狗,但是很难区分一对双胞胎,原因很简单,猫狗之间的差别很明显,双胞胎之间的差别很小。那么我是如何进一步发现差别的么?

从小到大,见过很多猫狗,所以判断眼前的动物时,是将眼前物与脑中物进行对比。就好像使用strcmp函数时,其实就是对比两个字符串中是否对应的字符完全相同。所以判断是什么最根本的做法就是对比。

但是,图中是一只狗,我该用什么与之对比呢?当然是其他被认为是狗的图片了。但是,如何让计算机对图像进行对比?

逐一对比像素,算出像素平均差,可以么?太严苛了,对同一只狗拍两张照片都存在很大的差别,更何况狗的颜色,姿势,样貌都差别很大,所以对比像素行不通。

那怎么办?strcmp函数不就是对比每一个字符么?这是因为字符数量是有限且较少的,所以可以用来做对比的标准

再看两张图,或许你会有灵感。

相信一定可以轻而易举地区分出猫狗,这是两张简笔画(图片来自网络,侵权即删),为什么寥寥数笔就可以区分?因为特征都被描述了。

strcmp函数中,两个字符串中的字符就是特征,那么对特征直接进行对比,自然没有问题。

同理,如果计算机知道猫狗的特征,再对特征进行一定的比较,就很容易了。

那么,现在的问题是,如何获取特征

比如:一个西瓜是否好吃?假设与瓜皮颜色,瓜皮薄厚,瓜皮条纹有关,那么这三个便是判断西瓜好吃的三个特征。我要做的就是买一堆瓜,分别记录三个特征,然后吃,并记录好不好吃,最后通过统计可以给出结论,三个特征如何组合,西瓜好吃。

比如:在steam上购买的游戏,每个游戏都有自己的特征,当买了一定量游戏后,steam商店会根据库中游戏的类别进行推荐游戏。

上述两个例子中,特征好像是那种显而易见的,比如西瓜皮颜色:深绿,绿,淡绿;瓜皮薄厚:薄或者厚;瓜皮条纹:宽或者窄;游戏类别就更显然了。

那么,如何获取图像中狗的特征呢?

其实,单纯地讲,CNN的能力是特征提取,普遍地,利用特征进行分类的分类器会紧跟在特征提取之后,并集成在CNN中。

这就是我理解的CNN解决分类任务

 

至于回归任务,我是这样理解。

无论是回归还是分类,其本质都是在预测,回归是连续的,分类是离散的。回归是连续的分类,分类是离散的回归

例如:用矩形边框[left, top, right, bot] 预测狗在图中的位置,假设图像宽100像素,以left为例,如果用分类方法预测left,可以视其为100个类别的分类任务;如果用回归预测left,可以预测一个0~1之间的数left,left*100就是边框的左侧位置。显然对于一个数值的预测,使用回归方法比较好。

例如:90年代尝试的自动驾驶就是通过对道路图像的分类,从而使用离散量对方向盘进行控制。

此外,回归即一种拟合方法,即建立图像特征与待预测数值间的模型关系

同样的,回归也是利用CNN提取的特征进行数值的预测,当然,这一步也是集成在了CNN之中。

 

所以CNN如何进行分类或回归的流程是这样:

第一步:将原始图像预处理,送入CNN中

第二步:通过CNN提取图像的特征

第三步:根据特征对图像进行分类或者回归

通常第二步和第三步都做在CNN之中

在之后的文章中,这三步都会详细谈到

 

 

 

发布了8 篇原创文章 · 获赞 4 · 访问量 2204

猜你喜欢

转载自blog.csdn.net/yyccsdnzh/article/details/105020141