了解CNN的局限性,这是AI的最大成就之一

CDA数据分析师 出品

经过漫长的冬季之后,人工智能的发展经历了炎热的夏天,这主要归功于深度学习和人工神经网络的发展。更准确地说,对深度学习的新兴趣很大程度上归功于卷积神经网络(CNN)的成功,卷积神经网络是一种特别擅长处理可视数据的神经网络结构。

但是,如果我告诉您CNN根本存在缺陷怎么办?这就是深度学习的先驱之一Geoffrey Hinton 在AAAI会议(主要的年度AI会议之一)上的主题演讲中谈到的内容。

Hinton与Yann LeCun和Yoshua Bengio一起参加了会议,他们共同构成了图灵奖的“深度学教父 ”三人组,他谈到了CNN以及胶囊网络的局限性,这是他在AI方面的下一个突破的总体规划。

与他的所有演讲一样,Hinton讨论了很多技术细节,以使听者了解与人类视觉系统相比,使卷积神经网络效率低下或与众不同的原因。以下是他提出的一些关键点。但是首先,作为我们的习惯,有一些关于我们如何到达这里以及为什么CNN对AI社区如此重要的背景。

解决计算机视觉

自从人工智能诞生之初,科学家就试图制造能够像人类一样看到世界的计算机。这些努力导致了他们自己的研究领域,统称为计算机视觉。

计算机视觉的早期工作涉及使用符号人工智能,该软件中的每个规则都必须由人类程序员指定。问题在于,并非人类视觉设备的每个功能都可以在明确的计算机程序规则中分解。该方法最终获得的成功和使用非常有限。

一种不同的方法是使用机器学习。与象征性AI相反,机器学习算法具有一般结构,并通过检查训练示例来释放它们自己的行为。但是,大多数早期的机器学习算法仍然需要大量的人工来设计检测图像中相关特征的零件。

另一方面,卷积神经网络是端到端的AI模型,它们发展了自己的特征检测机制。训练有素的多层CNN会自动以分层的方式识别特征,从简单的边角开始到复杂的对象(例如脸,椅子,汽车,狗等)。

CNN最早是在1980年代由LeCun提出的,他当时是多伦多大学欣顿实验室的博士后研究员。但是由于它们对计算和数据的巨大需求,它们被甩在了一边,获得了非常有限的采用。经过三十年的发展,CNN的计算硬件和数据存储技术取得了长足的发展。

如今,由于大型计算集群,专用硬件和大量数据的可用性,卷积网络在图像分类和对象识别中发现了许多有用的应用程序。

CNN和人类视觉之间的区别

CNN学会了端到端的一切。事实是,如果一项功能在某个地方很不错,那么在其他地方也很不错,因此他们获得了巨大的成功。辛顿在AAAI演讲中说:“这使他们能够结合证据并很好地概括各个职位,但是它们与人类的感知有很大不同。”

计算机视觉的主要挑战之一是处理现实世界中的数据差异。我们的视觉系统可以从不同角度,在不同背景下以及在不同光照条件下识别物体。当物体被其他物体部分遮住或以古怪的方式着色时,我们的视觉系统利用线索和其他知识来填补我们所看到的信息和原因的缺失。

实践证明,创建可以复制相同对象识别功能的AI非常困难。

Hinton说:“ CNN旨在应付翻译。” 这意味着训练有素的卷积网络可以识别对象,而不管其在图像中的位置如何。但是他们不能很好地处理改变视点的其他影响,例如旋转和缩放。

根据Hinton的说法,解决此问题的一种方法是使用4D或6D映射来训练AI,然后再执行对象检测。他补充说:“但这真是令人望而却步。”

目前,我们最好的解决方案是收集大量图像,以不同位置显示每个对象。然后,我们在这个庞大的数据集上训练我们的CNN,希望它能看到足够多的物体实例以进行概括,并能够在现实世界中以可靠的准确性检测物体。诸如ImageNet之类的数据集旨在实现这一目标,该数据集包含超过1400万个带注释的图像。

“这不是很有效,”欣顿说。“我们希望神经网络能够毫不费力地推广到新观点。如果他们学会了识别某些东西,并且将其放大10倍并旋转60度,那么这根本不会给他们带来任何问题。我们知道计算机图形就是那样,我们希望使神经网络更像那样。”

实际上,ImageNet(目前是评估计算机视觉系统的首选基准)存在缺陷。尽管数据集庞大,但无法捕获对象的所有可能角度和位置。它主要由在理想照明条件下以已知角度拍摄的图像组成。

这对于人类视觉系统是可以接受的,它可以轻松地概括其知识。实际上,从多个角度看待某个对象后,我们通常可以想象它在新位置和不同视觉条件下的外观。

但是,CNN需要详细说明他们需要处理的案件,而且他们没有人脑的创造力。深度学习开发人员通常尝试通过称为“数据增强”的过程来解决此问题,在该过程中,他们在训练神经网络之前翻转图像或旋转少量图像。实际上,CNN将在每个图像的多个副本上训练,每个副本略有不同。这将帮助AI更好地概括相同对象的变化。数据扩充在某种程度上使AI模型更加健壮。

但是,数据增强将无法覆盖CNN和其他神经网络无法处理的极端情况,例如上翘的椅子或躺在床上的皱褶T恤。这些是像素操纵无法实现的现实情况。

已经通过创建更好地表示现实世界的混乱视觉的计算机视觉基准和训练数据集来解决该泛化问题。但是,尽管它们可以改善当前AI系统的结果,但是它们并不能解决跨观点进行归纳的根本问题。这些新数据集将始终不包含新的角度,新的照明条件,新的颜色和姿势。那些新情况将使最大,最先进的AI系统困惑不已。

差异可能很危险

从上面提出的观点来看,CNN显然以与人类截然不同的方式识别物体。但是,这些差异不仅限于泛化能力弱,而且还需要更多示例来学习对象。CNN产生的对象的内部表示形式也与人脑的生物神经网络非常不同。

这如何体现呢?“我可以拍摄一张图像,并产生一点点噪点,而CNN会将其识别为完全不同的东西,我几乎看不到它已经改变了。这似乎真的很奇怪,我以此为依据证明CNN实际上是在使用与我们完全不同的信息来识别图像,”欣顿在AAAI会议上的主题演讲中说。

这些经过轻微修改的图像被称为“ 对抗性示例 ”,并且是AI社区研究的热门领域。

Hinton说:“并不是说错了,他们只是以一种完全不同的方式来做,而且他们的完全不同的方式在推广方式上有一些差异。”

但是许多例子表明,对抗性干扰可能是极其危险的。当您的图像分类器错误地将熊猫标记为长臂猿时,一切都很可爱有趣。但是,当自动驾驶汽车的计算机视觉系统缺少停车标志,邪恶的黑客绕过面部识别安全系统或Google Photos将人类标记为大猩猩时,您就会遇到问题。

关于检测对抗性漏洞并创建可抵抗对抗性扰动的强大AI系统,已有许多研究。但是,对抗性的例子也提醒我们:我们的视觉系统经过几代人的进化,可以处理我们周围的世界,我们也创造了我们的世界来适应我们的视觉系统。因此,只要我们的计算机视觉系统以与人类视觉根本不同的方式工作,它们将是不可预测且不可靠的,除非它们得到激光雷达和雷达测绘等互补技术的支持。

坐标系和整体关系很重要

杰弗里·欣顿(Geoffrey Hinton)在AAAI主题演讲中指出的另一个问题是,卷积神经网络无法从物体及其部位理解图像。他们将它们识别为以不同图案排列的像素斑点。它们没有实体及其关系的显式内部表示。

“当您将CNN定位在各个像素位置的中心时,您会越来越多地描述该像素位置上发生的情况,这取决于越来越多的上下文。最后,您获得了如此丰富的描述,以至于您知道图像中存在哪些对象。但他们没有明确解析图像,”欣顿说。

我们对物体组成的了解有助于我们了解世界并了解我们之前从未见过的事物,例如这个奇异的茶壶。

CNN还缺少坐标框架,这是人类视觉的基本组成部分。基本上,当我们看到一个物体时,我们会开发一个关于其方向的心理模型,这有助于我们解析其不同特征。例如,在下面的图片中,考虑右边的脸。如果您将其上下颠倒,则脸会在左侧。但实际上,您无需实际翻转图像即可看到左侧的脸部。只需在精神上调整您的坐标系,就可以看到两张脸,无论图片的方向如何。

“根据所施加的坐标系,您会有完全不同的内部感知。卷积神经网络确实无法解释这一点。您给他们一个输入,他们有一个感知,并且感知不依赖于施加坐标系。我想这与对抗性例子有关,也与卷积网以与人完全不同的方式进行感知这一事实有关。”欣顿说。

学习计算机图形学课程

Hinton在AAAI会议上的演讲中指出,解决计算机视觉的一种非常方便的方法是制作逆图形。3D计算机图形模型由对象的层次结构组成。每个对象都有一个转换矩阵,该矩阵定义了与其父对象相比的平移,旋转和缩放比例。每个层次结构中顶级对象的变换矩阵定义了其相对于世界原点的坐标和方向。

例如,考虑汽车的3D模型。基础对象具有4×4变换矩阵,该矩阵表示汽车的中心位于具有旋转(X = 0,Y = 0,Z = 90)的坐标(X = 10,Y = 10,Z = 0)处。汽车本身由许多对象组成,例如车轮,底盘,方向盘,挡风玻璃,变速箱,发动机等。每个对象都有自己的变换矩阵,与母矩阵(中心点)相比,它们定义了汽车的位置和方向)。例如,左前轮的中心位于(X = -1.5,Y = 2,Z = -0.3)。左前轮的世界坐标可以通过将其变换矩阵乘以其父矩阵得到。

其中一些对象可能具有自己的子集。例如,车轮由轮胎,轮辋,轮毂,螺母等组成。这些子项中的每个子项都有自己的变换矩阵。

使用这种坐标系层次结构,可以非常轻松地定位和可视化对象,而不管它们的姿势和方向或视点如何。当您要渲染对象时,将3D对象中的每个三角形乘以其变换矩阵及其父级的变换矩阵。然后将其与视点对齐(另一个矩阵乘法),然后在栅格化为像素之前转换为屏幕坐标。

如果您对从事计算机图形学的人说,“您能从另一个角度告诉我吗?”他们不会说,“哦,我想,但是我们没有从那个角度训练,因此我们不能从那个角度向您展示它。” 他们只是从另一个角度向您展示,因为它们具有3D模型,并且它们对空间结构进行建模,因为零件和整体之间的关系完全不依赖于视点。”欣顿说。“我认为在处理3D对象时不使用这种漂亮的结构是很疯狂的。”

胶囊网络是Hinton雄心勃勃的新项目,它试图做逆计算机图形学。尽管胶囊应该有自己的一套文章,但其背后的基本思想是拍摄图像,提取其对象及其零件,定义其坐标系并创建图像的模块化结构。

胶囊网络仍在研发中,自2017年推出以来,它们经历了多次迭代。但是,如果欣顿和他的同事们成功地使它发挥作用,我们将更接近复制人类的视野。

发布了2708 篇原创文章 · 获赞 267 · 访问量 55万+

猜你喜欢

转载自blog.csdn.net/yoggieCDA/article/details/105202754