ABSTRACT

$~~~~~~$ 保持清洁卫生的公民环境是必不可少但艰巨的任务，尤其是在发展中国家。为了吸引市民追踪和报告附近地区，本文提出了一种名为SpotGarbage的新型智能手机应用程序，该应用程序可以检测并粗略分割用户单击的带有地理标签的图像中的垃圾区域。该应用程序利用提出的全卷积网络的深度架构来检测图像中的垃圾。该模型已在新引入的图像垃圾（GINI）数据集中进行了训练，平均准确率达到87.69％。本文还提出了网络体系结构的优化方案，以减少87.9％的内存使用量和96.8％的预测时间，而不会降低准确性，从而有利于在资源受限的智能手机中使用它。

ACM Classification Keywords

I.5.4. Pattern Recognition: Applications—Computer Vision;I.5.1. Pattern Recognition: Models—Neural nets; I.2.1. Artifi-cial Intelligence: Applications and Expert Systems

Author Keywords

Garbage Detection; Deep Learning; Computer Vision; FullyConvolutional Neural Networks; Smartphone; Android

INTRODUCTION

$~~~~~~$ 印度等国家的城市景观见证了拐角处的人行道变成了垃圾场。如果不及时清除，除了会引起眼痛外，还会导致健康危害。由于人口密度高和他们之间缺乏认识，问题变得更加严重，这使当局很难追踪有垃圾的地区。一种检查垃圾的有前途的解决方案，方法是为公民提供一种易于访问，及时且可靠的媒介，使他们可以向当局报告附近垃圾的存在。最近智能手机的普及使其成为任何解决方案接触大众的理想平台。此外，大多数现代智能手机都配备了相当强大的摄像头。考虑到垃圾的视觉冲击特性，基于图像感知垃圾的检测是一种直观、实用的方法。
$~~~~~~$ 动机，过去存在基于移动应用程序的计划，该计划允许人们通过上载垃圾图像来报告附近的这种威胁[21]。然而，这些解决方案依赖于人类来识别图像中的垃圾，这使得它们对于大规模使用是不切实际的。由于大量虚假上传（例如人物图像和自拍照）[26]，这些应用也未成功，需要手动验证。因此，一种有前途的解决方案应自动可靠地检测图像中是否存在垃圾，从而最大程度地减少人为干预。
$~~~~~~$ 实现这种解决方案的最简单方法是要求应用程序将每个用户单击的图像上载到服务器以进行自动垃圾检测。但是，这种方法的瓶颈是速度缓慢，有时网络连接不稳定，人们在智能手机上节俭使用互联网数据计划的心态[27]。因此，该解决方案应尽量避免上传每张图片，而应在手机上对其进行处理。它应该通过网络发送最少的信息，例如GPS坐标，垃圾的严重性以及（可选）包含垃圾的图像的分段区域。在电话上处理图像还有助于引起用户反馈，以验证用于垃圾检测的机器学习模型。此外，在图像中分割垃圾区域可以允许确定垃圾的严重性。
$~~~~~~$ 本文通过引入一个Android应用程序SpotGarbage，朝着这种解决方案迈出了第一步，该应用程序采用了称为GarbNet的卷积神经网络（CNN），可以自动检测并定位不受约束的真实世界图像中的垃圾，如图1所示。 CNN是任意大小的图像，输出是突出显示垃圾块的图像的粗粒度分段。此外，GarbNet已优化为在资源约束环境中执行。这促进了其在无处不在的移动平台上的部署。这是第一次使用最新的深度学习和计算机视觉技术来处理图像中的垃圾检测。总体而言，本文做出了以下贡献：

本文介绍了一个新的带注释的数据集，称为图像垃圾（GINI）。数据集是包含垃圾的几张野生图像的集合。每个图像还标注了感知的严重性和生物降解性水平。
一个完全卷积的架构GarbNet在GINI数据集上进行了训练，以高灵敏度和高特异性对图像中的垃圾进行分类和检测。
一款名为SpotGarbage的Android应用程序，它部署了GarbNet的优化版本，以近实时地确定用户单击的带有地理标签的图像中是否存在垃圾。

RELATED WORK

$~~~~~~$ 尽管没有现有文献描述从图像进行垃圾检测的任务，但是有可能将该任务与计算机视觉中的其他对象识别任务相关联。这是由于垃圾的内在本质部分与对象相似。用于对象识别的现有方法是手工制作的用于描述对象特征的图像描述符。流行的图像特征集包括定向梯度直方图（HOG），尺度不变特征变换（SIFT），Gabor滤波器，Gaborwavelets和Fischer Kernels 。近年来，由于深度学习技术能够直接从像素强度中自动学习丰富特征表示的层次结构，因此在计算机视觉中变得越来越流行。卷积神经网络（CNN）在ImageNet大规模视觉识别Challenge（ILSVRC）上提供最先进的图像识别性能方面至关重要，场景标记，语义分割和材料分类。
$~~~~~~$ 由于GPU上高效的并行处理CUDA框架，因此训练/测试大规模CNN的能力成为可能。但是，基于CUDA的CNN在通用CPU上的有限性能限制了它们在不受计算资源限制的无处不在的设备（例如智能手机）中的应用。尽管已经提出了许多优化程序来减少CNN的空间和时间复杂度，但要利用它们的全部潜力来提供实用的解决方案仍然是一个公开的挑战。
在这里插入图片描述

GARBAGE IN IMAGES (GINI) DATASET

$~~~~~~$ 训练CNN来检测垃圾需要带有垃圾相关注释的大型图像数据集。但是，目前没有可用的垃圾图像数据集。第一个目标是收集可用于训练健壮的CNN来检测图像中垃圾的各种图像。BingImage Search API用来对垃圾和非垃圾相关图像进行爬网。查询（例如路边垃圾，市场垃圾）用于获取包含垃圾的各种图像。这样就汇编了2561张图像，其中有956张图像是通过垃圾相关查询获得的。
$~~~~~~$ 从垃圾相关查询中获得的图像由于以下两个原因而不能直接用于训练CNN：首先，必须提取包含垃圾的图像区域（请参阅图2（b）左下方的图像集）以进行训练 CNN。这是因为使用整个图像作为垃圾的示例，当其中只有一部分对应于垃圾时，会影响训练过程。其次，一些与垃圾相关的查询会导致图像中不包含垃圾，但与垃圾有“相似性” 如图2（b）右上角的图像集中所示的垃圾。这些图像不能用于训练带有标签作为垃圾的CNN。
在这里插入图片描述
$~~~~~~$ 开发了如图2（a）所示的基于Web的平台来获取这些图像的用户注释。向注释者呈现了一系列图像，这些图像将被标记为是否包含垃圾。该门户网站还允许注释者绘制一个边界框，以标记包含垃圾的区域。此外，如果图像包含垃圾，注释者还报告他/她的垃圾严重性和生物降解性的感知水平。随后，从18至21岁年龄段的83位用户中共收集了1494条注释，其中包括534张图像，其中450张用于本文的实验。使用Cohen的Kappa评估的评分者间可靠性为0.615。

METHODOLOGY

$~~~~~~$ 自动垃圾检测的根本挑战是明确定义垃圾。有两种方法可以在图像中感知垃圾。第一种方法处理的是检测存在的物体与背景存在异常的单个对象，例如郁郁葱葱的绿色景观中的塑料瓶和锡罐，如图3右下图所示，而第二种方法则将垃圾视为垃圾。如图3左下图所示，单个实体是模糊的乱码和/或腐烂的对象的集合体。类似于对象，垃圾具有其自身的显着特征，但是与常规对象不同，垃圾具有先天的随机性，并且定义不明确。另外，垃圾具有背景的渐变性，但不同之处在于它具有丰富的随机发生特征;包括但不限于极端变化的纹理，颜色，边缘，形状和大小。此外，由于塑料袋通常由各种材料组成，如塑料、纸、金属、陶瓷和食品，因此不能将其视为单一材料。本文讨论的方法是针对后一类表现出非晶态特征的垃圾进行检测。
$~~~~~~$ 本文的总体目标是检测图像中垃圾的存在，并对图像中与垃圾对应的区域进行近似标定。这个目标是通过使用从图像中提取的补丁来训练一个模型来实现的。通过再次提取小块并结合它们的预测，得到测试图像的最终预测。

Patch Generation

$~~~~~~$ 来自GINI数据集的图像经过处理以生成固定大小的补丁。为了避免在学习垃圾的区别特征时产生歧义，将具有不完全垃圾区域的垃圾图像（如图2（b）中的部分垃圾图像所示）从此过程中排除。其余图像首先被分为5层褶皱，以避免相互之间的相关性褶皱处的补丁。裁剪每个折叠中的图像以生成不同大小的补丁，从而使模型能够适应多种尺度和不同级别的上下文信息。patch尺寸选择为10%、20%、40%和80%，stride为较小图像尺寸的9.1%，以执行Poisson-disk age。补丁进一步通过执行随机采样过量(0,2π)之间的旋转。这增加了训练集的大小，这有助于防止过拟合。更重要的是，它还使模型旋转不变。总的来说，这将生成一组500,000个补丁，平均分配给垃圾类和非垃圾类。

GarbNet Model

$~~~~~~$ 垃圾的对象化允许garbnet的权重使用预先训练的模型AlexNet进行初始化，该模型已经为1000路对象识别训练了100万张图像。通过这样做，GarbNet能够利用已经学习的表示的丰富层次结构，从而实现更好的泛化。用于初始化GarbNet的预训练的AlexNet模型是来自Caffe model Zoo的开放源码实现。该体系结构已被修改以执行二进制分类。网络的两个完全连接的层，紧随五个卷积层并每个包含4096个神经元，经过优化，分别具有512和256个神经元。GarbNet的监督微调是通过5层分层交叉验证进行的，其中训练和验证集分别由大约380,000个和20,000个补丁组成。使用Nvidia TitanX在Caffe上对模型进行了150,000次迭代，批量大小为100，并在每5,000次迭代后进行验证。每25,000次迭代后，初始学习速率1×10-3减少4倍。动量为0.9，重量衰减为5×10-5。此外，在训练过程中会随机镜像和裁剪补丁样本，以防止过度拟合。

Optimizing the GarbNet Model

$~~~~~~$ 最终的模型必须能够产生快速的响应，并在智能手机上部署低内存占用。优化全连接层，减少神经元数量，大大减少了87.9%的尺寸和模型参数，降低了应用程序运行所需的空间。使用常规的CNN和简单的滑动窗口方法，由于接收域的重叠，导致了大量的冗余计算。CNN的卷积层是平移不变的。它们对局部输入区域进行操作，并且不知道空间大小。这个特性可以通过允许整个图像在一个单一的通道中进行处理，而不是作为网络的输入，来加速前馈计算。这是通过将完全连接的层转换为卷积层来实现的，从而使体系结构一次就可以与整个图像进行卷积。例如，对于大小为227×227的输入图像，最终卷积层的输出为一组大小为6×6的256个特征图。因此，后续连接的层中的权重将重新排列，以形成512个大小为6×6的过滤器内核，步幅可更改。他将常规CNN转换为完全卷积网络（FCN），模型尺寸没有任何变化。该计算得到了高度摊销，与单纯的滑窗方法相比，将FCN的时间减少了12倍。
在这里插入图片描述
$~~~~~~$ 基于FCN的GarbNet模型为测试图像中的所有补丁同时生成一个分类映射，而不是单一的分类，如果至少有一个图像样本被分类为垃圾，则返回正。通过改变大小和重叠(步长)来确定它们的最佳值。AlexNet模型在前两个卷积层中的每一个之后执行本地响应归一化（LRN）。从图4可以明显看出，LRN层约占总预测时间的42％。在Alex网络中合并LRN层的基础是经验性的。因此，另一个优化步骤将是删除这些层，从而减少预测时间。进行实验以排除从网络上删除LRN层对模型准确性的不利影响。

Image Processing

$~~~~~~$ 以前没有可用的结果来检测图像中的垃圾，以对提出的方法进行基准测试。使用从补丁中提取的大量特征进行训练的反向传播网络用作基准。所使用的特征提取器是文献中常见的最新图像描述符。首先将补丁扭曲为256×256的固定尺寸，以提取恒定大小的特征向量。弯曲的贴片与具有4个波长和4个方向的Gabor小波滤波器组进行卷积。用宽度等于相应滤波器波长一半的高斯滤波器对结果进行平滑处理。然后，在每个像素上应用PCA来提取最大方差的方向。输出下降采样产生16,384个特征。此外，使用一个16的细胞大小来提取特征，在3个颜色通道上取梯度大小的最大值，从而产生另一组7,936个特征。最后，每50％的重叠64×64子样本附加与RGB，HSV和Lab颜色空间相对应的直方图，每个通道具有25个bin，以生成总大小为35,345的特征向量。因此，特征向量提供了图像块的广泛表征。使用交叉验证实验对反向传播网络的学习速率和隐藏层节点的数量进行了微调。

RESULTS AND DISCUSSION

$~~~~~~$ 通过5次交叉验证实验，确定了GarbNet模型的patch尺寸和重叠参数。将补丁分类为垃圾的概率设置为0.99，以保证最大的预测置信度和最小的假阳性。确定最佳的patch尺寸和重叠度分别为较小图像维数的25%和6.82%。
在这里插入图片描述
$~~~~~~$ 表5报告了用于对图像中的各个面片进行分类的不同技术的性能。显然，基于深度学习的方法明显优于依赖图像处理的方法，从而使准确性提高了约7％，特异性提高了11％。此外，可以观察到，带有LRN的GarbNet能够比单纯的基于滑动窗口的CNN更快地执行11次预测，而不会降低准确性。与传统的图像处理相比，该方法还可以预测6倍的速度。此外，与使用带有LRN的FCN和滑动窗口CNN相比，从模型中删除归一化层导致的预测时间分别减少了将近63.5％和96.8％，而不会影响预测的准确性。
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$