文献阅读

Traffic Sign Classification using K-d trees and Random Forests

By Fatin Zaklouta and Bogdan Stanciulescu and Omar Hamdoun
  本文中,使用不同尺寸的HOG描述符距离变换(Distance Transforms)来评估K-d树和随机森林在交通标志分类中的表现。 使用包含43个类和超过50,000个图像的德国交通标志基准数据集。将树分类器与HOG描述符以及距离变换相结合,分别达到97%和81.8%的分类率。


Man vs. computer: Benchmarking machine learning algorithms for traffic sign recognition

By J. Stallkamp, M. Schlipsing, J. Salmen, C. Igel
  本文是2011年IJCNN举行的德国交通标志识别比赛的总结,介绍了数据集的产生和处理,以及参赛团队的情况。卷积神经网络(CNN)在比赛中表现出特别高的分类准确度。用相同的数据对人类和CNN做了测试,CNN的表现优于人类。算法包括但不限于:several kinds of neural networks, support vector machines, linear discriminant analysis, subspace analysis, ensemble classifiers, slow feature analysis, kd-trees, and random forests.
  表现最佳的几个团队:
  1 Baseline: LDA,线性判别分析(linear discriminant analysis)。线性判别分析基于类成员资格的最大后验估计。 LDA的线性辨别虽然简单,但在实践中给出了令人惊讶的良好结果,基于Shark机器学习库。
  2 Team sermanet: multi-scale CNN,多尺度的卷积神经网络。原始图像作为输入,每个特征提取阶段经过:卷积层(convolutional layer)、非线性变换层(non-linear transformation layer)、空间池化层(spatial pooling layer)。
  3 Team IDSIA: committee of CNNs,多个深度神经网络(multicolumn deep neural network (MCDNN)),他们用原始图像训练CNNs,用的HOG特征训练的多层感知器(MLP),赢得了GTSRB竞赛的第一阶段。与Sermanet相比,他们仅使用包含交通标志的中央ROI区域并忽略了边际,使用四种图像调整方法改进了数据的预处理。直方图拉伸(Histogram stretching)、直方图均衡(Histogram equalization)、自适应直方图均衡(Adaptive histogram equalization)、对比度归一化(Contrast normalization),导致训练时间大大增加。
  4 Team CAOR: random forests,基于500棵树的随机森林。 随机森林是一种集合分类器,它基于一组非修剪的随机决策树,每个决策树都建立在随机选择的训练数据子集上。


Color-blob-based COSFIRE filters for object recognition

By Baris Gecer, George Azzopardi, Nicolai Petkov
  大多数对象识别方法依赖于通过边缘检测或区域分割获得的轮廓定义的特征。它们对于扩散区域边界不稳定。此外,这些方法不利用区域颜色信息。我们提出基于颜色blob的COSFIRE(移位滤波器响应的组合(Combination of Shifted Filter Response))滤波器.


Deep neural network for traffic sign recognition systems An analysis of spatial transformers and stochastic optimisation methods

By Álvaro Arcos-García, Juan A. Álvarez-García, Luis M. Soria-Morillo
  本文介绍了一种用于交通标志识别系统的深度学习方法。使用包括卷积层(Convolutional layers)和空间变换器网络(Spatial Transformer Networks,STN)的深度神经网络对来自德国和比利时的公开可用交通标志数据集进行若干分类实验。首先,评估不同的自适应和非自适应随机梯度下降优化(stochastic gradient descent optimisation)算法,例如SGD,SGD-Nesterov,RMSprop和Adam。随后,分析放置在主神经网络内的不同位置的空间变换器网络的多个组合。所提出的卷积神经网络的识别率在德国交通标志识别基准中报告的准确度为99.71%.交通标志识别系统(Traffic sign recognition systems (TSRS))包含交通标志检测 (traffic sign detection (TSD) )和交通标志识别 (traffic sign recognition (TSR))
  本文提出,大多数交通标志识别的方法已经从基于颜色和形状演变到基于机器学习的领域,因为前者太过依赖于先验知识和算法的设计。近年来深度神经网络逐渐受到关注,并广泛用于模式识别领域。
  常用数据集:比利时交通标志数据集BTSD(Belgian Traffic Sign Dataset)、德国交通标志数据集(German Traffic Sign Recognition Benchmark)、克罗地亚交通标志数据集(rMASTIF)、意大利交通标志数据集(DITS)、清华腾讯100K数据集
  机器学习应用的三个步骤:特征提取(feature extraction)、特征降维(dimensionality reduction)、特征分类(classification)。在一篇论文中,通过以下几种方法:合并HOG特征和图像灰度值作为特征向量、基于迭代最近邻的线性投影(Iterative Nearest Neighbours-based Linear Projections,INNLP)降低维数,通过迭代最近邻法(Iterative Nearest Neighbours,INNC),达到了98.53%的准确度。Timofte& Van Gool:Iterative nearest neighbors. Pattern Recognition
  虽然其他机器学习算法,如支持向量机、随机森林、最近邻已广泛用于识别交通标志图像,卷积神经网络在竞争中表现出特别高的分类准确度。GTSRB竞赛中,卷积神经网络的准确率达到99.46%,后来Jin,Fu和Zhang(2014)提出了一种铰链损失随机梯度下降法(hinge loss stochastic gradient descent method)来训练20个CNN的集合,其精度达到99.65%,并且更快更稳定的收敛。Jin, J., Fu, K., & Zhang, C. (2014). Traffic sign recognition with hinge loss trained
convolutional neural networks.
  下面是本文提出的方法:首先将所有数据转换为48*48的大小,用高斯核将全局归一化(global normalisation)和局部对比归一化(Local contrast normalization)以增强边缘(查看文章:What is the best multi-stage architecture for object recognition?)。然后构建单一的CNN,它结合了几种类型的层:卷积空间变换器线性整流函数(Rectified Linear Unit, ReLU)、局部对比归一化最大池化(max-pooling),这些层充当特征提取器,将输入图像的原始像素信息映射到张量,该张量通过两个全连接的层后被分类为特定的交通标志类别。下图分别是归一化和空间变换器网络示意图。
这里写图片描述   这里写图片描述


Research and Application of Traffic Sign Detection and Recognition Based on Deep Learning.

By WangCanyong
  本文关注于正确性和高效率地检测和识别。通过Caffe这个框架,提出一个深度CNN算法来训练数据并得到一个可以分类交通标志的模型。
  交通标志分为主要标志和辅助标志两类。检测方法:基于颜色和基于形状。识别方法:基于SVM和基于统计学,近年来CNN逐渐成为分类和检测的热门方法。
过程
  1 数据集。我国交通标志数据集的开放程度不及欧洲国家,导致CNN所需的大量数据集很难获取。目前广为人知的有德国的GTSRB,本文就使用这个数据集。
  2 图像处理。将图片标准化,使其像素为0~0.5之间,因为神经网络在原始数据集在0~1之间时表现更好。本文直接使用彩色图像来进行识别,而不是转化为灰度图。
  3 神经网络结构。本文使用VGG-16作为前端网络结构,使用SSD(Single Shot MultiBox Detector)算法来检测和识别交通标志。VGG-16包括5个主要的堆栈卷积层(stacked convolutional layers)形成卷积神经网络,然后经过一个池化层(pooling layer)、三个全连接层(fully connected layer),输出到softmax层,它将多个神经元的输出,映射到(0,1)区间内,在最后选取输出结点的时候,选取概率最大(也就是值对应最大的)结点,作为预测目标。
  4 特征提取和模型训练。模型使用卷积层来提取图像的全局卷积特征(global convolution feature),然后在不同尺度的特征图中使用概率和回归方法,分析目标物体坐标;最后,使用非最大抑制算法消除冗余测试框架来确定是什么类型交通标志。
  5 实验验证。经过调整确定参数后,学习率为0.001,4000次迭代,衰减10次,最大迭代次数20000次。训练集和验证集分别为50和20,迭代20000次后,准确率可达到约96%。


The Research on Traffic Sign Recognition Based on Deep Learning

By ChenLI and ChengYang
  三个步骤,图像预处理、特征提取和分类。特征提取使用深度玻尔兹曼机(Deep Boltzmann Machines)和典型关联分析(Canonical Correlation Analysis),相比于LBP(Local Binary Pattern)和HOG (Histogram of Oriented Gradient),DBM-CCA具有更高的准确性
  1 相关工作
  2010年ZhangKa提出的基于颜色特征和PNN(probabilistic neural network)的方法已经达到了很高的准确率,但是参数设置还有待优化。2011在德国IJCNN国际神经网络联合会议(International Joint Conference on Neutral Networks)上,Cirsean提出了深度神经网络识别(depth convolution neural network)。一年后,Greenhalghd使用SVM(Support Vector Machine)和最稳定极值(MSER,maximally stable external region)来识别。以上种种,使用了直方图均衡化和在YCbCr空间提取颜色,来选择ROI,并借助HOG特征和SVM分类器来识别交通标志。消色差分割(Achromatic segmentation)也起到一定作用圆形标志会被曲线拟合(curve-fitting)技术识别;HSI空间、阈值化分割(threshold segmentation)、颜色聚类(color clustering)、投影法获得边界矩形(horizontal and vertical projection)、最小二乘法(least square method)用于识别标志。国内这方面的研究比较稀缺。本文依然采用German GTSRB database。
  2 预处理(pretreatment)。
  由于交通标志通常有噪声、强光或其他人为的干扰,使得难以提取特征或识别,正确的预处理有助于消除这些影响。常用图像增强、亮度均衡、尺寸调整、噪声消除,本文采用特别是图像灰度化处理(image grizzled processing),灰度归一化(gray-scale normalization)与尺寸归一化。
    A.Image grizzled processing 颜色特征通常会使计算更加复杂。介绍了几种灰度化方法。
    B.Grey-scale normalization 进一步缩小光照强度差异。 I g ( x , y ) = d 0 d ( I ( x , y ) u ) + u 0 ;灰度线性归一化主要包括直方图均衡,颜色空间转换和Gamma校正。 非线性归一化仅采用Gamma校正。
    C. Image size normalization 调整为30*30.介绍了各种插值方法。
  3 特征提取
  包括图像信息检索,真实图像与特征的相似性评估,关键特征子集合的创建。本文集中于三种方法。
    A. HOG feature extraction有助于清楚地描述物体的表面和形状,通过HOG提取整体和轮廓信息,并且它受光照,尺寸和拍摄物体的角度的影响较小。具体计算过程略。
    B. LBP features extraction纹理特征LBP(local binary pattern,局部二值模式) 在描绘图像某些部分的纹理方面脱颖而出,因为它使图像免受灰度变化和旋转的影响。LBP操作相当于:以中心点灰度值做参考,进行局部二值化处理。LBP特征反应了局部亮度的相对变化,整体增加或减少一个值对LBP特征并没有大的影响(光照的变换要是线性的)。计算略。
    C. DBM-based features extraction基于RBM(限制Boltzmann机器)的深度研究模型。将图像划分为不同的图层并提取每个图层的特征。 然后形成更高级别的抽象并提取特征。DBM除了有自底向上的传播之外,还包含了自顶向下的反馈,从而使DBM能更好地传播模糊输入的不确定性,因此它的鲁棒性更好。除此之外,CCA在人脸识别,行为分类和疾病诊断方面取得了新的突破,已被广泛应用于模型识别,计算机视觉和生物医学。 本文重点研究了DBM与CCA的结合。
    D. SVM Classifier支持向量机或SVM能够避免尺寸和过度拟合的问题。基本原理有两个步骤。首先,将样本输入空间中的线性不可分性转换为高维空间中的可分离性。然后将最优分离超平面位于线性可分空间中以实现分类。
  4 结果如图
这里写图片描述


Road Traffic Sign Detection and Classification

By Arturo de la Escalera and Luis E. Moreno and….
  很老的一篇高引论文。总结了很多前人的工作,并提出了一种算法。
  1 检测。
  首先将图像根据RGB或HSI颜色空间进行阈值化处理,然后使用角点检测(Corner Detector)法找到边缘信息。在实际图像中,角点通常会伴随一些噪音,为了消除这种影响,必须设置合适的参数以获得最佳的角点检测器。接着就是角点的提取(Corner Extraction),分别对三角形、矩形和圆形的目标进行提取,
  2 分类。
  采用神经网络的方法,直接将图像作为输入,训练了两种网络,一种用于圆形、一种用于三角形,用的是多层感知器(multilayer perceptron)。将图像标准化为30*30的大小输入训练,考虑到各种因素,加入了旋转角度 ± 6 ,随机添加高斯噪声,采用不同的阈值,像素平移等操作。
  3 结论。
这里写图片描述


REAL-TIME OBJECT DETECTION FOR “SMART” VEHICLES

By D.M. Gavrila and V. Philomin
本文提出,一个有效的基于形状的距离变换(Distance Transforms)的物体检测方法,使用模板层次结构(template hierarchy)来捕获各种形状的物体,使用随机优化(stochastic optimization)技术在线生成给定形状分布的层次结构。并且对移动车辆中交通标志和行人的实时检测做了实验。
这里写图片描述  这里写图片描述
距离变换就是对于一幅二值图像的每个前景点(255),计算与其最近的背景点的距离,根据距离生成一幅灰度图,具有骨架抽取的效果。将模板(b)与DT图像(图d)匹配,而不是边缘图像(c),优点在于,作为模板变换参数的函数,所得到的相似性度量将更平滑。
  介绍了模板层次结构进行匹配、构建模板层次结构,还有针对硬件的算法优化,使用到单指令多数据流*SIMD(Single Instruction Multiple Data)技术。出于对实时性的要求,使用倒角距离测量*(chamfer distance measure)。
  在交通标志的识别中,针对圆形和三角形进行了实验,对1000多个交通标志图进行检测,检出率超过95%,但是在恶劣的天气条件下,将降至80%,系统以10-15Hz的频率运行。

猜你喜欢

转载自blog.csdn.net/muerjie5669/article/details/81745371