Caractéristiques des piétons et méthodes de détection dans le système de détection des piétons

http://blog.csdn.net/perry_pku/article/details/52370519

1. Caractéristiques des piétons

Les descripteurs de caractéristiques pour piétons peuvent être divisés en trois catégories: les fonctionnalités de bas niveau, les fonctionnalités hybrides et les fonctionnalités basées sur l'apprentissage. Les caractéristiques sous-jacentes font référence aux caractéristiques de base de l'image telles que la couleur, la texture et le dégradé. Ces caractéristiques uniques peuvent être calculées rapidement et peuvent être calculées rapidement à l'aide de la technologie des graphiques intégraux, mais uniquement à partir d'un certain aspect, tel que le gradient ou la texture, pour décrire les caractéristiques des piétons, et la discrimination est médiocre. Les caractéristiques hybrides font référence à la fusion de plusieurs caractéristiques sous-jacentes ou à des caractéristiques statistiques d'ordre supérieur des caractéristiques sous-jacentes. Cette fonction peut décrire des caractéristiques d'image de différents côtés et améliorer la précision de la détection. Cependant, à mesure que la dimensionnalité de l'entité augmente, le temps de calcul de l'entité et le temps de détection du classificateur augmentent également, ce qui affecte les performances en temps réel. À l'heure actuelle, les fonctionnalités basées sur l'apprentissage font généralement référence aux fonctionnalités que le réseau neuronal apprend directement à partir de l'image d'origine. Cette fonctionnalité peut apprendre des fonctionnalités avec une forte capacité de jugement à partir d'un grand nombre d'échantillons. Elle fonctionne très bien dans la détection des piétons, mais son calcul repose sur du matériel haute performance et est étroitement lié aux échantillons d'apprentissage. Si les échantillons ne sont pas représentatifs, Il est difficile d'apprendre de bonnes caractéristiques.

Les caractéristiques sous-jacentes de la détection des piétons comprennent principalement Haar, HOG, LUV, LBP, etc. Les fonctionnalités de Haar sont appliquées à la détection de visage par VJ, et une représentation simple de ses fonctionnalités est illustrée sur la figure. Chaque valeur de caractéristique correspond au résultat du calcul d'un bloc de zone rectangulaire sur la figure, qui est obtenu en soustrayant la somme de la partie noire du pixel de la partie blanche du pixel dans le calcul. Lors du calcul du même bloc de surface, différentes méthodes de calcul obtiendront différentes valeurs caractéristiques du même bloc de surface.


La fonction HOG [2] proposée par Dalal et al.est actuellement le descripteur de fonction unique le plus efficace pour les piétons. HOG décrit les caractéristiques d'amplitude et de direction du gradient local de l'image. Sur la base des caractéristiques du gradient, le vecteur de caractéristiques du bloc est normalisé, ce qui permet aux blocs de se chevaucher, de sorte qu'il n'est pas sensible au petit décalage du changement d'éclairage. Représentez efficacement les caractéristiques de bord du corps humain. Les inconvénients du HOG en particulier: une dimensionnalité élevée et un calcul lent. En réponse à ces lacunes, Zhu et al. [3] ont autorisé des tailles de bloc variables dans HOG, ont utilisé la technologie d'histogramme intégral pour calculer rapidement les caractéristiques HOG, sélectionné des blocs avec une forte capacité de discrimination grâce à l'algorithme Adaboost, puis ont construit un classificateur en cascade. La détection de cette méthode La vitesse est près de 70 fois plus rapide que celle de Dalal et al. Wojek et al. [4] ont utilisé une technologie parallèle pour implémenter HOG sur GPU et ont construit un système de détection des piétons en temps réel.

La LBP a été proposée pour la première fois par Ojala et al. [5] comme méthode d'extraction de caractéristiques pour la classification des textures, largement utilisée dans la reconnaissance faciale. Mu et al. [6] ont proposé deux variantes de LBP basées sur les caractéristiques des piétons: Semantic-LBP (S-LBP) et Fourier LBP (F-LBP). Wang et al. [7] ont simplement concaténé les caractéristiques de l'histogramme LBP des blocs d'images locaux en tant que descripteur des caractéristiques des piétons, et ses performances de détection ne sont pas pires que S-LBP, mais les expériences de Walk et al. [8] sur d'autres ensembles de données piétons montrent que La combinaison des fonctionnalités HOG et LBP n'améliore pas la détectabilité. La raison est que LBP ne peut pas décrire efficacement les caractéristiques de texture lorsque l'image est floue ou que la lumière change fortement et que les conditions d'imagerie sont mauvaises. Similaire à la fonction LBP, la fonction CENTRIST proposée par Wu et al. [9], à savoir CENsus TRansformhISTogram. Cette fonction peut décrire les informations globales de la scène et a été utilisée pour la première fois dans la classification des scènes. En 2011, Wu et al.ont appliqué CENTRIST à la détection des piétons [10], en utilisant la technologie des graphes intégraux pour calculer rapidement cette fonction, et combiné à un classificateur en cascade pour construire un système de détection des piétons en temps réel.

Les caractéristiques de couleur, telles que LUV, sont les caractéristiques d'image les plus élémentaires et sont facilement affectées par la lumière. Elles ne conviennent pas comme descripteurs de caractéristiques pour les piétons. Cependant, comme la structure du corps humain est relativement stable, la différence de couleur entre les différentes parties est faible, donc Walk [11] ont proposé des caractéristiques auto-similaires de couleur pour caractériser la relation entre les caractéristiques de bloc local, combinées avec des caractéristiques HOG, améliorant considérablement les performances de détection.

La fonction de canal intégral proposée par Dollar et al. [12] est une caractéristique hybride typique. Il utilise la technologie des graphes intégraux pour calculer rapidement les différents canaux de caractéristiques de l'image, tels que la somme locale, l'histogramme de la direction du gradient et la fonction Haar. Cette méthode combine non seulement de manière organique plusieurs fonctionnalités, mais résout également la vitesse de calcul lente de la fusion multi-fonctionnalités. En 2014, Dollar et al.ont proposé une méthode de construction d'une pyramide de caractéristiques qui agrège les entités multicanaux à l'aide de calculs approximatifs [13]. Les caractéristiques mixtes utilisées dans cette méthode comprennent les caractéristiques de couleur LUV, les histogrammes d'amplitude de gradient et de direction de gradient, et la relation puissance-exponentielle entre le rapport de caractéristiques et le rapport de taille entre les tailles adjacentes est utilisée pour approximer les caractéristiques multi-tailles de l'image pour construire une pyramide de caractéristiques.

基于学习的特征一般是神经网络的特征,如使用卷积神经网络提取的特征。卷积神经元每一个隐藏层的单元提取图像的局部特征,将其映射成一个平面,特征映射函数采用sigmoid函数作为卷积网络的激活函数,使得特征映射具有平移不变性。每个神经元与前一层的局部感受野相连。卷积神经网络通过局部感受野,共享权值和亚采样来保证图像对位移、缩放和扭曲的鲁棒性。

2.行人检测典型方法

目前用于行人检测的方法大致可以分为两类:手工设计模型和深度学习模型。手工设计模型使用人工设计的特征,如HOG,LBP等以及它们之间的组合,分类器一般采用SVM或增强学习等。深度学习模型使用卷积和池化操作从原始图像中提取卷积特征,并使用全连接层作为行人分类器。

手工设计模型又称为传统方法。VJ等[1]采用Adaboost和多尺度Haar小波过完备基结合的方式进行行人检测,并利用用积分图来完达到快速特征计算的目的。Dalal等[2]提出了HOG特征用于行人的特征描述,并通过实验证明HOG比基于灰度的特征更富有信息,同时利用线性SVM作为分类器。这种方法是速度和效果综合平衡性能较好的一种行人检测算法,后来很多种改进的算法都是以该算法作为基本框架。因此HOG+SVM作为一个里程碑式的算法被写入到OpenCV中。2007年,PedroFelzenszwalb等提出了DPM[14]的模型,其大体思路与HOG一致,首先计算梯度方向直方图,然后使用SVM训练得到物体的梯度模型。为了适应物体的运动和变形,加入子模型检测物体的子部件,这种方法取得了很好的检测效果,连续获得VOC 07,08,09年的检测冠军。Dollar等首次使用了融合多种通道的特征[12],采用局部和,梯度方向直方图和哈尔作为行人的特征描述子,并且借助于积分图来快速地计算,分类器采用AdaBoost。并且通过实验证明多种通道特征比单一HOG特征具有更好的性能。2014年Dollar等又提出快速构建特征金字塔的方法[13],使用了LUV颜色特征、梯度幅值和梯度方向直方图组成的聚合多通道特征,使用AdaBoost方法检测行人。这种方法在640×480的图片上达到每秒30帧的检测速度,基本接近实时检测。

深度学习模型模拟了人脑的视觉感知系统,从原始图片中直接提取特征,特征通过逐层传递,,获得图片的高维信息,使得其在计算机视觉领域取得了巨大的成功。随着深度神经网络日趋火热,深度学习模型也被大量的应用于行人检测中。Ouyang等[15]使用深度模型从图片中提取特征,通过网络学习人体子部件的可见性处理行人检测中的遮挡问题。Sermanet等[16]利用卷积稀疏编码非监督训练卷积神经网络,并将其应用于行人检测。Tian等[17]通过对行人的标注加入语义信息如背包,骑车等来训练网络,取得良好的效果。

[1] P. Viola, M. J. Jones, and D.Snow, “Detecting pedestrians using patterns of motion and appearance,” IJCV,vol. 63, no. 2, pp. 153–161, 2005.

[2]N. Dalal, and B. Triggs, “Histograms of oriented gradients for human detection,”in CVPR, 2005, pp. 886- 893.

[3]Q. Zhu, C. Yeh, and T. Cheng, “Fast human detection using a cascade of histogramsof oriented gradients,” in CVPR , 2006, pp. 1491- 1498.

[4]C. Wojek, and B. Schiele, “A performance evaluation of single and mult- ifeature people detection,” in DAGM, 2008.

[5]T. Ojala, M. Pietikainen, and D. Harwood, “A comparative study of texturemeasures with classification based on feature distributeons,” PatternRecognition, 1996, vol. 19, no. 3, pp. 51- 59.

[6]Y. Mu, S. Yan, and Y. Liu, “Discriminative local binary patterns for pedestriandetection in personal album,” in CVPR, 2008.

[7]X. Wang, X. Han, and S. Yan, “A HOG - LBP human detector with partial occlusionhandling,” in ICCV, 2009.

[8]S. Walk, N. Majer, and K. Schindler, “New features and insights for pedestriandetection,” in CVPR, 2010.

[9]J. Wu, and J. Rehg, “CENTRIST: A visual descriptor for scene categorization,” PAMI,vol. 33, no. 8, pp. 1489- 1501, 2011.

[10]J. Wu, C. Geyer, and J. Rehg, “Rea- l time human detection using contour cues,”in ICRA, 2011, pp. 860- 867.

[11]S. Walk, N. Majer, and K. Schindler, “New features and insights for pedestriandetection,” in CVPR, 2010.

[12]P. Dollar, Z. Tu, and P. Perona, “Integral channel features,” in BMVC, 2009, pp.1-11.

[13]P. Dollar, R. Appel, S. Belongie, and P. Perona, “Fast feature pyramids forobject detection,” PAMI, vol. 36, no. 8, pp. 1532–1545, 2014.

[14]P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan, ”Objectdetection with discriminatively trained part-based models,” PAMI, vol. 32, no.9, pp. 1627–1645, 2010.

[15]W. Ouyang and X. Wang, “A discriminative deep model for pedestrian detectionwith occlusion handling,” in CVPR, 2012, pp. 3258–3265.

[16]W. Ouyang and X. Wang, “A discriminative deep model for pedestrian detectionwith occlusion handling,” in CVPR, 2012, pp. 3258–3265.

[17] Y. Tian, P. Luo, X. Wang, and X. Tang,“Pedestrian detection aided by deep learning semantic tasks,” in CVPR, 2015,pp. 5079–5087.

Je suppose que tu aimes

Origine blog.csdn.net/kerwinJu/article/details/52787105
conseillé
Classement