Utilice yolov4-tiny para detectar 20 especies de aves en líneas de transmisión eléctrica y utilice trucos de entrenamiento de forma flexible. Los experimentos son relativamente completos y la riqueza del procesamiento de datos es digna de referencia.

Detección de especies de aves relacionadas con fallas en líneas de transmisión basado en red neuronal convolucional liviana

Abstracto

  • Prevenir eficientemente los daños causados ​​por aves en las líneas de transmisión es un desafío a largo plazo que enfrenta la operación y el mantenimiento de la red eléctrica. Este artículo propone un método que combina redes neuronales convolucionales (CNN) livianas, procesamiento de imágenes y detección de objetos para detectar aves típicas asociadas con fallas en las líneas de transmisión. Se construyó un conjunto de datos de imágenes de 20 especies de aves que amenazan la seguridad de las líneas de transmisión. Combinando entrenamiento por etapas, mejora de datos de mosaico, recocido de coseno y suavizado de etiquetas, se construyó y entrenó el modelo de algoritmo YOLOv4-tiny . Al ajustar los parámetros del proceso de entrenamiento, la precisión promedio (mAP) en el conjunto de prueba puede alcanzar el 92,04%. Luego, según los resultados de las pruebas y los indicadores de rendimiento, se verificó la efectividad del método propuesto comparándolo con Faster RCNN, SSD, YOLOv4 y otros métodos. Los escenarios reales de aplicaciones de ingeniería se simulan utilizando métodos de preprocesamiento de imágenes, como desenfoque de movimiento, desenfoque, ajuste de contraste y brillo. Este método puede detectar eficientemente aves posadas alrededor de líneas de transmisión, lo que ayuda a prevenir de manera diferencial cortes de energía causados ​​por aves en la red eléctrica.

  • 论文地址:Detección de especies de aves relacionadas con fallas en líneas de transmisión basada en una red neuronal convolucional liviana - Qiu - 2022 - Generación, transmisión y distribución de IET - Wiley Online Library

  • Escuela de Ingeniería de la Información, Universidad de Nanchang (ncu.edu.cn)

INTRODUCCIÓN

  • Con la construcción a gran escala de redes eléctricas y la mejora del entorno ecológico, la contradicción entre las actividades de las aves y las líneas de transmisión ha ido atrayendo gradualmente la atención de la gente. Las fallas de aves se han convertido en la tercera causa de cortes en las líneas de transmisión, después de los rayos y los daños externos. Según las estadísticas, de 2010 a 2019, se produjeron un total de 2.374 fallas relacionadas con la actividad de aves en las líneas de transmisión de 110 (66) kV y superiores de China State Grid Corporation de China, lo que representa el 10,4% del número total de fallas en las líneas de transmisión . Además, los apagones relacionados con las aves siguen aumentando.

  • Las principales fallas causadas por las aves incluyen el guano, la construcción de nidos, los cortocircuitos de las aves, los pájaros carpinteros en tierra, etc. A continuación se muestran algunos ejemplos típicos de perturbaciones relacionadas con las aves.

    • Insertar descripción de la imagen aquí

    • (a) Excrementos de pájaros en la superficie del aislador, (b) Nido de pájaro en el brazo transversal sobre el aislador, © Un pájaro grande recibe una descarga eléctrica y provoca un cortocircuito, (d) Un pájaro picotea el aislador compuesto

  • La falla por excrementos de aves se refiere al disparo de las líneas de transmisión causado por los canales conductores de los excrementos de aves; y los excrementos de aves adheridos que causan descargas eléctricas en la superficie del aislador. La rotura del nido y el cortocircuito de las aves son causados ​​por una descarga entre fases o entre fases y tierra, que se produce debido a la reducción de la distancia de aislamiento por el material del nido o el cuerpo del pájaro.

  • La falla por picoteo se refiere al daño del aislador o descarga eléctrica causada por el picoteo de pájaros en la carcasa o funda de los aisladores compuestos. Las aves que se posan alrededor de los corredores de transmisión plantean diversos grados de amenaza a la seguridad de las líneas de transmisión. Algunas aves utilizan las líneas de transmisión como su mejor lugar para alimentarse y se paran o construyen nidos en torres o líneas de transmisión, lo que puede provocar excrementos de aves o interrumpir la anidación. A algunas aves, como los gorriones, les gusta posarse en líneas eléctricas o torres, pero es menos probable que causen averías. Diferentes aves pueden causar distintos tipos de averías, y sus medidas de prevención no deben ser exactamente las mismas .

  • En respuesta al problema del mal funcionamiento de las aves, la gente ha realizado muchas investigaciones sobre dispositivos antipájaros, como agujas antipájaros, escudos antipájaros, cajas antipájaros, etc. Taklaja reduce el tiempo de permanencia de las aves mejorando la estructura del aislante para evitar las descargas eléctricas causadas por los excrementos de las aves. Yang analizó el radio de protección de los dispositivos antipájaros mediante el estudio del mecanismo de descarga eléctrica del aislador causado por el flujo de aves. Kuang propuso un esquema de diseño estructural razonable para deflectores de protección de aves y verificó su impacto en la distribución del campo eléctrico. La instalación de dispositivos a prueba de aves a gran escala requiere una gran inversión .

  • Sin embargo, según la experiencia y los resultados estadísticos del SGCC, los dispositivos de protección de aves evitaron algunas interrupciones relacionadas con las aves, pero el rendimiento no cumplió con las expectativas. Los materiales envejecidos, la instalación irregular y la adaptación de las aves a menudo provocan el fallo de los dispositivos antipájaros, lo que no puede resolver eficazmente el problema de los daños a las aves a largo plazo . Además, algunos dispositivos ahuyentan ciegamente a las aves e incluso dañan algunas aves raras y preciosas, como el abeto negro, el abeto blanco, etc., provocando efectos adversos en el medio ambiente ecológico . Por lo tanto, es necesario identificar las aves que habitan alrededor de las líneas de transmisión, determinar su nivel de riesgo y los tipos de fallas que pueden causar, para tomar medidas preventivas diferenciadas y eficientes que reduzcan las fallas causadas por aves y ahorren inversiones innecesarias.

  • En los últimos años, con el desarrollo de las redes neuronales convolucionales (CNN), la detección de objetivos se ha investigado y aplicado ampliamente y, en comparación con los métodos tradicionales, su efecto en el reconocimiento de objetivos ha mejorado significativamente. Los algoritmos de detección de objetivos comúnmente utilizados actualmente incluyen R-CNN, Faster R-CNN, SSD, YOLOv3, etc., que se han aplicado a la detección de equipos eléctricos, como defectos de aisladores y defectos de pines faltantes. Para la identificación y detección de aves, Tian propuso un marco de detección de mirada y mirada (GSD) para capturar aves voladoras en videos aéreos; este algoritmo utiliza un algoritmo de amplificación para generar sugerencias regionales y utiliza una red neuronal convolucional tridimensional para extraer adaptaciones. características espacio-temporales de profundidad. Sharma propuso un método de detección de gorriones indios basado en YOLOv3 y lo comparó con Tiny-YOLO, YOLOv2 y Mask-RCNN. Los resultados mostraron que YOLOv3 puede lograr una precisión de detección del 92%. Li propuso un método de detección de aves basado en superresolución (SR) e introdujo tres métodos, VDSR, FSRCNN y DRRN, en Faster RCNN para que la detección de aves mejore la precisión. Zou propuso un método para detectar la cantidad de aves alrededor de las líneas de transmisión basado en YOLOv3. Este método utiliza convolución extendida para reemplazar la capa de convolución original, calcula la puntuación de confianza a través del factor de escala y optimiza el algoritmo NMS. La precisión de detección alcanza el 86,31% . . En términos generales, las investigaciones previas sobre reconocimiento de aves suelen centrarse en el campo de la ecología de las aves, o como caso para verificar la efectividad de los algoritmos de reconocimiento de imágenes o detección de objetos . Se han realizado menos investigaciones sobre la identificación de aves dañinas que puedan representar riesgos para la seguridad de las redes eléctricas .

  • Por lo tanto, para resolver los problemas anteriores, este artículo presenta un método ligero de detección CNN para aves en líneas de transmisión. Se construyó un conjunto de datos de imágenes de 20 especies de aves típicas relacionadas con fallas en líneas de transmisión y se procesaron imágenes para simular escenarios de ingeniería reales. Combinando múltiples métodos de entrenamiento, se establece el modelo de detección liviano YOLOv4-tiny para aprender las características de las imágenes de aves. Con base en los indicadores de evaluación del desempeño, los resultados de la detección de aves se comparan con otros algoritmos de detección de objetivos. El método permite la detección diferencial de 20 especies de aves típicas asociadas con cortes de líneas de transmisión. La precisión promedio (mAP) y los fotogramas por segundo (FPS) alcanzaron el 92,04% y 40 respectivamente . Puede usarse para identificar aves alrededor de líneas de transmisión, proporcionando una referencia para la instalación de dispositivos antipájaros, reduciendo así los cortes de energía relacionados con las aves.

PROCESAMIENTO DE IMÁGENES

Conjunto de datos de imágenes de aves relacionadas con líneas de transmisión

  • Las especies de aves asociadas con fallas en las líneas de transmisión varían según la geografía y las condiciones climáticas. Según encuestas y estadísticas de la Comisión Estatal de Red, 40 especies de aves que pueden causar fallas en las líneas de transmisión son aves de alto riesgo y 50 especies son aves de bajo riesgo. Este artículo seleccionó 20 especies de aves típicas para la investigación y estableció un conjunto de datos de imágenes, incluido el zorro volador negro, Sturnus nigricollis de cola negra, Sturnus sericeus de cola de seda, cristatellus, Picapica, zorro volador blanco, Asio otus, Streptopelia chinensis china, Cuculus canorus. , Otis tarda, Ceryle rudis, Upupa epops, Anser cygnoides, Hirundo rustica, Oriolus chinensis, Corvus macrohynchos, Alcedo atthis, Egretta garzetta, Ardeola bacchus, Garrulax canorus. Entre ellos, las impaciencias negras y las impaciencias son animales protegidos de primer nivel en China y también son aves de alto riesgo que amenazan las líneas de transmisión aéreas. A continuación se muestran algunas imágenes de aves de muestra del conjunto de datos anterior.

    • Insertar descripción de la imagen aquí

    • Imágenes típicas de aves asociadas con cintas transportadoras (a) zorro volador negro, (b) zorro volador negro, © zorro volador amarillo, (d) cristatellus, (e) Picapica, (f) zorro volador blanco, (g) canorus, (h ) Hirundo rustica, (i) Alcedo atthis, (j) Egretta garzetta

  • En proyectos reales, no es fácil recopilar imágenes de aves en líneas de transmisión. Para mejorar la solidez del modelo de detección de aves, es necesario agregar más muestras de imágenes al conjunto de datos. por lo tanto, nosotrosrecopilado de internetAlgunas imágenes, incluidas diferentes intensidades de iluminación, fondos, ángulos de disparo y tamaños de objetos. Cada especie de ave contiene 400 imágenes, para un total de 8000 muestras de imágenes. El modelo entrenado de esta manera tiene una mejor adaptabilidad a diferentes escenarios. Luego, use la herramienta de etiquetado MRLabel para etiquetar las imágenes de aves con rectángulos, incluida la categoría y la ubicación. La información de posición está contenida en las coordenadas (xmin, xmax, ymin, ymax) del cuadro rectangular alrededor del objetivo del pájaro .

Preprocesamiento de imágenes de aves

  • Las imágenes adquiridas bajo objetivos dinámicos suelen tener grandes cambios de luz, ángulo y fondo, lo que afecta directamente la precisión de detección del modelo. Este documento procesa imágenes de aves y simula los factores que pueden afectar la precisión de la detección en aplicaciones de ingeniería reales, incluido el desenfoque de movimiento de la imagen, el desenfoque, el ajuste de contraste y brillo .

Desenfoque de movimiento

  • Durante el proceso de disparo, la cámara se mueve con respecto al objetivo, lo que hace que la imagen se vea borrosa. Sin embargo, la esencia del desenfoque de la imagen es el resultado de la convolución con la función de dispersión de puntos (PSF), es decir,

    • g ( x , y ) = f ( x , y ) ∗ b ( x , y ) + n ( x , y ) g(x,y)=f(x,y)*b(x,y)+n( x,y)gramo ( x ,y )=f ( x ,y )b ( x ,y )+norte ( x ,y )

    • Entre ellos, f (x, y) y g (x, y) representan la imagen de entrada respectivamente. Después del desenfoque de movimiento, h (x, y) es la función de desenfoque PSF que convoluciona la imagen original, y n (x, y) es la función de ruido añadido. Por lo tanto, una imagen desenfocada por movimiento es el resultado de convolucionar una imagen nítida con una función de desenfoque de movimiento . La forma general de la función de desenfoque de movimiento se puede expresar como

    • b ( x , y ) = 1 L six 2 + y 2 ≤ L 2 yxy = − tan ( ϕ ) b(x,y)=\frac1Lif\sqrt{x^2+y^2}\leq \frac L2and\ frac xy=-tan(\phi)b ( x ,y )=l1si _X2+y2 2Ly dyx=t un ( ϕ )

    • donde L y φ son la longitud y dirección del desenfoque de movimiento.

Desenfoque de desenfoque

  • Debido a la vibración de los equipos de recolección de imágenes, como los drones, es posible que los objetivos de las aves no se enfoquen con precisión, lo que resulta en imágenes desenfocadas . Similar al desenfoque de movimiento de la imagen, el desenfoque desenfocado es la función de una imagen clara y desenfocada br ( x , y ) b_r (x, y)br( x ,y ) el resultado de la convolución. La expresión matemática del desenfoque es

    • br ( x , y ) = 1 π r 2 x 2 + y 2 ≤ r otro 0 b_r(x,y)=\frac{1}{\pi r^2}\sqrt{x^2+y^2} \leq r~~otro ~~0br( x ,y )=π r21X2+y2 r o t h 0 _    

    • donde r es el radio del desenfoque.

  • La solidez del modelo de detección en aplicaciones de ingeniería se verifica mediante el movimiento y el desenfoque de imágenes borrosas. La longitud (L) del desenfoque de movimiento se establece en 10 píxeles y la dirección (φ) w es 15◦. El radio de desenfoque r se establece en 5 píxeles. Tomando Black Bass como ejemplo, la imagen después del desenfoque de movimiento y el desenfoque se muestra en la siguiente figura.

    • Insertar descripción de la imagen aquí

    • Imágenes de aves después del desenfoque de movimiento y desenfoque (a) imagen original, (b) área seleccionada, © imagen después del desenfoque de movimiento, (d) imagen después del desenfoque (¿Hay algún cambio obvio en bcd?)

Ajuste de contraste y brillo.

  • Las imágenes tomadas en diferentes momentos y condiciones climáticas darán como resultado diferentes intensidades de iluminación del objetivo y del fondo. La transformación lineal se utiliza para ajustar el contraste y el brillo de las imágenes de aves para simular su impacto en la precisión de la detección, que se puede expresar como

    • gn ( x , y ) = α f ( x , y ) + β f 0 + γ g_n(x,y)=\alpha f(x,y)+\beta f_0+\gammagramonorte( x ,y )=α f ( x ,y )+β f0+C

    • donde f(x, y) y gn(x, y) son la imagen original y la imagen ajustada, f0 es una imagen de cero píxeles con el mismo tamaño que f(x, y), α y γ se utilizan para ajustar el contraste y brillo, β es un múltiplo de la imagen de cero píxeles, β = 1-α.

  • Según [Método de detección y evaluación de defectos en líneas de transmisión basado en aprendizaje profundo] α se establece en 0,4, 0,6, 0,8, 1,0, 1,2, 1,4 y γ se establece en −20, −10, 0, 20, 40. Según la imagen original γ = 0 o α = 1, la imagen con γ < 0 o α < 1 se simula como tiempo nublado o condiciones de iluminación de la tarde; la imagen con γ > 0 o α > 1 se simula como un día soleado o temprano condiciones de iluminación de la mañana. Tomando la imagen de Ciconia nigra como ejemplo, bajo los dos valores extremos de α y γ, la imagen después del ajuste de contraste y brillo se muestra en la siguiente figura.

    • Insertar descripción de la imagen aquí

    • Imagen de pájaro después del ajuste de contraste y brillo (a) α = 1,0, γ = 0, (b) α = 1,4, γ = 40, © α = 0,4, γ = - 20

MÉTODO DE DETECCIÓN DE AVES RELACIONADO CON LA LÍNEA DE TRANSMISIÓN

Principio básico del algoritmo YOLOv4-tiny

  • La estructura básica del modelo de detección de objetivos es una CNN, que es una red de aprendizaje profundo basada en operaciones convolucionales y consta principalmente de una capa convolucional, una capa de agrupación, una capa completamente conectada y una capa de salida. La capa convolucional extrae las características de la imagen de entrada a través del núcleo de convolución, y las últimas capas convolucionales pueden extraer las características más significativas de la imagen, es decir, las características semánticas. La capa de agrupación utiliza la función de agrupación para reducir la muestra del mapa de características extraído por la capa convolucional.

  • Las operaciones de agrupación de uso común incluyen la agrupación máxima y la agrupación promedio, que pueden reducir la dimensión de la característica, reduciendo así la cantidad de parámetros y la cantidad de cálculo, y evitando el sobreajuste. Las funciones de activación se utilizan para agregar no linealidad entre la entrada y la salida. La capa completamente conectada resume las características extraídas e ingresa la capa softmax para su clasificación, que generará la ubicación y categoría del objetivo .

  • Los algoritmos de detección de objetivos de uso común basados ​​en CNN profunda se pueden dividir en marcos de dos etapas, como Faster RCNN, y marcos de una etapa, como SSD y YOLO. Entre estos algoritmos, YOLOv4 es el modelo de detección de objetivos propuesto recientemente con la mejor precisión. Sin embargo, la aplicación de YOLOv4 tiene altos requisitos de recursos informáticos. Para que el modelo de detección de objetivos sea liviano, se introduce el algoritmo YOLOv4-tiny para detectar especies de aves, lo que reduce en gran medida la cantidad de cálculo y permite una detección más rápida en comparación con el modelo YOLOv4 original .

  • La siguiente figura es un diagrama esquemático del método de detección de aves basado en el algoritmo YOLOv4-tiny. El proceso de detección incluye principalmente la construcción de conjuntos de datos de imágenes, el preprocesamiento de imágenes, el entrenamiento de modelos diminutos YOLOv4 y la detección de imágenes de aves . Entre ellos, la parte más crítica es la construcción y entrenamiento del modelo en miniatura yolov4.

    • Insertar descripción de la imagen aquí
  • YOLOv4-tiny es un modelo de detección de objetivos liviano basado en YOLOv4, que simplifica la estructura de la red y reduce los parámetros, lo que la hace más adecuada para la implementación real de equipos de detección inteligentes en la red eléctrica. La siguiente figura es un diagrama comparativo de la estructura de red del modelo YOLOv4-tiny y YOLOv4. Su estructura se puede dividir en tres partes: columna vertebral (CSPDarkNet53-tiny), cuello (FPN) y cabeza (YOLO-head).

    • Insertar descripción de la imagen aquí

    • Comparación de la estructura de red entre el modelo YOLOv4-tiny y el modelo YOLOv4 (a) estructura YOLOv4, (b) estructura YOLOv4-tiny

  • El principio de detección se puede resumir de la siguiente manera: (i) Extraer una serie de mapas de características de diferentes tamaños de la imagen de entrada a través de la pequeña red de extracción de características CSPDarkNet53; usar la red FPN para fusionar características de diferentes escalas; (iii) De acuerdo con Mapa de características fusionadas de diferentes escalas (13 × 13 y 26 × 26), utilizando YOLO-head para predecir la categoría y ubicación de los objetivos de aves.

Estructura de red

  • En el modelo YOLOv4, el módulo residual X del módulo SPP, el módulo PANet y el módulo CSP es el factor clave que conduce al aumento de los parámetros del modelo. Para lograr una detección más rápida, como se muestra en la figura anterior, el modelo YOLOv4-tiny cambia muchas estructuras. Las modificaciones a la estructura de la red se resumen a continuación:

    • Primero, para CSPDarkNet53 de YOLOv4, YOLOv4-tiny reduce la cantidad de módulos CSP, simplifica el módulo residual X en un único módulo residual y utiliza CBL (Conv, BN, Leaky_ReLU) y capas de agrupación múltiple para lograr la compresión de los canales de funciones, de modo que reduciendo la cantidad de parámetros en la red de extracción de características. La columna vertebral CSPDarkNet53-tiny cambia del módulo CBM al módulo CBL cambiando la función de activación Mish a la función de activación Leaky_ReLU . El principio de cálculo de la función de activación Leaky_ReLU se puede expresar como

    • L eaky R e LU = xp si xp > 0 otro wxp Leaky_ReLU=x_p~~if~x_p>0 ~~ otro~wx_pfugas _ _ _rlu_ _=Xp  si x _ p>0 otro w x _ _ _   p

    • Entre ellos, xp representa la salida de la capa anterior y ω es la pendiente de la curva correspondiente cuando xp ≤ 0. Este artículo se establece en 0,1.

    • El modelo YOLOv4-tiny también reduce la cantidad de unidades residuales en el módulo de red CSP. En YOLOv4, hay X pequeños módulos residuales en cada módulo CSP. Cada pequeño módulo residual toma la salida de la capa anterior como entrada y luego empalma los canales y características a través del módulo CBM . Finalmente, el enrutamiento residual grande del CSP está conectado con la salida del módulo residual pequeño, que es una conexión parcial entre etapas (CSP). Sin embargo, en YOLOv4-tiny, el módulo CSP solo tiene un pequeño módulo residual.

    • En segundo lugar, para SPP y PANet de YOLOv4, YOLOv4-tiny elimina la red SPP, simplifica los módulos CBL antes y después de la red SPP en uno y usa la red FPN para reemplazar PANet, lo que puede reducir la cantidad de parámetros al fusionar profundo y superficial. características.

    • El cuello de YOLOv4 contiene un módulo SPP y un módulo PANet. El principio del módulo SPP es conectar canales a través de una capa de agrupación máxima con filtros 5 × 5, 9 × 9, 13 × 13 y 1 × 1. El módulo PANet es un módulo de fusión de funciones basado en FPN, como se muestra en la siguiente figura. Se puede encontrar que el principio de los módulos PANet y FPN es la fusión de características entre capas profundas y superficiales. FPN es la fusión de información de características profundas sobremuestreada e información de características superficiales. Además de dicho proceso, PANet también tiene una fusión de características de información de características superficiales muestreada hacia abajo e información de características profunda. Su propósito es mejorar la información de características extraída .

    • Insertar descripción de la imagen aquí

    • Comparación de la estructura de FPN y PANet.

    • Además, YOLOv4-tiny simplifica tres características de escala (52 × 52, 26 × 26, 13 × 13) en dos características de escala (26 × 26, 13 × 13), reduciendo así la cantidad de cálculos causados ​​por la extracción de características. Después de pasar por el módulo FPN, se pueden obtener mapas de características de diferentes escalas. Luego, los mapas de características fusionados se reconstruyen en 13 × 13 × 75 y 26 × 26 × 75. El diagrama de detección de múltiples escalas se muestra en la siguiente figura. Para un mapa de características a escala, como 13 × 13, se utilizarán tres puntos de anclaje para la detección y cada punto de anclaje se predecirá utilizando 25 parámetros, incluidos 4 parámetros de coordenadas del cuadro delimitador predicho y 1 confianza del cuadro delimitador predicho. Puntuación de grado y 20 parámetros de puntuación de probabilidad para cada categoría .

    • Insertar descripción de la imagen aquí

    • Diagrama esquemático de detección multiescala

Método de entrenamiento

  • Para mejorar la precisión y la capacidad de generalización del modelo, se introducen métodos como el entrenamiento por etapas, la mejora de datos en mosaico, el recocido de coseno y el suavizado de etiquetas para entrenar el modelo.

Entrenamiento por etapas

  • Al entrenar el modelo, el efecto de migrar los parámetros del modelo previamente entrenado para el aprendizaje es mejor que inicializar los parámetros aleatoriamente, y congelar y ajustar razonablemente los parámetros no solo mejora la eficiencia del entrenamiento, sino que también evita el entrenamiento excesivo debido a el pequeño set de entrenamiento . Los dos pasos siguientes se utilizan para el entrenamiento por etapas: (i) Cargue los pesos de entrenamiento de YOLOv4-tiny en el conjunto de datos Pascal VOC, congele las primeras 249 capas y entrene solo los parámetros de la capa completamente conectada. (ii) En la primera etapa del entrenamiento, los parámetros de la capa seleccionada se congelan mediante la operación de congelación y los parámetros de otras capas se entrenan con una tasa de aprendizaje mayor. En la segunda etapa, las capas previamente congeladas se descongelan y el modelo se entrena con una tasa de aprendizaje menor. Durante el proceso de capacitación, se utiliza una estrategia de tasa de aprendizaje dinámica para ajustar los parámetros de cada capa .

Aumento de datos en mosaico

  • La mejora de datos tradicional incluye transformación óptica y transformación geométrica. La mejora de datos de mosaico es un método mejorado basado en CutMix . La implementación de este método consiste en leer aleatoriamente cuatro imágenes y unirlas en una sola imagen después de la mejora de imagen tradicional. El propósito es enriquecer el fondo de la imagen y al mismo tiempo mejorar la precisión del modelo.pequeñas metasrendimiento de detección . El efecto de la mejora de los datos del mosaico se muestra en la siguiente figura.

    • Insertar descripción de la imagen aquí

    • Diagrama esquemático de mejora del mosaico

recocido coseno

  • Para evitar que el modelo caiga en un mínimo local durante el proceso de capacitación, es necesario establecer una estrategia de ajuste de la tasa de aprendizaje, y el recocido de coseno es una de ellas . La tasa de aprendizaje se puede reducir mediante la función de recocido del coseno, expresada como

    • η t = η mini + 1 2 ( η maxi − η mini ) [ 1 + cos ( T cur TI π ) ] \eta_t=\eta^i_{min}+\frac12(\eta^i_{max}-\eta ^i_{min})[1+cos(\frac{T_{cur}}{T_I}\pi)]elt=elmín.yo+21( hmáximo _yoelmín.yo) [ 1+porque (tyotc u rpag )]

    • Entre ellos, ηmaxi η^i_{max}elmáximo _yoSuma η mini η^i_{min}elmín.yoson los valores máximo y mínimo de la tasa de aprendizaje respectivamente, T cur T_{cur}tc u ry Ti son el número actual de iteraciones y el número total de iteraciones de una época, respectivamente. Este modo de descenso se puede combinar con la tasa de aprendizaje para lograr mejores resultados en un método computacional muy eficiente.

Suavizado de etiquetas

  • Para clasificaciones múltiples, las etiquetas generalmente usan codificación one-hot. Por ejemplo, en una tarea de clasificación de tres clases, si una etiqueta es la segunda categoría, la codificación one-hot es [0,1,0]. Sin embargo, esto hará que el modelo preste más atención al valor de probabilidad cercano a 1 en el resultado de la predicción softmax, lo que fácilmente conducirá a un sobreajuste. Para abordar este problema, se introduce el suavizado de etiquetas para suavizar las etiquetas de clasificación, expresado como

    • y KLS = y K ( 1 − ε ) + ε / K y^{LS}_K=y_K(1-ε)+ε/KykL S=yk( 1mi )+mi / k

    • 式中,y KLS y^{LS}_ KykL Ses la etiqueta después del suavizado de etiquetas, y K y_Kykes una etiqueta de punto de acceso, K es el número de categorías y ε es el valor del suavizado de etiquetas, que se establece en 0,01 en este artículo. Luego reemplace la etiqueta de codificación one-hot original con y KLS y^{LS}_ KykL SRealizar entrenamiento modelo.

IMPLEMENTACIÓN Y ANÁLISIS

Indicadores de evaluación

  • En el campo de la detección de objetivos, la precisión promedio (mAP) y los fotogramas por segundo (FPS) se utilizan comúnmente como indicadores para evaluar la precisión y la velocidad de la detección. Además, este artículo también presenta la tasa media de errores (mMR) utilizada en la detección de peatones para reflejar los resultados de detección faltantes del modelo . El rendimiento del modelo entrenado se juzga a través de los tres indicadores anteriores.

Precisión media media

  • mAP representa el promedio de los valores de precisión promedio (AP) en todas las categorías. AP es el área bajo las curvas de precisión y recuperación, que se puede calcular como

    • precisión = TPTP + FP , recordar = TPTP + FN precisión =\frac{TP}{TP+FP},recordar=\frac{TP}{TP+FN}precisión _ _ _ _ _ _=TP+FPTP,rec todo _=TP+FNTP

    • Entre ellos, TP es el número de detecciones correctas, TP+FP es el número total de objetivos detectados por el modelo y TP+FN es el número total de objetivos realmente detectados.

  • Tomando los 11 niveles de tasa de recuperación de 0, 0,1, ..., 0,9 y 1,0 como abscisa, y tomando la tasa de recuperación máxima en cada nivel de recuperación como ordenada, se forma una curva de tasa de recuperación-tasa de recuperación. El área debajo es el valor AP . Suponiendo que K es el número total de categorías, entonces mAP se puede calcular mediante la siguiente fórmula

    • m AP = 1 K ∑ i = 1 KAP i mAP=\frac1K\sum^K_{i=1}AP_im A P=k1yo = 1kap _yo

Fotograma por segundo

  • FPS es el número total de imágenes detectadas en un segundo, lo que refleja la velocidad de detección del modelo. La mayor velocidad de detección puede satisfacer las necesidades de detección en tiempo real en aplicaciones de ingeniería. El valor de FPS se ve muy afectado por el rendimiento del dispositivo informático, por lo que sólo se utiliza para análisis comparativos entre diferentes modelos.

Tasa media de fallos

  • El mMR es el promedio de las tasas de fallos (MR) medias logarítmicas en todas las categorías. La fórmula de cálculo para cada categoría de MR es:

    • MR = e ( ln ( x 1 ) + . . . + ln ( xi ) + . . . + ln ( x M ) ) / M MR=e^{(ln(x_1)+...+ln(x_i) +...+ln(x_M))/M}SEÑOR=mi( l norte ( x1) + ... + l norte ( xyo) + ... + l norte ( xm)) / M

    • En la fórmula, M es el número total de imágenes de un determinado tipo detectadas por el modelo de detección; cuanto menor sea el valor de mMR, menos resultados de detección se perderán.

Proceso de optimización y entrenamiento del modelo.

  • Después de construir el modelo de algoritmo YOLOv4-tiny, entrénelo y pruébelo de acuerdo con el diagrama de flujo que se muestra en la siguiente figura. El entorno de configuración incluye: Nvidia GeForce GTX1660Super, memoria 16G, cuda10 y cudn7.4.1.5. Sin embargo, hay muchos factores que afectan la precisión de la detección del modelo en este proceso y los parámetros del modelo deben optimizarse. La descripción específica es la siguiente.

    • Insertar descripción de la imagen aquí

Agrupación de anclas

  • Es difícil mejorar la precisión del método tradicional de selección de puntos de anclaje, por lo que este artículo adopta el método de cálculo de puntos de anclaje en YOLOv2 y utiliza el algoritmo de agrupación de K-means para agrupar los cuadros delimitadores reales etiquetados manualmente en el conjunto de entrenamiento para obtener el óptimo. Tamaño del punto de anclaje . Luego, se seleccionan 6 puntos de anclaje para predecir el cuadro delimitador en función del IoU promedio para mejorar la precisión de la detección. La fórmula de la función de distancia de la agrupación es

    • d ( caja , centroide ) = 1 − I o U ( caja , centroide ) d(caja,centroide)=1-IoU(caja,centroide)d ( caja , _ _centro id ) _ _ _ _=1Yo o U ( caja , _ _centro id ) _ _ _ _

    • En la fórmula, el cuadro representa el cuadro delimitador marcado en la muestra de entrenamiento y el centroide representa el número de centros del grupo, que aquí se establece en 9. Los tamaños de anclaje en este artículo son [10 14, 23 27, 37 58, 81 82, 135 169, 344 319].

Comparación de métodos de entrenamiento.

  • Las tres técnicas de entrenamiento anteriores, incluido el aumento de datos en mosaico, el recocido de coseno y el suavizado de etiquetas, se comparan para mejorar el rendimiento de la red. Utilizando el tamaño de anclaje anterior, establezca la proporción entre el conjunto de muestras de entrenamiento y el conjunto de muestras de prueba en 9: 1. Los resultados de la comparación se muestran en la siguiente tabla. Se puede ver que la combinación de los tres métodos de entrenamiento tiene el mejor efecto mAP.

    • Insertar descripción de la imagen aquí

    • Comparación de diferentes métodos de entrenamiento.

Selección del umbral NMS

  • La supresión no máxima (NMS) es un proceso de posprocesamiento necesario en el campo de la detección de objetivos, cuyo objetivo es eliminar cuadros de predicción redundantes en el mismo objetivo . La selección de umbrales de gestión de red afecta directamente la precisión de la detección de la red. Cuando los tres métodos de entrenamiento anteriores se utilizan al mismo tiempo, la curva de influencia del umbral NMS en mAP se muestra en la siguiente figura. Cuando el umbral de gestión de red es 0,4, el número de detecciones exitosas es 8 veces menor que la condición de 0,5, el número de errores de detección es 133 veces menor que la condición de 0,5 y el número de no detecciones es 8 veces mayor que la condición de 0,5. Después de un análisis exhaustivo, este artículo elige que el umbral NMS sea 0,4.

    • Insertar descripción de la imagen aquí

    • Influencia del valor umbral de NMS en mAP

Muestras de entrenamiento y prueba.

  • Se comparó y analizó el impacto de diferentes proporciones de muestras de entrenamiento y muestras de prueba en los resultados de detección. Entre las muestras de entrenamiento, se toma el 10% como conjunto de verificación y el modelo se verifica después de cada época de entrenamiento. Las figuras a y b anteriores muestran respectivamente los detalles de distribución de los conjuntos de muestras de entrenamiento, validación y prueba, así como el impacto de diferentes proporciones de muestra en los valores de mAP y mMR. Cuando la proporción es 9:1, el modelo tiene el mAP más alto y el mMR más bajo, lo que corresponde a una mejor precisión y una menor tasa de desvío del objetivo.

    • Insertar descripción de la imagen aquí

    • Distribución de la muestra y su impacto en los indicadores de desempeño del modelo (a) distribución de la muestra, (b) curva de impacto

Comparaciones con otros métodos de detección.

  • Después de analizar el proceso de capacitación, los parámetros finales utilizados para la capacitación y las pruebas del modelo se muestran en la siguiente tabla. Para verificar la efectividad del modelo YOLOv4tiny propuesto, se construyeron varios algoritmos de detección de objetivos convencionales para el análisis comparativo, incluidos Faster RCNN, SSD, YOLOv3, SSD-mobilenet y YOLOv4. Se realiza un estudio de caso utilizando los mismos conjuntos de datos de prueba y entrenamiento para evaluar los méritos de diferentes algoritmos comparando los resultados de las métricas de rendimiento.

    • Insertar descripción de la imagen aquí

    • Parámetros del modelo YOLOv4-diminuto

  • Primero, contamos el número de detecciones exitosas, el número de detecciones fallidas y el número de detecciones falsas a partir de los resultados de las detecciones para un análisis comparativo. Los resultados se muestran en la siguiente tabla. El número total de imágenes de muestra de prueba es 800, que contienen 1134 objetos de aves. Como se puede ver en la siguiente tabla, YOLOv4, YOLOv4-tiny y SSD son mejores que otros métodos en términos de la cantidad de detecciones exitosas y la cantidad de detecciones fallidas. El modelo de correlación YOLO supera a otros modelos en el número de detecciones falsas.

    • Insertar descripción de la imagen aquí

    • Resultados de pruebas de diferentes métodos.

  • Utilizando el cuadro delimitador previsto y la información de categoría de los resultados de la detección, combinados con el cuadro delimitador real y la información de categoría, calcule y compare los indicadores de rendimiento mAP y mMR de los métodos de detección de objetivos anteriores, como se muestra en la siguiente tabla. top -5 es el valor mAP de los 5 primeros ap entre 20 especies de aves. T1 y T2 representan respectivamente el tiempo para cargar el modelo de detección de objetivos y el tiempo total para detectar 800 imágenes de muestra de prueba. Se puede ver que YOLOv4 tiene el mejor mapa, pero su FPS es menor que el de otros métodos de detección. El mapa de YOLOv4-tiny para la detección de aves puede alcanzar el 92,04%, que es solo un 0,16% menor que YOLOv4 y mayor que otros métodos de detección. Además, YOLOv4-tiny tiene el FPS más alto, casi tres veces el de YOLOv4. Entre estos algoritmos de detección de objetivos, su tiempo de cálculo es el más corto, T1 = 2,27 s, T2 = 19,85 s.

    • Insertar descripción de la imagen aquí

    • Indicadores de rendimiento de diferentes métodos de detección de objetivos.

  • Las aplicaciones prácticas de ingeniería generalmente requieren una alta detección en tiempo real. El método de detección liviano YOLOv4-tiny sacrifica un poco de precisión para lograr una velocidad de detección muy mejorada, lo que puede reducir los requisitos de rendimiento del equipo de detección en la implementación real . Para mejorar aún más mAP, se pueden adoptar algunos métodos posibles. Mediante la mejora de datos y el preprocesamiento de imágenes, se puede mejorar la cantidad y calidad de las muestras de imágenes. Utilizando CNN con capacidades de extracción de características más sólidas, detección de múltiples escalas y mecanismos de atención, se puede mejorar la estructura del modelo de detección de objetivos. Además, mAP también se puede mejorar adoptando más técnicas de entrenamiento, como el entrenamiento de autoadversidad (SAT) y la normalización cruzada de mini lotes (CmBN) .

Verificación de robustez

  • En entornos reales, las imágenes de aves recogidas por drones, videovigilancia o cámaras suelen tener trasfondos complejos y diversos. Los principales factores que afectan la precisión de la detección incluyen el tiempo, el clima, las sacudidas del equipo de adquisición de imágenes y el movimiento de los objetivos de las aves. Por lo tanto, se introducen algunos métodos de preprocesamiento de imágenes para simular el entorno de ingeniería real y las imágenes de aves procesadas se utilizan para verificar la capacidad de generalización y la solidez de los métodos de detección de aves anteriores .

Resultados de la detección de imágenes borrosas.

  • Las aves en la línea de transmisión son objetivos en movimiento y las imágenes recopiladas pueden sufrir desenfoque de movimiento y desenfoque. Por lo tanto, las imágenes desenfocadas por movimiento y desenfocadas se utilizan como muestras de prueba para verificar la efectividad del modelo YOLOv4-tiny entrenado. Tomando como ejemplo la imagen de 4 fénix blancos parados en la torre de transmisión y construyendo un nido, los resultados de detección de objetivos de los 6 métodos anteriores se muestran en la siguiente figura. Se puede ver que el método YOLO es más efectivo que ssd y Faster RCNN para detectar múltiples aves, especialmente cuando los objetivos se superponen. Para imágenes desenfocadas por movimiento y desenfocadas, YOLOv4-tiny aún puede detectar con precisión cuatro objetivos, mientras que otros métodos tienen errores de detección y detecciones perdidas. Los resultados muestran que en aplicaciones prácticas, el modelo YOLOv4-tiny propuesto es factible y supera a otros métodos en la detección de desenfoque de movimiento y desenfoque de imágenes de aves borrosas.

    • Insertar descripción de la imagen aquí

    • Resultados de detección de imágenes borrosas utilizando diferentes métodos.

Resultados de detección bajo diferentes contrastes y brillos.

  • Los métodos de ajuste de contraste y brillo se utilizan para simular una iluminación desigual causada por factores como el tiempo y el clima durante el proceso de detección, y verificar la solidez del modelo de detección ante cambios en la intensidad de la luz.

  • En la ecuación (4), cuando α y γ son 0,4 y - 20 respectivamente, la imagen del pájaro es muy oscura; cuando α y γ son 1,4 y 40 respectivamente, la imagen del pájaro es muy brillante. Bajo las dos condiciones de iluminación anteriores, tomando como ejemplo una imagen que contiene tres cristatelos, los resultados de detección del modelo YOLOv4-tiny y otros métodos se comparan como se muestra en la siguiente figura.

    • Insertar descripción de la imagen aquí

    • Resultados de detección de imágenes con diferentes contrastes y brillos

  • Se descubrió que los cambios en el contraste y el brillo pueden provocar detecciones falsas y detecciones perdidas por parte de YOLOv4, YOLOv3, SSD y Faster RCNN, mientras que YOLOv4-tiny puede detectar con precisión tres objetivos de aves en diferentes entornos de iluminación. Además, se utilizó el modelo YOLOv4-tiny para detectar imágenes con diferentes valores α y γ. Los resultados de mAP de las muestras de prueba se muestran en la Tabla 5. Cuando α = 0,4 y γ = −20, es decir, en condiciones extremadamente oscuras, el mAP del modelo es el más bajo, 84,41%. Cuando α = 1,0 y γ = 0, mAP es el más alto, alcanzando el 92,04%. Se puede ver que el modelo YOLOv4-tiny tiene una alta precisión de detección para imágenes de aves adquiridas en diferentes momentos y condiciones climáticas, y tiene mejores resultados de detección en comparación con otros métodos, con menores tasas de detección fallida y menores tasas de detección falsa .

Resultados de la detección de imágenes de aves parcialmente cubiertas por otros objetos.

  • Los objetivos de aves en las muestras de imágenes pueden estar cubiertos por componentes de líneas de transmisión o material de nido. Los resultados de la detección de cuatro imágenes de objetivos de aves parcialmente cubiertas se muestran en la siguiente figura. Como se puede ver en las figuras a, byc a continuación, el micromodelo yolov4 propuesto puede detectar e identificar correctamente los puntos negros, Picapica y Cuculus canorus que están parcialmente cubiertos por el acero del ángulo de la torre de transmisión. Además, 5 perros bosnios que se muestran en la Figura d a continuación fueron detectados con precisión, mientras que 4 objetivos estaban severamente cubiertos por nidos, con solo sus cabezas expuestas. Estos resultados verifican aún más la efectividad del método propuesto. Sin embargo, cabe señalar que cuando el objetivo del pájaro está oculto y no tiene suficientes características de imagen, el modelo generará resultados de detección incorrectos o omitidos .

    • Insertar descripción de la imagen aquí

    • Resultados de detección de imágenes con aves objetivo cubiertas por componentes de la torre de transmisión o los nidos (a) Sturnus nigricollis, ( b ) Picapica, © Cuculus canorus, ( d ) Ciconia boyciana

  • En términos de aplicaciones prácticas de ingeniería, el modelo YOLOv4-tiny se utilizará para desarrollar aplicaciones móviles y se implementará en el sistema de análisis de big data de la línea de transmisión . En escenarios de aplicación reales, los inspectores de líneas de transmisión pueden cargar las imágenes recopiladas en la aplicación, y la aplicación mostrará los resultados del reconocimiento de aves y proporcionará posibles tipos de fallas, niveles de riesgo y medidas preventivas. Las imágenes de aves cargadas en la aplicación también se pueden transmitir al sistema de análisis de big data de backend, aumentando así el conjunto de muestras de imágenes y mejorando aún más el efecto de entrenamiento del modelo CNN liviano propuesto. Por lo tanto, la implementación de este algoritmo será beneficiosa para prevenir fallas por aves en las líneas de transmisión.

CONCLUSIONES

  • Este artículo propone un método para detectar aves relacionadas con fallas en líneas de transmisión basado en la red neuronal convolucional liviana (CNN) YOLOv4-tiny, y verifica la efectividad de este método mediante la realización de estudios de detección en 20 especies de aves que pueden amenazar la seguridad de la transmisión. líneas sexo. Se pueden sacar las siguientes conclusiones:

    • El modelo de detección de objetivos pequeños yolov4 logra los mejores resultados después del entrenamiento utilizando métodos como entrenamiento por etapas, mejora de datos en mosaico, recocido de coseno y suavizado de etiquetas. Al ajustar el tamaño del punto de anclaje, el umbral NMS y la proporción de muestra, se puede obtener el modelo de detección óptimo.

    • En comparación con los algoritmos Faster RCNN, SSD, YOLOv3 y YOLOv4, el modelo YOLOv4-tiny tiene menos detecciones falsas y detecciones perdidas. En términos de indicadores de rendimiento, YOLOv4-tiny tiene un mapa del 92,04% y un FPS de 40 imágenes/segundo.

    • El modelo YOLOv4-tiny realiza preprocesamiento de imágenes de aves, como desenfoque de movimiento, desenfoque, ajuste de contraste y brillo, simulando escenarios reales de operación de ingeniería y tiene una alta precisión de detección. Este método puede proporcionar referencia técnica para la prevención diferenciada y precisa de fallas por aves en líneas de transmisión.

Supongo que te gusta

Origin blog.csdn.net/weixin_43424450/article/details/132403471
Recomendado
Clasificación