Un nuevo paradigma de aprendizaje de contraste de píxeles de segmentación semántica

código: https://github.com/tfzhou/ContrastiveSeg
papel: https://arxiv.org/pdf/2101.11939.pdf

Prefacio

Actualmente, la esencia de los algoritmos de segmentación semántica es mapear píxeles de imagen en un espacio de características altamente no lineal a través de redes neuronales profundas. Sin embargo, la mayoría de los algoritmos existentes solo se enfocan en información de contexto local (posición y dependencia semántica dentro de una sola imagen y entre píxeles), pero ignoran la información de contexto global del conjunto de datos de entrenamiento (imagen cruzada, correlación semántica entre píxeles).) , es difícil restringir el espacio de características aprendidas desde una perspectiva general, lo que limita el desempeño del modelo de segmentación semántica.

Recientemente, investigadores de ETH Zurich y Shangtang Institute propusieron un nuevo paradigma de entrenamiento de segmentación semántica totalmente supervisado: el aprendizaje contrastivo de píxeles, que enfatiza el uso de píxeles-píxeles en el conjunto de entrenamiento y entre imágenes. relación a píxel) para aprender un espacio de características estructurado (bien estructurado), utilizado para reemplazar el paradigma tradicional de entrenamiento basado en imágenes.

Esta estrategia de entrenamiento se puede aplicar directamente a los modelos de segmentación semántica convencionales, y no se introducen gastos generales computacionales adicionales en la etapa de inferencia del modelo. La siguiente figura muestra el rendimiento del algoritmo de segmentación convencional en el conjunto de verificación de paisajes urbanos. Se puede ver que después de introducir el aprendizaje de contraste de píxeles en DeepLabV3, HRNet y OCR, se ha logrado una mejora de rendimiento más significativa.
Inserte la descripción de la imagen aquí

¿Qué problemas se ignoran actualmente en el campo de la segmentación semántica?

La segmentación semántica de imágenes tiene como objetivo predecir una etiqueta semántica para cada píxel de una imagen, que es un problema central en el campo de la visión por computadora. Desde la introducción de Fully Convolutional Network (FCN) [1], los algoritmos de segmentación semántica convencionales enfatizan el contexto intraimagen. Partir principalmente de dos aspectos: 1) Proponer diferentes módulos de agregación de contexto, como modelos clásicos como convolución dilatada, agrupación de pirámides espaciales, codificador-decodificador y atención no local. La idea central es utilizar parámetros de modelo adicionales o especiales El funcionamiento de modelar y extraer la información de contexto dentro de la imagen; 2) El algoritmo tradicional considera la segmentación semántica como una tarea de clasificación a nivel de píxel, por lo que la pérdida de entropía cruzada se calcula píxel por píxel de forma independiente, pero la diferencia píxel a píxel se ignora por completo Dependencia. Por lo tanto, algunos investigadores han propuesto funciones de pérdida conscientes de la estructura, como la pérdida de afinidad de píxeles [2], la pérdida de lovasz [3], etc., que limitan directamente la información de estructura general del resultado de segmentación en la función objetivo de entrenamiento.

Sin embargo, el trabajo anterior solo se enfoca en la información de contexto dentro de la imagen, pero ignora la información de contexto global de imagen cruzada: en el conjunto de entrenamiento, los píxeles de diferentes imágenes también tienen una fuerte correlación, como se muestra en la Figura (b) a continuación, Los píxeles del mismo color indican que tienen la misma semántica.
Inserte la descripción de la imagen aquí
Además, la esencia del algoritmo de segmentación semántica actual es asignar píxeles de imagen a un espacio de características altamente no lineal (como se muestra en la Figura c anterior) a través de una red neuronal profunda. En este proceso, solo módulos de agregación de contexto o estructura La función de pérdida enfatiza la dependencia entre píxeles locales, pero ignora una pregunta esencial: ¿qué es un espacio de características de segmentación semántica ideal?

Los investigadores creen que un buen espacio de características de segmentación debería tener dos propiedades al mismo tiempo:

  • Fuerte capacidad de discriminación: en este espacio de características, la característica de cada píxel debe tener una fuerte capacidad de categorización de incrustaciones de píxeles individuales;
  • Muy estructurado: las características de píxeles similares deben ser muy compactas (compacidad intraclase) y las características de los diferentes tipos de píxeles deben estar lo más dispersas posible (dispersión entre clases).

Sin embargo, los métodos de segmentación semántica actuales generalmente solo se enfocan en la propiedad 1, pero ignoran la 2. Además, muchos trabajos de aprendizaje de representación (aprendizaje de representación) [4, 5] también han verificado que al enfatizar las propiedades 2, ayuda a mejorar mejor las propiedades 1. Por lo tanto, asumimos audazmente que aunque el algoritmo de segmentación semántica actual ha logrado un rendimiento excelente, al considerar las propiedades 1 y 2 al mismo tiempo, es posible aprender un espacio de características de segmentación mejor y estructurado, y mejorar aún más el algoritmo de segmentación semántica. .

Pensamientos del aprendizaje comparativo no supervisado

En los últimos años, el campo del aprendizaje no supervisado ha marcado el comienzo de un tremendo desarrollo, la fuente es la aplicación exitosa del aprendizaje por contraste (aprendizaje contrastivo) [6, 7] bajo una gran cantidad de muestras de entrenamiento sin etiquetar. Suponga que la imagen es un vector de características de una imagen de muestra de entrenamiento I sin etiquetar, y la imagen es una característica de muestra positiva de la imagen I. Esta muestra positiva a menudo se obtiene aplicando alguna transformación a I (como operaciones de volteo y recorte), etc.) , la imagen es una característica de muestra negativa, otras imágenes que no sean I en el conjunto de entrenamiento se consideran muestras negativas. Luego, comparando la función de pérdida de aprendizaje, como la siguiente pérdida de InfoNCE [8], entrenamiento sin supervisión: el
Inserte la descripción de la imagen aquí
objetivo es identificar muestras positivas de un gran número de muestras negativas. Las características de la imagen obtenidas mediante el entrenamiento sin supervisión muestran una gran capacidad de generalización, que puede proporcionar excelentes pesos de inicialización de red para tareas posteriores, o solo después de que una pequeña cantidad de muestras etiquetadas se ajustan con precisión (ajuste fino), puede acercarse al entrenamiento completamente supervisado rendimiento Modelo de clasificación de imágenes.

El éxito del aprendizaje comparativo no supervisado también brinda inspiración. El aprendizaje comparativo pertenece al aprendizaje métrico. La esencia es utilizar la información general del conjunto de datos para aprender un espacio de representación de imágenes con una fuerte capacidad expresiva. Bajo la condición de entrenamiento totalmente supervisado de segmentación semántica de imagen, se ha dado la etiqueta de cada píxel de la imagen de entrenamiento. Podemos tratar las muestras positivas como píxeles que pertenecen a la misma categoría semántica y las muestras negativas como píxeles que no pertenecen a la misma categoría semántica. categoría., Independientemente de que se deriven de la misma imagen de entrenamiento. Después de eso, puede usar el aprendizaje métrico o el aprendizaje de contraste para mejorar la pérdida de entropía cruzada tradicional, y luego extraer la relación semántica global entre píxeles en todas las imágenes de entrenamiento, y luego obtener un espacio de características de segmentación altamente estructurado, enfatizando así al mismo tiempo Naturaleza 1 y 2. Por lo tanto, los investigadores propusieron un paradigma de entrenamiento de segmentación semántica totalmente supervisado basado en el aprendizaje de contraste de píxeles, aprendizaje contrastivo de píxeles, que enfatiza el uso de la información del contexto global del conjunto de datos de entrenamiento para aprender desde la perspectiva general. El espacio de características es explícitamente limitado para que tenga buenas propiedades en la estructura global (compacidad intraclase y dispersión entre clases).

Como se muestra en la figura (d) anterior, dado un píxel i en una muestra de entrenamiento, también llamado punto de anclaje, el investigador compara i con otros píxeles en el espacio de características segmentado y acerca el zoom lo más cerca posible de i. entre píxeles del mismo tipo (muestras positivas) y obligando a i a estar lo más lejos posible de otros píxeles de diferentes tipos (muestras negativas). Por lo tanto, el paradigma de entrenamiento puede considerar la similitud semántica global de todos los píxeles en todo el conjunto de entrenamiento, de modo que el modelo pueda usar muestras más diversas y a gran escala para mejorar la capacidad de aprendizaje de representación, a fin de obtener un mejor espacio de características semánticas. (como se muestra en la figura (e))).

¿Cuál es el problema con la función clásica de pérdida de segmentación semántica basada en la entropía cruzada Pixel-Wise?

A continuación, tomaremos la entropía cruzada clásica de píxeles en el campo de la segmentación semántica como punto de partida para discutir más a fondo la necesidad de introducir el aprendizaje métrico o el aprendizaje por contraste en el entrenamiento de la segmentación semántica.

Como se mencionó anteriormente, el algoritmo de segmentación semántica actual considera esta tarea como un problema de clasificación semántica píxel por píxel, es decir, predecir una etiqueta semántica c para cada píxel i en la imagen. Por lo tanto, la entropía cruzada de píxeles se utiliza como objetivo de entrenamiento: Inserte la descripción de la imagen aquí
aquí y significa: el vector de puntuación categórica no normalizado para el píxel i obtenido a través de FCN, también conocido como logit, c significa la etiqueta verdadera del píxel i, 1c Codificación One-hot para .

Sin embargo, la función objetivo de optimización tiene dos desventajas:

  • Solo restringe la predicción de cada píxel de forma independiente, ignorando la relación entre píxeles
  • Debido al uso de la operación softmax, el cálculo de la entropía cruzada en realidad solo depende de la relación relativa entre logits, pero no puede restringir directamente las características de píxeles aprendidas (no puede supervisar directamente las representaciones aprendidas)

Aunque algunas funciones de pérdida estructuradas recientes (como la pérdida de afinidad de píxeles, la pérdida de lovasz, etc.) son conscientes de las deficiencias 1, solo consideran las dependencias de píxeles dentro de la misma imagen, pero ignoran la consistencia semántica de los píxeles entre diferentes imágenes. Y la desventaja 2, rara vez se menciona en el campo de la segmentación semántica.

Paradigma de entrenamiento de segmentación semántica basado en aprendizaje de contraste de píxel a píxel totalmente supervisado

El aprendizaje contrastivo de píxeles propuesto en este artículo puede resolver mejor las dos deficiencias de la función de pérdida de entropía cruzada. En el proceso de entrenamiento, para cualquier píxel (punto de anclaje) i, su muestra positiva son otros píxeles del mismo tipo y las muestras negativas son otros píxeles de diferentes tipos. Vale la pena señalar que la elección de muestras positivas y negativas para el ancla i no se limita a la misma imagen. Para el píxel i, la función de pérdida de contraste se define como: Inserte la descripción de la imagen aquí
donde la imagen representa las características de todos los píxeles de muestra positivos del píxel i, y la imagen representa las características de todos los píxeles de muestra negativos del píxel i. Se puede ver en la fórmula anterior que a través del aprendizaje de contraste de píxel a píxel, los investigadores dibujan directamente píxeles que pertenecen a la misma categoría semántica en el espacio de características de la segmentación semántica, al tiempo que obligan a los píxeles de diferentes categorías semánticas a alejarse unos de otros. enfatizando así simultáneamente dos desventajas de la pérdida de entropía cruzada.

La función de pérdida de segmentación semántica final se define como: la
Inserte la descripción de la imagen aquí
pérdida de entropía cruzada promueve el modelo de segmentación para aprender características discriminatorias y mejorar las capacidades de clasificación (énfasis en la propiedad 1). La pérdida contrastiva por píxeles explora la relación semántica global entre píxeles para restringir como un todo Segmentación semántica del espacio de características (énfasis en la naturaleza 2).

La siguiente figura visualiza las características de segmentación aprendidas usando solo la pérdida de entropía cruzada (imagen de la izquierda) y la función de pérdida mixta mencionada anteriormente (imagen de la derecha). Se puede ver que al introducir la pérdida de contraste por píxeles, las características de píxeles similares son más compacto La separación entre clases puede ser mejor. Esto muestra que al combinar las ventajas de la pérdida de entropía cruzada unaria y la pérdida contrastiva pari-sabia, la red de segmentación puede aprender una mejor representación de características.Inserte la descripción de la imagen aquí

Más discusión

A diferencia de los algoritmos convencionales actuales que solo se enfocan en la información de contexto local de los píxeles dentro de la imagen, este documento propone una función de pérdida de comparación de imágenes cruzadas y píxeles para extraer la relación global de todos los píxeles en el conjunto de datos de entrenamiento, lo que mejora efectivamente el desempeño de la segmentación semántica. Esto nos ayuda a repensar el paradigma de formación convencional actual, no solo centrándonos en las características de las muestras de formación en sí mismas, sino también en la relación entre las muestras de formación desde una perspectiva global.

Este artículo también trae algunas aclaraciones útiles, como:

  • El aprendizaje por contraste o el aprendizaje métrico depende de la calidad de las muestras positivas y negativas. Las estrategias de muestreo más inteligentes pueden ayudar a la red de segmentación a aprender de manera más rápida y eficaz.
  • Desde la perspectiva del aprendizaje métrico, la pérdida de entropía cruzada es una función de pérdida unaria (pérdida unaria), y la pérdida de contraste es una función de pérdida por pares (pérdida por pares), explorar funciones de pérdida métrica de orden superior puede traer mayores resultados. mejora.
  • La pérdida de contraste necesita muestrear muestras positivas y negativas en el cálculo, y es posible lograr el reequilibrio de la clase en el entrenamiento de manera más natural.
  • La solución de este artículo ha logrado una mejora eficaz del rendimiento en los conjuntos de datos de segmentación semántica convencionales y se espera que tenga una ventaja en otras tareas de predicción de imágenes densas (como la estimación de la pose humana 2D, la segmentación de imágenes médicas, etc.).

Supongo que te gusta

Origin blog.csdn.net/weixin_42990464/article/details/114401479
Recomendado
Clasificación