Categorización de objetos basada en segmentación

El problema de la segmentación de imágenes tiene que ver con dividir una imagen en múltiples regiones de acuerdo con algún criterio de homogeneidad. Este artículo se ocupa principalmente de los enfoques teóricos de gráficos para la segmentación de imágenes aplicando la partición de gráficos mediante corte mínimo o corte máximo . La categorización de objetos basada en segmentación puede verse como un caso específico de agrupamiento espectral aplicado a la segmentación de imágenes.

Aplicaciones de la segmentación de imágenes

Compresión de imagen
- Segmente la imagen en componentes homogéneos y utilice el algoritmo de compresión más adecuado para cada componente para mejorar la compresión.
Diagnostico medico
- Segmentación automática de imágenes de resonancia magnética para la identificación de regiones cancerosas.
Mapeo y medición
- Análisis automático de datos de teledetección de satélites para identificar y medir regiones de interés.
Transporte
- La partición de una red de transporte permite identificar regiones caracterizadas por estados de tráfico homogéneos. ^[1]

Segmentación mediante cortes normalizados

Formulación de la teoría de grafos

El conjunto de puntos en un espacio de características arbitrario se puede representar como un gráfico completo no dirigido ponderado G = (V, E), donde los nodos del gráfico son los puntos en el espacio de características. El peso ${\ Displaystyle w_ {ij}}$ de un borde ${\ Displaystyle (i, j) \ in E}$ es una función de la similitud entre los nodos ${\ Displaystyle i}$ y ${\ Displaystyle j}$ . En este contexto, podemos formular el problema de segmentación de imágenes como un problema de partición de gráficos que solicita una partición. ${\ Displaystyle V_ {1}, \ cdots, V_ {k}}$ del conjunto de vértices ${\ Displaystyle V}$ , donde, según alguna medida, los vértices de cualquier conjunto ${\ Displaystyle V_ {i}}$ tienen alta similitud, y los vértices en dos conjuntos diferentes ${\ Displaystyle V_ {i}, V_ {j}}$ tienen poca similitud.

Cortes normalizados

Sea G = ( V , E , w ) una gráfica ponderada. Dejar ${\ Displaystyle A}$ y ${\ Displaystyle B}$ ser dos subconjuntos de vértices.

Dejar:

{\ Displaystyle w (A, B) = \ sum \ limits _ {i \ in A, j \ in B} w_ {ij}}

{\ Displaystyle \ operatorname {ncut} (A, B) = {\ frac {w (A, B)} {w (A, V)}} + {\ frac {w (A, B)} {w (B , V)}}}

{\ Displaystyle \ operatorname {nassoc} (A, B) = {\ frac {w (A, A)} {w (A, V)}} + {\ frac {w (B, B)} {w (B , V)}}}

En el enfoque de cortes normalizados, ^[2] para cualquier corte ${\ Displaystyle (S, {\ overline {S}})}$ en ${\ Displaystyle G}$ , ${\ Displaystyle \ operatorname {ncut} (S, {\ overline {S}})}$ mide la similitud entre diferentes partes, y ${\ Displaystyle \ operatorname {nassoc} (S, {\ overline {S}})}$ mide la similitud total de vértices en la misma parte.

Desde ${\ Displaystyle \ operatorname {ncut} (S, {\ overline {S}}) = 2- \ operatorname {nassoc} (S, {\ overline {S}})}$ , un corte ${\ Displaystyle (S ^ {*}, {\ overline {S}} ^ {*})}$ que minimiza ${\ Displaystyle \ operatorname {ncut} (S, {\ overline {S}})}$ también maximiza ${\ Displaystyle \ operatorname {nassoc} (S, {\ overline {S}})}$ .

Calcular un corte ${\ Displaystyle (S ^ {*}, {\ overline {S}} ^ {*})}$ que minimiza ${\ Displaystyle \ operatorname {ncut} (S, {\ overline {S}})}$ es un problema NP-difícil . Sin embargo, podemos encontrar en tiempo polinomial un corte ${\ Displaystyle (S, {\ overline {S}})}$ de pequeño peso normalizado ${\ Displaystyle \ operatorname {ncut} (S, {\ overline {S}})}$ utilizando técnicas espectrales .

El algoritmo ncut

Dejar:

{\ Displaystyle d (i) = \ sum \ límites _ {j} w_ {ij}}

Además, sea D un ${\ Displaystyle n \ times n}$ matriz diagonal con ${\ Displaystyle d}$ en la diagonal, y deja ${\ Displaystyle W}$ frijol ${\ Displaystyle n \ times n}$ matriz simétrica con ${\ Displaystyle w_ {ij} = w_ {ji}}$ .

Después de algunas manipulaciones algebraicas, obtenemos:

{\ Displaystyle \ min \ limits _ {(S, {\ overline {S}})} \ operatorname {ncut} (S, {\ overline {S}}) = \ min \ limits _ {y} {\ frac { y ^ {T} (DW) y} {y ^ {T} Dy}}}

sujeto a las limitaciones:

${\ Displaystyle y_ {i} \ in \ {1, -b \}}$ , por alguna constante ${\ Displaystyle -b}$
${\ Displaystyle y ^ {t} D1 = 0}$

Minimizar ${\ Displaystyle {\ frac {y ^ {T} (DW) y} {y ^ {T} Dy}}}$ sujeto a las restricciones anteriores es NP-hard . Para hacer que el problema sea manejable, relajamos las restricciones sobre ${\ Displaystyle y}$ y permitirle tomar valores reales. El problema relajado se puede resolver resolviendo el problema de valores propios generalizados ${\ Displaystyle (DW) y = \ lambda Dy}$ para el segundo valor propio generalizado más pequeño.

El algoritmo de partición:

Dado un conjunto de características, configure un gráfico ponderado ${\ Displaystyle G = (V, E)}$ , calcular el peso de cada borde y resumir la información en ${\ Displaystyle D}$ y ${\ Displaystyle W}$ .
Resolver ${\ Displaystyle (DW) y = \ lambda Dy}$ para vectores propios con los segundos valores propios más pequeños.
Utilice el vector propio con el segundo valor propio más pequeño para dividir el gráfico en dos partes (por ejemplo, agrupando según el signo).
Decide si la partición actual debe subdividirse.
Divida recursivamente las partes segmentadas, si es necesario.

Complejidad computacional

Resolver un problema de valores propios estándar para todos los vectores propios (utilizando el algoritmo QR , por ejemplo) requiere ${\ Displaystyle O (n ^ {3})}$ hora. Esto no es práctico para aplicaciones de segmentación de imágenes donde ${\ Displaystyle n}$ es el número de píxeles de la imagen.

Dado que el algoritmo sin cortar solo utiliza un vector propio, correspondiente al segundo valor propio generalizado más pequeño, la eficiencia puede mejorarse drásticamente si la resolución del problema de valor propio correspondiente se realiza sin matrices , es decir, sin manipular explícitamente con o incluso calcular la matriz W, como, por ejemplo, en el algoritmo de Lanczos . Los métodos sin matrices solo requieren una función que realice un producto matriz-vector para un vector dado, en cada iteración. Para la segmentación de imágenes, la matriz W suele ser escasa, con varias entradas distintas de cero. ${\ Displaystyle O (n)}$ , por lo que dicho producto matriz-vector toma ${\ Displaystyle O (n)}$ hora.

Para imágenes de alta resolución, el segundo valor propio a menudo está mal condicionado , lo que lleva a una convergencia lenta de los solucionadores de valores propios iterativos, como el algoritmo de Lanczos . El preacondicionamiento es una tecnología clave que acelera la convergencia, por ejemplo, en el método LOBPCG sin matriz . Calcular el vector propio utilizando un método sin matriz preacondicionado de manera óptima requiere ${\ Displaystyle O (n)}$ tiempo, que es la complejidad óptima, ya que el vector propio tiene ${\ Displaystyle n}$ componentes.

CORTE OBJ

OBJ CUT ^[3] es un método eficaz que segmenta automáticamente un objeto. El método OBJ CUT es un método genérico y, por lo tanto, es aplicable a cualquier modelo de categoría de objeto. Dada una imagen D que contiene una instancia de una categoría de objeto conocida, por ejemplo, vacas, el algoritmo OBJ CUT calcula una segmentación del objeto, es decir, infiere un conjunto de etiquetas m .

Sea m un conjunto de etiquetas binarias y sea ${\ Displaystyle \ Theta}$ ser un parámetro de forma ( ${\ Displaystyle \ Theta}$ es una forma anterior en las etiquetas de un modelo de estructura pictórica en capas (LPS)). Una función energética ${\ Displaystyle E (m, \ Theta)}$ se define de la siguiente manera.

{\ Displaystyle E (m, \ Theta) = \ sum \ phi _ {x} (D | m_ {x}) + \ phi _ {x} (m_ {x} | \ Theta) + \ sum \ Psi _ { xy} (m_ {x}, m_ {y}) + \ phi (D | m_ {x}, m_ {y})}

(1)

El termino ${\ Displaystyle \ phi _ {x} (D | m_ {x}) + \ phi _ {x} (m_ {x} | \ Theta)}$ se llama un término unario, y el término ${\ Displaystyle \ Psi _ {xy} (m_ {x}, m_ {y}) + \ phi (D | m_ {x}, m_ {y})}$ se llama un término por pares. Un término unario consiste en la probabilidad ${\ Displaystyle \ phi _ {x} (D | m_ {x})}$ basado en el color, y el potencial unario ${\ Displaystyle \ phi _ {x} (m_ {x} | \ Theta)}$ basado en la distancia desde ${\ Displaystyle \ Theta}$ . Un término por pares consta de una ${\ Displaystyle \ Psi _ {xy} (m_ {x}, m_ {y})}$ y un término de contraste ${\ Displaystyle \ phi (D | m_ {x}, m_ {y})}$ .

El mejor etiquetado ${\ Displaystyle m ^ {*}}$ minimiza ${\ Displaystyle \ sum \ límites _ {i} w_ {i} E (m, \ Theta _ {i})}$ , dónde ${\ Displaystyle w_ {i}}$ es el peso del parámetro ${\ Displaystyle \ Theta _ {i}}$ .

{\ Displaystyle m ^ {*} = \ arg \ min \ límites _ {m} \ sum \ limits _ {i} w_ {i} E (m, \ Theta _ {i})}

(2)

Algoritmo

Dada una imagen D, se elige una categoría de objeto, por ejemplo, vacas o caballos.
El modelo LPS correspondiente se compara con D para obtener las muestras ${\ Displaystyle \ Theta _ {1}, \ cdots, \ Theta _ {s}}$
La función objetivo dada por la ecuación (2) se determina calculando ${\ Displaystyle E (m, \ Theta _ {i})}$ y usando ${\ Displaystyle w_ {i} = g (\ Theta _ {i} | Z)}$
La función objetivo se minimiza utilizando una única operación MINCUT para obtener la segmentación m .

Otros enfoques

Enfoque de rompecabezas ^[4]
Análisis de imágenes ^[5]
Segmentación intercalada ^[6]
LOCUS ^[7]
LayoutCRF ^[8]
Segmentación mínima basada en árbol de expansión

Referencias

^ López, Clélia; Leclercq, Ludovic; Krishnakumari, Panchamy; Chiabaut, Nicolas; Van Lint, Hans (25 de octubre de 2017). "Revelando la regularidad del día a día de los patrones de congestión urbana con mapas de velocidad en 3D" . Informes científicos . 7 (14029): 14029. doi : 10.1038 / s41598-017-14237-8 . PMC 5656590 . PMID 29070859 .
^ Jianbo Shi y Jitendra Malik (1997): "Cortes normalizados y segmentación de imágenes", Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, págs. 731–737
^ MP Kumar, PHS Torr y A. Zisserman. Obj cut. En Proceedings of IEEE Conference on Computer Vision and Pattern Recognition , San Diego, páginas 18-25, 2005.
^ E. Borenstein, S. Ullman: Segmentación de arriba hacia abajo específica de la clase . En Actas de la 7ª Conferencia Europea de Visión por Computador, Copenhague, Dinamarca, páginas 109-124, 2002.
^ Z. Tu, X. Chen, AL Yuille, SC Zhu: Análisis de imágenes: unificación de segmentación, detección y reconocimiento . Hacia el reconocimiento de objetos a nivel de categoría 2006: 545–576
^ B. Leibe, A. Leonardis, B. Schiele: un modelo de forma implícita para la categorización y segmentación de objetos combinados . Hacia el reconocimiento de objetos a nivel de categoría 2006: 508–524
^ J. Winn, N. Joijic. Locus: clases de objetos de aprendizaje con segmentación no supervisada . En Actas de la Conferencia Internacional IEEE sobre Visión por Computador, Beijing, 2005.
^ JM Winn, J. Shotton: El campo aleatorio consistente de diseño para reconocer y segmentar objetos parcialmente ocluidos . CVPR (1) 2006: 37–44

[1] López, Clélia; Leclercq, Ludovic; Krishnakumari, Panchamy; Chiabaut, Nicolas; Van Lint, Hans (25 de octubre de 2017). "Revelando la regularidad del día a día de los patrones de congestión urbana con mapas de velocidad en 3D" . Informes científicos . 7 (14029): 14029. doi : 10.1038 / s41598-017-14237-8 . PMC 5656590 . PMID 29070859 .

[2] Jianbo Shi y Jitendra Malik (1997): "Cortes normalizados y segmentación de imágenes", Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, págs. 731–737

[3] MP Kumar, PHS Torr y A. Zisserman. Obj cut. En Proceedings of IEEE Conference on Computer Vision and Pattern Recognition , San Diego, páginas 18-25, 2005.

[4] E. Borenstein, S. Ullman: Segmentación de arriba hacia abajo específica de la clase . En Actas de la 7ª Conferencia Europea de Visión por Computador, Copenhague, Dinamarca, páginas 109-124, 2002.

[5] Z. Tu, X. Chen, AL Yuille, SC Zhu: Análisis de imágenes: unificación de segmentación, detección y reconocimiento . Hacia el reconocimiento de objetos a nivel de categoría 2006: 545–576

[6] B. Leibe, A. Leonardis, B. Schiele: un modelo de forma implícita para la categorización y segmentación de objetos combinados . Hacia el reconocimiento de objetos a nivel de categoría 2006: 508–524

[7] J. Winn, N. Joijic. Locus: clases de objetos de aprendizaje con segmentación no supervisada . En Actas de la Conferencia Internacional IEEE sobre Visión por Computador, Beijing, 2005.

[8] JM Winn, J. Shotton: El campo aleatorio consistente de diseño para reconocer y segmentar objetos parcialmente ocluidos . CVPR (1) 2006: 37–44

[1]