Co-segmentación de objetos

En la visión por computadora , la co-segmentación de objetos es un caso especial de segmentación de imágenes , que se define como la segmentación conjunta de objetos semánticamente similares en múltiples imágenes o cuadros de video. ^[2]^[3]

Ejemplos de fotogramas de vídeo y sus anotaciones de co-segmentación de objetos (verdad fundamental) en el conjunto de datos Noisy-ViDiSeg ^[1] . Los segmentos de objeto están representados por el borde rojo.

Desafíos

A menudo es un desafío extraer máscaras de segmentación de un objetivo / objeto de una colección ruidosa de imágenes o fotogramas de video, lo que implica el descubrimiento de objetos junto con la segmentación . Una colección ruidosa implica que el objeto / objetivo está presente esporádicamente en un conjunto de imágenes o que el objeto / objetivo desaparece de forma intermitente a lo largo del video de interés. Los primeros métodos ^[4]^[5] implican típicamente representaciones de nivel medio, como propuestas de objetos .

Métodos dinámicos basados en redes de Markov

El proceso de inferencia de las dos redes de Markov dinámicas acopladas para obtener el descubrimiento y la segmentación de objetos de video conjuntos ^[1]

Un marco conjunto de descubrimiento y co-segmentación de objetos basado en redes de Markov dinámicas acopladas ^[1] .

Recientemente se ha propuesto un método conjunto de descubrimiento y co-segmentación de objetos basado en redes de Markov dinámicas acopladas , ^[1] que afirma mejoras significativas en la robustez frente a fotogramas de vídeo irrelevantes / ruidosos.

A diferencia de los esfuerzos anteriores que asumen convenientemente la presencia constante de los objetos de destino a lo largo del video de entrada, este algoritmo basado en la red Markov dinámica dual acoplada realiza simultáneamente las tareas de detección y segmentación con dos redes Markov respectivas actualizadas conjuntamente mediante la propagación de creencias.

Específicamente, la red de Markov responsable de la segmentación se inicializa con superpíxeles y proporciona información para su contraparte de Markov responsable de la tarea de detección de objetos. Por el contrario, la red de Markov responsable de la detección construye el gráfico de propuesta de objeto con entradas que incluyen los tubos de segmentación espacio-temporal.

Métodos basados en cortes de gráficos

La optimización del corte de gráficos es una herramienta popular en la visión por computadora, especialmente en aplicaciones de segmentación de imágenes anteriores . Como una extensión de los cortes de gráficos regulares, se propone el corte de hipergráfico multinivel ^[6] para dar cuenta de correspondencias de orden superior más complejas entre grupos de video más allá de las típicas correlaciones por pares.

Con tal extensión del hipergráfico, múltiples modalidades de correspondencias, incluida la apariencia de bajo nivel, la prominencia, el movimiento coherente y las características de alto nivel, como las regiones de objetos, podrían incorporarse sin problemas en el cálculo de hiperedes. Además, como una ventaja central sobre el enfoque basado en la co-ocurrencia , el hipergrafo retiene implícitamente correspondencias más complejas entre sus vértices, con los pesos de hiperfredge convenientemente calculados por descomposición de valores propios de matrices laplacianas .

Métodos basados en CNN / LSTM

Descripción general de la localización de la acción temporal de gruesa a fina en. ^[7] (a) Localización gruesa. Dado un video sin recortar, primero generamos clips de video conscientes de la prominencia a través de ventanas deslizantes de longitud variable. La red de propuestas decide si un videoclip contiene alguna acción (por lo que el clip se agrega al conjunto de candidatos) o un fondo puro (por lo que el clip se descarta directamente). La red de clasificación posterior predice la clase de acción específica para cada clip candidato y genera las puntuaciones de clasificación y las etiquetas de acción. (b) Localización fina. Con las puntuaciones de clasificación y las etiquetas de acción de la localización aproximada anterior, se lleva a cabo una predicción adicional de la categoría de vídeo y se obtienen sus fotogramas de inicio y finalización.

Diagrama de flujo del segmento-tubo detector de localización de acción espacio-temporal. ^[7] Como entrada, un video sin recortar contiene múltiples cuadros de acciones ( por ejemplo , todas las acciones en un video de patinaje artístico en pareja), y solo una parte de estos cuadros pertenece a una categoría relevante ( por ejemplo , los DeathSpirals). Por lo general, hay acciones anteriores y posteriores irrelevantes (antecedentes). El detector de tubo de segmento alterna la optimización de la localización temporal y la segmentación espacial de forma iterativa. La salida final es una secuencia de máscaras de segmentación por fotograma con fotogramas iniciales / finales precisos indicados con el trozo rojo en la parte inferior, mientras que el fondo está marcado con trozos verdes en la parte inferior.

En las aplicaciones de localización de acciones , la co-segmentación de objetos también se implementa como detector espacio-temporal segmento-tubo . ^[7] Inspirado por los recientes esfuerzos de localización de acciones espacio-temporales con tubos (secuencias de cuadros delimitadores), Le et al. Presentamos un nuevo detector de localización de acción espacio-temporal Segment-tube, que consta de secuencias de máscaras de segmentación por fotograma. Este detector de tubo de segmento puede señalar temporalmente el cuadro inicial / final de cada categoría de acción en presencia de acciones de interferencia anteriores / posteriores en videos sin recortar. Simultáneamente, el detector de tubo de segmento produce máscaras de segmentación por cuadro en lugar de cuadros delimitadores, lo que ofrece una precisión espacial superior a los tubos. Esto se logra alternando la optimización iterativa entre la localización de la acción temporal y la segmentación de la acción espacial.

El detector de tubo de segmento propuesto se ilustra en el diagrama de flujo de la derecha. La entrada de muestra es un video sin recortar que contiene todos los fotogramas en un video de patinaje artístico en pareja, y solo una parte de estos fotogramas pertenece a una categoría relevante (por ejemplo, DeathSpirals). Inicializado con segmentación de imágenes basada en la prominencia en fotogramas individuales, este método primero realiza un paso de localización de acción temporal con una CNN y LSTM 3D en cascada , y señala el fotograma inicial y el fotograma final de una acción objetivo con una estrategia de aproximada a fina. Posteriormente, el detector de tubo de segmento refina la segmentación espacial por fotograma con corte de gráfico al centrarse en los fotogramas relevantes identificados por el paso de localización de acción temporal. La optimización alterna entre la localización de la acción temporal y la segmentación de la acción espacial de manera iterativa. Tras la convergencia práctica, los resultados de la localización de la acción espacio-temporal final se obtienen en el formato de una secuencia de máscaras de segmentación por cuadro (fila inferior en el diagrama de flujo) con cuadros iniciales / finales precisos.

Ver también

Referencias

^ ^a ^b ^c ^d Liu, Ziyi; Wang, Le; Hua, Gang; Zhang, Qilin; Niu, Zhenxing; Wu, Ying; Zheng, Nanning (2018). "Descubrimiento y segmentación conjunta de objetos de vídeo mediante redes de Markov dinámicas acopladas" (PDF) . Transacciones IEEE sobre procesamiento de imágenes . 27 (12): 5840–5853. Código bibliográfico : 2018ITIP ... 27.5840L . doi : 10.1109 / tip.2018.2859622 . ISSN 1057-7149 . PMID 30059300 . S2CID 51867241 .
^ Vicente, Sara; Rother, Carsten; Kolmogorov, Vladimir (2011). Cosegmentación de objetos . IEEE. doi : 10.1109 / cvpr.2011.5995530 . ISBN 978-1-4577-0394-2.
^ Chen, Ding-Jie; Chen, Hwann-Tzong; Chang, Long-Wen (2012). Cosegmentación de objetos de vídeo . Nueva York, Nueva York, Estados Unidos: ACM Press. doi : 10.1145 / 2393347.2396317 . ISBN 978-1-4503-1089-5.
^ Lee, Yong Jae; Kim, Jaechul; Grauman, Kristen (2011). Segmentos clave para la segmentación de objetos de video . IEEE. doi : 10.1109 / iccv.2011.6126471 . ISBN 978-1-4577-1102-2.
^ Ma, Tianyang; Latecki, Longin Jan. Grupos de peso máximo con restricciones de mutex para la segmentación de objetos de vídeo . IEEE CVPR 2012 . doi : 10.1109 / CVPR.2012.6247735 .
^ Wang, Le; Lv, Xin; Zhang, Qilin; Niu, Zhenxing; Zheng, Nanning; Hua, Gang (2020). "Cosegmentación de objetos en videos ruidosos con hipergráfico multinivel" (PDF) . Transacciones IEEE sobre multimedia . IEEE. 23 : 1. doi : 10.1109 / tmm.2020.2995266 . ISSN 1520-9210 .
^ a b c Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (22 de mayo de 2018). "Segment-Tube: localización de acciones espacio-temporales en videos sin recortar con segmentación por cuadro" (PDF) . Sensores . MDPI AG. 18 (5): 1657. doi : 10.3390 / s18051657 . ISSN 1424-8220 . PMC 5982167 . PMID 29789447 . El material se copió de esta fuente, que está disponible bajo una licencia internacional Creative Commons Attribution 4.0 .

[Liu_Wang_Hua_Zhang_2018_pp._5840–5853-1] Liu, Ziyi; Wang, Le; Hua, Gang; Zhang, Qilin; Niu, Zhenxing; Wu, Ying; Zheng, Nanning (2018). "Descubrimiento y segmentación conjunta de objetos de vídeo mediante redes de Markov dinámicas acopladas" (PDF) . Transacciones IEEE sobre procesamiento de imágenes . 27 (12): 5840–5853. Código bibliográfico : 2018ITIP ... 27.5840L . doi : 10.1109 / tip.2018.2859622 . ISSN 1057-7149 . PMID 30059300 . S2CID 51867241 .

[Vicente_Rother_Kolmogorov_2011_p.-2] Vicente, Sara; Rother, Carsten; Kolmogorov, Vladimir (2011). Cosegmentación de objetos . IEEE. doi : 10.1109 / cvpr.2011.5995530 . ISBN 978-1-4577-0394-2.

[Chen_Chen_Chang_2012_p.-3] Chen, Ding-Jie; Chen, Hwann-Tzong; Chang, Long-Wen (2012). Cosegmentación de objetos de vídeo . Nueva York, Nueva York, Estados Unidos: ACM Press. doi : 10.1145 / 2393347.2396317 . ISBN 978-1-4503-1089-5.

[lee2011key-4] Lee, Yong Jae; Kim, Jaechul; Grauman, Kristen (2011). Segmentos clave para la segmentación de objetos de video . IEEE. doi : 10.1109 / iccv.2011.6126471 . ISBN 978-1-4577-1102-2.

[ma2012maximum-5] Ma, Tianyang; Latecki, Longin Jan. Grupos de peso máximo con restricciones de mutex para la segmentación de objetos de vídeo . IEEE CVPR 2012 . doi : 10.1109 / CVPR.2012.6247735 .

[Wang_Lv_Zhang_Niu_2020-6] Wang, Le; Lv, Xin; Zhang, Qilin; Niu, Zhenxing; Zheng, Nanning; Hua, Gang (2020). "Cosegmentación de objetos en videos ruidosos con hipergráfico multinivel" (PDF) . Transacciones IEEE sobre multimedia . IEEE. 23 : 1. doi : 10.1109 / tmm.2020.2995266 . ISSN 1520-9210 .

[Wang_Duan_Zhang_Niu_p=1657-7] Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (22 de mayo de 2018). "Segment-Tube: localización de acciones espacio-temporales en videos sin recortar con segmentación por cuadro" (PDF) . Sensores . MDPI AG. 18 (5): 1657. doi : 10.3390 / s18051657 . ISSN 1424-8220 . PMC 5982167 . PMID 29789447 . El material se copió de esta fuente, que está disponible bajo una licencia internacional Creative Commons Attribution 4.0 .

[2]