En la visión por computadora , la co-segmentación de objetos es un caso especial de segmentación de imágenes , que se define como la segmentación conjunta de objetos semánticamente similares en múltiples imágenes o cuadros de video. [2] [3]
Desafíos
A menudo es un desafío extraer máscaras de segmentación de un objetivo / objeto de una colección ruidosa de imágenes o fotogramas de video, lo que implica el descubrimiento de objetos junto con la segmentación . Una colección ruidosa implica que el objeto / objetivo está presente esporádicamente en un conjunto de imágenes o que el objeto / objetivo desaparece de forma intermitente a lo largo del video de interés. Los primeros métodos [4] [5] implican típicamente representaciones de nivel medio, como propuestas de objetos .
Métodos dinámicos basados en redes de Markov
Recientemente se ha propuesto un método conjunto de descubrimiento y co-segmentación de objetos basado en redes de Markov dinámicas acopladas , [1] que afirma mejoras significativas en la robustez frente a fotogramas de vídeo irrelevantes / ruidosos.
A diferencia de los esfuerzos anteriores que asumen convenientemente la presencia constante de los objetos de destino a lo largo del video de entrada, este algoritmo basado en la red Markov dinámica dual acoplada realiza simultáneamente las tareas de detección y segmentación con dos redes Markov respectivas actualizadas conjuntamente mediante la propagación de creencias.
Específicamente, la red de Markov responsable de la segmentación se inicializa con superpíxeles y proporciona información para su contraparte de Markov responsable de la tarea de detección de objetos. Por el contrario, la red de Markov responsable de la detección construye el gráfico de propuesta de objeto con entradas que incluyen los tubos de segmentación espacio-temporal.
Métodos basados en cortes de gráficos
La optimización del corte de gráficos es una herramienta popular en la visión por computadora, especialmente en aplicaciones de segmentación de imágenes anteriores . Como una extensión de los cortes de gráficos regulares, se propone el corte de hipergráfico multinivel [6] para dar cuenta de correspondencias de orden superior más complejas entre grupos de video más allá de las típicas correlaciones por pares.
Con tal extensión del hipergráfico, múltiples modalidades de correspondencias, incluida la apariencia de bajo nivel, la prominencia, el movimiento coherente y las características de alto nivel, como las regiones de objetos, podrían incorporarse sin problemas en el cálculo de hiperedes. Además, como una ventaja central sobre el enfoque basado en la co-ocurrencia , el hipergrafo retiene implícitamente correspondencias más complejas entre sus vértices, con los pesos de hiperfredge convenientemente calculados por descomposición de valores propios de matrices laplacianas .
Métodos basados en CNN / LSTM
En las aplicaciones de localización de acciones , la co-segmentación de objetos también se implementa como detector espacio-temporal segmento-tubo . [7] Inspirado por los recientes esfuerzos de localización de acciones espacio-temporales con tubos (secuencias de cuadros delimitadores), Le et al. Presentamos un nuevo detector de localización de acción espacio-temporal Segment-tube, que consta de secuencias de máscaras de segmentación por fotograma. Este detector de tubo de segmento puede señalar temporalmente el cuadro inicial / final de cada categoría de acción en presencia de acciones de interferencia anteriores / posteriores en videos sin recortar. Simultáneamente, el detector de tubo de segmento produce máscaras de segmentación por cuadro en lugar de cuadros delimitadores, lo que ofrece una precisión espacial superior a los tubos. Esto se logra alternando la optimización iterativa entre la localización de la acción temporal y la segmentación de la acción espacial.
El detector de tubo de segmento propuesto se ilustra en el diagrama de flujo de la derecha. La entrada de muestra es un video sin recortar que contiene todos los fotogramas en un video de patinaje artístico en pareja, y solo una parte de estos fotogramas pertenece a una categoría relevante (por ejemplo, DeathSpirals). Inicializado con segmentación de imágenes basada en la prominencia en fotogramas individuales, este método primero realiza un paso de localización de acción temporal con una CNN y LSTM 3D en cascada , y señala el fotograma inicial y el fotograma final de una acción objetivo con una estrategia de aproximada a fina. Posteriormente, el detector de tubo de segmento refina la segmentación espacial por fotograma con corte de gráfico al centrarse en los fotogramas relevantes identificados por el paso de localización de acción temporal. La optimización alterna entre la localización de la acción temporal y la segmentación de la acción espacial de manera iterativa. Tras la convergencia práctica, los resultados de la localización de la acción espacio-temporal final se obtienen en el formato de una secuencia de máscaras de segmentación por cuadro (fila inferior en el diagrama de flujo) con cuadros iniciales / finales precisos.
Ver también
Referencias
- ^ a b c d Liu, Ziyi; Wang, Le; Hua, Gang; Zhang, Qilin; Niu, Zhenxing; Wu, Ying; Zheng, Nanning (2018). "Descubrimiento y segmentación conjunta de objetos de vídeo mediante redes de Markov dinámicas acopladas" (PDF) . Transacciones IEEE sobre procesamiento de imágenes . 27 (12): 5840–5853. Código bibliográfico : 2018ITIP ... 27.5840L . doi : 10.1109 / tip.2018.2859622 . ISSN 1057-7149 . PMID 30059300 . S2CID 51867241 .
- ^ Vicente, Sara; Rother, Carsten; Kolmogorov, Vladimir (2011). Cosegmentación de objetos . IEEE. doi : 10.1109 / cvpr.2011.5995530 . ISBN 978-1-4577-0394-2.
- ^ Chen, Ding-Jie; Chen, Hwann-Tzong; Chang, Long-Wen (2012). Cosegmentación de objetos de vídeo . Nueva York, Nueva York, Estados Unidos: ACM Press. doi : 10.1145 / 2393347.2396317 . ISBN 978-1-4503-1089-5.
- ^ Lee, Yong Jae; Kim, Jaechul; Grauman, Kristen (2011). Segmentos clave para la segmentación de objetos de video . IEEE. doi : 10.1109 / iccv.2011.6126471 . ISBN 978-1-4577-1102-2.
- ^ Ma, Tianyang; Latecki, Longin Jan. Grupos de peso máximo con restricciones de mutex para la segmentación de objetos de vídeo . IEEE CVPR 2012 . doi : 10.1109 / CVPR.2012.6247735 .
- ^ Wang, Le; Lv, Xin; Zhang, Qilin; Niu, Zhenxing; Zheng, Nanning; Hua, Gang (2020). "Cosegmentación de objetos en videos ruidosos con hipergráfico multinivel" (PDF) . Transacciones IEEE sobre multimedia . IEEE. 23 : 1. doi : 10.1109 / tmm.2020.2995266 . ISSN 1520-9210 .
- ^ a b c Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (22 de mayo de 2018). "Segment-Tube: localización de acciones espacio-temporales en videos sin recortar con segmentación por cuadro" (PDF) . Sensores . MDPI AG. 18 (5): 1657. doi : 10.3390 / s18051657 . ISSN 1424-8220 . PMC 5982167 . PMID 29789447 . El material se copió de esta fuente, que está disponible bajo una licencia internacional Creative Commons Attribution 4.0 .