En el procesamiento de imágenes digitales y la visión por computadora , la segmentación de imágenes es el proceso de dividir una imagen digital en múltiples segmentos ( conjuntos de píxeles , también conocidos como objetos de imagen). El objetivo de la segmentación es simplificar y / o cambiar la representación de una imagen en algo más significativo y más fácil de analizar. [1] [2] La segmentación de imágenes se utiliza normalmente para localizar objetos y límites (líneas, curvas, etc.) en imágenes. Más precisamente, la segmentación de imágenes es el proceso de asignar una etiqueta a cada píxel de una imagen de manera que los píxeles con la misma etiqueta compartan ciertas características.
El resultado de la segmentación de la imagen es un conjunto de segmentos que cubren colectivamente toda la imagen, o un conjunto de contornos extraídos de la imagen (ver detección de bordes ). Cada uno de los píxeles de una región es similar con respecto a alguna característica o propiedad calculada, como el color , la intensidad o la textura . Las regiones adyacentes tienen un color significativamente diferente con respecto a las mismas características. [1] Cuando se aplica a una pila de imágenes, típico de las imágenes médicas , los contornos resultantes después de la segmentación de la imagen se pueden utilizar para crear reconstrucciones 3D con la ayuda de algoritmos de interpolación como cubos de marcha . [3]
Aplicaciones
Algunas de las aplicaciones prácticas de la segmentación de imágenes son:
- Recuperación de imágenes basada en contenido [4]
- Visión de máquina
- Imágenes médicas , [5] [6] que incluyen imágenes generadas por volumen de tomografía computarizada y resonancia magnética .
- Detección de objetos [10]
- Detección de peatones
- Detección de rostro
- Detección de luz de freno
- Localice objetos en imágenes de satélite (carreteras, bosques, cultivos, etc.)
- Tareas de reconocimiento
- Sistemas de control de tráfico
- Video vigilancia
- Co-segmentación de objetos de vídeo y localización de acciones [11] [12]
Se han desarrollado varios algoritmos y técnicas de uso general para la segmentación de imágenes. Para ser útiles, estas técnicas deben combinarse típicamente con el conocimiento específico de un dominio para resolver de manera efectiva los problemas de segmentación del dominio.
Clases de técnicas de segmentación
Hay dos clases de técnicas de segmentación.
- Enfoques clásicos de la visión por computadora
- Técnicas basadas en IA
Grupos de segmentación de imágenes
- La segmentación semántica es un enfoque que detecta, para cada píxel, la clase de pertenencia del objeto. [13] Por ejemplo, cuando todas las personas en una figura están segmentadas como un objeto y el fondo como un solo objeto.
- La segmentación de instancias es un enfoque que identifica, para cada píxel, una instancia de pertenencia del objeto. Detecta cada objeto de interés distinto en la imagen. [14] Por ejemplo, cuando cada persona en una figura se segmenta como un objeto individual.
Umbral
El método más simple de segmentación de imágenes se llama método de umbral . Este método se basa en un nivel de clip (o un valor de umbral) para convertir una imagen en escala de grises en una imagen binaria.
La clave de este método es seleccionar el valor de umbral (o valores cuando se seleccionan niveles múltiples). En la industria se utilizan varios métodos populares, incluido el método de máxima entropía, el umbral de histograma equilibrado , el método de Otsu (varianza máxima) y la agrupación de k-medias .
Recientemente, se han desarrollado métodos para establecer umbrales de imágenes de tomografía computarizada (TC). La idea clave es que, a diferencia del método de Otsu, los umbrales se derivan de las radiografías en lugar de la imagen (reconstruida). [15] [16]
Los nuevos métodos sugirieron el uso de umbrales no lineales basados en reglas difusas multidimensionales. En estos trabajos, la decisión sobre la pertenencia de cada píxel a un segmento se basa en reglas multidimensionales derivadas de la lógica difusa y algoritmos evolutivos basados en el entorno y la aplicación de iluminación de la imagen. [17]
Métodos de agrupación en clústeres
El algoritmo K-means es una técnica iterativa que se utiliza para dividir una imagen en K clústeres. [18] El algoritmo básico es
- Elija K centros de conglomerados, ya sea al azar o basándose en algún método heurístico , por ejemplo, K-medias
- Asigne cada píxel de la imagen al grupo que minimiza la distancia entre el píxel y el centro del grupo
- Vuelva a calcular los centros del clúster promediando todos los píxeles del clúster
- Repita los pasos 2 y 3 hasta que se logre la convergencia (es decir, ningún píxel cambia los grupos)
En este caso, la distancia es la diferencia al cuadrado o absoluta entre un píxel y el centro de un grupo. La diferencia generalmente se basa en el color , la intensidad , la textura y la ubicación de los píxeles , o en una combinación ponderada de estos factores. K se puede seleccionar de forma manual, aleatoria o mediante una heurística . Se garantiza que este algoritmo convergerá, pero es posible que no devuelva la solución óptima . La calidad de la solución depende del conjunto inicial de grupos y el valor de K .
Movimiento y segmentación interactiva
La segmentación basada en movimiento es una técnica que se basa en el movimiento de la imagen para realizar la segmentación.
La idea es simple: mira las diferencias entre un par de imágenes. Suponiendo que el objeto de interés se esté moviendo, la diferencia será exactamente ese objeto.
Mejorando esta idea, Kenney et al. segmentación interactiva propuesta [2] . Utilizan un robot para pinchar objetos con el fin de generar la señal de movimiento necesaria para la segmentación basada en el movimiento.
La segmentación interactiva sigue el marco de percepción interactivo propuesto por Dov Katz [3] y Oliver Brock [4] .
Métodos basados en compresión
Los métodos basados en la compresión postulan que la segmentación óptima es aquella que minimiza, en todas las segmentaciones posibles, la longitud de codificación de los datos. [19] [20] La conexión entre estos dos conceptos es que la segmentación intenta encontrar patrones en una imagen y cualquier regularidad en la imagen puede usarse para comprimirla. El método describe cada segmento por su textura y forma de límite. Cada uno de estos componentes se modela mediante una función de distribución de probabilidad y su longitud de codificación se calcula de la siguiente manera:
- La codificación de límites aprovecha el hecho de que las regiones en las imágenes naturales tienden a tener un contorno suave. Este prior es utilizado por la codificación de Huffman para codificar el código de cadena de diferencia de los contornos en una imagen. Por lo tanto, cuanto más suave es un límite, menor longitud de codificación alcanza.
- La textura se codifica mediante compresión con pérdida de una manera similar al principio de longitud mínima de descripción (MDL), pero aquí la longitud de los datos dados al modelo se aproxima por el número de muestras multiplicado por la entropía del modelo. La textura en cada región está modelada por una distribución normal multivariante cuya entropía tiene una expresión de forma cerrada. Una propiedad interesante de este modelo es que la entropía estimada limita la entropía verdadera de los datos de arriba. Esto se debe a que entre todas las distribuciones con una media y covarianza dadas, la distribución normal tiene la entropía más grande. Por lo tanto, la verdadera longitud de la codificación no puede ser mayor que la que el algoritmo intenta minimizar.
Para cualquier segmentación dada de una imagen, este esquema produce el número de bits necesarios para codificar esa imagen en función de la segmentación dada. Por tanto, entre todas las segmentaciones posibles de una imagen, el objetivo es encontrar la segmentación que produzca la longitud de codificación más corta. Esto se puede lograr mediante un método simple de agrupamiento aglomerativo. La distorsión en la compresión con pérdida determina la aspereza de la segmentación y su valor óptimo puede diferir para cada imagen. Este parámetro se puede estimar heurísticamente a partir del contraste de texturas en una imagen. Por ejemplo, cuando las texturas de una imagen son similares, como en las imágenes de camuflaje, se requiere una mayor sensibilidad y, por lo tanto, una menor cuantificación.
Métodos basados en histogramas
Los métodos basados en histogramas son muy eficientes en comparación con otros métodos de segmentación de imágenes porque normalmente solo requieren una pasada a través de los píxeles . En esta técnica, se calcula un histograma a partir de todos los píxeles de la imagen y los picos y valles del histograma se utilizan para localizar los grupos en la imagen. [1] El color o la intensidad se pueden utilizar como medida.
Un perfeccionamiento de esta técnica consiste en aplicar de forma recursiva el método de búsqueda de histograma a los grupos de la imagen para dividirlos en grupos más pequeños. Esta operación se repite con grupos cada vez más pequeños hasta que no se forman más grupos. [1] [21]
Una desventaja del método de búsqueda de histogramas es que puede resultar difícil identificar picos y valles significativos en la imagen.
Los enfoques basados en histogramas también se pueden adaptar rápidamente para aplicarlos a múltiples fotogramas, mientras se mantiene la eficiencia de una sola pasada. El histograma se puede realizar de varias formas cuando se consideran varios fotogramas. El mismo enfoque que se adopta con un fotograma se puede aplicar a varios y, una vez fusionados los resultados, es más probable que se distingan los picos y valles que antes eran difíciles de identificar. El histograma también se puede aplicar por píxel donde la información resultante se utiliza para determinar el color más frecuente para la ubicación del píxel. Este enfoque segmenta en función de objetos activos y un entorno estático, lo que da como resultado un tipo diferente de segmentación útil en el seguimiento de video .
Detección de bordes
La detección de bordes es un campo bien desarrollado en sí mismo dentro del procesamiento de imágenes. Los límites y los bordes de la región están estrechamente relacionados, ya que a menudo hay un ajuste brusco de intensidad en los límites de la región. Por tanto, las técnicas de detección de bordes se han utilizado como base de otra técnica de segmentación.
Los bordes identificados por la detección de bordes a menudo están desconectados. Sin embargo, para segmentar un objeto de una imagen, se necesitan límites de región cerrados. Los bordes deseados son los límites entre tales objetos o taxones espaciales. [22] [23]
Los taxones espaciales [24] son gránulos de información, [25] que consisten en una región de píxeles nítida, estacionada en niveles de abstracción dentro de una arquitectura de escena anidada jerárquica. Son similares a la designación psicológica Gestalt de figura-fondo, pero se extienden para incluir el primer plano, grupos de objetos, objetos y partes de objetos salientes. Los métodos de detección de bordes se pueden aplicar a la región del taxón espacial, de la misma manera que se aplicarían a una silueta. Este método es particularmente útil cuando el borde desconectado es parte de un contorno ilusorio [26] [27]
Los métodos de segmentación también se pueden aplicar a los bordes obtenidos de los detectores de bordes. Lindeberg y Li [28] desarrollaron un método integrado que segmenta los bordes en segmentos de borde rectos y curvos para el reconocimiento de objetos basado en partes, basado en un criterio de longitud mínima de descripción (M DL ) que se optimizó mediante un método similar a dividir y fusionar con puntos de corte candidatos obtenidos de señales de unión complementarias para obtener puntos más probables en los que considerar particiones en diferentes segmentos.
Método de agrupación dual
Este método es una combinación de tres características de la imagen: la partición de la imagen basada en el análisis de histograma se verifica por la alta compacidad de los grupos (objetos) y los altos gradientes de sus bordes. Para ello hay que introducir dos espacios: un espacio es el histograma unidimensional de brillo H = H ( B ); el segundo espacio es el espacio tridimensional dual de la propia imagen original B = B ( x , y ). El primer espacio permite medir cuán compacta se distribuye el brillo de la imagen calculando un mínimo de agrupamiento kmin. El brillo de umbral T correspondiente a kmin define la imagen binaria (en blanco y negro) - mapa de bits b = φ ( x , y ), donde φ ( x , y ) = 0, si B ( x , y ) < T , y φ ( x , y ) = 1, si B ( x , Y ) ≥ T . El mapa de bits b es un objeto en el espacio dual. En ese mapa de bits se debe definir una medida que refleje cuán compactos son los píxeles negros (o blancos) distribuidos. Entonces, el objetivo es encontrar objetos con buenos bordes. Para todo T, se debe calcular la medida M DC = G / ( k × L ) (donde k es la diferencia de brillo entre el objeto y el fondo, L es la longitud de todos los bordes y G es el gradiente medio en los bordes). El máximo de MDC define la segmentación. [29]
Métodos de cultivo regional
Los métodos de crecimiento regional se basan principalmente en la suposición de que los píxeles vecinos dentro de una región tienen valores similares. El procedimiento común es comparar un píxel con sus vecinos. Si se satisface un criterio de similitud, el píxel se puede configurar para que pertenezca al mismo grupo que uno o más de sus vecinos. La selección del criterio de similitud es significativa y los resultados están influenciados por el ruido en todos los casos.
El método de Fusión de Región Estadística [30] (SRM) comienza construyendo el gráfico de píxeles usando conectividad 4 con bordes ponderados por el valor absoluto de la diferencia de intensidad. Inicialmente, cada píxel forma una región de un solo píxel. SRM luego clasifica esos bordes en una cola de prioridad y decide si fusionar o no las regiones actuales que pertenecen a los píxeles del borde usando un predicado estadístico.
Un método de cultivo de regiones es el método de cultivo de regiones sembradas. Este método toma un conjunto de semillas como entrada junto con la imagen. Las semillas marcan cada uno de los objetos a segmentar. Las regiones se hacen crecer de forma iterativa mediante la comparación de todos los píxeles vecinos no asignados a las regiones. La diferencia entre el valor de intensidad de un píxel y la media de la región,, se utiliza como medida de similitud . El píxel con la diferencia más pequeña medida de esta manera se asigna a la región respectiva. Este proceso continúa hasta que todos los píxeles se asignan a una región. Debido a que el crecimiento de la región sembrada requiere semillas como entrada adicional, los resultados de la segmentación dependen de la elección de las semillas, y el ruido en la imagen puede hacer que las semillas se coloquen mal.
Otro método de cultivo de regiones es el método de cultivo de regiones sin semillas. Es un algoritmo modificado que no requiere semillas explícitas. Comienza con una sola región—El píxel elegido aquí no influye notablemente en la segmentación final. En cada iteración, considera los píxeles vecinos de la misma manera que el crecimiento de la región sembrada. Se diferencia de la región sembrada que crece en que si el mínimo es menor que un umbral predefinido luego se agrega a la región respectiva . De lo contrario, el píxel se considera diferente de todas las regiones actuales. y una nueva región se crea con este píxel.
Una variante de esta técnica, propuesta por Haralick y Shapiro (1985), [1] se basa en la intensidad de los píxeles . La media y la dispersión de la región y la intensidad del píxel candidato se utilizan para calcular una estadística de prueba. Si la estadística de prueba es lo suficientemente pequeña, el píxel se agrega a la región y se vuelven a calcular la media y la dispersión de la región. De lo contrario, el píxel se rechaza y se utiliza para formar una nueva región.
Un método especial de crecimiento regional se llama -segmentación conectada (ver también conexión lambda ). Se basa en intensidades de píxeles y rutas de vinculación de vecindarios. Un grado de conectividad (conectividad) se calcula en función de una ruta formada por píxeles. Por un cierto valor de, dos píxeles se llaman -conectado si hay una ruta que une esos dos píxeles y la conexión de esta ruta es al menos . -la conexión es una relación de equivalencia. [31]
La segmentación dividida y fusionada se basa en una partición de cuatro árboles de una imagen. A veces se denomina segmentación de cuatro árboles.
Este método comienza en la raíz del árbol que representa la imagen completa. Si se encuentra que no es uniforme (no homogéneo), se divide en cuatro cuadrados secundarios (el proceso de división), y así sucesivamente. Si, por el contrario, cuatro cuadrados secundarios son homogéneos, se fusionan como varios componentes conectados (el proceso de fusión). El nodo del árbol es un nodo segmentado. Este proceso continúa de forma recursiva hasta que no sean posibles más divisiones o fusiones. [32] [33] Cuando una estructura de datos especial está involucrada en la implementación del algoritmo del método, su complejidad de tiempo puede alcanzar, un algoritmo óptimo del método. [34]
Métodos basados en ecuaciones diferenciales parciales
Utilizando un método basado en ecuaciones diferenciales parciales (PDE) y resolviendo la ecuación PDE mediante un esquema numérico, se puede segmentar la imagen. [35] La propagación de curvas es una técnica popular en esta categoría, con numerosas aplicaciones para la extracción de objetos, seguimiento de objetos, reconstrucción estéreo, etc. La idea central es evolucionar una curva inicial hacia el potencial más bajo de una función de costo, donde su definición refleja la tarea a abordar. Como para la mayoría de los problemas inversos , la minimización del costo funcional no es trivial e impone ciertas restricciones de suavidad a la solución, que en el presente caso pueden expresarse como restricciones geométricas en la curva evolutiva.
Métodos paramétricos
Las técnicas lagrangianas se basan en parametrizar el contorno según alguna estrategia de muestreo y luego evolucionar cada elemento según imagen y términos internos. Estas técnicas son rápidas y eficientes, sin embargo, la formulación original "puramente paramétrica" (debida a Kass, Witkin y Terzopoulos en 1987 y conocida como " serpientes "), es generalmente criticada por sus limitaciones en cuanto a la elección de la estrategia de muestreo, las propiedades geométricas internas. de la curva, cambios de topología (división y fusión de curvas), solución de problemas en dimensiones superiores, etc. Hoy en día, se han desarrollado formulaciones eficientes "discretizadas" para abordar estas limitaciones manteniendo una alta eficiencia. En ambos casos, la minimización de energía se lleva a cabo generalmente utilizando un descenso de gradiente más pronunciado, mediante el cual las derivadas se calculan utilizando, por ejemplo, diferencias finitas.
Métodos de nivel
El método de conjunto de niveles fue propuesto inicialmente para rastrear interfaces en movimiento por Dervieux y Thomasset [36] [37] en 1979 y 1981 y luego fue reinventado por Osher y Sethian en 1988. [38] Esto se ha extendido a varios dominios de imágenes en los últimos años. Década de 1990. Se puede utilizar para abordar de manera eficiente el problema de la curva / superficie / etc. propagación de manera implícita. La idea central es representar el contorno en evolución mediante una función con signo cuyo cero corresponde al contorno real. Entonces, de acuerdo con la ecuación de movimiento del contorno, se puede derivar fácilmente un flujo similar para la superficie implícita que cuando se aplica al nivel cero reflejará la propagación del contorno. El método de conjunto de niveles ofrece numerosas ventajas: es implícito, no tiene parámetros, proporciona una forma directa de estimar las propiedades geométricas de la estructura en evolución, permite el cambio de topología y es intrínseco. Se puede utilizar para definir un marco de optimización, como lo propusieron Zhao, Merriman y Osher en 1996. Se puede concluir que es un marco muy conveniente para abordar numerosas aplicaciones de visión por computadora y análisis de imágenes médicas. [39] La investigación en varias estructuras de datos de conjuntos de niveles ha llevado a implementaciones muy eficientes de este método.
Métodos de marcha rápida
El método de marcha rápida se ha utilizado en la segmentación de imágenes, [40] y este modelo se ha mejorado (permitiendo velocidades de propagación tanto positivas como negativas) en un enfoque llamado método de marcha rápida generalizada. [41]
Métodos variacionales
El objetivo de los métodos variacionales es encontrar una segmentación que sea óptima con respecto a una función energética específica. Los funcionales consisten en un término de ajuste de datos y un término de regularización. Un representante clásico es el modelo de Potts definido para una imagen. por
Un minimizador es una imagen constante por partes que tiene un equilibrio óptimo entre la distancia L2 al cuadrado de la imagen dada y la longitud total de su conjunto de salto. El conjunto de salto dedefine una segmentación. El peso relativo de las energías se ajusta mediante el parámetro. La variante binaria del modelo de Potts, es decir, si el rango deestá restringido a dos valores, a menudo se denomina modelo de Chan- Vese . [42] Una generalización importante es el modelo de Mumford-Shah [43] dado por
El valor funcional es la suma de la longitud total de la curva de segmentación. , la suavidad de la aproximación y su distancia a la imagen original. . El peso de la penalización de suavidad se ajusta mediante. El modelo de Potts a menudo se denomina modelo de Mumford-Shah constante por partes, ya que puede verse como el caso degenerado. Se sabe que los problemas de optimización son NP difíciles en general, pero las estrategias de casi minimización funcionan bien en la práctica. Los algoritmos clásicos son la no convexidad graduada y la aproximación de Ambrosio-Tortorelli .
Métodos de partición de gráficos
Los métodos de partición de gráficos son herramientas efectivas para la segmentación de imágenes, ya que modelan el impacto de las vecindades de píxeles en un grupo de píxeles o píxel dado, bajo el supuesto de homogeneidad en las imágenes. En estos métodos, la imagen se modela como un gráfico no dirigido y ponderado . Por lo general, un píxel o un grupo de píxeles están asociados con nodos y los pesos de los bordes definen la (dis) similitud entre los píxeles vecinos. Luego, el gráfico (imagen) se particiona de acuerdo con un criterio diseñado para modelar agrupaciones "buenas". Cada partición de los nodos (píxeles) de salida de estos algoritmos se considera un segmento de objeto en la imagen. Algunos algoritmos populares de esta categoría son cortes normalizados, [44] caminante aleatorio , [45] corte mínimo, [46] partición isoperimétrica, [47] segmentación mínima basada en árbol de expansión , [48] y categorización de objetos basada en segmentación .
Campos aleatorios de Markov
La aplicación de campos aleatorios de Markov (MRF) para imágenes fue sugerida a principios de 1984 por Geman y Geman. [49] Su sólida base matemática y su capacidad para proporcionar un óptimo global incluso cuando se definen en características locales demostraron ser la base para una investigación novedosa en el dominio del análisis de imágenes, eliminación de ruido y segmentación. Los MRF se caracterizan completamente por sus distribuciones de probabilidad previas, distribuciones de probabilidad marginal, camarillas , restricción de suavizado y criterio para actualizar los valores. El criterio para la segmentación de imágenes usando MRF se reformula como encontrar el esquema de etiquetado que tiene la máxima probabilidad para un conjunto dado de características. Las amplias categorías de segmentación de imágenes que utilizan MRF son segmentación supervisada y no supervisada.
Segmentación de imágenes supervisada mediante MRF y MAP
En términos de segmentación de imágenes, la función que los MRF buscan maximizar es la probabilidad de identificar un esquema de etiquetado dado que se detecta un conjunto particular de características en la imagen. Esta es una reformulación del método de estimación máxima a posteriori .
El algoritmo genérico para la segmentación de imágenes mediante MAP se muestra a continuación:
- Defina la vecindad de cada característica (variable aleatoria en términos de MRF).
Generalmente esto incluye vecinos de primer o segundo orden. - Establezca las probabilidades iniciales P ( f i ) > para cada característica como 0 o
- donde f i ∈ Σ es el conjunto que contiene las características extraídas
para el píxel iy define un conjunto inicial de clústeres. - Con los datos de entrenamiento, calcule la media ( μ ℓ i ) y la varianza ( σ ℓ i ) para cada etiqueta. Esto se denomina estadísticas de clase.
- Calcule la distribución marginal para el esquema de etiquetado dado P ( f i | ℓ i ) utilizando el teorema de Bayes y las estadísticas de clase calculadas anteriormente. Se utiliza un modelo gaussiano para la distribución marginal.
- Calcule la probabilidad de cada etiqueta de clase dada la vecindad definida previamente.
Los potenciales de la camarilla se utilizan para modelar el impacto social en el etiquetado. - Repita las nuevas probabilidades previas y redefina los conglomerados de modo que estas probabilidades se maximicen.
Esto se hace utilizando una variedad de algoritmos de optimización que se describen a continuación. - Deténgase cuando la probabilidad se maximice y el esquema de etiquetado no cambie.
Los cálculos también se pueden implementar en términos de probabilidad logarítmica .
Algoritmos de optimización
Cada algoritmo de optimización es una adaptación de modelos de una variedad de campos y se distinguen por sus funciones de costo únicas. El rasgo común de las funciones de costo es penalizar el cambio en el valor del píxel, así como la diferencia en la etiqueta del píxel en comparación con las etiquetas de los píxeles vecinos.
Modos condicionales iterados / descenso de gradiente
El algoritmo de modos condicionales iterados (ICM) intenta reconstruir el esquema de etiquetado ideal cambiando los valores de cada píxel en cada iteración y evaluando la energía del nuevo esquema de etiquetado utilizando la función de costo que se indica a continuación,
donde α es la penalización por el cambio en la etiqueta del píxel y β es la penalización por la diferencia en la etiqueta entre los píxeles vecinos y el píxel elegido. Aquíes la vecindad del píxel iy δ es la función delta de Kronecker. Un problema importante con ICM es que, similar al descenso de gradiente, tiene una tendencia a descansar sobre los máximos locales y, por lo tanto, no obtiene un esquema de etiquetado óptimo a nivel mundial.
Recocido simulado (SA)
Derivado como un análogo del recocido en metalurgia, el recocido simulado (SA) utiliza el cambio en la etiqueta de píxel en iteraciones y estima la diferencia de energía de cada gráfico recién formado con respecto a los datos iniciales. Si el gráfico recién formado es más rentable, en términos de bajo coste energético, dado por:
el algoritmo selecciona el gráfico recién formado. El recocido simulado requiere la entrada de programas de temperatura que afectan directamente la velocidad de convergencia del sistema, así como el umbral de energía para que se produzca la minimización.
Algoritmos alternativos
Existe una variedad de otros métodos para resolver MRF simples y de orden superior. Incluyen Maximización del margen posterior, estimación de MAP multiescala, [50] Segmentación de resolución múltiple [51] y más. Aparte de las estimaciones de probabilidad, existen cortes de gráficos que utilizan el flujo máximo [52] y otros métodos basados en gráficos muy restringidos [53] [54] para resolver las MRF.
Segmentación de imágenes mediante MRF y maximización de expectativas
El algoritmo de expectativa-maximización se utiliza para estimar iterativamente las probabilidades y distribuciones posteriores del etiquetado cuando no hay datos de entrenamiento disponibles y no se puede formar una estimación del modelo de segmentación. Un enfoque general es utilizar histogramas para representar las características de una imagen y proceder como se describe brevemente en este algoritmo de tres pasos:
1. Se utiliza una estimación aleatoria de los parámetros del modelo.
2. Paso E: Estimar las estadísticas de clase basadas en el modelo de segmentación aleatoria definido. Usando estos, calcule la probabilidad condicional de pertenecer a una etiqueta dado que el conjunto de características se calcula utilizando el teorema de Bayes ingenuo .
Aquí , el conjunto de todas las etiquetas posibles.
3. Paso M: La relevancia establecida de un conjunto de características dado para un esquema de etiquetado se usa ahora para calcular la estimación a priori de una etiqueta dada en la segunda parte del algoritmo. Dado que se desconoce el número real de etiquetas totales (de un conjunto de datos de entrenamiento), en los cálculos se utiliza una estimación oculta del número de etiquetas dadas por el usuario.
dónde es el conjunto de todas las características posibles.
Desventajas de la segmentación de imágenes basada en MAP y EM
- Las estimaciones de MAP exactas no se pueden calcular fácilmente.
- Las estimaciones de MAP aproximadas son computacionalmente costosas de calcular.
- La extensión al etiquetado de clases múltiples degrada el rendimiento y aumenta el almacenamiento requerido.
- Se requiere una estimación confiable de los parámetros para EM para lograr los óptimos globales.
- Según el método de optimización, la segmentación puede agruparse en mínimos locales.
Transformación de cuencas
La transformación de la cuenca hidrográfica considera la magnitud del gradiente de una imagen como una superficie topográfica. Los píxeles que tienen las intensidades de magnitud de gradiente más altas (GMI) corresponden a líneas de cuencas hidrográficas, que representan los límites de la región. El agua colocada en cualquier píxel encerrado por una línea divisoria de aguas común fluye cuesta abajo hasta un mínimo de intensidad local común (LIM). Los píxeles que drenan a un mínimo común forman una cuenca de captura, que representa un segmento. .
Segmentación basada en modelos
El supuesto central de los enfoques basados en modelos es que las estructuras de interés tienen una tendencia hacia una forma particular. Por tanto, se puede buscar un modelo probabilístico que caracterice la forma y su variación. Al segmentar una imagen, se pueden imponer restricciones utilizando este modelo como a priori. [55] Tal tarea puede involucrar (i) el registro de los ejemplos de entrenamiento en una pose común, (ii) la representación probabilística de la variación de las muestras registradas, y (iii) la inferencia estadística entre el modelo y la imagen. Otros métodos importantes en la literatura para la segmentación basada en modelos incluyen modelos de forma activa y modelos de apariencia activa .
Segmentación multiescala
Las segmentaciones de imágenes se calculan a múltiples escalas en el espacio de escala y, a veces, se propagan de escalas gruesas a finas; ver la segmentación del espacio de escala .
Los criterios de segmentación pueden ser arbitrariamente complejos y pueden tener en cuenta tanto criterios globales como locales. Un requisito común es que cada región debe estar conectada en algún sentido.
Segmentación de señales jerárquica unidimensional
El trabajo fundamental de Witkin [56] [57] en el espacio de escala incluyó la noción de que una señal unidimensional podría segmentarse inequívocamente en regiones, con un parámetro de escala controlando la escala de segmentación.
Una observación clave es que los cruces por cero de las segundas derivadas (mínimos y máximos de la primera derivada o pendiente) de versiones suavizadas en múltiples escalas de una señal forman un árbol de anidación, que define relaciones jerárquicas entre segmentos a diferentes escalas. Específicamente, los extremos de la pendiente a escalas gruesas se pueden rastrear hasta las características correspondientes a escalas finas. Cuando un máximo de pendiente y un mínimo de pendiente se aniquilan entre sí a una escala mayor, los tres segmentos que separaron se fusionan en un solo segmento, definiendo así la jerarquía de segmentos.
Segmentación de imágenes y boceto primario
Ha habido numerosos trabajos de investigación en esta área, de los cuales algunos han alcanzado un estado en el que se pueden aplicar con intervención manual interactiva (generalmente con aplicación a imágenes médicas) o de forma totalmente automática. La siguiente es una breve descripción de algunas de las principales ideas de investigación en las que se basan los enfoques actuales.
Sin embargo, la estructura de anidamiento que describió Witkin es específica para señales unidimensionales y no se transfiere trivialmente a imágenes de dimensiones superiores. Sin embargo, esta idea general ha inspirado a varios otros autores a investigar esquemas gruesos a finos para la segmentación de imágenes. Koenderink [58] propuso estudiar cómo los contornos de isointensidad evolucionan sobre escalas y este enfoque fue investigado con más detalle por Lifshitz y Pizer. [59] Desafortunadamente, sin embargo, la intensidad de las características de la imagen cambia en las escalas, lo que implica que es difícil rastrear las características de la imagen de escala gruesa a escalas más finas utilizando información de isointensidad.
Lindeberg [60] [61] estudió el problema de vincular los extremos locales y los puntos de silla sobre escalas, y propuso una representación de imagen llamada boceto primario de espacio de escala que hace explícitas las relaciones entre estructuras a diferentes escalas y también hace explícito qué características de la imagen son estables en amplios rangos de escala, incluidas las escalas apropiadas localmente para esos. Bergholm propuso detectar bordes a escalas gruesas en el espacio de escala y luego rastrearlos hasta escalas más finas con la elección manual de la escala de detección gruesa y la escala de localización fina.
Gauch y Pizer [62] estudiaron el problema complementario de las crestas y los valles a múltiples escalas y desarrollaron una herramienta para la segmentación de imágenes interactiva basada en cuencas hidrográficas de múltiples escalas. El uso de cuencas hidrográficas multiescala con aplicación al mapa de gradiente también ha sido investigado por Olsen y Nielsen [63] y Dam lo ha trasladado al uso clínico. [64] Vincken y col. [65] propuso una hiperestack para definir relaciones probabilísticas entre estructuras de imágenes a diferentes escalas. Ahuja [66] [67] y sus colaboradores han promovido el uso de estructuras de imágenes estables sobre escalas en un sistema completamente automatizado. Undeman y Lindeberg [68] han presentado un algoritmo de segmentación del cerebro totalmente automático basado en ideas estrechamente relacionadas de cuencas hidrográficas de múltiples escalas, que ha sido probado en bases de datos cerebrales.
Florack y Kuijper también han recogido estas ideas para la segmentación de imágenes multiescala mediante la vinculación de estructuras de imágenes sobre escalas. [69] Bijaoui y Rué [70] asocian estructuras detectadas en el espacio de escala por encima de un umbral de ruido mínimo en un árbol de objetos que abarca múltiples escalas y corresponde a un tipo de característica en la señal original. Las características extraídas se reconstruyen con precisión utilizando un método iterativo de matriz de gradiente conjugado.
Segmentación semiautomática
En un tipo de segmentación, el usuario describe la región de interés con los clics del mouse y se aplican algoritmos para que se muestre la ruta que mejor se ajusta al borde de la imagen.
En este tipo de segmentación se utilizan técnicas como SIOX , Livewire , Intelligent Scissors o IT-SNAPS. En un tipo alternativo de segmentación semiautomática, los algoritmos devuelven un taxón espacial (es decir, primer plano, grupo de objetos, objeto o parte de objeto) seleccionado por el usuario o designado mediante probabilidades previas. [71] [72]
Segmentación entrenable
La mayoría de los métodos de segmentación mencionados anteriormente se basan únicamente en la información de color de los píxeles de la imagen. Los seres humanos usan mucho más conocimiento al realizar la segmentación de imágenes, pero implementar este conocimiento costaría un tiempo considerable de ingeniería y computación humana, y requeriría una enorme base de datos de conocimiento de dominio que no existe actualmente. Los métodos de segmentación entrenables, como la segmentación de redes neuronales , superan estos problemas modelando el conocimiento del dominio a partir de un conjunto de datos de píxeles etiquetados.
Una red neuronal de segmentación de imágenes puede procesar pequeñas áreas de una imagen para extraer características simples como bordes. [73] Otra red neuronal, o cualquier mecanismo de toma de decisiones, puede combinar estas características para etiquetar las áreas de una imagen en consecuencia. Un tipo de red diseñada de esta manera es el mapa de Kohonen .
Las redes neuronales acopladas por pulsos (PCNN) son modelos neuronales propuestos mediante el modelado de la corteza visual de un gato y desarrollados para el procesamiento de imágenes biomiméticas de alto rendimiento . En 1989, Reinhard Eckhorn introdujo un modelo neuronal para emular el mecanismo de la corteza visual de un gato. El modelo de Eckhorn proporcionó una herramienta simple y eficaz para estudiar la corteza visual de los pequeños mamíferos, y pronto se reconoció que tenía un potencial de aplicación significativo en el procesamiento de imágenes. En 1994, el modelo de Eckhorn fue adaptado para ser un algoritmo de procesamiento de imágenes por John L. Johnson, quien denominó a este algoritmo Red neuronal acoplada por pulsos. [74] Durante la última década, los PCNN se han utilizado para una variedad de aplicaciones de procesamiento de imágenes, que incluyen: segmentación de imágenes, generación de características, extracción de rostros, detección de movimiento, crecimiento de regiones, reducción de ruido, etc. Un PCNN es una red neuronal bidimensional. Cada neurona de la red corresponde a un píxel en una imagen de entrada, y recibe la información de color de su píxel correspondiente (por ejemplo, intensidad) como un estímulo externo. Cada neurona también se conecta con sus vecinas, recibiendo estímulos locales de ellas. Los estímulos externos y locales se combinan en un sistema de activación interno, que acumula los estímulos hasta que supera un umbral dinámico, dando como resultado una salida de pulsos. A través de la computación iterativa, las neuronas PCNN producen series temporales de salidas de pulsos. La serie temporal de salidas de pulsos contiene información de imágenes de entrada y se puede utilizar para diversas aplicaciones de procesamiento de imágenes, como la segmentación de imágenes y la generación de características. En comparación con los medios de procesamiento de imágenes convencionales, los PCNN tienen varios méritos importantes, incluida la robustez contra el ruido, la independencia de las variaciones geométricas en los patrones de entrada, la capacidad de salvar variaciones menores de intensidad en los patrones de entrada, etc.
U-Net es una red neuronal convolucional que toma como entrada una imagen y genera una etiqueta para cada píxel. [75] U-Net se desarrolló inicialmente para detectar límites de células en imágenes biomédicas. U-Net sigue la arquitectura de autocodificador clásica , como tal, contiene dos subestructuras. La estructura del codificador sigue la pila tradicional de capas de agrupación máxima y convolucional para aumentar el campo receptivo a medida que atraviesa las capas. Se utiliza para capturar el contexto en la imagen. La estructura del decodificador utiliza capas de convolución transpuestas para el muestreo ascendente de modo que las dimensiones de los extremos estén cerca de las de la imagen de entrada. Las conexiones de salto se colocan entre las capas de convolución y convolución transpuesta de la misma forma para preservar los detalles que se habrían perdido de otra manera.
Además de las tareas de segmentación semántica a nivel de píxel que asignan una categoría determinada a cada píxel, las aplicaciones modernas de segmentación incluyen tareas de segmentación semántica a nivel de instancia en las que cada individuo de una categoría determinada debe estar identificado de forma única, así como tareas de segmentación panóptica que combinan estas dos tareas para proporcionar una segmentación de escenas más completa. [76]
Las imágenes relacionadas, como un álbum de fotos o una secuencia de fotogramas de vídeo, a menudo contienen escenas y objetos semánticamente similares, por lo que a menudo es beneficioso aprovechar estas correlaciones. [77] La tarea de segmentar simultáneamente escenas a partir de imágenes o fotogramas de vídeo relacionados se denomina co-segmentación , [11] que se utiliza normalmente en la localización de acciones humanas . A diferencia de la detección de objetos convencional basada en recuadros delimitadores , los métodos de localización por acción humana proporcionan resultados más precisos, normalmente máscaras de segmentación por imagen que delimitan el objeto humano de interés y su categoría de acción (por ejemplo, Segment-Tube [12] ). A menudo se emplean técnicas como las redes dinámicas de Markov , CNN y LSTM para explotar las correlaciones entre cuadros.
Otros metodos
Hay muchos otros métodos de segmentación como la segmentación multiespectral o la segmentación basada en la conectividad basada en imágenes DTI . [78] [79]
Benchmarking de segmentación
Hay varios puntos de referencia de segmentación disponibles para comparar el rendimiento de los métodos de segmentación con los métodos de segmentación de última generación en conjuntos estandarizados:
- Punto de referencia de segmentación de texturas en línea de Praga [80]
- Benchmark y conjunto de datos de segmentación de Berkeley [81]
Ver también
- Co-segmentación de objetos
- Visión por computador
- Mallado basado en imágenes
- Segmentación de imágenes de rango
- Cuantización vectorial
- Cuantización de imágenes
- Cuantización de color
- Análisis de imágenes basado en objetos
- Lista de herramientas manuales de anotación de imágenes
Notas
- ^ a b c d e Linda G. Shapiro y George C. Stockman (2001): “Computer Vision”, págs. 279–325, Nueva Jersey, Prentice-Hall, ISBN 0-13-030796-3
- ^ Barghout, Lauren y Lawrence W. Lee. "Sistema de procesamiento de información perceptual". Paravue Inc. Solicitud de patente estadounidense 10 / 618,543, presentada el 11 de julio de 2003.
- ^ Zachow, Stefan, Michael Zilske y Hans-Christian Hege. " Reconstrucción 3D de anatomía individual a partir de datos de imágenes médicas: procesamiento de segmentación y geometría ". (2007).
- ^ Belongie, Serge, et al. " Segmentación de imágenes basada en colores y texturas usando EM y su aplicación a la recuperación de imágenes basada en contenido ". Sexta Conferencia Internacional sobre Visión por Computador (IEEE Cat. No. 98CH36271). IEEE, 1998.
- ^ Pham, Dzung L .; Xu, Chenyang; Prince, Jerry L. (2000). "Métodos actuales en la segmentación de imágenes médicas". Revisión anual de Ingeniería Biomédica . 2 : 315–337. doi : 10.1146 / annurev.bioeng.2.1.315 . PMID 11701515 .
- ^ Forghani, M .; Forouzanfar, M .; Teshnehlab, M. (2010). "Optimización de parámetros de algoritmo de agrupamiento en clústeres difuso c-significa mejorado para segmentación de imágenes de RM cerebral". Aplicaciones de ingeniería de la inteligencia artificial . 23 (2): 160–168. doi : 10.1016 / j.engappai.2009.10.002 .
- ^ W. Wu, AYC Chen, L. Zhao y JJ Corso (2014): "Detección y segmentación de tumores cerebrales en un marco CRF con afinidad por pares de píxeles y características a nivel de superpíxeles", International Journal of Computer Aided Radiology and Surgery, págs. 241-253, vol. 9.
- ^ EB George y M. Karnan (2012): " Segmentación de la imagen del cerebro MR utilizando el algoritmo de optimización de búsqueda de bacterias ", Revista internacional de ingeniería y tecnología , vol. 4.
- ^ Kamalakannan, Sridharan; Gururajan, Arunkumar; Sari-Sarraf, Hamed; Rodney, Long; Antani, Sameer (17 de febrero de 2010). "Detección de doble filo de imágenes radiográficas de vértebras lumbares utilizando serpientes DGVF abiertas presurizadas". Transacciones IEEE sobre ingeniería biomédica . 57 (6): 1325-1334. doi : 10.1109 / tbme.2010.2040082 . PMID 20172792 . S2CID 12766600 .
- ^ JA Delmerico, P. David y JJ Corso (2011): " Detección de fachadas de edificios, segmentación y estimación de parámetros para la localización y orientación de robots móviles ", Conferencia internacional sobre sistemas y robots inteligentes, págs. 1632-1639.
- ^ a b Liu, Ziyi; Wang, Le; Hua, Gang; Zhang, Qilin; Niu, Zhenxing; Wu, Ying; Zheng, Nanning (2018). "Descubrimiento y segmentación conjunta de objetos de vídeo mediante redes de Markov dinámicas acopladas" (PDF) . Transacciones IEEE sobre procesamiento de imágenes . 27 (12): 5840–5853. Código bibliográfico : 2018ITIP ... 27.5840L . doi : 10.1109 / tip.2018.2859622 . ISSN 1057-7149 . PMID 30059300 . S2CID 51867241 .
- ^ a b Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (22 de mayo de 2018). "Segment-Tube: localización de acciones espacio-temporales en videos sin recortar con segmentación por cuadro" (PDF) . Sensores . 18 (5): 1657. doi : 10.3390 / s18051657 . ISSN 1424-8220 . PMC 5982167 . PMID 29789447 .
- ^ Guo, Dazhou; Pei, Yanting; Zheng, Kang; Yu, Hongkai; Lu, Yuhang; Wang, canción (2020). "Segmentación semántica de imagen degradada con redes de densos gramos" . Transacciones IEEE sobre procesamiento de imágenes . 29 : 782–795. doi : 10.1109 / TIP.2019.2936111 . ISSN 1057-7149 .
- ^ Yi, Jingru; Wu, Pengxiang; Jiang, Menglin; Huang, Qiaoying; Hoeppner, Daniel J .; Metaxas, Dimitris N. (julio de 2019). "Segmentación atenta de instancias de células neuronales". Análisis de imágenes médicas . 55 : 228–240. doi : 10.1016 / j.media.2019.05.004 .
- ^ Batenburg, K J .; Sijbers, J. (2009). "Umbral adaptativo de tomogramas por minimización de la distancia de proyección". Reconocimiento de patrones . 42 (10): 2297–2305. CiteSeerX 10.1.1.182.8483 . doi : 10.1016 / j.patcog.2008.11.027 .
- ^ Batenburg, K J .; Sijbers, J. (junio de 2009). "Selección de umbral óptimo para la segmentación del tomograma mediante la minimización de la distancia de proyección" . Transacciones IEEE sobre imágenes médicas . 28 (5): 676–686. doi : 10.1109 / tmi.2008.2010437 . PMID 19272989 . S2CID 10994501 . Archivado desde el original (PDF) el 3 de mayo de 2013 . Consultado el 31 de julio de 2012 .
- ^ Kashanipour, A .; Milani, N; Kashanipour, A .; Eghrary, H. (mayo de 2008). "Clasificación de color robusta mediante optimización de enjambre de partículas basada en reglas difusas". Congreso IEEE sobre procesamiento de imágenes y señales . 2 : 110-114. doi : 10.1109 / CISP.2008.770 . ISBN 978-0-7695-3119-9. S2CID 8422475 .
- ^ Barghout, Lauren; Sheynin, Jacob (2013). "Percepción de la escena del mundo real y organización perceptiva: lecciones de la visión por computadora" . Revista de visión . 13 (9): 709. doi : 10.1167 / 13.9.709 .
- ^ Hossein Mobahi; Shankar Rao; Allen Yang; Shankar Sastry; Yi Ma. (2011). "Segmentación de imágenes naturales por textura y compresión de límites" (PDF) . Revista Internacional de Visión por Computador . 95 : 86–98. arXiv : 1006.3679 . CiteSeerX 10.1.1.180.3579 . doi : 10.1007 / s11263-011-0444-0 . S2CID 11070572 . Archivado desde el original (PDF) el 8 de agosto de 2017 . Consultado el 8 de mayo de 2011 .
- ^ Shankar Rao, Hossein Mobahi, Allen Yang, Shankar Sastry y Yi Ma Natural Image Segmentation with Adaptive Texture and Boundary Encoding Archivado el19 de mayo de 2016en Wayback Machine , Actas de la Conferencia Asiática sobre Visión por Computador (ACCV) 2009, H. Zha, R.-i. Taniguchi y S. Maybank (Eds.), Parte I, LNCS 5994, págs. 135-146, Springer.
- ^ Ohlander, Ron; Price, Keith; Reddy, D. Raj (1978). "Segmentación de imágenes mediante un método de división de región recursiva". Procesamiento de imágenes y gráficos por computadora . 8 (3): 313–333. doi : 10.1016 / 0146-664X (78) 90060-6 .
- ^ R. Kimmel y AM Bruckstein. https://www.cs.technion.ac.il/~ron/PAPERS/Paragios_chapter2003.pdf , Revista Internacional de Visión por Computadora 2003; 53 (3): 225–243.
- ^ R. Kimmel , https://www.cs.technion.ac.il/~ron/PAPERS/laplacian_ijcv2003.pdf , capítulo en Métodos de conjuntos de niveles geométricos en imágenes, visión y gráficos, (S. Osher, N. Paragios, Eds.), Springer Verlag, 2003. ISBN 0387954880
- ^ Barghout, Lauren. Enfoque taxométrico visual La segmentación de imágenes utilizando cortes de taxón espacial difuso rinde regiones contextualmente relevantes . Comunicaciones en Informática y Ciencias de la Información (CCIS). Springer-Verlag. 2014
- ^ Witold Pedrycz (editor), Andrzej Skowron (coeditor), Vladik Kreinovich (coeditor). Manual de Computación Granular. Wiley 2008
- ^ Barghout, Lauren (2014). Visión. El contexto conceptual global cambia el procesamiento del contraste local (Tesis doctoral 2003). Actualizado para incluir técnicas de visión artificial. Prensa académica. ISBN 978-3-639-70962-9 .
- ^ Barghout, Lauren y Lawrence Lee. "Sistema de procesamiento de información perceptual". Patentes de Google
- ^ Lindeberg, T .; Li, M.-X. (1997). "Segmentación y clasificación de aristas mediante aproximación de longitud de descripción mínima y claves de unión complementarias" . Visión por computadora y comprensión de imágenes . 67 (1): 88–98. doi : 10.1006 / cviu.1996.0510 .
- ^ [1] Archivado el 13 de octubre de 2017 en la Wayback Machine Shelia Guberman , Vadim V. Maximov, Alex Pashintsev Gestalt and Image Understanding. TEORÍA DE GESTALT 2012, Vol. 34, N ° 2, 143-166.
- ^ R. Nock y F. Nielsen, Fusión de regiones estadísticas , Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas, Vol 26, No 11, pp 1452-1458, 2004.
- ^ L. Chen, HD Cheng y J. Zhang, Subfibra difusa y su aplicación a la clasificación de litología sísmica , Ciencias de la información: Aplicaciones, Vol 1, No 2, págs. 77–95, 1994.
- ^ SL Horowitz y T. Pavlidis, Segmentación de imágenes mediante un procedimiento de división y fusión dirigida, Proc. ICPR, 1974, Dinamarca, págs. 424–433.
- ^ SL Horowitz y T. Pavlidis, Segmentación de imágenes por un algoritmo transversal de árbol, Diario de la ACM, 23 (1976), págs. 368-388.
- ^ L. Chen, La segmentación con conexión lambda y el algoritmo óptimo para la segmentación de división y fusión , Chinese J. Computers, 14 (1991), págs. 321–331
- ^ Caselles, V .; Kimmel, R .; Sapiro, G. (1997). "Contornos activos geodésicos" (PDF) . Revista Internacional de Visión por Computador . 22 (1): 61–79. doi : 10.1023 / A: 1007979827043 . S2CID 406088 .
- ^ Dervieux, A. y Thomasset, F. 1979. Un método de elementos finitos para la simulación de la inestabilidad de Raleigh-Taylor. Springer Lect. Notes in Math., 771: 145-158.
- ^ Dervieux, A. y Thomasset, F. 1981. Flujos incompresibles multifluidos por un método de elementos finitos . Lecture Notes in Physics, 11: 158-163.
- ^ Osher, Stanley; Sethian, James A (1988). "Frentes que se propagan con velocidad dependiente de la curvatura: algoritmos basados en formulaciones de Hamilton-Jacobi". Revista de Física Computacional . 79 (1): 12–49. Código bibliográfico : 1988JCoPh..79 ... 12O . CiteSeerX 10.1.1.46.1266 . doi : 10.1016 / 0021-9991 (88) 90002-2 . ISSN 0021-9991 .
- ^ S. Osher y N. Paragios. Métodos de establecimiento de niveles geométricos en imágenes, visión y gráficos , Springer Verlag, ISBN 0-387-95488-0 , 2003.
- ^ James A. Sethian. "Segmentación en Imagen Médica" . Consultado el 15 de enero de 2012 .
- ^ Forcadel, Nicolás; Le Guyader, Carole; Gout, Christian (julio de 2008), "Método de marcha rápida generalizada: aplicaciones a la segmentación de imágenes", Algoritmos numéricos , 48 (1–3): 189–211, doi : 10.1007 / s11075-008-9183-x , S2CID 7467344
- ^ Chan, TF; Vese, L. (2001). "Contornos activos sin aristas". Transacciones IEEE sobre procesamiento de imágenes . 10 (2): 266–277. Código Bibliográfico : 2001ITIP ... 10..266C . doi : 10.1109 / 83.902291 . PMID 18249617 .
- ^ David Mumford y Jayant Shah (1989): Aproximaciones óptimas por funciones suaves por partes y problemas variacionales asociados , Comunicaciones sobre matemáticas puras y aplicadas , págs. 577–685, vol. 42, No. 5
- ^ Jianbo Shi y Jitendra Malik (2000): "Cortes normalizados y segmentación de imágenes" , Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas , págs. 888–905, vol. 22, No. 8
- ^ Leo Grady (2006): "Paseos aleatorios para la segmentación de imágenes" , Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas , págs. 1768-1783, vol. 28, No. 11
- ^ Z. Wu y R. Leahy (1993): "Un enfoque teórico de gráficos óptimo para la agrupación de datos: teoría y su aplicación a la segmentación de imágenes" [ enlace muerto permanente ] , IEEE Transactions on Pattern Analysis and Machine Intelligence , págs. 1101-1113 , Vol. 15, No. 11
- ^ Leo Grady y Eric L. Schwartz (2006): "Partición de gráficos isoperimétricos para segmentación de imágenes" Archivado el 19 de julio de 2011 en Wayback Machine , Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas , págs. 469–475, vol. 28, N ° 3
- ^ CT Zahn (1971): "Métodos teóricos de gráficos para detectar y describir agrupaciones gestálticas" , IEEE Transactions on Computers , págs. 68-86, vol. 20, N ° 1
- ^ S. Geman y D. Geman (1984): "Relajación estocástica, distribuciones de Gibbs y restauración bayesiana de imágenes", IEEE Transactions on Pattern Analysis and Machine Intelligence, págs. 721–741, vol. 6, N ° 6.
- ^ A. Bouman y M. Shapiro (2002): "Un modelo de campo aleatorio multiescala para la segmentación de imágenes bayesianas", IEEE Transactions on Image Processing, págs. 162-177, vol. 3.
- ^ J. Liu y YH Yang (1994): " Segmentación de imágenes en color de resolución múltiple ", Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas, págs. 689–700, vol. dieciséis.
- ^ S. Vicente, V. Kolmogorov y C. Rother (2008): " Segmentación de imagen basada en corte de gráfico con antecedentes de conectividad ", CVPR
- ^ Corso, Z. Tu y A. Yuille (2008): "Etiquetado MRF con algoritmo de cambios de gráfico", Actas del taller internacional sobre análisis combinatorio de imágenes
- ^ BJ Frey y D. MacKayan (1997): " Una revolución: propagación de creencias en gráficos con ciclos ", Actas de sistemas de procesamiento de información neuronal (NIPS)
- ^ Staib, LH; Duncan, JS (1992). "Hallazgo de límites con modelos paramétricamente deformables". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 14 (11): 1061–1075. doi : 10.1109 / 34.166621 . ISSN 0162-8828 .
- ^ Witkin, AP "Filtrado de espacio de escala", Proc. 8º Int. Conf. Conjunta Arte. Intell., Karlsruhe, Alemania, 1019-1022, 1983.
- ^ A. Witkin, " Filtro de espacio de escala: un nuevo enfoque para la descripción de múltiples escalas ", en Proc. IEEE Int. Conf. Acoust., Habla, procesamiento de señales ( ICASSP ), vol. 9, San Diego, CA, marzo de 1984, págs. 150-153.
- ^ Koenderink, Jan "La estructura de las imágenes", Biological Cybernetics, 50: 363–370, 1984
- ^ Lifshitz, L. y Pizer, S .: Un enfoque jerárquico de múltiples resoluciones para la segmentación de imágenes basado en extremos de intensidad, IEEE Transactions on Pattern Analysis and Machine Intelligence, 12: 6, 529-540, 1990.
- ^ Lindeberg, T .: Detección de estructuras de imágenes salientes similares a manchas y sus escalas con un boceto primario de espacio de escala: un método para el foco de atención, International Journal of Computer Vision, 11 (3), 283–318, 1993.
- ^ Lindeberg, Tony, Escala Espacial Teoría de la Visión por Computador, Kluwer Academic Publishers, 1994 , ISBN 0-7923-9418-6
- ^ Gauch, J. y Pizer, S .: Análisis multiresolución de crestas y valles en imágenes de escala de grises, IEEE Transactions on Pattern Analysis and Machine Intelligence, 15: 6 (junio de 1993), páginas: 635–646, 1993.
- ^ Olsen, O. y Nielsen, M .: Segmentación de cuencas hidrográficas de magnitud de gradiente multiescala , Proc. de ICIAP 97, Florencia, Italia, Lecture Notes in Computer Science, páginas 6–13. Springer Verlag, septiembre de 1997.
- ^ Dam, E., Johansen, P., Olsen, O. Thomsen ,, A. Darvann, T., Dobrzenieck, A., Hermann, N., Kitai, N., Kreiborg, S., Larsen, P., Nielsen, M .: "Segmentación interactiva multiescala en uso clínico" en el Congreso Europeo de Radiología 2000.
- ^ Vincken, K., Koster, A. y Viergever, M .: Segmentación probabilística de imágenes multiescala , IEEE Transactions on Pattern Analysis and Machine Intelligence, 19: 2, págs. 109-120, 1997.]
- ^ M. Tabb y N. Ahuja, Segmentación de imágenes multiescala no supervisada mediante detección integrada de bordes y regiones, IEEE Transactions on Image Processing, Vol. 6, No. 5, 642–655, 1997. Archivado el 20 de julio de 2011 en Wayback Machine.
- ^ E. Akbas y N. Ahuja, "De las discontinuidades de la rampa al árbol de segmentación"
- ^ C. Undeman y T. Lindeberg (2003) "Segmentación completamente automática de imágenes cerebrales de resonancia magnética usando difusión anisotrópica probabilística y cuencas hidrográficas multiescala", Proc. Scale-Space'03, Isla de Skye, Escocia, Springer Lecture Notes in Computer Science, volumen 2695, páginas 641–656.
- ^ Florack, L. y Kuijper, A .: La estructura topológica de las imágenes del espacio de escala, Journal of Mathematical Imaging and Vision, 12: 1, 65–79, 2000.
- ^ Bijaoui, A .; Rué, F. (1995). "Un modelo de visión multiescala". Procesamiento de señales . 46 (3): 345. doi : 10.1016 / 0165-1684 (95) 00093-4 .
- ^ Barghout, Lauren. Enfoque taxométrico visual para la segmentación de imágenes utilizando cortes de taxón espacial difuso rinde regiones contextualmente relevantes. IPMU 2014, Parte II. A. Laurent et al (Eds.) CCIS 443, págs. 163-173. Springer International Publishing Suiza
- ^ Barghout, Lauren (2014). Visión: cómo el contexto perceptual global cambia el procesamiento del contraste local (Tesis doctoral 2003). Actualizado para incluir técnicas de visión artificial . Scholars Press. ISBN 978-3-639-70962-9.
- ^ Mahinda Pathegama & Ö Göl (2004): "Extracción de píxeles de extremo de borde para segmentación de imágenes basada en bordes", Transacciones sobre ingeniería, informática y tecnología, vol. 2, págs. 213–216, ISSN 1305-5313
- ^ Johnson, John L. (septiembre de 1994). "Redes neuronales acopladas por pulsos: traslación, rotación, escala, distorsión e invariancia de señal de intensidad para imágenes". Óptica aplicada . OSA. 33 (26): 6239–6253. doi : 10.1364 / AO.33.006239 . PMID 20936043 .
- ^ Ronneberger, Olaf; Fischer, Philipp; Brox, Thomas (2015). "U-Net: Redes convolucionales para la segmentación de imágenes biomédicas". arXiv : 1505.04597 [ cs.CV ].
- ^ Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, Piotr Dollár (2018). "Segmentación panóptica". arXiv : 1801.00868 [ cs.CV ].Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ Vicente, Sara; Rother, Carsten; Kolmogorov, Vladimir (2011). Cosegmentación de objetos . IEEE. doi : 10.1109 / cvpr.2011.5995530 . ISBN 978-1-4577-0394-2.
- ^ Saygin, ZM, Osher, DE, Augustinack, J, Fischl, B y Gabrieli, JDE .: Segmentación basada en la conectividad de los núcleos de la amígdala humana mediante tractografía probabilística. , Neuroimage, 56: 3, págs. 1353–61, 2011.
- ^ Menke, RA, Jbabdi, S, Miller, KL, Matthews, PM y Zarei, M .: Segmentación basada en la conectividad de la sustancia negra en humanos y sus implicaciones en la enfermedad de Parkinson , Neuroimage, 52: 4, págs. 1175-1180 , 2010.]
- ^ Haindl, Michal; Mikes, Stanislav (2008). Benchmark de segmentación de texturas . 2008 XIX Conferencia Internacional sobre Reconocimiento de Patrones . CiteSeerX 10.1.1.214.2307 . doi : 10.1109 / ICPR.2008.4761118 . ISBN 978-1-4244-2174-9. S2CID 9191160 .
- ^ D. Martin; C. Fowlkes; D. Tal; J. Malik (julio de 2001). "Una base de datos de imágenes naturales segmentadas humanas y su aplicación para evaluar algoritmos de segmentación y medir estadísticas ecológicas". Proc. Octava Conf. Internacional Visión por computadora . 2 . págs. 416–423.
Referencias
- Segmentación de imágenes basada en entropía 3D
- Frucci, Maria; Sanniti di Baja, Gabriella (2008). "De la segmentación a la binarización de imágenes de nivel de grises". Revista de investigación sobre reconocimiento de patrones . 3 (1): 1–13. doi : 10.13176 / 11.54 .
enlaces externos
- Un código de muestra que realiza una segmentación básica , de Syed Zainudeen. Tecnología de la Universidad de Malasia.
- Método de marcha rápida generalizada de Forcadel et al. [2008] para aplicaciones en segmentación de imágenes.
- Grupo de investigación de procesamiento de imágenes Una comunidad de investigación de procesamiento de imágenes abierta en línea
- Métodos de segmentación en el procesamiento y análisis de imágenes y Minimización de energía para segmentar imágenes por Mathworks
- Más métodos de segmentación de imágenes con algoritmos detallados de Yu-Hsiang Wang (王昱 翔), Universidad Nacional de Taiwán, Taipei, Taiwán, República de China
- Demostración en línea de la segmentación lineal de imágenes por partes por IPOL Journal