En la visión por computadora , los métodos de detección de manchas tienen como objetivo detectar regiones en una imagen digital que difieren en propiedades, como brillo o color, en comparación con las regiones circundantes. De manera informal, una mancha es una región de una imagen en la que algunas propiedades son constantes o aproximadamente constantes; todos los puntos de una mancha se pueden considerar en cierto sentido similares entre sí. El método más común para la detección de manchas es la convolución .
Dada alguna propiedad de interés expresada en función de la posición en la imagen, existen dos clases principales de detectores de manchas: (i) métodos diferenciales , que se basan en derivadas de la función con respecto a la posición, y (ii) métodos basados en extremos locales , que se basan en encontrar los máximos y mínimos locales de la función. Con la terminología más reciente utilizada en el campo, estos detectores también pueden denominarse operadores de puntos de interés o, alternativamente, operadores de regiones de interés (consulte también detección de puntos de interés y detección de esquinas ).
Existen varias motivaciones para estudiar y desarrollar detectores de manchas. Una razón principal es proporcionar información complementaria sobre las regiones, que no se obtiene de los detectores de bordes ni de los detectores de esquinas . En los primeros trabajos en el área, se utilizó la detección de manchas para obtener regiones de interés para su posterior procesamiento. Estas regiones podrían señalar la presencia de objetos o partes de objetos en el dominio de la imagen con aplicación al reconocimiento de objetos y / o seguimiento de objetos . En otros dominios, como el análisis de histogramas , los descriptores de blob también se pueden utilizar para la detección de picos con aplicación a la segmentación . Otro uso común de descriptores blob es como principales primitivas para la textura de análisis y reconocimiento de la textura. En un trabajo más reciente, los descriptores de blob han encontrado un uso cada vez más popular como puntos de interés para una amplia coincidencia estéreo de línea de base y para señalar la presencia de características de imagen informativas para el reconocimiento de objetos basado en la apariencia basado en estadísticas de imágenes locales. También existe la noción relacionada de detección de crestas para señalar la presencia de objetos alargados.
El laplaciano de Gauss
Uno de los primeros y también más comunes detectores de manchas se basa en el Laplaciano de Gauss (LoG). Dada una imagen de entrada, esta imagen está convolucionada por un kernel gaussiano
a cierta escala para dar una representación espacial a escala . Entonces, el resultado de aplicar el operador laplaciano
se calcula, lo que generalmente da como resultado fuertes respuestas positivas para manchas oscuras de radio (para una imagen bidimensional, para una imagen d-dimensional) y fuertes respuestas negativas para manchas brillantes de tamaño similar. Sin embargo, un problema principal al aplicar este operador a una sola escala es que la respuesta del operador depende en gran medida de la relación entre el tamaño de las estructuras de las manchas en el dominio de la imagen y el tamaño del kernel gaussiano utilizado para el suavizado previo. Por lo tanto, para capturar automáticamente manchas de tamaño diferente (desconocido) en el dominio de la imagen, es necesario un enfoque de múltiples escalas.
Una forma sencilla de obtener un detector de manchas de múltiples escalas con selección automática de escala es considerar el operador laplaciano con escala normalizada
y para detectar máximos / mínimos de espacio de escala , que son puntos que son simultáneamente máximos / mínimos locales decon respecto tanto al espacio como a la escala (Lindeberg 1994, 1998). Por lo tanto, dada una imagen de entrada bidimensional discreta un volumen de espacio de escala discreto tridimensional se calcula y un punto se considera una mancha brillante (oscura) si el valor en este punto es mayor (menor) que el valor en todos sus 26 vecinos. Por lo tanto, la selección simultánea de puntos de interés y escalas se realiza de acuerdo con
- .
Tenga en cuenta que esta noción de blob proporciona una definición operativa concisa y matemáticamente precisa de la noción de "blob", que conduce directamente a un algoritmo eficaz y robusto para la detección de blob. Algunas propiedades básicas de las manchas definidas a partir de los máximos de espacio de escala del operador laplaciano normalizado son que las respuestas son covariantes con las traslaciones, rotaciones y recalificaciones en el dominio de la imagen. Por lo tanto, si se supone un máximo de espacio de escala en un punto luego, bajo un cambio de escala de la imagen por un factor de escala , habrá un máximo de espacio de escala en en la imagen reescalada (Lindeberg 1998). Esta propiedad altamente útil en la práctica implica que además del tema específico de la detección de manchas laplacianas, los máximos / mínimos locales de la laplaciana normalizada en escala también se utilizan para la selección de escala en otros contextos , como en la detección de esquinas , seguimiento de características adaptativas de escala (Bretzner y Lindeberg 1998), en la transformación de características invariantes de escala (Lowe 2004), así como en otros descriptores de imágenes para la correspondencia de imágenes y el reconocimiento de objetos .
Las propiedades de selección de escala del operador laplaciano y otros detectores de puntos de interés de espacio de escala cercano se analizan en detalle en (Lindeberg 2013a). [1] En (Lindeberg 2013b, 2015) [2] [3] se muestra que existen otros detectores de puntos de interés en el espacio de escala, como el determinante del operador Hessiano, que funcionan mejor que el operador Laplaciano o su diferencia de -Aproximación de los gaussianos para el emparejamiento basado en imágenes utilizando descriptores de imágenes locales similares a SIFT.
La diferencia del enfoque gaussiano
Del hecho de que la representación del espacio de escala satisface la ecuación de difusión
se sigue que el laplaciano del operador gaussiano también se puede calcular como el caso límite de la diferencia entre dos imágenes suavizadas de Gauss ( representaciones de espacio de escala )
- .
En la literatura sobre visión por computadora, este enfoque se conoce como el enfoque de diferencia de Gauss (DoG). Sin embargo, además de tecnicismos menores, este operador es en esencia similar al Laplaciano y puede verse como una aproximación del operador Laplaciano. De manera similar al detector de manchas laplacianas, las manchas pueden detectarse a partir de los extremos del espacio de escala de las diferencias de los gaussianos; consulte (Lindeberg 2012, 2015) [3] [4] para conocer la relación explícita entre el operador de diferencia de gauss y el operador laplaciano de escala normalizada. Este enfoque se utiliza, por ejemplo, en el algoritmo de transformación de características invariantes de escala (SIFT); consulte Lowe (2004).
El determinante de la arpillera
Al considerar el determinante de escala normalizada del hessiano, también denominado operador de Monge-Ampère ,
dónde denota la matriz hessiana de la representación del espacio de escala y luego detectando los máximos de espacio de escala de este operador, se obtiene otro detector de manchas diferencial sencillo con selección automática de escala que también responde a las sillas de montar (Lindeberg 1994, 1998)
- .
Los puntos de blob y escalas también se definen a partir de definiciones geométricas diferenciales operacionales que conducen a descriptores de blob que son covariantes con traslaciones, rotaciones y recalificaciones en el dominio de la imagen. En términos de selección de escala, las manchas definidas a partir de los extremos del espacio de escala del determinante del hessiano (DoH) también tienen propiedades de selección de escala ligeramente mejores bajo transformaciones afines no euclidianas que el operador laplaciano más comúnmente utilizado (Lindeberg 1994, 1998, 2015) . [3] En forma simplificada, el determinante de escala normalizada del hessiano calculado a partir de ondas de Haar se utiliza como el operador de punto de interés básico en el descriptor SURF (Bay et al. 2006) para la comparación de imágenes y el reconocimiento de objetos.
En (Lindeberg 2013a) [1] se ofrece un análisis detallado de las propiedades de selección del determinante del operador hessiano y otros detectores de puntos de interés de espacio de escala cercano, que muestra que el determinante del operador hessiano tiene mejores propiedades de selección de escala bajo transformaciones de imágenes afines. que el operador laplaciano. En (Lindeberg 2013b, 2015) [2] [3] se muestra que el determinante del operador hessiano funciona significativamente mejor que el operador laplaciano o su aproximación de diferencia de gaussianos, así como mejor que el de Harris o Harris-Laplace. operadores, para la coincidencia basada en imágenes utilizando descriptores de imagen locales similares a SIFT o SURF, lo que genera valores de eficiencia más altos y puntuaciones de precisión 1 más bajas.
El laplaciano híbrido y determinante del operador de Hesse (Hessian-Laplace)
También se ha propuesto un operador híbrido entre el Laplaciano y el determinante de los detectores de gotas de Hesse, donde la selección espacial se realiza mediante el determinante del Hesse y la selección de escala se realiza con el Laplaciano de escala normalizada (Mikolajczyk y Schmid 2004):
Este operador se ha utilizado para hacer coincidir imágenes, reconocer objetos y analizar texturas.
Detectores de blob diferenciales adaptados por afinidad
Los descriptores de blob obtenidos de estos detectores de blob con selección automática de escala son invariantes a las traslaciones, rotaciones y recalificaciones uniformes en el dominio espacial. Sin embargo, las imágenes que constituyen la entrada a un sistema de visión por computadora también están sujetas a distorsiones de perspectiva. Para obtener descriptores de manchas que sean más robustos para las transformaciones de perspectiva, un enfoque natural es diseñar un detector de manchas que sea invariante para las transformaciones afines . En la práctica, los puntos de interés invariantes afines se pueden obtener aplicando una adaptación de forma afín a un descriptor de blob, donde la forma del kernel de suavizado se deforma iterativamente para que coincida con la estructura de la imagen local alrededor del blob, o de manera equivalente, un parche de imagen local se deforma iterativamente mientras la forma del grano de suavizado permanece rotacionalmente simétrica (Lindeberg y Garding 1997; Baumberg 2000; Mikolajczyk y Schmid 2004, Lindeberg 2008). De esta manera, podemos definir versiones adaptadas a afines del operador Laplaciano / Diferencia de Gauss, el determinante del operador Hessiano y Hessiano-Laplace (ver también Harris-Affine y Hessian-Affine ).
Detectores de manchas espacio-temporales
El determinante del operador de Hesse se ha extendido al espacio-tiempo conjunto por Willems et al. [5] y Lindeberg, [6] dando lugar a la siguiente expresión diferencial normalizada en escala:
En el trabajo de Willems et al., [5] una expresión más simple correspondiente a y se utilizó. En Lindeberg, [6] se demostró que y implica mejores propiedades de selección de escala en el sentido de que los niveles de escala seleccionados obtenidos de una mancha gaussiana espacio-temporal con extensión espacial y extensión temporal coincidirá perfectamente con la extensión espacial y la duración temporal de la mancha, con la selección de escala realizada mediante la detección de los extremos espacio-temporales de la escala espacio-temporal de la expresión diferencial.
Lindeberg ha extendido el operador laplaciano a datos de video espacio-temporales, [6] lo que lleva a los siguientes dos operadores espacio-temporales, que también constituyen modelos de campos receptivos de neuronas no retrasadas frente a retrasadas en el LGN:
Para el primer operador, las propiedades de selección de escala requieren el uso y , si queremos que este operador asuma su valor máximo sobre escalas espacio-temporales a un nivel de escala espacio-temporal que refleje la extensión espacial y la duración temporal de una mancha gaussiana de inicio. Para el segundo operador, las propiedades de selección de escala requieren el uso y , si queremos que este operador asuma su valor máximo sobre escalas espacio-temporales a un nivel de escala espacio-temporal que refleje la extensión espacial y la duración temporal de una mancha gaussiana parpadeante.
Manchas de nivel de grises, árboles de manchas de nivel de grises y manchas de espacio de escala
Un enfoque natural para detectar manchas es asociar una mancha brillante (oscura) con cada máximo local (mínimo) en el paisaje de intensidad. Sin embargo, un problema principal con este enfoque es que los extremos locales son muy sensibles al ruido. Para abordar este problema, Lindeberg (1993, 1994) estudió el problema de detectar máximos locales con extensión a múltiples escalas en el espacio de escala . Una región con extensión espacial definida a partir de una analogía de cuenca se asoció con cada máximo local, así como un contraste local definido a partir de un llamado punto de silla delimitador. Un extremo local con extensión definida de esta manera se denominó mancha de nivel de gris . Además, al proceder con la analogía de la cuenca más allá del punto de silla delimitador, se definió un árbol de manchas de nivel gris para capturar la estructura topológica anidada de conjuntos de niveles en el paisaje de intensidad, de una manera que es invariante a las deformaciones afines en el dominio de la imagen y transformaciones de intensidad monótona. Al estudiar cómo estas estructuras evolucionan con escalas crecientes, se introdujo la noción de manchas en el espacio de escala . Más allá del contraste y la extensión locales, estas manchas de espacio de escala también midieron cuán estables son las estructuras de imagen en el espacio de escala, midiendo su vida útil en el espacio de escala .
Se propuso que las regiones de interés y los descriptores de escala obtenidos de esta manera, con niveles de escala asociados definidos a partir de las escalas en las que las medidas normalizadas de la fuerza de las manchas asumían sus máximos sobre las escalas, podrían usarse para guiar otros procesos visuales tempranos. Se desarrolló un primer prototipo de sistemas de visión simplificados en el que se utilizaron regiones de interés y descriptores de escala para dirigir el foco de atención de un sistema de visión activa. Si bien la técnica específica que se utilizó en estos prototipos se puede mejorar sustancialmente con los conocimientos actuales en visión por computadora, el enfoque general general sigue siendo válido, por ejemplo, en la forma en que se utilizan hoy en día los extremos locales sobre escalas del operador laplaciano normalizado en escala. para proporcionar información de escala a otros procesos visuales.
Algoritmo de detección de manchas de nivel de grises basado en cuencas hidrográficas de Lindeberg
Con el fin de detectar manchas de nivel de gris (extremos locales con extensión) a partir de una analogía de cuencas hidrográficas, Lindeberg desarrolló un algoritmo basado en la clasificación previa de píxeles, regiones conectadas alternativamente que tienen la misma intensidad, en orden decreciente de los valores de intensidad. Luego, se hicieron comparaciones entre los vecinos más cercanos de píxeles o regiones conectadas.
Para simplificar, considere el caso de detectar manchas de nivel de gris brillantes y deje que la notación "vecino superior" represente "píxel vecino que tiene un valor de nivel de gris más alto". Luego, en cualquier etapa del algoritmo (realizado en orden decreciente de valores de intensidad) se basa en las siguientes reglas de clasificación:
- Si una región no tiene un vecino superior, entonces es un máximo local y será la semilla de un blob. Establezca una bandera que permita que la gota crezca.
- De lo contrario, si tiene al menos un vecino superior, que es el fondo, no puede ser parte de ningún blob y debe ser el fondo.
- De lo contrario, si tiene más de un vecino superior y si esos vecinos superiores son partes de diferentes blobs, entonces no puede ser parte de ningún blob y debe estar en segundo plano. Si a alguno de los vecinos superiores todavía se le permite crecer, limpia su bandera, lo que les permite crecer.
- De lo contrario, tiene uno o más vecinos superiores, que son partes del mismo blob. Si aún se permite que ese blob crezca, la región actual debe incluirse como parte de ese blob. De lo contrario, la región debe establecerse en segundo plano.
En comparación con otros métodos de cuencas hidrográficas, la inundación en este algoritmo se detiene una vez que el nivel de intensidad cae por debajo del valor de intensidad del llamado punto de silla delimitador asociado con el máximo local. Sin embargo, es bastante sencillo extender este enfoque a otros tipos de construcciones de cuencas hidrográficas. Por ejemplo, avanzando más allá del primer punto de silla delimitador, se puede construir un "árbol de manchas de nivel de gris". Además, el método de detección de manchas de nivel de gris se incrustó en una representación de espacio de escala y se realizó en todos los niveles de escala, lo que resultó en una representación llamada boceto primario de espacio de escala .
Este algoritmo con sus aplicaciones en visión por computadora se describe con más detalle en la tesis de Lindeberg [7] , así como en la monografía sobre la teoría del espacio-escala [8] parcialmente basada en ese trabajo. También se pueden encontrar presentaciones anteriores de este algoritmo en. [9] [10] Tratamientos más detallados de las aplicaciones de detección de manchas de nivel de grises y el boceto primario del espacio de escala para la visión por computadora y el análisis de imágenes médicas se dan en. [11] [ 12] [13]
Regiones extremas máximamente estables (MSER)
Matas y col. (2002) estaban interesados en definir descriptores de imágenes que sean robustos bajo transformaciones de perspectiva . Estudiaron conjuntos de niveles en el paisaje de intensidad y midieron cuán estables eran a lo largo de la dimensión de intensidad. Sobre la base de esta idea, definieron una noción de regiones extremas máximamente estables y mostraron cómo estos descriptores de imagen se pueden utilizar como características de imagen para la coincidencia estéreo .
Existen estrechas relaciones entre esta noción y la noción mencionada anteriormente de árbol de manchas de nivel de gris. Se puede considerar que las regiones extremas máximamente estables hacen explícito un subconjunto específico del árbol de blobs de nivel de grises para su posterior procesamiento.
Ver también
- Extracción de gotas
- Detección de esquinas
- Adaptación de formas afines
- Espacio de escala
- Detección de crestas
- Detección de puntos de interés
- Detección de características (visión por computadora)
- Detector de región afín de Harris
- Detector de región afín de arpillera
- PCBR
Referencias
- ^ a b Lindeberg, Tony (2013) "Propiedades de selección de escala de detectores de puntos de interés de espacio de escala generalizados", Journal of Mathematical Imaging and Vision, Volumen 46, Número 2, páginas 177-210.
- ^ a b Lindeberg (2013) "Coincidencia de imágenes mediante puntos de interés de espacio de escala generalizados", Espacio de escala y métodos de variación en visión por computadora, Notas de la conferencia de Springer en Informática Volumen 7893, 2013, pp 355-367.
- ^ a b c d T. Lindeberg `` Coincidencia de imágenes utilizando puntos de interés de espacio de escala generalizados '', Journal of Mathematical Imaging and Vision, volumen 52, número 1, páginas 3-36, 2015.
- ^ T. Lindeberg `` Transformación de características invariantes de escala , Scholarpedia, 7 (5): 10491, 2012.
- ↑ a b Geert Willems, Tinne Tuytelaars y Luc van Gool (2008). "Un detector de puntos de interés espaciotemporal-temporal denso e invariante de escala eficiente". Congreso Europeo de Visión por Computador . Springer Lecture Notes en Ciencias de la Computación. 5303 . págs. 650–663. doi : 10.1007 / 978-3-540-88688-4_48 .
- ^ a b c Tony Lindeberg (2018). "Selección de escala espacio-temporal en datos de video". Revista de Visión y Imágenes Matemáticas . 60 (4). págs. 525–562. doi : 10.1007 / s10851-017-0766-9 .
- ^ Lindeberg, T. (1991) Discrete Scale-Space Theory and the Scale-Space Primal Sketch , tesis de doctorado, Departamento de análisis numérico y ciencias de la computación, Royal Institute of Technology, S-100 44 Estocolmo, Suecia, mayo de 1991. (ISSN 1101-2250. ISRN KTH NA / P - 91/8 - SE) (El algoritmo de detección de manchas de nivel de gris se describe en la sección 7.1)
- ^ Lindeberg, Tony, teoría del espacio de escala en la visión por computadora , Kluwer Academic Publishers, 1994ISBN 0-7923-9418-6
- ^ T. Lindeberg y J.-O. Eklundh, "Detección de escala y extracción de región de un boceto primario de espacio de escala", en Proc. Tercera Conferencia Internacional sobre Visión por Computador , (Osaka, Japón), págs. 416--426, diciembre de 1990. (Consulte el Apéndice A.1 para obtener las definiciones básicas del algoritmo de detección de manchas de nivel de grises basado en cuencas).
- ^ T. Lindeberg y J.-O. Eklundh, "Sobre el cálculo de un boceto primario en el espacio de escala", Revista de comunicación visual y representación de imágenes , vol. 2, págs.55--78, marzo de 1991.
- ^ Lindeberg, T .: Detección de estructuras de imágenes salientes similares a manchas y sus escalas con un boceto primario de espacio de escala: un método para el foco de atención, International Journal of Computer Vision , 11 (3), 283--318, 1993 .
- ^ Lindeberg, T, Lidberg, Par y Roland, PE.: "Análisis de los patrones de activación cerebral mediante un bosquejo primario de espacio de escala 3D", Mapeo del cerebro humano , vol 7, no 3, págs. 166-194, 1999.
- ^ Jean-Francois Mangin, Denis Rivière, Olivier Coulon, Cyril Poupon, Arnaud Cachia, Yann Cointepas, Jean-Baptiste Poline, Denis Le Bihan, Jean Régis, Dimitri Papadopoulos-Orfanos: "Enfoques basados en coordenadas versus estructurales para el análisis de imágenes cerebrales" . Inteligencia artificial en medicina 30 (2): 177-197 (2004) Archivado el 21 de julio de 2011 en la Wayback Machine.
Otras lecturas
- H. Bay; T. Tuytelaars y L. van Gool (2006). "SURF: Funciones robustas aceleradas" . Actas de la 9a Conferencia Europea de Visión por Computador, Springer LNCS volumen 3951, parte 1 . págs. 404–417.
- L. Bretzner y T. Lindeberg (1998). "Seguimiento de características con selección automática de escalas espaciales" (página de resumen) . Visión por computadora y comprensión de imágenes . 71 (3): 385–392. doi : 10.1006 / cviu.1998.0650 .
- T. Lindeberg (1993). "Detección de estructuras de imágenes salientes tipo blob y sus escalas con un boceto primario de espacio de escala: un método para el foco de atención" (página de resumen) . Revista Internacional de Visión por Computador . 11 (3): 283–318. doi : 10.1007 / BF01469346 . S2CID 11998035 .
- T. Lindeberg (1994). Teoría del espacio-escala en visión artificial . Saltador. ISBN 978-0-7923-9418-1.
- T. Lindeberg (1998). "Detección de características con selección automática de escala" (página de resumen) . Revista Internacional de Visión por Computador . 30 (2): 77-116. doi : 10.1023 / A: 1008045108935 . S2CID 723210 .
- Lindeberg, T .; Garding, J. (1997). "Suavizado adaptado a la forma en la estimación de las señales de profundidad 3- {D} de distorsiones afines de la estructura local 2- {D}" . Computación de imagen y visión . 15 (6): 415–434. doi : 10.1016 / S0262-8856 (97) 01144-X .
- Lindeberg, T. (2008). "Espacio de escala" . En Wah, Benjamin (ed.). Enciclopedia de Ciencias e Ingeniería de la Computación . IV . John Wiley e hijos. págs. 2495-2504. doi : 10.1002 / 9780470050118.ecse609 . ISBN 978-0-470-05011-8.
- DG Lowe (2004). "Características de imagen distintivas de los puntos clave de escala invariable" . Revista Internacional de Visión por Computador . 60 (2): 91-110. CiteSeerX 10.1.1.73.2924 . doi : 10.1023 / B: VISI.0000029664.99615.94 . S2CID 221242327 .
- J. Matas; O. Chum; M. Urban y T. Pajdla (2002). "Estéreo de línea de base amplia y robusto de las regiones extremas de máxima estabilidad" (PDF) . Conferencia británica sobre visión artificial . págs. 384–393.
- K. Mikolajczyk; C. Schmid (2004). "Detectores de puntos de interés invariantes de escala y afines" (PDF) . Revista Internacional de Visión por Computador . 60 (1): 63–86. doi : 10.1023 / B: VISI.0000027790.02288.f2 . S2CID 1704741 .