De Wikipedia, la enciclopedia libre
  (Redirigido desde el reconocimiento de objetos )
Saltar a navegación Saltar a búsqueda

El siguiente esquema se proporciona como una descripción general y una guía temática para el reconocimiento de objetos:

Reconocimiento de objetos : tecnología en el campo de la visión por computadora para encontrar e identificar objetos en una secuencia de imagen o video. Los humanos reconocen una multitud de objetos en imágenes con poco esfuerzo, a pesar de que la imagen de los objetos puede variar algo en diferentes puntos de vista, en muchos tamaños y escalas diferentes o incluso cuando se trasladan o rotan. Los objetos incluso se pueden reconocer cuando están parcialmente obstruidos a la vista. Esta tarea sigue siendo un desafío para los sistemas de visión por computadora. Se han implementado muchos enfoques de la tarea durante varias décadas.

Enfoques basados ​​en modelos de objetos similares a CAD [ editar ]

Reconocimiento por partes [ editar ]

Métodos basados ​​en apariencia [ editar ]

  • Utilice imágenes de ejemplo (llamadas plantillas o ejemplos) de los objetos para realizar el reconocimiento.
  • Los objetos se ven diferentes en diferentes condiciones:
    • Cambios en la iluminación o el color.
    • Cambios en la dirección de visualización
    • Cambios de tamaño / forma
  • Es poco probable que un solo ejemplar tenga éxito de manera confiable. Sin embargo, es imposible representar todas las apariencias de un objeto.

Coincidencia de bordes [ editar ]

  • Utiliza técnicas de detección de bordes, como la detección de bordes Canny , para encontrar bordes.
  • Los cambios en la iluminación y el color generalmente no tienen mucho efecto en los bordes de la imagen.
  • Estrategia:
    1. Detecta bordes en plantilla e imagen
    2. Compara imágenes de bordes para encontrar la plantilla
    3. Debe considerar el rango de posibles posiciones de la plantilla
  • Mediciones:
    • Bueno: cuente el número de bordes superpuestos. No es resistente a los cambios de forma.
    • Mejor: cuente el número de píxeles del borde de la plantilla con cierta distancia de un borde en la imagen de búsqueda
    • Mejor: determina la distribución de probabilidad de la distancia al borde más cercano en la imagen de búsqueda (si la plantilla está en la posición correcta). Estimar la probabilidad de que cada posición de la plantilla genere una imagen

Búsqueda de divide y vencerás [ editar ]

  • Estrategia:
    • Considere todas las posiciones como un conjunto (una celda en el espacio de posiciones)
    • Determine el límite inferior en la puntuación en la mejor posición en la celda
    • Si el encuadernado es demasiado grande, pode la celda
    • Si el límite no es demasiado grande, divida la celda en subcélulas y pruebe cada subcelda de forma recursiva
    • El proceso se detiene cuando la celda es "lo suficientemente pequeña"
  • A diferencia de la búsqueda de múltiples resoluciones, se garantiza que esta técnica encontrará todas las coincidencias que cumplan con el criterio (suponiendo que el límite inferior sea exacto)
  • Encontrar el límite:
    • Para encontrar el límite inferior de la mejor puntuación, observe la puntuación de la posición de la plantilla representada por el centro de la celda
    • Reste el cambio máximo de la posición "central" para cualquier otra posición en la celda (ocurre en las esquinas de la celda)
  • Las complejidades surgen al determinar los límites de la distancia.

Coincidencia de escala de grises [ editar ]

  • Los bordes son (en su mayoría) resistentes a los cambios de iluminación, sin embargo, arrojan mucha información
  • Debe calcular la distancia de píxeles en función de la posición y la intensidad de los píxeles
  • También se puede aplicar al color.

Coincidencia de degradado [ editar ]

  • Otra forma de ser robusto a los cambios de iluminación sin desperdiciar tanta información es comparar los gradientes de la imagen.
  • La coincidencia se realiza como imágenes coincidentes en escala de grises.
  • Alternativa simple: usar correlación (normalizada)

Histogramas de respuestas de campo receptivo [ editar ]

  • Evita las correspondencias de puntos explícitas
  • Relaciones entre diferentes puntos de imagen codificados implícitamente en las respuestas del campo receptivo
  • Swain y Ballard (1991), [2] Schiele y Crowley (2000), [3] Linde y Lindeberg (2004, 2012) [4] [5]

Grandes bases de modelos [ editar ]

  • Un enfoque para buscar de manera eficiente en la base de datos una imagen específica para usar vectores propios de las plantillas (llamados caras propias )
  • Las bases de modelos son una colección de modelos geométricos de los objetos que deben reconocerse.

Métodos basados ​​en funciones [ editar ]

  • se utiliza una búsqueda para encontrar coincidencias factibles entre las características del objeto y las características de la imagen .
  • la restricción principal es que una sola posición del objeto debe dar cuenta de todas las coincidencias factibles.
  • métodos que extraen características de los objetos a reconocer y de las imágenes a buscar.
    • parches superficiales
    • esquinas
    • bordes lineales

Árboles de interpretación [ editar ]

  • Un método para buscar coincidencias factibles es buscar en un árbol.
  • Cada nodo del árbol representa un conjunto de coincidencias.
    • El nodo raíz representa un conjunto vacío
    • Cada otro nodo es la unión de las coincidencias en el nodo principal y una coincidencia adicional.
    • El comodín se usa para funciones sin coincidencia
  • Los nodos se "podan" cuando el conjunto de coincidencias no es factible.
    • Un nodo podado no tiene hijos
  • Históricamente significativo y todavía utilizado, pero con menos frecuencia

Hipotetizar y probar [ editar ]

  • Idea general:
    • Hipotetizar una correspondencia entre una colección de características de la imagen y una colección de características de un objeto
    • Luego, use esto para generar una hipótesis sobre la proyección desde el marco de coordenadas del objeto al marco de la imagen
    • Utilice esta hipótesis de proyección para generar una representación del objeto. Este paso generalmente se conoce como retroproyección.
    • Compare el renderizado con la imagen y, si los dos son lo suficientemente similares, acepte la hipótesis.
  • Obtención de hipótesis:
    • Hay una variedad de formas diferentes de generar hipótesis.
    • Cuando se conocen los parámetros intrínsecos de la cámara, la hipótesis equivale a una posición y orientación hipotéticas ( pose ) del objeto.
    • Utilizar restricciones geométricas
    • Construya una correspondencia para pequeños conjuntos de características de objetos con cada subconjunto de puntos de imagen del tamaño correcto. (Estas son las hipótesis)
  • Tres enfoques básicos:
    • Obtención de hipótesis por consistencia de pose
    • Obtención de hipótesis mediante agrupación de posturas
    • Obtención de hipótesis mediante el uso de invariantes
  • Búsqueda de gastos que también es redundante, pero que se puede mejorar mediante la Aleatorización y / o Agrupación
    • Aleatorización
      • Examinar pequeños conjuntos de características de la imagen hasta que la probabilidad de que falte un objeto sea pequeña
      • Para cada conjunto de características de la imagen, se deben considerar todos los posibles conjuntos coincidentes de características del modelo.
      • Fórmula:
        (1 - W c ) k = Z
        • W = la fracción de puntos de imagen que son "buenos" (w ~ m / n)
        • c = el número de correspondencias necesarias
        • k = el número de ensayos
        • Z = la probabilidad de que cada prueba use una (o más) correspondencias incorrectas
    • Agrupamiento
      • Si podemos determinar grupos de puntos que probablemente provengan del mismo objeto, podemos reducir el número de hipótesis que deben examinarse.

Pose consistencia [ editar ]

  • También se llama Alineación, ya que el objeto se alinea con la imagen.
  • Las correspondencias entre las características de la imagen y las características del modelo no son independientes: restricciones geométricas
  • Un pequeño número de correspondencias produce la posición del objeto; las otras deben ser coherentes con esta
  • Idea general:
    • Si planteamos la hipótesis de una coincidencia entre un grupo suficientemente grande de características de la imagen y un grupo suficientemente grande de características del objeto, entonces podemos recuperar los parámetros de la cámara que faltan a partir de esta hipótesis (y así renderizar el resto del objeto).
  • Estrategia:
    • Genere hipótesis utilizando una pequeña cantidad de correspondencias (por ejemplo, triples de puntos para el reconocimiento 3D)
    • Proyecte otras características del modelo en la imagen ( retroproyección ) y verifique correspondencias adicionales
  • Utilice la menor cantidad de correspondencias necesarias para lograr poses de objetos discretos

Poses agrupadas [ editar ]

  • Idea general:
    • Cada objeto conduce a muchos conjuntos correctos de correspondencias, cada uno de los cuales tiene (aproximadamente) la misma pose.
    • Vota por pose. Use una matriz de acumuladores que represente el espacio de pose para cada objeto
    • Esto es esencialmente una transformación de Hough
  • Estrategia:
    • Para cada objeto, configure una matriz de acumuladores que represente el espacio de pose: cada elemento en la matriz de acumuladores corresponde a un "cubo" en el espacio de pose.
    • Luego, tome cada grupo de fotogramas de la imagen y plantee la hipótesis de una correspondencia entre él y cada grupo de fotogramas de cada objeto.
    • Para cada una de estas correspondencias, determine los parámetros de pose y realice una entrada en la matriz de acumuladores para el objeto actual en el valor de pose.
    • Si hay una gran cantidad de votos en la matriz de acumuladores de cualquier objeto, esto puede interpretarse como evidencia de la presencia de ese objeto en esa pose.
    • La evidencia se puede verificar usando un método de verificación
  • Tenga en cuenta que este método utiliza conjuntos de correspondencias, en lugar de correspondencias individuales.
    • La implementación es más fácil, ya que cada conjunto produce una pequeña cantidad de posibles poses de objetos.
  • Mejora
    • La resistencia al ruido de este método se puede mejorar al no contar los votos de los objetos en poses donde el voto es obviamente poco confiable.
    § Por ejemplo, en los casos en que, si el objeto estuviera en esa pose, el grupo de marcos del objeto sería invisible.
    • Estas mejoras son suficientes para producir sistemas de trabajo.

Invarianza [ editar ]

  • Hay propiedades geométricas que son invariantes a las transformaciones de la cámara.
  • Se desarrolla con mayor facilidad para imágenes de objetos planos, pero también se puede aplicar a otros casos

Hash geométrico [ editar ]

  • Un algoritmo que usa invariantes geométricos para votar por hipótesis de objetos.
  • Similar a la agrupación de poses, sin embargo, en lugar de votar por pose, ahora estamos votando sobre geometría
  • Una técnica desarrollada originalmente para comparar características geométricas (vistas afines no calibradas de modelos planos) con una base de datos de tales características.
  • Ampliamente utilizado para la concordancia de patrones, CAD / CAM e imágenes médicas.
  • Es difícil elegir el tamaño de los cubos.
  • Es difícil estar seguro de lo que significa "suficiente". Por lo tanto, puede existir el peligro de que la mesa se atasque.

Transformación de características invariantes de escala (SIFT) [ editar ]

  • Los puntos clave de los objetos se extraen primero de un conjunto de imágenes de referencia y se almacenan en una base de datos.
  • Un objeto se reconoce en una nueva imagen comparando individualmente cada característica de la nueva imagen con esta base de datos y encontrando características coincidentes candidatas basadas en la distancia euclidiana de sus vectores de características.
  • Lowe (2004) [6] [7]

Funciones robustas aceleradas (SURF) [ editar ]

  • Un detector y descriptor de imágenes robusto
  • La versión estándar es varias veces más rápida que SIFT y sus autores afirman que es más robusta frente a diferentes transformaciones de imágenes que SIFT.
  • Basado en sumas de respuestas de ondas de Haar 2D aproximadas y uso eficiente de imágenes integrales.
  • Bay y col. (2008) [8]

Bolsa de representaciones de palabras [ editar ]

Algoritmo genético [ editar ]

Los algoritmos genéticos pueden operar sin conocimiento previo de un conjunto de datos dado y pueden desarrollar procedimientos de reconocimiento sin intervención humana. Un proyecto reciente logró una precisión del 100 por ciento en los conjuntos de datos de imágenes de motocicletas, rostros, aviones y automóviles de Caltech y una precisión del 99,4 por ciento en los conjuntos de datos de imágenes de especies de peces. [9] [10]

Otros enfoques [ editar ]

  • Reconocimiento y reconstrucción de objetos 3D [11]
  • Reconocimiento de objetos de inspiración biológica
  • Redes neuronales artificiales y Deep Learning, especialmente redes neuronales convolucionales.
  • Contexto [12] [13]
  • Modelos de objetos 3D explícitos e implícitos
  • Indexación rápida [14]
  • Representaciones de escenas globales [12]
  • Histogramas de gradiente
  • Gramáticas estocásticas [15]
  • Aprendizaje de transferencia intraclase
  • Categorización de objetos a partir de la búsqueda de imágenes
  • Reflectancia [16]
  • Forma a partir del sombreado [17]
  • Comparación de plantillas
  • Textura [18]
  • Modelos de tema [13]
  • Aprendizaje sin supervisión
  • Detección basada en ventanas
  • Modelo de pieza deformable
  • Distribución de Bingham [19]

Aplicaciones [ editar ]

Los métodos de reconocimiento de objetos tienen las siguientes aplicaciones:

  • Reconocimiento de actividad [20]
  • Anotación automática de imágenes [21] [22]
  • Reconocimiento automático de objetivos
  • Ojos de Android: reconocimiento de objetos [23]
  • Diagnóstico asistido por computadora [24]
  • Panorámicas de imágenes [25]
  • Marca de agua de imagen [26]
  • Localización global de robots [27]
  • Detección de rostros [28]
  • Reconocimiento óptico de caracteres [29]
  • Control de calidad de fabricación [30]
  • Recuperación de imágenes basada en contenido [31]
  • Recuento y supervisión de objetos [32]
  • Sistemas de aparcamiento automatizados [33]
  • Posicionamiento y seguimiento visual [34]
  • Estabilización de video [35]
  • Detección de peatones

Encuestas [ editar ]

  • Daniilides y Eklundh, Edelman.
  • Roth, Peter M. y Winter, Martin (2008). "MÉTODOS DE RECONOCIMIENTO DE OBJETOS BASADOS EN LA ENCUESTA" (PDF) . Informe técnico . ICG-TR-01/08.

Ver también [ editar ]

  • Histograma de gradientes orientados
  • Red neuronal convolucional
  • OpenCV
  • Transformación de características invariantes de escala (SIFT)
  • Detección de objetos
  • Artículo de Scholarpedia sobre transformación de características invariantes de escala y métodos de reconocimiento de objetos relacionados
  • NAVEGAR
  • Comparación de plantillas
  • Característica de canal integral
Liza
  • Lista de temas de visión por computadora
  • Lista de tecnologías emergentes
  • Esquema de la inteligencia artificial

Notas [ editar ]

  1. ^ Rahesh Mohan y Rakamant Nevatia (1992). "Organización perceptual para la segmentación y descripción de la escena" (PDF) . IEEE Trans Pat Anal Mach Intell .
  2. ^ MJ Swain y DH Ballard "Indexación de color", Revista internacional de visión por computadora, 7: 1, 11-32, 1991.
  3. ^ B. Schiele y JL Crowley "Reconocimiento sin correspondencia mediante histogramas de campo receptivo multidimensional", International Journal of Computer Vision, 36: 1, 31-50, 2000
  4. ^ O. Linde y T. Lindeberg "Reconocimiento de objetos mediante histogramas de campo receptivo compuestos de mayor dimensionalidad", Proc. Conferencia internacional sobre reconocimiento de patrones (ICPR'04), Cambridge, Reino Unido II: 1-6, 2004.
  5. ^ O. Linde y T. Lindeberg "Histogramas de pistas complejas compuestas: una investigación del contenido de la información en descriptores de imágenes basados ​​en campos receptivos para el reconocimiento de objetos", Visión por computadora y comprensión de imágenes, 116: 4, 538-560, 2012.
  6. ^ Lowe, DG, "Características distintivas de la imagen de los puntos clave invariantes de escala", International Journal of Computer Vision, 60, 2, págs. 91-110, 2004.
  7. ^ Lindeberg, Tony (2012). "Transformación de características invariantes de escala" . Scholarpedia . 7 (5): 10491. doi : 10.4249 / scholarpedia.10491 .
  8. ^ Bay, Herbert; Ess, Andreas; Tuytelaars, Tinne; Van Gool, Luc (2008). "Funciones robustas aceleradas (SURF)". Visión por computadora y comprensión de imágenes . 110 (3): 346–359. CiteSeerX 10.1.1.205.738 . doi : 10.1016 / j.cviu.2007.09.014 . 
  9. ^ "El nuevo algoritmo de reconocimiento de objetos aprende sobre la marcha" . Gizmag.com . Consultado el 21 de enero de 2014 .
  10. ^ Lillywhite, K .; Lee, DJ; Tippetts, B .; Archibald, J. (2013). "Un método de construcción de características para el reconocimiento general de objetos". Reconocimiento de patrones . 46 (12): 3300. doi : 10.1016 / j.patcog.2013.06.002 .
  11. ^ Brown, Matthew y David G. Lowe. " Reconocimiento y reconstrucción de objetos 3D sin supervisión en conjuntos de datos desordenados ". Imagen y modelado digital 3-D, 2005. 3DIM 2005. Quinta Conferencia Internacional sobre. IEEE, 2005.
  12. ↑ a b Oliva, Aude y Antonio Torralba. " El papel del contexto en el reconocimiento de objetos ". Tendencias en las ciencias cognitivas 11.12 (2007): 520-527.
  13. ^ a b Niu, Zhenxing, et al. " Modelo de tema sensible al contexto para el reconocimiento de escenas ". 2012 Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones. IEEE, 2012.
  14. ^ Stein, Fridtjof y Gérard Medioni. " Indexación estructural: reconocimiento eficiente de objetos en 3D ". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas 2 (1992): 125-145.
  15. ^ Zhu, Song-Chun y David Mumford. " Una gramática estocástica de imágenes ". Fundamentos y tendencias en gráficos por computadora y visión 2.4 (2007): 259-362.
  16. ^ Nayar, Shree K. y Ruud M. Bolle. " Reconocimiento de objetos basado en reflectancia ". Revista internacional de visión artificial 17.3 (1996): 219-240.
  17. ^ Worthington, Philip L. y Edwin R. Hancock. " Reconocimiento de objetos usando forma a partir de sombreado ". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas 23.5 (2001): 535-542.
  18. ^ Shotton, Jamie y col. " Textonboost para la comprensión de imágenes: reconocimiento y segmentación de objetos de varias clases mediante el modelado conjunto de texturas, diseños y contextos ". Revista internacional de visión artificial 81.1 (2009): 2-23.
  19. ^ "Mejor visión de robot" . KurzweilAI . Consultado el 9 de octubre de 2013 .
  20. ^ Donahue, Jeffrey, et al. " Redes convolucionales recurrentes a largo plazo para el reconocimiento visual y la descripción ". Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones. 2015.
  21. ^ Karpathy, Andrej y Li Fei-Fei. " Alineaciones visual-semánticas profundas para generar descripciones de imágenes ". Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones. 2015.
  22. ^ P Duygulu; K Barnard; N de Fretias y D Forsyth (2002). "Reconocimiento de objetos como traducción automática: aprendizaje de un léxico para un vocabulario de imagen fija" . Actas de la Conferencia Europea sobre Visión por Computador . págs. 97–112. Archivado desde el original el 5 de marzo de 2005.
  23. ^ "Visión por computadora de ojos de Android" .Martha J. Farah "Agnosia visual", Neurociencia cognitiva de computación de visión artificial, MIT Press, 2011-05-01, Páginas 760-781, ISSN 1468-4233 [1] [ enlace muerto ]
  24. ^ Esteva, Andre, et al. " Clasificación de cáncer de piel a nivel dermatólogo con redes neuronales profundas ". Naturaleza 542.7639 (2017): 115.
  25. ^ Brown, M. y Lowe, DG, " Reconociendo panorámicas ", ICCV, p. 1218, Novena Conferencia Internacional IEEE sobre Visión por Computador (ICCV'03) - Volumen 2, Niza, Francia, 2003
  26. ^ Li, L., Guo, B. y Shao, K., " Marca de agua de imagen geométricamente robusta mediante transformación de características invariantes de escala y momentos de Zernike ", Chinese Optics Letters, volumen 5, número 6, págs. 332-335, 2007 .
  27. ^ Se, S., Lowe, DG y Little, JJ, " Localización y cartografía global basada en la visión para robots móviles ", IEEE Transactions on Robotics, 21, 3 (2005), págs. 364-375.
  28. ^ Thomas Serre, Maximillian Riesenhuber, Jennifer Louie, Tomaso Poggio, " Sobre el papel de las características específicas del objeto para el reconocimiento de objetos del mundo real en la visión biológica ". Laboratorio de Inteligencia Artificial y Departamento de Ciencias Cognitivas y del Cerebro, Instituto de Tecnología de Massachusetts, Centro de Aprendizaje Biológico y Computacional, Instituto Mc Govern para la Investigación del Cerebro, Cambridge, MA, EE. UU.
  29. ^ Anne Permaloff y Carl Grafton,Ciencia política y política " Reconocimiento óptico de caracteres ", vol. 25, núm. 3 (septiembre de 1992), págs. 523-531
  30. ^ Christian Demant, Bernd Streicher-Abel, Peter Waszkewitz, "Procesamiento de imágenes industriales: control de calidad visual en la fabricación" Esquema del reconocimiento de objetos en Google Books
  31. ^ Nuno Vasconcelos " Indexación de imágenes con jerarquías de mezcla " Archivado el 18 de enero de 2011 en la Wayback Machine Compaq Computer Corporation, Proc. Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, Kauai, Hawaii, 2001
  32. ^ Heikkilä, Janne; Silvén, Olli (2004). "Un sistema en tiempo real para el seguimiento de ciclistas y peatones". Computación de imagen y visión . 22 (7): 563–570. doi : 10.1016 / j.imavis.2003.09.010 .
  33. ^ Ho Gi Jung, Dong Suk Kim, Pal Joo Yoon, Jaihie Kim, " Reconocimiento de marcado de ranuras de estacionamiento basado en análisis de estructura para sistema de estacionamiento semiautomático " Reconocimiento de patrones estructurales, sintácticos y estadísticos, Springer Berlin / Heidelberg, 2006
  34. ^ SK Nayar, H. Murase y SA Nene, " Aprendizaje, posicionamiento y seguimiento de la apariencia visual " Proc. De IEEE Intl. Conf. sobre robótica y automatización, San Diego, mayo de 1994
  35. ^ Liu, F .; Gleicher, M .; Jin, H .; Agarwala, A. (2009). "Deformaciones que preservan el contenido para la estabilización de video 3D". Transacciones ACM sobre gráficos . 28 (3): 1. CiteSeerX 10.1.1.678.3088 . doi : 10.1145 / 1531326.1531350 . 

Referencias [ editar ]

  • Elgammal, Ahmed "CS 534: Reconocimiento basado en modelos 3D de visión por computadora" , Departamento de Ciencias de la Computación, Universidad de Rutgers;
  • Hartley, Richard y Zisserman, Andrew "Geometría de vista múltiple en visión por computadora" , Cambridge Press, 2000, ISBN 0-521-62304-9 . 
  • Roth, Peter M. y Winter, Martin "Estudio de métodos basados ​​en la apariencia para el reconocimiento de objetos", Informe técnico ICG-TR-01/08 , Inst. para Gráficos y Visión por Computadora, Universidad Tecnológica de Graz, Austria; 15 de enero de 2008.
  • Collins, Robert "Conferencia 31: Reconocimiento de objetos: teclas SIFT" , CSE486, Penn State
  • Procesamiento de imágenes IPRG - Grupo de investigación abierto en línea
  • Christian Szegedy , Alexander Toshev y Dumitru Erhan . Redes neuronales profundas para la detección de objetos . Avances en los sistemas de procesamiento de información neuronal 26 , 2013. páginas 2553–2561.

Enlaces externos [ editar ]