Categorización de objetos a partir de la búsqueda de imágenes

En visión por computadora , el problema de la categorización de objetos a partir de la búsqueda de imágenes es el problema de entrenar a un clasificador para que reconozca categorías de objetos, utilizando solo las imágenes recuperadas automáticamente con un motor de búsqueda de Internet . Idealmente, la recopilación automática de imágenes permitiría entrenar a los clasificadores con nada más que los nombres de las categorías como entrada. Este problema está estrechamente relacionado con el de la recuperación de imágenes basada en contenido (CBIR), donde el objetivo es devolver mejores resultados de búsqueda de imágenes en lugar de entrenar a un clasificador para el reconocimiento de imágenes.

Tradicionalmente, los clasificadores se entrenan utilizando conjuntos de imágenes que se etiquetan a mano. La recopilación de un conjunto de imágenes de este tipo suele ser un proceso laborioso y que requiere mucho tiempo. El uso de motores de búsqueda de Internet para automatizar el proceso de adquisición de grandes conjuntos de imágenes etiquetadas se ha descrito como una forma potencial de facilitar enormemente la investigación de la visión por computadora. ^[1]

Desafíos

Imágenes no relacionadas

Un problema con el uso de los resultados de búsqueda de imágenes de Internet como un conjunto de entrenamiento para un clasificador es el alto porcentaje de imágenes no relacionadas dentro de los resultados. Se ha estimado que, cuando se consulta un motor de búsqueda como imágenes de Google con el nombre de una categoría de objeto (como avión ?, hasta el 85% de las imágenes devueltas no están relacionadas con la categoría ^[1].

Variabilidad intraclase

Otro desafío que plantea el uso de resultados de búsqueda de imágenes en Internet como conjuntos de entrenamiento para clasificadores es que existe una gran cantidad de variabilidad dentro de las categorías de objetos, en comparación con las categorías que se encuentran en conjuntos de datos etiquetados manualmente como Caltech 101 y Pascal . Las imágenes de los objetos pueden variar ampliamente en varios factores importantes, como la escala, la pose, la iluminación, la cantidad de objetos y la cantidad de oclusión.

enfoque pLSA

En un artículo de 2005 de Fergus et al., ^[1] pLSA (análisis semántico latente probabilístico) y extensiones de este modelo se aplicaron al problema de la categorización de objetos a partir de la búsqueda de imágenes. pLSA se desarrolló originalmente para la clasificación de documentos , pero desde entonces se ha aplicado a la visión por computadora . Supone que las imágenes son documentos que se ajustan al modelo de la bolsa de palabras .

Modelo

Así como los documentos de texto se componen de palabras, cada una de las cuales puede repetirse dentro del documento y entre documentos, las imágenes se pueden modelar como combinaciones de palabras visuales . Así como un diccionario define el conjunto completo de palabras de texto, el conjunto completo de palabras visuales se define en un diccionario de palabras en clave .

pLSA también divide los documentos en temas . Así como conocer el (los) tema (s) de un artículo le permite hacer buenas conjeturas sobre los tipos de palabras que aparecerán en él, la distribución de palabras en una imagen depende de los temas subyacentes. El modelo pLSA nos dice la probabilidad de ver cada palabra ${\ Displaystyle w}$ dada la categoría ${\ Displaystyle \ Displaystyle d}$ en cuanto a temas ${\ Displaystyle \ Displaystyle z}$ :

${\ Displaystyle \ Displaystyle P (w | d) = \ sum _ {z = 1} ^ {Z} P (w | z) P (z | d)}$

Una suposición importante hecha en este modelo es que ${\ Displaystyle \ Displaystyle w}$ y ${\ Displaystyle \ Displaystyle d}$ son condicionalmente independientes dado ${\ Displaystyle \ Displaystyle z}$ . Dado un tema, la probabilidad de que una determinada palabra aparezca como parte de ese tema es independiente del resto de la imagen. ^[2]

Entrenar este modelo implica encontrar ${\ Displaystyle \ Displaystyle P (w | z)}$ y ${\ Displaystyle \ Displaystyle P (z | d)}$ que maximiza la probabilidad de las palabras observadas en cada documento. Para ello se utiliza el algoritmo de maximización de expectativas , con la siguiente función objetivo :

${\ Displaystyle \ Displaystyle L = \ prod _ {d = 1} ^ {D} \ prod _ {w = 1} ^ {W} P (w | d) ^ {n (w | d)}}$

Solicitud

ABS-pLSA

La posición absoluta pLSA (ABS-pLSA) adjunta información de ubicación a cada palabra visual al localizarla en una de las X 揵 ins? En la imagen. Aquí, ${\ Displaystyle \ Displaystyle x}$ representa en cuál de los contenedores cae la palabra visual. La nueva ecuación es:

${\ Displaystyle \ Displaystyle P (w | d) = \ sum _ {z = 1} ^ {Z} P (w, x | z) P (z | d)}$

${\ Displaystyle \ Displaystyle P (w, x | z)}$ y ${\ Displaystyle \ Displaystyle P (d)}$ se puede resolver de una manera similar al problema pLSA original, utilizando el algoritmo EM

Un problema con este modelo es que no es invariante en la traducción o la escala. Dado que las posiciones de las palabras visuales son absolutas, cambiar el tamaño del objeto en la imagen o moverlo tendría un impacto significativo en la distribución espacial de las palabras visuales en diferentes contenedores.

TSI-pLSA

Traducción y escala invariante pLSA (TSI-pLSA). Este modelo extiende pLSA agregando otra variable latente, que describe la ubicación espacial del objeto objetivo en una imagen. Ahora, la posición ${\ Displaystyle \ Displaystyle x}$ de una palabra visual se da en relación con la ubicación de este objeto, en lugar de como una posición absoluta en la imagen. La nueva ecuación es:

${\ Displaystyle \ Displaystyle P (w, x | d) = \ sum _ {z = 1} ^ {Z} \ sum _ {c = 1} ^ {C} P (w, x | c, z) P ( c) P (z | d)}$

Nuevamente, los parámetros ${\ Displaystyle \ Displaystyle P (w, x | c, z)}$ y ${\ Displaystyle \ Displaystyle P (d)}$ se puede resolver utilizando el algoritmo EM . ${\ Displaystyle \ Displaystyle P (c)}$ se puede suponer que es una distribución uniforme.

Implementación

Seleccionar palabras

Las palabras en una imagen se seleccionaron usando 4 detectores de características diferentes: ^[1]

Detector de prominencia Kadir-Brady
Detector de Harris multiescala
Diferencia de gaussianos
Operador basado en el borde, descrito en el estudio

Con estos 4 detectores, se detectaron aproximadamente 700 características por imagen. Estas características se codificaron luego como descriptores de transformación de características invariantes de escala y se cuantificaron los vectores para que coincidieran con una de las 350 palabras contenidas en un libro de códigos. El libro de códigos se calculó previamente a partir de características extraídas de una gran cantidad de imágenes que abarcan numerosas categorías de objetos.

Posibles ubicaciones de objetos

Una pregunta importante en el modelo TSI-pLSA es cómo determinar los valores que la variable aleatoria ${\ Displaystyle \ Displaystyle C}$ puede asumir. Es un 4-vector, cuyos componentes describen el centroide del objeto, así como las escalas xey que definen un cuadro delimitador alrededor del objeto, por lo que el espacio de valores posibles que puede asumir es enorme. Para limitar el número de posibles ubicaciones de objetos a un número razonable, primero se lleva a cabo el pLSA normal en el conjunto de imágenes, y para cada tema se ajusta un modelo de mezcla gaussiana sobre las palabras visuales, ponderado por ${\ Displaystyle \ Displaystyle P (w | z)}$ . Hasta ${\ Displaystyle \ Displaystyle K}$ Se prueban los gaussianos (permitiendo múltiples instancias de un objeto en una sola imagen), donde ${\ Displaystyle \ Displaystyle K}$ es una constante.

Actuación

Los autores de Fergus et al. El artículo comparó el rendimiento de los tres algoritmos pLSA (pLSA, ABS-pLSA y TSI-pLSA) en conjuntos de datos e imágenes seleccionados a mano que se obtienen de las búsquedas de Google. El rendimiento se midió como la tasa de error al clasificar las imágenes en un conjunto de prueba como que contenían la imagen o solo contenían el fondo.

Como era de esperar, entrenar directamente en los datos de Google proporciona tasas de error más altas que entrenar en los datos preparados. ^[1] Aproximadamente en la mitad de las categorías de objetos analizadas, ABS-pLSA y TSI-pLSA funcionan significativamente mejor que las pLSA normales, y solo en 2 de 7 categorías TSI-pLSA se desempeñan mejor que los otros dos modelos.

OPTIMOL

OPTIMOL (recopilación automática de imágenes en línea a través del aprendizaje de modelos incrementales) aborda el problema de las categorías de objetos de aprendizaje a partir de búsquedas de imágenes en línea abordando el aprendizaje de modelos y la búsqueda simultáneamente. OPTIMOL es un modelo iterativo que actualiza su modelo de la categoría de objeto de destino mientras recupera simultáneamente imágenes más relevantes. ^[3]

Marco general

OPTIMOL se presentó como un marco iterativo general que es independiente del modelo específico utilizado para el aprendizaje de categorías. El algoritmo es como sigue:

Descargue un gran conjunto de imágenes de Internet buscando una palabra clave
Inicializar el conjunto de datos con imágenes semilla
Si bien se necesitan más imágenes en el conjunto de datos:
- Conozca el modelo con las imágenes de conjuntos de datos agregadas más recientemente
- Clasifique las imágenes descargadas usando el modelo actualizado
- Agregar imágenes aceptadas al conjunto de datos

Tenga en cuenta que solo se utilizan las imágenes agregadas más recientemente en cada ronda de aprendizaje. Esto permite que el algoritmo se ejecute en una cantidad arbitrariamente grande de imágenes de entrada.

Modelo

Las dos categorías (objeto de destino y fondo) se modelan como procesos de Dirichlet jerárquico (HDP). Al igual que en el enfoque pLSA, se supone que las imágenes se pueden describir con el modelo de la bolsa de palabras . HDP modela las distribuciones de un número no especificado de temas en imágenes de una categoría y entre categorías. La distribución de temas entre imágenes en una sola categoría se modela como un proceso de Dirichlet (un tipo de distribución de probabilidad no paramétrica ). Para permitir el intercambio de temas entre las clases, cada uno de estos procesos de Dirichlet se modela como una muestra de otro proceso de Dirichlet 損 arent? El HDP fue descrito por primera vez por Teh et al. en 2005. ^[4]

Implementación

Inicialización

El conjunto de datos debe inicializarse o sembrarse con un lote original de imágenes que sirvan como buenos ejemplos de la categoría de objeto que se debe aprender. Estos se pueden recopilar automáticamente, utilizando la primera página de imágenes devueltas por el motor de búsqueda (que tienden a ser mejores que las imágenes posteriores). Alternativamente, las imágenes iniciales se pueden recopilar a mano.

Modelo de aprendizaje

Para conocer los diversos parámetros del HDP de forma incremental, se utiliza el muestreo de Gibbs sobre las variables latentes. Se lleva a cabo después de que cada nuevo conjunto de imágenes se incorpora al conjunto de datos. El muestreo de Gibbs implica el muestreo repetido de un conjunto de variables aleatorias para aproximar sus distribuciones. El muestreo implica generar un valor para la variable aleatoria en cuestión, basado en el estado de las otras variables aleatorias de las que depende. Con muestras suficientes, se puede lograr una aproximación razonable del valor.

Clasificación

En cada iteración, ${\ Displaystyle \ Displaystyle P (z | c)}$ y ${\ Displaystyle \ Displaystyle P (x | z, c)}$ puede obtenerse del modelo aprendido después de la ronda anterior de muestreo de Gibbs, donde ${\ Displaystyle \ Displaystyle z}$ es un tema, ${\ Displaystyle \ Displaystyle c}$ es una categoría, y ${\ Displaystyle \ Displaystyle x}$ es una sola palabra visual. La probabilidad de que una imagen esté en una determinada clase, entonces, es:

${\ Displaystyle \ Displaystyle P (yo | c) = \ prod _ {i} \ sum _ {j} P (x_ {i} | z_ {j}, c) P (z_ {j} | c)}$

Esto se calcula para cada nueva imagen candidata por iteración. La imagen se clasifica como perteneciente a la categoría con mayor probabilidad.

Adición al conjunto de datos y "conjunto de caché"

Sin embargo, para calificar para la incorporación al conjunto de datos, una imagen debe satisfacer una condición más sólida:

${\ Displaystyle \ Displaystyle {\ frac {P (I | c_ {f})} {P (I | c_ {b})}}> {\ frac {\ lambda _ {Ac_ {b}} - \ lambda _ { Rc_ {b}}} {\ lambda _ {Rc_ {f}} - \ lambda _ {Ac_ {f}}}} {\ frac {P (c_ {b})} {P (c_ {f})}} }$

Dónde ${\ Displaystyle \ Displaystyle c_ {f}}$ y ${\ Displaystyle \ Displaystyle c_ {b}}$ son categorías de primer plano (objeto) y de fondo, respectivamente, y la relación de constantes describe el riesgo de aceptar falsos positivos y falsos negativos. Se ajustan automáticamente en cada iteración, con el costo de un conjunto de falsos positivos más alto que el de un falso negativo. Esto asegura que se recopile un mejor conjunto de datos.

Sin embargo, una vez que una imagen es aceptada al cumplir con el criterio anterior y se incorpora al conjunto de datos, debe cumplir con otro criterio antes de que se incorpore al "conjunto de dolor", el conjunto de imágenes que se utilizarán para el entrenamiento. Este conjunto está destinado a ser un subconjunto diverso del conjunto de imágenes aceptadas. Si el modelo se entrenara en todas las imágenes aceptadas, podría volverse cada vez más altamente especializado, aceptando solo imágenes muy similares a las anteriores.

Actuación

El rendimiento del método OPTIMOL se define por tres factores:

Capacidad para recopilar imágenes : OPTIMOL, se encuentra, puede recopilar automáticamente una gran cantidad de buenas imágenes de la web. El tamaño de los conjuntos de imágenes recuperadas por OPTIMOL supera al de los grandes conjuntos de imágenes etiquetadas por humanos para las mismas categorías, como las que se encuentran en Caltech 101 .
Precisión de la clasificación : la precisión de la clasificación se comparó con la precisión mostrada por el clasificador obtenido por los métodos pLSA discutidos anteriormente. Se descubrió que OPTIMOL logró una precisión ligeramente mayor, obteniendo una precisión del 74,8% en 7 categorías de objetos, en comparación con el 72,0%.
Comparación con el aprendizaje por lotes : una cuestión importante a abordar es si el aprendizaje incremental de OPTIMOL le da una ventaja sobre los métodos tradicionales de aprendizaje por lotes, cuando todo lo demás sobre el modelo se mantiene constante. Cuando el clasificador aprende de forma incremental, seleccionando las siguientes imágenes en base a lo aprendido de las anteriores, se observan tres resultados importantes:
- El aprendizaje incremental permite a OPTIMOL recopilar un mejor conjunto de datos
- El aprendizaje incremental permite que OPTIMOL aprenda más rápido (descartando imágenes irrelevantes)
- El aprendizaje incremental no afecta negativamente la curva ROC del clasificador; de hecho, el aprendizaje incremental produjo una mejora

Categorización de objetos en la recuperación de imágenes basada en contenido

Normalmente, las búsquedas de imágenes solo utilizan texto asociado con imágenes. El problema de la recuperación de imágenes basada en contenido es el de mejorar los resultados de búsqueda teniendo en cuenta la información visual contenida en las propias imágenes. Varios métodos CBIR utilizan clasificadores entrenados en resultados de búsqueda de imágenes para refinar la búsqueda. En otras palabras, la categorización de objetos a partir de la búsqueda de imágenes es un componente del sistema. OPTIMOL, por ejemplo, utiliza un clasificador entrenado en imágenes recopiladas durante iteraciones anteriores para seleccionar imágenes adicionales para el conjunto de datos devuelto.

Ejemplos de métodos CBIR que modelan categorías de objetos a partir de la búsqueda de imágenes son:

Fergus et al., 2004 ^[5]
Berg y Forsyth, 2006 ^[6]
Yanai y Barnard, 2006 ^[7]

Referencias

^ ^a ^b ^c ^d ^e Fergus, R .; Fei-Fei, L .; Perona, P .; Zisserman, A. (2005). "Categorías de objetos de aprendizaje de Google 抯 Búsqueda de imágenes" (PDF) . Proc. Conferencia Internacional IEEE sobre Visión por Computador .
^ Hofmann, Thomas (1999). "Análisis semántico latente probabilístico" (PDF) . Incertidumbre en Inteligencia Artificial . Archivado desde el original (PDF) el 10 de julio de 2007.
^ Li, Li-Jia; Wang, Gang; Fei-Fei, Li (2007). "OPTIMOL: recopilación automática de imágenes en línea a través del aprendizaje de modelos incrementales" (PDF) . Proc. Conferencia IEEE sobre visión artificial y reconocimiento de patrones .
^ Teh, Yw; Jordan, MI; Beal, MJ; Blei, David (2006). "Procesos jerárquicos de Dirichlet" (PDF) . Revista de la Asociación Estadounidense de Estadística . 101 (476): 1566. CiteSeerX 10.1.1.5.9094 . doi : 10.1198 / 016214506000000302 . S2CID 7934949 .
^ Fergus, R .; Perona, P .; Zisserman, A. (2004). "Un filtro de categoría visual para imágenes de Google" (PDF) . Proc. 8ª Conf. Europea en Visión por Computadora .
^ Berg, T .; Forsyth, D. (2006). "Animales en la web". Proc. Visión por computadora y reconocimiento de patrones . doi : 10.1109 / CVPR.2006.57 .
^ Yanai, K; Barnard, K. (2005). "Recolección de imágenes web probabilísticas" . Taller ACM SIGMM sobre recuperación de información multimedia .

enlaces externos

Ver también

Análisis semántico latente probabilístico
Asignación de Dirichlet latente
Aprendizaje automático
Modelo de bolsa de palabras
Recuperación de imágenes basada en contenido

[fergus-1] Fergus, R .; Fei-Fei, L .; Perona, P .; Zisserman, A. (2005). "Categorías de objetos de aprendizaje de Google 抯 Búsqueda de imágenes" (PDF) . Proc. Conferencia Internacional IEEE sobre Visión por Computador .

[hofmann-2] Hofmann, Thomas (1999). "Análisis semántico latente probabilístico" (PDF) . Incertidumbre en Inteligencia Artificial . Archivado desde el original (PDF) el 10 de julio de 2007.

[li-3] Li, Li-Jia; Wang, Gang; Fei-Fei, Li (2007). "OPTIMOL: recopilación automática de imágenes en línea a través del aprendizaje de modelos incrementales" (PDF) . Proc. Conferencia IEEE sobre visión artificial y reconocimiento de patrones .

[teh-4] Teh, Yw; Jordan, MI; Beal, MJ; Blei, David (2006). "Procesos jerárquicos de Dirichlet" (PDF) . Revista de la Asociación Estadounidense de Estadística . 101 (476): 1566. CiteSeerX 10.1.1.5.9094 . doi : 10.1198 / 016214506000000302 . S2CID 7934949 .

[5] Fergus, R .; Perona, P .; Zisserman, A. (2004). "Un filtro de categoría visual para imágenes de Google" (PDF) . Proc. 8ª Conf. Europea en Visión por Computadora .

[6] Berg, T .; Forsyth, D. (2006). "Animales en la web". Proc. Visión por computadora y reconocimiento de patrones . doi : 10.1109 / CVPR.2006.57 .

[7] Yanai, K; Barnard, K. (2005). "Recolección de imágenes web probabilísticas" . Taller ACM SIGMM sobre recuperación de información multimedia .

[1]