La recuperación de información multimedia ( MMIR o MIR ) es una disciplina de investigación de la informática que tiene como objetivo extraer información semántica de fuentes de datos multimedia . [1] [ verificación fallida ] Las fuentes de datos incluyen medios directamente perceptibles como audio , imagen y video , fuentes perceptibles indirectamente como texto , descripciones semánticas, [2] bioseñales , así como fuentes no perceptibles como bioinformación, precios de acciones, etc. La metodología de MMIR se puede organizar en tres grupos:
- Métodos para resumir el contenido de los medios ( extracción de características ). El resultado de la extracción de características es una descripción.
- Métodos para el filtrado de descripciones de medios (por ejemplo, eliminación de redundancia )
- Métodos para la categorización de descripciones de medios en clases.
Métodos de extracción de características
La extracción de características está motivada por el gran tamaño de los objetos multimedia, así como por su redundancia y, posiblemente, por el ruido. [1] : 2 [ verificación fallida ] Generalmente, se pueden lograr dos objetivos posibles mediante la extracción de características:
- Resumen de contenido multimedia. Los métodos de resumen incluyen en el dominio de audio, por ejemplo, coeficientes cepstrales de frecuencia mel , tasa de cruces por cero, energía de corta duración. En el ámbito visual, los histogramas de color [3] , como el descriptor de color escalable MPEG-7, se pueden utilizar para el resumen.
- Detección de patrones por autocorrelación y / o correlación cruzada . Los patrones son fragmentos de medios recurrentes que pueden detectarse comparando fragmentos sobre las dimensiones de los medios (tiempo, espacio, etc.) o comparando fragmentos de medios con plantillas (por ejemplo, plantillas de caras, frases). Los métodos típicos incluyen Codificación Predictiva Lineal en el dominio de audio / bioseñal, [4] descripción de textura en el dominio visual y n-gramas en la recuperación de información de texto.
Métodos de fusión y filtrado
La recuperación de información multimedia implica que se emplean múltiples canales para la comprensión del contenido de los medios. [5] Cada uno de estos canales se describe mediante transformaciones de funciones específicas de los medios. Las descripciones resultantes deben fusionarse en una descripción por objeto multimedia. La fusión se puede realizar mediante una simple concatenación si las descripciones son de tamaño fijo. Las descripciones de tamaño variable, como ocurren con frecuencia en la descripción de movimiento, deben normalizarse primero a una longitud fija.
Los métodos utilizados con frecuencia para el filtrado de descripciones incluyen el análisis factorial (por ejemplo, por PCA), la descomposición de valores singulares (por ejemplo, como indexación semántica latente en la recuperación de texto) y la extracción y prueba de momentos estadísticos. Los conceptos avanzados, como el filtro de Kalman, se utilizan para fusionar descripciones.
Métodos de categorización
En general, se pueden emplear todas las formas de aprendizaje automático para la categorización de descripciones multimedia [1] : 125 [ verificación fallida ] aunque algunos métodos se utilizan con más frecuencia en un área que en otra. Por ejemplo, los modelos ocultos de Markov son lo último en reconocimiento de voz , mientras que la deformación temporal dinámica , un método relacionado semánticamente, es lo último en alineación de secuencias de genes. La lista de clasificadores aplicables incluye lo siguiente:
- Enfoques métricos ( análisis de conglomerados , modelo de espacio vectorial , distancias de Minkowski , alineación dinámica)
- Métodos de vecino más cercano ( algoritmo de K-vecinos más cercanos , K-medias, mapa autoorganizado )
- Minimización de riesgos (regresión de vectores de soporte , máquina de vectores de soporte , análisis discriminante lineal )
- Métodos basados en densidad (redes de Bayes, procesos de Markov , modelos de mezcla)
- Redes neuronales ( perceptrón , memorias asociativas, redes de púas)
- Heurísticas ( árboles de decisión , bosques aleatorios, etc.)
La selección del mejor clasificador para un problema dado (conjunto de prueba con descripciones y etiquetas de clase, la llamada verdad del terreno ) se puede realizar automáticamente, por ejemplo, utilizando Weka Data Miner.
Problemas abiertos
La calidad de los sistemas MMIR [6] depende en gran medida de la calidad de los datos de formación. Las descripciones discriminatorias se pueden extraer de los medios de comunicación de diversas formas. El aprendizaje automático proporciona métodos de categorización para todo tipo de datos. Sin embargo, el clasificador solo puede ser tan bueno como los datos de entrenamiento proporcionados. Por otro lado, requiere un esfuerzo considerable proporcionar etiquetas de clase para grandes bases de datos. El éxito futuro de MMIR dependerá de la provisión de dichos datos. [7] El concurso anual TRECVID es actualmente una de las fuentes más relevantes de información sobre el terreno de alta calidad.
Áreas relacionadas
MMIR proporciona una descripción general de los métodos empleados en las áreas de recuperación de información. [8] [9] Los métodos de un área se adaptan y emplean en otros tipos de medios. El contenido multimedia se fusiona antes de que se realice la clasificación. Los métodos MMIR, por lo tanto, generalmente se reutilizan en otras áreas como:
- Análisis de bioinformación
- Procesamiento de bioseñales
- Recuperación de imágenes y videos basados en contenido
- Reconocimiento facial
- Clasificación de audio y música (recuperación de información musical)
- Reconocimiento automático de contenido
- Reconocimiento de voz
- Análisis de cartas técnicas
- Navegación de videos
- Recuperación de información de texto
- Recuperación de imágenes
- Aprendiendo a clasificar
La Revista Internacional de Recuperación de Información Multimedia [10] documenta el desarrollo de MMIR como una disciplina de investigación que es independiente de estas áreas. Consulte también el Manual de recuperación de información multimedia [11] para obtener una descripción completa de esta disciplina de investigación.
Referencias
- ^ a b c H Eidenberger. Comprensión fundamental de los medios , atpress, 2011, p. 1.
- ^ Sikos, LF (2016). "Herramientas de anotación de video semántico impulsadas por RDF con mapeo de conceptos a datos vinculados para la indexación de video de próxima generación: una revisión completa" . Herramientas y aplicaciones multimedia . 76 (12): 14437-14460. doi : 10.1007 / s11042-016-3705-7 .
- ^ A Del Bimbo. Recuperación de información visual , Morgan Kaufmann, 1999.
- ^ HG Kim, N Moreau, T Sikora. MPEG-7 Audio y más allá ", Wiley, 2005.
- ^ MS Lew (Ed.). Principios de recuperación de información visual , Springer, 2001.
- ^ JC Nordbotten. " Sistemas de recuperación de información multimedia ". Consultado el 14 de octubre de 2011.
- ^ H Eidenberger. Frontiers of Media Understanding , atpress, 2012.
- ^ H Eidenberger. Comprensión de medios profesionales , atpress, 2012.
- ^ Raieli, Roberto (2016). "Introducción de la recuperación de información multimedia a las bibliotecas" . JLIS.it . 7 (3): 9–42. doi : 10.4403 / jlis.it-11530 .
- ^ " Revista internacional de recuperación de información multimedia ", Springer, 2011, consultado el 21 de octubre de 2011.
- ^ H Eidenberger. Manual de recuperación de información multimedia , atpress, 2012.