Fidelidad de la información visual

La fidelidad de la información visual (VIF) es un índice de evaluación de la calidad de la imagen de referencia completo basado en las estadísticas de la escena natural y la noción de información de la imagen extraída por el sistema visual humano . ^[1] Fue desarrollado por Hamid R Sheikh y Alan Bovik en el Laboratorio de Ingeniería de Imagen y Video (LIVE) de la Universidad de Texas en Austin en 2006. Se implementa en el núcleo del sistema de monitoreo de calidad de video Netflix VMAF , que controla la calidad de imagen de todos los videos codificados transmitidos por Netflix.

Las imágenes y videos de los entornos visuales tridimensionales provienen de una clase común: la clase de escenas naturales. Escenas naturales de un pequeño subespacio en el espacio de todas las señales posibles, y los investigadores han desarrollado modelos sofisticados para caracterizar estas estadísticas. La mayoría de los procesos de distorsión del mundo real alteran estas estadísticas y hacen que las señales de imagen o video no sean naturales. El índice VIF emplea modelos estadísticos de escena natural (NSS) junto con un modelo de distorsión (canal) para cuantificar la información compartida entre la prueba y las imágenes de referencia. Además, el índice VIF se basa en la hipótesisque esta información compartida es un aspecto de la fidelidad que se relaciona bien con la calidad visual. A diferencia de los enfoques anteriores basados en la sensibilidad al error del sistema visual humano (HVS) y la medición de la estructura, ^[2] este enfoque estadístico se utiliza en un entorno teórico de la información y produce un método de evaluación de calidad (QA) de referencia completa (FR) que no no se basa en ningún HVS o parámetro de geometría de visualización, ni en ninguna constante que requiera optimización y, sin embargo, es competitivo con los métodos de control de calidad más avanzados. ^{[ cita requerida ]}

Específicamente, la imagen de referencia se modela como la salida de un estocásticofuente 'natural' que pasa a través del canal HVS y luego es procesada por el cerebro. El contenido de información de la imagen de referencia se cuantifica como la información mutua entre la entrada y la salida del canal HVS. Esta es la información que el cerebro idealmente podría extraer de la salida del HVS. Luego se cuantifica la misma medida en presencia de un canal de distorsión de imagen que distorsiona la salida de la fuente natural antes de que pase por el canal HVS, midiendo así la información que el cerebro podría extraer idealmente de la imagen de prueba. Esto se muestra pictóricamente en la Figura 1. Las dos medidas de información se combinan luego para formar una medida de fidelidad de información visual que relaciona la calidad visual con la información de imagen relativa.

Figura 1