De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

Visual Information Fidelity (VIF) es un índice de evaluación de calidad de imagen de referencia completo basado en estadísticas de escenas naturales y la noción de información de imagen extraída por el sistema visual humano . [1] Fue desarrollado por Hamid R. Sheikh y Alan Bovik en el Laboratorio de Ingeniería de Imagen y Video (LIVE) de la Universidad de Texas en Austin en 2006 y se ha demostrado que se correlaciona muy bien con los juicios humanos sobre la calidad visual. Está implementado en el núcleo de Netflix VMAF.sistema de monitoreo de calidad de video, que controla la calidad de imagen de todos los videos codificados transmitidos por Netflix. Esto representa aproximadamente el 35% de todo el consumo de ancho de banda de EE. UU. Y un volumen cada vez mayor de videos transmitidos a nivel mundial. [2]

Descripción general del modelo [ editar ]

Las imágenes y videos del entorno visual tridimensional provienen de una clase común: la clase de escenas naturales. Las escenas naturales forman un pequeño subespacio en el espacio de todas las señales posibles, y los investigadores han desarrollado modelos sofisticados para caracterizar estas estadísticas. La mayoría de los procesos de distorsión del mundo real alteran estas estadísticas y hacen que las señales de imagen o video no sean naturales. El índice VIF emplea estadísticas de escena natural(NSS) junto con un modelo de distorsión (canal) para cuantificar la información compartida entre la prueba y las imágenes de referencia. Además, el índice VIF se basa en la hipótesis de que esta información compartida es un aspecto de la fidelidad que se relaciona bien con la calidad visual. A diferencia de los enfoques anteriores basados ​​en la sensibilidad al error y la medición de la estructura del sistema visual humano (HVS), [3] este enfoque estadístico que se utiliza en un entorno teórico de la información produce un método de evaluación de la calidad (QA) de referencia completa (FR) que no no confía en ningún HVS o parámetro de visualización de la geometría, ni en ninguna constante que requiera optimización y, sin embargo, es competitivo con los métodos de control de calidad más avanzados. [4]

Específicamente, la imagen de referencia se modela como la salida de una fuente estocástica "natural" que pasa a través del canal HVS y es procesada más tarde por el cerebro. El contenido de información de la imagen de referencia se cuantifica como la información mutua entre la entrada y la salida del canal HVS. Esta es la información que el cerebro podría extraer idealmente de la salida del HVS. Luego, la misma medida se cuantifica en presencia de un canal de distorsión de imagen que distorsiona la salida de la fuente natural antes de que pase a través del canal HVS, midiendo así la información que el cerebro podría extraer idealmente de la imagen de prueba. Esto se muestra gráficamente en la Figura 1. Las dos medidas de información se combinan para formar una medida de fidelidad de la información visual que relaciona la calidad visual con la información relativa de la imagen.

Figura 1

Modelo de sistema [ editar ]

Modelo fuente [ editar ]

Se utiliza una mezcla de escala gaussiana (GSM) para modelar estadísticamente los coeficientes wavelet de una descomposición piramidal orientable de una imagen. [5] El modelo se describe a continuación para una subbanda determinada de la descomposición de múltiples escalas y orientaciones múltiples y puede extenderse a otras subbandas de manera similar. Deje que los coeficientes de ondículas en una subbanda dada sean donde denota el conjunto de índices espaciales a través de la subbanda y cada uno es un vector dimensional. La subbanda se divide en bloques no superpuestos de coeficientes cada uno, donde corresponde cada bloque . Según el modelo GSM,

donde es un escalar positivo y es un vector gaussiano con media cero y covarianza . Además, se supone que los bloques que no se superponen son independientes entre sí y que el campo aleatorio es independiente de .

Modelo de distorsión [ editar ]

El proceso de distorsión se modela utilizando una combinación de atenuación de señal y ruido aditivo en el dominio de ondículas. Matemáticamente, si denota el campo aleatorio de una subbanda dada de la imagen distorsionada, es un campo escalar determinista y , donde es un vector gaussiano de media cero con covarianza , entonces

Además, está modelado para ser independiente de y .

Modelo HVS [ editar ]

La dualidad de los modelos HVS y NSS implica que ya se han tenido en cuenta varios aspectos del HVS en el modelo fuente. Aquí, el HVS se modela adicionalmente basándose en la hipótesis de que la incertidumbre en la percepción de señales visuales limita la cantidad de información que se puede extraer de la fuente y la imagen distorsionada. Esta fuente de incertidumbre se puede modelar como ruido visual en el modelo HVS. En particular, el ruido HVS en una subbanda dada de la descomposición de ondículas se modela como ruido gaussiano blanco aditivo. Sean y sean campos aleatorios, donde y son cero vectores gaussianos con covarianza y . Además, denote y denote la señal visual en la salida del HVS. Matemáticamente, tenemos y. Tenga en cuenta que y son campos aleatorios que son independientes de , y .

Índice VIF [ editar ]

Vamos a denotar el vector de todos los bloques de una subbanda dada. Dejemos y se defina de manera similar. Vamos a denotar la estimación de máxima verosimilitud de dado y . La cantidad de información extraída de la referencia se obtiene como

mientras que la cantidad de información extraída de la imagen de prueba se da como
Denotando los bloques en la subbanda de la descomposición de ondículas por , y de manera similar para las otras variables, el índice VIF se define como

Rendimiento [ editar ]

El coeficiente de correlación de orden de rango de Spearman (SROCC) entre las puntuaciones del índice VIF de imágenes distorsionadas en la base de datos de evaluación de la calidad de imagen LIVE y las puntuaciones de opinión humana correspondientes se evalúa en 0,96. [6] Esto sugiere que el índice se correlaciona muy bien con la percepción humana de la calidad de la imagen, a la par con los mejores algoritmos FR IQA. [7]

Referencias [ editar ]

  1. ^ Jeque, Hamid; Bovik, Alan (2006). "Información de imagen y calidad visual". Transacciones IEEE sobre procesamiento de imágenes . 15 (2): 430–444. Código Bibliográfico : 2006ITIP ... 15..430S . doi : 10.1109 / tip.2005.859378 . PMID  16479813 .
  2. ^ https://variety.com/2015/digital/news/netflix-bandwidth-usage-internet-traffic-1201507187/
  3. ^ Wang, Zhou; Bovik, Alan; Jeque, Hamid; Simoncelli, Eero (2004). "Evaluación de la calidad de la imagen: de la visibilidad del error a la similitud estructural". Transacciones IEEE sobre procesamiento de imágenes . 13 (4): 600–612. Código bibliográfico : 2004ITIP ... 13..600W . doi : 10.1109 / tip.2003.819861 . PMID 15376593 . S2CID 207761262 .  
  4. ^ http://videoclarity.com/wp-content/uploads/2013/05/Statistic-of-Full-Reference-UT.pdf
  5. ^ Simoncelli, Eero; Freeman, William (1995). "La pirámide orientable: una arquitectura flexible para el cálculo derivado de múltiples escalas". IEEE Int. Conferencia sobre Procesado de Imágenes . 3 : 444–447. doi : 10.1109 / ICIP.1995.537667 . ISBN 0-7803-3122-2. S2CID  1099364 .
  6. ^ http://videoclarity.com/wp-content/uploads/2013/05/Statistic-of-Full-Reference-UT.pdf
  7. ^ http://videoclarity.com/wp-content/uploads/2013/05/Statistic-of-Full-Reference-UT.pdf

Enlaces externos [ editar ]

  • Laboratorio de Ingeniería de Imagen y Video de la Universidad de Texas
  • Una implementación del índice VIF
  • Base de datos de evaluación de la calidad de la imagen LIVE