Fusión de evaluación de múltiples métodos de video


Video Multimethod Assessment Fusion ( VMAF ) es una métrica objetiva de calidad de video de referencia completa desarrollada por Netflix en cooperación con la Universidad del Sur de California , el laboratorio IPI / LS2N de la Universidad de Nantes y el Laboratorio de Ingeniería de Imagen y Video (LIVE) en The Universidad de Texas en Austin . Predice la calidad de video subjetiva basada en una referencia y una secuencia de video distorsionada. La métrica se puede utilizar para evaluar la calidad de diferentes códecs de video , codificadores, configuraciones de codificación o variantes de transmisión.

La métrica se basa en el trabajo inicial del grupo del profesor C.-C. Jay Kuo de la Universidad del Sur de California. [1] [2] [3] Aquí, se ha investigado la aplicabilidad de la fusión de diferentes métricas de calidad de video utilizando máquinas de vectores de soporte (SVM), lo que ha dado lugar a un "Índice FVQA (Evaluación de la calidad de video basado en Fusion)" que se ha demostrado para superar las métricas de calidad de imagen existentes en una base de datos de calidad de vídeo subjetiva.

El método se ha desarrollado aún más en cooperación con Netflix, utilizando diferentes conjuntos de datos de video subjetivos, incluido un conjunto de datos propiedad de Netflix ("NFLX"). Posteriormente, renombrado como "Video Multimethod Assessment Fusion", se anunció en Netflix TechBlog en junio de 2016 [4] y la versión 0.3.1 de la implementación de referencia se puso a disposición bajo una licencia permisiva de código abierto. [5]

En 2017, la métrica se actualizó para admitir un modelo personalizado que incluye una adaptación para la visualización de la pantalla del teléfono celular, generando puntajes de calidad más altos para el mismo material de entrada. En 2018, se lanzó un modelo que predice la calidad de contenido con resolución de hasta 4K . Los conjuntos de datos en los que se entrenaron estos modelos no se han puesto a disposición del público.

En 2021, se otorgó un premio Emmy de tecnología e ingeniería a Beamr, Netflix, la Universidad del Sur de California, la Universidad de Nantes , la Universidad de Texas en Austin , SSIMWAVE, Disney, Google, Brightcove y ATEME por el desarrollo de métricas perceptuales abiertas para video Optimización de codificación. Fue la segunda vez en 20 años que las universidades recibieron un premio Emmy. También fue la primera vez que una universidad francesa obtuvo uno. [6] [7]

Las características anteriores se fusionan mediante una regresión basada en SVM para proporcionar una única puntuación de salida en el rango de 0 a 100 por cuadro de video , siendo 100 la calidad idéntica a la del video de referencia. Luego, estas puntuaciones se agrupan temporalmente en toda la secuencia de video utilizando la media aritmética para proporcionar una puntuación de opinión media diferencial general (DMOS).