Estándar de codificación de audio y video ( AVS ) se refiere al estándar de compresión de series de audio y video digital formulado por el grupo de trabajo estándar de codificación de audio y video de China de acuerdo con las reglas internacionales abiertas. Se ha completado la formulación de estándares AVS de 3 generaciones. [1] [2]
El estándar AVS de primera generación incluye “Tecnología de la información, Codificación avanzada de audio y video, Parte 2: Video” ( AVS1 para abreviar) y “Tecnología de la información, Codificación avanzada de audio y video Parte 16: Radio Televisión Video” (AVS + para abreviar).
Para el estándar AVS de segunda generación, conocido como AVS2 , el objetivo principal de la aplicación es el video Ultra HD (alta definición), que admite la compresión eficiente de videos de ultra alta resolución (4K arriba), HDR (alto rango dinámico), y tiene ha sido sometido a la norma internacional IEEE (Núm. de norma: IEEE1857.4) para su aplicación.
El “Fondo de Patentes AVS” proporciona autorización para el estándar AVS, que cobra solo una pequeña cantidad de regalías por productos terminales (como televisores), excluyendo a los proveedores y operadores de contenido. La regalía por el estándar AVS de primera generación es de un yuan por terminal. [3]
Para impulsar el desarrollo y la promoción del estándar AVS, Huawei, TCL, Skyworth y otras empresas establecieron la alianza de innovación tecnológica de la industria audiovisual Zhongguancun (abreviatura: alianza industrial AVS), que se dedica al desarrollo y promoción del estándar AVS. [4]
Organizaciones relacionadas
Grupo de trabajo AVS
El grupo de trabajo AVS es la abreviatura del grupo de trabajo estándar de codificación de audio y video digital, fundado en junio de 2002. Su misión es cooperar con empresas nacionales e instituciones de investigación científica, frente a los requisitos de la industria de la información, para formular (revisar) estándares técnicos comunes como la compresión, descompresión, procesamiento y representación de audio digital y video digital, para así proporcionar tecnologías de codificación / decodificación eficientes y económicas para dispositivos y sistemas de audio digital y video digital, al servicio de la transmisión digital de alta resolución, medios de almacenamiento láser digital de alta densidad , comunicación multimedia inalámbrica de banda ancha, medios de transmisión de banda ancha por Internet y otras aplicaciones importantes de la industria de la información. Actualmente, el grupo de trabajo de AVS está compuesto por 81 unidades miembros de universidades, empresas e instituciones de investigación científica, que están encabezadas por Gao Wen, académico de la Academia China de Ingeniería, profesor y Ph.D. supervisor de la Universidad de Pekín, y subdirector del Comité del Fondo Nacional de Ciencias Naturales, que consta de grupo de requisitos, grupo de sistema, grupo de video, grupo de audio, grupo de prueba, grupo de propiedad intelectual y otros departamentos. Desde su creación, el grupo de trabajo de AVS ha persistido en la formulación de estándares de la serie AVS de acuerdo con reglas internacionales abiertas. Y hasta ahora se han formulado estándares AVS de dos generaciones.
Comité de gestión del consorcio de patentes de AVS
En el aspecto de la gestión de la propiedad intelectual, AVS estableció un mecanismo de gestión de "Patent Pool", con la gestión y autorización de la patente a cargo del "AVS Patent Pool Management Committee", una asociación empresarial independiente fundada el 20 de septiembre de 2004. La El comité es también la primera institución de gestión del "Fondo común de patentes" en China. Apoyándose en la asociación empresarial independiente "Centro de promoción de normas de audio y vídeo digitales del distrito de Haidian de Beijing" registrada en la Oficina de Asuntos Civiles del distrito de Haidian de la ciudad de Beijing, estableció principios y normas de gestión de autorización de patentes de ventanilla única y de bajo costo [5] para las tecnologías patentadas incluidas en la norma, como el comité de expertos y la principal institución de toma de decisiones comerciales del centro de promoción. La regalía para el estándar AVS de primera generación solo se cobra un yuan por terminal, y se adoptará el mismo modo para la segunda generación, para cobrar una pequeña cantidad de regalías solo por el terminal, excluyendo los contenidos, así como los servicios de software. En Internet.
Alianza de la industria AVS
La alianza de la industria AVS es la abreviatura de la alianza de innovación tecnológica de la industria audiovisual de Zhongguancun. En mayo de 2005, doce empresas (unidades) de TCL Group Co., Ltd., Skyworth Group Research Institute, Huawei Technology Co., Ltd., Hisense Group Co., Ltd., Haier Group Co., Ltd., Beijing Haier Guangke Co., Ltd., Inspur Group Co., Ltd., Tecnología de video de audio digital de fuente conjunta (Beijing) Co., Ltd., Asociación de comunicaciones móviles del nuevo distrito de Pudong, Sichuan Changhong Co., Ltd., Shanghai SVA (Grupo) Central Research Institute, Zte Communication Co., Ltd., Zhongguancun Hi-Tech Industry Association, se ofreció como voluntario para lanzar y establecer conjuntamente la alianza de la industria AVS en Beijing, con el fin de impulsar el progreso de la industrialización de AVS lo antes posible y formar una industria industrial completa. entorno de suministro de cadena y múltiples fabricantes pronto, además de inyectar un gran poder en el desarrollo de la industria china de audio y video. El nombre en inglés de la organización es "AVS Industry Alliance", conocido como "AVSA", que constituye "Three Carriages" mutuamente independientes y solidarios con "AVS Workgroup" y "AVS Patent Pool Management Committee". AVSA se compromete a construir una cadena industrial completa de audio y video digital “tecnología → patente → estándar → chip y software → fabricación de toda la máquina y sistema → industria de la cultura y operación de medios digitales”, creando un avance integral de la formulación estándar, tecnología rápida progreso y desarrollo de salto industrial, logrando el crecimiento general de la industria AV digital y formando un grupo empresarial AV digital con un impacto significativo en el mundo. En la actualidad, el número total de miembros de la alianza es de 117, incluidos 81 miembros estándar y 36 miembros de promoción industrial.
El estándar AVS de primera generación
El estándar AVS de primera generación incluye el estándar nacional chino "Tecnología de la información, codificación avanzada de audio y video, Parte 2: Video" (AVS1 para abreviar, etiqueta GB: GB / T 20090.2-2006) y "Tecnología de la información, codificación avanzada de audio y video, Parte 16: Radio Televisión Video ”(AVS + para abreviar, etiqueta GB: GB / T 20090.16-2016). La prueba estándar de video AVS organizada por el Instituto de Planificación de Radio y Televisión de SARFT (Administración Estatal de Radio, Cine y Televisión) muestra: si la tasa de bits AVS1 es la mitad del estándar MPEG-2, la calidad de codificación será excelente tanto para la definición estándar o alta definición; si la tasa de bits es inferior a 1/3, también alcanza niveles buenos-excelentes. La parte de video estándar AVS1 se promulgó como estándar nacional chino en febrero de 2006.
Entre el 7 y el 11 de mayo de 2007, la cuarta reunión del UIT-T (Sector de Normalización de las Telecomunicaciones de la UIT) IPTV FG dejó en claro que el AVS1 se convirtió en uno de los estándares disponibles para la selección de IPTV clasificado con MPEG-2, H.264 y VC-1. El 4 de junio de 2013, la parte de video AVS1 fue emitida por la organización académica más influyente IEEE (Instituto de Ingenieros Eléctricos y Electrónicos) en el campo de la información electrónica internacional, con el Número de Estándar IEEE1857-2013, marcando que la serie de estándares AVS hizo un paso importante en el camino de la internacionalización.
AVS + no es solo el estándar de la industria de radio, cine y televisión GY / T 257.1-2012 "Codificación avanzada de audio y video para radio y televisión, Parte 1: Video" emitido por SARFT el 10 de julio de 2012, sino también la versión mejorada de AVS1 . Hasta ahora, el estándar AVS chino ha aterrizado en Sri Lanka, Laos, Tailandia, Kirguistán y otros países, por lo que miles de conjuntos de contenidos HD que aplican codificación AVS + se han transmitido a través de canales satelitales en todo el mundo.
El estándar AVS de segunda generación
El estándar AVS de segunda generación incluye la serie de estándares nacionales chinos “Tecnología de la información, codificación eficiente de múltiples medios” (AVS2 para abreviar). El AVS2 se enfrenta principalmente a la transmisión de programas de TV de alta definición adicionales, con el objetivo de liderar el desarrollo de la industria de los medios digitales en los próximos cinco a diez años y esforzarse por desempeñar un papel clave en la formulación de estándares internacionales relevantes. Al mismo tiempo que se promueve y aplica el estándar AVS de primera generación, se avanza activamente en el trabajo de evolución continua de la tecnología AVS y se ha completado el desarrollo de la tecnología AVS2 estándar de segunda generación. El SARFT emitió el video AVS2 como estándar de la industria en mayo de 2016 y como estándar nacional chino el 30 de diciembre de 2016. Actualmente, se ha enviado al estándar internacional IEEE (Número de estándar: IEEE1857.4) para su aplicación.
La prueba de instituciones autorizadas muestra que la eficiencia de codificación de AVS2 se mejora más que el doble que la de AVS +, y la tasa de compresión supera el último estándar internacional HEVC (H.265). En comparación con el estándar AVS de primera generación, el segundo puede ahorrar la mitad del ancho de banda de transmisión y apoyará la promoción y aplicación de TV HD adicional en los próximos años.
Características de AVS2
AVS2 adopta un marco de codificación híbrido, y todo el proceso de codificación incluye módulos tales como predicción intracuadro, predicción entre marcos, transformación, cuantificación, cuantificación inversa y transformación inversa, filtro de bucle y codificación de entropía. Posee las siguientes características técnicas: [6]
- Partición de estructura de codificación flexible
- Para satisfacer los requisitos de los videos de resolución HD y Ultra HD para la eficiencia de compresión, AVS2 adopta una estructura de partición de bloque basada en el quadtree, que incluye CU (Unidad de codificación), PU (Unidad de predicción) y TU (Unidad de transformación). Una imagen se divide en LCU (CU más grande) de tamaño fijo, que se itera y se divide en una serie de CU en forma de quadtree. Cada CU contiene un bloque de codificación de luminancia y dos bloques de codificación de crominancia correspondientes (el tamaño de la unidad de bloque a continuación se refiere al bloque de codificación de luminancia). En comparación con el macrobloque tradicional, la estructura de partición basada en el quadtree es más flexible, con el tamaño de CU ampliado de 8 × 8 a 64 × 64.
- La PU estipula todos los modos de predicción de CU, y es la unidad básica para la predicción, incluida la predicción dentro de la trama y entre tramas. No se permite que el tamaño máximo de PU exceda el de la CU actual a la que pertenece. Sobre la base de bloques de predicción intracuadros cuadrados AVS1, se agrega la partición del bloque de predicción intracuadros no cuadrados. Mientras tanto, sobre la base de la partición del bloque de predicción simétrica, la predicción entre cuadros también agrega 4 formas de partición asimétrica.
- Además de CU y PU, AVS2 también define una unidad de transformación TU para la predicción de la transformación residual y la cuantificación. TU es la unidad básica de transformación y cuantificación, definida en CU como PU. Su selección de tamaño está relacionada con la forma de PU correspondiente. Si la CU actual está dividida en PU no cuadrada, la partición no cuadrada se aplicará a la TU correspondiente; de lo contrario, se aplicará el tipo de partición cuadrada. El tamaño de TU podría ser mayor que el de la PU, pero no más que el de la CU a la que pertenece.
- Codificación intra-predicción
- En comparación con AVS1 y H.264 / AVC, AVS2 diseña 33 modos para la codificación de predicción intracuadro de bloques de luminancia, incluido el modo de predicción de CC, el modo de predicción de plano, el modo de predicción bilineal y los modos de predicción de 30 ángeles. Hay 5 modos para bloques de crominancia: modo DC, modo de predicción horizontal, modo de predicción vertical, modo de interpolación bilineal, así como el modo derivado de luminancia (DM) recién agregado.
- Codificación entre predicciones
- En comparación con AVS1, AVS2 aumenta la cantidad máxima de marcos de referencia candidatos a 4, para adaptarse a la gestión de marcos de referencia multinivel, que también aprovecha al máximo el espacio redundante del búfer.
- Para satisfacer los requisitos de la gestión de marcos de referencia múltiples, AVS2 adopta una especie de modo de gestión de marcos de referencia multinivel. En este modo, los fotogramas de cada GOP (Grupo de imágenes) se dividen en varios niveles de acuerdo con la relación de referencia entre fotogramas.
- Modo de predicción inter
- Sobre la base de los tres tipos de imágenes I, P, B de AVS1, de acuerdo con los requisitos de la aplicación, AVS2 agrega la imagen F de predicción de hipótesis múltiples hacia adelante. Con el objetivo de la videovigilancia, la reproducción de escenas y otras aplicaciones específicas, AVS2 diseña cuadros de escena ( Imagen G e Imagen GB) y el fotograma de escena de referencia S.
- Para el fotograma B, además del modo tradicional de avance, retroceso, bidireccional y salto / directo, se agrega un nuevo modo simétrico. En el modo simétrico, solo se requiere codificar los vectores de movimiento hacia adelante, y luego los vectores de movimiento hacia atrás se derivarán de los vectores de movimiento hacia adelante.
- Para ejercer plenamente el rendimiento del modo de salto / directo del fotograma B, AVS2 también adopta el modo de salto / directo multidireccional bajo la premisa de conservar el modo de salto / directo original del fotograma B: modo de salto / directo de dos direcciones, modo directo / salto simétrico, modo directo / salto hacia atrás y modo directo / salto hacia adelante. Para los cuatro modos particulares, el mismo bloque de modo de predicción entre bloques adyacentes se descubre de acuerdo con el modo de predicción del bloque actual, y los vectores de movimiento de los bloques adyacentes con el mismo modo de predicción, que se encuentran primero, se considerarán que del bloque actual.
- Para la trama F, los bloques de codificación pueden referirse a los dos bloques de referencia directa, equivalente a la predicción de doble hipótesis de la trama P.
- AVS2 divide la predicción de múltiples hipótesis en dos categorías, a saber, el modo de múltiples hipótesis temporal y espacial.
- El bloque de codificación actual de la hipótesis doble en el dominio del tiempo aplica el promedio ponderado de los bloques de predicción como el valor de predicción actual, pero solo hay uno para el MVD (Diferencia del vector de movimiento) y el índice de la imagen de referencia, mientras que otro MVD y la imagen de referencia Los índices se derivan de una escala lineal basada en la distancia en el dominio del tiempo.
- La predicción doble de dominio espacial también se llama DMH (Directional Multi-Hypothesis), que se obtiene fusionando dos puntos de predicción alrededor del punto de predicción inicial, y el punto inicial se encuentra en la línea entre los dos puntos de predicción. Además del punto de predicción inicial, hay 8 puntos de predicción en total, que se fusionarán solo con los dos puntos de predicción ubicados en la misma línea recta con el punto de predicción inicial. Además de cuatro direcciones diferentes, el ajuste también se realizará de acuerdo con la distancia, y los cuatro modos con 1/2 píxel de distancia y 1/4 de píxel de distancia se calcularán respectivamente, más el punto de predicción inicial, para calcular 9 modos en total. para comparar, para así seleccionar el modo de predicción óptimo.
- El cuadro de escena es propuesto por AVS2 basado en el método de codificación de video de vigilancia de modelado de fondo. Cuando la herramienta de vigilancia no está abierta, el Cuadro I es solo como referencia para las imágenes antes del siguiente punto de acceso aleatorio. Cuando se abre la herramienta de vigilancia, AVS2 aplicará un cierto fotograma en el video como el fotograma G de la imagen de la escena, que puede considerarse como una referencia a largo plazo para las imágenes posteriores.
- AVS2 puede generar el fotograma de imagen de escena GB con algunos fotogramas en el vídeo, y el fotograma GB también se puede aplicar como referencia a largo plazo.
- Para simplificar la compensación de movimiento, AVS2 adopta un filtro de interpolación de 8 tomas basado en la transformación DCT , que requiere solo un filtrado y admite la generación de una precisión de vector de movimiento superior a 1/4 de píxel.
- Transformación
- La codificación de transformación en AVS2 aplica principalmente la transformación DCT entera , que se realiza directamente en los bloques de transformación de tamaño 4 × 4, 8 × 8, 16 × 16, 32x32.
- Para un bloque de transformación con una dimensión mayor que 64, se adopta una transformación lógica LOT para realizar la transformación de ondículas, seguida de la transformación DCT de enteros.
- Una vez lograda la transformación DCT, AVS2 realizará la segunda transformación 4 x 4 para los bloques 4 x 4 con coeficientes de baja frecuencia, reduciendo así aún más la correlación entre coeficientes y permitiendo que la energía esté más concentrada.
- Codificación de entropía
- La codificación de entropía AVS2 divide los coeficientes de transformación en CG (Grupo de coeficientes) de tamaño 4 x 4 primero, y luego realiza la codificación y la exploración en zigzag de acuerdo con los CG.
- La codificación de coeficientes codifica la posición CG que contiene el último coeficiente distinto de cero primero, y luego codifica cada CG, hasta que se completen todos los coeficientes CG, para permitir que los coeficientes cero estén más concentrados durante el proceso de codificación.
- La codificación aritmética binaria y la codificación bidimensional de longitud variable basada en el contexto todavía se aplican en el AVS2.
- Filtro de bucle
- Los módulos de filtro de bucle de AVS2 contienen tres partes: filtro de desbloqueo, desplazamiento de punto de muestra adaptativo y filtro de compensación de muestra.
- Los bloques de filtrado del filtro de desbloqueo son de un tamaño de 8 × 8, que realizan el filtrado primero en el borde vertical, seguido por el borde horizontal. Y se seleccionan diversos métodos de filtrado para cada borde de acuerdo con diferentes intensidades de filtrado.
- Después del filtro de desbloqueo, se adopta la compensación de compensación de muestra adaptativa para reducir aún más la distorsión.
- El AVS2 agrega un filtro adaptativo después del filtro de desbloqueo y la compensación de compensación de muestra, un filtro Wiener con cruz de 7 × 7 más centrosimetría cuadrada de 3 × 3, que aplica la imagen original sin distorsión y la codificación de la imagen reconstruida para determinar el coeficiente de filtro de mínimos cuadrados, y realizar el filtrado en la imagen reconstruida de decodificación, para reducir así la distorsión por compresión en la imagen de decodificación y mejorar la calidad de la imagen de referencia.
Implementación de AVS
uAVS2
uAVS2 es el primer codificador HD en tiempo real del mundo basado en el estándar AVS2, desarrollado con éxito por el centro de investigación de medios digitales de la Escuela de Graduados de Shenzhen de la Universidad de Pekín, con un rendimiento espectacularmente superior al codificador x265 HEVC / H.265 [ cita requerida ] , que ha eliminado los obstáculos técnicos para permitir el estándar AVS2 en aplicaciones industriales. Posteriormente, también se lanzaron sucesivamente el codificador de video en tiempo real AVS2 Ultra HD y el codificador HD móvil. [7] [8]
OpenAVS2
OpenAVS2 es un conjunto de kit de codificación, transcodificación y decodificación de audio y video industrial maduro basado en el estándar AVS2, que cubre Internet móvil, las aplicaciones centrales de Internet e industrias verticales, elaborando soluciones integrales maduras de la industria audiovisual AVS2. [9]
xAVS2 y dAVS2
xAVS2 y dAVS2 son codificadores y decodificadores de código abierto publicados por el Laboratorio de codificación de video de la Universidad de Pekín ( PKU-VCL ) basados en el estándar de codificación de video AVS2-P2 / IEEE 1857.4 , que se ofrece bajo la versión 2 de la Licencia Pública General GNU (GPL) o una licencia comercial.
Referencias
- ^ "AVS" . Sitio web oficial de AVS .
- ^ "AVS3" . Noticias sobre el enlace AVS3 del sitio web oficial .
- ^ "Quién liderará el nuevo estándar de codificación de video: un informe de comparación de rendimiento de HEVC 、 AVS2 y AV1" . Archivado desde el original el 28 de julio de 2018 . Consultado el 29 de septiembre de 2017 .
- ^ "Introducción a AVSA" . Sitio web oficial de AVSA . Archivado desde el original el 24 de marzo de 2019 . Consultado el 29 de septiembre de 2017 .
- ^ "Recuerdos de AVS (2002-2017)" .
- ^ "Columna especial AVS2" .
- ^ "El codificador de alta definición en tiempo real de AVS2 obtuvo un mejor rendimiento que el codificador x265 de HEVC / H.265" .
- ^ "Códec en tiempo real AVS2 —— uAVS2" . Archivado desde el original el 27 de abril de 2018 . Consultado el 29 de septiembre de 2017 .
- ^ "Sitio web oficial de OpenAVS2" . Archivado desde el original el 31 de diciembre de 2019.