De Wikipedia, la enciclopedia libre
  (Redirigido desde MPEG-2 Part 2 )
Saltar a navegación Saltar a búsqueda

H.262 [1] o MPEG-2 Parte 2 (conocido formalmente como Recomendación UIT-T H.262 e ISO / IEC 13818-2 , [2] también conocido como Video MPEG-2 ) es un formato de codificación de video estandarizado y en conjunto mantenido por el Grupo de Expertos en Codificación de Vídeo de la Comisión de Estudio 16 del UIT-T (VCEG) y el Grupo de Expertos en Imágenes en Movimiento ISO / IEC (MPEG), y desarrollado con la participación de muchas empresas. Es la segunda parte del estándar ISO / IEC MPEG-2 . Los documentos de la Recomendación UIT-T H.262 e ISO / IEC 13818-2 son idénticos.

El estándar está disponible por una tarifa en ITU-T [1] e ISO. MPEG-2 Video es muy similar a MPEG-1 , pero también brinda soporte para video entrelazado (una técnica de codificación utilizada en sistemas de televisión analógicos NTSC, PAL y SECAM). El video MPEG-2 no está optimizado para velocidades de bits bajas (p. Ej., Menos de 1 Mbit / s), pero supera un poco a MPEG-1 a velocidades de bits más altas (p. Ej., 3 Mbit / sy superiores), aunque no por un gran margen a menos que el video esté entrelazado. Todos los decodificadores de video MPEG-2 que cumplen con los estándares también son completamente capaces de reproducir secuencias de video MPEG-1. [3]

Historia [ editar ]

El proceso de aprobación de ISO / IEC se completó en noviembre de 1994. [4] La primera edición fue aprobada en julio de 1995 [5] y publicada por ITU-T [1] e ISO / IEC en 1996. [6] Didier LeGall de Bellcore presidió el desarrollo del estándar [7] y Sakae Okubo de NTT fue el coordinador del UIT-T y presidió los acuerdos sobre sus requisitos. [8]

La tecnología se desarrolló con contribuciones de varias empresas. Hyundai Electronics (ahora SK Hynix ) desarrolló el primer decodificador MPEG-2 SAVI (Sistema / Audio / Video) en 1995. [9]

La mayoría de las patentes que luego se afirmaron en un grupo de patentes como esenciales para implementar el estándar provinieron de tres empresas: Sony (311 patentes), Thomson (198 patentes) y Mitsubishi Electric (119 patentes). [10]

En 1996, se amplió con dos enmiendas para incluir el registro de identificadores de derechos de autor y el perfil 4: 2: 2. [1] [11] El UIT-T publicó estas enmiendas en 1996 y la ISO en 1997. [6]

También hay otras enmiendas publicadas posteriormente por ITU-T e ISO. [1] [12] La edición más reciente de la norma se publicó en 2013 e incorpora todas las enmiendas anteriores. [2]

Ediciones [ editar ]

Codificación de video [ editar ]

Muestreo de imágenes [ editar ]

Una cámara HDTV con muestreo de 8 bits genera un flujo de video sin procesar de 25 × 1920 × 1080 × 3 = 155,520,000 bytes por segundo para video de 25 cuadros por segundo (usando el formato de muestreo 4: 4: 4 ). Este flujo de datos debe comprimirse si la televisión digital va a encajar en el ancho de banda de los canales de televisión disponibles y si las películas encajan en los DVD. La compresión de video es práctica porque los datos de las imágenes suelen ser redundantes en el espacio y el tiempo. Por ejemplo, el cielo puede ser azul en la parte superior de una imagen y ese cielo azul puede persistir fotograma tras fotograma. Además, debido a la forma en que funciona el ojo, es posible eliminar o aproximar algunos datos de las imágenes de video con poca o ninguna degradación notable en la calidad de la imagen.

Un truco común (y antiguo) para reducir la cantidad de datos es separar cada "fotograma" completo de video en dos "campos" al momento de la transmisión / codificación: el "campo superior", que son las líneas horizontales impares, y el " campo inferior ", que son las líneas pares. Tras la recepción / decodificación, los dos campos se muestran alternativamente con las líneas de un campo intercaladas entre las líneas del campo anterior; este formato se llama video entrelazado . La frecuencia de campo típica es 50 (Europa / PAL) o 59,94 (US / NTSC) campos por segundo, lo que corresponde a 25 (Europa / PAL) o 29,97 (Norteamérica / NTSC) fotogramas completos por segundo. Si el video no está entrelazado, entonces se llama escaneo progresivo.video y cada imagen es un cuadro completo. MPEG-2 admite ambas opciones.

La televisión digital requiere que estas imágenes se digitalicen para que puedan ser procesadas por hardware de computadora. A continuación, cada elemento de la imagen (un píxel ) se representa mediante un número de luminancia y dos números de crominancia . Estos describen el brillo y el color del píxel (consulte YCbCr ). Por tanto, cada imagen digitalizada se representa inicialmente mediante tres matrices rectangulares de números.

Otra práctica común para reducir la cantidad de datos a procesar es submuestrear los dos planos cromáticos (después del filtrado de paso bajo para evitar el alias ). Esto funciona porque el sistema visual humano resuelve mejor los detalles de brillo que los detalles en el tono y la saturación de los colores. El término 4: 2: 2 se usa para video con el croma submuestreado en una proporción de 2: 1 horizontalmente, y 4: 2: 0 se usa para video con el croma submuestreado por 2: 1 tanto vertical como horizontalmente. El video que tiene luma y croma a la misma resolución se llama 4: 4: 4. El documento de video MPEG-2 considera los tres tipos de muestreo, aunque 4: 2: 0 es, con mucho, el más común para el video de consumo, y no hay "perfiles" definidos de MPEG-2 para video 4: 4: 4 (ver más abajo para una mayor discusión de los perfiles).

Si bien la discusión a continuación en esta sección generalmente describe la compresión de video MPEG-2, hay muchos detalles que no se analizan, incluidos los detalles que involucran campos, formatos de crominancia, respuestas a cambios de escena, códigos especiales que etiquetan las partes del flujo de bits y otras piezas. de información. Aparte de las características para manejar campos para codificación entrelazada, MPEG-2 Video es muy similar a MPEG-1 Video (e incluso bastante similar al estándar anterior H.261 ), por lo que la descripción completa a continuación se aplica igualmente bien a MPEG-1.

I-frames, P-frames y B-frames [ editar ]

MPEG-2 incluye tres tipos básicos de tramas codificadas: tramas intracodificadas (tramas I ), tramas con codificación predictiva (tramas P ) y tramas con codificación predictiva bidireccional (tramas B ).

Un I-frame es una versión comprimida por separado de un único fotograma sin comprimir (sin formato). La codificación de un I-frame aprovecha la redundancia espacial y la incapacidad del ojo para detectar ciertos cambios en la imagen. A diferencia de los fotogramas P y los fotogramas B, los fotogramas I no dependen de los datos del fotograma anterior o siguiente, por lo que su codificación es muy similar a cómo se codificaría una fotografía fija (más o menos similar a la codificación de imágenes JPEG ). Brevemente, el fotograma sin procesar se divide en bloques de 8 píxeles por 8 píxeles. Los datos de cada bloque se transforman mediante la transformada de coseno discreta (DCT). El resultado es una matriz de coeficientes de 8 × 8 que tienen un número realvalores. La transformación convierte variaciones espaciales en variaciones de frecuencia, pero no cambia la información en el bloque; si la transformada se calcula con perfecta precisión, el bloque original se puede recrear exactamente aplicando la transformada de coseno inverso (también con perfecta precisión). La conversión de números enteros de 8 bits a coeficientes de transformación de valor real en realidad expande la cantidad de datos utilizados en esta etapa del procesamiento, pero la ventaja de la transformación es que los datos de la imagen pueden luego aproximarse cuantificandolos coeficientes. Muchos de los coeficientes de transformación, generalmente los componentes de frecuencia más alta, serán cero después de la cuantificación, que es básicamente una operación de redondeo. La penalización de este paso es la pérdida de algunas sutiles distinciones de brillo y color. La cuantificación puede ser gruesa o fina, según lo seleccione el codificador. Si la cuantificación no es demasiado gruesa y se aplica la transformada inversa a la matriz después de cuantificarla, se obtiene una imagen que se ve muy similar a la imagen original pero que no es exactamente igual. A continuación, la propia matriz de coeficientes cuantificados se comprime. Normalmente, una esquina de la matriz de coeficientes de 8 × 8 contiene solo ceros después de que se aplica la cuantificación. Comenzando en la esquina opuesta de la matriz, luego zigzagueando a través de la matriz para combinar los coeficientes en una cadena, luego sustituyendocódigos de longitud de ejecución para ceros consecutivos en esa cadena, y luego aplicando la codificación Huffman a ese resultado, se reduce la matriz a una cantidad menor de datos. Son estos datos codificados en entropía los que se transmiten o se colocan en DVD. En el receptor o en el reproductor, todo el proceso se invierte, lo que permite al receptor reconstruir, en una aproximación cercana, el marco original.

El procesamiento de los fotogramas B es similar al de los fotogramas P, excepto que los fotogramas B utilizan la imagen en un fotograma de referencia posterior, así como la imagen en un fotograma de referencia anterior. Como resultado, los fotogramas B suelen proporcionar más compresión que los fotogramas P. Los fotogramas B nunca son fotogramas de referencia en vídeo MPEG-2.

Por lo general, cada 15 fotogramas aproximadamente se convierte en un I-frame. Los fotogramas P y los fotogramas B pueden seguir un fotograma I como este, IBBPBBPBBPBB (I), para formar un grupo de imágenes (GOP) ; sin embargo, el estándar es flexible al respecto. El codificador selecciona qué imágenes se codifican como fotogramas I, P y B.

Macrobloques [ editar ]

Los fotogramas P proporcionan más compresión que los fotogramas I porque aprovechan los datos de un fotograma I o P anterior, un fotograma de referencia . Para generar un cuadro P, se reconstruye el cuadro de referencia anterior, tal como lo haría en un receptor de TV o reproductor de DVD. El fotograma que se comprime se divide en macrobloques de 16 píxeles por 16 píxeles. Luego, para cada uno de esos macrobloques, se busca en el marco de referencia reconstruido para encontrar un área de 16 por 16 que coincida estrechamente con el contenido del macrobloque que se está comprimiendo. El desplazamiento se codifica como un "vector de movimiento". Con frecuencia, el desplazamiento es cero, pero si algo en la imagen se está moviendo, el desplazamiento podría ser algo así como 23 píxeles hacia la derecha y 4 píxeles y medio hacia arriba. En MPEG-1 y MPEG-2, los valores del vector de movimiento pueden representar compensaciones enteras o medias compensaciones. La coincidencia entre las dos regiones a menudo no será perfecta. Para corregir esto, el codificador toma la diferencia de todos los píxeles correspondientes de las dos regiones, y en esa diferencia de macrobloque luego calcula la DCT y las cadenas de valores de coeficientes para las cuatro áreas de 8 × 8 en el macrobloque de 16 × 16 como se describió anteriormente. Este "residual"se añade al vector de movimiento y el resultado se envía al receptor o se almacena en el DVD para cada macrobloque que se comprime. A veces, no se encuentra ninguna coincidencia adecuada. Entonces, el macrobloque se trata como un macrobloque I-frame.

Perfiles y niveles de video [ editar ]

El video MPEG-2 admite una amplia gama de aplicaciones, desde móviles hasta edición HD de alta calidad. Para muchas aplicaciones, es poco realista y demasiado caro admitir todo el estándar. Para permitir que estas aplicaciones admitan solo subconjuntos, el estándar define perfiles y niveles.

Un perfil define conjuntos de características como imágenes B, video 3D, formato de croma, etc. El nivel limita la memoria y la potencia de procesamiento necesarias, definiendo velocidades de bits máximas, tamaños de cuadros y velocidades de cuadros.

Luego, una aplicación MPEG especifica las capacidades en términos de perfil y nivel. Por ejemplo, un reproductor de DVD puede decir que admite hasta el perfil principal y el nivel principal (a menudo escrito como MP @ ML). Significa que el reproductor puede reproducir cualquier flujo MPEG codificado como MP @ ML o menos.

The tables below summarizes the limitations of each profile and level, though there are constraints not listed here.[1]:Annex E Note that not all profile and level combinations are permissible, and scalable modes modify the level restrictions.

  1. ^ a b c SNR-scalability sends the transform-domain differences to a lower quantization level of each block, raising the quality and bitrate when both streams are combined. A main stream can be recreated losslessly.
  2. ^ a b Spatial-scalability encodes the difference between the HD and the upscaled SD streams, which is combined with the SD to recreate the HD stream. A Main stream cannot be recreated losslessly.
  3. ^ Temporal-scalability inserts extra frames between every base frame, to raise the frame rate or add a 3D viewpoint. This is the only MPEG-2 profile allowing adaptive frame references, a prominent feature of H.264/AVC. A Main stream may be recreated losslessly only if extended references are not used.

A few common MPEG-2 Profile/Level combinations are presented below, with particular maximum limits noted:

Applications[edit]

Some applications are listed below.

  • DVD-Video - a standard definition consumer video format. Uses 4:2:0 color subsampling and variable video data rate up to 9.8 Mbit/s.
  • MPEG IMX - a standard definition professional video recording format. Uses intraframe compression, 4:2:2 color subsampling and user-selectable constant video data rate of 30, 40 or 50 Mbit/s.
  • HDV - a tape-based high definition video recording format. Uses 4:2:0 color subsampling and 19.4 or 25 Mbit/s total data rate.
  • XDCAM - a family of tapeless video recording formats, which, in particular, includes formats based on MPEG-2 Part 2. These are: standard definition MPEG IMX (see above), high definition MPEG HD, high definition MPEG HD422. MPEG IMX and MPEG HD422 employ 4:2:2 color subsampling, MPEG HD employs 4:2:0 color subsampling. Most subformats use selectable constant video data rate from 25 to 50 Mbit/s, although there is also a variable bitrate mode with maximum 18 Mbit/s data rate.
  • XF Codec - a professional tapeless video recording format, similar to MPEG HD and MPEG HD422 but stored in a different container file.
  • HD DVD - defunct high definition consumer video format.
  • Blu-ray Disc - high definition consumer video format.
  • Broadcast TV - in some countries MPEG-2 Part 2 is used for digital broadcast in high definition. For example, ATSC specifies both several scanning formats (480i, 480p, 720p, 1080i, 1080p) and frame/field rates at 4:2:0 color subsampling, with up to 19.4 Mbit/s data rate per channel.
  • Digital cable TV
  • Satellite TV

Patent holders[edit]

The following organizations have held patents for MPEG-2 video technology, as listed at MPEG LA. All of these patents are now expired.

References[edit]

  1. ^ a b c d e f g "H.262 : Information technology – Generic coding of moving pictures and associated audio information: Video". ITU-T Website. International Telecommunication Union – Telecommunication Standardization Sector (ITU-T). February 2000. Retrieved 13 August 2009.
  2. ^ a b c ISO. "ISO/IEC 13818-2:2013 – Information technology – Generic coding of moving pictures and associated audio information: Video". ISO. Retrieved 24 July 2014.
  3. ^ The Moving Picture Experts Group. "MPEG-2 Video". Retrieved 15 June 2019 – via mpeg.chiariglione.org.
  4. ^ P.N. Tudor (December 2005). "MPEG-2 Video compression". Retrieved 1 November 2009.
  5. ^ H.262 (07/95) Information Technology – Generic Coding of Moving Picture and Associated Audio Information: Video (PDF), ITU, retrieved 3 November 2009
  6. ^ a b c ISO. "ISO/IEC 13818-2:1996 - Information technology – Generic coding of moving pictures and associated audio information: Video". ISO. Retrieved 24 July 2014.
  7. ^ "Didier LeGall, Executive Vice President". Ambarella Inc. Retrieved 2 June 2017.
  8. ^ "Sakae Okubo". ITU. Retrieved 27 January 2017.
  9. ^ "History: 1990s". SK Hynix. Retrieved 6 July 2019.
  10. ^ "MPEG-2 Patent List" (PDF). MPEG LA. Retrieved 7 July 2019.
  11. ^ Leonardo Chiariglione - Convenor (October 2000). "Short MPEG-2 description". Retrieved 1 November 2009.
  12. ^ a b MPEG. "MPEG standards". chiariglione.org. Retrieved 24 July 2014.
  13. ^ ISO. "ISO/IEC 13818-2:2000/Amd 3 - New level for 1080@50p/60p". Retrieved 24 July 2014.
  14. ^ ISO. "ISO/IEC 13818-2:2000 - Information technology – Generic coding of moving pictures and associated audio information: Video". ISO. Retrieved 24 July 2014.
  15. ^ "MPEG-2 Patent List" (PDF). MPEG LA. Retrieved 7 July 2019.

External links[edit]

  • Official MPEG web site
  • MPEG-2 Video Encoding (H.262) - The Library of Congress