Tipos de imágenes de compresión de video

Este artículo no cita ninguna fuente . Por favor, ayuda a mejorar este artículo mediante la adición de citas de fuentes confiables . El material no obtenido puede ser cuestionado y eliminado .
Encuentre fuentes: "Tipos de imágenes de compresión de video" - noticias · periódicos · libros · académico · JSTOR ( octubre de 2008 ) ( Aprenda cómo y cuándo eliminar este mensaje de plantilla )

En el campo de la compresión de video, un cuadro de video se comprime utilizando diferentes algoritmos con diferentes ventajas y desventajas, centradas principalmente en la cantidad de compresión de datos . Estos diferentes algoritmos para cuadros de video se denominan tipos de imágenes o tipos de cuadros . Los tres principales tipos de imágenes utilizadas en los diferentes algoritmos de vídeo son I , P y B . Se diferencian en las siguientes características:

Los fotogramas I son los menos comprimibles, pero no requieren otros fotogramas de vídeo para decodificarlos.
Los fotogramas P pueden utilizar datos de fotogramas anteriores para descomprimirlos y son más comprimibles que los fotogramas I.
Los fotogramas B pueden utilizar fotogramas anteriores y posteriores como referencia de datos para obtener la mayor cantidad de compresión de datos.

Resumen [ editar ]

Una secuencia de fotogramas de vídeo, que consta de dos fotogramas clave (I), un fotograma predicho hacia adelante (P) y un fotograma predicho bidireccionalmente (B).

Se utilizan tres tipos de imágenes (o fotogramas) en la compresión de video : fotogramas I, P y B.

Un I-frame ( imagen intracodificada ) es una imagen completa, como un archivo de imagen JPG o BMP .

Un fotograma P (imagen prevista) contiene solo los cambios en la imagen del fotograma anterior. Por ejemplo, en una escena en la que un automóvil se mueve sobre un fondo estacionario, solo es necesario codificar los movimientos del automóvil. El codificador no necesita almacenar los píxeles de fondo que no cambian en el marco P, lo que ahorra espacio. Los fotogramas P también se conocen como fotogramas delta .

Un fotograma B (imagen bidireccional predicha) ahorra aún más espacio al utilizar las diferencias entre el fotograma actual y los fotogramas anterior y siguiente para especificar su contenido.

Las tramas P y B también se denominan tramas Inter . El orden en el que se disponen los fotogramas I, P y B se denomina Grupo de imágenes .

Imágenes / marcos [ editar ]

Si bien los términos "marco" e "imagen" se utilizan a menudo indistintamente, el término imagen es una noción más general, ya que una imagen puede ser un marco o un campo . Un marco es una imagen completa y un campo es el conjunto de líneas de escaneo pares o impares que componen una imagen parcial. Por ejemplo, una imagen HD 1080 tiene 1080 líneas (filas) de píxeles. Un campo impar consta de información de píxeles para las líneas 1, 3, 5 ... 1079. Un campo par tiene información de píxeles para las líneas 2, 4, 6 ... 1080. Cuando el video se envía en formato de escaneo entrelazado , cada cuadro se envía en dos campos, el campo de líneas impares seguido por el campo de líneas pares.

Un marco utilizado como referencia para predecir otros marcos se denomina marco de referencia.

Los fotogramas codificados sin información de otros fotogramas se denominan fotogramas I. Los marcos que utilizan la predicción de un solo marco de referencia anterior (o un solo marco para la predicción de cada región) se denominan marcos P. Los marcos B utilizan la predicción a partir de un promedio (posiblemente ponderado) de dos marcos de referencia, uno anterior y otro posterior.

Rebanadas [ editar ]

En el estándar H.264 / MPEG-4 AVC , la granularidad de los tipos de predicción se reduce al "nivel de corte". Un segmento es una región espacialmente distinta de una trama que se codifica por separado de cualquier otra región en la misma trama. Los sectores I, P y B sustituyen a los fotogramas I, P y B.

Macrobloques [ editar ]

Por lo general, las imágenes (cuadros) se segmentan en macrobloques , y los tipos de predicción individuales se pueden seleccionar sobre una base de macrobloque en lugar de ser los mismos para toda la imagen, de la siguiente manera:

Los marcos I pueden contener solo macrobloques intra
Los marcos P pueden contener tanto intra macrobloques como macrobloques predichos
Los fotogramas B pueden contener macrobloques intra, predichos y bipredichos

Además, en el estándar de codificación de video H.264 , la trama se puede segmentar en secuencias de macrobloques llamados rebanadas y, en lugar de utilizar selecciones de tipo de trama I, B y P, el codificador puede elegir el estilo de predicción de forma distinta en cada rebanada individual. También en H.264 se encuentran varios tipos adicionales de cuadros / cortes:

Cuadros / tramas SI (Conmutación I): Facilita la conmutación entre flujos codificados; contiene macrobloques SI (un tipo especial de macrobloque intracodificado).
SP-frames / slices (Conmutación P): Facilita la conmutación entre trenes codificados; contiene macrobloques P y / o I
Estimación de movimiento de múltiples cuadros (hasta 16 cuadros de referencia o 32 campos de referencia)

La estimación de movimiento de fotogramas múltiples aumenta la calidad del video, al mismo tiempo que permite la misma relación de compresión. Las tramas SI y SP (definidas para el perfil extendido) mejoran la corrección de errores . Cuando estos marcos se utilizan junto con un decodificador inteligente, es posible recuperar los flujos de transmisión de DVD dañados.

Fragmentos / fotogramas intracodificados (I) (fotogramas clave) [ editar ]

Los fotogramas I contienen una imagen completa. Están codificados sin referencia a ningún otro marco excepto (partes de) ellos mismos.
Puede ser generado por un codificador para crear un punto de acceso aleatorio (para permitir que un descodificador comience a descodificar correctamente desde cero en la ubicación de la imagen).
También se puede generar cuando los detalles de la imagen diferenciados prohíben la generación de fotogramas P o B efectivos.
Normalmente requieren más bits para codificar que otros tipos de tramas.

A menudo, los fotogramas I se utilizan para el acceso aleatorio y se utilizan como referencia para la decodificación de otras imágenes. Los períodos de actualización de medio segundo son habituales en aplicaciones como la transmisión de televisión digital y el almacenamiento de DVD . En algunos entornos se pueden utilizar períodos de actualización más prolongados. Por ejemplo, en los sistemas de videoconferencia es común enviar tramas I con muy poca frecuencia.

Cuadros / cortes predichos (P) [ editar ]

Requiere la decodificación previa de algunas otras imágenes para poder decodificarlas.
Puede contener tanto datos de imagen como desplazamientos de vectores de movimiento y combinaciones de los dos.
Puede hacer referencia a imágenes anteriores en orden de decodificación.
Los diseños estándar más antiguos (como MPEG-2 ) utilizan solo una imagen decodificada previamente como referencia durante la decodificación y requieren que esa imagen también preceda a la imagen P en el orden de visualización.
En H.264, puede utilizar varias imágenes decodificadas previamente como referencias durante la decodificación y puede tener cualquier relación de orden de visualización arbitraria en relación con las imágenes utilizadas para su predicción.
Por lo general, requieren menos bits para codificar que las imágenes.

Cuadros / cortes bidireccionales predichos (B) (macrobloques) [ editar ]

Requiere que se muestre la decodificación previa de los fotogramas posteriores.
Puede contener datos de imagen y / o desplazamientos de vectores de movimiento. Los estándares más antiguos permiten un solo vector de compensación de movimiento global para todo el cuadro o un solo vector de compensación de movimiento por macrobloque.
Incluya algunos modos de predicción que formen una predicción de una región de movimiento (por ejemplo, un macrobloque o un área más pequeña) promediando las predicciones obtenidas usando dos regiones de referencia diferentes previamente decodificadas. Algunos estándares permiten dos vectores de compensación de movimiento por macrobloque (bipredicción).
En estándares más antiguos (como MPEG-2), los fotogramas B nunca se utilizan como referencias para la predicción de otras imágenes. Como resultado, se puede utilizar una codificación de menor calidad (que requiera menos espacio) para tales fotogramas B porque la pérdida de detalle no dañará la calidad de predicción para las imágenes posteriores.
H.264 relaja esta restricción y permite que los fotogramas B se utilicen como referencias para la decodificación de otros fotogramas a discreción del codificador.
Los estándares más antiguos (como MPEG-2) utilizan exactamente dos imágenes decodificadas previamente como referencias durante la decodificación y requieren que una de esas imágenes preceda al fotograma B en el orden de visualización y la otra lo siga.
H.264 permite una, dos o más de dos imágenes decodificadas previamente como referencias durante la decodificación, y puede tener cualquier relación de orden de visualización arbitraria en relación con las imágenes utilizadas para su predicción.
La mayor flexibilidad de la recuperación de información significa que las tramas B normalmente requieren menos bits para la codificación que las tramas I o P.

Ver también [ editar ]

Término del fotograma clave en la animación
Compresión de video
Intra marco
Inter marco
Aplicación de grupos de imágenes de tipos de marcos
Datamosh
Video

Referencias [ editar ]

Enlaces externos [ editar ]

Transmisión de video con cuadros SP y SI