Tipos de imágenes de compresión de video

En el campo de la compresión de video, un cuadro de video se comprime utilizando diferentes algoritmos con diferentes ventajas y desventajas, centradas principalmente en la cantidad de compresión de datos . Estos diferentes algoritmos para fotogramas de video se denominan tipos de imagen o tipos de fotograma . Los tres principales tipos de imágenes utilizadas en los diferentes algoritmos de vídeo son I , P y B . Se diferencian en las siguientes características:

Un fotograma P (imagen prevista) contiene solo los cambios en la imagen del fotograma anterior. Por ejemplo, en una escena en la que un automóvil se mueve sobre un fondo estacionario, solo es necesario codificar los movimientos del automóvil. El codificador no necesita almacenar los píxeles de fondo que no cambian en el marco P, lo que ahorra espacio. Los fotogramas P también se conocen como fotogramas delta .

Un fotograma B (imagen bidireccional predicha) ahorra aún más espacio al utilizar las diferencias entre el fotograma actual y los fotogramas anterior y siguiente para especificar su contenido.

Las tramas P y B también se denominan tramas Inter . El orden en el que se disponen los fotogramas I, P y B se denomina Grupo de imágenes .

Si bien los términos "marco" e "imagen" a menudo se usan indistintamente, el término imagen es una noción más general, ya que una imagen puede ser un marco o un campo . Un marco es una imagen completa y un campo es el conjunto de líneas de escaneo pares o impares que componen una imagen parcial. Por ejemplo, una imagen HD 1080 tiene 1080 líneas (filas) de píxeles. Un campo impar consta de información de píxeles para las líneas 1, 3, 5 ... 1079. Un campo par tiene información de píxeles para las líneas 2, 4, 6 ... 1080. Cuando el video se envía en formato de escaneo entrelazado , cada cuadro se envía en dos campos, el campo de líneas impares seguido por el campo de líneas pares.

Los fotogramas codificados sin información de otros fotogramas se denominan fotogramas I. Los marcos que utilizan la predicción de un único marco de referencia anterior (o un solo marco para la predicción de cada región) se denominan marcos P. Los fotogramas B utilizan la predicción a partir de un promedio (posiblemente ponderado) de dos fotogramas de referencia, uno anterior y otro posterior.

Una secuencia de fotogramas de vídeo, que consta de dos fotogramas clave (I), un fotograma predicho hacia adelante (P) y un fotograma predicho bidireccionalmente (B).