Compresión con pérdida

En tecnología de la información , la compresión con pérdida o compresión irreversible es la clase de métodos de compresión de datos que utiliza aproximaciones inexactas y descarte parcial de datos para representar el contenido. Estas técnicas se utilizan para reducir el tamaño de los datos para almacenar, manejar y transmitir contenido. Las diferentes versiones de la foto del gato en esta página muestran cómo los grados más altos de aproximación crean imágenes más toscas a medida que se eliminan más detalles. Esto se opone a la compresión de datos sin pérdidas (compresión de datos reversible) que no degrada los datos. La cantidad de reducción de datos posible usando compresión con pérdida es mucho mayor que usando técnicas sin pérdida.

La tecnología de compresión con pérdida bien diseñada a menudo reduce significativamente el tamaño de los archivos antes de que el usuario final note la degradación. Incluso cuando el usuario lo nota, puede ser deseable una mayor reducción de datos (por ejemplo, para comunicación en tiempo real o para reducir los tiempos de transmisión o las necesidades de almacenamiento). El algoritmo de compresión con pérdida más utilizado es la transformada de coseno discreta (DCT), publicada por primera vez por Nasir Ahmed , T. Natarajan y KR Rao en 1974. DCT, se propusieron para la compresión con pérdida. ^[1]

La compresión con pérdida se usa más comúnmente para comprimir datos multimedia ( audio , video e imágenes ), especialmente en aplicaciones como transmisión de medios y telefonía por Internet . Por el contrario, la compresión sin pérdida suele ser necesaria para archivos de texto y datos, como registros bancarios y artículos de texto. Puede ser ventajoso crear un archivo maestro sin pérdidas que luego se pueda usar para producir copias adicionales. Esto permite evitar basar nuevas copias comprimidas en un archivo fuente con pérdidas, lo que generaría artefactos adicionales y una mayor pérdida de información innecesaria .

Es posible comprimir muchos tipos de datos digitales de manera que se reduzca el tamaño de un archivo de computadora necesario para almacenarlos, o el ancho de banda necesario para transmitirlos, sin pérdida de la información completa contenida en el archivo original. Una imagen, por ejemplo, se convierte en un archivo digital considerándola como una matriz de puntos y especificando el color y el brillo de cada punto. Si la imagen contiene un área del mismo color, se puede comprimir sin pérdida diciendo "200 puntos rojos" en lugar de "punto rojo, punto rojo,... (197 veces más)..., punto rojo".

Los datos originales contienen cierta cantidad de información y existe un límite inferior para el tamaño del archivo que puede contener toda la información. La teoría básica de la información dice que existe un límite absoluto para reducir el tamaño de estos datos. Cuando los datos se comprimen, su entropía aumenta y no puede aumentar indefinidamente. Por ejemplo, un archivo ZIP comprimido es más pequeño que su original, pero comprimir repetidamente el mismo archivo no reducirá el tamaño a nada. La mayoría de los algoritmos de compresión pueden reconocer cuándo una mayor compresión sería inútil y, de hecho, aumentaría el tamaño de los datos.

En muchos casos, los archivos o flujos de datos contienen más información de la necesaria. Por ejemplo, una imagen puede tener más detalles de los que el ojo puede distinguir cuando se reproduce en el tamaño más grande previsto; del mismo modo, un archivo de audio no necesita muchos detalles finos durante un pasaje muy alto. Desarrollar técnicas de compresión con pérdida lo más parecidas posible a la percepción humana es una tarea compleja. A veces, lo ideal es un archivo que proporcione exactamente la misma percepción que el original, eliminando la mayor cantidad posible de información digital; otras veces, la pérdida perceptible de calidad se considera una compensación válida.

JPEG de alta compresión (baja calidad)