Teoría de la distorsión de la tasa

La teoría de la distorsión de la tasa es una rama importante de la teoría de la información que proporciona las bases teóricas para la compresión de datos con pérdida ; aborda el problema de determinar el número mínimo de bits por símbolo, medido por la tasa R , que debe comunicarse a través de un canal, de modo que la fuente (señal de entrada) pueda reconstruirse aproximadamente en el receptor (señal de salida) sin exceder Se estima que habrá distorsión D .

La teoría de la tasa de distorsión proporciona una expresión analítica de cuánta compresión se puede lograr utilizando métodos de compresión con pérdida. Muchas de las técnicas de compresión de audio, voz, imagen y video existentes tienen procedimientos de transformación, cuantificación y asignación de velocidad de bits que aprovechan la forma general de las funciones de distorsión de velocidad.

La teoría de la distorsión de la tasa fue creada por Claude Shannon en su trabajo fundamental sobre la teoría de la información.

En la teoría de la distorsión de la tasa , la tasa generalmente se entiende como el número de bits por muestra de datos que se almacenan o transmiten. La noción de distorsión es un tema de discusión en curso. ^[1] En el caso más simple (que en realidad se usa en la mayoría de los casos), la distorsión se define como el valor esperado del cuadrado de la diferencia entre la señal de entrada y salida (es decir, el error cuadrático medio ). Sin embargo, dado que sabemos que la mayoría de las técnicas de compresión con pérdida operan con datos que serán percibidos por los consumidores humanos (escuchar música , ver imágenes y videos), la medida de distorsión debe basarse preferiblemente en la percepción humana.y quizás estética : al igual que el uso de la probabilidad en la compresión sin pérdidas , las medidas de distorsión pueden identificarse en última instancia con funciones de pérdida como se utilizan en la estimación bayesiana y la teoría de decisiones . En la compresión de audio, los modelos perceptuales (y por lo tanto las medidas de distorsión perceptiva) están relativamente bien desarrollados y se utilizan de forma rutinaria en técnicas de compresión como MP3 o Vorbis , pero a menudo no son fáciles de incluir en la teoría de la distorsión de la velocidad. En la compresión de imágenes y video, los modelos de percepción humana están menos desarrollados y la inclusión se limita principalmente a JPEG y MPEG.matriz de ponderación ( cuantificación , normalización ).

Las funciones de distorsión miden el costo de representar un símbolo mediante un símbolo aproximado . Las funciones de distorsión típicas son la distorsión de Hamming y la distorsión de error al cuadrado. ${\ Displaystyle x}$ ${\ Displaystyle {\ hat {x}}}$

Las funciones que relacionan la tasa y la distorsión se encuentran como la solución del siguiente problema de minimización:

Tasa de codificador y decodificador de distorsión. Un codificador codifica una secuencia . La secuencia codificada se envía luego a un decodificador que genera una secuencia . Intentamos minimizar la distorsión entre la secuencia original y la secuencia reconstruida .

{\ Displaystyle f_ {n}}

{\ Displaystyle X ^ {n}}

{\ Displaystyle Y ^ {n}}

{\ Displaystyle g_ {n}}

{\ Displaystyle {\ hat {X}} ^ {n}}

{\ Displaystyle X ^ {n}}

{\ Displaystyle {\ hat {X}} ^ {n}}