Desigualdad de Kraft-McMillan

En la teoría de la codificación , la desigualdad de Kraft-McMillan da una condición necesaria y suficiente para la existencia de un código prefijo ^[1] (en la versión de Leon G. Kraft) o un código decodificable de forma única (en la versión de Brockway McMillan ) para un conjunto dado de longitudes de palabras de código . Sus aplicaciones para prefijar códigos y árboles a menudo encuentran uso en la informática y la teoría de la información .

La desigualdad de Kraft se publicó en Kraft (1949) . Sin embargo, el artículo de Kraft solo analiza los códigos de prefijo y atribuye el análisis que conduce a la desigualdad a Raymond Redheffer . El resultado se descubrió de forma independiente en McMillan (1956) . McMillan prueba el resultado para el caso general de códigos decodificables unívocamente, y atribuye la versión de los códigos de prefijo a una observación hablada en 1955 por Joseph Leo Doob .

Aplicaciones e intuiciones

La desigualdad de Kraft limita la longitud de las palabras de código en un código de prefijo : si se toma una exponencial de la longitud de cada palabra de código válida, el conjunto de valores resultante debe verse como una función de masa de probabilidad , es decir, debe tener una medida total menor o igual que a uno. La desigualdad de Kraft se puede pensar en términos de un presupuesto limitado que se gastará en palabras clave, siendo las palabras clave más cortas más caras. Entre las propiedades útiles que se derivan de la desigualdad se encuentran las siguientes afirmaciones:

Si la desigualdad de Kraft se mantiene con una desigualdad estricta, el código tiene cierta redundancia .
Si la desigualdad de Kraft se cumple con la igualdad, el código en cuestión es un código completo. ^[2]
Si la desigualdad de Kraft no se cumple, el código no se puede decodificar de forma única .
Para cada código decodificable de forma única, existe un código de prefijo con la misma distribución de longitud.

Declaración formal

Deje que cada símbolo de origen del alfabeto

{\ Displaystyle S = \ {\, s_ {1}, s_ {2}, \ ldots, s_ {n} \, \}}

codificarse en un código decodificable único sobre un alfabeto de tamaño ${\ Displaystyle r}$ con longitudes de palabras en clave

{\ Displaystyle \ ell _ {1}, \ ell _ {2}, \ ldots, \ ell _ {n}.}

Luego

{\ Displaystyle \ sum _ {i = 1} ^ {n} r ^ {- \ ell _ {i}} \ leqslant 1.}

Por el contrario, para un conjunto dado de números naturales ${\ Displaystyle \ ell _ {1}, \ ell _ {2}, \ ldots, \ ell _ {n}}$ satisfaciendo la desigualdad anterior, existe un código decodificable único sobre un alfabeto de tamaño ${\ Displaystyle r}$ con esas longitudes de palabras en clave.

Ejemplo: árboles binarios

9, 14, 19, 67 y 76 son nodos de hojas a profundidades de 3, 3, 3, 3 y 2, respectivamente.

Se puede considerar que cualquier árbol binario define un código de prefijo para las hojas del árbol. La desigualdad de Kraft establece que

{\ Displaystyle \ sum _ {\ ell \ in {\ text {hojas}}} 2 ^ {- {\ text {profundidad}} (\ ell)} \ leqslant 1.}

Aquí la suma se toma sobre las hojas del árbol, es decir, los nodos sin hijos. La profundidad es la distancia al nodo raíz. En el árbol de la derecha, esta suma es

{\ Displaystyle {\ frac {1} {4}} + 4 \ left ({\ frac {1} {8}} \ right) = {\ frac {3} {4}} \ leqslant 1.}

Prueba

Prueba de códigos de prefijo

Ejemplo de árbol binario. Los nodos rojos representan un árbol de prefijos. Se muestra el método para calcular el número de nodos de hojas descendientes en el árbol completo.

Primero, demostremos que la desigualdad de Kraft se cumple siempre que el código para ${\ Displaystyle S}$ es un código de prefijo.

Suponer que ${\ Displaystyle \ ell _ {1} \ leqslant \ ell _ {2} \ leqslant \ cdots \ leqslant \ ell _ {n}}$ . Dejar ${\ Displaystyle A}$ ser el completo ${\ Displaystyle r}$ -arbol de profundidad ${\ Displaystyle \ ell _ {n}}$ (así, cada nodo de ${\ Displaystyle A}$ a nivel ${\ Displaystyle <\ ell _ {n}}$ posee ${\ Displaystyle r}$ niños, mientras que los nodos a nivel ${\ Displaystyle \ ell _ {n}}$ son hojas). Cada palabra de longitud ${\ Displaystyle \ ell \ leqslant \ ell _ {n}}$ sobre un ${\ Displaystyle r}$ -ary alfabeto corresponde a un nodo en este árbol en profundidad ${\ Displaystyle \ ell}$ . La ${\ Displaystyle i}$ la palabra en el código de prefijo corresponde a un nodo ${\ Displaystyle v_ {i}}$ ; dejar ${\ Displaystyle A_ {i}}$ ser el conjunto de todos los nodos hoja (es decir, de nodos en profundidad ${\ Displaystyle \ ell _ {n}}$ ) en el subárbol de ${\ Displaystyle A}$ arraigado en ${\ Displaystyle v_ {i}}$ . Ese subárbol siendo de altura ${\ Displaystyle \ ell _ {n} - \ ell _ {i}}$ , tenemos

{\ Displaystyle | A_ {i} | = r ^ {\ ell _ {n} - \ ell _ {i}}.}

Dado que el código es un código de prefijo, esos subárboles no pueden compartir hojas, lo que significa que

{\ Displaystyle A_ {i} \ cap A_ {j} = \ varnothing, \ quad i \ neq j.}

Por lo tanto, dado que el número total de nodos en profundidad ${\ Displaystyle \ ell _ {n}}$ es ${\ Displaystyle r ^ {\ ell _ {n}}}$ , tenemos

{\ Displaystyle \ left | \ bigcup _ {i = 1} ^ {n} A_ {i} \ right | = \ sum _ {i = 1} ^ {n} | A_ {i} | = \ sum _ {i = 1} ^ {n} r ^ {\ ell _ {n} - \ ell _ {i}} \ leqslant r ^ {\ ell _ {n}}}

de donde se sigue el resultado.

Por el contrario, dada cualquier secuencia ordenada de ${\ Displaystyle n}$ números naturales,

{\ Displaystyle \ ell _ {1} \ leqslant \ ell _ {2} \ leqslant \ cdots \ leqslant \ ell _ {n}}

satisfaciendo la desigualdad de Kraft, se puede construir un código de prefijo con longitudes de palabras de código iguales a cada ${\ Displaystyle \ ell _ {i}}$ eligiendo una palabra de longitud ${\ Displaystyle \ ell _ {i}}$ arbitrariamente, descartando luego todas las palabras de mayor longitud que lo tengan como prefijo. Allí, de nuevo, interpretaremos esto en términos de nodos hoja de un ${\ Displaystyle r}$ -arbol de profundidad ${\ Displaystyle \ ell _ {n}}$ . Primero elija cualquier nodo del árbol completo en profundidad ${\ Displaystyle \ ell _ {1}}$ ; corresponde a la primera palabra de nuestro nuevo código. Dado que estamos construyendo un código de prefijo, todos los descendientes de este nodo (es decir, todas las palabras que tienen esta primera palabra como prefijo) se vuelven inadecuados para su inclusión en el código. Consideramos a los descendientes en profundidad ${\ Displaystyle \ ell _ {n}}$ (es decir, los nodos de hojas entre los descendientes); existen ${\ Displaystyle r ^ {\ ell _ {n} - \ ell _ {1}}}$ tales nodos descendientes que se eliminan de la consideración. La siguiente iteración elige un nodo (superviviente) en profundidad ${\ Displaystyle \ ell _ {2}}$ y quita ${\ Displaystyle r ^ {\ ell _ {n} - \ ell _ {2}}}$ más nodos de hoja, y así sucesivamente. Después ${\ Displaystyle n}$ iteraciones, hemos eliminado un total de

{\ Displaystyle \ sum _ {i = 1} ^ {n} r ^ {\ ell _ {n} - \ ell _ {i}}}

nodos. La pregunta es si necesitamos eliminar más nodos hoja de los que realmente tenemos disponibles. ${\ Displaystyle r ^ {\ ell _ {n}}}$ en total - en el proceso de construcción del código. Dado que la desigualdad de Kraft se mantiene, de hecho tenemos

{\ Displaystyle \ sum _ {i = 1} ^ {n} r ^ {\ ell _ {n} - \ ell _ {i}} \ leqslant r ^ {\ ell _ {n}}}

y así se puede construir un código de prefijo. Tenga en cuenta que, dado que la elección de los nodos en cada paso es en gran medida arbitraria, en general se pueden construir muchos códigos de prefijo adecuados diferentes.

Prueba del caso general

Ahora demostraremos que la desigualdad de Kraft se mantiene siempre que ${\ Displaystyle S}$ es un código decodificable de forma única. (No es necesario probar lo contrario, ya que ya lo hemos probado para los códigos de prefijo, que es una afirmación más sólida).

Denotar ${\ Displaystyle C = \ sum _ {i = 1} ^ {n} r ^ {- l_ {i}}}$ . La idea de la prueba es obtener un límite superior en ${\ Displaystyle C ^ {m}}$ por ${\ Displaystyle m \ in \ mathbb {N}}$ y demuestre que solo puede durar para todos ${\ Displaystyle m}$ Si ${\ Displaystyle C \ leq 1}$ . Volver a escribir ${\ Displaystyle C ^ {m}}$ como

{\ Displaystyle {\ begin {alineado} C ^ {m} & = \ left (\ sum _ {i = 1} ^ {n} r ^ {- l_ {i}} \ right) ^ {m} \\ & = \ sum _ {i_ {1} = 1} ^ {n} \ sum _ {i_ {2} = 1} ^ {n} \ cdots \ sum _ {i_ {m} = 1} ^ {n} r ^ {- \ left (l_ {i_ {1}} + l_ {i_ {2}} + \ cdots + l_ {i_ {m}} \ right)} \\\ end {alineado}}}

Considere todas las potencias m ${\ Displaystyle S ^ {m}}$ , en forma de palabras ${\ Displaystyle s_ {i_ {1}} s_ {i_ {2}} \ dots s_ {i_ {m}}}$ , dónde ${\ Displaystyle i_ {1}, i_ {2}, \ dots, i_ {m}}$ son índices entre 1 y ${\ Displaystyle n}$ . Tenga en cuenta que, dado que se supuso que S era decodificable de forma única, ${\ Displaystyle s_ {i_ {1}} s_ {i_ {2}} \ dots s_ {i_ {m}} = s_ {j_ {1}} s_ {j_ {2}} \ dots s_ {j_ {m}} }$ implica ${\ Displaystyle i_ {1} = j_ {1}, i_ {2} = j_ {2}, \ dots, i_ {m} = j_ {m}}$ . Esto significa que cada sumando corresponde exactamente a una palabra en ${\ Displaystyle S ^ {m}}$ . Esto nos permite reescribir la ecuación para

{\ Displaystyle C ^ {m} = \ sum _ {\ ell = 1} ^ {m \ cdot \ ell _ {max}} q _ {\ ell} \, r ^ {- \ ell}}

dónde ${\ Displaystyle q _ {\ ell}}$ es el número de palabras de código en ${\ Displaystyle S ^ {m}}$ de longitud ${\ Displaystyle \ ell}$ y ${\ Displaystyle \ ell _ {max}}$ es la longitud de la palabra de código más larga en ${\ Displaystyle S}$ . Por un ${\ Displaystyle r}$ -Alfabeto de letras solo hay ${\ Displaystyle r ^ {\ ell}}$ posibles palabras de longitud ${\ Displaystyle \ ell}$ , entonces ${\ Displaystyle q _ {\ ell} \ leq r ^ {\ ell}}$ . Usando esto, llegamos al límite superior ${\ Displaystyle C ^ {m}}$ :

{\ Displaystyle {\ begin {alineado} C ^ {m} & = \ sum _ {\ ell = 1} ^ {m \ cdot \ ell _ {max}} q _ {\ ell} \, r ^ {- \ ell } \\ & \ leq \ sum _ {\ ell = 1} ^ {m \ cdot \ ell _ {max}} r ^ {\ ell} \, r ^ {- \ ell} = m \ cdot \ ell _ { max} \ end {alineado}}}

Tomando el ${\ Displaystyle m}$ -th root, obtenemos

{\ Displaystyle C = \ sum _ {i = 1} ^ {n} r ^ {- l_ {i}} \ leq \ left (m \ cdot \ ell _ {max} \ right) ^ {\ frac {1} {metro}}}

Este límite es válido para cualquier ${\ Displaystyle m \ in \ mathbb {N}}$ . El lado derecho es 1 asintóticamente, por lo que ${\ Displaystyle \ sum _ {i = 1} ^ {n} r ^ {- l_ {i}} \ leq 1}$ debe mantenerse (de lo contrario, la desigualdad se rompería por un ${\ Displaystyle m}$ ).

Construcción alternativa para el inverso

Dada una secuencia de ${\ Displaystyle n}$ números naturales,

{\ Displaystyle \ ell _ {1} \ leqslant \ ell _ {2} \ leqslant \ cdots \ leqslant \ ell _ {n}}

satisfaciendo la desigualdad de Kraft, podemos construir un código de prefijo como sigue. Defina la i- ^ésima palabra de código, C _i , para que sea la primera ${\ Displaystyle \ ell _ {i}}$ dígitos después del punto de base (por ejemplo, punto decimal) en la base r representación de

{\ Displaystyle \ sum _ {j = 1} ^ {i-1} r ^ {- \ ell _ {j}}.}

Tenga en cuenta que según la desigualdad de Kraft, esta suma nunca es mayor que 1. Por lo tanto, las palabras de código capturan el valor total de la suma. Por tanto, para j > i , la primera ${\ Displaystyle \ ell _ {i}}$ los dígitos de C _j forman un número mayor que C _i , por lo que el código no tiene prefijos.

Notas

^ Portada, Thomas M .; Thomas, Joy A. (2006), "Compresión de datos", Elementos de la teoría de la información (2ª ed.), John Wiley & Sons, Inc, págs. 108-109, doi : 10.1002 / 047174882X.ch5 , ISBN 978-0-471-24195-9
^ De Rooij, Steven; Grünwald, Peter D. (2011), "LA SUERTE Y EL ARREPENTIMIENTO EN LA INFERENCIA DE LONGITUD DE DESCRIPCIÓN MÍNIMA", Filosofía de la Estadística (1ª ed.), Elsevier, p. 875, ISBN 978-0-080-93096-1

Referencias

Kraft, Leon G. (1949), Un dispositivo para cuantificar, de agrupación, y la codificación de amplitud modulada pulsos , Cambridge, MA: MS Tesis, Departamento de Ingeniería Eléctrica, Instituto de Tecnología de Massachusetts , hdl : 1721,1 / 12390.

McMillan, Brockway (1956), "Dos desigualdades implícitas en descifrabilidad única", IEEE Trans. Inf. Theory , 2 (4): 115-116, doi : 10.1109 / TIT.1956.1056818.

Ver también

[EIT-1] Portada, Thomas M .; Thomas, Joy A. (2006), "Compresión de datos", Elementos de la teoría de la información (2ª ed.), John Wiley & Sons, Inc, págs. 108-109, doi : 10.1002 / 047174882X.ch5 , ISBN 978-0-471-24195-9

[de2011luckiness-2] De Rooij, Steven; Grünwald, Peter D. (2011), "LA SUERTE Y EL ARREPENTIMIENTO EN LA INFERENCIA DE LONGITUD DE DESCRIPCIÓN MÍNIMA", Filosofía de la Estadística (1ª ed.), Elsevier, p. 875, ISBN 978-0-080-93096-1

[1]