Dimensión de información

En teoría de la información , la dimensión de la información es una medida de información para vectores aleatorios en el espacio euclidiano , basada en la entropía normalizada de versiones finamente cuantificadas de los vectores aleatorios . Este concepto fue introducido por primera vez por Alfréd Rényi en 1959. ^[1]

Simplemente hablando, es una medida de la dimensión fractal de una distribución de probabilidad . Caracteriza la tasa de crecimiento de la entropía de Shannon dada por discretizaciones sucesivamente más finas del espacio.

En 2010, Wu y Verdú dieron una caracterización operativa de la dimensión de información de Rényi como el límite fundamental de la compresión de datos casi sin pérdidas para fuentes analógicas bajo diversas restricciones de regularidad del codificador / decodificador.

Definición y propiedades

La entropía de una variable aleatoria discreta ${\ Displaystyle Z}$ es

{\ Displaystyle \ mathbb {H} _ {0} (Z) = \ sum _ {z \ in supp (P_ {Z})} P_ {Z} (z) \ log _ {2} {\ frac {1} {P_ {Z} (z)}}}

dónde ${\ Displaystyle P_ {Z} (z)}$ es la medida de probabilidad de ${\ Displaystyle Z}$ Cuándo ${\ Displaystyle Z = z}$ , y el ${\ Displaystyle sup (P_ {Z})}$ denota un conjunto ${\ Displaystyle \ {z | z \ in {\ mathcal {Z}}, P_ {Z} (z)> 0 \}}$ .

Dejar ${\ Displaystyle X}$ ser una variable aleatoria arbitraria de valor real. Dado un número entero positivo ${\ Displaystyle m}$ , creamos una nueva variable aleatoria discreta

{\ Displaystyle \ langle X \ rangle _ {m} = {\ frac {\ lfloor mX \ rfloor} {m}}}

donde el ${\ Displaystyle \ lfloor \ cdot \ rfloor}$ es el operador de piso que convierte un número real en el mayor entero menor que él. Luego

{\ Displaystyle {\ underline {d}} (X) = \ liminf _ {m \ rightarrow \ infty} {\ frac {\ mathbb {H} _ {0} (\ langle X \ rangle _ {m})} { \ log _ {2} m}}}

y

{\ displaystyle {\ bar {d}} (X) = \ limsup _ {m \ rightarrow \ infty} {\ frac {\ mathbb {H} _ {0} (\ langle X \ rangle _ {m})} { \ log _ {2} m}}}

se denominan dimensiones de información inferior y superior de ${\ Displaystyle X}$ respectivamente. Cuándo ${\ Displaystyle {\ underline {d}} (X) = {\ bar {d}} (X)}$ , llamamos a esta dimensión de información de valor de ${\ Displaystyle X}$ ,

{\ Displaystyle d (X) = \ lim _ {m \ rightarrow \ infty} {\ frac {\ mathbb {H} _ {0} (\ langle X \ rangle _ {m})} {\ log _ {2} metro}}}

Algunas propiedades importantes de la dimensión de la información ${\ Displaystyle d (X)}$ :

Si la condición leve ${\ Displaystyle \ mathbb {H} (\ lfloor X \ rfloor) <\ infty}$ se cumple, tenemos ${\ Displaystyle 0 \ leq {\ underline {d}} (X) \ leq {\ bar {d}} (X) \ leq 1}$ .
Por un ${\ Displaystyle n}$ -vector aleatorio dimensional ${\ Displaystyle {\ vec {X}}}$ , la primera propiedad se puede generalizar a ${\ Displaystyle 0 \ leq {\ subrayado {d}} ({\ vec {X}}) \ leq {\ bar {d}} ({\ vec {X}}) \ leq n}$ .
Es suficiente calcular las dimensiones de información superior e inferior cuando se restringe a la subsecuencia exponencial ${\ Displaystyle m = 2 ^ {l}}$ .
${\ Displaystyle {\ underline {d}} (X)}$ y ${\ Displaystyle {\ bar {d}} (X)}$ se mantienen sin cambios si se utilizan funciones de redondeo o techo en la cuantificación.

${\ Displaystyle d}$ -Entropía dimensional

Si la dimensión de la información ${\ Displaystyle d}$ existe, se puede definir el ${\ Displaystyle d}$ -entropía dimensional de esta distribución por

{\ Displaystyle \ mathbb {H} _ {d (X)} (X) = \ lim _ {n \ rightarrow + \ infty} (\ mathbb {H} _ {0} (\ langle X \ rangle _ {n} ) -d (X) \ log _ {2} n)}

siempre que exista el límite. Si ${\ Displaystyle d = 0}$ , la entropía de dimensión cero es igual a la entropía estándar de Shannon ${\ Displaystyle \ mathbb {H} _ {0} (X)}$ . Para dimensión entera ${\ Displaystyle d = n \ geq 1}$ , la ${\ Displaystyle n}$ -La entropía dimensional es la ${\ Displaystyle n}$ -pliegue integral que define la respectiva entropía diferencial .

Distribuciones de mezclas continuas y discretas

De acuerdo con el teorema de descomposición de Lebesgue , ^[2] una distribución de probabilidad puede ser representada de forma única por la mezcla

${\ Displaystyle v = pP_ {Xd} + qP_ {Xc} + rP_ {Xs}}$

dónde ${\ Displaystyle p + q + r = 1}$ y ${\ Displaystyle p, q, r \ geq 0}$ ; ${\ Displaystyle P_ {Xd}}$ es una medida de probabilidad puramente atómica (parte discreta), ${\ Displaystyle P_ {Xc}}$ es la medida de probabilidad absolutamente continua, y ${\ Displaystyle P_ {Xs}}$ es una medida de probabilidad singular con respecto a la medida de Lebesgue pero sin átomos (parte singular). Dejar ${\ Displaystyle X}$ ser una variable aleatoria tal que ${\ Displaystyle \ mathbb {H} (\ lfloor X \ rfloor) <\ infty}$ . Suponga la distribución de ${\ Displaystyle X}$ se puede representar como

${\ Displaystyle v = (1- \ rho) P_ {Xd} + \ rho P_ {Xc}}$

dónde ${\ Displaystyle P_ {Xd}}$ es una medida discreta y ${\ Displaystyle P_ {Xc}}$ es la medida de probabilidad absolutamente continua con ${\ Displaystyle 0 \ leq \ rho \ leq 1}$ . Luego

${\ Displaystyle d (X) = \ rho}$

Además, dado ${\ Displaystyle \ mathbb {H} _ {0} (P_ {Xd})}$ y entropía diferencial ${\ Displaystyle h (P_ {Xc})}$ , la ${\ Displaystyle d}$ -La entropía dimensional está dada simplemente por

${\ Displaystyle \ mathbb {H} _ {\ rho} (X) = (1- \ rho) \ mathbb {H} _ {0} (P_ {Xd}) + \ rho h (P_ {Xc}) + \ mathbb {H} _ {0} (\ rho)}$

dónde ${\ Displaystyle \ mathbb {H} _ {0} (\ rho)}$ es la entropía de Shannon de una variable aleatoria discreta ${\ Displaystyle Z}$ con ${\ Displaystyle P_ {Z} (1) = \ rho}$ y ${\ Displaystyle P_ {Z} (0) = 1- \ rho}$ y dado por

${\ Displaystyle \ mathbb {H} _ {0} (\ rho) = \ rho \ log _ {2} {\ frac {1} {\ rho}} + (1- \ rho) \ log _ {2} { \ frac {1} {1- \ rho}}}$

Ejemplo

Considere una señal que tiene una distribución de probabilidad gaussiana .

Pasamos la señal a través de un rectificador de media onda que convierte todos los valores negativos en 0 y mantiene todos los demás valores. El rectificador de media onda se puede caracterizar por la función

${\ displaystyle f (x) = {\ begin {cases} x, & {\ text {if}} x \ geq 0 \\ 0, & x <0 \ end {cases}}}$

Luego, a la salida del rectificador, la señal tiene una distribución gaussiana rectificada . Se caracteriza por una masa atómica de peso 0,5 y tiene una PDF gaussiana para todos ${\ Displaystyle x> 0}$ .

Con esta distribución de mezcla, aplicamos la fórmula anterior y obtenemos la dimensión de información ${\ Displaystyle d}$ de la distribución y calcular el ${\ Displaystyle d}$ -entropía dimensional.

${\ Displaystyle d (X) = \ rho = 0.5}$

La parte derecha normalizada de la distribución gaussiana de media cero tiene entropía ${\ Displaystyle h (P_ {Xc}) = {\ frac {1} {2}} \ log _ {2} (2 \ pi e \ sigma ^ {2}) - 1}$ , por eso

${\ Displaystyle {\ begin {alineado} \ mathbb {H} _ {0.5} (X) & = (1-0.5) (1 \ log _ {2} 1) + 0.5h (P_ {Xc}) + \ mathbb {H} _ {0} (0.5) \\ & = 0 + {\ frac {1} {2}} ({\ frac {1} {2}} \ log _ {2} (2 \ pi e \ sigma ^ {2}) - 1) +1 \\ & = {\ frac {1} {4}} \ log _ {2} (2 \ pi e \ sigma ^ {2}) + {\ frac {1} { 2}} \, {\ text {bit (s)}} \ end {alineado}}}$

Conexión con la entropía diferencial

Se muestra ^[3] que la dimensión de la información y la entropía diferencial están estrechamente conectadas.

Dejar ${\ Displaystyle X}$ ser una variable aleatoria con densidad continua ${\ Displaystyle f (x)}$ .

Supongamos que dividimos el rango de ${\ Displaystyle X}$ en contenedores de longitud ${\ Displaystyle \ Delta}$ . Por el teorema del valor medio , existe un valor ${\ Displaystyle x_ {i}}$ dentro de cada contenedor de modo que

{\ Displaystyle f (x_ {i}) \ Delta = \ int _ {i \ Delta} ^ {(i + 1) \ Delta} f (x) \; \ mathrm {d} x}

Considere la variable aleatoria discretizada ${\ Displaystyle X ^ {\ Delta} = x_ {i}}$ Si ${\ Displaystyle i \ Delta \ leq X <(i + 1) \ Delta}$ .

La probabilidad de cada punto de apoyo. ${\ Displaystyle X ^ {\ Delta} = x_ {i}}$ es

{\ Displaystyle P_ {X ^ {\ Delta}} (x_ {i}) = \ int _ {i \ Delta} ^ {(i + 1) \ Delta} f (x) \; \ mathrm {d} x = f (x_ {i}) \ Delta}

Dejar ${\ Displaystyle S = \ operatorname {supp} (P_ {X ^ {\ Delta}})}$ . La entropía de ${\ Displaystyle X ^ {\ Delta}}$ es

{\ Displaystyle {\ begin {alineado} \ mathbb {H} _ {0} (X ^ {\ Delta}) & = - \ sum _ {x_ {i} \ in S} P_ {X ^ {\ Delta}} \ log _ {2} P_ {X ^ {\ Delta}} \\ & = - \ sum _ {x_ {i} \ in S} f (x_ {i}) \ Delta \ log _ {2} (f ( x_ {i}) \ Delta) \\ & = - \ sum _ {x_ {i} \ in S} \ Delta f (x_ {i}) \ log _ {2} f (x_ {i}) - \ sum _ {x_ {i} \ in S} f (x_ {i}) \ Delta \ log _ {2} \ Delta \\ & = - \ sum _ {x_ {i} \ in S} \ Delta f (x_ { i}) \ log _ {2} f (x_ {i}) - \ log _ {2} \ Delta \\\ end {alineado}}}

Si ponemos ${\ Displaystyle \ Delta = 1 / m}$ y ${\ Displaystyle x_ {i} = i / m}$ entonces estamos haciendo exactamente la misma cuantificación que la definición de dimensión de información. Dado que volver a etiquetar los eventos de una variable aleatoria discreta no cambia su entropía, tenemos

{\ Displaystyle \ mathbb {H} _ {0} (X ^ {1 / m}) = \ mathbb {H} _ {0} (\ langle X \ rangle _ {m}).}

Esto produce

{\ Displaystyle \ mathbb {H} _ {0} (\ langle X \ rangle _ {m}) = - \ sum {\ frac {1} {m}} f (x_ {i}) \ log _ {2} f (x_ {i}) + \ log _ {2} m}

y cuando ${\ Displaystyle m}$ es suficientemente grande,

{\ Displaystyle - \ sum \ Delta f (x_ {i}) \ log _ {2} f (x_ {i}) \ approx \ int f (x) \ log _ {2} {\ frac {1} {f (x)}} \ mathrm {d} x}

que es la entropía diferencial ${\ Displaystyle h (x)}$ de la variable aleatoria continua. En particular, si ${\ Displaystyle f (x)}$ es Riemann integrable, entonces

{\ Displaystyle h (X) = \ lim _ {m \ rightarrow \ infty} \ mathbb {H} _ {0} (\ langle X \ rangle _ {m}) - \ log _ {2} (m).}

Comparando esto con el ${\ Displaystyle d}$ -entropía dimensional muestra que la entropía diferencial es exactamente la entropía unidimensional

{\ Displaystyle h (X) = \ mathbb {H} _ {1} (X).}

De hecho, esto se puede generalizar a dimensiones superiores. Rényi demuestra que, si ${\ Displaystyle {\ vec {X}}}$ es un vector aleatorio en un ${\ Displaystyle n}$ -espacio euclidiano dimensional ${\ Displaystyle \ Re ^ {n}}$ con una distribución absolutamente continua con una función de densidad de probabilidad ${\ Displaystyle f _ {\ vec {X}} ({\ vec {x}})}$ y entropía finita de la parte entera ( ${\ Displaystyle H_ {0} (\ langle {\ vec {X}} \ rangle _ {m}) <\ infty}$ ), tenemos ${\ Displaystyle d ({\ vec {X}}) = n}$

y

{\ Displaystyle \ mathbb {H} _ {n} ({\ vec {X}}) = \ int \ cdots \ int f _ {\ vec {X}} ({\ vec {x}}) \ log _ {2 } {\ frac {1} {f _ {\ vec {X}} ({\ vec {x}})}} \ mathrm {d} {\ vec {x}},}

si la integral existe.

Compresión de datos sin pérdida

La dimensión de información de una distribución da un límite superior teórico en la tasa de compresión, si se quiere comprimir una variable proveniente de esta distribución. En el contexto de la compresión de datos sin pérdida, tratamos de comprimir números reales con números menos reales, los cuales tienen una precisión infinita.

El objetivo principal de la compresión de datos sin pérdidas es encontrar representaciones eficientes para realizaciones de fuentes. ${\ Displaystyle x ^ {n} \ in {\ mathcal {X}} ^ {n}}$ por ${\ Displaystyle y ^ {n} \ in {\ mathcal {Y}} ^ {n}}$ . A ${\ Displaystyle (n, k) -}$ código para ${\ Displaystyle \ {X_ {i}: i \ in {\ mathcal {N}} \}}$ es un par de asignaciones:

codificador: ${\ displaystyle f_ {n}: {\ mathcal {X}} ^ {n} \ rightarrow {\ mathcal {Y}} ^ {k}}$ que convierte la información de una fuente en símbolos para la comunicación o el almacenamiento;
descifrador: ${\ Displaystyle g_ {n}: {\ mathcal {Y}} ^ {k} \ rightarrow {\ mathcal {X}} ^ {n}}$ es el proceso inverso, convirtiendo los símbolos de código en una forma que el destinatario comprenda.

La probabilidad de error de bloque es ${\ Displaystyle {\ mathcal {P}} \ {g_ {n} (f_ {n} (X ^ {n})) \ neq X ^ {n} \}}$ .

Definir ${\ Displaystyle r (\ epsilon)}$ ser el infame de ${\ Displaystyle r \ geq 0}$ tal que existe una secuencia de ${\ Displaystyle (n, \ lfloor rn \ rfloor) -}$ códigos tales que ${\ Displaystyle {\ mathcal {P}} \ {g_ {n} (f_ {n} (X ^ {n})) \ neq X ^ {n} \} \ leq \ epsilon}$ para todo lo suficientemente grande ${\ Displaystyle n}$ .

Entonces ${\ Displaystyle r (\ epsilon)}$ básicamente da la relación entre la longitud del código y la longitud de la fuente, muestra qué tan bueno es un par de decodificadores de codificador específico. Los límites fundamentales en la codificación de fuente sin pérdidas son los siguientes. ^[4]

Considere una función de codificador continuo ${\ Displaystyle f (x): \ Re ^ {n} \ rightarrow \ Re ^ {\ lfloor Rn \ rfloor}}$ con su función de decodificador continuo ${\ Displaystyle g (x): \ Re ^ {\ lfloor Rn \ rfloor} \ rightarrow \ Re ^ {n}}$ . Si no imponemos regularidad a ${\ Displaystyle f (x)}$ y ${\ Displaystyle g (x)}$ , debido a la rica estructura de ${\ Displaystyle \ Re}$ , tenemos el mínimo ${\ Displaystyle \ epsilon}$ -tasa alcanzable ${\ Displaystyle R_ {0} (\ epsilon) = 0}$ para todos ${\ Displaystyle 0 <\ epsilon \ leq 1}$ . Significa que se puede construir un par de codificador-decodificador con una tasa de compresión infinita.

Para obtener algunas conclusiones significativas y no triviales, dejemos ${\ Displaystyle R ^ {*} (\ epsilon)}$ el mínimo ${\ Displaystyle \ epsilon -}$ velocidad alcanzable para codificador lineal y decodificador Borel. Si variable aleatoria ${\ Displaystyle X}$ Tiene una distribución que es una mezcla de parte discreta y continua. Luego ${\ Displaystyle R ^ {*} (\ epsilon) = d (X)}$ para todos ${\ Displaystyle 0 <\ epsilon \ leq 1}$ Supongamos que restringimos el decodificador para que sea una función continua de Lipschitz y ${\ Displaystyle {\ bar {d}} (X) <\ infty}$ sostiene, entonces el mínimo ${\ Displaystyle \ epsilon -}$ tasa alcanzable ${\ Displaystyle R (\ epsilon) \ geq {\ bar {d}} (X)}$ para todos ${\ Displaystyle 0 <\ epsilon \ leq 1}$ .

Ver también

Notas

Referencias

Çınlar, Erhan (2011). Probabilidad y estocástico . Textos de Posgrado en Matemáticas. 261 . Saltador. doi : 10.1007 / 978-0-387-87859-1 . ISBN 978-0-387-87858-4.

Portada, Thomas M .; Thomas, Joy A. (2012). Elementos de la teoría de la información (2ª ed.). Wiley. págs. 247–248. ISBN 9781118585771.

Rényi, A. (marzo de 1959). "Sobre la dimensión y la entropía de las distribuciones de probabilidad". Acta Mathematica Academiae Scientiarum Hungaricae . 10 (1–2): 193–215. doi : 10.1007 / BF02063299 . ISSN 0001-5954 . S2CID 121006720 .

Wu, Yihong; Verdu, S. (agosto de 2010). "Dimensión de información de Rényi: límites fundamentales de la compresión analógica casi sin pérdidas". Transacciones IEEE sobre teoría de la información . 56 (8): 3721–3748. doi : 10.1109 / TIT.2010.2050803 . ISSN 0018-9448 . S2CID 206737933 .

[1] Ver Rényi 1959 .

[2] Ver Çınlar 2011 .

[3] Ver Portada y Thomas 2012 .

[4] Ver Wu y Verdu 2010 .

[1]