Limitar la densidad de puntos discretos

En teoría de la información , la densidad límite de puntos discretos es un ajuste a la fórmula de Claude Shannon para la entropía diferencial .

Fue formulado por Edwin Thompson Jaynes para abordar los defectos en la definición inicial de entropía diferencial.

Definición

Shannon escribió originalmente la siguiente fórmula para la entropía de una distribución continua, conocida como entropía diferencial :

{\ Displaystyle h (X) = - \ int p (x) \ log p (x) \, dx.}

Sin embargo, a diferencia de la fórmula de Shannon para la entropía discreta, este no es el resultado de ninguna derivación (Shannon simplemente reemplazó el símbolo de suma en la versión discreta con una integral), pero carece de muchas de las propiedades que hacen que la entropía discreta sea una medida útil de incertidumbre. En particular, no es invariante ante un cambio de variables y puede volverse negativo. Además, ni siquiera es dimensionalmente correcto. Desde ${\ Displaystyle P (x)}$ sería adimensional, ${\ Displaystyle p (x)}$ debe tener unidades de ${\ Displaystyle {\ frac {1} {dx}}}$ , lo que significa que el argumento del logaritmo no es adimensional como se requiere.

Jaynes argumentó que la fórmula para la entropía continua debería derivarse tomando el límite de distribuciones discretas cada vez más densas. ^[1]^[2] Supongamos que tenemos un conjunto de ${\ Displaystyle N}$ puntos discretos ${\ Displaystyle \ {x_ {i} \}}$ , tal que en el limite ${\ Displaystyle N \ to \ infty}$ su densidad se aproxima a una función ${\ Displaystyle m (x)}$ llamada la "medida invariante".

{\ Displaystyle \ lim _ {N \ to \ infty} {\ frac {1} {N}} \, ({\ mbox {número de puntos en}} a

Jaynes derivó de esto la siguiente fórmula para la entropía continua, que, según él, debería tomarse como la fórmula correcta:

{\ Displaystyle \ lim _ {N \ rightarrow \ infty} H_ {N} (X) = \ log (N) - \ int p (x) \ log {\ frac {p (x)} {m (x)} } \, dx.}

Normalmente, cuando se escribe esto, el término ${\ Displaystyle \ log (N)}$ se omite, ya que normalmente no sería finito. Entonces, la definición común real es

{\ Displaystyle H (X) = - \ int p (x) \ log {\ frac {p (x)} {m (x)}} \, dx.}

Donde no está claro si el ${\ Displaystyle \ log (N)}$ el término debe omitirse, se podría escribir

{\ Displaystyle H_ {N} (X) \ sim \ log (N) + H (X)}

Note que en la fórmula de Jaynes, ${\ Displaystyle m (x)}$ es una densidad de probabilidad. Para cualquier finito ${\ Displaystyle N}$ que ${\ Displaystyle m (x)}$ ^{[ se necesita más explicación ]} es una densidad uniforme sobre la cuantificación del espacio continuo que se utiliza en la suma de Riemann. En el limite ${\ Displaystyle m (x)}$ es la densidad límite continua de puntos en la cuantificación utilizada para representar la variable continua ${\ Displaystyle x}$ .

Suponga que uno tiene un formato numérico que toma ${\ Displaystyle N}$ valores posibles, distribuidos según ${\ Displaystyle m (x)}$ . Luego ${\ Displaystyle H_ {N} (X)}$ (Si ${\ Displaystyle N}$ es lo suficientemente grande como para que la aproximación continua sea válida) es la entropía discreta de la variable ${\ Displaystyle x}$ en esta codificación. Esto es igual al número medio de bits necesarios para transmitir esta información y no es más de ${\ Displaystyle \ log (N)}$ . Por lo tanto, ${\ Displaystyle H (X)}$ puede pensarse como la cantidad de información obtenida al saber que la variable ${\ Displaystyle x}$ sigue la distribución ${\ Displaystyle p (x)}$ , y no se distribuye uniformemente sobre los posibles valores cuantificados, como sería el caso si siguiera ${\ Displaystyle m (x)}$ . ${\ Displaystyle H (X)}$ es en realidad la divergencia (negativa) de Kullback-Leibler de ${\ Displaystyle m (x)}$ a ${\ Displaystyle p (x)}$ , que se considera como la información obtenida al aprender que una variable que antes se pensaba que se distribuía como ${\ Displaystyle m (x)}$ en realidad se distribuye como ${\ Displaystyle p (x)}$ .

La fórmula de entropía continua de Jaynes tiene la propiedad de ser invariante ante un cambio de variables, siempre que ${\ Displaystyle m (x)}$ y ${\ Displaystyle p (x)}$ se transforman de la misma manera. (Esto motiva el nombre "medida invariante" para m .) Esto resuelve muchas de las dificultades que surgen al aplicar la fórmula de entropía continua de Shannon. El propio Jaynes dejó caer el ${\ Displaystyle \ log (N)}$ término ya que no era relevante para su trabajo (distribuciones máximas de entropía), y es algo incómodo tener un término infinito en el cálculo. Desafortunadamente, esto no puede evitarse si la cuantificación se hace arbitrariamente fina, como sería el caso en el límite continuo. Tenga en cuenta que ${\ Displaystyle H (X)}$ como se define aquí (sin el ${\ Displaystyle \ log (N)}$ término) siempre sería no positivo, porque una divergencia KL siempre sería no negativo.

Si es el caso que ${\ Displaystyle m (x)}$ es constante en algún intervalo de tamaño ${\ Displaystyle r}$ , y ${\ Displaystyle p (x)}$ es esencialmente cero fuera de ese intervalo, entonces la densidad límite de puntos discretos (LDDP) está estrechamente relacionada con la entropía diferencial ${\ Displaystyle h (X)}$

{\ Displaystyle H_ {N} (X) \ approx \ log (N) - \ log (r) + h (X)}

Referencias

^ Jaynes, ET (1963). "Teoría de la información y mecánica estadística". En K. Ford (ed.). Física estadística (PDF) . Benjamin, Nueva York. pag. 181.
^ Jaynes, ET (1968). "Probabilidades previas" (PDF) . Transacciones IEEE sobre ciencia de sistemas y cibernética . SSC-4: 227.

Otras lecturas

Jaynes, ET (2003). Teoría de la probabilidad: la lógica de la ciencia . Prensa de la Universidad de Cambridge. ISBN 978-0521592710.

[1] Jaynes, ET (1963). "Teoría de la información y mecánica estadística". En K. Ford (ed.). Física estadística (PDF) . Benjamin, Nueva York. pag. 181.

[2] Jaynes, ET (1968). "Probabilidades previas" (PDF) . Transacciones IEEE sobre ciencia de sistemas y cibernética . SSC-4: 227.

[1]