Propiedad de equipartición asintótica

En teoría de la información , la propiedad de equipartición asintótica ( AEP ) es una propiedad general de las muestras de salida de una fuente estocástica . Es fundamental para el concepto de conjunto típico utilizado en las teorías de compresión de datos .

En términos generales, el teorema establece que aunque hay muchas series de resultados que pueden producirse mediante un proceso aleatorio, el que realmente se produce es muy probablemente a partir de un conjunto de resultados vagamente definidos que tienen aproximadamente la misma probabilidad de ser el que realmente se realizó. . (Esto es una consecuencia de la ley de los grandes números y la teoría ergódica .) Aunque hay resultados individuales que tienen una probabilidad más alta que cualquier resultado en este conjunto, el gran número de resultados en el conjunto casi garantiza que el resultado vendrá de la colocar. Una forma de comprender intuitivamente la propiedad es a través del teorema de la gran desviación de Cramér, que establece que la probabilidad de una gran desviación de la media disminuye exponencialmente con el número de muestras. Estos resultados se estudian en la teoría de las grandes desviaciones ; intuitivamente, son las grandes desviaciones las que violarían la equipartición, pero son poco probables.

En el campo de la generación de números pseudoaleatorios , un generador candidato de calidad indeterminada cuya secuencia de salida se encuentra demasiado lejos del conjunto típico según algunos criterios estadísticos se rechaza como insuficientemente aleatorio. Así, aunque el conjunto típico está vagamente definido, surgen nociones prácticas sobre suficiente tipicidad.

Definición

Dado un proceso estocástico ergódico estacionario en tiempo discreto ${\ Displaystyle X}$ en el espacio de probabilidad ${\ Displaystyle (\ Omega, B, p)}$ , la propiedad de equipartición asintótica es una afirmación de que

{\ Displaystyle - {\ frac {1} {n}} \ log p (X_ {1}, X_ {2}, \ dots, X_ {n}) \ to H (X) \ quad {\ text {as} } \ quad n \ to \ infty}

dónde ${\ Displaystyle H (X)}$ o simplemente ${\ Displaystyle H}$ denota la tasa de entropía de ${\ Displaystyle X}$ , que debe existir para todos los procesos estacionarios de tiempo discreto , incluidos los ergódicos. La propiedad de equipartición asintótica se demuestra para valores finitos (es decir, ${\ Displaystyle | \ Omega | <\ infty}$ ) procesos estocásticos ergódicos estacionarios en el teorema de Shannon-McMillan-Breiman usando la teoría ergódica y para cualquier fuente iid usando directamente la ley de los grandes números tanto en el caso de valores discretos (donde ${\ Displaystyle H}$ es simplemente la entropía de un símbolo) y el caso de valores continuos (donde H es la entropía diferencial en su lugar). La definición de la propiedad de equipartición asintótica también se puede ampliar para ciertas clases de procesos estocásticos de tiempo continuo para los que existe un conjunto típico durante un tiempo de observación suficientemente largo. La convergencia está probada casi segura en todos los casos.

Fuentes de iid en tiempo discreto

Dado ${\ Displaystyle X}$ es una fuente iid que puede tomar valores en el alfabeto ${\ Displaystyle {\ mathcal {X}}}$ , su serie de tiempo ${\ Displaystyle X_ {1}, \ ldots, X_ {n}}$ es iid con entropía ${\ Displaystyle H (X)}$ . La ley débil de los grandes números da la propiedad de equipartición asintótica con convergencia en probabilidad ,

{\ Displaystyle \ lim _ {n \ to \ infty} \ Pr \ left [\ left | - {\ frac {1} {n}} \ log p (X_ {1}, X_ {2}, \ ldots, X_ {n}) - H (X) \ right |> \ epsilon \ right] = 0 \ qquad \ forall \ epsilon> 0.}

ya que la entropía es igual a la expectativa de

{\ Displaystyle - {\ frac {1} {n}} \ log p (X_ {1}, X_ {2}, \ ldots, X_ {n}).}

^[1]

La ley fuerte de los grandes números afirma la convergencia casi segura más fuerte,

{\ Displaystyle \ Pr \ left [\ lim _ {n \ to \ infty} - {\ frac {1} {n}} \ log p (X_ {1}, X_ {2}, \ ldots, X_ {n} ) = H (X) \ derecha] = 1.}

Fuentes ergódicas estacionarias de valor finito de tiempo discreto

Considere un espacio muestral de valor finito ${\ Displaystyle \ Omega}$ , es decir ${\ Displaystyle | \ Omega | <\ infty}$ , para el proceso ergódico estacionario de tiempo discreto ${\ Displaystyle X: = \ {X_ {n} \}}$ definido en el espacio de probabilidad ${\ Displaystyle (\ Omega, B, p)}$ . La propiedad de equipartición asintótica para tal fuente estocástica se conoce como el teorema de Shannon-McMillan-Breiman , debido a Claude Shannon , Brockway McMillan y Leo Breiman .

Prueba (boceto) ^[2]

Sea x un conjunto medible ${\ Displaystyle x = X (A)}$ para algunos ${\ Displaystyle A \ in B}$
Parametrice la probabilidad conjunta por n y x como

{\ Displaystyle j (n, x): = p \ left (x_ {0} ^ {n-1} \ right).}

Parametrice la probabilidad condicional por i , k y x como

{\ Displaystyle c (i, k, x): = p \ left (x_ {i} \ mid x_ {ik} ^ {i-1} \ right).}

Tome el límite de la probabilidad condicional como k → ∞ y denótelo como

{\ Displaystyle c (i, x): = p \ left (x_ {i} \ mid x _ {- \ infty} ^ {i-1} \ right).}

Argumenta las dos nociones de tasa de entropía

{\ Displaystyle \ lim _ {n \ to \ infty} \ mathrm {E} [- \ log j (n, X)] \ quad {\ text {y}} \ quad \ lim _ {n \ to \ infty} \ mathrm {E} [- \ log c (n, n, X)]}

existir y son iguales para cualquier proceso estacionario incluyendo el proceso estacionario ergódico X . Denotemos como H .

Argumenta que ambos

{\ Displaystyle {\ begin {alineado} c (i, k, X) &: = \ left \ {p \ left (X_ {i} \ mid X_ {ik} ^ {i-1} \ right) \ right \ } \\ c (i, X) &: = \ left \ {p \ left (X_ {i} \ mid X _ {- \ infty} ^ {i-1} \ right) \ right \} \ end {alineado} }}

donde i es el índice de tiempo, son procesos ergódicos estacionarios, cuyas medias muestrales convergen casi con seguridad a algunos valores denotados por

{\ Displaystyle H ^ {k}}

y

{\ Displaystyle H ^ {\ infty}}

respectivamente.

Definir la aproximación de Markov de k -ésimo orden a la probabilidad ${\ Displaystyle a (n, k, x)}$ como

{\ Displaystyle a (n, k, x): = p \ left (X_ {0} ^ {k-1} \ right) \ prod _ {i = k} ^ {n-1} p \ left (X_ { i} \ mid X_ {ik} ^ {i-1} \ right) = j (k, x) \ prod _ {i = k} ^ {n-1} c (i, k, x)}

Argumenta eso ${\ Displaystyle a (n, k, X (\ Omega))}$ es finito a partir del supuesto de valor finito.
Rápido ${\ Displaystyle - {\ frac {1} {n}} \ log a (n, k, X)}$ en términos de la media muestral de ${\ Displaystyle c (i, k, X)}$ y mostrar que converge casi con seguridad a H ^k
Definir la medida de probabilidad

{\ Displaystyle a (n, x): = p \ left (x_ {0} ^ {n-1} \ mid x _ {- \ infty} ^ {- 1} \ right).}

Rápido ${\ Displaystyle - {\ frac {1} {n}} \ log a (n, X)}$ en términos de la media muestral de ${\ Displaystyle c (i, X)}$ y mostrar que converge casi con seguridad a H ^∞ .
Argumenta eso ${\ Displaystyle H ^ {k} \ Searrow H}$ como k → ∞ utilizando la estacionariedad del proceso.
Argumenta que H = H ^∞ usando el teorema de convergencia de martingala de Lévy y el supuesto de valor finito.
Muestra esa

{\ Displaystyle \ mathrm {E} \ left [{\ frac {a (n, k, X)} {j (n, X)}} \ right] = a (n, k, X (\ Omega))}

que es finito como se argumentó antes.

Muestra esa

{\ Displaystyle \ mathrm {E} \ left [{\ frac {j (n, X)} {a (n, X)}} \ right] = 1}

condicionando el pasado infinito

{\ Displaystyle X _ {- \ infty} ^ {- 1}}

e iterando la expectativa.

Muestra esa

{\ Displaystyle \ forall \ alpha \ in \ mathbb {R} \: \ \ Pr \ left [{\ frac {a (n, k, X)} {j (n, X)}} \ geq \ alpha \ right ] \ leq {\ frac {a (n, k, X (\ Omega))} {\ alpha}}}

utilizando la desigualdad de Markov y la expectativa derivada previamente.

De manera similar, demuestre que

{\ Displaystyle \ forall \ alpha \ in \ mathbb {R} \: \ \ Pr \ left [{\ frac {j (n, X)} {a (n, X)}} \ geq \ alpha \ right] \ leq {\ frac {1} {\ alpha}},}

que es equivalente a

{\ Displaystyle \ forall \ alpha \ in \ mathbb {R} \: \ \ Pr \ left [{\ frac {1} {n}} \ log {\ frac {j (n, X)} {a (n, X)}} \ geq {\ frac {1} {n}} \ log \ alpha \ right] \ leq {\ frac {1} {\ alpha}}.}

Muestra ese limsup de

{\ Displaystyle {\ frac {1} {n}} \ log {\ frac {a (n, k, X)} {j (n, X)}} \ quad {\ text {y}} \ quad {\ frac {1} {n}} \ log {\ frac {j (n, X)} {a (n, X)}}}

son no positivos casi con seguridad estableciendo α = n ^β para cualquier β> 1 y aplicando el lema de Borel-Cantelli .

Muestre que liminf y limsup de

{\ Displaystyle - {\ frac {1} {n}} \ log j (n, X)}

son inferiores y superiores delimitados casi con seguridad por H ^∞ y H ^k respectivamente al romper los logaritmos del resultado anterior.

Complete la demostración señalando que los límites superior e inferior se muestran previamente para aproximarse a H cuando k → ∞.

Fuente de tiempo discreto no estacionaria que produce símbolos independientes

Los supuestos de estacionariedad / ergodicidad / distribución idéntica de variables aleatorias no son esenciales para que se mantenga la propiedad de equipartición asintótica. De hecho, como es bastante claro intuitivamente, la propiedad de equipartición asintótica requiere que se cumpla sólo alguna forma de la ley de los grandes números, que es bastante general. Sin embargo, la expresión debe generalizarse adecuadamente y las condiciones deben formularse con precisión.

Suponemos que la fuente está produciendo símbolos independientes, posiblemente con diferentes estadísticas de salida en cada instante. Suponemos que las estadísticas del proceso se conocen por completo, es decir, se conoce la distribución marginal del proceso visto en cada instante de tiempo. La distribución conjunta es solo el producto de los marginales. Entonces, bajo la condición (que puede ser relajada) de que ${\ Displaystyle \ mathrm {Var} [\ log p (X_ {i})] }>$ para todo i , para algunos M > 0, se cumple lo siguiente (AEP):

{\ Displaystyle \ lim _ {n \ to \ infty} \ Pr \ left [\, \ left | - {\ frac {1} {n}} \ log p (X_ {1}, X_ {2}, \ ldots , X_ {n}) - {\ overline {H}} _ {n} (X) \ right | <\ epsilon \ right] = 1 \ qquad \ forall \ epsilon> 0}

dónde

{\ Displaystyle {\ overline {H}} _ {n} (X) = {\ frac {1} {n}} H (X_ {1}, X_ {2}, \ ldots, X_ {n})}

Prueba

La demostración se deriva de una aplicación simple de la desigualdad de Markov (aplicada al segundo momento de

{\ Displaystyle \ log (p (X_ {i}))}

.

{\ Displaystyle {\ begin {alineado} \ Pr \ left [\ left | - {\ frac {1} {n}} \ log p (X_ {1}, X_ {2}, \ ldots, X_ {n}) - {\ overline {H}} (X) \ right |> \ epsilon \ right] & \ leq {\ frac {1} {n ^ {2} \ epsilon ^ {2}}} \ mathrm {Var} \ left [\ sum _ {i = 1} ^ {n} \ left (\ log (p (X_ {i}) \ right) ^ {2} \ right] \\ & \ leq {\ frac {M} {n \ épsilon ^ {2}}} \ to 0 {\ text {as}} n \ to \ infty \ end {alineado}}}

Es obvio que la prueba se sostiene si en algún momento ${\ Displaystyle \ mathrm {E} \ left [| \ log p (X_ {i}) | ^ {r} \ right]}$ está uniformemente acotado para r > 1 (nuevamente por la desigualdad de Markov aplicada al r -ésimo momento). ${\ Displaystyle \ Box {}}$

Incluso esta condición no es necesaria, pero dado un proceso aleatorio no estacionario, no debería ser difícil probar si la propiedad de equipartición asintótica se cumple usando el método anterior.

Aplicaciones

La propiedad de equipartición asintótica para procesos independientes en tiempo discreto no estacionarios nos lleva (entre otros resultados) al teorema de codificación de fuente para fuente no estacionaria (con símbolos de salida independientes) y al teorema de codificación de canal ruidoso para canales sin memoria no estacionarios.

Fuentes ergódicas estacionarias de tiempo continuo

Las funciones de tiempo discreto se pueden interpolar en funciones de tiempo continuo. Si tal interpolación f es medible , podemos definir el proceso estacionario de tiempo continuo en consecuencia como ${\ Displaystyle {\ tilde {X}}: = f \ circ X}$ . Si la propiedad de equipartición asintótica se cumple para el proceso de tiempo discreto, como en los casos iid o ergódicos estacionarios con valores finitos mostrados anteriormente, se cumple automáticamente para el proceso estacionario en tiempo continuo derivado de él mediante alguna interpolación mensurable. es decir

{\ Displaystyle - {\ frac {1} {n}} \ log p ({\ tilde {X}} _ {0} ^ {\ tau}) \ to H (X)}

donde n corresponde al grado de libertad en el tiempo $τ$ . $nH (X) / τ$ y $H (X)$ son la entropía por unidad de tiempo y por grado de libertad, respectivamente, definidos por Shannon .

Una clase importante de este proceso estacionario de tiempo continuo es el proceso ergódico estacionario limitado por banda, siendo el espacio muestral un subconjunto del proceso continuo. ${\ Displaystyle {\ mathcal {L}} _ {2}}$ funciones. La propiedad de equipartición asintótica se mantiene si el proceso es blanco, en cuyo caso las muestras de tiempo son iid, o existe T > 1/2 W , donde W es el ancho de banda nominal , de modo que las muestras de tiempo T- espaciadas toman valores en un finito conjunto, en cuyo caso tenemos el proceso ergódico estacionario de valores finitos de tiempo discreto.

Cualquier operación invariante en el tiempo también conserva la propiedad de equipartición asintótica, la estacionariedad y la ergodicidad, y podemos convertir fácilmente un proceso estacionario en no estacionario sin perder la propiedad de equipartición asintótica anulando un número finito de muestras de tiempo en el proceso.

Teoría de categorías

Una teoría de la categoría definición de la propiedad de equipartición está dada por Gromov . ^[3] Dada una secuencia de poderes cartesianos ${\ Displaystyle P ^ {N} = P \ times \ cdots \ times P}$ de un espacio de medida P , esta secuencia admite una secuencia H _N asintóticamente equivalente de espacios de medida homogéneos ( es decir, todos los conjuntos tienen la misma medida; todos los morfismos son invariantes bajo el grupo de automorfismos y, por lo tanto, se factorizan como un morfismo del objeto terminal ).

Lo anterior requiere una definición de equivalencia asintótica . Esto se da en términos de una función de distancia, dando cuánto difiere una correspondencia inyectiva de un isomorfismo . Una correspondencia inyectiva ${\ Displaystyle \ pi: P \ to Q}$ es un mapa parcialmente definido que es una biyección ; es decir, es una biyección entre un subconjunto ${\ Displaystyle P '\ subconjunto P}$ y ${\ Displaystyle Q '\ subconjunto Q}$ . Entonces define

{\ Displaystyle | PQ | _ {\ pi} = | P \ smallsetminus P '| + | Q \ smallsetminus Q' |}

donde | S | denota la medida de un conjunto S . En lo que sigue, la medida de P y Q se toma como 1, de modo que los espacios de medida son espacios de probabilidad. Esta distancia ${\ Displaystyle | PQ | _ {\ pi}}$ se conoce comúnmente como la distancia del movimiento de tierra o métrica de Wasserstein .

Del mismo modo, defina

{\ Displaystyle | \ log P: Q | _ {\ pi} = {\ frac {\ sup _ {p \ in P ^ {'}} | \ log p- \ log \ pi (p) |} {\ log \ min \ left (| \ operatorname {set} (P ') |, | \ operatorname {set} (Q') | \ right)}}}

con ${\ Displaystyle | \ operatorname {set} (P) |}$ llevado a ser la medida de recuento en P . Por tanto, esta definición requiere que P sea un espacio de medida finito. Finalmente, deja

{\ Displaystyle {\ text {dist}} _ {\ pi} (P, Q) = | PQ | _ {\ pi} + | \ log P: Q | _ {\ pi}}

Una secuencia de correspondencias inyectivas ${\ Displaystyle \ pi _ {N}: P_ {N} \ to Q_ {N}}$ son entonces asintóticamente equivalentes cuando

{\ Displaystyle {\ text {dist}} _ {\ pi _ {N}} (P_ {N}, Q_ {N}) \ to 0 \ quad {\ text {as}} \ quad N \ to \ infty}

Dada una secuencia espacial homogénea H _N que es asintóticamente equivalente a P ^N , la entropía H ( P ) de P puede tomarse como

{\ Displaystyle H (P) = \ lim _ {N \ to \ infty} {\ frac {1} {N}} | \ operatorname {set} (H_ {N}) |}

Ver también

Teorema de la gran desviación de Cramér
Teorema de codificación de fuente
Teorema de codificación de canal ruidoso

Notas

^ Portada y Thomas (1991) , p. 51.
^ Algoet y cubierta (1988) .
^ Misha Gromov, (2012) " En una búsqueda de una estructura, parte 1: sobre la entropía ". (Consulte la página 5, donde la propiedad de equipartición se denomina 'teorema de aproximación de Bernoulli').

Referencias

artículos periodísticos

Claude E. Shannon. " Una teoría matemática de la comunicación ". Bell System Technical Journal , julio / octubre de 1948.
Algoet, Paul H .; Portada, Thomas M. (1988). "Una prueba de sandwich del teorema de Shannon-McMillan-Breiman" (PDF) . Los anales de la probabilidad . 16 (2): 899–909.
Sergio Verdu y Te Sun Han. "El papel de la propiedad de equipartición asintótica en la codificación de fuente silenciosa". Transacciones IEEE sobre teoría de la información , 43 (3): 847–857, 1997.

Libros de texto

Portada, Thomas M .; Thomas, Joy A. (1991). Elementos de la teoría de la información (primera ed.). Hoboken, Nueva Jersey: Wiley. ISBN 978-0-471-24195-9.
MacKay, David JC (2003). Teoría de la información, inferencia y algoritmos de aprendizaje . Prensa de la Universidad de Cambridge. ISBN 0-521-64298-1.

[FOOTNOTECoverThomas199151-1] Portada y Thomas (1991) , p. 51.

[FOOTNOTEAlgoetCover1988-2] Algoet y cubierta (1988) .

[3] Misha Gromov, (2012) " En una búsqueda de una estructura, parte 1: sobre la entropía ". (Consulte la página 5, donde la propiedad de equipartición se denomina 'teorema de aproximación de Bernoulli').

[1]