De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda
Diagrama de Venn de medidas teóricas de la información para tres variables , y , representadas por los círculos inferior izquierdo, inferior derecho y superior, respectivamente. Las informaciones condicionales mutuos , y están representados por las, cian y magenta regiones amarillo, respectivamente.

En la teoría de la probabilidad , particularmente en la teoría de la información , la información mutua condicional [1] [2] es, en su forma más básica, el valor esperado de la información mutua de dos variables aleatorias dado el valor de una tercera.

Definición [ editar ]

Para las variables aleatorias , y con conjuntos de apoyo , y , definimos la información mutua condicional

Esto puede ser escrito en términos del operador de esperanza: .

Por lo tanto, es la divergencia esperada (con respecto a ) de Kullback-Leibler de la distribución conjunta condicional al producto de los marginales condicionales y . Compare con la definición de información mutua .

En términos de PMF para distribuciones discretas [ editar ]

Para discretas variables aleatorias , y con conjuntos de apoyo , y , la información mutua condicional es el siguiente

donde las funciones de masa de probabilidad marginal, conjunta y / o condicional se denotan con el subíndice apropiado. Esto se puede simplificar como

En términos de pdf para distribuciones continuas [ editar ]

Para las variables aleatorias (absolutamente) continuas , y con conjuntos de apoyo , y , la información mutua condicional es el siguiente

donde las funciones de densidad de probabilidad marginal, conjunta y / o condicional se indican con el subíndice apropiado. Esto se puede simplificar como

Algunas identidades [ editar ]

Alternativamente, podemos escribir en términos de entropías conjuntas y condicionales como [3]

Esto se puede reescribir para mostrar su relación con la información mutua.

generalmente reorganizado como la regla de la cadena para la información mutua

Otra forma equivalente de lo anterior es

Al igual que la información mutua, la información mutua condicional se puede expresar como una divergencia Kullback-Leibler :

O como un valor esperado de divergencias Kullback-Leibler más simples:

,
.

Definición más general [ editar ]

Una definición más general de información mutua condicional, aplicable a variables aleatorias con distribuciones continuas u otras distribuciones arbitrarias, dependerá del concepto de probabilidad condicional regular . (Ver también. [4] [5] )

Vamos a ser un espacio de probabilidad , y dejar que las variables aleatorias , y cada uno puede definir como una función de Borel-medibles a partir de un cierto espacio estado dotado de una estructura topológica.

Considere la medida de Borel (en el σ-álgebra generada por los conjuntos abiertos) en el espacio de estado de cada variable aleatoria definida al asignar a cada conjunto de Borel la medida de su preimagen en . Esto se llama la medida de empuje hacia adelante El soporte de una variable aleatoria se define como el soporte topológico de esta medida, es decir

Ahora podemos definir formalmente la medida de probabilidad condicional dado el valor de una (o, a través de la topología del producto , más) de las variables aleatorias. Sea un subconjunto medible de (ie ) y sea Then, usando el teorema de la desintegración :

donde el límite se toma sobre los vecindarios abiertos de , ya que se les permite volverse arbitrariamente más pequeños con respecto a la inclusión de conjuntos .

Finalmente podemos definir la información mutua condicional a través de la integración de Lebesgue :

donde el integrando es el logaritmo de una derivada de Radon-Nikodym que involucra algunas de las medidas de probabilidad condicional que acabamos de definir.

Nota sobre la notación [ editar ]

En una expresión como y no es necesario limitarse a representar variables aleatorias individuales, sino que también podría representar la distribución conjunta de cualquier colección de variables aleatorias definidas en el mismo espacio de probabilidad . Como es común en la teoría de la probabilidad , podemos usar la coma para denotar tal distribución conjunta, por ejemplo, de ahí el uso del punto y coma (u ocasionalmente dos puntos o incluso una cuña ) para separar los argumentos principales del símbolo de información mutua. (No es necesaria tal distinción en el símbolo de la entropía conjunta , ya que la entropía conjunta de cualquier número de variables aleatorias es la misma que la entropía de su distribución conjunta).

Propiedades [ editar ]

No negatividad [ editar ]

Siempre es cierto que

,

para variables aleatorias discretas, distribuidas conjuntamente , y . Este resultado se ha utilizado como un bloque de construcción básico para probar otras desigualdades en la teoría de la información , en particular, las conocidas como desigualdades de tipo Shannon. La información mutua condicional tampoco es negativa para las variables aleatorias continuas bajo ciertas condiciones de regularidad. [6]

Información de interacción [ editar ]

El condicionamiento de una tercera variable aleatoria puede aumentar o disminuir la información mutua: es decir, la diferencia , llamada información de interacción , puede ser positiva, negativa o cero. Este es el caso incluso cuando las variables aleatorias son independientes por pares. Tal es el caso cuando:

en cuyo caso , y son independientes por pares y, en particular , pero

Regla de cadena para información mutua [ editar ]

Información de interacción [ editar ]

La información mutua condicional se utiliza para definir inductivamente la información de interacción , una generalización de la información mutua, de la siguiente manera:

dónde

Debido a que la información mutua condicional puede ser mayor o menor que su contraparte incondicional, la información de interacción puede ser positiva, negativa o cero, lo que dificulta su interpretación.

Referencias [ editar ]

  1. ^ Wyner, AD (1978). "Una definición de información mutua condicional para conjuntos arbitrarios" . Información y control . 38 (1): 51–59. doi : 10.1016 / s0019-9958 (78) 90026-8 .
  2. ^ Dobrushin, RL (1959). "Formulación general del teorema principal de Shannon en la teoría de la información". Uspekhi Mat. Nauk . 14 : 3–104.
  3. ^ Portada, Thomas ; Thomas, Joy A. (2006). Elementos de la teoría de la información (2ª ed.). Nueva York: Wiley-Interscience . ISBN 0-471-24195-4.
  4. ^ Probabilidad condicional regular en PlanetMath
  5. ^ D. Leao, Jr. y col. Probabilidad condicional regular, desintegración de probabilidad y espacios de radón. Proyecciones. Vol. 23, No. 1, págs. 15–29, mayo de 2004, Universidad Católica del Norte, Antofagasta, Chile PDF
  6. ^ Polyanskiy, Yury; Wu, Yihong (2017). Apuntes de clase sobre teoría de la información (PDF) . pag. 30.