De Wikipedia, la enciclopedia libre
Ir a navegaciónSaltar a buscar

En teoría de la información , el contenido de información , auto-información , surprisal , o la información de Shannon es una cantidad básico derivado de la probabilidad de un determinado evento que ocurre a partir de una variable aleatoria . Puede considerarse como una forma alternativa de expresar la probabilidad, muy similar a las probabilidades o logaritmos de probabilidades , pero que tiene ventajas matemáticas particulares en el contexto de la teoría de la información.

La información de Shannon se puede interpretar como una cuantificación del nivel de "sorpresa" de un resultado en particular. Como es una cantidad tan básica, también aparece en varios otros entornos, como la longitud de un mensaje necesaria para transmitir el evento dada una codificación de origen óptima de la variable aleatoria.

La información de Shannon está estrechamente relacionada con la entropía teórica de la información , que es el valor esperado de la autoinformación de una variable aleatoria, cuantificando cuán sorprendente es la variable aleatoria "en promedio". Esta es la cantidad promedio de autoinformación que un observador esperaría obtener sobre una variable aleatoria al medirla. [1]

El contenido de la información se puede expresar en varias unidades de información , de las cuales la más común es el "bit" (a veces también llamado "shannon"), como se explica a continuación.

Definición

La definición de autoinformación de Claude Shannon fue elegida para cumplir con varios axiomas:

  1. Un evento con una probabilidad del 100% no es nada sorprendente y no proporciona información.
  2. Cuanto menos probable es un evento, más sorprendente es y más información proporciona.
  3. Si dos eventos independientes se miden por separado, la cantidad total de información es la suma de las autoinformaciones de los eventos individuales.

La derivación detallada se encuentra a continuación, pero se puede demostrar que hay una función única de probabilidad que cumple con estos tres axiomas, hasta un factor de escala multiplicativo. En general, dado un evento con probabilidad , el contenido de la información se define de la siguiente manera:

La base del registro no se especifica, lo que corresponde al factor de escala anterior. Las diferentes opciones de base corresponden a diferentes unidades de información: si la base logarítmica es 2, la unidad es un bit o shannon ; si el logaritmo es el logaritmo natural (base e ), la unidad es el nat , abreviatura de "natural"; y si la base es 10, las unidades son hartleys , dígitos decimales u ocasionalmente dits.

Formalmente, dada una variable aleatoria con función de masa de probabilidad , la autoinformación de medir como resultado se define como [2]

La entropía de Shannon de la variable aleatoriaarriba se define como

por definición igual al contenido de información esperado de la medición de. [3] : 11 [4] : 19-20

El uso de la notación porque la autoinformación anterior no es universal. Desde la notacióntambién se usa a menudo para la cantidad relacionada de información mutua , muchos autores usan minúsculas para la autoentropía en cambio, reflejando el uso de la capital para la entropía.

Propiedades

Función de probabilidad decreciente monótona

Para un espacio de probabilidad dado , la medición de eventos más raros es intuitivamente más "sorprendente" y produce más contenido de información que los valores más comunes. Por lo tanto, la autoinformación es una función monótona estrictamente decreciente de la probabilidad, o algunas veces llamada función "antitónica".

Mientras que las probabilidades estándar están representadas por números reales en el intervalo , las autoinformaciones están representadas por números reales extendidos en el intervalo . En particular, tenemos lo siguiente, para cualquier elección de base logarítmica:

  • Si un evento en particular tiene un 100% de probabilidad de ocurrir, entonces su autoinformación es : su ocurrencia es "perfectamente no sorprendente" y no proporciona información.
  • Si un evento en particular tiene un 0% de probabilidad de ocurrir, entonces su autoinformación es : su ocurrencia es "infinitamente sorprendente".

De esto, podemos obtener algunas propiedades generales:

  • De manera intuitiva, se obtiene más información al observar un evento inesperado: es "sorprendente".
    • Por ejemplo, si hay una probabilidad entre un millón de que Alice gane la lotería , su amigo Bob obtendrá mucha más información al saber que ella ganó que la que perdió en un día determinado. (Ver también: Matemáticas de lotería ).
  • Esto establece una relación implícita entre la autoinformación de una variable aleatoria y su varianza .

Relación con log-odds

La información de Shannon está estrechamente relacionada con las probabilidades logarítmicas . En particular, dado algún evento, suponer que es la probabilidad de ocurriendo, y que es la probabilidad de no ocurre. Entonces tenemos la siguiente definición de log-odds:

Esto se puede expresar como una diferencia de dos informaciones de Shannon:

En otras palabras, las probabilidades de registro se pueden interpretar como el nivel de sorpresa si el evento "no" ocurre, menos el nivel de sorpresa si el evento "sí" ocurre.

Aditividad de eventos independientes

El contenido de información de dos eventos independientes es la suma del contenido de información de cada evento. Esta propiedad se conoce como aditividad en matemáticas y aditividad sigma en particular en la teoría de medidas y probabilidades. Considere dos variables aleatorias independientes con funciones de masa de probabilidad y respectivamente. La función de masa de probabilidad conjunta es

porque y son independientes . El contenido de información del resultado es

Consulte § Dos dados independientes distribuidos de forma idéntica a continuación para ver un ejemplo.

La propiedad correspondiente para las probabilidades es que la probabilidad logarítmica de eventos independientes es la suma de las probabilidades logarítmicas de cada evento. Al interpretar la probabilidad logarítmica como "apoyo" o sorpresa negativa (el grado en que un evento apoya un modelo dado: un modelo es compatible con un evento en la medida en que el evento no es sorprendente, dado el modelo), esto establece que los eventos independientes agregan apoyo: la información que los dos eventos juntos proporcionan para la inferencia estadística es la suma de su información independiente.

Notas

Esta medida también se ha llamado sorpresa , ya que representa la " sorpresa " de ver el resultado (un resultado altamente improbable es muy sorprendente). Este término (como una medida logarítmica de la probabilidad) fue acuñado por Myron Tribus en su libro de 1961 Thermostatics and Thermodynamics . [5] [6]

Cuando el evento es una realización aleatoria (de una variable), la autoinformación de la variable se define como el valor esperado de la autoinformación de la realización.

La autoinformación es un ejemplo de una regla de puntuación adecuada . [ aclaración necesaria ]

Ejemplos

Lanzamiento de moneda justa

Considere el juicio de Bernoulli de lanzar una moneda justa . Las probabilidades de que los eventos de la moneda caigan como cara. y colas (ver moneda justa y anverso y reverso ) son la mitad cada uno,. Al medir la variable como cabezas, la ganancia de información asociada es

por lo que la ganancia de información de una moneda justa que aterriza como cara es 1 shannon . [2] Asimismo, la ganancia de información de la medición colas es

Tirada justa

Supongamos que tenemos un dado de seis caras justo . El valor de una tirada de dados es una variable aleatoria uniforme discreta con función de masa de probabilidad

La probabilidad de sacar un 4 es , como para cualquier otra tirada válida. Por tanto, el contenido de información de sacar un 4 es
de información.

Dos dados independientes distribuidos de forma idéntica

Supongamos que tenemos dos variables aleatorias independientes distribuidas de manera idéntica cada uno correspondiente a una tirada de dados justa independiente de 6 caras. La distribución conjunta de y es

El contenido de información de la variante aleatoria es

y también se puede calcular por § Aditividad de eventos independientes

Información de la frecuencia de los rollos

Si recibimos información sobre el valor de los dados sin saber qué dado tenía qué valor, podemos formalizar el enfoque con las llamadas variables de conteo.

por , luego y los recuentos tienen la distribución multinomial

Para verificar esto, los 6 resultados corresponden al evento y una probabilidad total de1/6. Estos son los únicos eventos que se conservan fielmente con la identidad de qué dados se tiraron y qué resultado porque los resultados son los mismos. Sin conocimiento para distinguir los dados tirando los otros números, el otro las combinaciones corresponden a un dado que lanza un número y el otro dado que lanza un número diferente, cada uno con probabilidad1/18. Por supuesto,, según sea necesario.

Como era de esperar, el contenido de información de saber que ambos dados se lanzaron como el mismo número en particular es más que el contenido de información de saber que un dado era un número y el otro era un número diferente. Tomemos como ejemplos los eventos y por . Por ejemplo, y .

Los contenidos de la información son

Dejar ser el caso de que ambos dados arrojen el mismo valor y sea ​​el caso de que los dados difieran. Luego y . Los contenidos de información de los eventos son

Información de la suma del dado

La masa de probabilidad o función de densidad ( medida de probabilidad colectiva ) de la suma de dos variables aleatorias independientes es la convolución de cada medida de probabilidad . En el caso de tiradas de dados justas e independientes de 6 caras, la variable aleatoria tiene función de masa de probabilidad , donde representa la convolución discreta . El resultado tiene probabilidad . Por tanto, la información afirmada es

Distribución uniforme discreta general

Generalizando el ejemplo de tirada justa de dados anterior, considere una variable aleatoria uniforme discreta general (DURV) Por conveniencia, defina . El pmf es

En general, los valores de DURV no necesitan ser números enteros , o para los propósitos de la teoría de la información, incluso espaciados uniformemente; solo necesitan ser equiprobables . [2] La ganancia de información de cualquier observación. es

Caso especial: variable aleatoria constante

Si encima, degenera en una variable aleatoria constante con distribución de probabilidad determinada determinísticamente pory medir la probabilidad la medida de Dirac . El único valorpuede tomar es determinista , por lo que el contenido de información de cualquier medida de es

En general, no se obtiene información al medir un valor conocido. [2]

Distribución categórica

Generalizando todos los casos anteriores, considere una variable aleatoria discreta categórica con apoyo y pmf dado por

A los efectos de la teoría de la información, los valores no tienen que ser números ; pueden ser cualquier evento mutuamente excluyente en un espacio de medida de medida finita que se ha normalizado a una medida de probabilidad . Sin pérdida de generalidad , podemos asumir que la distribución categórica es compatible con el conjunto; la estructura matemática es isomórfica en términos de la teoría de la probabilidad y, por lo tanto, también de la teoría de la información .

La información del resultado es dado

A partir de estos ejemplos, es posible calcular la información de cualquier conjunto de DRV independientes con distribuciones conocidas por aditividad .

Relación con la entropía

La entropía es el valor esperado del contenido de información de la variable aleatoria discreta , con la expectativa asumida sobre los valores discretos que toma . A veces, la entropía misma se denomina "autoinformación" de la variable aleatoria, posiblemente porque la entropía satisface, donde es la información mutua deconsigo mismo. [7]

Para las variables aleatorias continuas, el concepto correspondiente es la entropía diferencial .

Derivación

Por definición, la información se transfiere desde una entidad de origen que posee la información a una entidad receptora solo cuando el receptor no conocía la información a priori . Si la entidad receptora había conocido previamente el contenido de un mensaje con certeza antes de recibir el mensaje, la cantidad de información del mensaje recibido es cero. Sólo cuando el conocimiento previo del contenido del mensaje por parte del receptor es menos del 100% seguro, el mensaje transmite realmente información.

Por ejemplo, citando a un personaje (el Hippy Dippy Weatherman) del comediante George Carlin , “Pronóstico del tiempo para esta noche: oscuro. Continuó la oscuridad durante la noche, con luz muy dispersa por la mañana ". [8] Suponiendo que uno no reside cerca de los polos o círculos polares de la Tierra , la cantidad de información transmitida en ese pronóstico es cero porque se sabe, antes de recibir el pronóstico, que la oscuridad siempre llega con la noche.

En consecuencia, la cantidad de autoinformación contenida en un mensaje que transmite contenido que informa sobre la ocurrencia de un evento ,, depende solo de la probabilidad de ese evento.

para alguna función que se determinará a continuación. Si, luego . Si, luego .

Además, por definición, la medida de la autoinformación es aditiva y no negativa. Si un mensaje informando del eventoes la intersección de dos eventos independientes y , luego la información del evento que ocurre es el del mensaje compuesto de ambos eventos independientes y ocurriendo. La cantidad de información del mensaje compuesto.se esperaría que fuera igual a la suma de las cantidades de información de los mensajes de componentes individuales y respectivamente:

Por la independencia de los eventos y , la probabilidad del evento es

Sin embargo, aplicando la función resultados en

La clase de función tener la propiedad tal que

es la función logarítmica de cualquier base. La única diferencia operativa entre logaritmos de diferentes bases es la de diferentes constantes de escala.

Dado que las probabilidades de eventos están siempre entre 0 y 1 y la información asociada con estos eventos debe ser no negativa, eso requiere que .

Teniendo en cuenta estas propiedades, la autoinformación asociado con el resultado con probabilidad Se define como:

Cuanto menor sea la probabilidad de evento , mayor es la cantidad de autoinformación asociada con el mensaje de que efectivamente ocurrió el evento. Si el logaritmo anterior es base 2, la unidad deson bits . Ésta es la práctica más común. Cuando se usa el logaritmo natural de base, la unidad será el nat . Para el logaritmo de base 10, la unidad de información es Hartley .

Como ilustración rápida, el contenido de información asociado con un resultado de 4 caras (o cualquier resultado específico) en 4 lanzamientos consecutivos de una moneda sería de 4 bits (probabilidad 1/16), y el contenido de información asociado con obtener un resultado diferente a el especificado sería ~ 0.09 bits (probabilidad 15/16). Consulte más arriba para ver ejemplos detallados.

Ver también

  • Entropía
  • Análisis sorpresa

Referencias

  1. ^ Jones, DS, Teoría de la información elemental , Vol., Clarendon Press, Oxford pp 11-15 1979
  2. ↑ a b c d McMahon, David M. (2008). Explicación de la computación cuántica . Hoboken, Nueva Jersey: Wiley-Interscience. ISBN 9780470181386. OCLC  608622533 .
  3. ^ Borda, Monica (2011). Fundamentos en Teoría y Codificación de la Información . Saltador. ISBN 978-3-642-20346-6.
  4. ^ Han, Te Sun y Kobayashi, Kingo (2002). Matemáticas de la información y la codificación . Sociedad Matemática Estadounidense. ISBN 978-0-8218-4256-0.CS1 maint: uses authors parameter (link)
  5. ^ RB Bernstein y RD Levine (1972) "Entropía y cambio químico. I. Caracterización de distribuciones de energía del producto (y reactivo) en colisiones moleculares reactivas: deficiencia de información y entropía", The Journal of Chemical Physics 57 , enlace 434-449.
  6. ^ Myron Tribus (1961) Termodinámica y termostática: una introducción a la energía, la información y los estados de la materia, con aplicaciones de ingeniería (D. Van Nostrand, 24 West 40 Street, Nueva York 18, Nueva York, EE. UU.) Tribus, Myron (1961) , págs. 64-66 tomar prestado .
  7. ^ Cubierta de Thomas M., Joy A. Thomas; Elementos de la teoría de la información; pag. 20; 1991.
  8. ^ "Una cita de George Carlin" . www.goodreads.com . Consultado el 1 de abril de 2021 .

Lectura adicional

  • CE Shannon , una teoría matemática de la comunicación , Bell Systems Technical Journal , vol. 27, págs. 379–423, (Parte I), 1948.

Enlaces externos

  • Ejemplos de medidas de sorpresa
  • Entrada "sorpresa" en un glosario de teoría de la información molecular
  • Teoría bayesiana de la sorpresa