De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

En teoría de la información , el contenido de información , auto-información , surprisal , o la información de Shannon es una cantidad básico derivado de la probabilidad de un determinado evento que ocurre a partir de una variable aleatoria . Puede considerarse como una forma alternativa de expresar la probabilidad, muy similar a las probabilidades o logaritmos de probabilidades , pero que tiene ventajas matemáticas particulares en el contexto de la teoría de la información.

La información de Shannon se puede interpretar como una cuantificación del nivel de "sorpresa" de un resultado en particular. Como es una cantidad tan básica, también aparece en varios otros entornos, como la longitud de un mensaje necesaria para transmitir el evento dada una codificación de origen óptima de la variable aleatoria.

La información de Shannon está estrechamente relacionada con la entropía teórica de la información , que es el valor esperado de la autoinformación de una variable aleatoria, cuantificando cuán sorprendente es la variable aleatoria "en promedio". Esta es la cantidad promedio de autoinformación que un observador esperaría obtener sobre una variable aleatoria al medirla. [1]

El contenido de la información se puede expresar en varias unidades de información , de las cuales la más común es el "bit" (a veces también llamado "shannon"), como se explica a continuación.

Definición [ editar ]

La definición de autoinformación de Claude Shannon fue elegida para cumplir con varios axiomas:

  1. Un evento con una probabilidad del 100% no es nada sorprendente y no proporciona información.
  2. Cuanto menos probable es un evento, más sorprendente es y más información proporciona.
  3. Si dos eventos independientes se miden por separado, la cantidad total de información es la suma de las autoinformaciones de los eventos individuales.

La derivación detallada se encuentra a continuación, pero se puede demostrar que hay una función única de probabilidad que cumple con estos tres axiomas, hasta un factor de escala multiplicativo. En términos generales, dado un evento con probabilidad , el contenido de la información se define de la siguiente manera:

La base del registro no se especifica, lo que corresponde al factor de escala anterior. Las diferentes opciones de base corresponden a diferentes unidades de información: si la base logarítmica es 2, la unidad se denomina " bit " o "shannon" ; si el logaritmo es el logaritmo natural (correspondiente al número de base de Euler e ≈ 2,7182818284), la unidad se llama "nat" , abreviatura de "natural"; y si la base es 10, las unidades se denominan "hartleys" , "dígitos" decimales u ocasionalmente "dits".

Formalmente, dada una variable aleatoria con función de masa de probabilidad , la autoinformación de la medición como resultado se define como

[2]

La entropía de Shannon de la variable aleatoria anterior se define como

por definición igual al contenido de información esperado de la medición de . [3] : 11 [4] : 19-20

El uso de la notación anterior para la autoinformación no es universal. Dado que la notación también se usa a menudo para la cantidad relacionada de información mutua , muchos autores usan minúsculas para la autoentropía en su lugar, reflejando el uso de la capital para la entropía.

Propiedades [ editar ]

Función de probabilidad decreciente monótona [ editar ]

Para un espacio de probabilidad dado , la medición de eventos más raros es intuitivamente más "sorprendente" y produce más contenido de información que los valores más comunes. Por lo tanto, la autoinformación es una función monótona estrictamente decreciente de la probabilidad, o algunas veces llamada función "antitónica".

Mientras que las probabilidades estándar están representadas por números reales en el intervalo , las autoinformaciones están representadas por números reales extendidos en el intervalo . En particular, tenemos lo siguiente, para cualquier elección de base logarítmica:

  • Si un evento en particular tiene un 100% de probabilidad de que ocurra, entonces su autoinformación es : su ocurrencia es "perfectamente no sorprendente" y no proporciona información.
  • Si un evento en particular tiene un 0% de probabilidad de ocurrir, entonces su autoinformación es : su ocurrencia es "infinitamente sorprendente".

De esto, podemos obtener algunas propiedades generales:

  • De manera intuitiva, se obtiene más información al observar un evento inesperado: es "sorprendente".
    • Por ejemplo, si hay una posibilidad entre un millón de que Alice gane la lotería , su amigo Bob obtendrá mucha más información al saber que ella ganó que la que perdió en un día determinado. (Ver también: Matemáticas de lotería ).
  • Esto establece una relación implícita entre la autoinformación de una variable aleatoria y su varianza .

Relación con log-odds [ editar ]

La información de Shannon está estrechamente relacionada con las probabilidades logarítmicas . En particular, dado algún evento , suponga que esa es la probabilidad de que ocurra, y esa es la probabilidad de que no ocurra. Entonces tenemos la siguiente definición de log-odds:

Esto se puede expresar como una diferencia de dos informaciones de Shannon:

En otras palabras, las probabilidades de registro se pueden interpretar como el nivel de sorpresa si el evento "no" ocurre, menos el nivel de sorpresa si el evento "sí" ocurre.

Aditividad de eventos independientes [ editar ]

El contenido de información de dos eventos independientes es la suma del contenido de información de cada evento. Esta propiedad se conoce como aditividad en matemáticas y aditividad sigma en particular en la teoría de medidas y probabilidades. Considere dos variables aleatorias independientes con funciones de masa de probabilidad y respectivamente. La función de masa de probabilidad conjunta es

porque y son independientes . El contenido de información del resultado es

Consulte § Dos dados independientes distribuidos de forma idéntica a continuación para ver un ejemplo.

La propiedad correspondiente para las probabilidades es que la probabilidad logarítmica de eventos independientes es la suma de las probabilidades logarítmicas de cada evento. Al interpretar la probabilidad logarítmica como "apoyo" o sorpresa negativa (el grado en que un evento apoya un modelo dado: un modelo es compatible con un evento en la medida en que el evento no es sorprendente, dado el modelo), esto establece que los eventos independientes agregan apoyo: la información que los dos eventos juntos proporcionan para la inferencia estadística es la suma de su información independiente.

Notas [ editar ]

Esta medida también se ha llamado sorpresa , ya que representa la " sorpresa " de ver el resultado (un resultado altamente improbable es muy sorprendente). Este término (como una medida logarítmica de la probabilidad) fue acuñado por Myron Tribus en su libro de 1961 Thermostatics and Thermodynamics . [5] [6]

Cuando el evento es una realización aleatoria (de una variable), la autoinformación de la variable se define como el valor esperado de la autoinformación de la realización.

La autoinformación es un ejemplo de una regla de puntuación adecuada . [ aclaración necesaria ]

Ejemplos [ editar ]

Lanzamiento de moneda justa [ editar ]

Considere la prueba de Bernoulli de lanzar una moneda justa . Las probabilidades de los eventos de la moneda caiga en cara y cruz (ver moneda al aire y el anverso y el reverso ) son una mitad cada uno, . Al medir la variable como cabezas, la ganancia de información asociada es

por lo que la ganancia de información de una moneda justa que aterriza como cara es 1 shannon . [2] Asimismo, la ganancia de información de las colas de medición es

Tirada justa [ editar ]

Supongamos que tenemos un dado de seis caras justo . El valor de una tirada de dados es una variable aleatoria uniforme discreta con función de masa de probabilidad

La probabilidad de sacar un 4 es , como para cualquier otra tirada válida. Por lo tanto, el contenido de información de sacar un 4 es
de información.

Dos dados independientes distribuidos de forma idéntica [ editar ]

Supongamos que tenemos dos variables aleatorias independientes distribuidas de manera idéntica, cada una de las cuales corresponde a una tirada de dados justa independiente de 6 lados. La distribución conjunta de y es

El contenido de información de la variante aleatoria es

y también se puede calcular mediante § Aditividad de eventos independientes

Información de la frecuencia de los rollos [ editar ]

Si recibimos información sobre el valor de los dados sin saber qué dado tenía qué valor, podemos formalizar el enfoque con las llamadas variables de conteo.

pues , entonces y los recuentos tienen la distribución multinomial

Para verificar esto, los 6 resultados corresponden al evento y una probabilidad total de1/6. Estos son los únicos eventos que se conservan fielmente con la identidad de qué dados se tiraron y qué resultado porque los resultados son los mismos. Sin conocimiento para distinguir los dados tirando los otros números, las otras combinaciones corresponden a un dado tirando un número y el otro dado tirando un número diferente, cada uno con probabilidad 1/18. De hecho, según sea necesario.

Como era de esperar, el contenido de información de saber que ambos dados se lanzaron como el mismo número en particular es más que el contenido de información de saber que un dado era un número y el otro era un número diferente. Tomemos como ejemplos los eventos y para . Por ejemplo, y .

Los contenidos de la información son

Sea el evento de que ambos dados arrojen el mismo valor y sea ​​el evento de que los dados hayan sido diferentes. Entonces y . Los contenidos de información de los eventos son

Información de la suma del dado [ editar ]

La masa de probabilidad o función de densidad ( medida de probabilidad colectiva ) de la suma de dos variables aleatorias independientes es la convolución de cada medida de probabilidad . En el caso de tiradas de dados de 6 caras independientes, la variable aleatoria tiene una función de masa de probabilidad , donde representa la convolución discreta . El resultado tiene probabilidad . Por tanto, la información afirmada es

Distribución uniforme discreta general [ editar ]

Generalizando el ejemplo anterior de tirada justa de dados , considere una variable aleatoria uniforme discreta general (DURV). Por conveniencia, defina . El pmf es

En general, los valores de DURV no necesitan ser números enteros , o para los propósitos de la teoría de la información, incluso espaciados uniformemente; solo necesitan ser equiprobables . [2] La ganancia de información de cualquier observación es

Caso especial: variable aleatoria constante [ editar ]

Si es superior, degenera a una variable aleatoria constante con distribución de probabilidad determinada determinísticamente por y medida de probabilidad la medida de Dirac . El único valor que puede tomar es determinista , por lo que el contenido de información de cualquier medida de es

En general, no se obtiene información al medir un valor conocido. [2]

Distribución categórica [ editar ]

Generalizando todos los casos anteriores, considere una variable aleatoria discreta categórica con apoyo y pmf dado por

A los efectos de la teoría de la información, los valores no tienen por qué ser números ; pueden ser cualquier evento mutuamente excluyente en un espacio de medida de medida finita que se ha normalizado a una medida de probabilidad . Sin pérdida de generalidad , podemos asumir que la distribución categórica se apoya en el conjunto ; la estructura matemática es isomórfica en términos de teoría de la probabilidad y, por tanto, también de la teoría de la información .

La información del resultado se da

A partir de estos ejemplos, es posible calcular la información de cualquier conjunto de DRV independientes con distribuciones conocidas por aditividad .

Relación con la entropía [ editar ]

La entropía es el valor esperado del contenido de información de la variable aleatoria discreta , con la expectativa asumida sobre los valores discretos que toma . A veces, la entropía misma se llama "autoinformación" de la variable aleatoria, posiblemente porque la entropía satisface , donde está la información mutua de consigo misma. [7]

Para las variables aleatorias continuas, el concepto correspondiente es la entropía diferencial .

Derivación [ editar ]

Por definición, la información se transfiere desde una entidad de origen que posee la información a una entidad receptora solo cuando el receptor no conocía la información a priori . Si la entidad receptora había conocido previamente el contenido de un mensaje con certeza antes de recibir el mensaje, la cantidad de información del mensaje recibido es cero. Sólo cuando el conocimiento previo del contenido del mensaje por parte del receptor es menos del 100% seguro, el mensaje transmite realmente información.

Por ejemplo, citando a un personaje (el Hippy Dippy Weatherman) del comediante George Carlin , “Pronóstico del tiempo para esta noche: oscuro. Continuó la oscuridad durante la noche, con luz muy dispersa por la mañana ". [8] Suponiendo que uno no reside cerca de los polos o círculos polares de la Tierra , la cantidad de información transmitida en ese pronóstico es cero porque se sabe, antes de recibir el pronóstico, que la oscuridad siempre viene con la noche.

Por consiguiente, la cantidad de auto-información contenida en un mensaje de transporte contenido informar a una ocurrencia de evento , , sólo depende de la probabilidad de ese evento.

para que alguna función se determine a continuación. Si , entonces . Si , entonces .

Además, por definición, la medida de la autoinformación es aditiva y no negativa. Si un mensaje que informa de un evento es la intersección de dos eventos independientes y , entonces la información del evento que ocurre es la del mensaje compuesto de ambos eventos independientes y que ocurren. Se esperaría que la cantidad de información del mensaje compuesto fuera igual a la suma de las cantidades de información de los mensajes componentes individuales y respectivamente:

.

Debido a la independencia de eventos y , la probabilidad de evento es

.

Sin embargo, la aplicación de la función da como resultado

La clase de función que tiene la propiedad tal que

es la función logarítmica de cualquier base. La única diferencia operativa entre logaritmos de diferentes bases es la de diferentes constantes de escala.

Dado que las probabilidades de eventos están siempre entre 0 y 1 y la información asociada con estos eventos debe ser no negativa, eso requiere .

Teniendo en cuenta estas propiedades, la autoinformación asociada al resultado con probabilidad se define como:

Cuanto menor sea la probabilidad del evento , mayor será la cantidad de autoinformación asociada con el mensaje de que el evento efectivamente ocurrió. Si el logaritmo anterior es base 2, la unidad de es bits . Ésta es la práctica más común. Cuando se usa el logaritmo natural de base , la unidad será el nat . Para el logaritmo de base 10, la unidad de información es Hartley .

Como ilustración rápida, el contenido de información asociado con un resultado de 4 caras (o cualquier resultado específico) en 4 lanzamientos consecutivos de una moneda sería de 4 bits (probabilidad 1/16), y el contenido de información asociado con obtener un resultado diferente a el especificado sería ~ 0.09 bits (probabilidad 15/16). Consulte más arriba para ver ejemplos detallados.

Ver también [ editar ]

  • Entropía
  • Análisis sorpresa

Referencias [ editar ]

  1. ^ Jones, DS, Teoría de la información elemental , Vol., Clarendon Press, Oxford pp 11-15 1979
  2. ↑ a b c d McMahon, David M. (2008). Explicación de la computación cuántica . Hoboken, Nueva Jersey: Wiley-Interscience. ISBN 9780470181386. OCLC  608622533 .
  3. ^ Borda, Monica (2011). Fundamentos en Teoría y Codificación de la Información . Saltador. ISBN 978-3-642-20346-6.
  4. ^ Han, Te Sun y Kobayashi, Kingo (2002). Matemáticas de la información y la codificación . Sociedad Matemática Estadounidense. ISBN 978-0-8218-4256-0.CS1 maint: uses authors parameter (link)
  5. ^ RB Bernstein y RD Levine (1972) "Entropía y cambio químico. I. Caracterización de distribuciones de energía del producto (y reactivo) en colisiones moleculares reactivas: deficiencia de información y entropía", The Journal of Chemical Physics 57 , enlace 434-449.
  6. ^ Myron Tribus (1961) Termodinámica y termostática: una introducción a la energía, la información y los estados de la materia, con aplicaciones de ingeniería (D. Van Nostrand, 24 West 40 Street, Nueva York 18, Nueva York, EE. UU.) Tribus, Myron (1961) , págs. 64-66 tomar prestado .
  7. ^ Cubierta de Thomas M., Joy A. Thomas; Elementos de la teoría de la información; pag. 20; 1991.
  8. ^ "Una cita de George Carlin" . www.goodreads.com . Consultado el 1 de abril de 2021 .

Lectura adicional [ editar ]

  • CE Shannon , una teoría matemática de la comunicación , Bell Systems Technical Journal , vol. 27, págs. 379–423, (Parte I), 1948.

Enlaces externos [ editar ]

  • Ejemplos de medidas de sorpresa
  • Entrada "sorpresa" en un glosario de teoría de la información molecular
  • Teoría bayesiana de la sorpresa