El principio de máxima entropía establece que la distribución de probabilidad que mejor representa el estado actual del conocimiento sobre un sistema es la que tiene la mayor entropía , en el contexto de datos previos expresados con precisión (como una proposición que expresa información comprobable ).
Otra forma de decir esto: tome datos anteriores expresados con precisión o información comprobable sobre una función de distribución de probabilidad. Considere el conjunto de todas las distribuciones de probabilidad de prueba que codificarían los datos anteriores. Según este principio, la distribución con máxima entropía de información es la mejor opción.
Dado que la distribución con la máxima entropía es la que hace menos suposiciones sobre la verdadera distribución de los datos, el principio de máxima entropía puede verse como una aplicación de la navaja de Occam .
Historia
El principio fue expuesto por primera vez por ET Jaynes en dos artículos en 1957 [1] [2] donde enfatizó una correspondencia natural entre la mecánica estadística y la teoría de la información . En particular, Jaynes ofreció un razonamiento nuevo y muy general de por qué funciona el método Gibbsiano de mecánica estadística. Argumentó que la entropía de la mecánica estadística y la entropía de la información de la teoría de la información son básicamente lo mismo. En consecuencia, la mecánica estadística debe verse simplemente como una aplicación particular de una herramienta general de inferencia lógica y teoría de la información.
Descripción general
En la mayoría de los casos prácticos, los datos previos establecidos o la información comprobable viene dada por un conjunto de cantidades conservadas (valores promedio de algunas funciones de momento), asociadas con la distribución de probabilidad en cuestión. Esta es la forma en que el principio de máxima entropía se usa con mayor frecuencia en termodinámica estadística . Otra posibilidad es prescribir algunas simetrías de la distribución de probabilidad. La equivalencia entre las cantidades conservadas y los grupos de simetría correspondientes implica una equivalencia similar para estas dos formas de especificar la información comprobable en el método de máxima entropía.
El principio de máxima entropía también es necesario para garantizar la unicidad y consistencia de las asignaciones de probabilidad obtenidas por diferentes métodos, mecánica estadística e inferencia lógica en particular.
El principio de máxima entropía hace explícita nuestra libertad al utilizar diferentes formas de datos previos . Como caso especial , se puede adoptar una densidad de probabilidad previa uniforme (el principio de indiferencia de Laplace , a veces llamado principio de razón insuficiente). Por lo tanto, el principio de máxima entropía no es simplemente una forma alternativa de ver los métodos habituales de inferencia de la estadística clásica, sino que representa una generalización conceptual significativa de esos métodos.
Sin embargo, estas afirmaciones no implican que no sea necesario demostrar que los sistemas termodinámicos sean ergódicos para justificar el tratamiento como conjunto estadístico .
En lenguaje corriente, se puede decir que el principio de máxima entropía expresa una afirmación de modestia epistémica o de máxima ignorancia. La distribución seleccionada es la que menos reclama estar informada más allá de los datos previos indicados, es decir, la que admite mayor desconocimiento más allá de los datos previos indicados.
Información comprobable
El principio de máxima entropía es útil explícitamente solo cuando se aplica a información comprobable . La información comprobable es una declaración sobre una distribución de probabilidad cuya verdad o falsedad está bien definida. Por ejemplo, las declaraciones
- la expectativa de la variable es 2,87
y
(dónde y son probabilidades de eventos) son declaraciones de información comprobable.
Dada la información comprobable, el procedimiento de máxima entropía consiste en buscar la distribución de probabilidad que maximiza la entropía de la información , sujeta a las limitaciones de la información. Este problema de optimización restringida generalmente se resuelve utilizando el método de los multiplicadores de Lagrange .
La maximización de la entropía sin información comprobable respeta la "restricción" universal de que la suma de las probabilidades es una. Bajo esta restricción, la distribución de probabilidad discreta de máxima entropía es la distribución uniforme ,
Aplicaciones
El principio de máxima entropía se aplica comúnmente de dos formas a los problemas inferenciales:
Probabilidades previas
El principio de entropía máxima se utiliza a menudo para obtener distribuciones de probabilidad previas para la inferencia bayesiana . Jaynes fue un firme defensor de este enfoque, afirmando que la distribución máxima de entropía representaba la distribución menos informativa. [3] Actualmente se dedica una gran cantidad de literatura a la obtención de la máxima entropía previa y los vínculos con la codificación de canales . [4] [5] [6] [7]
Probabilidades posteriores
La entropía máxima es una regla de actualización suficiente para el probabilismo radical . La cinemática de probabilidad de Richard Jeffrey es un caso especial de inferencia de máxima entropía. Sin embargo, la entropía máxima no es una generalización de todas esas reglas de actualización suficientes. [8]
Modelos de máxima entropía
Alternativamente, el principio se invoca a menudo para la especificación del modelo: en este caso, se supone que los datos observados son la información comprobable. Estos modelos se utilizan ampliamente en el procesamiento del lenguaje natural . Un ejemplo de tal modelo es la regresión logística , que corresponde al clasificador de máxima entropía para observaciones independientes.
Estimación de densidad de probabilidad
Una de las principales aplicaciones del principio de máxima entropía es la estimación de densidad discreta y continua . [9] [10] Similar a los estimadores de máquinas vectoriales de soporte , el principio de máxima entropía puede requerir la solución a un problema de programación cuadrática y, por lo tanto, proporcionar un modelo de mezcla dispersa como estimador de densidad óptimo. Una ventaja importante del método es su capacidad para incorporar información previa en la estimación de densidad. [11]
Solución general para la distribución máxima de entropía con restricciones lineales.
Caso discreto
Tenemos información comprobable I sobre una cantidad x que toma valores en { x 1 , x 2 , ..., x n }. Suponemos que esta información tiene la forma de m restricciones sobre las expectativas de las funciones f k ; es decir, requerimos que nuestra distribución de probabilidad satisfaga las restricciones de desigualdad / igualdad de momento:
donde el son observables. También requerimos que la densidad de probabilidad sume a uno, que puede verse como una restricción primitiva en la función de identidad y un observable igual a 1 que da la restricción
La distribución de probabilidad con máxima entropía de información sujeta a estas restricciones de desigualdad / igualdad es de la forma: [9]
para algunos . A veces se denomina distribución de Gibbs . La constante de normalización está determinada por:
y se denomina convencionalmente función de partición . (El teorema de Pitman-Koopman establece que la condición necesaria y suficiente para que una distribución de muestreo admita estadísticas suficientes de dimensión acotada es que tenga la forma general de una distribución de entropía máxima).
Los parámetros λ k son multiplicadores de Lagrange. En el caso de restricciones de igualdad, sus valores se determinan a partir de la solución de ecuaciones no lineales.
En el caso de restricciones de desigualdad, los multiplicadores de Lagrange se determinan a partir de la solución de un programa de optimización convexa con restricciones lineales. [9] En ambos casos, no existe una solución de forma cerrada , y el cálculo de los multiplicadores de Lagrange generalmente requiere métodos numéricos .
Caso continuo
Para distribuciones continuas , la entropía de Shannon no se puede utilizar, ya que solo se define para espacios de probabilidad discretos. En cambio, Edwin Jaynes (1963, 1968, 2003) dio la siguiente fórmula, que está estrechamente relacionada con la entropía relativa (ver también entropía diferencial ).
donde q ( x ), que Jaynes llamó la "medida invariante", es proporcional a la densidad límite de puntos discretos . Por ahora, asumiremos que se conoce q ; lo discutiremos más a fondo después de dar las ecuaciones de solución.
Una cantidad estrechamente relacionada, la entropía relativa, generalmente se define como la divergencia Kullback-Leibler de p de q (aunque a veces, de manera confusa, se define como el negativo de esto). El principio de inferencia de minimizar esto, debido a Kullback, se conoce como el principio de información mínima sobre discriminación .
Tenemos alguna información comprobable I sobre una cantidad x que toma valores en algún intervalo de los números reales (todas las integrales a continuación están sobre este intervalo). Suponemos que esta información tiene la forma de m restricciones sobre las expectativas de las funciones f k , es decir, requerimos que nuestra función de densidad de probabilidad satisfaga las restricciones de momento de desigualdad (o puramente igualdad):
donde el son observables. También requerimos que la densidad de probabilidad se integre a uno, que puede verse como una restricción primitiva en la función de identidad y un observable igual a 1 que da la restricción
La función de densidad de probabilidad con H c máximo sujeta a estas restricciones es: [10]
con la función de partición determinada por
Como en el caso discreto, en el caso donde todas las restricciones de momento son iguales, los valores de la Los parámetros están determinados por el sistema de ecuaciones no lineales:
En el caso de restricciones de momento de desigualdad, los multiplicadores de Lagrange se determinan a partir de la solución de un programa de optimización convexa . [10]
La función de medida invariante q ( x ) puede entenderse mejor suponiendo que se sabe que x toma valores solo en el intervalo acotado ( a , b ) y que no se proporciona ninguna otra información. Entonces la función de densidad de probabilidad de entropía máxima es
donde A es una constante de normalización. La función de medida invariante es en realidad la función de densidad previa que codifica la "falta de información relevante". No puede ser determinado por el principio de máxima entropía, y debe ser determinado por algún otro método lógico, como el principio de los grupos de transformación o la teoría de la marginación .
Ejemplos de
Para ver varios ejemplos de distribuciones de máxima entropía, consulte el artículo sobre distribuciones de máxima probabilidad de entropía .
Justificaciones del principio de máxima entropía
Los defensores del principio de máxima entropía justifican su uso para asignar probabilidades de varias formas, incluidos los dos argumentos siguientes. Estos argumentos dan por sentado el uso de la probabilidad bayesiana y, por tanto, están sujetos a los mismos postulados.
La entropía de la información como medida de la 'falta de información'
Considere una distribución de probabilidad discreta entreproposiciones mutuamente excluyentes . La distribución más informativa se produciría cuando se supiera que una de las proposiciones es verdadera. En ese caso, la entropía de la información sería igual a cero. La distribución menos informativa ocurriría cuando no hay razón para favorecer una de las proposiciones sobre las otras. En ese caso, la única distribución de probabilidad razonable sería uniforme, y entonces la entropía de la información sería igual a su valor máximo posible,. Por lo tanto, la entropía de la información puede verse como una medida numérica que describe cuán poco informativa es una distribución de probabilidad particular, que va desde cero (completamente informativo) hasta (completamente desinformativo).
Al elegir usar la distribución con la máxima entropía permitida por nuestra información, continúa el argumento, estamos eligiendo la distribución menos informativa posible. Elegir una distribución con menor entropía sería asumir información que no poseemos. Por tanto, la distribución máxima de entropía es la única distribución razonable. La dependencia de la solución de la medida dominante representada porSin embargo, es una fuente de críticas al enfoque, ya que esta medida dominante es de hecho arbitraria. [12]
La derivación de Wallis
El siguiente argumento es el resultado de una sugerencia hecha por Graham Wallis a ET Jaynes en 1962. [13] Es esencialmente el mismo argumento matemático usado para las estadísticas de Maxwell-Boltzmann en mecánica estadística , aunque el énfasis conceptual es bastante diferente. Tiene la ventaja de ser de naturaleza estrictamente combinatoria, sin hacer referencia a la entropía de la información como una medida de "incertidumbre", "falta de información" o cualquier otro concepto definido de manera imprecisa. La función de entropía de la información no se asume a priori , sino que se encuentra en el curso del argumento; y el argumento conduce naturalmente al procedimiento de maximizar la entropía de la información, en lugar de tratarla de otra manera.
Suponga que un individuo desea realizar una asignación de probabilidad entre proposiciones mutuamente excluyentes . Tiene información comprobable, pero no está seguro de cómo incluir esta información en su evaluación de probabilidad. Por tanto, concibe el siguiente experimento aleatorio. Él distribuirá cuantos de probabilidad (cada valor ) al azar entre los posibilidades. (Uno podría imaginar que lanzará bolas en cubos con los ojos vendados. Para ser lo más justo posible, cada lanzamiento debe ser independiente de cualquier otro, y cada cubo debe ser del mismo tamaño). Una vez realizado el experimento, comprobará si la asignación de probabilidad así obtenida es coherente con su información. . (Para que este paso sea exitoso, la información debe ser una restricción dada por un conjunto abierto en el espacio de medidas de probabilidad). Si es inconsistente, lo rechazará y volverá a intentarlo. Si es consistente, su evaluación será
dónde es la probabilidad de º proposición, mientras que n i es el número de quanta que fueron asignados a lala proposición (es decir, el número de bolas que terminaron en el cubo).
Ahora, para reducir la "granulosidad" de la asignación de probabilidad, será necesario utilizar una gran cantidad de cuantos de probabilidad. En lugar de llevar a cabo realmente, y posiblemente tener que repetir, el experimento aleatorio bastante largo, el protagonista decide simplemente calcular y usar el resultado más probable. La probabilidad de cualquier resultado en particular es la distribución multinomial ,
dónde
a veces se conoce como la multiplicidad del resultado.
El resultado más probable es el que maximiza la multiplicidad . En lugar de maximizar directamente, el protagonista podría maximizar de manera equivalente cualquier función creciente monótona de . Él decide maximizar
En este punto, para simplificar la expresión, el protagonista toma el límite como , es decir, a medida que los niveles de probabilidad van de valores discretos granulosos a valores continuos suaves. Usando la aproximación de Stirling , encuentra
Todo lo que le queda por hacer al protagonista es maximizar la entropía bajo las limitaciones de su información comprobable. Ha descubierto que la distribución máxima de entropía es la más probable de todas las distribuciones aleatorias "justas", en el límite cuando los niveles de probabilidad van de discretos a continuos.
Compatibilidad con el teorema de Bayes
Giffin y Caticha (2007) afirman que el teorema de Bayes y el principio de máxima entropía son completamente compatibles y pueden verse como casos especiales del "método de máxima entropía relativa". Afirman que este método reproduce todos los aspectos de los métodos de inferencia bayesianos ortodoxos. Además, este nuevo método abre la puerta para abordar problemas que no podrían abordarse ni con el principio de entropía máxima ni con los métodos bayesianos ortodoxos de forma individual. Además, contribuciones recientes (Lazar 2003 y Schennach 2005) muestran que los enfoques frecuentistas de inferencia basados en la entropía relativa (como la probabilidad empírica y la probabilidad empírica inclinada exponencialmente , ver, por ejemplo, Owen 2001 y Kitamura 2006) se pueden combinar con información previa para realizar resultados bayesianos. análisis posterior.
Jaynes afirmó que el teorema de Bayes era una forma de calcular una probabilidad, mientras que la entropía máxima era una forma de asignar una distribución de probabilidad previa. [14]
Sin embargo, es posible en concepto resolver una distribución posterior directamente a partir de una distribución anterior declarada utilizando el principio de entropía cruzada mínima (o el principio de entropía máxima es un caso especial de utilizar una distribución uniforme como la anterior dada), independientemente de cualquier consideración bayesiana al tratar el problema formalmente como un problema de optimización constreñido, siendo la función Entropía la función objetivo. Para el caso de valores promedio dados como información comprobable (promediada sobre la distribución de probabilidad buscada), la distribución buscada es formalmente la distribución de Gibbs (o Boltzmann) cuyos parámetros deben resolverse para lograr una entropía cruzada mínima y satisfacer la información comprobable dada.
Relevancia para la física
El principio de máxima entropía guarda relación con una suposición clave de la teoría cinética de los gases conocida como caos molecular o Stosszahlansatz . Esto afirma que se puede factorizar la función de distribución que caracteriza a las partículas que entran en una colisión. Aunque esta afirmación puede entenderse como una hipótesis estrictamente física, también puede interpretarse como una hipótesis heurística sobre la configuración más probable de las partículas antes de colisionar. [15]
Ver también
- Criterio de información de Akaike
- Disipación
- Métricas de información
- Clasificador de máxima entropía
- Distribución de probabilidad de entropía máxima
- Estimación espectral de entropía máxima
- Termodinámica de máxima entropía
- Principio de máximo calibre
- Equilibrio termodinámico
- Caos molecular
Notas
- ^ Jaynes, ET (1957). "Teoría de la información y mecánica estadística" (PDF) . Revisión física . Serie II. 106 (4): 620–630. Código Bibliográfico : 1957PhRv..106..620J . doi : 10.1103 / PhysRev.106.620 . Señor 0087305 .
- ^ Jaynes, ET (1957). "Teoría de la información y mecánica estadística II" (PDF) . Revisión física . Serie II. 108 (2): 171-190. Código bibliográfico : 1957PhRv..108..171J . doi : 10.1103 / PhysRev.108.171 . Señor 0096414 .
- ^ Jaynes, ET (1968). "Probabilidades previas" (PDF o PostScript ) . Transacciones IEEE sobre ciencia de sistemas y cibernética . 4 (3): 227–241. doi : 10.1109 / TSSC.1968.300117 .
- ^ Clarke, B. (2006). "Optimidad de la información y modelado bayesiano". Revista de Econometría . 138 (2): 405–429. doi : 10.1016 / j.jeconom.2006.05.003 .
- ^ Soofi, ES (2000). "Enfoques teóricos de la información principal". Revista de la Asociación Estadounidense de Estadística . 95 (452): 1349-1353. doi : 10.2307 / 2669786 . JSTOR 2669786 . Señor 1825292 .
- ^ Bousquet, N. (2008). "Obtener a priori de entropía máxima vagos pero adecuados en experimentos bayesianos". Papeles estadísticos . 51 (3): 613–628. doi : 10.1007 / s00362-008-0149-9 .
- ^ Palmieri, Francesco AN; Ciuonzo, Domenico (1 de abril de 2013). "A priori objetivos de máxima entropía en la clasificación de datos". Fusión de información . 14 (2): 186-198. CiteSeerX 10.1.1.387.4515 . doi : 10.1016 / j.inffus.2012.01.012 .
- ^ Skyrms, B (1987). "Actualización, suposición y MAXENT". Teoría y Decisión . 22 (3): 225–46. doi : 10.1007 / BF00134086 .
- ^ a b c Botev, ZI; Kroese, DP (2008). "Selección de ancho de banda no asintótica para estimación de densidad de datos discretos". Metodología y Computación en Probabilidad Aplicada . 10 (3): 435. doi : 10.1007 / s11009-007-9057-z .
- ^ a b c Botev, ZI; Kroese, DP (2011). "El método de la entropía cruzada generalizada, con aplicaciones a la estimación de la densidad de probabilidad" (PDF) . Metodología y Computación en Probabilidad Aplicada . 13 (1): 1–27. doi : 10.1007 / s11009-009-9133-7 .
- ^ Kesavan, HK; Kapur, JN (1990). "Principios de máxima entropía y mínima entropía cruzada". En Fougère, PF (ed.). Entropía máxima y métodos bayesianos . págs. 419 –432. doi : 10.1007 / 978-94-009-0683-9_29 . ISBN 978-94-010-6792-8.
- ^ Druilhet, Pierre; Marin, Jean-Michel (2007). "Conjuntos creíbles {HPD} invariantes y estimadores {MAP}" . Anal Bayesiano . 2 : 681–691. doi : 10.1214 / 07-BA227 .
- ^ Jaynes, ET (2003) Teoría de la probabilidad: La lógica de la ciencia , Cambridge University Press, p. 351-355. ISBN 978-0521592710
- ^ Jaynes, ET (1988) "La relación de los métodos bayesianos y de máxima entropía" , en Métodos bayesianos y de máxima entropía en ciencia e ingeniería (Vol. 1) , Kluwer Academic Publishers, p. 25-29.
- ^ Chliamovitch, G .; Malaspinas, O .; Chopard, B. (2017). "Teoría cinética más allá del Stosszahlansatz" . Entropía . 19 (8): 381. Bibcode : 2017Entrp..19..381C . doi : 10.3390 / e19080381 .
Referencias
- Bajkova, AT (1992). "La generalización del método de máxima entropía para la reconstrucción de funciones complejas". Transacciones astronómicas y astrofísicas . 1 (4): 313–320. Código Bibliográfico : 1992A y AT .... 1..313B . doi : 10.1080 / 10556799208230532 .
- Fornalski, KW; Parzych, G .; Pylak, M .; Satuła, D .; Dobrzyński, L. (2010). "Aplicación del razonamiento bayesiano y el método de máxima entropía a algunos problemas de reconstrucción" (PDF) . Acta Physica Polonica A . 117 (6): 892–899. doi : 10.12693 / APhysPolA.117.892 .
- Giffin, A. y Caticha, A., 2007, Actualización de probabilidades con datos y momentos
- Guiasu, S .; Shenitzer, A. (1985). "El principio de máxima entropía". El inteligente matemático . 7 (1): 42–48. doi : 10.1007 / bf03023004 .
- Harremoës, P .; Topsøe (2001). "Fundamentos de máxima entropía" . Entropía . 3 (3): 191–226. Código Bibliográfico : 2001Entrp ... 3..191H . doi : 10.3390 / e3030191 .
- Jaynes, ET (1963). "Teoría de la información y mecánica estadística" . En Ford, K. (ed.). Física estadística . Nueva York: Benjamin. pag. 181.
- Jaynes, ET, 1986 (nueva versión en línea 1996), " Monos, canguros y N ", en Métodos Bayesianos y de Entropía Máxima en Estadística Aplicada , JH Justice (ed.), Cambridge University Press, Cambridge, p. 26.
- Kapur, JN; y Kesavan, HK , 1992, Principios de optimización de entropía con aplicaciones , Boston: Academic Press. ISBN 0-12-397670-7
- Kitamura, Y., 2006, Métodos de probabilidad empírica en econometría: teoría y práctica , Documentos de debate de la Fundación Cowles 1569, Fundación Cowles, Universidad de Yale.
- Lazar, N (2003). "Probabilidad empírica bayesiana". Biometrika . 90 (2): 319–326. doi : 10.1093 / biomet / 90.2.319 .
- Owen, AB, 2001, Empirical Likelihood , Chapman y Hall / CRC. ISBN 1-58-488071-6 .
- Schennach, SM (2005). "Probabilidad empírica inclinada exponencialmente bayesiana". Biometrika . 92 (1): 31–46. doi : 10.1093 / biomet / 92.1.31 .
- Uffink, Jos (1995). "¿Se puede explicar el principio de máxima entropía como un requisito de coherencia?" (PDF) . Estudios de Historia y Filosofía de la Física Moderna . 26B (3): 223–261. CiteSeerX 10.1.1.27.6392 . doi : 10.1016 / 1355-2198 (95) 00015-1 . Archivado desde el original (PDF) el 2006-06-03.
Otras lecturas
- Boyd, Stephen; Lieven Vandenberghe (2004). Optimización convexa (PDF) . Prensa de la Universidad de Cambridge . pag. 362. ISBN 0-521-83378-7. Consultado el 24 de agosto de 2008 .
- Ratnaparkhi A. (1997) "Una simple introducción a los modelos de máxima entropía para el procesamiento del lenguaje natural" Informe técnico 97-08, Instituto de Investigación en Ciencias Cognitivas, Universidad de Pensilvania. Una introducción fácil de leer a los métodos de máxima entropía en el contexto del procesamiento del lenguaje natural.
- Tang, A .; Jackson, D .; Hobbs, J .; Chen, W .; Smith, JL; Patel, H .; Prieto, A .; Petrusca, D .; Grivich, MI; Sher, A .; Hottowy, P .; Dabrowski, W .; Litke, AM; Beggs, JM (2008). "Un modelo de máxima entropía aplicado a correlaciones espaciales y temporales de redes corticales in vitro" . Revista de neurociencia . 28 (2): 505–518. doi : 10.1523 / JNEUROSCI.3359-07.2008 . PMID 18184793 . Artículo de acceso abierto que contiene sugerencias a varios artículos e implementaciones de software del modelo de máxima entropía en la red.