Teorema de cox

El teorema de Cox , que lleva el nombre del físico Richard Threlkeld Cox , es una derivación de las leyes de la teoría de la probabilidad a partir de un cierto conjunto de postulados . Esta derivación justifica la llamada interpretación "lógica" de la probabilidad, ya que las leyes de la probabilidad derivadas del teorema de Cox son aplicables a cualquier proposición. La probabilidad lógica (también conocida como probabilidad bayesiana objetiva) es un tipo de probabilidad bayesiana . Otras formas de bayesianismo, como la interpretación subjetiva, reciben otras justificaciones.

Supuestos de Cox

Cox quería que su sistema cumpliera las siguientes condiciones:

Divisibilidad y comparabilidad: la plausibilidad de una proposición es un número real y depende de la información que tengamos relacionada con la proposición.
Sentido común: las plausibilidades deben variar sensiblemente con la evaluación de las plausibilidades en el modelo.
Coherencia: si la plausibilidad de una proposición puede derivarse de muchas formas, todos los resultados deben ser iguales.

Los postulados que se indican aquí están tomados de Arnborg y Sjödin. ^[1]^[2]^{[3] El} " sentido común " incluye la coherencia con la lógica aristotélica en el sentido de que las proposiciones lógicamente equivalentes deben tener la misma plausibilidad.

Los postulados, tal como los estableció originalmente Cox, no eran matemáticamente rigurosos (aunque eran mejores que la descripción informal anterior), por ejemplo, como señaló Halpern . ^[4]^[5] Sin embargo, parece ser posible aumentarlos con varios supuestos matemáticos hechos implícita o explícitamente por Cox para producir una prueba válida.

Notación de Cox:

La plausibilidad de una proposición

{\ Displaystyle A}

dada alguna información relacionada

{\ Displaystyle X}

se denota por

{\ Displaystyle A \ mid X}

.

Los postulados y ecuaciones funcionales de Cox son:

La plausibilidad de la conjunción ${\ Displaystyle AB}$ de dos proposiciones ${\ Displaystyle A}$ , ${\ Displaystyle B}$ , dada alguna información relacionada ${\ Displaystyle X}$ , está determinada por la plausibilidad de ${\ Displaystyle A}$ dado ${\ Displaystyle X}$ y el de ${\ Displaystyle B}$ dado ${\ Displaystyle AX}$ .

En forma de ecuación funcional

{\ Displaystyle AB \ mid X = g (A \ mid X, B \ mid AX)}

Debido a la naturaleza asociativa de la conjunción en la lógica proposicional, la consistencia con la lógica da una ecuación funcional que dice que la función

{\ Displaystyle g}

es una operación binaria asociativa .

Además, Cox postula la función ${\ Displaystyle g}$ ser monótono .

Todas las operaciones binarias asociativas estrictamente crecientes sobre los números reales son isomorfas a la multiplicación de números en un subintervalo de

[0, + \infty]

, lo que significa que hay una función monótona

{\ Displaystyle w}

mapeo de plausibilidades a

[0, + \infty]

tal que

{\ Displaystyle w (AB \ mid X) = w (A \ mid X) w (B \ mid AX)}

En caso ${\ Displaystyle A}$ dado ${\ Displaystyle X}$ es cierto, tenemos ${\ Displaystyle AB \ mid X = B \ mid X}$ y ${\ Displaystyle A \ mid BX = A \ mid X}$ debido a la exigencia de coherencia. La ecuación general conduce entonces a

{\ Displaystyle w (B \ mid X) = w (A \ mid X) w (B \ mid X)}

Esto será válido para cualquier propuesta.

{\ Displaystyle B}

, lo que lleva a

{\ Displaystyle w (A \ mid X) = 1}

En caso ${\ Displaystyle A}$ dado ${\ Displaystyle X}$ es imposible, tenemos ${\ Displaystyle AB \ mid X = A \ mid X}$ y ${\ Displaystyle A \ mid BX = A \ mid X}$ debido a la exigencia de coherencia. La ecuación general conduce entonces a

{\ Displaystyle w (A \ mid X) = w (A \ mid X) w (B \ mid X)}

Esto será válido para cualquier propuesta.

{\ Displaystyle B}

, que, sin pérdida de generalidad, conduce a una solución

{\ Displaystyle w (A \ mid X) = 0}

Debido al requisito de monotonicidad, esto significa que

{\ Displaystyle w}

asigna plausibilidades al intervalo

[0, 1]

.

La plausibilidad de una proposición determina la plausibilidad de la negación de la proposición .

Esto postula la existencia de una función

{\ Displaystyle f}

tal que

{\ Displaystyle w ({\ text {not}} A \ mid X) = f (w (A \ mid X))}

Debido a que "un doble negativo es afirmativo", la coherencia con la lógica da una ecuación funcional

{\ Displaystyle f (f (x)) = x,}

diciendo que la función

{\ Displaystyle f}

es una involución , es decir, es su propia inversa.

Además, Cox postula la función ${\ Displaystyle f}$ ser monótono.

Las ecuaciones funcionales anteriores y la coherencia con la lógica implican que

{\ Displaystyle w (AB \ mid X) = w (A \ mid X) f (w ({\ text {not}} B \ mid AX)) = w (A \ mid X) f \ left ({w ( A {\ text {not}} B \ mid X) \ over w (A \ mid X)} \ right)}

Desde

{\ Displaystyle AB}

es lógicamente equivalente a

{\ Displaystyle BA}

, también obtenemos

{\ Displaystyle w (A \ mid X) f \ left ({w (A {\ text {not}} B \ mid X) \ sobre w (A \ mid X)} \ right) = w (B \ mid X ) f \ left ({w (B {\ text {not}} A \ mid X) \ over w (B \ mid X)} \ right)}

Si, en particular,

{\ Displaystyle B = {\ text {not}} (AD)}

, Después también

{\ Displaystyle A {\ text {not}} B = {\ text {not}} B}

y

{\ Displaystyle B {\ text {not}} A = {\ text {not}} A}

y obtenemos

{\ Displaystyle w (A {\ text {not}} B \ mid X) = w ({\ text {not}} B \ mid X) = f (w (B \ mid X))}

y

{\ Displaystyle w (B {\ text {not}} A \ mid X) = w ({\ text {not}} A \ mid X) = f (w (A \ mid X))}

Abreviando

{\ Displaystyle w (A \ mid X) = x}

y

{\ Displaystyle w (B \ mid X) = y}

obtenemos la ecuación funcional

{\ Displaystyle x \, f \ left ({f (y) \ over x} \ right) = y \, f \ left ({f (x) \ over y} \ right)}

Implicaciones de los postulados de Cox

Las leyes de probabilidad que se derivan de estos postulados son las siguientes. ^[6] Deja ${\ Displaystyle A \ mid B}$ ser la plausibilidad de la proposición ${\ Displaystyle A}$ dado ${\ Displaystyle B}$ satisfaciendo los postulados de Cox. Entonces hay una función ${\ Displaystyle w}$ mapeo de plausibilidades al intervalo [0,1] y un número positivo ${\ Displaystyle m}$ tal que

La certeza está representada por ${\ Displaystyle w (A \ mid B) = 1.}$
${\ Displaystyle w ^ {m} (A | B) + w ^ {m} ({\ text {not}} A \ mid B) = 1.}$
${\ Displaystyle w (AB \ mid C) = w (A \ mid C) w (B \ mid AC) = w (B \ mid C) w (A \ mid BC).}$

Es importante notar que los postulados implican solo estas propiedades generales. Podemos recuperar las leyes habituales de probabilidad estableciendo una nueva función, denotada convencionalmente ${\ Displaystyle P}$ o ${\ Displaystyle \ Pr}$ , igual a ${\ Displaystyle w ^ {m}}$ . Luego obtenemos las leyes de la probabilidad en una forma más familiar:

Cierta verdad está representada por ${\ Displaystyle \ Pr (A \ mid B) = 1}$ , y cierta falsedad por ${\ Displaystyle \ Pr (A \ mid B) = 0.}$
${\ Displaystyle \ Pr (A \ mid B) + \ Pr ({\ text {not}} A \ mid B) = 1.}$
${\ Displaystyle \ Pr (AB \ mid C) = \ Pr (A \ mid C) \ Pr (B \ mid AC) = \ Pr (B \ mid C) \ Pr (A \ mid BC).}$

La regla 2 es una regla para la negación y la regla 3 es una regla para la conjunción. Dado que cualquier proposición que contenga conjunción, disyunción y negación se puede reformular de manera equivalente usando solo la conjunción y la negación (la forma normal conjuntiva ), ahora podemos manejar cualquier proposición compuesta.

Las leyes así derivadas producen una aditividad finita de probabilidad, pero no una aditividad contable . La formulación de la teoría de medidas de Kolmogorov supone que una medida de probabilidad es contablemente aditiva. Esta condición ligeramente más fuerte es necesaria para la demostración de ciertos teoremas. ^{[ cita requerida ]}

Interpretación y discusión adicional

El teorema de Cox se ha llegado a utilizar como una de las justificaciones para el uso de la teoría de la probabilidad bayesiana . Por ejemplo, en Jaynes ^[6] se analiza en detalle en los capítulos 1 y 2 y es la piedra angular del resto del libro. La probabilidad se interpreta como un sistema formal de lógica , la extensión natural de la lógica aristotélica (en la que todo enunciado es verdadero o falso) en el ámbito del razonamiento en presencia de incertidumbre.

Se ha debatido hasta qué punto el teorema excluye modelos alternativos para razonar sobre la incertidumbre . Por ejemplo, si se descartaran ciertos supuestos matemáticos "poco intuitivos", se podrían idear alternativas, por ejemplo, un ejemplo proporcionado por Halpern. ^[4] Sin embargo, Arnborg y Sjödin ^[1]^[2]^[3] sugieren postulados adicionales de "sentido común", lo que permitiría relajar las suposiciones en algunos casos sin dejar de descartar el ejemplo de Halpern. Hardy ^[7] o Dupré y Tipler idearon otros enfoques . ^[8]

La formulación original del teorema de Cox se encuentra en Cox (1946) , que se amplía con resultados adicionales y más discusión en Cox (1961) . Jaynes ^[6] cita a Abel ^[9] por el primer uso conocido de la ecuación funcional de asociatividad. János Aczél ^[10] proporciona una prueba extensa de la "ecuación de asociatividad" (páginas 256-267). Jaynes ^[6]^{: 27} reproduce la prueba más corta de Cox en la que se supone la diferenciabilidad. Una guía del teorema de Cox de Van Horn tiene como objetivo presentar al lector de manera integral todas estas referencias. ^[11]

Ver también

Referencias

^ a b Stefan Arnborg y Gunnar Sjödin, Sobre los cimientos del bayesianismo, Preprint: Nada, KTH (1999) - ftp://ftp.nada.kth.se/pub/documents/Theory/Stefan-Arnborg/06arnborg.ps - ftp://ftp.nada.kth.se/pub/documents/Theory/Stefan-Arnborg/06arnborg.pdf
↑ a b Stefan Arnborg y Gunnar Sjödin, Una nota sobre los fundamentos del bayesianismo, Preprint: Nada, KTH (2000a) - ftp://ftp.nada.kth.se/pub/documents/Theory/Stefan-Arnborg/fobshle. ps - ftp://ftp.nada.kth.se/pub/documents/Theory/Stefan-Arnborg/fobshle.pdf
^ a b Stefan Arnborg y Gunnar Sjödin, "Bayes rules in finite models", en European Conference on Artificial Intelligence, Berlín, (2000b) - ftp://ftp.nada.kth.se/pub/documents/Theory/Stefan- Arnborg / fobc1.ps - ftp://ftp.nada.kth.se/pub/documents/Theory/Stefan-Arnborg/fobc1.pdf
^ a b Joseph Y. Halpern, "Un contraejemplo de los teoremas de Cox y Fine", Journal of AI research, 10, 67-85 (1999) - http://www.jair.org/media/536/live-536 -2054-jair.ps.Z Archivado el 25 de noviembre de 2015 en la Wayback Machine.
^ Joseph Y. Halpern, "Apéndice técnico, teorema de Cox revisado", Journal of AI research, 11, 429-435 (1999) - http://www.jair.org/media/644/live-644-1840-jair .ps.Z Archivado el 25 de noviembre de 2015 en la Wayback Machine.
^ a b c d Edwin Thompson Jaynes , Teoría de la probabilidad: la lógica de la ciencia, Cambridge University Press (2003). - versión preimpresa (1996) en "Copia archivada" . Archivado desde el original el 19 de enero de 2016 . Consultado el 19 de enero de 2016 .CS1 maint: copia archivada como título ( enlace ); Capítulos 1 a 3 de la versión publicada en http://bayes.wustl.edu/etj/prob/book.pdf
^ Michael Hardy, "Álgebras booleanas escaladas", Avances en matemáticas aplicadas , agosto de 2002, páginas 243-292 (o preimpresión ); Hardy ha dicho: "Afirmo allí que creo que las suposiciones de Cox son demasiado fuertes, aunque realmente no digo por qué. Sí digo con qué las reemplazaría". (La cita es de una página de discusión de Wikipedia, no del artículo).
^ Dupré, Maurice J. y Tipler, Frank J. (2009). "Nuevos axiomas para la probabilidad bayesiana rigurosa" , análisis bayesiano , 4 (3): 599-606.
^ Niels Henrik Abel "Untersuchung der Functionen zweier unabhängig veränderlichen Gröszen x und y , wie f ( x , y ), welche die Eigenschaft haben, dasz f [ z , f ( x , y )] eine symmetrische Function von z , x und y ist. ", Jour. Reine u. angew. Matemáticas. (Diario de Crelle), 1, 11-15, (1826).
^ János Aczél , Conferencias sobre ecuaciones funcionales y sus aplicaciones, Academic Press, Nueva York, (1966).
^ Van Horn, KS (2003). "Construcción de una lógica de inferencia plausible: una guía para el teorema de Cox". Revista Internacional de Razonamiento Aproximado . 34 : 3-24. doi : 10.1016 / S0888-613X (03) 00051-3 .

Cox, RT (1946). "Probabilidad, frecuencia y expectativa razonable". Revista estadounidense de física . 14 : 1-10. doi : 10.1119 / 1.1990764 .
Cox, RT (1961). El álgebra de la inferencia probable . Baltimore, MD: Prensa de la Universidad Johns Hopkins.
Terrence L. Fine , Teorías de la probabilidad; Un examen de fundaciones, Academic Press, Nueva York, (1973).

[AS1999-1] Stefan Arnborg y Gunnar Sjödin, Sobre los cimientos del bayesianismo, Preprint: Nada, KTH (1999) - ftp://ftp.nada.kth.se/pub/documents/Theory/Stefan-Arnborg/06arnborg.ps - ftp://ftp.nada.kth.se/pub/documents/Theory/Stefan-Arnborg/06arnborg.pdf

[AS2000a-2] Stefan Arnborg y Gunnar Sjödin, Una nota sobre los fundamentos del bayesianismo, Preprint: Nada, KTH (2000a) - ftp://ftp.nada.kth.se/pub/documents/Theory/Stefan-Arnborg/fobshle. ps - ftp://ftp.nada.kth.se/pub/documents/Theory/Stefan-Arnborg/fobshle.pdf

[AS2000b-3] Stefan Arnborg y Gunnar Sjödin, "Bayes rules in finite models", en European Conference on Artificial Intelligence, Berlín, (2000b) - ftp://ftp.nada.kth.se/pub/documents/Theory/Stefan- Arnborg / fobc1.ps - ftp://ftp.nada.kth.se/pub/documents/Theory/Stefan-Arnborg/fobc1.pdf

[H99a-4] Joseph Y. Halpern, "Un contraejemplo de los teoremas de Cox y Fine", Journal of AI research, 10, 67-85 (1999) - http://www.jair.org/media/536/live-536 -2054-jair.ps.Z Archivado el 25 de noviembre de 2015 en la Wayback Machine.

[H99b-5] Joseph Y. Halpern, "Apéndice técnico, teorema de Cox revisado", Journal of AI research, 11, 429-435 (1999) - http://www.jair.org/media/644/live-644-1840-jair .ps.Z Archivado el 25 de noviembre de 2015 en la Wayback Machine.

[Jaynes2003-6] Edwin Thompson Jaynes , Teoría de la probabilidad: la lógica de la ciencia, Cambridge University Press (2003). - versión preimpresa (1996) en "Copia archivada" . Archivado desde el original el 19 de enero de 2016 . Consultado el 19 de enero de 2016 .CS1 maint: copia archivada como título ( enlace ); Capítulos 1 a 3 de la versión publicada en http://bayes.wustl.edu/etj/prob/book.pdf

[7] Michael Hardy, "Álgebras booleanas escaladas", Avances en matemáticas aplicadas , agosto de 2002, páginas 243-292 (o preimpresión ); Hardy ha dicho: "Afirmo allí que creo que las suposiciones de Cox son demasiado fuertes, aunque realmente no digo por qué. Sí digo con qué las reemplazaría". (La cita es de una página de discusión de Wikipedia, no del artículo).

[rbp-8] Dupré, Maurice J. y Tipler, Frank J. (2009). "Nuevos axiomas para la probabilidad bayesiana rigurosa" , análisis bayesiano , 4 (3): 599-606.

[9] Niels Henrik Abel "Untersuchung der Functionen zweier unabhängig veränderlichen Gröszen x und y , wie f ( x , y ), welche die Eigenschaft haben, dasz f [ z , f ( x , y )] eine symmetrische Function von z , x und y ist. ", Jour. Reine u. angew. Matemáticas. (Diario de Crelle), 1, 11-15, (1826).

[10] János Aczél , Conferencias sobre ecuaciones funcionales y sus aplicaciones, Academic Press, Nueva York, (1966).

[11] Van Horn, KS (2003). "Construcción de una lógica de inferencia plausible: una guía para el teorema de Cox". Revista Internacional de Razonamiento Aproximado . 34 : 3-24. doi : 10.1016 / S0888-613X (03) 00051-3 .

[1]