Paradoja de Borel-Kolmogorov

En la teoría de la probabilidad , la paradoja de Borel-Kolmogorov (a veces conocida como paradoja de Borel ) es una paradoja relacionada con la probabilidad condicional con respecto a un evento de probabilidad cero (también conocido como conjunto nulo ). Lleva el nombre de Émile Borel y Andrey Kolmogorov .

Un gran rompecabezas circular

Suponga que una variable aleatoria tiene una distribución uniforme en una esfera unitaria. ¿Cuál es su distribución condicional en un círculo máximo ? Debido a la simetría de la esfera, uno podría esperar que la distribución sea uniforme e independiente de la elección de coordenadas. Sin embargo, dos análisis arrojan resultados contradictorios. Primero, tenga en cuenta que elegir un punto uniformemente en la esfera es equivalente a elegir la longitud ${\ Displaystyle \ lambda}$ uniformemente desde ${\ Displaystyle [- \ pi, \ pi]}$ y eligiendo la latitud ${\ Displaystyle \ varphi}$ de ${\ textstyle [- {\ frac {\ pi} {2}}, {\ frac {\ pi} {2}}]}$ con densidad ${\ textstyle {\ frac {1} {2}} \ cos \ varphi}$ . ^[1] Entonces podemos observar dos grandes círculos diferentes:

Si las coordenadas se eligen de modo que el gran círculo sea un ecuador (latitud ${\ Displaystyle \ varphi = 0}$ ), la densidad condicional para una longitud ${\ Displaystyle \ lambda}$ definido en el intervalo ${\ Displaystyle [- \ pi, \ pi]}$ es
${\ Displaystyle f (\ lambda \ mid \ varphi = 0) = {\ frac {1} {2 \ pi}}.}$
Si el gran círculo es una línea de longitud con ${\ Displaystyle \ lambda = 0}$ , la densidad condicional para ${\ Displaystyle \ varphi}$ en el intervalo ${\ textstyle [- {\ frac {\ pi} {2}}, {\ frac {\ pi} {2}}]}$ es
${\ Displaystyle f (\ varphi \ mid \ lambda = 0) = {\ frac {1} {2}} \ cos \ varphi.}$

Una distribución es uniforme en el círculo, la otra no. Sin embargo, ambos parecen referirse al mismo gran círculo en diferentes sistemas de coordenadas.

Se han producido muchos argumentos bastante inútiles, entre probabilistas competentes, sobre cuál de estos resultados es "correcto".
- ET Jaynes ^[1]

Explicación e implicaciones

En el caso (1) anterior, la probabilidad condicional de que la longitud λ se encuentre en un conjunto E dado que φ = 0 se puede escribir P ( λ ∈ E | φ = 0). La teoría de probabilidad elemental sugiere que esto se puede calcular como P ( λ ∈ E y φ = 0) / P ( φ = 0), pero esa expresión no está bien definida ya que P ( φ = 0) = 0. La teoría de medidas proporciona una forma para definir una probabilidad condicional, el uso de la familia de los acontecimientos R _ab = { φ : un < φ < b } que son anillos horizontales que consisten en todos los puntos con la latitud entre una y b .

La resolución de la paradoja es notar que en el caso (2), P ( φ ∈ F | λ = 0) se define usando los eventos L _ab = { λ : a < λ < b }, que son lunes (cuñas verticales) , que consiste en todos los puntos cuya longitud varía entre un y b . Entonces, aunque P ( λ ∈ E | φ = 0) y P ( φ ∈ F | λ = 0) cada uno proporciona una distribución de probabilidad en un círculo máximo, uno de ellos se define usando anillos y el otro usando lunes. Por lo tanto, no es sorprendente después de todo que P ( λ ∈ E | φ = 0) y P ( φ ∈ F | λ = 0) tengan distribuciones diferentes.

El concepto de probabilidad condicional con respecto a una hipótesis aislada cuya probabilidad es igual a 0 es inadmisible. Porque podemos obtener una distribución de probabilidad para [la latitud] en el círculo meridiano solo si consideramos este círculo como un elemento de la descomposición de toda la superficie esférica en círculos meridianos con los polos dados.
- Andrey Kolmogorov ^[2]

... el término 'gran círculo' es ambiguo hasta que especifiquemos qué operación limitante es producirlo. El argumento de la simetría intuitiva presupone el límite ecuatorial; sin embargo, uno comiendo rodajas de naranja podría presuponer que el otro.
- ET Jaynes ^[1]

Explicación matemática

Medir la perspectiva teórica

Para comprender el problema, debemos reconocer que una distribución en una variable aleatoria continua se describe mediante una densidad f solo con respecto a alguna medida μ . Ambos son importantes para la descripción completa de la distribución de probabilidad. O, de manera equivalente, necesitamos definir completamente el espacio en el que queremos definir f .

Dejemos que Φ y Λ denoten dos variables aleatorias que toman valores en Ω ₁ = [- $π$ / 2, $π$ / 2] respectivamente Ω ₂ = [- $π$ , $π$ ]. Un evento {Φ = φ , Λ = λ } da un punto en la esfera S ( r ) con radio r . Definimos la transformación de coordenadas

{\ Displaystyle {\ begin {alineado} x & = r \ cos \ varphi \ cos \ lambda \\ y & = r \ cos \ varphi \ sin \ lambda \\ z & = r \ sin \ varphi \ end {alineado}}}

para lo cual obtenemos el elemento de volumen

{\ Displaystyle \ omega _ {r} (\ varphi, \ lambda) = \ left | \ left | {\ partial (x, y, z) \ over \ partial \ varphi} \ times {\ partial (x, y, z) \ sobre \ parcial \ lambda} \ derecha | \ derecha | = r ^ {2} \ cos \ varphi \.}

Además, si φ o λ son fijos, obtenemos los elementos de volumen

{\ Displaystyle {\ begin {alineado} \ omega _ {r} (\ lambda) & = \ izquierda | \ izquierda | {\ parcial (x, y, z) \ sobre \ parcial \ varphi} \ derecha | \ derecha | = r \, \ quad \ mathrm {respectivamente} \\\ omega _ {r} (\ varphi) & = \ izquierda | \ izquierda | {\ parcial (x, y, z) \ sobre \ parcial \ lambda} \ derecha | \ right | = r \ cos \ varphi \. \ end {alineado}}}

Dejar

{\ Displaystyle \ mu _ {\ Phi, \ Lambda} (d \ varphi, d \ lambda) = f _ {\ Phi, \ Lambda} (\ varphi, \ lambda) \ omega _ {r} (\ varphi, \ lambda ) \, d \ varphi \, d \ lambda}

denotar la medida conjunta sobre ${\ Displaystyle {\ mathcal {B}} (\ Omega _ {1} \ times \ Omega _ {2})}$ , que tiene una densidad ${\ Displaystyle f _ {\ Phi, \ Lambda}}$ con respecto a ${\ Displaystyle \ omega _ {r} (\ varphi, \ lambda) \, d \ varphi \, d \ lambda}$ y deja

{\ Displaystyle {\ begin {alineado} \ mu _ {\ Phi} (d \ varphi) & = \ int _ {\ lambda \ in \ Omega _ {2}} \ mu _ {\ Phi, \ Lambda} (d \ varphi, d \ lambda) \, \\\ mu _ {\ Lambda} (d \ lambda) & = \ int _ {\ varphi \ in \ Omega _ {1}} \ mu _ {\ Phi, \ Lambda} (d \ varphi, d \ lambda) \. \ end {alineado}}}

Si asumimos que la densidad ${\ Displaystyle f _ {\ Phi, \ Lambda}}$ es uniforme, entonces

{\ Displaystyle {\ begin {alineado} \ mu _ {\ Phi \ mid \ Lambda} (d \ varphi \ mid \ lambda) & = {\ mu _ {\ Phi, \ Lambda} (d \ varphi, d \ lambda ) \ over \ mu _ {\ Lambda} (d \ lambda)} = {\ frac {1} {2r}} \ omega _ {r} (\ varphi) \, d \ varphi \, \ quad {\ text { y}} \\\ mu _ {\ Lambda \ mid \ Phi} (d \ lambda \ mid \ varphi) & = {\ mu _ {\ Phi, \ Lambda} (d \ varphi, d \ lambda) \ over \ mu _ {\ Phi} (d \ varphi)} = {\ frac {1} {2r \ pi}} \ omega _ {r} (\ lambda) \, d \ lambda \. \ end {alineado}}}

Por eso, ${\ Displaystyle \ mu _ {\ Phi \ mid \ Lambda}}$ tiene una densidad uniforme con respecto a ${\ Displaystyle \ omega _ {r} (\ varphi) \, d \ varphi}$ pero no con respecto a la medida de Lebesgue. Por otro lado, ${\ Displaystyle \ mu _ {\ Lambda \ mid \ Phi}}$ tiene una densidad uniforme con respecto a ${\ Displaystyle \ omega _ {r} (\ lambda) \, d \ lambda}$ y la medida de Lebesgue.

Prueba de contradicción

Considere un vector aleatorio ${\ Displaystyle (X, Y, Z)}$ que se distribuye uniformemente en la esfera unitaria ${\ Displaystyle S ^ {2}}$ .

Comenzamos por parametrizar la esfera con las coordenadas polares esféricas habituales :

{\ Displaystyle {\ begin {alineado} x & = \ cos (\ varphi) \ cos (\ theta) \\ y & = \ cos (\ varphi) \ sin (\ theta) \\ z & = \ sin (\ varphi) \ final {alineado}}}

dónde ${\ Displaystyle - {\ pi} / {2} \ leq \ varphi \ leq {\ pi} / {2}}$ y ${\ Displaystyle - \ pi \ leq \ theta \ leq \ pi}$ .

Podemos definir variables aleatorias ${\ Displaystyle \ Phi}$ , ${\ Displaystyle \ Theta}$ como los valores de ${\ Displaystyle (X, Y, Z)}$ bajo la inversa de esta parametrización, o más formalmente usando la función arctan2 :

{\ Displaystyle {\ begin {alineado} \ Phi & = \ arcsin (Z) \\\ Theta & = \ arctan _ {2} \ left ({\ frac {Y} {\ sqrt {1-Z ^ {2}) }}}, {\ frac {X} {\ sqrt {1-Z ^ {2}}}} \ right) \ end {alineado}}}

Usando las fórmulas para el área de superficie del casquete esférico y la cuña esférica , la superficie de una cuña del casquete esférico viene dada por

{\ Displaystyle \ operatorname {Área} (\ Theta \ leq \ theta, \ Phi \ leq \ varphi) = (1+ \ sin (\ varphi)) (\ theta + \ pi)}

Desde ${\ Displaystyle (X, Y, Z)}$ se distribuye uniformemente, la probabilidad es proporcional al área de la superficie, lo que da la función de distribución acumulativa conjunta

{\ Displaystyle F _ {\ Phi, \ Theta} (\ varphi, \ theta) = P (\ Theta \ leq \ theta, \ Phi \ leq \ varphi) = {\ frac {(1+ \ sin (\ varphi)) (\ theta + \ pi)} {4 \ pi}}}

La función de densidad de probabilidad conjunta viene dada por

{\ Displaystyle f _ {\ Phi, \ Theta} (\ varphi, \ theta) = {\ frac {\ parcial ^ {2}} {\ parcial \ varphi \ parcial \ theta}} F _ {\ Phi, \ Theta} ( \ varphi, \ theta) = {\ frac {1} {4 \ pi}} \ cos (\ varphi)}

Tenga en cuenta que ${\ Displaystyle \ Phi}$ y ${\ Displaystyle \ Theta}$ son variables aleatorias independientes.

Para simplificar, no calcularemos la distribución condicional completa en un círculo máximo, solo la probabilidad de que el vector aleatorio se encuentre en el primer octante. Es decir, intentaremos calcular la probabilidad condicional ${\ Displaystyle \ mathbb {P} (A | B)}$ con

{\ Displaystyle {\ begin {alineado} A & = \ left \ {0 <\ Theta <{\ pi} / {4} \ right \} && = \ {0

Intentamos evaluar la probabilidad condicional como límite de condicionamiento sobre los eventos

{\ Displaystyle B _ {\ varepsilon} = \ {| \ Phi | <\ varepsilon \}}

Como ${\ Displaystyle \ Phi}$ y ${\ Displaystyle \ Theta}$ son independientes, también lo son los eventos ${\ Displaystyle A}$ y ${\ Displaystyle B _ {\ varepsilon}}$ , por lo tanto

{\ displaystyle P (A \ mid B) {\ stackrel {?} {=}} \ lim _ {\ varepsilon \ to 0} {\ frac {P (A \ cap B _ {\ varepsilon})} {P (B_ {\ varepsilon})}} = \ lim _ {\ varepsilon \ to 0} P (A) = P \ left (0 <\ Theta <{\ frac {\ pi} {4}} \ right) = {\ frac {1} {8}}.}

Ahora repetimos el proceso con una parametrización diferente de la esfera:

{\ Displaystyle {\ begin {alineado} x & = \ sin (\ varphi) \\ y & = \ cos (\ varphi) \ sin (\ theta) \\ z & = - \ cos (\ varphi) \ cos (\ theta) \ end {alineado}}}

Esto es equivalente a la parametrización anterior girada 90 grados alrededor del eje y .

Definir nuevas variables aleatorias

{\ Displaystyle {\ begin {alineado} \ Phi '& = \ arcsin (X) \\\ Theta' & = \ arctan _ {2} \ left ({\ frac {Y} {\ sqrt {1-X ^ { 2}}}}, {\ frac {-Z} {\ sqrt {1-X ^ {2}}}} \ right). \ End {alineado}}}

La rotación se mide preservando por lo que la densidad de ${\ Displaystyle \ Phi '}$ y ${\ Displaystyle \ Theta '}$ es el mismo:

{\ Displaystyle f _ {\ Phi ', \ Theta'} (\ varphi, \ theta) = {\ frac {1} {4 \ pi}} \ cos (\ varphi)}

.

Las expresiones para $A$ y $B$ son:

{\ Displaystyle {\ begin {alineado} A & = \ left \ {0 <\ Theta <{\ pi} / {4} \ right \} && = \ {0

Intentar nuevamente evaluar la probabilidad condicional como límite de condicionamiento sobre los eventos

{\ Displaystyle B _ {\ varepsilon} ^ {\ prime} = \ left \ {| \ Theta '+ {\ pi} / {2} | <\ varepsilon \ right \} \ cup \ left \ {| \ Theta' - {\ pi} / {2} | <\ varepsilon \ right \}.}

Usando la regla y diferenciación de L'Hôpital bajo el signo integral :

{\ displaystyle {\ begin {alineado} P (A \ mid B) y {\ stackrel {?} {=}} \ lim _ {\ varepsilon \ to 0} {\ frac {P (A \ cap B _ {\ varepsilon } ^ {\ prime})} {P (B _ {\ varepsilon} ^ {\ prime})}} \\ & = \ lim _ {\ varepsilon \ to 0} {\ frac {P \ left ({\ frac { \ pi} {2}} - \ varepsilon <\ Theta '<{\ frac {\ pi} {2}} + \ varepsilon, 0 <\ Phi' <{\ frac {\ pi} {2}}, \ sin (\ Theta ') <\ tan (\ Phi') \ right)} {\ frac {4 \ varepsilon} {2 \ pi}}} \\ & = {\ frac {\ pi} {2}} \ lim _ {\ varepsilon \ to 0} {\ frac {\ partial} {\ partial \ varepsilon}} \ int _ {{\ pi} / {2} - \ epsilon} ^ {{\ pi} / {2} + \ epsilon } \ int _ {0} ^ {{\ pi} / {2}} 1 _ {\ sin (\ theta) <\ tan (\ varphi)} f _ {\ Phi ', \ Theta'} (\ varphi, \ theta ) \ mathrm {d} \ varphi \ mathrm {d} \ theta \\ & = \ pi \ int _ {0} ^ {{\ pi} / {2}} 1_ {1 <\ tan (\ varphi)} f_ {\ Phi ', \ Theta'} \ left (\ varphi, {\ frac {\ pi} {2}} \ right) \ mathrm {d} \ varphi \\ & = \ pi \ int _ {\ pi / 4 } ^ {\ pi / 2} {\ frac {1} {4 \ pi}} \ cos (\ varphi) \ mathrm {d} \ varphi \\ & = {\ frac {1} {4}} \ left ( 1 - {\ frac {1} {\ sqrt {2}}} \ right) \ neq {\ frac {1} {8}} \ end {alineado}}}

Esto muestra que la densidad condicional no puede tratarse como un condicionamiento de un evento de probabilidad cero, como se explica en Probabilidad condicional # Condicionamiento de un evento de probabilidad cero .

Referencias

Citas

↑ ^a ^b ^c Jaynes , 2003 , págs. 1514-1517
^ Originalmente Kolmogorov (1933) , traducido en Kolmogorov (1956) . Obtenido de Pollard (2002)

Fuentes

Jaynes, ET (2003). "15.7 La paradoja de Borel-Kolmogorov". Teoría de la probabilidad: la lógica de la ciencia . Prensa de la Universidad de Cambridge. págs. 467–470. ISBN 0-521-59271-2. Señor 1992316 .
- Edición fragmentaria (1994) (págs. 1514-1517) Archivado el 30 de septiembre de 2018 en Wayback Machine ( formato PostScript )
Kolmogorov, Andrey (1933). Grundbegriffe der Wahrscheinlichkeitsrechnung (en alemán). Berlín: Julius Springer.
- Traducción: Kolmogorov, Andrey (1956). "Capítulo V, §2. Explicación de una paradoja de Borel" . Fundamentos de la teoría de la probabilidad (2ª ed.). Nueva York: Chelsea. págs. 50–51. ISBN 0-8284-0023-7. Archivado desde el original el 14 de septiembre de 2018 . Consultado el 12 de marzo de 2009 .
Pollard, David (2002). "Capítulo 5. Acondicionamiento, ejemplo 17.". Una guía del usuario para medir la probabilidad teórica . Prensa de la Universidad de Cambridge. págs. 122-123. ISBN 0-521-00289-3. Señor 1873379 .
Mosegaard, K. y Tarantola, A. (2002). 16 Enfoque probabilístico de problemas inversos. Geofísica internacional, 81, 237-265.

[Jaynes-1] Jaynes , 2003 , págs. 1514-1517

[2] Originalmente Kolmogorov (1933) , traducido en Kolmogorov (1956) . Obtenido de Pollard (2002)

[1]