Acondicionamiento (probabilidad)

Las creencias dependen de la información disponible. Esta idea se formaliza en la teoría de la probabilidad mediante el condicionamiento . Las probabilidades condicionales , las expectativas condicionales y las distribuciones de probabilidad condicionales se tratan en tres niveles: probabilidades discretas , funciones de densidad de probabilidad y teoría de la medida . El condicionamiento conduce a un resultado no aleatorio si la condición está completamente especificada; de lo contrario, si la condición se deja aleatoria, el resultado del condicionamiento también es aleatorio.

Acondicionamiento en el nivel discreto

Ejemplo: una moneda justa se lanza 10 veces; la variable aleatoria X es el número de caras en estos 10 lanzamientos, e Y - el número de caras en los primeros 3 lanzamientos. A pesar del hecho de que Y surge antes de X puede ocurrir que alguien sabe X pero no Y .

La probabilidad condicional

Dado que X = 1, la probabilidad condicional del evento Y = 0 es

{\ Displaystyle \ mathbb {P} (Y = 0 | X = 1) = {\ frac {\ mathbb {P} (Y = 0, X = 1)} {\ mathbb {P} (X = 1)}} = 0,7}

Más generalmente,

{\ Displaystyle {\ begin {alineado} \ mathbb {P} (Y = 0 | X = x) & = {\ frac {\ binom {7} {x}} {\ binom {10} {x}}} = {\ frac {7! (10-x)!} {(7-x)! 10!}} && x = 0,1,2,3,4,5,6,7. \\ [4pt] \ mathbb { P} (Y = 0 | X = x) & = 0 && x = 8,9,10. \ End {alineado}}}

También se puede tratar la probabilidad condicional como una variable aleatoria, una función de la variable aleatoria X , a saber,

{\ displaystyle \ mathbb {P} (Y = 0 | X) = {\ begin {cases} {\ binom {7} {X}} / {\ binom {10} {X}} & X \ leqslant 7, \\ 0 y X> 7. \ end {cases}}}

La expectativa de esta variable aleatoria es igual a la probabilidad (incondicional),

{\ Displaystyle \ mathbb {E} (\ mathbb {P} (Y = 0 | X)) = \ sum _ {x} \ mathbb {P} (Y = 0 | X = x) \ mathbb {P} (X = x) = \ mathbb {P} (Y = 0),}

a saber,

{\ Displaystyle \ sum _ {x = 0} ^ {7} {\ frac {\ binom {7} {x}} {\ binom {10} {x}}} \ cdot {\ frac {1} {2 ^ {10}}} {\ binom {10} {x}} = {\ frac {1} {8}},}

que es una instancia de la ley de probabilidad total ${\ Displaystyle \ mathbb {E} (\ mathbb {P} (A | X)) = \ mathbb {P} (A).}$

Por lo tanto, ${\ Displaystyle \ mathbb {P} (Y = 0 | X = 1)}$ puede tratarse como el valor de la variable aleatoria ${\ Displaystyle \ mathbb {P} (Y = 0 | X)}$ correspondiente a X = 1.Por otro lado, ${\ Displaystyle \ mathbb {P} (Y = 0 | X = 1)}$ está bien definida independientemente de otros valores posibles de X .

Expectativa condicional

Dado que X = 1, la expectativa condicional de la variable aleatoria Y es ${\ Displaystyle \ mathbb {E} (Y | X = 1) = {\ tfrac {3} {10}}}$ Más generalmente,

{\ displaystyle \ mathbb {E} (Y | X = x) = {\ frac {3} {10}} x, \ qquad x = 0, \ ldots, 10.}

(En este ejemplo parece ser una función lineal, pero en general no es lineal). También se puede tratar la expectativa condicional como una variable aleatoria, - una función de la variable aleatoria X , a saber,

{\ Displaystyle \ mathbb {E} (Y | X) = {\ frac {3} {10}} X.}

La expectativa de esta variable aleatoria es igual a la expectativa (incondicional) de Y ,

{\ Displaystyle \ mathbb {E} (\ mathbb {E} (Y | X)) = \ sum _ {x} \ mathbb {E} (Y | X = x) \ mathbb {P} (X = x) = \ mathbb {E} (Y),}

a saber,

{\ Displaystyle \ sum _ {x = 0} ^ {10} {\ frac {3} {10}} x \ cdot {\ frac {1} {2 ^ {10}}} {\ binom {10} {x }} = {\ frac {3} {2}},}

o simplemente

{\ Displaystyle \ mathbb {E} \ left ({\ frac {3} {10}} X \ right) = {\ frac {3} {10}} \ mathbb {E} (X) = {\ frac {3 } {10}} \ cdot 5 = {\ frac {3} {2}},}

que es un ejemplo de la ley de la expectativa total ${\ Displaystyle \ mathbb {E} (\ mathbb {E} (Y | X)) = \ mathbb {E} (Y).}$

La variable aleatoria ${\ Displaystyle \ mathbb {E} (Y | X)}$ es el mejor predictor de Y dado X . Es decir, minimiza el error cuadrático medio. ${\ Displaystyle \ mathbb {E} (Yf (X)) ^ {2}}$ en la clase de todas las variables aleatorias de la forma f ( X ). Esta clase de variables aleatorias se mantiene intacta si X es sustituido, por ejemplo, con 2 X . Por lo tanto, ${\ Displaystyle \ mathbb {E} (Y | 2X) = \ mathbb {E} (Y | X).}$ No significa que ${\ Displaystyle \ mathbb {E} (Y | 2X) = {\ tfrac {3} {10}} \ times 2X;}$ bastante, ${\ Displaystyle \ mathbb {E} (Y | 2X) = {\ tfrac {3} {20}} \ times 2X = {\ tfrac {3} {10}} X.}$ En particular, ${\ Displaystyle \ mathbb {E} (Y | 2X = 2) = {\ tfrac {3} {10}}.}$ Más generalmente, ${\ Displaystyle \ mathbb {E} (Y | g (X)) = \ mathbb {E} (Y | X)}$ para cada función g que es uno-a-uno en el conjunto de todos los valores posibles de X . Los valores de X son irrelevantes; lo que importa es la partición (denotarla α _X )

{\ Displaystyle \ Omega = \ {X = x_ {1} \} \ uplus \ {X = x_ {2} \} \ uplus \ dots}

del espacio muestral Ω en conjuntos disjuntos { X = x _n }. (Aquí ${\ Displaystyle x_ {1}, x_ {2}, \ ldots}$ son todos valores posibles de X. ) Dada una partición arbitraria α de Ω, se puede definir la variable aleatoria E ( Y | α). Aún así, E (E ( Y | α)) = E ( Y ).

La probabilidad condicional puede tratarse como un caso especial de expectativa condicional. Es decir, P ( A | X ) = E ( Y | X ) si Y es el indicador de A . Por lo tanto, la probabilidad condicional también depende de la partición α _X generada por X más que de la propia X ; P ( A | g ( X )) = P ( A | X ) = P ( A | α), α = α _X = α _{g ( X )} .

Por otro lado, el condicionamiento sobre un evento B está bien definido, siempre que ${\ Displaystyle \ mathbb {P} (B) \ neq 0,}$ independientemente de cualquier partición que pueda contener B como una de varias partes.

Distribución condicional

Dado X = x, la distribución condicional de Y es

{\ Displaystyle \ mathbb {P} (Y = y | X = x) = {\ frac {{\ binom {3} {y}} {\ binom {7} {xy}}} {\ binom {10} { x}}} = {\ frac {{\ binom {x} {y}} {\ binom {10-x} {3-y}}} {\ binom {10} {3}}}}

para 0 ≤ y ≤ min (3, x ). Es la distribución hipergeométrica H ( x ; 3, 7), o equivalentemente, H (3; x , 10- x ). La expectativa correspondiente 0.3 x , obtenida de la fórmula general

{\ Displaystyle n {\ frac {R} {R + W}}}

para H ( n ; R , W ), no es más que la expectativa condicional E ( Y | X = x ) = 0.3 x .

Tratando H ( X ; 3, 7) como una distribución aleatoria (un vector aleatorio en el espacio de cuatro dimensiones de todas las medidas en {0,1,2,3}), uno puede tomar su expectativa, obteniendo la distribución incondicional de Y , - la distribución binomial Bin (3, 0.5). Este hecho equivale a la igualdad

{\ Displaystyle \ sum _ {x = 0} ^ {10} \ mathbb {P} (Y = y | X = x) \ mathbb {P} (X = x) = \ mathbb {P} (Y = y) = {\ frac {1} {2 ^ {3}}} {\ binom {3} {y}}}

para y = 0,1,2,3; que es una instancia de la ley de probabilidad total .

Condicionamiento al nivel de densidades.

Ejemplo . Un punto de la esfera x ² + y ² + z ² = 1 se elige al azar de acuerdo con la n-esfera # Generando puntos en la superficie de la n-bola ^[1] Las variables aleatorias X , Y , Z son las coordenadas del punto aleatorio. La densidad conjunta de X , Y , Z no existe (ya que la esfera es de volumen cero), pero la densidad conjunta f _{X , Y} de X , Y existe,

{\ Displaystyle f_ {X, Y} (x, y) = {\ begin {cases} {\ frac {1} {2 \ pi {\ sqrt {1-x ^ {2} -y ^ {2}}} }} & {\ text {if}} x ^ {2} + y ^ {2} <1, \\ 0 & {\ text {de otro modo}}. \ end {cases}}}

(La densidad no es constante debido a un ángulo no constante entre la esfera y el plano ). La densidad de X puede calcularse por integración,

{\ Displaystyle f_ {X} (x) = \ int _ {- \ infty} ^ {+ \ infty} f_ {X, Y} (x, y) \, \ mathrm {d} y = \ int _ {- {\ sqrt {1-x ^ {2}}}} ^ {+ {\ sqrt {1-x ^ {2}}}} {\ frac {\ mathrm {d} y} {2 \ pi {\ sqrt { 1-x ^ {2} -y ^ {2}}}}} \ ,;}

sorprendentemente, el resultado no depende de x en (−1,1),

{\ displaystyle f_ {X} (x) = {\ begin {cases} 0.5 & {\ text {for}} - 1

lo que significa que X se distribuye uniformemente en (−1,1). Lo mismo vale para Y y Z (y de hecho, para aX + bY + cZ siempre que a ² + b ² + c ² = 1).

Ejemplo . A continuación se proporciona una medida diferente para calcular la función de distribución marginal ^[2]^[3]

${\ Displaystyle f_ {X, Y, Z} (x, y, z) = {\ frac {3} {4 \ pi}}}$

${\ Displaystyle f_ {X} (x) = \ int _ {- {\ sqrt {1-y ^ {2} -x ^ {2}}}} ^ {+ {\ sqrt {1-y ^ {2} -x ^ {2}}}} \ int _ {- {\ sqrt {1-x ^ {2}}}} ^ {+ {\ sqrt {1-x ^ {2}}}} {\ frac {3 \ mathrm {d} y \ mathrm {d} z} {4 \ pi}} = 3 {\ sqrt {1-x ^ {2}}} / 4 \ ,;}$

La probabilidad condicional

Cálculo

Dado que X = 0.5, la probabilidad condicional del evento Y ≤ 0.75 es la integral de la densidad condicional,

{\ Displaystyle f_ {Y | X = 0.5} (y) = {\ frac {f_ {X, Y} (0.5, y)} {f_ {X} (0.5)}} = {\ begin {cases} {\ frac {1} {\ pi {\ sqrt {0.75-y ^ {2}}}}} & {\ text {para}} - {\ sqrt {0.75}}

{\ Displaystyle \ mathbb {P} (Y \ leq 0,75 | X = 0,5) = \ int _ {- \ infty} ^ {0,75} f_ {Y | X = 0,5} (y) \, \ mathrm {d} y = \ int _ {- {\ sqrt {0.75}}} ^ {0.75} {\ frac {\ mathrm {d} y} {\ pi {\ sqrt {0.75-y ^ {2}}}}} = {\ tfrac {1} {2}} + {\ tfrac {1} {\ pi}} \ arcsin {\ sqrt {0.75}} = {\ tfrac {5} {6}}.}

Más generalmente,

{\ Displaystyle \ mathbb {P} (Y \ leq y | X = x) = {\ tfrac {1} {2}} + {\ tfrac {1} {\ pi}} \ arcsin {\ frac {y} { \ sqrt {1-x ^ {2}}}}}

para todos los x y y de tal manera que -1 < x <1 (de otro modo el denominador f _X ( x ) se anula) y ${\ Displaystyle \ textstyle - {\ sqrt {1-x ^ {2}}}$ (de lo contrario, la probabilidad condicional degenera en 0 o 1). También se puede tratar la probabilidad condicional como una variable aleatoria, una función de la variable aleatoria X , a saber,

{\ displaystyle \ mathbb {P} (Y \ leq y | X) = {\ begin {cases} 0 & {\ text {for}} X ^ {2} \ geq 1-y ^ {2} {\ text {y }} y <0, \\ {\ frac {1} {2}} + {\ frac {1} {\ pi}} \ arcsin {\ frac {y} {\ sqrt {1-X ^ {2}} }} & {\ text {para}} X ^ {2} <1-y ^ {2}, \\ 1 & {\ text {para}} X ^ {2} \ geq 1-y ^ {2} {\ text {and}} y> 0. \ end {cases}}}

La expectativa de esta variable aleatoria es igual a la probabilidad (incondicional),

{\ Displaystyle \ mathbb {E} (\ mathbb {P} (Y \ leq y | X)) = \ int _ {- \ infty} ^ {+ \ infty} \ mathbb {P} (Y \ leq y | X = x) f_ {X} (x) \, \ mathrm {d} x = \ mathbb {P} (Y \ leq y),}

que es una instancia de la ley de probabilidad total E (P ( A | X )) = P ( A ).

Interpretación

La probabilidad condicional P ( Y ≤ 0,75 | X = 0,5) no se puede interpretar como P ( Y ≤ 0,75, X = 0,5) / P ( X = 0,5), ya que este último da 0/0. En consecuencia, P ( Y ≤ 0,75 | X = 0,5) no se puede interpretar mediante frecuencias empíricas, ya que el valor exacto X = 0,5 no tiene ninguna posibilidad de aparecer al azar, ni siquiera una vez durante una secuencia infinita de ensayos independientes.

La probabilidad condicional se puede interpretar como un límite,

{\ displaystyle {\ begin {alineado} \ mathbb {P} (Y \ leq 0,75 | X = 0,5) & = \ lim _ {\ varepsilon \ to 0 +} \ mathbb {P} (Y \ leq 0,75 | 0,5- \ varepsilon

Expectativa condicional

{\ Displaystyle {\ begin {alineado} | Z | & = h (X, Y) = {\ sqrt {1-X ^ {2} -Y ^ {2}}}; \\\ mathrm {E} (| Z || X = 0.5) & = \ int _ {- \ infty} ^ {+ \ infty} h (0.5, y) f_ {Y | X = 0.5} (y) \, \ mathrm {d} y = \ \ & = \ int _ {- {\ sqrt {0.75}}} ^ {+ {\ sqrt {0.75}}} {\ sqrt {0.75-y ^ {2}}} \ cdot {\ frac {\ mathrm {d } y} {\ pi {\ sqrt {0,75-y ^ {2}}}}} \\ & = {\ frac {2} {\ pi}} {\ sqrt {0,75}}. \ end {alineado}} }

Más generalmente,

{\ Displaystyle \ mathbb {E} (| Z || X = x) = {\ frac {2} {\ pi}} {\ sqrt {1-x ^ {2}}}}

para −1 < x <1. También se puede tratar la expectativa condicional como una variable aleatoria, - una función de la variable aleatoria X , a saber,

{\ Displaystyle \ mathbb {E} (| Z || X) = {\ frac {2} {\ pi}} {\ sqrt {1-X ^ {2}}}.}

La expectativa de esta variable aleatoria es igual a la expectativa (incondicional) de | Z |,

{\ Displaystyle \ mathbb {E} (\ mathbb {E} (| Z || X)) = \ int _ {- \ infty} ^ {+ \ infty} \ mathbb {E} (| Z || X = x ) f_ {X} (x) \, \ mathrm {d} x = \ mathbb {E} (| Z |),}

a saber,

{\ Displaystyle \ int _ {- 1} ^ {+ 1} {\ frac {2} {\ pi}} {\ sqrt {1-x ^ {2}}} \ cdot {\ frac {\ mathrm {d} x} {2}} = {\ tfrac {1} {2}},}

que es un ejemplo de la ley de la expectativa total E (E ( Y | X )) = E ( Y ).

La variable aleatoria E (| Z | | X ) es el mejor predictor de | Z | dado X . Es decir, minimiza el error cuadrático medio E (| Z | - f ( X )) ² en la clase de todas las variables aleatorias de la forma f ( X ). De manera similar al caso discreto, E (| Z | | g ( X )) = E (| Z | | X ) para cada función medible g que es uno a uno en (-1,1).

Distribución condicional

Dado X = x, la distribución condicional de Y , dada por la densidad f _{Y | X = x} (y), es la distribución de arcosen (reescalada); su función de distribución acumulativa es

{\ Displaystyle F_ {Y | X = x} (y) = \ mathbb {P} (Y \ leq y | X = x) = {\ frac {1} {2}} + {\ frac {1} {\ pi}} \ arcsin {\ frac {y} {\ sqrt {1-x ^ {2}}}}}

para todos los x y y de tal manera que x ² + y ² <1.El correspondiente expectativa de h ( x , Y ) es nada más que la expectativa condicional E ( h ( X , Y ) | X = x ). La mezcla de estas distribuciones condicionales, tomadas para todos los x (de acuerdo con la distribución de X ) es la distribución incondicional de Y . Este hecho equivale a las igualdades

{\ Displaystyle {\ begin {alineado} & \ int _ {- \ infty} ^ {+ \ infty} f_ {Y | X = x} (y) f_ {X} (x) \, \ mathrm {d} x = f_ {Y} (y), \\ & \ int _ {- \ infty} ^ {+ \ infty} F_ {Y | X = x} (y) f_ {X} (x) \, \ mathrm {d } x = F_ {Y} (y), \ end {alineado}}}

siendo este último el caso de la ley de probabilidad total mencionada anteriormente .

Que condicionamiento no es

En el nivel discreto, el condicionamiento es posible sólo si la condición es de probabilidad distinta de cero (no se puede dividir por cero). En el nivel de densidades, el condicionamiento en X = x es posible aunque P ( X = x ) = 0. Este éxito puede crear la ilusión de que el condicionamiento siempre es posible. Lamentablemente, no lo es, por varias razones que se exponen a continuación.

Intuición geométrica: precaución

El resultado P ( Y ≤ 0,75 | X = 0,5) = 5/6, mencionado anteriormente, es geométricamente evidente en el siguiente sentido. Los puntos ( x , y , z ) de la esfera x ² + y ² + z ² = 1, satisfaciendo la condición x = 0.5, son un círculo y ² + z ² = 0.75 de radio ${\ Displaystyle {\ sqrt {0,75}}}$ en el plano x = 0.5. La desigualdad y ≤ 0,75 se mantiene en un arco. La longitud del arco es 5/6 de la longitud del círculo, por lo que la probabilidad condicional es igual a 5/6.

Esta exitosa explicación geométrica puede crear la ilusión de que la siguiente pregunta es trivial.

Un punto de una esfera dada se elige al azar (uniformemente). Dado que el punto se encuentra en un plano dado, ¿cuál es su distribución condicional?

Puede parecer evidente que la distribución condicional debe ser uniforme en el círculo dado (la intersección de la esfera dada y el plano dado). A veces realmente lo es, pero en general no lo es. Especialmente, Z se distribuye uniformemente en (-1, + 1) e independiente de la relación Y / X , por lo tanto, P ( Z ≤ 0.5 | Y / X ) = 0.75. Por otro lado, la desigualdad z ≤ 0.5 se mantiene en un arco del círculo x ² + y ² + z ² = 1, y = cx (para cualquier c ). La longitud del arco es 2/3 de la longitud del círculo. Sin embargo, la probabilidad condicional es 3/4, no 2/3. Ésta es una manifestación de la paradoja clásica de Borel. ^[4]^[5]

Las apelaciones a la simetría pueden ser engañosas si no se formalizan como argumentos de invariancia.
- Pollard ^[6]

Otro ejemplo. Una rotación aleatoria del espacio tridimensional es una rotación de un ángulo aleatorio alrededor de un eje aleatorio. La intuición geométrica sugiere que el ángulo es independiente del eje y se distribuye uniformemente. Sin embargo, esto último está mal; los valores pequeños del ángulo son menos probables.

El procedimiento limitante

Dado un evento B de probabilidad cero, la fórmula ${\ Displaystyle \ textstyle \ mathbb {P} (A | B) = \ mathbb {P} (A \ cap B) / \ mathbb {P} (B)}$ es inútil, sin embargo, se puede intentar ${\ Displaystyle \ textstyle \ mathbb {P} (A | B) = \ lim _ {n \ to \ infty} \ mathbb {P} (A \ cap B_ {n}) / \ mathbb {P} (B_ {n })}$ para una secuencia apropiada de eventos B _n de probabilidad distinta de cero tal que B _n ↓ B (es decir, ${\ Displaystyle \ textstyle B_ {1} \ supset B_ {2} \ supset \ dots}$ y ${\ Displaystyle \ textstyle B_ {1} \ cap B_ {2} \ cap \ dots = B}$ ). Se da un ejemplo arriba . Dos ejemplos más son el puente browniano y la excursión browniana .

En los dos últimos ejemplos, la ley de la probabilidad total es irrelevante, ya que solo se da un evento único (la condición). Por el contrario, en el ejemplo anterior se aplica la ley de la probabilidad total , ya que el evento X = 0.5 se incluye en una familia de eventos X = x donde x se sobrepasa (−1,1), y estos eventos son una partición de la probabilidad espacio.

Para evitar paradojas (como la paradoja de Borel ), se debe tener en cuenta la siguiente distinción importante. Si un evento dado tiene una probabilidad distinta de cero, entonces el condicionamiento sobre él está bien definido (independientemente de cualquier otro evento), como se señaló anteriormente . Por el contrario, si el evento dado es de probabilidad cero, entonces el condicionamiento sobre él está mal definido a menos que se proporcione alguna entrada adicional. La elección incorrecta de esta entrada adicional conduce a probabilidades condicionales incorrectas (expectativas, distribuciones). En este sentido, " el concepto de probabilidad condicional con respecto a una hipótesis aislada cuya probabilidad es igual a 0 es inadmisible " ( Kolmogorov . ^[6])

La entrada adicional puede ser (a) una simetría (grupo de invariancia); (b) una secuencia de eventos B _n tal que B _n ↓ B , P ( B _n )> 0; (c) una partición que contiene el evento dado. El condicionamiento de la teoría de la medida (abajo) investiga el Caso (c), revela su relación con (b) en general y con (a) cuando es aplicable.

Algunos eventos de probabilidad cero están fuera del alcance del condicionamiento. Un ejemplo: sean X _n variables aleatorias independientes distribuidas uniformemente en (0,1), y B el evento " X _n → 0 as n → ∞"; ¿qué pasa con P ( X _n <0.5 | B )? ¿Tiende a 1 o no? Otro ejemplo: sea X una variable aleatoria distribuida uniformemente en (0,1), y B el evento " X es un número racional"; ¿qué pasa con P ( X = 1 / n | B )? La única respuesta es que, una vez más,

el concepto de probabilidad condicional con respecto a una hipótesis aislada cuya probabilidad es igual a 0 es inadmisible.
- Kolmogorov ^[6]

Condicionamiento al nivel de la teoría de la medida

Ejemplo . Sea Y una variable aleatoria distribuida uniformemente en (0,1) y X = f ( Y ) donde f es una función dada. Dos casos son tratados a continuación: f = f ₁ y f = f ₂ , donde f ₁ es la función continua lineal a tramos

{\ displaystyle f_ {1} (y) = {\ begin {cases} 3y & {\ text {for}} 0 \ leq y \ leq 1/3, \\ 1.5 (1-y) & {\ text {for} } 1/3 \ leq y \ leq 2/3, \\ 0.5 & {\ text {para}} 2/3 \ leq y \ leq 1, \ end {cases}}}

y f ₂ es la función de Weierstrass .

Intuición geométrica: precaución

Dado X = 0,75, son posibles dos valores de Y , 0,25 y 0,5. Puede parecer evidente que ambos valores tienen una probabilidad condicional de 0.5 solo porque un punto es congruente con otro punto. Sin embargo, esto es una ilusión; vea abajo.

La probabilidad condicional

La probabilidad condicional P ( Y ≤ 1/3 | X ) puede definirse como el mejor predictor del indicador

{\ displaystyle I = {\ begin {cases} 1 & {\ text {if}} Y \ leq 1/3, \\ 0 & {\ text {de otro modo}}, \ end {cases}}}

dado X . Es decir, minimiza el error cuadrático medio E ( I - g ( X )) ² en la clase de todas las variables aleatorias de la forma g ( X ).

En el caso de f = f _1, la función correspondiente g = g ₁ puede calcularse explícitamente, ^{[detalles 1]}

{\ displaystyle g_ {1} (x) = {\ begin {cases} 1 & {\ text {for}} 0

Alternativamente, se puede utilizar el procedimiento de limitación,

{\ Displaystyle g_ {1} (x) = \ lim _ {\ varepsilon \ to 0 +} \ mathbb {P} (Y \ leq 1/3 | x- \ varepsilon \ leq X \ leq x + \ varepsilon) \, ,}

dando el mismo resultado.

Por lo tanto, P ( Y ≤ 1/3 | X ) = g ₁ ( X ). La expectativa de esta variable aleatoria es igual a la probabilidad (incondicional), E (P ( Y ≤ 1/3 | X )) = P ( Y ≤ 1/3), es decir,

{\ Displaystyle 1 \ cdot \ mathbb {P} (X <0.5) +0 \ cdot \ mathbb {P} (X = 0.5) + {\ frac {1} {3}} \ cdot \ mathbb {P} (X > 0.5) = 1 \ cdot {\ frac {1} {6}} + 0 \ cdot {\ frac {1} {3}} + {\ frac {1} {3}} \ cdot \ left ({\ frac {1} {6}} + {\ frac {1} {3}} \ right) = {\ frac {1} {3}},}

que es una instancia de la ley de probabilidad total E (P ( A | X )) = P ( A ).

En el caso de f = f _2, la función correspondiente g = g ₂ probablemente no se pueda calcular explícitamente. Sin embargo, existe y se puede calcular numéricamente. De hecho, el espacio L ₂ (Ω) de todas las variables aleatorias integrables cuadradas es un espacio de Hilbert ; el indicador I es un vector de este espacio; y las variables aleatorias de la forma g ( X ) son un subespacio (cerrado, lineal). La proyección ortogonal de este vector a este subespacio está bien definida. Puede calcularse numéricamente, utilizando aproximaciones de dimensión finita al espacio de Hilbert de dimensión infinita.

Una vez más, la expectativa de la variable aleatoria P ( Y ≤ 1/3 | X ) = g ₂ ( X ) es igual a la probabilidad (incondicional), E (P ( Y ≤ 1/3 | X )) = P ( Y ≤ 1/3), es decir,

{\ Displaystyle \ int _ {0} ^ {1} g_ {2} (f_ {2} (y)) \, \ mathrm {d} y = {\ tfrac {1} {3}}.}

Sin embargo, el enfoque espacial de Hilbert trata a g ₂ como una clase de equivalencia de funciones en lugar de una función individual. La mensurabilidad de g ₂ está asegurada, pero la continuidad (o incluso la integrabilidad de Riemann ) no lo está. El valor de g ₂ (0.5) se determina de forma única, ya que el punto 0.5 es un átomo de la distribución de X . Otros valores x no son átomos, por lo tanto, los valores correspondientes g ₂ ( x ) no se determinan de forma única. Una vez más, " el concepto de probabilidad condicional con respecto a una hipótesis aislada cuya probabilidad es igual a 0 es inadmisible " ( Kolmogorov . ^[6])

Alternativamente, la misma función g (ya sea g ₁ o g ₂ ) puede definirse como la derivada Radon-Nikodym

{\ Displaystyle g = {\ frac {\ mathrm {d} \ nu} {\ mathrm {d} \ mu}},}

donde las medidas μ, ν están definidas por

{\ Displaystyle {\ begin {alineado} \ mu (B) & = \ mathbb {P} (X \ in B), \\\ nu (B) & = \ mathbb {P} (X \ in B, \, Y \ leq {\ tfrac {1} {3}}) \ end {alineado}}}

para todos los sets de Borel ${\ Displaystyle B \ subconjunto \ mathbb {R}.}$ Es decir, μ es la distribución (incondicional) de X , mientras que ν es un tercio de su distribución condicional,

{\ Displaystyle \ nu (B) = \ mathbb {P} (X \ in B | Y \ leq {\ tfrac {1} {3}}) \ mathbb {P} (Y \ leq {\ tfrac {1} { 3}}) = {\ tfrac {1} {3}} \ mathbb {P} (X \ in B | Y \ leq {\ tfrac {1} {3}}).}

Ambos enfoques (a través del espacio de Hilbert y a través de la derivada Radon-Nikodym) tratan g como una clase de equivalencia de funciones; dos funciones g y g ′ se tratan como equivalentes, si g ( X ) = g ′ ( X ) es casi seguro. En consecuencia, la probabilidad condicional P ( Y ≤ 1/3 | X ) se trata como una clase de equivalencia de variables aleatorias; como de costumbre, dos variables aleatorias se tratan como equivalentes si son iguales casi con seguridad.

Expectativa condicional

La expectativa condicional ${\ Displaystyle \ mathbb {E} (Y | X)}$ se puede definir como el mejor predictor de Y dado X . Es decir, minimiza el error cuadrático medio. ${\ Displaystyle \ mathbb {E} (Yh (X)) ^ {2}}$ en la clase de todas las variables aleatorias de la forma h ( X ).

En el caso de f = f _1, la función correspondiente h = h ₁ puede calcularse explícitamente, ^{[detalles 2]}

{\ displaystyle h_ {1} (x) = {\ begin {cases} {\ frac {x} {3}} & 0

Alternativamente, se puede utilizar el procedimiento de limitación,

{\ Displaystyle h_ {1} (x) = \ lim _ {\ varepsilon \ to 0 +} \ mathbb {E} (Y | x- \ varepsilon \ leqslant X \ leqslant x + \ varepsilon),}

dando el mismo resultado.

Por lo tanto, ${\ Displaystyle \ mathbb {E} (Y | X) = h_ {1} (X).}$ La expectativa de esta variable aleatoria es igual a la expectativa (incondicional), ${\ Displaystyle \ mathbb {E} (\ mathbb {E} (Y | X)) = \ mathbb {E} (Y),}$ a saber,

{\ Displaystyle \ int _ {0} ^ {1} h_ {1} (f_ {1} (y)) \, \ mathrm {d} y = \ int _ {0} ^ {\ frac {1} {6 }} {\ frac {3y} {3}} \, \ mathrm {d} y + \ int _ {\ frac {1} {6}} ^ {\ frac {1} {3}} {\ frac {2- 3y} {3}} \, \ mathrm {d} y + \ int _ {\ frac {1} {3}} ^ {\ frac {2} {3}} {\ frac {2 - {\ frac {3} {2}} (1-y)} {3}} \, \ mathrm {d} y + \ int _ {\ frac {2} {3}} ^ {1} {\ frac {5} {6}} \ , \ mathrm {d} y = {\ frac {1} {2}},}

que es un ejemplo de la ley de la expectativa total ${\ Displaystyle \ mathbb {E} (\ mathbb {E} (Y | X)) = \ mathbb {E} (Y).}$

En el caso de f = f _2, la función correspondiente h = h ₂ probablemente no se pueda calcular explícitamente. Sin embargo, existe y se puede calcular numéricamente de la misma manera que g ₂ anterior, como la proyección ortogonal en el espacio de Hilbert. Se cumple la ley de la expectativa total, ya que la proyección no puede cambiar el producto escalar por la constante 1 que pertenece al subespacio.

Alternativamente, la misma función h (ya sea h ₁ o h ₂ ) puede definirse como la derivada Radon-Nikodym

{\ Displaystyle h = {\ frac {\ mathrm {d} \ nu} {\ mathrm {d} \ mu}},}

donde las medidas μ, ν están definidas por

{\ Displaystyle {\ begin {alineado} \ mu (B) & = \ mathbb {P} (X \ in B) \\\ nu (B) & = \ mathbb {E} (Y, X \ in B) \ final {alineado}}}

para todos los sets de Borel ${\ Displaystyle B \ subconjunto \ mathbb {R}.}$ Aquí ${\ Displaystyle \ mathbb {E} (Y; A)}$ es la expectativa restringida, que no debe confundirse con la expectativa condicional ${\ Displaystyle \ mathbb {E} (Y | A) = \ mathbb {E} (Y; A) / \ mathbb {P} (A).}$

Distribución condicional

En el caso de f = f _1, la función de distribución acumulativa condicional puede calcularse explícitamente, de manera similar a g ₁ . El procedimiento de limitación da:

{\ displaystyle F_ {Y | X = {\ frac {3} {4}}} (y) = \ mathbb {P} \ left (Y \ leqslant y \ left | X = {\ tfrac {3} {4} } \ right. \ right) = \ lim _ {\ varepsilon \ to 0 ^ {+}} \ mathbb {P} \ left (Y \ leqslant y \ left | {\ tfrac {3} {4}} - \ varepsilon \ leqslant X \ leqslant {\ tfrac {3} {4}} + \ varepsilon \ right. \ right) = {\ begin {cases} 0 & - \ infty

lo cual no puede ser correcto, ya que una función de distribución acumulativa debe ser continua a la derecha .

Este resultado paradójico se explica mediante la teoría de la medida de la siguiente manera. Para una y dada, la correspondiente ${\ Displaystyle F_ {Y | X = x} (y) = \ mathbb {P} (Y \ leqslant y | X = x)}$ está bien definido (a través del espacio de Hilbert o la derivada Radon-Nikodym) como una clase de equivalencia de funciones (de x ). Tratada como una función de y para una x dada , está mal definida a menos que se proporcione alguna entrada adicional. Es decir, se debe elegir una función (de x ) dentro de cada (o al menos casi todas) las clases de equivalencia. Una elección incorrecta conduce a funciones de distribución acumulativa condicional incorrectas.

Se puede hacer una elección correcta de la siguiente manera. Primero, ${\ Displaystyle F_ {Y | X = x} (y) = \ mathbb {P} (Y \ leqslant y | X = x)}$ se considera solo para números racionales y . (Cualquier otro conjunto numerable denso se puede utilizar igualmente bien). Por tanto, sólo se utiliza un conjunto contable de clases de equivalencia; todas las opciones de funciones dentro de estas clases son mutuamente equivalentes, y la función correspondiente de y racional está bien definida (para casi todas las x ). En segundo lugar, la función se extiende de los números racionales a los números reales por continuidad a la derecha.

En general, la distribución condicional se define para casi todo x (según la distribución de X ), pero a veces el resultado es continuo en x , en cuyo caso los valores individuales son aceptables. En el ejemplo considerado, este es el caso; el resultado correcto para x = 0,75,

{\ displaystyle F_ {Y | X = {\ frac {3} {4}}} (y) = \ mathbb {P} \ left (Y \ leqslant y \ left | X = {\ tfrac {3} {4} } \ right. \ right) = {\ begin {cases} 0 & - \ infty

muestra que la distribución condicional de Y dado X = 0,75 consta de dos átomos, en 0,25 y 0,5, de probabilidades 1/3 y 2/3 respectivamente.

De manera similar, la distribución condicional se puede calcular para todo x en (0, 0.5) o (0.5, 1).

El valor x = 0.5 es un átomo de la distribución de X , por lo tanto, la distribución condicional correspondiente está bien definida y puede calcularse por medios elementales (el denominador no desaparece); la distribución condicional de Y dado X = 0.5 es uniforme en (2/3, 1). La teoría de la medida conduce al mismo resultado.

La mezcla de todas las distribuciones condicionales es la (incondicional) la distribución de Y .

La expectativa condicional ${\ Displaystyle \ mathbb {E} (Y | X = x)}$ no es más que la expectativa con respecto a la distribución condicional.

En el caso f = f ₂ el correspondiente ${\ Displaystyle F_ {Y | X = x} (y) = \ mathbb {P} (Y \ leqslant y | X = x)}$ probablemente no se pueda calcular explícitamente. Para una y dada , está bien definida (a través del espacio de Hilbert o la derivada Radon-Nikodym) como una clase de equivalencia de funciones (de x ). La elección correcta de funciones dentro de estas clases de equivalencia se puede realizar como se indicó anteriormente; conduce a funciones correctas de distribución acumulativa condicional, por lo tanto, distribuciones condicionales. En general, las distribuciones condicionales no necesitan ser atómicas o absolutamente continuas (ni mezclas de ambos tipos). Probablemente, en el ejemplo considerado son singulares (como la distribución de Cantor ).

Una vez más, la mezcla de todas las distribuciones condicionales es la distribución (incondicional) y la expectativa condicional es la expectativa con respecto a la distribución condicional.

Detalles técnicos

^ Prueba:
${\ Displaystyle {\ begin {alineado} \ mathbb {E} (Ig (X)) ^ {2} & = \ int _ {0} ^ {1/3} (1-g (3y)) ^ {2} \, \ mathrm {d} y + \ int _ {1/3} ^ {2/3} g ^ {2} (1.5 (1-y)) \, \ mathrm {d} y + \ int _ {2/3 } ^ {1} g ^ {2} (0.5) \, \ mathrm {d} y \\ & = \ int _ {0} ^ {1} (1-g (x)) ^ {2} {\ frac {\ mathrm {d} x} {3}} + \ int _ {0.5} ^ {1} g ^ {2} (x) {\ frac {\ mathrm {d} x} {1.5}} + {\ frac {1} {3}} g ^ {2} (0.5) \\ & = {\ frac {1} {3}} \ int _ {0} ^ {0.5} (1-g (x)) ^ {2 } \, \ mathrm {d} x + {\ frac {1} {3}} g ^ {2} (0.5) + {\ frac {1} {3}} \ int _ {0.5} ^ {1} (( 1-g (x)) ^ {2} + 2g ^ {2} (x)) \, \ mathrm {d} x \,; \ end {alineado}}}$
queda notar que (1− a ) ² + 2 a ² es mínimo en a = 1/3.
^ Prueba:
${\ Displaystyle {\ begin {alineado} \ mathbb {E} (Y-h_ {1} (X)) ^ {2} & = \ int _ {0} ^ {1} \ left (y-h_ {1} (f_ {1} (x)) \ right) ^ {2} \, \ mathrm {d} y \\ & = \ int _ {0} ^ {\ frac {1} {3}} (y-h_ { 1} (3y)) ^ {2} \, \ mathrm {d} y + \ int _ {\ frac {1} {3}} ^ {\ frac {2} {3}} \ left (y-h_ {1 } (1.5 (1-y)) \ right) ^ {2} \, \ mathrm {d} y + \ int _ {\ frac {2} {3}} ^ {1} \ left (y-h_ {1} ({\ tfrac {1} {2}}) \ right) ^ {2} \, \ mathrm {d} y \\ & = \ int _ {0} ^ {1} \ left ({\ frac {x} {3}} - h_ {1} (x) \ derecha) ^ {2} {\ frac {\ mathrm {d} x} {3}} + \ int _ {\ frac {1} {2}} ^ { 1} \ left (1 - {\ frac {x} {1.5}} - h_ {1} (x) \ right) ^ {2} {\ frac {\ mathrm {d} x} {1.5}} + {\ frac {1} {3}} h_ {1} ^ {2} ({\ tfrac {1} {2}}) - {\ frac {5} {9}} h_ {1} ({\ tfrac {1} {2}}) + {\ frac {19} {81}} \\ & = {\ frac {1} {3}} \ int _ {0} ^ {\ frac {1} {2}} \ left ( h_ {1} (x) - {\ frac {x} {3}} \ right) ^ {2} \, \ mathrm {d} x + {\ tfrac {1} {3}} h_ {1} ^ {2 } ({\ tfrac {1} {2}}) - {\ tfrac {5} {9}} h_ {1} ({\ tfrac {1} {2}}) + {\ tfrac {19} {81} } + {\ tfrac {1} {3}} \ int _ {\ frac {1} {2}} ^ {1} \ left (\ left (h_ {1} (x) - {\ frac {x} { 3}} \ right) ^ {2} +2 \ left (h_ {1} (x) -1 + {\ frac {2x} {3}} \ right) ^ {2} \ right) \, \ mathrm { d} x; \ end {alineado}}}$
Queda por notar que
${\ Displaystyle \ left (a - {\ frac {x} {3}} \ right) ^ {2} +2 \ left (a-1 + {\ frac {2x} {3}} \ right) ^ {2 }}$
es mínimo en ${\ Displaystyle a = {\ tfrac {2-x} {3}},}$ y ${\ displaystyle {\ tfrac {1} {3}} a ^ {2} - {\ tfrac {5} {9}} a}$ es mínimo en ${\ Displaystyle a = {\ tfrac {5} {6}}.}$

Ver también

La probabilidad condicional
Expectativa condicional
Distribución de probabilidad condicional
Distribución de probabilidad conjunta
La paradoja de Borel
Probabilidad condicional regular
Teorema de desintegración
Ley de la varianza total
Ley de la acumulación total

Notas

^ "Mathematica / distribución esférica uniforme - Wikilibros, libros abiertos para un mundo abierto" . en.wikibooks.org . Consultado el 27 de octubre de 2018 .
^ Buchanan, K .; Huff, GH (julio de 2011). "Una comparación de matrices aleatorias unidas geométricamente en el espacio euclidiano". Simposio internacional de IEEE 2011 sobre antenas y propagación (APSURSI) : 2008-2011. doi : 10.1109 / APS.2011.5996900 . ISBN 978-1-4244-9563-4.
^ Buchanan, K .; Flores, C .; Wheeland, S .; Jensen, J .; Grayson, D .; Huff, G. (mayo de 2017). "Transmitir formación de haz para aplicaciones de radar utilizando matrices aleatorias cónicas circularmente". Conferencia de radar IEEE 2017 : 0112–0117. doi : 10.1109 / RADAR.2017.7944181 . ISBN 978-1-4673-8823-8.
^ Pollard 2002 , secc. 5.5, Ejemplo 17 en la página 122.
^ Durrett 1996 , secc. 4.1 (a), Ejemplo 1.6 en la página 224.
↑ a b c d Pollard , 2002 , secc. 5.5, página 122.

Referencias

Durrett, Richard (1996), Probabilidad: teoría y ejemplos (Segunda ed.)
Pollard, David (2002), Guía del usuario para medir la probabilidad teórica , Cambridge University Press
Draheim, Dirk (2017) Condicionalización generalizada de Jeffrey (una semántica frecuente de la condicionalización parcial) , Springer

[7] Prueba:
${\ Displaystyle {\ begin {alineado} \ mathbb {E} (Ig (X)) ^ {2} & = \ int _ {0} ^ {1/3} (1-g (3y)) ^ {2} \, \ mathrm {d} y + \ int _ {1/3} ^ {2/3} g ^ {2} (1.5 (1-y)) \, \ mathrm {d} y + \ int _ {2/3 } ^ {1} g ^ {2} (0.5) \, \ mathrm {d} y \\ & = \ int _ {0} ^ {1} (1-g (x)) ^ {2} {\ frac {\ mathrm {d} x} {3}} + \ int _ {0.5} ^ {1} g ^ {2} (x) {\ frac {\ mathrm {d} x} {1.5}} + {\ frac {1} {3}} g ^ {2} (0.5) \\ & = {\ frac {1} {3}} \ int _ {0} ^ {0.5} (1-g (x)) ^ {2 } \, \ mathrm {d} x + {\ frac {1} {3}} g ^ {2} (0.5) + {\ frac {1} {3}} \ int _ {0.5} ^ {1} (( 1-g (x)) ^ {2} + 2g ^ {2} (x)) \, \ mathrm {d} x \,; \ end {alineado}}}$
queda notar que (1− a ) ² + 2 a ² es mínimo en a = 1/3.

[8] Prueba:
${\ Displaystyle {\ begin {alineado} \ mathbb {E} (Y-h_ {1} (X)) ^ {2} & = \ int _ {0} ^ {1} \ left (y-h_ {1} (f_ {1} (x)) \ right) ^ {2} \, \ mathrm {d} y \\ & = \ int _ {0} ^ {\ frac {1} {3}} (y-h_ { 1} (3y)) ^ {2} \, \ mathrm {d} y + \ int _ {\ frac {1} {3}} ^ {\ frac {2} {3}} \ left (y-h_ {1 } (1.5 (1-y)) \ right) ^ {2} \, \ mathrm {d} y + \ int _ {\ frac {2} {3}} ^ {1} \ left (y-h_ {1} ({\ tfrac {1} {2}}) \ right) ^ {2} \, \ mathrm {d} y \\ & = \ int _ {0} ^ {1} \ left ({\ frac {x} {3}} - h_ {1} (x) \ derecha) ^ {2} {\ frac {\ mathrm {d} x} {3}} + \ int _ {\ frac {1} {2}} ^ { 1} \ left (1 - {\ frac {x} {1.5}} - h_ {1} (x) \ right) ^ {2} {\ frac {\ mathrm {d} x} {1.5}} + {\ frac {1} {3}} h_ {1} ^ {2} ({\ tfrac {1} {2}}) - {\ frac {5} {9}} h_ {1} ({\ tfrac {1} {2}}) + {\ frac {19} {81}} \\ & = {\ frac {1} {3}} \ int _ {0} ^ {\ frac {1} {2}} \ left ( h_ {1} (x) - {\ frac {x} {3}} \ right) ^ {2} \, \ mathrm {d} x + {\ tfrac {1} {3}} h_ {1} ^ {2 } ({\ tfrac {1} {2}}) - {\ tfrac {5} {9}} h_ {1} ({\ tfrac {1} {2}}) + {\ tfrac {19} {81} } + {\ tfrac {1} {3}} \ int _ {\ frac {1} {2}} ^ {1} \ left (\ left (h_ {1} (x) - {\ frac {x} { 3}} \ right) ^ {2} +2 \ left (h_ {1} (x) -1 + {\ frac {2x} {3}} \ right) ^ {2} \ right) \, \ mathrm { d} x; \ end {alineado}}}$
Queda por notar que
${\ Displaystyle \ left (a - {\ frac {x} {3}} \ right) ^ {2} +2 \ left (a-1 + {\ frac {2x} {3}} \ right) ^ {2 }}$
es mínimo en ${\ Displaystyle a = {\ tfrac {2-x} {3}},}$ y ${\ displaystyle {\ tfrac {1} {3}} a ^ {2} - {\ tfrac {5} {9}} a}$ es mínimo en ${\ Displaystyle a = {\ tfrac {5} {6}}.}$

[1] "Mathematica / distribución esférica uniforme - Wikilibros, libros abiertos para un mundo abierto" . en.wikibooks.org . Consultado el 27 de octubre de 2018 .

[2] Buchanan, K .; Huff, GH (julio de 2011). "Una comparación de matrices aleatorias unidas geométricamente en el espacio euclidiano". Simposio internacional de IEEE 2011 sobre antenas y propagación (APSURSI) : 2008-2011. doi : 10.1109 / APS.2011.5996900 . ISBN 978-1-4244-9563-4.

[3] Buchanan, K .; Flores, C .; Wheeland, S .; Jensen, J .; Grayson, D .; Huff, G. (mayo de 2017). "Transmitir formación de haz para aplicaciones de radar utilizando matrices aleatorias cónicas circularmente". Conferencia de radar IEEE 2017 : 0112–0117. doi : 10.1109 / RADAR.2017.7944181 . ISBN 978-1-4673-8823-8.

[FOOTNOTEPollard2002Sect._5.5,_Example_17_on_page_122-4] Pollard 2002 , secc. 5.5, Ejemplo 17 en la página 122.

[FOOTNOTEDurrett1996Sect._4.1(a),_Example_1.6_on_page_224-5] Durrett 1996 , secc. 4.1 (a), Ejemplo 1.6 en la página 224.

[FOOTNOTEPollard2002Sect._5.5,_page_122-6] Pollard , 2002 , secc. 5.5, página 122.

[1]