Expectativa condicional

En la teoría de la probabilidad , la expectativa condicional , el valor esperado condicional o la media condicional de una variable aleatoria es su valor esperado , el valor que tomaría "en promedio" sobre un número arbitrariamente grande de ocurrencias, dado que un cierto conjunto de "condiciones" se sabe que ocurre. Si la variable aleatoria puede tomar solo un número finito de valores, las "condiciones" son que la variable solo puede tomar un subconjunto de esos valores. Más formalmente, en el caso de que la variable aleatoria se defina sobre un espacio de probabilidad discreto , las "condiciones" son una partición de este espacio de probabilidad.

Dependiendo del contexto, la expectativa condicional puede ser una variable aleatoria o una función. La variable aleatoria se denota ${\ Displaystyle E (X \ mid Y)}$ análogamente a la probabilidad condicional . La forma de la función se denota ${\ Displaystyle E (X \ mid Y = y)}$ o un símbolo de función independiente como ${\ Displaystyle f (y)}$ se introduce con el significado ${\ Displaystyle E (X \ mid Y) = f (Y)}$ .

Ejemplos de

Ejemplo 1: Lanzamiento de dados

Considere la tirada de un dado justo y sea A = 1 si el número es par (es decir, 2, 4 o 6) y A = 0 en caso contrario. Además, sea B = 1 si el número es primo (es decir, 2, 3 o 5) y B = 0 en caso contrario.

	1	2	3	4	5	6
A	0	1	0	1	0	1
B	0	1	1	0	1	0

La expectativa incondicional de A es ${\ displaystyle E [A] = (0 + 1 + 0 + 1 + 0 + 1) / 6 = 1/2}$ , pero la expectativa de A condicional a B = 1 (es decir, condicional a que la tirada del dado sea 2, 3 o 5) es ${\ displaystyle E [A \ mid B = 1] = (1 + 0 + 0) / 3 = 1/3}$ , y la expectativa de A condicional a B = 0 (es decir, condicional a que la tirada del dado sea 1, 4 o 6) es ${\ displaystyle E [A \ mid B = 0] = (0 + 1 + 1) / 3 = 2/3}$ . Asimismo, la expectativa de B condicionada a A = 1 es ${\ Displaystyle E [B \ mid A = 1] = (1 + 0 + 0) / 3 = 1/3}$ , y la expectativa de B condicionada a A = 0 es ${\ displaystyle E [B \ mid A = 0] = (0 + 1 + 1) / 3 = 2/3}$ .

Ejemplo 2: datos de precipitaciones

Suponga que tenemos datos de lluvia diaria (mm de lluvia por día) recopilados por una estación meteorológica todos los días del período de diez años (3652 días) desde el 1 de enero de 1990 al 31 de diciembre de 1999. La expectativa incondicional de lluvia para un día no especificado es el promedio de las cantidades de lluvia para esos 3652 días. La expectativa condicional de lluvia para un día no especificado que se sabe (condicional de ser) en el mes de marzo, es el promedio de lluvia diaria durante los 310 días del período de diez años que cae en marzo. Y la expectativa condicional de lluvia condicionada a los días con fecha 2 de marzo es el promedio de las cantidades de lluvia que ocurrieron en los diez días con esa fecha específica.

Historia

El concepto relacionado de probabilidad condicional se remonta al menos a Laplace , quien calculó distribuciones condicionales. Fue Andrey Kolmogorov quien, en 1933, lo formalizó utilizando el teorema Radon-Nikodym . ^[1] En las obras de Paul Halmos ^[2] y Joseph L. Doob ^[3] de 1953, la expectativa condicional se generalizó a su definición moderna utilizando sub-σ-álgebras . ^[4]

Definiciones

Acondicionamiento en un evento

Si $A$ es un evento en ${\ Displaystyle {\ mathcal {F}}}$ con probabilidad distinta de cero, y $X$ es una variable aleatoria discreta , la expectativa condicional de $X$ dada $A$ es

{\ Displaystyle {\ begin {alineado} \ operatorname {E} (X \ mid A) & = \ sum _ {x} xP (X = x \ mid A) \\ & = \ sum _ {x} x {\ frac {P (\ {X = x \} \ cap A)} {P (A)}} \ end {alineado}}}

donde la suma se toma sobre todos los posibles resultados de $X$ .

Tenga en cuenta que si ${\ Displaystyle P (A) = 0}$ , la expectativa condicional no está definida debido a la división por cero.

Variables aleatorias discretas

Si $X$ e $Y$ son variables aleatorias discretas , la expectativa condicional de $X$ dada $Y$ es

{\ Displaystyle {\ begin {alineado} \ operatorname {E} (X \ mid Y = y) & = \ sum _ {x} xP (X = x \ mid Y = y) \\ & = \ sum _ {x } x {\ frac {P (X = x, Y = y)} {P (Y = y)}} \ end {alineado}}}

dónde ${\ Displaystyle P (X = x, Y = y)}$ es la función de masa de probabilidad conjunta de $X$ y $Y$ . La suma se toma sobre todos los posibles resultados de $X$ .

Tenga en cuenta que el condicionamiento en una variable aleatoria discreta es lo mismo que el condicionamiento en el evento correspondiente:

{\ Displaystyle \ operatorname {E} (X \ mid Y = y) = \ operatorname {E} (X \ mid A)}

donde $A$ es el conjunto ${\ Displaystyle \ {Y = y \}}$ .

Variables aleatorias continuas

Dejar ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ Ser variables aleatorias continuas con densidad conjunta. ${\ displaystyle f_ {X, Y} (x, y),}$ ${\ Displaystyle Y}$ densidad de ${\ Displaystyle f_ {Y} (y),}$ y densidad condicional ${\ Displaystyle \ textstyle f_ {X | Y} (x | y) = {\ frac {f_ {X, Y} (x, y)} {f_ {Y} (y)}}}$ de ${\ Displaystyle X}$ dado el evento ${\ Displaystyle Y = y.}$ La expectativa condicional de ${\ Displaystyle X}$ dado ${\ Displaystyle Y = y}$ es

{\ Displaystyle {\ begin {alineado} \ operatorname {E} (X \ mid Y = y) & = \ int _ {- \ infty} ^ {\ infty} xf_ {X | Y} (x | y) \ mathrm {d} x \\ & = {\ frac {1} {f_ {Y} (y)}} \ int _ {- \ infty} ^ {\ infty} xf_ {X, Y} (x, y) \ mathrm {d} x. \ end {alineado}}}

Cuando el denominador es cero, la expresión no está definida.

Tenga en cuenta que condicionar sobre una variable aleatoria continua no es lo mismo que condicionar sobre el evento ${\ Displaystyle \ {Y = y \}}$ como fue en el caso discreto. Para una discusión, vea Condicionamiento de un evento de probabilidad cero . No respetar esta distinción puede llevar a conclusiones contradictorias, como lo ilustra la paradoja de Borel-Kolmogorov .

L ² variables aleatorias

Se supone que todas las variables aleatorias en esta sección están en ${\ Displaystyle L ^ {2}}$ , que es cuadrado integrable . En su total generalidad, la expectativa condicional se desarrolla sin esta suposición, ver más adelante en Expectativa condicional con respecto a una sub-σ-álgebra . La ${\ Displaystyle L ^ {2}}$ La teoría, sin embargo, se considera más intuitiva ^[5] y admite generalizaciones importantes . En el contexto de ${\ Displaystyle L ^ {2}}$ Variables aleatorias, la expectativa condicional también se llama regresión .

En lo que sigue, dejemos ${\ Displaystyle (\ Omega, {\ mathcal {F}}, P)}$ ser un espacio de probabilidad, y ${\ Displaystyle X: \ Omega \ to \ mathbb {R}}$ en ${\ Displaystyle L ^ {2}}$ con media ${\ Displaystyle \ mu _ {X}}$ y varianza ${\ Displaystyle \ sigma _ {X} ^ {2}}$ . La expectativa ${\ Displaystyle \ mu _ {X}}$ minimiza el error cuadrático medio :

{\ Displaystyle \ min _ {x \ in \ mathbb {R}} \ operatorname {E} \ left ((Xx) ^ {2} \ right) = \ operatorname {E} \ left ((X- \ mu _ { X}) ^ {2} \ right) = \ sigma _ {X} ^ {2}}

.

La expectativa condicional de $X$ se define de manera análoga, excepto en lugar de un solo número ${\ Displaystyle \ mu _ {X}}$ , el resultado será una función ${\ Displaystyle e_ {X} (y)}$ . Dejar ${\ Displaystyle Y: \ Omega \ to \ mathbb {R} ^ {n}}$ ser un vector aleatorio también en ${\ Displaystyle L ^ {2}}$ . La expectativa condicional ${\ Displaystyle e_ {X}: \ mathbb {R} ^ {n} \ to \ mathbb {R}}$ es una función medible tal que

{\ Displaystyle \ min _ {g {\ text {medible}}} \ operatorname {E} \ left ((Xg (Y)) ^ {2} \ right) = \ operatorname {E} \ left ((X-e_ {X} (Y)) ^ {2} \ right)}

.

Tenga en cuenta que a diferencia de ${\ Displaystyle \ mu _ {X}}$ , la expectativa condicional ${\ Displaystyle e_ {X}}$ generalmente no es único: puede haber múltiples minimizadores del error cuadrático medio.

Unicidad

Ejemplo 1 : Considere el caso en el que $Y$ es la variable aleatoria constante que siempre es 1. Entonces, el error cuadrático medio se minimiza mediante cualquier función de la forma

{\ Displaystyle e_ {X} (y) = {\ begin {cases} \ mu _ {X} & {\ text {if}} y = 1 \\ {\ text {cualquier número}} & {\ text {de lo contrario }} \ end {cases}}}

Ejemplo 2 : considere el caso en el que $Y$ es el vector aleatorio bidimensional ${\ Displaystyle (X, 2X)}$ . Entonces claramente

{\ Displaystyle \ operatorname {E} (X \ mid Y) = X}

pero en términos de funciones se puede expresar como ${\ Displaystyle e_ {X} (y_ {1}, y_ {2}) = 3y_ {1} -y_ {2}}$ o ${\ Displaystyle e '_ {X} (y_ {1}, y_ {2}) = y_ {2} -y_ {1}}$ o infinitas otras formas. En el contexto de la regresión lineal , esta falta de unicidad se llama multicolinealidad .

La expectativa condicional es única hasta un conjunto de medidas cero en ${\ Displaystyle \ mathbb {R} ^ {n}}$ . La medida utilizada es la medida pushforward inducida por $Y$ .

En el primer ejemplo, la medida de avance es una distribución de Dirac en 1. En el segundo, se concentra en la "diagonal" ${\ Displaystyle \ {y: y_ {2} = 2y_ {1} \}}$ , de modo que cualquier conjunto que no lo cruce tenga medida 0.

Existencia

La existencia de un minimizador para ${\ Displaystyle \ min _ {g} \ operatorname {E} \ left ((Xg (Y)) ^ {2} \ right)}$ no es trivial. Se puede demostrar que

{\ Displaystyle M: ​​= \ {g (Y): g {\ text {es medible y}} \ operatorname {E} (g (Y) ^ {2}) <\ infty \} = L ^ {2} ( \ Omega, \ sigma (Y))}

es un subespacio cerrado del espacio de Hilbert ${\ Displaystyle L ^ {2} (\ Omega)}$ . ^[6] Según el teorema de la proyección de Hilbert , la condición necesaria y suficiente para ${\ Displaystyle e_ {X}}$ ser minimizador es que para todos ${\ Displaystyle f (Y)}$ en $M$ tenemos

{\ Displaystyle \ langle X-e_ {X} (Y), f (Y) \ rangle = 0}

.

En palabras, esta ecuación dice que el residuo ${\ Displaystyle X-e_ {X} (Y)}$ es ortogonal al espacio $M$ de todas las funciones de $Y$ . Esta condición de ortogonalidad, aplicada a las funciones del indicador ${\ Displaystyle f (Y) = 1_ {Y \ in H}}$ , se utiliza a continuación para extender la expectativa condicional al caso de que $X$ e $Y$ no estén necesariamente en ${\ Displaystyle L ^ {2}}$ .

Conexiones a la regresión

La expectativa condicional a menudo se aproxima en matemáticas aplicadas y estadística debido a las dificultades para calcularla analíticamente y para la interpolación. ^[7]

El subespacio de Hilbert

{\ Displaystyle M = \ {g (Y): \ operatorname {E} (g (Y) ^ {2}) <\ infty \}}

definido anteriormente se reemplaza con subconjuntos de los mismos al restringir la forma funcional de $g$ , en lugar de permitir cualquier función medible. Ejemplos de esto son la regresión del árbol de decisión cuando se requiere que $g$ sea una función simple , la regresión lineal cuando se requiere que $g$ sea afín , etc.

Estas generalizaciones de la expectativa condicional se producen a costa de que muchas de sus propiedades ya no se mantengan. Por ejemplo, sea $M$ el espacio de todas las funciones lineales de $Y$ y sea ${\ Displaystyle {\ mathcal {E}} _ {M}}$ denotar esta expectativa condicional generalizada / ${\ Displaystyle L ^ {2}}$ proyección. Si ${\ Displaystyle M}$ no contiene las funciones constantes , la propiedad de la torre ${\ Displaystyle \ operatorname {E} ({\ mathcal {E}} _ {M} (X)) = \ operatorname {E} (X)}$ no aguantará.

Un caso especial importante es cuando $X$ e $Y$ se distribuyen normalmente de forma conjunta. En este caso se puede demostrar que la expectativa condicional es equivalente a la regresión lineal:

{\ Displaystyle e_ {X} (Y) = \ alpha _ {0} + \ sum _ {i} \ alpha _ {i} Y_ {i}}

para coeficientes ${\ Displaystyle \ {\ alpha _ {i} \} _ {i = 0..n}}$ descrito en Distribución normal multivariante # Distribuciones condicionales .

Expectativa condicional con respecto a una sub-σ-álgebra

Expectativa condicional con respecto a un σ-álgebra: en este ejemplo, el espacio de probabilidad

{\ Displaystyle (\ Omega, {\ mathcal {F}}, P)}

es el intervalo [0,1] con la medida de Lebesgue . Definimos las siguientes σ-álgebras:

{\ Displaystyle {\ mathcal {A}} = {\ mathcal {F}}}

;

{\ Displaystyle {\ mathcal {B}}}

es la σ-álgebra generada por los intervalos con puntos finales 0, ¼, ½, ¾, 1; y

{\ Displaystyle {\ mathcal {C}}}

es la σ-álgebra generada por los intervalos con puntos finales 0, ½, 1. Aquí la expectativa condicional es efectivamente el promedio sobre los conjuntos mínimos de σ-álgebra.

Considera lo siguiente:

${\ Displaystyle (\ Omega, {\ mathcal {F}}, P)}$ es un espacio de probabilidad .
${\ Displaystyle X \ dos puntos \ Omega \ to \ mathbb {R} ^ {n}}$ es una variable aleatoria en ese espacio de probabilidad con expectativa finita.
${\ Displaystyle {\ mathcal {H}} \ subseteq {\ mathcal {F}}}$ es una sub -σ-álgebra de ${\ Displaystyle {\ mathcal {F}}}$ .

Desde ${\ Displaystyle {\ mathcal {H}}}$ es un sub ${\ Displaystyle \ sigma}$ -álgebra de ${\ Displaystyle {\ mathcal {F}}}$ , la función ${\ Displaystyle X \ dos puntos \ Omega \ to \ mathbb {R} ^ {n}}$ por lo general no es ${\ Displaystyle {\ mathcal {H}}}$ -medible, de ahí la existencia de las integrales de la forma ${\ textstyle \ int _ {H} X \, dP | _ {\ mathcal {H}}}$ , dónde ${\ Displaystyle H \ in {\ mathcal {H}}}$ y ${\ Displaystyle P | _ {\ mathcal {H}}}$ es la restricción de ${\ Displaystyle P}$ a ${\ Displaystyle {\ mathcal {H}}}$ , no se puede establecer en general. Sin embargo, los promedios locales ${\ textstyle \ int _ {H} X \, dP}$ se puede recuperar en ${\ Displaystyle (\ Omega, {\ mathcal {H}}, P | _ {\ mathcal {H}})}$ con la ayuda de la expectativa condicional. Una expectativa condicional de X dada ${\ Displaystyle {\ mathcal {H}}}$ , denotado como ${\ Displaystyle \ operatorname {E} (X \ mid {\ mathcal {H}})}$ , es cualquier ${\ Displaystyle {\ mathcal {H}}}$ - función medible ${\ Displaystyle \ Omega \ to \ mathbb {R} ^ {n}}$ que satisface:

{\ Displaystyle \ int _ {H} \ operatorname {E} (X \ mid {\ mathcal {H}}) \, \ mathrm {d} P = \ int _ {H} X \, \ mathrm {d} P }

para cada ${\ Displaystyle H \ in {\ mathcal {H}}}$ . ^[8]

Como se señaló en el ${\ Displaystyle L ^ {2}}$ discusión, esta es una condición equivalente a decir que el residuo ${\ Displaystyle X- \ operatorname {E} (X \ mid {\ mathcal {H}})}$ ser ortogonal a las funciones del indicador ${\ Displaystyle 1_ {H}}$ :

{\ Displaystyle \ langle X- \ operatorname {E} (X \ mid {\ mathcal {H}}), 1_ {H} \ rangle = 0}

Existencia

La existencia de ${\ Displaystyle \ operatorname {E} (X \ mid {\ mathcal {H}})}$ puede establecerse observando que ${\ textstyle \ mu ^ {X} \ colon F \ mapsto \ int _ {F} X \, \ mathrm {d} P}$ por ${\ Displaystyle F \ in {\ mathcal {F}}}$ es una medida finita en ${\ Displaystyle (\ Omega, {\ mathcal {F}})}$ que es absolutamente continuo con respecto a ${\ Displaystyle P}$ . Si ${\ Displaystyle h}$ es la inyección natural de ${\ Displaystyle {\ mathcal {H}}}$ a ${\ Displaystyle {\ mathcal {F}}}$ , luego ${\ Displaystyle \ mu ^ {X} \ circ h = \ mu ^ {X} | _ {\ mathcal {H}}}$ es la restricción de ${\ Displaystyle \ mu ^ {X}}$ a ${\ Displaystyle {\ mathcal {H}}}$ y ${\ Displaystyle P \ circ h = P | _ {\ mathcal {H}}}$ es la restricción de ${\ Displaystyle P}$ a ${\ Displaystyle {\ mathcal {H}}}$ . Además, ${\ Displaystyle \ mu ^ {X} \ circ h}$ es absolutamente continuo con respecto a ${\ Displaystyle P \ circ h}$ , porque la condición

{\ Displaystyle P \ circ h (H) = 0 \ iff P (h (H)) = 0}

implica

{\ Displaystyle \ mu ^ {X} (h (H)) = 0 \ iff \ mu ^ {X} \ circ h (H) = 0.}

Por lo tanto, tenemos

{\ Displaystyle \ operatorname {E} (X \ mid {\ mathcal {H}}) = {\ frac {\ mathrm {d} \ mu ^ {X} | _ {\ mathcal {H}}} {\ mathrm { d} P | _ {\ mathcal {H}}}} = {\ frac {\ mathrm {d} (\ mu ^ {X} \ circ h)} {\ mathrm {d} (P \ circ h)}} ,}

donde las derivadas son derivadas de medidas Radon-Nikodym .

Expectativa condicional con respecto a una variable aleatoria

Considere, además de lo anterior,

Un espacio medible ${\ Displaystyle (U, \ Sigma)}$ , y
Una variable aleatoria ${\ Displaystyle Y \ colon \ Omega \ to U}$ .

La expectativa condicional de $X$ dada $Y$ se define aplicando la construcción anterior en el σ-álgebra generada por $Y$ :

{\ Displaystyle \ operatorname {E} [X | Y]: = \ operatorname {E} [X | \ sigma (Y)]}

.

Según el lema de Doob-Dynkin , existe una función ${\ Displaystyle e_ {X} \ dos puntos U \ a \ mathbb {R} ^ {n}}$ tal que

{\ Displaystyle \ operatorname {E} [X | Y] = e_ {X} (Y)}

.

Discusión

Ésta no es una definición constructiva; simplemente se nos da la propiedad requerida que debe satisfacer una expectativa condicional.
- La definición de ${\ Displaystyle \ operatorname {E} (X \ mid {\ mathcal {H}})}$ puede parecerse al de ${\ Displaystyle \ operatorname {E} (X \ mid H)}$ para un evento ${\ Displaystyle H}$ pero estos son objetos muy diferentes. El primero es un ${\ Displaystyle {\ mathcal {H}}}$ -función medible ${\ Displaystyle \ Omega \ to \ mathbb {R} ^ {n}}$ , mientras que este último es un elemento de ${\ Displaystyle \ mathbb {R} ^ {n}}$ y ${\ Displaystyle \ operatorname {E} (X \ mid H) \ P (H) = \ int _ {H} X \, \ mathrm {d} P = \ int _ {H} \ operatorname {E} (X \ mid {\ mathcal {H}}) \, \ mathrm {d} P}$ por ${\ Displaystyle H \ in {\ mathcal {H}}}$ .
- Se puede demostrar que la unicidad es casi segura : es decir, las versiones de la misma expectativa condicional solo diferirán en un conjunto de probabilidad cero .
El σ-álgebra ${\ Displaystyle {\ mathcal {H}}}$ controla la "granularidad" del acondicionamiento. Una expectativa condicional ${\ Displaystyle E (X \ mid {\ mathcal {H}})}$ sobre una σ-álgebra más fina (más grande) ${\ Displaystyle {\ mathcal {H}}}$ retiene información sobre las probabilidades de una clase más amplia de eventos. Una expectativa condicional sobre un σ-álgebra más grueso (más pequeño) promedia sobre más eventos.

La probabilidad condicional

Para un subconjunto $B de$ Borel en ${\ Displaystyle {\ mathcal {B}} (\ mathbb {R} ^ {n})}$ , se puede considerar la colección de variables aleatorias

{\ Displaystyle \ kappa _ {\ mathcal {H}} (\ omega, B): = \ operatorname {E} (1_ {X \ in B} | {\ mathcal {H}}) (\ omega)}

.

Se puede demostrar que forman un núcleo de Markov , es decir, para casi todos ${\ Displaystyle \ omega}$ , ${\ Displaystyle \ kappa _ {\ mathcal {H}} (\ omega, -)}$ es una medida de probabilidad. ^[9]

La Ley del estadístico inconsciente es entonces

{\ Displaystyle \ operatorname {E} [f (X) | {\ mathcal {H}}] = \ int f (x) \ kappa _ {\ mathcal {H}} (-, \ mathrm {d} x)}

.

Esto muestra que las expectativas condicionales son, como sus contrapartes incondicionales, integraciones, frente a una medida condicional.

Propiedades básicas

Todas las fórmulas siguientes deben entenderse en un sentido casi seguro. El σ-álgebra ${\ Displaystyle {\ mathcal {H}}}$ podría ser reemplazado por una variable aleatoria ${\ Displaystyle Z}$ , es decir ${\ Displaystyle {\ mathcal {H}} = \ sigma (Z)}$ .

Sacando factores independientes:
- Si ${\ Displaystyle X}$ es independiente de ${\ Displaystyle {\ mathcal {H}}}$ , luego ${\ Displaystyle E (X \ mid {\ mathcal {H}}) = E (X)}$ .

Prueba

Dejar ${\ Displaystyle B \ in {\ mathcal {H}}}$ . Luego ${\ Displaystyle X}$ es independiente de ${\ Displaystyle 1_ {B}}$ , entonces lo conseguimos

{\ Displaystyle \ int _ {B} X \, dP = E (X1_ {B}) = E (X) E (1_ {B}) = E (X) P (B) = \ int _ {B} E (X) \, dP.}

Por lo tanto, la definición de expectativa condicional se satisface mediante la variable aleatoria constante ${\ Displaystyle E (X)}$ , como se desee.

- Si ${\ Displaystyle X}$ es independiente de ${\ Displaystyle \ sigma (Y, {\ mathcal {H}})}$ , luego ${\ Displaystyle E (XY \ mid {\ mathcal {H}}) = E (X) \, E (Y \ mid {\ mathcal {H}})}$ . Tenga en cuenta que este no es necesariamente el caso si ${\ Displaystyle X}$ es solo independiente de ${\ Displaystyle {\ mathcal {H}}}$ y de ${\ Displaystyle Y}$ .
- Si ${\ Displaystyle X, Y}$ son independientes, ${\ Displaystyle {\ mathcal {G}}, {\ mathcal {H}}}$ son independientes, ${\ Displaystyle X}$ es independiente de ${\ Displaystyle {\ mathcal {H}}}$ y ${\ Displaystyle Y}$ es independiente de ${\ Displaystyle {\ mathcal {G}}}$ , luego ${\ Displaystyle E (E (XY \ mid {\ mathcal {G}}) \ mid {\ mathcal {H}}) = E (X) E (Y) = E (E (XY \ mid {\ mathcal {H }}) \ mid {\ mathcal {G}})}$ .
Estabilidad:
- Si ${\ Displaystyle X}$ es ${\ Displaystyle {\ mathcal {H}}}$ -medible, entonces ${\ Displaystyle E (X \ mid {\ mathcal {H}}) = X}$ .
- Si Z es una variable aleatoria, entonces ${\ Displaystyle \ operatorname {E} (f (Z) \ mid Z) = f (Z)}$ . En su forma más simple, esto dice ${\ Displaystyle \ operatorname {E} (Z \ mid Z) = Z}$ .
Sacando factores conocidos:
- Si ${\ Displaystyle X}$ es ${\ Displaystyle {\ mathcal {H}}}$ -medible, entonces ${\ Displaystyle E (XY \ mid {\ mathcal {H}}) = X \, E (Y \ mid {\ mathcal {H}})}$ .
- Si Z es una variable aleatoria, entonces ${\ Displaystyle \ operatorname {E} (f (Z) Y \ mid Z) = f (Z) \ operatorname {E} (Y \ mid Z)}$ .
Ley de la expectativa total : ${\ Displaystyle E (E (X \ mid {\ mathcal {H}})) = E (X)}$ . ^[10]
Propiedad de la torre:
- Para sub-σ-álgebras ${\ Displaystyle {\ mathcal {H}} _ {1} \ subset {\ mathcal {H}} _ {2} \ subset {\ mathcal {F}}}$ tenemos ${\ Displaystyle E (E (X \ mid {\ mathcal {H}} _ {2}) \ mid {\ mathcal {H}} _ {1}) = E (X \ mid {\ mathcal {H}} _ {1}) (= E (E (X \ mid {\ mathcal {H}} _ {1}) \ mid {\ mathcal {H}} _ {2})}$ , por 'estabilidad' arriba ${\ Displaystyle)}$ .
  - Un caso especial es cuando Z es un ${\ Displaystyle {\ mathcal {H}}}$ -Variable aleatoria medible. Luego ${\ Displaystyle \ sigma (Z) \ subconjunto {\ mathcal {H}}}$ y por lo tanto ${\ Displaystyle E (E (X \ mid {\ mathcal {H}}) \ mid Z) = E (X \ mid Z)}$ .
  - Propiedad Doob martingala : lo anterior con ${\ Displaystyle Z = E (X \ mid {\ mathcal {H}})}$ (cual es ${\ Displaystyle {\ mathcal {H}}}$ -medible), y usando también ${\ Displaystyle \ operatorname {E} (Z \ mid Z) = Z}$ , da ${\ Displaystyle E (X \ mid E (X \ mid {\ mathcal {H}})) = E (X \ mid {\ mathcal {H}})}$ .
- Para variables aleatorias ${\ Displaystyle X, Y}$ tenemos ${\ Displaystyle E (E (X \ mid Y) \ mid f (Y)) = E (X \ mid f (Y))}$ .
- Para variables aleatorias ${\ Displaystyle X, Y, Z}$ tenemos ${\ Displaystyle E (E (X \ mid Y, Z) \ mid Y) = E (X \ mid Y)}$ .
Linealidad: tenemos ${\ Displaystyle E (X_ {1} + X_ {2} \ mid {\ mathcal {H}}) = E (X_ {1} \ mid {\ mathcal {H}}) + E (X_ {2} \ mid {\ mathcal {H}})}$ y ${\ Displaystyle E (aX \ mid {\ mathcal {H}}) = a \, E (X \ mid {\ mathcal {H}})}$ por ${\ Displaystyle a \ in \ mathbb {R}}$ .
Positividad: Si ${\ Displaystyle X \ geq 0}$ luego ${\ Displaystyle E (X \ mid {\ mathcal {H}}) \ geq 0}$ .
Monotonicidad: Si ${\ Displaystyle X_ {1} \ leq X_ {2}}$ luego ${\ Displaystyle E (X_ {1} \ mid {\ mathcal {H}}) \ leq E (X_ {2} \ mid {\ mathcal {H}})}$ .
Convergencia monótona : si ${\ Displaystyle 0 \ leq X_ {n} \ uparrow X}$ luego ${\ Displaystyle E (X_ {n} \ mid {\ mathcal {H}}) \ uparrow E (X \ mid {\ mathcal {H}})}$ .
Convergencia dominada : si ${\ Displaystyle X_ {n} \ a X}$ y ${\ Displaystyle | X_ {n} | \ leq Y}$ con ${\ Displaystyle Y \ en L ^ {1}}$ , luego ${\ Displaystyle E (X_ {n} \ mid {\ mathcal {H}}) \ a E (X \ mid {\ mathcal {H}})}$ .
Lema de Fatou : Si ${\ Displaystyle \ textstyle E (\ inf _ {n} X_ {n} \ mid {\ mathcal {H}})> - \ infty}$ luego ${\ Displaystyle \ textstyle E (\ liminf _ {n \ to \ infty} X_ {n} \ mid {\ mathcal {H}}) \ leq \ liminf _ {n \ to \ infty} E (X_ {n} \ mid {\ mathcal {H}})}$ .
Desigualdad de Jensen : Si ${\ Displaystyle f \ colon \ mathbb {R} \ flecha derecha \ mathbb {R}}$ es una función convexa , entonces ${\ Displaystyle f (E (X \ mid {\ mathcal {H}})) \ leq E (f (X) \ mid {\ mathcal {H}})}$ .
Varianza condicional : Usando la expectativa condicional podemos definir, por analogía con la definición de la varianza como la desviación cuadrática media del promedio, la varianza condicional
- Definición: ${\ Displaystyle \ operatorname {Var} (X \ mid {\ mathcal {H}}) = \ operatorname {E} {\ bigl (} (X- \ operatorname {E} (X \ mid {\ mathcal {H}} )) ^ {2} \ mid {\ mathcal {H}} {\ bigr)}}$
- Fórmula algebraica para la varianza: ${\ Displaystyle \ operatorname {Var} (X \ mid {\ mathcal {H}}) = \ operatorname {E} (X ^ {2} \ mid {\ mathcal {H}}) - {\ bigl (} \ operatorname {E} (X \ mid {\ mathcal {H}}) {\ bigr)} ^ {2}}$
- Ley de varianza total : ${\ Displaystyle \ operatorname {Var} (X) = \ operatorname {E} (\ operatorname {Var} (X \ mid {\ mathcal {H}})) + \ operatorname {Var} (\ operatorname {E} (X \ mid {\ mathcal {H}}))}$ .
Convergencia martingala : para una variable aleatoria ${\ Displaystyle X}$ , que tiene una expectativa finita, tenemos ${\ Displaystyle E (X \ mid {\ mathcal {H}} _ {n}) \ a E (X \ mid {\ mathcal {H}})}$ , si alguno ${\ Displaystyle {\ mathcal {H}} _ {1} \ subconjunto {\ mathcal {H}} _ {2} \ subconjunto \ dotsb}$ es una serie creciente de sub-σ-álgebras y ${\ Displaystyle \ textstyle {\ mathcal {H}} = \ sigma (\ bigcup _ {n = 1} ^ {\ infty} {\ mathcal {H}} _ {n})}$ o si ${\ Displaystyle {\ mathcal {H}} _ {1} \ supset {\ mathcal {H}} _ {2} \ supset \ dotsb}$ es una serie decreciente de sub-σ-álgebras y ${\ Displaystyle \ textstyle {\ mathcal {H}} = \ bigcap _ {n = 1} ^ {\ infty} {\ mathcal {H}} _ {n}}$ .
Expectativa condicional como ${\ Displaystyle L ^ {2}}$ -proyección: Si ${\ Displaystyle X, Y}$ están en el espacio de Hilbert de variables aleatorias reales integrables al cuadrado (variables aleatorias reales con segundo momento finito) entonces
- por ${\ Displaystyle {\ mathcal {H}}}$ -mensurable ${\ Displaystyle Y}$ , tenemos ${\ Displaystyle E (Y (XE (X \ mid {\ mathcal {H}}))) = 0}$ , es decir, la expectativa condicional ${\ Displaystyle E (X \ mid {\ mathcal {H}})}$ es en el sentido del producto escalar L 2 ( P ) la proyección ortogonal de ${\ Displaystyle X}$ al subespacio lineal de ${\ Displaystyle {\ mathcal {H}}}$ -Funciones medibles. (Esto permite definir y probar la existencia de la expectativa condicional basada en el teorema de la proyección de Hilbert ).
- el mapeo ${\ Displaystyle X \ mapsto \ operatorname {E} (X \ mid {\ mathcal {H}})}$ es autoadjunto : ${\ Displaystyle \ operatorname {E} (X \ operatorname {E} (Y \ mid {\ mathcal {H}})) = \ operatorname {E} \ left (\ operatorname {E} (X \ mid {\ mathcal { H}}) \ operatorname {E} (Y \ mid {\ mathcal {H}}) \ right) = \ operatorname {E} (\ operatorname {E} (X \ mid {\ mathcal {H}}) Y) }$
El condicionamiento es una proyección contractiva de L p espacios ${\ Displaystyle L ^ {p} (\ Omega, {\ mathcal {F}}, P) \ rightarrow L ^ {p} (\ Omega, {\ mathcal {H}}, P)}$ . Es decir, ${\ Displaystyle \ operatorname {E} {\ big (} | \ operatorname {E} (X \ mid {\ mathcal {H}}) | ^ {p} {\ big)} \ leq \ operatorname {E} {\ grande (} | X | ^ {p} {\ grande)}}$ para cualquier p ≥ 1.
Propiedad de independencia condicional de Doob: ^[11] Si ${\ Displaystyle X, Y}$ son condicionalmente independientes dado ${\ Displaystyle Z}$ , luego ${\ Displaystyle P (X \ in B \ mid Y, Z) = P (X \ in B \ mid Z)}$ (equivalentemente, ${\ Displaystyle E (1 _ {\ {X \ in B \}} \ mid Y, Z) = E (1 _ {\ {X \ in B \}} \ mid Z)}$ ).

Ver también

Acondicionamiento (probabilidad)
Teorema de desintegración
Lema de Doob-Dynkin
Lema de factorización
Distribución de probabilidad conjunta
Expectativa condicional no conmutativa

Leyes de probabilidad

Ley de la acumulación total (generaliza los otros tres)
Ley de la expectativa total
Ley de probabilidad total
Ley de la varianza total

Notas

^
Kolmogorov, Andrey (1933). Grundbegriffe der Wahrscheinlichkeitsrechnung (en alemán). Berlín: Julius Springer. pag. 46.
- Traducción: Kolmogorov, Andrey (1956). Fundamentos de la teoría de la probabilidad (2ª ed.). Nueva York: Chelsea. pag. 53. ISBN 0-8284-0023-7. Archivado desde el original el 14 de septiembre de 2018 . Consultado el 14 de marzo de 2009 .
^ Oxtoby, JC (1953). "Revisión: teoría de la medida , por PR Halmos" (PDF) . Toro. Amer. Matemáticas. Soc . 59 (1): 89–91. doi : 10.1090 / s0002-9904-1953-09662-8 .
^ JL Doob (1953). Procesos estocásticos . John Wiley e hijos . ISBN 0-471-52369-0.
^ Olav Kallenberg: Fundamentos de la probabilidad moderna. 2. edición. Springer, Nueva York 2002, ISBN 0-387-95313-2 , pág. 573.
^ "probabilidad - intuición detrás de la expectativa condicional" . Intercambio de pila de matemáticas .
^ Brockwell, Peter J. (1991). Series temporales: teoría y métodos (2ª ed.). Nueva York: Springer-Verlag. ISBN 978-1-4419-0320-4.
^ Hastie, Trevor. Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción (PDF) (Segunda edición, séptima edición corregida). Nueva York. ISBN 978-0-387-84858-7.
^ Billingsley, Patrick (1995). "Artículo 34. Expectativa condicional". Probabilidad y medida (3ª ed.). John Wiley e hijos. pag. 445. ISBN 0-471-00710-2.
^ Klenke, Achim. Teoría de la probabilidad: un curso integral (Segunda ed.). Londres. ISBN 978-1-4471-5361-0.
^ "Expectativa condicional" . www.statlect.com . Consultado el 11 de septiembre de 2020 .
^ Kallenberg, Olav (2001). Fundamentos de la probabilidad moderna (2ª ed.). York, Pensilvania, EE.UU .: Springer. pag. 110. ISBN 0-387-95313-2.

Referencias

William Feller , Introducción a la teoría de la probabilidad y sus aplicaciones , vol 1, 1950, página 223
Paul A. Meyer, Probabilidad y potenciales , Blaisdell Publishing Co., 1966, página 28
Grimmett, Geoffrey ; Stirzaker, David (2001). Probabilidad y procesos aleatorios (3ª ed.). Prensa de la Universidad de Oxford. ISBN 0-19-857222-0., páginas 67–69

enlaces externos

Ushakov, NG (2001) [1994], "Expectativa matemática condicional" , Enciclopedia de matemáticas , EMS Press

[kol1933-1] Kolmogorov, Andrey (1933). Grundbegriffe der Wahrscheinlichkeitsrechnung (en alemán). Berlín: Julius Springer. pag. 46.
Traducción: Kolmogorov, Andrey (1956). Fundamentos de la teoría de la probabilidad (2ª ed.). Nueva York: Chelsea. pag. 53. ISBN 0-8284-0023-7. Archivado desde el original el 14 de septiembre de 2018 . Consultado el 14 de marzo de 2009 .

[2] Traducción: Kolmogorov, Andrey (1956). Fundamentos de la teoría de la probabilidad (2ª ed.). Nueva York: Chelsea. pag. 53. ISBN 0-8284-0023-7. Archivado desde el original el 14 de septiembre de 2018 . Consultado el 14 de marzo de 2009 .

[halmos1950-2] Oxtoby, JC (1953). "Revisión: teoría de la medida , por PR Halmos" (PDF) . Toro. Amer. Matemáticas. Soc . 59 (1): 89–91. doi : 10.1090 / s0002-9904-1953-09662-8 .

[doob1953-3] JL Doob (1953). Procesos estocásticos . John Wiley e hijos . ISBN 0-471-52369-0.

[4] Olav Kallenberg: Fundamentos de la probabilidad moderna. 2. edición. Springer, Nueva York 2002, ISBN 0-387-95313-2 , pág. 573.

[5] "probabilidad - intuición detrás de la expectativa condicional" . Intercambio de pila de matemáticas .

[6] Brockwell, Peter J. (1991). Series temporales: teoría y métodos (2ª ed.). Nueva York: Springer-Verlag. ISBN 978-1-4419-0320-4.

[7] Hastie, Trevor. Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción (PDF) (Segunda edición, séptima edición corregida). Nueva York. ISBN 978-0-387-84858-7.

[billingsley1995-8] Billingsley, Patrick (1995). "Artículo 34. Expectativa condicional". Probabilidad y medida (3ª ed.). John Wiley e hijos. pag. 445. ISBN 0-471-00710-2.

[9] Klenke, Achim. Teoría de la probabilidad: un curso integral (Segunda ed.). Londres. ISBN 978-1-4471-5361-0.

[10] "Expectativa condicional" . www.statlect.com . Consultado el 11 de septiembre de 2020 .

[11] Kallenberg, Olav (2001). Fundamentos de la probabilidad moderna (2ª ed.). York, Pensilvania, EE.UU .: Springer. pag. 110. ISBN 0-387-95313-2.

[1]

Expectativa condicional

Ejemplos de

Ejemplo 1: Lanzamiento de dados

Ejemplo 2: datos de precipitaciones

Historia

Definiciones

Acondicionamiento en un evento

Variables aleatorias discretas

Variables aleatorias continuas

L 2 variables aleatorias

Unicidad

Existencia

Conexiones a la regresión

Expectativa condicional con respecto a una sub-σ-álgebra

Existencia

Expectativa condicional con respecto a una variable aleatoria

Discusión

La probabilidad condicional

Propiedades básicas

Ver también

Leyes de probabilidad

Notas

Referencias

enlaces externos

L ² variables aleatorias