Distribución truncada

En estadística , una distribución truncada es una distribución condicional que resulta de restringir el dominio de alguna otra distribución de probabilidad.. Las distribuciones truncadas surgen en las estadísticas prácticas en los casos en que la capacidad de registrar, o incluso conocer, las ocurrencias se limita a valores que se encuentran por encima o por debajo de un umbral dado o dentro de un rango específico. Por ejemplo, si se examinan las fechas de nacimiento de los niños en una escuela, estas suelen estar sujetas a truncamiento en relación con las de todos los niños en el área, dado que la escuela acepta solo niños en un rango de edad determinado en una fecha específica. No habría información sobre cuántos niños en la localidad tenían fechas de nacimiento antes o después de las fechas límite de la escuela si solo se utilizara un enfoque directo de la escuela para obtener información.

Distribución truncada
Función de densidad de probabilidad Función de densidad de probabilidad para la distribución normal truncada para diferentes conjuntos de parámetros. En todos los casos, a = −10 y b = 10. Para el negro: μ = −8, σ = 2; azul: μ = 0, σ = 2; rojo: μ = 9, σ = 10; naranja: μ = 0, σ = 10.
Apoyo	${\ Displaystyle x \ in (a, b]}$
PDF	${\ Displaystyle {\ frac {g (x)} {F (b) -F (a)}}}$
CDF	${\ Displaystyle {\ frac {\ int _ {a} ^ {x} dF (t)} {F (b) -F (a)}} = {\ frac {F (x) -F (a)} { F (b) -F (a)}}}$
Significar	${\ Displaystyle {\ frac {\ int _ {a} ^ {b} xdF (x)} {F (b) -F (a)}}}$
Mediana	${\ Displaystyle F ^ {- 1} \ left ({\ frac {F (a) + F (b)} {2}} \ right)}$

Cuando el muestreo es tal que retiene el conocimiento de los elementos que quedan fuera del rango requerido, sin registrar los valores reales, esto se conoce como censura , en contraposición al truncamiento aquí. ^[1]

Definición

La siguiente discusión es en términos de una variable aleatoria que tiene una distribución continua, aunque las mismas ideas se aplican a distribuciones discretas . De manera similar, la discusión asume que el truncamiento es en un intervalo semiabierto y ∈ ( a, b ] pero otras posibilidades pueden manejarse directamente.

Supongamos que tenemos una variable aleatoria, ${\ Displaystyle X}$ que se distribuye de acuerdo con alguna función de densidad de probabilidad, ${\ Displaystyle f (x)}$ , con función de distribución acumulativa ${\ Displaystyle F (x)}$ ambos tienen soporte infinito . Supongamos que deseamos conocer la densidad de probabilidad de la variable aleatoria después de restringir el soporte para que esté entre dos constantes de modo que el soporte, ${\ Displaystyle y = (a, b]}$ . Es decir, supongamos que deseamos saber cómo ${\ Displaystyle X}$ se distribuye dado ${\ Displaystyle a$ .

{\ Displaystyle f (x | a

dónde ${\ Displaystyle g (x) = f (x)}$ para todos ${\ Displaystyle a$ y ${\ Displaystyle g (x) = 0}$ en todos lados. Es decir, ${\ Displaystyle g (x) = f (x) \ cdot I (\ {a$ dónde ${\ Displaystyle I}$ es la función del indicador. Tenga en cuenta que el denominador en la distribución truncada es constante con respecto a la ${\ Displaystyle x}$ .

Note que de hecho ${\ Displaystyle f (x | a$ es una densidad:

{\ Displaystyle \ int _ {a} ^ {b} f (x | a

.

Las distribuciones truncadas no necesitan quitar partes de la parte superior e inferior. Una distribución truncada en la que solo se ha eliminado la parte inferior de la distribución es la siguiente:

{\ Displaystyle f (x | X> y) = {\ frac {g (x)} {1-F (y)}}}

dónde ${\ Displaystyle g (x) = f (x)}$ para todos ${\ Displaystyle y }>$ y ${\ Displaystyle g (x) = 0}$ en cualquier otro lugar, y ${\ Displaystyle F (x)}$ es la función de distribución acumulativa .

Una distribución truncada donde se ha eliminado la parte superior de la distribución es la siguiente:

{\ Displaystyle f (x | X \ leq y) = {\ frac {g (x)} {F (y)}}}

dónde ${\ Displaystyle g (x) = f (x)}$ para todos ${\ Displaystyle x \ leq y}$ y ${\ Displaystyle g (x) = 0}$ en cualquier otro lugar, y ${\ Displaystyle F (x)}$ es la función de distribución acumulativa .

Expectativa de variable aleatoria truncada

Supongamos que deseamos encontrar el valor esperado de una variable aleatoria distribuida según la densidad ${\ Displaystyle f (x)}$ y una distribución acumulativa de ${\ Displaystyle F (x)}$ dado que la variable aleatoria, ${\ Displaystyle X}$ , es mayor que algún valor conocido ${\ Displaystyle y}$ . La expectativa de una variable aleatoria truncada es así:

${\ Displaystyle E (X | X> y) = {\ frac {\ int _ {y} ^ {\ infty} xg (x) dx} {1-F (y)}}}$

donde de nuevo ${\ Displaystyle g (x)}$ es ${\ Displaystyle g (x) = f (x)}$ para todos ${\ Displaystyle x> y}$ y ${\ Displaystyle g (x) = 0}$ en todos lados.

Dejando ${\ Displaystyle a}$ y ${\ Displaystyle b}$ Ser los límites inferior y superior, respectivamente, de soporte para la función de densidad original. ${\ Displaystyle f}$ (que asumimos es continua), propiedades de ${\ Displaystyle E (u (X) | X> y)}$ , dónde ${\ Displaystyle u}$ es una función continua con una derivada continua, incluye:

(I) ${\ Displaystyle \ lim _ {y \ to a} E (u (X) | X> y) = E (u (X))}$

(ii) ${\ Displaystyle \ lim _ {y \ to b} E (u (X) | X> y) = u (b)}$

(iii) ${\ Displaystyle {\ frac {\ parcial} {\ y parcial}} [E (u (X) | X> y)] = {\ frac {f (y)} {1-F (y)}} [E (u (X) | X> y) -u (y)]}$

y ${\ Displaystyle {\ frac {\ parcial} {\ y parcial}} [E (u (X) | X )]>$

(iv) ${\ Displaystyle \ lim _ {y \ to a} {\ frac {\ parcial} {\ parcial y}} [E (u (X) | X> y)] = f (a) [E (u (X) ) -u (a)]}$

(v) ${\ Displaystyle \ lim _ {y \ to b} {\ frac {\ parcial} {\ parcial y}} [E (u (X) | X> y)] = {\ frac {1} {2}} u '(B)}$

Siempre que existan los límites, es decir: ${\ Displaystyle \ lim _ {y \ to c} u '(y) = u' (c)}$ , ${\ Displaystyle \ lim _ {y \ to c} u (y) = u (c)}$ y ${\ Displaystyle \ lim _ {y \ to c} f (y) = f (c)}$ dónde ${\ Displaystyle c}$ representa ya sea ${\ Displaystyle a}$ o ${\ Displaystyle b}$ .

Ejemplos de

La distribución normal truncada es un ejemplo importante. ^[2]

El modelo Tobit emplea distribuciones truncadas. Otros ejemplos incluyen binomio truncado en x = 0 y poisson truncado en x = 0.

Truncamiento aleatorio

Supongamos que tenemos la siguiente configuración: un valor de truncamiento, ${\ Displaystyle t}$ , se selecciona al azar de una densidad, ${\ Displaystyle g (t)}$ , pero este valor no se observa. Entonces un valor, ${\ Displaystyle x}$ , se selecciona al azar de la distribución truncada, ${\ Displaystyle f (x | t) = Tr (x)}$ . Supongamos que observamos ${\ Displaystyle x}$ y deseamos actualizar nuestra creencia sobre la densidad de ${\ Displaystyle t}$ dada la observación.

Primero, por definición:

{\ Displaystyle f (x) = \ int _ {x} ^ {\ infty} f (x | t) g (t) dt}

, y

{\ Displaystyle F (a) = \ int _ {x} ^ {a} \ left [\ int _ {- \ infty} ^ {\ infty} f (x | t) g (t) dt \ right] dx. }

Darse cuenta de ${\ Displaystyle t}$ debe ser mayor que ${\ Displaystyle x}$ , por lo tanto, cuando integramos sobre ${\ Displaystyle t}$ , establecemos un límite inferior de ${\ Displaystyle x}$ . Las funciones ${\ Displaystyle f (x)}$ y ${\ Displaystyle F (x)}$ son la densidad incondicional y la función de distribución acumulativa incondicional, respectivamente.

Por regla de Bayes ,

{\ Displaystyle g (t | x) = {\ frac {f (x | t) g (t)} {f (x)}},}

que se expande a

{\ Displaystyle g (t | x) = {\ frac {f (x | t) g (t)} {\ int _ {x} ^ {\ infty} f (x | t) g (t) dt}} .}

Dos distribuciones uniformes (ejemplo)

Suponga que sabemos que t se distribuye uniformemente a partir de [0, T ] yx | t se distribuye uniformemente en [0, t ]. Sean g ( t ) y f ( x | t ) las densidades que describen t y x respectivamente. Supongamos que observamos un valor de x y deseamos conocer la distribución de t dado ese valor de x .

{\ Displaystyle g (t | x) = {\ frac {f (x | t) g (t)} {f (x)}} = {\ frac {1} {t (\ ln (T) - \ ln (x))}} \ quad {\ text {para todos}} t> x.}

Ver también

Media truncada

Referencias

^ Dodge, Y. (2003) El diccionario de términos estadísticos de Oxford . OUP. ISBN 0-19-920613-9
^ Johnson, NL, Kotz, S., Balakrishnan, N. (1994) Distribuciones univariadas continuas, volumen 1 , Wiley. ISBN 0-471-58495-9 (Sección 10.1)

[1] Dodge, Y. (2003) El diccionario de términos estadísticos de Oxford . OUP. ISBN 0-19-920613-9

[2] Johnson, NL, Kotz, S., Balakrishnan, N. (1994) Distribuciones univariadas continuas, volumen 1 , Wiley. ISBN 0-471-58495-9 (Sección 10.1)

[1]