Distribución normal truncada

En probabilidad y estadística, la distribución normal truncada es la distribución de probabilidad derivada de la de una variable aleatoria distribuida normalmente al acotar la variable aleatoria desde abajo o arriba (o ambos). La distribución normal truncada tiene amplias aplicaciones en estadística y econometría . Por ejemplo, se utiliza para modelar las probabilidades de los resultados binarios en el modelo probit y para modelar datos censurados en el modelo tobit .

Función de densidad de probabilidad Función de densidad de probabilidad para la distribución normal truncada para diferentes conjuntos de parámetros. En todos los casos, a = −10 y b = 10. Para el negro: μ = −8, σ = 2; azul: μ = 0, σ = 2; rojo: μ = 9, σ = 10; naranja: μ = 0, σ = 10.
Función de distribución acumulativa Función de distribución acumulativa para la distribución normal truncada para diferentes conjuntos de parámetros. En todos los casos, a = −10 y b = 10. Para el negro: μ = −8, σ = 2; azul: μ = 0, σ = 2; rojo: μ = 9, σ = 10; naranja: μ = 0, σ = 10.
Notación	${\ Displaystyle \ xi = {\ frac {x- \ mu} {\ sigma}}, \ \ alpha = {\ frac {a- \ mu} {\ sigma}}, \ \ beta = {\ frac {b- \ mu} {\ sigma}}}$ ${\ Displaystyle Z = \ Phi (\ beta) - \ Phi (\ alpha)}$
Parámetros	μ ∈ R σ ² ≥ 0 (pero ver definición) a ∈ R - valor mínimo de x b ∈ R - valor máximo de x ( b > a )
Apoyo	x ∈ [ a , b ]
PDF	${\ Displaystyle f (x; \ mu, \ sigma, a, b) = {\ frac {\ phi (\ xi)} {\ sigma Z}} \,}$ ^[1]
CDF	${\ Displaystyle F (x; \ mu, \ sigma, a, b) = {\ frac {\ Phi (\ xi) - \ Phi (\ alpha)} {Z}}}$
Significar	${\ Displaystyle \ mu + {\ frac {\ phi (\ alpha) - \ phi (\ beta)} {Z}} \ sigma}$
Mediana	${\ Displaystyle \ mu + \ Phi ^ {- 1} \ left ({\ frac {\ Phi (\ alpha) + \ Phi (\ beta)} {2}} \ right) \ sigma}$
Modo	${\ Displaystyle \ left \ {{\ begin {array} {ll} a, & \ mathrm {if} \ \ mu b \ end {matriz}} \ right.}$
Diferencia	${\ Displaystyle \ sigma ^ {2} \ left [1 + {\ frac {\ alpha \ phi (\ alpha) - \ beta \ phi (\ beta)} {Z}} - \ left ({\ frac {\ phi (\ alpha) - \ phi (\ beta)} {Z}} \ right) ^ {2} \ right]}$
Entropía	${\ Displaystyle \ ln ({\ sqrt {2 \ pi e}} \ sigma Z) + {\ frac {\ alpha \ phi (\ alpha) - \ beta \ phi (\ beta)} {2Z}}}$
MGF	${\ Displaystyle e ^ {\ mu t + \ sigma ^ {2} t ^ {2} / 2} \ left [{\ frac {\ Phi (\ beta - \ sigma t) - \ Phi (\ alpha - \ sigma t )} {\ Phi (\ beta) - \ Phi (\ alpha)}} \ right]}$

Definiciones

Suponer ${\ Displaystyle X}$ tiene una distribución normal con media ${\ Displaystyle \ mu}$ y varianza ${\ Displaystyle \ sigma ^ {2}}$ y se encuentra dentro del intervalo ${\ Displaystyle (a, b), {\ text {con}} \; - \ infty \ leq a$ . Luego ${\ Displaystyle X}$ condicionado a ${\ Displaystyle a$ tiene una distribución normal truncada.

Su función de densidad de probabilidad , ${\ Displaystyle f}$ , por ${\ Displaystyle a \ leq x \ leq b}$ , es dado por

{\ Displaystyle f (x; \ mu, \ sigma, a, b) = {\ frac {1} {\ sigma}} \, {\ frac {\ phi ({\ frac {x- \ mu} {\ sigma }})} {\ Phi ({\ frac {b- \ mu} {\ sigma}}) - \ Phi ({\ frac {a- \ mu} {\ sigma}})}}}

y por ${\ Displaystyle f = 0}$ de lo contrario.

Aquí,

{\ Displaystyle \ phi (\ xi) = {\ frac {1} {\ sqrt {2 \ pi}}} \ exp \ left (- {\ frac {1} {2}} \ xi ^ {2} \ right )}

es la función de densidad de probabilidad de la distribución normal estándar y ${\ Displaystyle \ Phi (\ cdot)}$ es su función de distribución acumulativa

{\ Displaystyle \ Phi (x) = {\ frac {1} {2}} \ left (1+ \ operatorname {erf} (x / {\ sqrt {2}}) \ right).}

Por definición, si ${\ Displaystyle b = \ infty}$ , luego ${\ Displaystyle \ Phi \ left ({\ tfrac {b- \ mu} {\ sigma}} \ right) = 1}$ , y de manera similar, si ${\ Displaystyle a = - \ infty}$ , luego ${\ Displaystyle \ Phi \ left ({\ tfrac {a- \ mu} {\ sigma}} \ right) = 0}$ .

Las fórmulas anteriores muestran que cuando ${\ Displaystyle - \ infty$ el parámetro de escala ${\ Displaystyle \ sigma ^ {2}}$ de la distribución normal truncada puede asumir valores negativos. El parámetro ${\ Displaystyle \ sigma}$ es en este caso imaginario, pero la función ${\ Displaystyle f}$ sin embargo, es real, positivo y normalizable. El parámetro de escala ${\ Displaystyle \ sigma ^ {2}}$ de la distribución normal canónica debe ser positiva porque la distribución no sería normalizable de otra manera. La distribución normal doblemente truncada, por otro lado, puede en principio tener un parámetro de escala negativo (que es diferente de la varianza, ver fórmulas de resumen), porque no surgen tales problemas de integrabilidad en un dominio acotado. En este caso, la distribución no puede interpretarse como una normal canónica condicionada a ${\ Displaystyle a$ , por supuesto, pero aún puede interpretarse como una distribución de máxima entropía con el primer y segundo momento como restricciones, y tiene una característica peculiar adicional: presenta dos máximos locales en lugar de uno, ubicado en ${\ Displaystyle x = a}$ y ${\ Displaystyle x = b}$ .

Propiedades

La normal truncada es la distribución de probabilidad de entropía máxima para una media y varianza fijas, con la variable aleatoria X restringida a estar en el intervalo [a, b].

Momentos

Si la variable aleatoria se ha truncado solo desde abajo, alguna masa de probabilidad se ha desplazado a valores más altos, dando una distribución dominante estocásticamente de primer orden y, por lo tanto, aumentando la media a un valor superior a la media. ${\ Displaystyle \ mu}$ de la distribución normal original. Asimismo, si la variable aleatoria se ha truncado solo desde arriba, la distribución truncada tiene una media menor que ${\ Displaystyle \ mu.}$

Independientemente de si la variable aleatoria está acotada arriba, abajo o ambos, el truncamiento es una contracción que preserva la media combinada con un cambio rígido que cambia la media y, por lo tanto, la varianza de la distribución truncada es menor que la varianza. ${\ Displaystyle \ sigma ^ {2}}$ de la distribución normal original.

Truncamiento de dos caras ^[2]

Dejar ${\ Displaystyle \ alpha = (a- \ mu) / \ sigma}$ y ${\ Displaystyle \ beta = (b- \ mu) / \ sigma}$ . Luego:

${\ Displaystyle \ operatorname {E} (X \ mid a$

y

${\ Displaystyle \ operatorname {Var} (X \ mid a$

Se debe tener cuidado en la evaluación numérica de estas fórmulas, que pueden resultar en una cancelación catastrófica cuando el intervalo ${\ Displaystyle [a, b]}$ no incluye ${\ Displaystyle \ mu}$ . Hay mejores formas de reescribirlos que evitan este problema. ^[3]

Truncamiento de un lado (de la cola inferior) ^[4]

En este caso ${\ Displaystyle \; b = \ infty, \; \ phi (\ beta) = 0, \; \ Phi (\ beta) = 1,}$ luego

${\ Displaystyle \ operatorname {E} (X \ mid X> a) = \ mu + \ sigma \ phi (\ alpha) / Z, \!}$

y

${\ Displaystyle \ operatorname {Var} (X \ mid X> a) = \ sigma ^ {2} [1+ \ alpha \ phi (\ alpha) / Z - (\ phi (\ alpha) / Z) ^ {2 }],}$

dónde ${\ Displaystyle Z = 1- \ Phi (\ alpha).}$

Truncamiento de un lado (de la cola superior)

En este caso ${\ Displaystyle \; a = \ alpha = - \ infty, \; \ phi (\ alpha) = 0, \; \ Phi (\ alpha) = 0,}$ luego

${\ Displaystyle \ operatorname {E} (X \ mid X$ ,

${\ Displaystyle \ operatorname {Var} (X \ mid X$

Barr y Sherrill (1999) dan una expresión más simple para la varianza de los truncamientos unilaterales. Su fórmula está en términos de la CDF chi-cuadrado, que se implementa en bibliotecas de software estándar. Bebu y Mathew (2009) proporcionan fórmulas para intervalos de confianza (generalizados) alrededor de los momentos truncados.

Una fórmula recursiva

En cuanto al caso no truncado, existe una fórmula recursiva para los momentos truncados. ^[5]

Multivariante

Calcular los momentos de una normal truncada multivariante es más difícil.

Métodos computacionales

Generando valores a partir de la distribución normal truncada

Una variable aleatoria x definida como ${\ Displaystyle x = \ Phi ^ {- 1} (\ Phi (\ alpha) + U \ cdot (\ Phi (\ beta) - \ Phi (\ alpha))) \ sigma + \ mu}$ con ${\ Displaystyle \ Phi}$ la función de distribución acumulativa y ${\ Displaystyle \ Phi ^ {- 1}}$ es inverso, ${\ Displaystyle U}$ un número aleatorio uniforme en ${\ Displaystyle (0,1)}$ , sigue la distribución truncada al rango ${\ Displaystyle (a, b)}$ . Este es simplemente el método de transformación inversa para simular variables aleatorias. Aunque es uno de los más simples, este método puede fallar cuando se muestrea en la cola de la distribución normal, ^[6] o ser demasiado lento. ^[7] Por tanto, en la práctica, uno tiene que encontrar métodos alternativos de simulación.

Uno de esos generadores normales truncados (implementado en Matlab y en R (lenguaje de programación) como trandn.R ) se basa en una idea de rechazo de aceptación debido a Marsaglia. ^[8] A pesar de la tasa de aceptación ligeramente subóptima de Marsaglia (1964) en comparación con Robert (1995), el método de Marsaglia es típicamente más rápido, ^[7] porque no requiere la costosa evaluación numérica de la función exponencial.

Para obtener más información sobre la simulación de un empate a partir de la distribución normal truncada, consulte Robert (1995), Lynch (2007) Sección 8.1.3 (páginas 200–206), Devroye (1986). El paquete MSM en R tiene una función, rtnorm , que calcula extracciones de una normal truncada. El paquete truncnorm en R también tiene funciones para extraer de una normal truncada.

Chopin (2011) propuso ( arXiv ) un algoritmo inspirado en el algoritmo Ziggurat de Marsaglia y Tsang (1984, 2000), que suele considerarse como el muestreador gaussiano más rápido, y también muy cercano al algoritmo de Ahrens (1995). Las implementaciones se pueden encontrar en C , C ++ , Matlab y Python .

El muestreo de la distribución normal truncada multivariante es considerablemente más difícil. ^[9] La simulación exacta o perfecta solo es factible en el caso de truncamiento de la distribución normal a una región politopo. ^[9]^[10] En casos más generales, Damien y Walker (2001) introducen una metodología general para muestrear densidades truncadas dentro de un marco de muestreo de Gibbs . Su algoritmo introduce una variable latente y, dentro de un marco de muestreo de Gibbs, es más eficiente computacionalmente que el algoritmo de Robert (1995).

Ver también

Distribución normal plegada
Distribución media normal
Distribución normal
Distribución gaussiana rectificada
Distribución truncada
Distribución PERT

Notas

^ "Conferencia 4: Selección" (PDF) . web.ist.utl.pt . Instituto Superior Técnico . 11 de noviembre de 2002. p. 1 . Consultado el 14 de julio de 2015 .
^ Johnson, NL, Kotz, S., Balakrishnan, N. (1994) Distribuciones univariadas continuas, volumen 1 , Wiley. ISBN 0-471-58495-9 (Sección 10.1)
^ Fernandez-de-Cossio-Diaz, Jorge (2017-12-06), TruncatedNormal.jl: Calcular la media y la varianza de la distribución normal truncada univariante (trabaja lejos del pico) , recuperado el 2017-12-06
^ Greene, William H. (2003). Análisis econométrico (5ª ed.) . Prentice Hall. ISBN 978-0-13-066189-0.
^ Documento de Eric Orjebin, " https://people.smp.uq.edu.au/YoniNazarathy/teaching_projects/studentWork/EricOrjebin_TruncatedNormalMoments.pdf "
^ Kroese, DP ; Taimre, T .; Botev, ZI (2011). Manual de métodos de Monte Carlo . John Wiley e hijos.
^ a b Botev, ZI; L'Ecuyer, P. (2017). "Simulación de la distribución normal truncada a un intervalo en la cola". Décima Conferencia Internacional de EAI sobre Metodologías y Herramientas de Evaluación del Desempeño . 25-28 de octubre de 2016 Taormina, Italia: ACM. págs. 23-29. doi : 10.4108 / eai.25-10-2016.2266879 . ISBN 978-1-63190-141-6.Mantenimiento de CS1: ubicación ( enlace )
^ Marsaglia, George (1964). "Generando una variable a partir de la cola de la distribución normal". Tecnometría . 6 (1): 101-102. doi : 10.2307 / 1266749 . JSTOR 1266749 .
^ a b Botev, ZI (2016). "La ley normal bajo restricciones lineales: simulación y estimación mediante inclinación minimax". Revista de la Sociedad Real de Estadística, Serie B . 79 : 125-148. arXiv : 1603.04166 . doi : 10.1111 / rssb.12162 . S2CID 88515228 .
^ Botev, Zdravko y L'Ecuyer, Pierre (2018). "Capítulo 8: simulación de la cola de la distribución normal univariante y multivariante" . En Puliafito, Antonio (ed.). Modelado de sistemas: metodologías y herramientas. Innovaciones de EAI / Springer en comunicación e informática . Springer, Cham. págs. 115-132. doi : 10.1007 / 978-3-319-92378-9_8 . ISBN 978-3-319-92377-2. S2CID 125554530 .

Referencias

Greene, William H. (2003). Análisis econométrico (5ª ed.) . Prentice Hall. ISBN 978-0-13-066189-0.
Norman L. Johnson y Samuel Kotz (1970). Distribuciones continuas univariadas-1 , capítulo 13. John Wiley & Sons.
Lynch, Scott (2007). Introducción a la estadística y estimación bayesianas aplicadas para científicos sociales . Nueva York: Springer. ISBN 978-1-4419-2434-6.
Robert, Christian P. (1995). "Simulación de variables normales truncadas". Estadística y Computación . 5 (2): 121-125. arXiv : 0907.4010 . doi : 10.1007 / BF00143942 . S2CID 15943491 .
Barr, Donald R .; Sherrill, E.Todd (1999). "Media y varianza de distribuciones normales truncadas". El estadístico estadounidense . 53 (4): 357–361. doi : 10.1080 / 00031305.1999.10474490 .
Bebu, Ionut; Mathew, Thomas (2009). "Intervalos de confianza para momentos limitados y momentos truncados en modelos normales y lognormales". Estadísticas y letras de probabilidad . 79 (3): 375–380. doi : 10.1016 / j.spl.2008.09.006 .
Damien, Paul; Walker, Stephen G. (2001). "Muestreo de densidades normales, beta y gamma truncadas". Revista de Estadística Computacional y Gráfica . 10 (2): 206–215. doi : 10.1198 / 10618600152627906 . S2CID 123156320 .
Nicolas Chopin, "Simulación rápida de distribuciones gaussianas truncadas". Estadística y Computación 21 (2): 275-288, 2011, doi: 10.1007 / s11222-009-9168-1
Burkardt, John. "La distribución normal truncada" (PDF) . Sitio web del Departamento de Computación Científica . Universidad Estatal de Florida . Consultado el 15 de febrero de 2018 .

[ist-lecture-4-1] "Conferencia 4: Selección" (PDF) . web.ist.utl.pt . Instituto Superior Técnico . 11 de noviembre de 2002. p. 1 . Consultado el 14 de julio de 2015 .

[2] Johnson, NL, Kotz, S., Balakrishnan, N. (1994) Distribuciones univariadas continuas, volumen 1 , Wiley. ISBN 0-471-58495-9 (Sección 10.1)

[:0-3] Fernandez-de-Cossio-Diaz, Jorge (2017-12-06), TruncatedNormal.jl: Calcular la media y la varianza de la distribución normal truncada univariante (trabaja lejos del pico) , recuperado el 2017-12-06

[4] Greene, William H. (2003). Análisis econométrico (5ª ed.) . Prentice Hall. ISBN 978-0-13-066189-0.

[5] Documento de Eric Orjebin, " https://people.smp.uq.edu.au/YoniNazarathy/teaching_projects/studentWork/EricOrjebin_TruncatedNormalMoments.pdf "

[6] Kroese, DP ; Taimre, T .; Botev, ZI (2011). Manual de métodos de Monte Carlo . John Wiley e hijos.

[boLec17-7] Botev, ZI; L'Ecuyer, P. (2017). "Simulación de la distribución normal truncada a un intervalo en la cola". Décima Conferencia Internacional de EAI sobre Metodologías y Herramientas de Evaluación del Desempeño . 25-28 de octubre de 2016 Taormina, Italia: ACM. págs. 23-29. doi : 10.4108 / eai.25-10-2016.2266879 . ISBN 978-1-63190-141-6.Mantenimiento de CS1: ubicación ( enlace )

[8] Marsaglia, George (1964). "Generando una variable a partir de la cola de la distribución normal". Tecnometría . 6 (1): 101-102. doi : 10.2307 / 1266749 . JSTOR 1266749 .

[bo16-9] Botev, ZI (2016). "La ley normal bajo restricciones lineales: simulación y estimación mediante inclinación minimax". Revista de la Sociedad Real de Estadística, Serie B . 79 : 125-148. arXiv : 1603.04166 . doi : 10.1111 / rssb.12162 . S2CID 88515228 .

[10] Botev, Zdravko y L'Ecuyer, Pierre (2018). "Capítulo 8: simulación de la cola de la distribución normal univariante y multivariante" . En Puliafito, Antonio (ed.). Modelado de sistemas: metodologías y herramientas. Innovaciones de EAI / Springer en comunicación e informática . Springer, Cham. págs. 115-132. doi : 10.1007 / 978-3-319-92378-9_8 . ISBN 978-3-319-92377-2. S2CID 125554530 .

[1]