Distribución gaussiana modificada exponencialmente

En la teoría de la probabilidad , una distribución Gaussiana modificada exponencialmente ( EMG , también conocida como distribución exGaussiana ) describe la suma de variables aleatorias normales y exponenciales independientes . Una variable aleatoria exGaussiana Z puede expresarse como Z = X + Y , donde X e Y son independientes, X es Gaussiana con media μ y varianza σ ² , e Y es exponencial de tasa λ. Tiene un sesgo positivo característico del componente exponencial.

EMG
Función de densidad de probabilidad
Función de distribución acumulativa
Parámetros	μ ∈ R - media del componente gaussiano σ ² > 0 - varianza del componente gaussiano λ > 0 - tasa de componente exponencial
Apoyo	x ∈ R
PDF	${\ displaystyle {\ frac {\ lambda} {2}} e ^ {{\ frac {\ lambda} {2}} (2 \ mu + \ lambda \ sigma ^ {2} -2x)} \ operatorname {erfc} \ left ({\ frac {\ mu + \ lambda \ sigma ^ {2} -x} {{\ sqrt {2}} \ sigma}} \ right)}$
CDF	${\ Displaystyle \ Phi (u, 0, v) -e ^ {- u + v ^ {2} / 2 + \ log (\ Phi (u, v ^ {2}, v))}}$ , dónde ${\ Displaystyle \ Phi (x, \ mu, \ sigma)}$ es la CDF de una distribución gaussiana, ${\ Displaystyle u = \ lambda (x- \ mu)}$ , ${\ Displaystyle v = \ lambda \ sigma}$
Significar	${\ Displaystyle \ mu + 1 / \ lambda}$
Modo	${\ Displaystyle x_ {m} = \ mu - \ operatorname {sgn} \ left (\ tau \ right) {\ sqrt {2}} \ sigma \ operatorname {erfcxinv} \ left ({\ frac {{\|} \ tau {\|}} {\ sigma}} {\ sqrt {\ frac {2} {\ pi}}} \ right) + {\ frac {\ sigma ^ {2}} {\ tau}}}$ ${\ Displaystyle f (x_ {m}) = h \ exp \ left (- {\ frac {1} {2}} \ left ({\ frac {\ mu -x_ {m}} {\ sigma}} \ right ) ^ {2} \ right)}$
Diferencia	${\ Displaystyle \ sigma ^ {2} + 1 / \ lambda ^ {2}}$
Oblicuidad	${\ displaystyle {\ frac {2} {\ sigma ^ {3} \ lambda ^ {3}}} \ left (1 + {\ frac {1} {\ sigma ^ {2} \ lambda ^ {2}}} \ right) ^ {- 3/2}}$
Ex. curtosis	${\ Displaystyle {\ frac {3 (1 + {\ frac {2} {\ sigma ^ {2} \ lambda ^ {2}}} + {\ frac {3} {\ lambda ^ {4} \ sigma ^ { 4}}})} {\ left (1 + {\ frac {1} {\ lambda ^ {2} \ sigma ^ {2}}} \ right) ^ {2}}} - 3}$
MGF	${\ Displaystyle \ left (1 - {\ frac {t} {\ lambda}} \ right) ^ {- 1} \, \ exp \ left (\ mu t + {\ frac {1} {2}} \ sigma ^ {2} t ^ {2} \ right)}$
CF	${\ Displaystyle \ left (1 - {\ frac {it} {\ lambda}} \ right) ^ {- 1} \, \ exp \ left (i \ mu t - {\ frac {1} {2}} \ sigma ^ {2} t ^ {2} \ right)}$

También se puede considerar como una función ponderada de una exponencial desplazada, siendo la ponderación una función de la distribución normal.

Definición

La función de densidad de probabilidad (pdf) de la distribución normal modificada exponencialmente es ^[1]

{\ Displaystyle f (x; \ mu, \ sigma, \ lambda) = {\ frac {\ lambda} {2}} e ^ {{\ frac {\ lambda} {2}} (2 \ mu + \ lambda \ sigma ^ {2} -2x)} \ operatorname {erfc} \ left ({\ frac {\ mu + \ lambda \ sigma ^ {2} -x} {{\ sqrt {2}} \ sigma}} \ right) ,}

donde erfc es la función de error complementaria definida como

{\ displaystyle {\ begin {alineado} \ operatorname {erfc} (x) & = 1- \ operatorname {erf} (x) \\ & = {\ frac {2} {\ sqrt {\ pi}}} \ int _ {x} ^ {\ infty} e ^ {- t ^ {2}} \, dt. \ end {alineado}}}

Esta función de densidad se deriva mediante la convolución de las funciones de densidad de probabilidad normal y exponencial .

Formas alternativas de cálculo

Se utiliza una forma alternativa pero equivalente de la distribución EMG para la descripción de la forma de los picos en cromatografía . ^[2] Esto es como sigue

{\ Displaystyle f (x; h, \ mu, \ sigma, \ tau) = {\ frac {h \ sigma} {\ tau}} {\ sqrt {\ frac {\ pi} {2}}} \ exp \ izquierda ({\ frac {1} {2}} \ izquierda ({\ frac {\ sigma} {\ tau}} \ derecha) ^ {2} - {\ frac {x- \ mu} {\ tau}} \ derecha) \ operatorname {erfc} \ left ({\ frac {1} {\ sqrt {2}}} \ \ left ({\ frac {\ sigma} {\ tau}} - {\ frac {x- \ mu} {\ sigma}} \ derecha) \ derecha),}

(1)

dónde

{\ Displaystyle h}

es la amplitud de Gauss,

{\ Displaystyle \ tau = {\ frac {1} {\ lambda}}}

es el exponente del tiempo de relajación.

Esta función no se puede calcular para algunos valores de parámetros (por ejemplo, τ = 0) debido al desbordamiento aritmético. Delley propuso una forma alternativa, pero equivalente, de escribir la función: ^[3]

{\ Displaystyle f (x; h, \ mu, \ sigma, \ tau) = h \ exp \ left (- {\ frac {1} {2}} \ left ({\ frac {x- \ mu} {\ sigma}} \ right) ^ {2} \ right) {\ frac {\ sigma} {\ tau}} {\ sqrt {\ frac {\ pi} {2}}} \ operatorname {erfcx} \ left ({\ frac {1} {\ sqrt {2}}} \ \ left ({\ frac {\ sigma} {\ tau}} - {\ frac {x- \ mu} {\ sigma}} \ right) \ right), }

(2)

dónde ${\ Displaystyle \ operatorname {erfcx} t = \ exp t ^ {2} \ cdot \ operatorname {erfc} t}$ es una función de error complementaria escalada

En el caso de esta fórmula, el desbordamiento aritmético también es posible, la región de desbordamiento es diferente de la primera fórmula, excepto por τ muy pequeño.

Para τ pequeño, es razonable utilizar la forma asintótica de la segunda fórmula:

{\ Displaystyle f (x; h, \ mu, \ sigma, \ tau) = {\ frac {h \ exp \ left (- {\ frac {1} {2}} \ left ({\ frac {x- \ mu} {\ sigma}} \ right) ^ {2} \ right)} {1 + {\ frac {\ left (x- \ mu \ right) \ tau} {\ sigma ^ {2}}}}}, }

(3)

La decisión sobre el uso de la fórmula se toma sobre la base del parámetro ${\ Displaystyle z = {\ frac {1} {\ sqrt {2}}} \ left ({\ frac {\ sigma} {\ tau}} - {\ frac {x- \ mu} {\ sigma}} \ derecho)}$ :

para z <0, el cálculo debe realizarse ^{[2] de} acuerdo con la primera fórmula,

para 0 ≤ z ≤ 6,71 · 10 ⁷ (en el caso del formato de coma flotante de doble precisión ) según la segunda fórmula,

y para z > 6,71 · 10 ⁷ según la tercera fórmula.

La moda (posición del vértice, valor más probable) se calcula ^[2] utilizando la derivada de la fórmula 2; la inversa de la función de error complementario escalado erfcxinv () se utiliza para el cálculo. Kalembet también propone valores aproximados. ^[2] Aunque la moda tiene un valor más alto que el del gaussiano original, el vértice siempre se encuentra en el gaussiano original (sin modificar).

Estimación de parámetros

Hay tres parámetros: la media de la distribución normal ( μ ), la desviación estándar de la distribución normal ( σ ) y el parámetro de caída exponencial ( τ = 1 / λ ). La forma K = τ / σ también se usa a veces para caracterizar la distribución. Dependiendo de los valores de los parámetros, la distribución puede variar en forma de casi normal a casi exponencial.

Los parámetros de la distribución se pueden estimar a partir de los datos de la muestra con el método de momentos de la siguiente manera: ^[4]^[5]

{\ Displaystyle m = \ mu + \ tau,}

{\ Displaystyle s ^ {2} = \ sigma ^ {2} + \ tau ^ {2},}

{\ Displaystyle \ gamma _ {1} = {\ frac {2 \ tau ^ {3}} {(\ sigma ^ {2} + \ tau ^ {2}) ^ {3/2}}},}

donde m es la media de la muestra, s es la desviación estándar de la muestra y γ ₁ es la asimetría .

Resolviendo estos para los parámetros da:

{\ Displaystyle {\ hat {\ mu}} = ms \ left ({\ frac {\ gamma _ {1}} {2}} \ right) ^ {1/3},}

{\ Displaystyle {\ hat {\ sigma ^ {2}}} = s ^ {2} \ left [1- \ left ({\ frac {\ gamma _ {1}} {2}} \ right) ^ {2 / 3} \ derecha],}

{\ displaystyle {\ hat {\ tau}} = s \ left ({\ frac {\ gamma _ {1}} {2}} \ right) ^ {1/3}.}

Recomendaciones

Ratcliff ha sugerido que haya al menos 100 puntos de datos en la muestra antes de que las estimaciones de los parámetros se consideren fiables. ^{[6] El} promedio de Vincent puede usarse con muestras más pequeñas, ya que este procedimiento solo distorsiona modestamente la forma de la distribución. ^[7] Estas estimaciones puntuales pueden utilizarse como valores iniciales que pueden refinarse con métodos más potentes, incluida la probabilidad máxima .

Intervalos de confianza

Actualmente no hay tablas publicadas disponibles para las pruebas de significación con esta distribución. La distribución se puede simular formando la suma de dos variables aleatorias, una extraída de una distribución normal y la otra de una exponencial.

Sesgar

El valor del sesgo no paramétrico

{\ displaystyle {\ frac {{\ text {mean}} - {\ text {mediana}}} {\ text {desviación estándar}}}}

de esta distribución se encuentra entre 0 y 0,31. ^[8]^[9] El límite inferior se acerca cuando domina el componente normal y el superior cuando domina el componente exponencial.

Ocurrencia

La distribución se utiliza como modelo teórico para la forma de los picos cromatográficos . ^[1]^[2]^[10] Se ha propuesto como modelo estadístico del tiempo intermitótico en células en división. ^[11]^[12] También se utiliza en el modelado de haces de iones de racimo. ^[13] Se utiliza comúnmente en psicología y otras ciencias del cerebro en el estudio de los tiempos de respuesta. ^[14]^[15] En una ligera variante en la que la media del componente Normal se establece en cero, también se utiliza en el Análisis de frontera estocástica , como una de las especificaciones distributivas para el término de error compuesto que modela la ineficiencia. ^[dieciséis]

Distribuciones relacionadas

Esta familia de distribuciones es un caso especial o límite de la distribución gamma exponencial normal . Esto también puede verse como una generalización de tres parámetros de una distribución normal para agregar sesgo; otra distribución como esa es la distribución normal sesgada , que tiene colas más delgadas. La distribución es una distribución de probabilidad compuesta en la que la media de una distribución normal varía aleatoriamente como una distribución exponencial desplazada .

Se ha sugerido una distribución gaussiana menos exponencial para modelar los precios de las opciones. ^[17] Si dicha variable aleatoria Y tiene parámetros μ , σ , λ , entonces su -Y negativo tiene una distribución gaussiana modificada exponencialmente con parámetros -μ , σ , λ , y por lo tanto Y tiene media ${\ Displaystyle \ mu - {\ tfrac {1} {\ lambda}}}$ y varianza ${\ Displaystyle \ sigma ^ {2} + {\ tfrac {1} {\ lambda ^ {2}}}}$ .

Referencias

↑ a b Grushka, Eli (1972). "Caracterización de picos gaussianos modificados exponencialmente en cromatografía". Química analítica . 44 (11): 1733-1738. doi : 10.1021 / ac60319a011 . PMID 22324584 .
^ a b c d e Kalambet, Y .; Kozmin, Y .; Mikhailova, K .; Nagaev, I .; Tikhonov, P. (2011). "Reconstrucción de picos cromatográficos utilizando la función gaussiana modificada exponencialmente". Revista de quimiometría . 25 (7): 352. doi : 10.1002 / cem.1343 . S2CID 121781856 .
^ Delley, R. (1985). "Serie para la forma de pico gaussiano modificada exponencialmente". Anal. Chem . 57 : 388. doi : 10.1021 / ac00279a094 .
^ Dyson, NA (1998). Métodos de integración cromatográfica . Real Sociedad de Química, Servicios de información. pag. 27. ISBN 9780854045105. Consultado el 15 de mayo de 2015 .
^ Olivier J. y Norberg MM (2010) Datos positivamente sesgados: Revisando la transformación de potencia de Box-Cox. En t. J. Psych. Res. 3 (1) 68−75.
^ Ratcliff, R. (1979). "Distribuciones de tiempo de reacción de grupo y análisis de estadísticas de distribución". Psychol. Bull . 86 (3): 446–461. CiteSeerX 10.1.1.409.9863 . doi : 10.1037 / 0033-2909.86.3.446 . PMID 451109 .
^ Vincent, SB (1912). "Las funciones de las vibrisas en el comportamiento de la rata blanca". Monografías de comportamiento animal . 1 (5): 7-81.
^ Heathcote, A (1996). "RTSYS: una aplicación DOS para el análisis de datos de tiempo de reacción" . Métodos, instrumentos y computadoras de investigación del comportamiento . 28 (3): 427–445. doi : 10.3758 / bf03200523 .
^ Ulrich, R .; Miller, J. (1994). "Efectos de la exclusión de valores atípicos en el análisis del tiempo de reacción". J. Exp. Psic .: General . 123 : 34–80. doi : 10.1037 / 0096-3445.123.1.34 .
^ Gladney, HM; Dowden, BF; Swalen, JD (1969). "Cromatografía gas-líquido asistida por computadora". Anal. Chem . 41 (7): 883–888. doi : 10.1021 / ac60276a013 .
^ Golubev, A. (2010). "Relevancia de Gauss (EMG) modificada exponencialmente para distribuciones relacionadas con la proliferación y diferenciación celular". Revista de Biología Teórica . 262 (2): 257–266. doi : 10.1016 / j.jtbi.2009.10.005 . PMID 19825376 .
^ Tyson, DR; Garbett, SP; Frick, PL; Quaranta, V. (2012). "Proliferación fraccionada: un método para deconvolucionar la dinámica de la población celular a partir de datos unicelulares" . Métodos de la naturaleza . 9 (9): 923–928. doi : 10.1038 / nmeth.2138 . PMC 3459330 . PMID 22886092 .
^ Nicolaescu, D .; Takaoka, GH; Ishikawa, J. (2006). "Caracterización multiparamétrica de haces de iones de racimo". Journal of Vacuum Science & Technology B: Microelectrónica y estructuras nanométricas . 24 (5): 2236. Código Bibliográfico : 2006JVSTB..24.2236N . doi : 10.1116 / 1.2335433 .
^ Palmer, EM; Horowitz Todd, S; Torralba, A; Wolfe, JM (2011). "¿Cuáles son las formas de las distribuciones del tiempo de respuesta en la búsqueda visual?" . J Exp Psychol . 37 (1): 58–71. doi : 10.1037 / a0020747 . PMC 3062635 . PMID 21090905 .
^ Rohrer, D; Wixted, JT (1994). "Un análisis de latencia y tiempo entre respuestas en memoria libre" . Memoria y cognición . 22 (5): 511–524. doi : 10.3758 / BF03198390 . PMID 7968547 .
^ Lovell, Knox CA; SC Kumbhakar (2000). Análisis de frontera estocástica . Prensa de la Universidad de Cambridge. págs. 80–82.
^ Peter Carr y Dilip B. Madan, Métodos de Saddlepoint para la fijación de precios de opciones, The Journal of Computational Finance (49-61) Volumen 13 / Número 1, otoño de 2009

[Grushka1972-1] Grushka, Eli (1972). "Caracterización de picos gaussianos modificados exponencialmente en cromatografía". Química analítica . 44 (11): 1733-1738. doi : 10.1021 / ac60319a011 . PMID 22324584 .

[Kalambet2011-2] Kalambet, Y .; Kozmin, Y .; Mikhailova, K .; Nagaev, I .; Tikhonov, P. (2011). "Reconstrucción de picos cromatográficos utilizando la función gaussiana modificada exponencialmente". Revista de quimiometría . 25 (7): 352. doi : 10.1002 / cem.1343 . S2CID 121781856 .

[Delley1985-3] Delley, R. (1985). "Serie para la forma de pico gaussiano modificada exponencialmente". Anal. Chem . 57 : 388. doi : 10.1021 / ac00279a094 .

[google-4] Dyson, NA (1998). Métodos de integración cromatográfica . Real Sociedad de Química, Servicios de información. pag. 27. ISBN 9780854045105. Consultado el 15 de mayo de 2015 .

[Olivier2010-5] Olivier J. y Norberg MM (2010) Datos positivamente sesgados: Revisando la transformación de potencia de Box-Cox. En t. J. Psych. Res. 3 (1) 68−75.

[Ratcliff1979-6] Ratcliff, R. (1979). "Distribuciones de tiempo de reacción de grupo y análisis de estadísticas de distribución". Psychol. Bull . 86 (3): 446–461. CiteSeerX 10.1.1.409.9863 . doi : 10.1037 / 0033-2909.86.3.446 . PMID 451109 .

[Vincent1912-7] Vincent, SB (1912). "Las funciones de las vibrisas en el comportamiento de la rata blanca". Monografías de comportamiento animal . 1 (5): 7-81.

[Heathcote1996-8] Heathcote, A (1996). "RTSYS: una aplicación DOS para el análisis de datos de tiempo de reacción" . Métodos, instrumentos y computadoras de investigación del comportamiento . 28 (3): 427–445. doi : 10.3758 / bf03200523 .

[Ulrich1994-9] Ulrich, R .; Miller, J. (1994). "Efectos de la exclusión de valores atípicos en el análisis del tiempo de reacción". J. Exp. Psic .: General . 123 : 34–80. doi : 10.1037 / 0096-3445.123.1.34 .

[Gladney1969-10] Gladney, HM; Dowden, BF; Swalen, JD (1969). "Cromatografía gas-líquido asistida por computadora". Anal. Chem . 41 (7): 883–888. doi : 10.1021 / ac60276a013 .

[Golubev2010-11] Golubev, A. (2010). "Relevancia de Gauss (EMG) modificada exponencialmente para distribuciones relacionadas con la proliferación y diferenciación celular". Revista de Biología Teórica . 262 (2): 257–266. doi : 10.1016 / j.jtbi.2009.10.005 . PMID 19825376 .

[Tyson2012-12] Tyson, DR; Garbett, SP; Frick, PL; Quaranta, V. (2012). "Proliferación fraccionada: un método para deconvolucionar la dinámica de la población celular a partir de datos unicelulares" . Métodos de la naturaleza . 9 (9): 923–928. doi : 10.1038 / nmeth.2138 . PMC 3459330 . PMID 22886092 .

[13] Nicolaescu, D .; Takaoka, GH; Ishikawa, J. (2006). "Caracterización multiparamétrica de haces de iones de racimo". Journal of Vacuum Science & Technology B: Microelectrónica y estructuras nanométricas . 24 (5): 2236. Código Bibliográfico : 2006JVSTB..24.2236N . doi : 10.1116 / 1.2335433 .

[Palmer2011-14] Palmer, EM; Horowitz Todd, S; Torralba, A; Wolfe, JM (2011). "¿Cuáles son las formas de las distribuciones del tiempo de respuesta en la búsqueda visual?" . J Exp Psychol . 37 (1): 58–71. doi : 10.1037 / a0020747 . PMC 3062635 . PMID 21090905 .

[Rohrer1994-15] Rohrer, D; Wixted, JT (1994). "Un análisis de latencia y tiempo entre respuestas en memoria libre" . Memoria y cognición . 22 (5): 511–524. doi : 10.3758 / BF03198390 . PMID 7968547 .

[16] Lovell, Knox CA; SC Kumbhakar (2000). Análisis de frontera estocástica . Prensa de la Universidad de Cambridge. págs. 80–82.

[17] Peter Carr y Dilip B. Madan, Métodos de Saddlepoint para la fijación de precios de opciones, The Journal of Computational Finance (49-61) Volumen 13 / Número 1, otoño de 2009

[1]