Estadísticas direccionales

La estadística direccional (también estadística circular o estadística esférica ) es la subdisciplina de la estadística que se ocupa de direcciones ( vectores unitarios en R ⁿ ), ejes ( líneas a través del origen en R ⁿ ) o rotaciones en R ⁿ . De manera más general, la estadística direccional se ocupa de las observaciones sobre variedades compactas de Riemann .

La forma general de una proteína se puede parametrizar como una secuencia de puntos en la esfera unitaria . Se muestran dos vistas del histograma esférico de dichos puntos para una gran colección de estructuras de proteínas. El tratamiento estadístico de tales datos pertenece al ámbito de las estadísticas direccionales. ^[1]

El hecho de que 0 grados y 360 grados son ángulos idénticos, de modo que, por ejemplo, 180 grados no es una media sensible de 2 grados y 358 grados, proporciona una ilustración de que se requieren métodos estadísticos especiales para el análisis de algunos tipos de datos (en este caso, datos angulares). Otros ejemplos de datos que pueden considerarse direccionales incluyen estadísticas que involucran períodos temporales (por ejemplo, hora del día, semana, mes, año, etc.), direcciones de la brújula, ángulos diedros en moléculas, orientaciones, rotaciones, etc.

Distribuciones circulares

Cualquier función de densidad de probabilidad (pdf) ${\ Displaystyle p (x)}$ en la línea se puede "envolver" alrededor de la circunferencia de un círculo de unidad de radio. ^[2] Es decir, el pdf de la variable envuelta

{\ Displaystyle \ theta = x_ {w} = x {\ bmod {2}} \ pi \ \ \ in (- \ pi, \ pi]}

es

{\ Displaystyle p_ {w} (\ theta) = \ sum _ {k = - \ infty} ^ {\ infty} {p (\ theta +2 \ pi k)}.}

Este concepto puede extenderse al contexto multivariado mediante una extensión de la suma simple a un número de ${\ Displaystyle F}$ sumas que cubren todas las dimensiones en el espacio de características:

{\ Displaystyle p_ {w} ({\ vec {\ theta}}) = \ sum _ {k_ {1} = - \ infty} ^ {\ infty} \ cdots \ sum _ {k_ {F} = - \ infty } ^ {\ infty} {p ({\ vec {\ theta}} + 2 \ pi k_ {1} \ mathbf {e} _ {1} + \ dots +2 \ pi k_ {F} \ mathbf {e} _{F})}}

dónde ${\ Displaystyle \ mathbf {e} _ {k} = (0, \ dots, 0,1,0, \ dots, 0) ^ {\ mathsf {T}}}$ es el ${\ Displaystyle k}$ vector de base euclidiana.

Las siguientes secciones muestran algunas distribuciones circulares relevantes.

distribución circular de von Mises

La distribución de von Mises es una distribución circular que, como cualquier otra distribución circular, puede considerarse como un envoltorio de una cierta distribución de probabilidad lineal alrededor del círculo. La distribución de probabilidad lineal subyacente para la distribución de von Mises es matemáticamente intratable; sin embargo, para fines estadísticos, no es necesario tratar con la distribución lineal subyacente. La utilidad de la distribución de von Mises es doble: es la más matemáticamente manejable de todas las distribuciones circulares, lo que permite un análisis estadístico más simple, y es una aproximación cercana a la distribución normal envuelta , que, de manera análoga a la distribución normal lineal, es importante porque es el caso límite para la suma de un gran número de pequeñas desviaciones angulares ^{[ cita requerida ]} . De hecho, la distribución de von Mises a menudo se conoce como distribución "circular normal" debido a su facilidad de uso y su estrecha relación con la distribución normal envuelta (Fisher, 1993).

El pdf de la distribución de von Mises es:

{\ Displaystyle f (\ theta; \ mu, \ kappa) = {\ frac {e ^ {\ kappa \ cos (\ theta - \ mu)}} {2 \ pi I_ {0} (\ kappa)}}}

dónde ${\ Displaystyle I_ {0}}$ es la función de Bessel modificada de orden 0.

Distribución uniforme circular

La función de densidad de probabilidad (pdf) de la distribución circular uniforme está dada por

{\ Displaystyle U (\ theta) = 1 / (2 \ pi). \,}

También se puede pensar en ${\ Displaystyle \ kappa = 0}$ de los von Mises arriba.

Distribución normal envuelta

El pdf de la distribución normal envuelta (WN) es:

{\ Displaystyle WN (\ theta; \ mu, \ sigma) = {\ frac {1} {\ sigma {\ sqrt {2 \ pi}}}} \ sum _ {k = - \ infty} ^ {\ infty} \ exp \ left [{\ frac {- (\ theta - \ mu -2 \ pi k) ^ {2}} {2 \ sigma ^ {2}}} \ right] = {\ frac {1} {2 \ pi}} \ vartheta \ left ({\ frac {\ theta - \ mu} {2 \ pi}}, {\ frac {i \ sigma ^ {2}} {2 \ pi}} \ right)}

donde μ y σ son la media y la desviación estándar de la distribución sin envolver, respectivamente y

{\ Displaystyle \ vartheta (\ theta, \ tau)}

es la función theta de Jacobi :

{\ Displaystyle \ vartheta (\ theta, \ tau) = \ sum _ {n = - \ infty} ^ {\ infty} (w ^ {2}) ^ {n} q ^ {n ^ {2}}}

dónde

{\ Displaystyle w \ equiv e ^ {i \ pi \ theta}}

y

{\ Displaystyle q \ equiv e ^ {i \ pi \ tau}.}

Distribución de Cauchy envuelta

El pdf de la distribución de Cauchy envuelta (WC) es:

{\ Displaystyle WC (\ theta; \ theta _ {0}, \ gamma) = \ sum _ {n = - \ infty} ^ {\ infty} {\ frac {\ gamma} {\ pi (\ gamma ^ {2 } + (\ theta +2 \ pi n- \ theta _ {0}) ^ {2})}} = {\ frac {1} {2 \ pi}} \, \, {\ frac {\ sinh \ gamma } {\ cosh \ gamma - \ cos (\ theta - \ theta _ {0})}}}

dónde

{\ Displaystyle \ gamma}

es el factor de escala y

{\ Displaystyle \ theta _ {0}}

es la posición más alta.

Distribución Lévy envuelta

El pdf de la distribución Lévy envuelta (WL) es:

{\ Displaystyle f_ {WL} (\ theta; \ mu, c) = \ sum _ {n = - \ infty} ^ {\ infty} {\ sqrt {\ frac {c} {2 \ pi}}} \, {\ frac {e ^ {- c / 2 (\ theta +2 \ pi n- \ mu)}} {(\ theta +2 \ pi n- \ mu) ^ {3/2}}}}

donde el valor del sumando se toma como cero cuando ${\ Displaystyle \ theta +2 \ pi n- \ mu \ leq 0}$ , ${\ Displaystyle c}$ es el factor de escala y ${\ Displaystyle \ mu}$ es el parámetro de ubicación.

Distribuciones en variedades de dimensiones superiores

Tres conjuntos de puntos muestreados de diferentes distribuciones de Kent en la esfera.

También existen distribuciones en la esfera bidimensional (como la distribución de Kent ^[3] ), la esfera N -dimensional (la distribución de von Mises-Fisher ^[4] ) o el toro (la distribución bivariada de von Mises ^[5] ) .

La distribución de la matriz de von Mises-Fisher es una distribución de la variedad Stiefel y se puede utilizar para construir distribuciones de probabilidad sobre matrices de rotación . ^[6]

La distribución de Bingham es una distribución sobre ejes en N dimensiones, o equivalentemente, sobre puntos en la esfera ( N - 1) -dimensional con las antípodas identificadas. ^[7] Por ejemplo, si N = 2, los ejes son líneas no dirigidas a través del origen en el plano. En este caso, cada eje corta el círculo unitario en el plano (que es la esfera unidimensional) en dos puntos que son las antípodas del otro. Para N = 4, la distribución de Bingham es una distribución sobre el espacio de los cuaterniones unitarios . Dado que un cuaternión unitario corresponde a una matriz de rotación, la distribución de Bingham para N = 4 se puede utilizar para construir distribuciones de probabilidad sobre el espacio de rotaciones, al igual que la distribución Matrix-von Mises-Fisher.

Estas distribuciones se utilizan, por ejemplo, en geología , ^[8] cristalografía ^[9] y bioinformática . ^[1]^[10]^[11]

Momentos

Los momentos vectoriales brutos (o trigonométricos) de una distribución circular se definen como

{\ Displaystyle m_ {n} = \ operatorname {E} (z ^ {n}) = \ int _ {\ Gamma} P (\ theta) z ^ {n} \, d \ theta}

dónde ${\ Displaystyle \ Gamma}$ es cualquier intervalo de longitud ${\ Displaystyle 2 \ pi}$ , ${\ Displaystyle P (\ theta)}$ es el PDF de la distribución circular, y ${\ Displaystyle z = e ^ {i \ theta}}$ . Dado que la integral ${\ Displaystyle P (\ theta)}$ es la unidad, y el intervalo de integración es finito, se deduce que los momentos de cualquier distribución circular son siempre finitos y están bien definidos.

Los momentos de muestra se definen de forma análoga:

{\ Displaystyle {\ overline {m}} _ {n} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} z_ {i} ^ {n}.}

El vector resultante de la población, la longitud y el ángulo medio se definen en analogía con los parámetros de muestra correspondientes.

{\ Displaystyle \ rho = m_ {1}}

{\ Displaystyle R = | m_ {1} |}

{\ Displaystyle \ theta _ {n} = \ operatorname {Arg} (m_ {n}).}

Además, las longitudes de los momentos superiores se definen como:

{\ Displaystyle R_ {n} = | m_ {n} |}

mientras que las partes angulares de los momentos superiores son solo ${\ Displaystyle (n \ theta _ {n}) {\ bmod {2}} \ pi}$ . La duración de todos los momentos estará entre 0 y 1.

Medidas de ubicación y propagación

Se pueden definir varias medidas de ubicación y propagación tanto para la población como para una muestra extraída de esa población. ^[12] La medida de ubicación más común es la media circular. La media circular de la población es simplemente el primer momento de la distribución, mientras que la media muestral es el primer momento de la muestra. La media muestral servirá como estimador insesgado de la media poblacional.

Cuando los datos están concentrados, la mediana y la moda pueden definirse por analogía con el caso lineal, pero para datos más dispersos o multimodales, estos conceptos no son útiles.

Las medidas más comunes de dispersión circular son:

La varianza circular . Para la muestra, la varianza circular se define como:

{\ Displaystyle {\ overline {\ operatorname {Var} (z)}} = 1 - {\ overline {R}} \,}

y para la población

{\ Displaystyle \ operatorname {Var} (z) = 1-R \,}

Ambos tendrán valores entre 0 y 1.

La desviación estándar circular

{\ Displaystyle S (z) = {\ sqrt {\ ln (1 / R ^ {2})}} = {\ sqrt {-2 \ ln (R)}} \,}

{\ Displaystyle {\ overline {S}} (z) = {\ sqrt {\ ln (1 / {\ overline {R}} ^ {2})}} = {\ sqrt {-2 \ ln ({\ overline {R}})}} \,}

con valores entre 0 e infinito. Esta definición de la desviación estándar (en lugar de la raíz cuadrada de la varianza) es útil porque para una distribución normal envuelta, es un estimador de la desviación estándar de la distribución normal subyacente. Por tanto, permitirá estandarizar la distribución circular como en el caso lineal, para valores pequeños de la desviación estándar. Esto también se aplica a la distribución de von Mises que se aproxima mucho a la distribución normal envuelta. Tenga en cuenta que para pequeños

{\ Displaystyle S (z)}

, tenemos

{\ Displaystyle S (z) ^ {2} = 2 \ operatorname {Var} (z)}

.

La dispersión circular

{\ Displaystyle \ delta = {\ frac {1-R_ {2}} {2R ^ {2}}}}

{\ displaystyle {\ overline {\ delta}} = {\ frac {1 - {{\ overline {R}} _ {2}}} {2 {\ overline {R}} ^ {2}}}}

con valores entre 0 e infinito. Esta medida de propagación se considera útil en el análisis estadístico de varianza.

Distribución de la media

Dado un conjunto de N medidas ${\ Displaystyle z_ {n} = e ^ {i \ theta _ {n}}}$ el valor medio de z se define como:

{\ Displaystyle {\ overline {z}} = {\ frac {1} {N}} \ sum _ {n = 1} ^ {N} z_ {n}}

que puede expresarse como

{\ Displaystyle {\ overline {z}} = {\ overline {C}} + i {\ overline {S}}}

dónde

{\ Displaystyle {\ overline {C}} = {\ frac {1} {N}} \ sum _ {n = 1} ^ {N} \ cos (\ theta _ {n}) {\ text {y}} {\ overline {S}} = {\ frac {1} {N}} \ sum _ {n = 1} ^ {N} \ sin (\ theta _ {n})}

o, alternativamente como:

{\ Displaystyle {\ overline {z}} = {\ overline {R}} e ^ {i {\ overline {\ theta}}}}

dónde

{\ Displaystyle {\ overline {R}} = {\ sqrt {{\ overline {C}} ^ {2} + {\ overline {S}} ^ {2}}} {\ text {y}} {\ overline {\ theta}} = \ arctan ({\ overline {S}} / {\ overline {C}}).}

La distribución de la media ( ${\ Displaystyle {\ overline {\ theta}}}$ ) para un pdf circular P ( θ ) vendrá dado por:

{\ Displaystyle P ({\ overline {C}}, {\ overline {S}}) \, d {\ overline {C}} \, d {\ overline {S}} = P ({\ overline {R} }, {\ overline {\ theta}}) \, d {\ overline {R}} \, d {\ overline {\ theta}} = \ int _ {\ Gamma} \ cdots \ int _ {\ Gamma} \ prod _ {n = 1} ^ {N} \ left [P (\ theta _ {n}) \, d \ theta _ {n} \ right]}

dónde ${\ Displaystyle \ Gamma}$ está sobre cualquier intervalo de longitud ${\ Displaystyle 2 \ pi}$ y la integral está sujeta a la restricción de que ${\ Displaystyle {\ overline {S}}}$ y ${\ Displaystyle {\ overline {C}}}$ son constantes, o, alternativamente, que ${\ Displaystyle {\ overline {R}}}$ y ${\ Displaystyle {\ overline {\ theta}}}$ son constantes.

El cálculo de la distribución de la media para la mayoría de las distribuciones circulares no es analíticamente posible y para realizar un análisis de varianza se necesitan aproximaciones numéricas o matemáticas. ^[13]

El teorema del límite central puede aplicarse a la distribución de las medias muestrales. (artículo principal: teorema del límite central para estadística direccional ). Se puede demostrar ^[13] que la distribución de ${\ Displaystyle [{\ overline {C}}, {\ overline {S}}]}$ se aproxima a una distribución normal bivariada en el límite del tamaño de muestra grande.

Pruebas de bondad de ajuste y significación

Para datos cíclicos (por ejemplo, se distribuye uniformemente):

Prueba de Rayleigh para un grupo unimodal
Prueba de Kuiper para datos posiblemente multimodales.

Ver también

Distribución normal compleja
Método Yamartino
Distribución envuelta

Referencias

^ a b Hamelryck, Thomas; Kent, John T .; Krogh, Anders (2006). "Hamelryck, T., Kent, J., Krogh, A. (2006) Muestreo de conformaciones de proteínas realistas utilizando sesgo estructural local. PLoS Comput. Biol., 2 (9): e131" . PLOS Biología Computacional . 2 (9): e131. Código Bibliográfico : 2006PLSCB ... 2..131H . doi : 10.1371 / journal.pcbi.0020131 . PMC 1570370 . PMID 17002495 .
^ Bahlmann, C., (2006), Funciones direccionales en el reconocimiento de escritura a mano en línea , Reconocimiento de patrones, 39
^ Kent, J (1982) La distribución de Fisher-Bingham en la esfera . J Royal Stat Soc, 44, 71–80.
^ Fisher, RA (1953) Dispersión en una esfera. Proc. Roy. Soc. London Ser. A., 217, 295–305
^ Mardia, KM. Taylor; CC; Subramaniam, GK. (2007). "Bioinformática de proteínas y mezclas de distribuciones bivariadas de von Mises para datos angulares". Biometría . 63 (2): 505–512. doi : 10.1111 / j.1541-0420.2006.00682.x . PMID 17688502 .
^ Downs (1972). "Estadísticas de orientación". Biometrika . 59 (3): 665–676. doi : 10.1093 / biomet / 59.3.665 .
^ Bingham, C. (1974). "Una distribución antipodalmente simétrica en la esfera" . Ana. Stat . 2 (6): 1201-1225. doi : 10.1214 / aos / 1176342874 .
^ Pelar, D .; Blanquear, WJ .; McLachlan, GJ. (2001). "Colocación de mezclas de distribuciones de Kent para ayudar en la identificación de conjuntos conjuntos" (PDF) . Mermelada. Stat. Assoc . 96 (453): 56–63. doi : 10.1198 / 016214501750332974 . S2CID 11667311 .
^ Krieger Lassen, Carolina del Norte; Juul Jensen, D .; Conradsen, K. (1994). "Sobre el análisis estadístico de los datos de orientación". Acta Crystallogr . A50 (6): 741–748. doi : 10.1107 / S010876739400437X .
^ Kent, JT, Hamelryck, T. (2005). Usando la distribución de Fisher-Bingham en modelos estocásticos para estructura de proteínas . En S. Barber, PD Baxter, KVMardia y RE Walls (Eds.), Biología cuantitativa, análisis de formas y wavelets, págs. 57–60. Leeds, Leeds University Press
^ Boomsma, Wouter; Mardia, Kanti V .; Taylor, Charles C .; Ferkinghoff-Borg, Jesper; Krogh, Anders; Hamelryck, Thomas (2008). "Un modelo probabilístico generativo de la estructura de la proteína local" . Actas de la Academia Nacional de Ciencias . 105 (26): 8932–8937. Código bibliográfico : 2008PNAS..105.8932B . doi : 10.1073 / pnas.0801715105 . PMC 2440424 . PMID 18579771 .
^ Fisher, NI., Análisis estadístico de datos circulares , Cambridge University Press, 1993. ISBN 0-521-35018-2
^ a b Jammalamadaka, S. Rao; Sengupta, A. (2001). Temas en estadística circular . Nueva Jersey: World Scientific. ISBN 978-981-02-3778-3. Consultado el 15 de mayo de 2011 .

Libros sobre estadísticas direccionales

Batschelet, E. Estadísticas circulares en biología, Academic Press, Londres, 1981. ISBN 0-12-081050-6 .
Fisher, NI., Análisis estadístico de datos circulares , Cambridge University Press, 1993. ISBN 0-521-35018-2
Fisher, NI., Lewis, T., Embleton, BJJ. Análisis estadístico de datos esféricos , Cambridge University Press, 1993. ISBN 0-521-45699-1
Jammalamadaka S. Rao y SenGupta A. Temas de estadísticas circulares , World Scientific, 2001. ISBN 981-02-3778-2
Mardia, KV. y Jupp P., Directional Statistics (segunda edición) , John Wiley and Sons Ltd., 2000. ISBN 0-471-95333-4
Ley, C. y Verdebout, T., Estadísticas direccionales modernas , CRC Press Taylor & Francis Group, 2017. ISBN 978-1-4987-0664-3

[compbiol.plosjournals.org-1] Hamelryck, Thomas; Kent, John T .; Krogh, Anders (2006). "Hamelryck, T., Kent, J., Krogh, A. (2006) Muestreo de conformaciones de proteínas realistas utilizando sesgo estructural local. PLoS Comput. Biol., 2 (9): e131" . PLOS Biología Computacional . 2 (9): e131. Código Bibliográfico : 2006PLSCB ... 2..131H . doi : 10.1371 / journal.pcbi.0020131 . PMC 1570370 . PMID 17002495 .

[2] Bahlmann, C., (2006), Funciones direccionales en el reconocimiento de escritura a mano en línea , Reconocimiento de patrones, 39

[3] Kent, J (1982) La distribución de Fisher-Bingham en la esfera . J Royal Stat Soc, 44, 71–80.

[4] Fisher, RA (1953) Dispersión en una esfera. Proc. Roy. Soc. London Ser. A., 217, 295–305

[5] Mardia, KM. Taylor; CC; Subramaniam, GK. (2007). "Bioinformática de proteínas y mezclas de distribuciones bivariadas de von Mises para datos angulares". Biometría . 63 (2): 505–512. doi : 10.1111 / j.1541-0420.2006.00682.x . PMID 17688502 .

[6] Downs (1972). "Estadísticas de orientación". Biometrika . 59 (3): 665–676. doi : 10.1093 / biomet / 59.3.665 .

[7] Bingham, C. (1974). "Una distribución antipodalmente simétrica en la esfera" . Ana. Stat . 2 (6): 1201-1225. doi : 10.1214 / aos / 1176342874 .

[8] Pelar, D .; Blanquear, WJ .; McLachlan, GJ. (2001). "Colocación de mezclas de distribuciones de Kent para ayudar en la identificación de conjuntos conjuntos" (PDF) . Mermelada. Stat. Assoc . 96 (453): 56–63. doi : 10.1198 / 016214501750332974 . S2CID 11667311 .

[9] Krieger Lassen, Carolina del Norte; Juul Jensen, D .; Conradsen, K. (1994). "Sobre el análisis estadístico de los datos de orientación". Acta Crystallogr . A50 (6): 741–748. doi : 10.1107 / S010876739400437X .

[10] Kent, JT, Hamelryck, T. (2005). Usando la distribución de Fisher-Bingham en modelos estocásticos para estructura de proteínas . En S. Barber, PD Baxter, KVMardia y RE Walls (Eds.), Biología cuantitativa, análisis de formas y wavelets, págs. 57–60. Leeds, Leeds University Press

[11] Boomsma, Wouter; Mardia, Kanti V .; Taylor, Charles C .; Ferkinghoff-Borg, Jesper; Krogh, Anders; Hamelryck, Thomas (2008). "Un modelo probabilístico generativo de la estructura de la proteína local" . Actas de la Academia Nacional de Ciencias . 105 (26): 8932–8937. Código bibliográfico : 2008PNAS..105.8932B . doi : 10.1073 / pnas.0801715105 . PMC 2440424 . PMID 18579771 .

[12] Fisher, NI., Análisis estadístico de datos circulares , Cambridge University Press, 1993. ISBN 0-521-35018-2

[SRJ-13] Jammalamadaka, S. Rao; Sengupta, A. (2001). Temas en estadística circular . Nueva Jersey: World Scientific. ISBN 978-981-02-3778-3. Consultado el 15 de mayo de 2011 .

[1]