Distancia de energía


De Wikipedia, la enciclopedia libre
  (Redirigido desde E-estadística )
Saltar a navegación Saltar a búsqueda

La distancia de energía es una distancia estadística entre distribuciones de probabilidad . Si X e Y son vectores aleatorios independientes en R d con funciones de distribución acumulativa (CDF) F y G respectivamente, entonces la distancia de energía entre las distribuciones F y G se define como la raíz cuadrada de

donde (X, X ', Y, Y') son independientes, la CDF de X y X 'es F, la CDF de Y e Y' es G, es el valor esperado y || . || denota la longitud de un vector. La distancia de energía satisface todos los axiomas de una métrica, por lo que la distancia de energía caracteriza la igualdad de distribuciones: D (F, G) = 0 si y solo si F = G. La distancia de energía para aplicaciones estadísticas fue introducida en 1985 por Gábor J. Székely , quien demostró que para las variables aleatorias de valor real es exactamente el doble de la distancia de Harald Cramér : [1]

Para una prueba simple de esta equivalencia, vea Székely (2002). [2]

Sin embargo, en dimensiones más altas, las dos distancias son diferentes porque la distancia de energía es invariante en rotación, mientras que la distancia de Cramér no lo es. (Observe que la distancia de Cramér no es la misma que el criterio de Cramér-von Mises sin distribución ).

Generalización a espacios métricos

Se puede generalizar la noción de distancia de energía a distribuciones de probabilidad en espacios métricos. Sea un espacio métrico con su álgebra sigma de Borel . Dejar que denotan la colección de todas las medidas de probabilidad en el espacio medible . Si μ y ν son medidas de probabilidad en , entonces la energía-distancia de μ y ν se puede definir como la raíz cuadrada de

Sin embargo, esto no es necesariamente negativo. Si es un kernel definido fuertemente negativo, entonces es una métrica y viceversa. [3] Esta condición se expresa diciendo que tiene tipo negativo. El tipo negativo no es suficiente para ser una métrica; la última condición se expresa diciendo que tiene tipo fuerte negativo. En esta situación, la distancia de energía es cero si y solo si X e Y están distribuidos de manera idéntica. Un ejemplo de una métrica de tipo negativo pero no de tipo negativo fuerte es el avión con la métrica de taxi . Todos los espacios euclidianos e incluso los espacios de Hilbert separables tienen un tipo negativo fuerte. [4]

En la literatura sobre métodos de kernel para el aprendizaje automático , estas nociones generalizadas de distancia de energía se estudian bajo el nombre de máxima discrepancia media. Varios autores cubren la equivalencia de los métodos kernel y basados ​​en la distancia para la prueba de hipótesis. [5] [6]

Estadísticas energéticas

Un concepto estadístico relacionado, la noción de estadística E o estadística energética [7] fue introducido por Gábor J. Székely en la década de 1980 cuando daba conferencias coloquiales en Budapest, Hungría y en el MIT, Yale y Columbia. Este concepto se basa en la noción de energía potencial de Newton . [8] La idea es considerar las observaciones estadísticas como cuerpos celestes gobernados por una energía potencial estadística que es cero solo cuando una hipótesis nula estadística subyacente es verdadera. Las estadísticas de energía son funciones de distancias entre observaciones estadísticas.

La distancia de energía y el estadístico E se consideraron como N -distancias y N-estadístico en Zinger AA, Kakosyan AV, Klebanov LB Caracterización de distribuciones mediante valores medios de algunos estadísticos en relación con algunas métricas de probabilidad, Problemas de estabilidad para modelos estocásticos. Moscú, VNIISI, 1989, 47-55. (en ruso), traducción al inglés: una caracterización de distribuciones por valores medios de estadísticas y ciertas métricas probabilísticas AA Zinger, AV Kakosyan, LB Klebanov en Journal of Soviet Mathematics (1992). En el mismo artículo se dio una definición de kernel definido fuertemente negativo, y se brindó una generalización sobre los espacios métricos, discutida anteriormente. El libro [3]también proporciona estos resultados y sus aplicaciones a las pruebas estadísticas. El libro también contiene algunas aplicaciones para recuperar la medida de su potencial.

Prueba de distribuciones iguales

Considere la hipótesis nula de que dos variables aleatorias, X y Y , tienen los mismos distribuciones de probabilidad: . Para muestras estadísticas de X e Y :

y ,

Se calculan los siguientes promedios aritméticos de distancias entre las muestras X e Y:

.

El estadístico E de la hipótesis nula subyacente se define de la siguiente manera:

Se puede probar [8] [9] que y que el valor de población correspondiente es cero si y solo si X e Y tienen la misma distribución ( ). Bajo esta hipótesis nula, el estadístico de prueba

converge en distribución a una forma cuadrática de variables aleatorias normales estándar independientes . Según la hipótesis alternativa, T tiende al infinito. Esto hace posible construir una prueba estadística consistente , la prueba de energía para distribuciones iguales. [10]

También se puede introducir el coeficiente E de falta de homogeneidad. Siempre está entre 0 y 1 y se define como

donde denota el valor esperado . H  = 0 exactamente cuando X e Y tienen la misma distribución.

Bondad de ajuste

Se define una medida de bondad de ajuste multivariante para distribuciones en una dimensión arbitraria (no restringida por el tamaño de la muestra). La estadística de bondad de ajuste de energía es

donde X y X 'son independientes e idénticamente distribuidos según la distribución hipotética, y . La única condición requerida es que X tenga un momento finito bajo la hipótesis nula. Bajo la hipótesis nula , y la distribución asintótica de Q n es una forma cuadrática de variables aleatorias gaussianas centradas. Bajo una hipótesis alternativa, Q n tiende a infinito estocástica, y por lo tanto determina una prueba estadísticamente compatibles. Para la mayoría de las aplicaciones, se puede aplicar el exponente 1 (distancia euclidiana). El importante caso especial de probar la normalidad multivariante [9] se implementa en la energíapaquete para R. Las pruebas también se desarrollan para distribuciones de cola pesada como Pareto ( ley de potencia ), o distribuciones estables mediante la aplicación de exponentes en (0,1).

Aplicaciones

Las aplicaciones incluyen:

  • Agrupación jerárquica (una generalización del método de Ward) [11] [12]
  • Prueba de normalidad multivariante [9]
  • Probando la hipótesis de múltiples muestras de distribuciones iguales, [13] [14] [15]
  • Detección de punto de cambio [16]
  • Independencia multivariante:
    • correlación de distancia , [17]
    • Covarianza browniana . [18]
  • Reglas de puntuación :
Gneiting y Raftery [19] aplican la distancia de energía para desarrollar un tipo nuevo y muy general de regla de puntuación adecuada para las predicciones probabilísticas, la puntuación de energía.
  • Estadísticas sólidas [20]
  • Reducción de escenario [21]
  • Selección de genes [22]
  • Análisis de datos de microarrays [23]
  • Análisis de la estructura del material [24]
  • Datos morfométricos y quimiométricos [25]

Las aplicaciones de las estadísticas de energía se implementan en el código abierto de energía paquete [26] para R .

Referencias

  1. Cramér, H. (1928) Sobre la composición de errores elementales, Skandinavisk Aktuarietidskrift, 11, 141-180.
  2. ^ E-Estadísticas: La energía de las muestras estadísticas (2002) PDF
  3. ^ a b Klebanov, LB (2005) N-distancias y sus aplicaciones, Karolinum Press , Universidad Charles, Praga.
  4. ^ Lyons, R. (2013). "Covarianza de distancia en espacios métricos". Los anales de la probabilidad . 41 (5): 3284-3305. arXiv : 1106.5758 . doi : 10.1214 / 12-aop803 . S2CID  73677891 .
  5. Sejdinovic, D .; Sriperumbudur, B .; Gretton, A. y Fukumizu, K. (2013). "Equivalencia de estadísticas basadas en distancia y basadas en RKHS en pruebas de hipótesis". The Annals of Statistics . 41 (5): 2263–2291. arXiv : 1207.6076 . doi : 10.1214 / 13-aos1140 . S2CID 8308769 . 
  6. ^ Shen, Cencheng; Vogelstein, Joshua T. (2018). "La equivalencia exacta de métodos de distancia y kernel para pruebas de hipótesis". arXiv : 1806.05514 . Cite journal requiere |journal=( ayuda )
  7. ^ GJ Szekely y ML Rizzo (2013). Estadísticas de energía: estadísticas basadas en distancias. Revista de planificación e inferencia estadísticas, volumen 143, número 8, agosto de 2013, págs. 1249-1272. [1]
  8. ^ a b Székely, GJ (2002) Estadísticas electrónicas: La energía de las muestras estadísticas, Informe técnico BGSU No 02-16.
  9. ^ a b c Székely, GJ; Rizzo, ML (2005). "Una nueva prueba de normalidad multivariante" . Revista de análisis multivariante . 93 (1): 58–80. doi : 10.1016 / j.jmva.2003.12.002 . Reimprimir
  10. ^ GJ Szekely y ML Rizzo (2004). Prueba de distribuciones iguales en alta dimensión, InterStat , noviembre (5). Reimprimir .
  11. ^ Székely, GJ y Rizzo, ML (2005) Agrupación jerárquica a través de distancias conjuntas intermedias: extender el método de varianza mínima de Ward, Journal of Classification, 22 (2) 151-183
  12. ^ Varin, T., Bureau, R., Mueller, C. y Willett, P. (2009). "Agrupación de archivos de estructuras químicas utilizando la generalización de Szekely-Rizzo del método de Ward" (PDF) . Revista de Modelado y Gráficos Moleculares . 28 (2): 187-195. doi : 10.1016 / j.jmgm.2009.06.006 . PMID 19640752 .  CS1 maint: varios nombres: lista de autores ( enlace ) "eprint" .
  13. ^ ML Rizzo y GJ Székely (2010). Análisis DISCO: una extensión no paramétrica del análisis de varianza, Annals of Applied Statistics Vol. 4, núm. 2, 1034-1055. arXiv : 1011.2288
  14. ^ Szekely, GJ y Rizzo, ML (2004) Prueba de distribuciones iguales en alta dimensión, InterStat, noviembre (5). Reimprimir .
  15. ^ Ledlie, Jonathan y Pietzuch, Peter y Seltzer, Margo (2006). "Coordenadas de red estables y precisas". 26th IEEE International Conference on Distributed Computing Systems (ICDCS'06) . Sovetskaia Meditsina . ICDCS '06. Washington, DC, EE.UU .: IEEE Computer Society. págs. 74–83. CiteSeerX 10.1.1.68.4006 . doi : 10.1109 / ICDCS.2006.79 . ISBN  978-0-7695-2540-2. PMID  1154085 . S2CID  6770731 .Mantenimiento de CS1: varios nombres: lista de autores ( enlace ) PDF Archivado 2011-07-08 en Wayback Machine
  16. ^ Albert Y. Kim; Caren Marzban; Donald B. Percival; Werner Stuetzle (2009). "Uso de datos etiquetados para evaluar detectores de cambios en un entorno de transmisión multivariante". Procesamiento de señales . 89 (12): 2529-2536. CiteSeerX 10.1.1.143.6576 . doi : 10.1016 / j.sigpro.2009.04.011 . ISSN 0165-1684 .  [2] Preimpresión: TR534 .
  17. ^ Székely, GJ, Rizzo ML y Bakirov, NK (2007). "Medir y probar la independencia por correlación de distancias", The Annals of Statistics , 35, 2769-2794. arXiv : 0803.4101
  18. ^ Székely, GJ y Rizzo, ML (2009). "Covarianza de distancia browniana", The Annals of Applied Statistics , 3/4, 1233–1308. arXiv : 1010.0297
  19. ^ T. Gneiting; AE Raftery (2007). "Reglas de puntuación, predicción y estimación estrictamente adecuadas". Revista de la Asociación Estadounidense de Estadística . 102 (477): 359–378. doi : 10.1198 / 016214506000001437 . S2CID 1878582 .  Reimprimir
  20. ^ Klebanov LB Una clase de métricas de probabilidad y sus aplicaciones estadísticas, estadísticas en la industria y la tecnología: análisis de datos estadísticos, Yadolah Dodge, Ed. Birkhauser, Basilea, Boston, Berlín, 2002, 241-252.
  21. F. Ziel (2021). "La distancia de energía para la reducción de escenarios y conjuntos". Philosophical Transactions de la Royal Society A . 379 (2202): 20190431. arXiv : 2005.14670 . doi : 10.1098 / rsta.2019.0431 . PMID 34092100 . S2CID 219124032 .  
  22. ^ Estadísticas y análisis de datos, 2006, 50, 12, 3619-3628 Rui Hu, Xing Qiu, Galina Glazko, Lev Klebanov, Andrei Yakovlev Detectando cambios de correlación entre genes en el análisis de microarrays: un nuevo enfoque para la selección de genes, BMCBioinformatics, Vol.10, 20 (2009), 1-15.
  23. ^ Yuanhui Xiao, Robert Frisina, Alexander Gordon, Lev Klebanov, Andrei Yakovlev Búsqueda multivariante de combinaciones de genes expresados ​​diferencialmente BMC Bioinformatics, 2004, 5: 164; Antoni Almudevar, Lev Klebanov, Xing Qiu, Andrei Yakovlev Utilidad de las medidas de correlación en el análisis de la expresión génica, en: NeuroRX, 2006, 3, 3, 384-395; Klebanov Lev, Gordon Alexander, Land Hartmut, Yakovlev Andrei Una prueba de permutación motivada por análisis de datos de microarrays
  24. ^ Viktor Benes, Radka Lechnerova, Lev Klebanov, Margarita Slamova, Peter Slama Comparación estadística de la geometría de partículas de segunda fase, Caracterización de materiales, Vol. 60 (2009), 1076 - 1081.
  25. ^ E. Vaiciukynas, A. Verikas, A. Gelzinis, M. Bacauskiene e I. Olenina (2015) Aprovechamiento de la prueba de energía estadística para la comparación de múltiples grupos en datos morfométricos y quimiométricos, Chemometrics and Intelligent Laboratory Systems, 146, 10-23 .
  26. ^ "energía: paquete R versión 1.6.2" . Consultado el 30 de enero de 2015 .
Obtenido de " https://en.wikipedia.org/w/index.php?title=Energy_distance&oldid=1039823390 "