En estadística , la desviación absoluta mediana ( MAD ) es una medida robusta de la variabilidad de una muestra univariada de datos cuantitativos . También se puede referir a la población parámetro que se estima por el MAD calculado a partir de una muestra.
Para un conjunto de datos univariados X 1 , X 2 , ..., X n , la MAD se define como la mediana de las desviaciones absolutas de la mediana de los datos:
es decir, comenzando con los residuos (desviaciones) de la mediana de los datos, la MAD es la mediana de sus valores absolutos .
Ejemplo
Considere los datos (1, 1, 2, 2 , 4, 6, 9). Tiene un valor mediano de 2. Las desviaciones absolutas alrededor de 2 son (1, 1, 0, 0, 2, 4, 7) que a su vez tienen un valor mediano de 1 (porque las desviaciones absolutas ordenadas son (0, 0, 1, 1 , 2, 4, 7)). Entonces, la desviación absoluta mediana para estos datos es 1.
Usos
La desviación absoluta mediana es una medida de dispersión estadística . Además, la MAD es una estadística sólida , que es más resistente a los valores atípicos en un conjunto de datos que la desviación estándar . En la desviación estándar, las distancias desde la media se elevan al cuadrado, por lo que las desviaciones grandes se ponderan más y, por lo tanto, los valores atípicos pueden influir mucho en ella. En el MAD, las desviaciones de un pequeño número de valores atípicos son irrelevantes.
Debido a que el MAD es un estimador de escala más robusto que la varianza muestral o la desviación estándar , funciona mejor con distribuciones sin media o varianza, como la distribución de Cauchy .
Relación con la desviación estándar
La MAD puede usarse de manera similar a como se usaría la desviación para el promedio. Para utilizar la DMA como estimador consistente para la estimación de la desviación estándar , uno toma
dónde es un factor de escala constante , que depende de la distribución. [1]
Para datos distribuidos normalmente se toma para ser
es decir, el recíproco de la función cuantil (también conocido como el inverso de la función de distribución acumulativa ) para la distribución normal estándar . [2] [3] El argumento 3/4 es tal quecubre el 50% (entre 1/4 y 3/4) de la función de distribución acumulativa normal estándar , es decir
Por lo tanto, debemos tener eso
Darse cuenta de que
tenemos eso , del cual obtenemos el factor de escala .
Otra forma de establecer la relación es observar que MAD es igual a la mediana de la distribución media normal :
Este formulario se utiliza, por ejemplo, en el error probable .
Desviación absoluta de la mediana geométrica
De manera similar a cómo la mediana se generaliza a la mediana geométrica en datos multivariados, se puede construir una DMA geométrica que generaliza la DMA. Dado un conjunto de datos emparejados bidimensionales (X 1 , Y 1 ), (X 2 , Y 2 ), ..., (X n , Y n ) y una mediana geométrica calculada adecuadamente, la desviación absoluta media geométrica viene dada por:
Esto da el mismo resultado que el MAD univariado en 1 dimensión y se extiende fácilmente a dimensiones más altas. En el caso de valores complejos ( X + i Y ), la relación de MAD con la desviación estándar no cambia para los datos distribuidos normalmente.
La población MAD
La población MAD se define de forma análoga a la muestra MAD, pero se basa en la distribución completa más que en una muestra. Para una distribución simétrica con media cero, la población MAD es el percentil 75 de la distribución.
A diferencia de la varianza , que puede ser infinita o indefinida, la población MAD es siempre un número finito. Por ejemplo, la distribución de Cauchy estándar tiene una varianza indefinida, pero su MAD es 1.
La primera mención conocida del concepto de MAD ocurrió en 1816, en un artículo de Carl Friedrich Gauss sobre la determinación de la precisión de las observaciones numéricas. [4] [5]
Ver también
Notas
- ^ Rousseeuw, PJ ; Croux, C. (1993). "Alternativas a la desviación absoluta mediana". Revista de la Asociación Estadounidense de Estadística . 88 (424): 1273–1283. doi : 10.1080 / 01621459.1993.10476408 . hdl : 2027,42 / 142454 .
- ^ Ruppert, D. (2010). Estadística y análisis de datos para ingeniería financiera . Saltador. pag. 118. ISBN 9781441977878. Consultado el 27 de agosto de 2015 .
- ^ Leys, C .; et al. (2013). "Detección de valores atípicos: no utilice la desviación estándar alrededor de la media, utilice la desviación absoluta alrededor de la mediana" (PDF) . Revista de Psicología Social Experimental . 49 (4): 764–766. doi : 10.1016 / j.jesp.2013.03.013 .
- ^ Gauss, Carl Friedrich (1816). "Bestimmung der Genauigkeit der Beobachtungen". Zeitschrift für Astronomie und Verwandte Wissenschaften . 1 : 187-197.
- ^ Walker, Helen (1931). Estudios de Historia del Método Estadístico . Baltimore, MD: Williams & Wilkins Co. págs. 24-25.
Referencias
- Hoaglin, David C .; Frederick Mosteller; John W. Tukey (1983). Comprensión del análisis de datos robusto y exploratorio . John Wiley e hijos. págs. 404–414. ISBN 978-0-471-09777-8.
- Russell, Roberta S .; Bernard W. Taylor III (2006). Gestión de operaciones . John Wiley e hijos. págs. 497–498 . ISBN 978-0-471-69209-6.
- Venables, WN; BD Ripley (1999). Estadísticas aplicadas modernas con S-PLUS . Saltador. pag. 128. ISBN 978-0-387-98825-2.