En las estadísticas , el estimador de Hodges-Lehmann es un robusto y no paramétrico de estimación de la población de un parámetro de ubicación . Para las poblaciones que son simétricas alrededor de una mediana , como la distribución normal (gaussiana) o la distribución t de Student, el estimador de Hodges-Lehmann es una estimación consistente y sin sesgo de la mediana de la mediana de la población. Para poblaciones no simétricas, el estimador de Hodges-Lehmann estima la " pseudo-mediana ", que está estrechamente relacionada con la mediana de la población.
El estimador de Hodges-Lehmann se propuso originalmente para estimar el parámetro de ubicación de poblaciones unidimensionales, pero se ha utilizado para muchos más propósitos. Se ha utilizado para estimar las diferencias entre los miembros de dos poblaciones. Se ha generalizado de poblaciones univariadas a poblaciones multivariadas , que producen muestras de vectores .
Se basa en la estadística de rango con signo de Wilcoxon . En teoría estadística, fue un ejemplo temprano de un estimador basado en rangos , una clase importante de estimadores tanto en estadísticas no paramétricas como en estadísticas robustas. El estimador de Hodges-Lehmann fue propuesto en 1963 de forma independiente por Pranab Kumar Sen y por Joseph Hodges y Erich Lehmann , por lo que también se le denomina " estimador de Hodges-Lehmann-Sen ". [1]
Definición
En el caso más simple, el estadístico "Hodges-Lehmann" estima el parámetro de ubicación para una población univariante. [2] [3] Su cálculo se puede describir rápidamente. Para un conjunto de datos con n mediciones, el conjunto de todos los posibles subconjuntos de dos elementos tiene n ( n - 1) / 2 elementos. Para cada uno de esos subconjuntos, se calcula la media; finalmente, la mediana de estos n ( n - 1) / 2 promedios se define como el estimador de ubicación de Hodges-Lehmann.
La estadística de Hodges-Lehmann también estima la diferencia entre dos poblaciones. Para dos conjuntos de datos con m y n observaciones, el conjunto de conjuntos de dos elementos formado por ellos es su producto cartesiano, que contiene m × n pares de puntos (uno de cada conjunto); cada uno de estos pares define una diferencia de valores. El estadístico de Hodges-Lehmann es la mediana de las m × n diferencias. [4]
Estimación de la mediana poblacional de una población simétrica
Para una población que es simétrica, la estadística de Hodges-Lehmann estima la mediana de la población. Es una estadística sólida que tiene un punto de ruptura de 0,29, lo que significa que la estadística permanece limitada incluso si casi el 30 por ciento de los datos han sido contaminados. Esta robustez es una ventaja importante sobre la media de la muestra, que tiene un punto de ruptura cero, es proporcional a cualquier observación única y, por lo tanto, puede ser engañada incluso por un valor atípico . La mediana de la muestra es aún más robusta, con un punto de ruptura de 0,50. [5] El estimador de Hodges-Lehmann también es mucho mejor que la media muestral cuando se estiman mezclas de distribuciones normales. [6]
Para distribuciones simétricas, el estadístico de Hodges-Lehmann tiene mayor eficiencia que la mediana de la muestra. Para la distribución normal, el estadístico de Hodges-Lehmann es casi tan eficiente como la media muestral. Para la distribución de Cauchy (distribución t de Student con un grado de libertad), Hodges-Lehmann es infinitamente más eficiente que la media muestral, que no es un estimador consistente de la mediana. [5]
Para poblaciones no simétricas, la estadística de Hodges-Lehmann estima la "pseudo-mediana" de la población, [7] un parámetro de ubicación que está estrechamente relacionado con la mediana . La diferencia entre la mediana y la pseudomedia es relativamente pequeña, por lo que esta distinción se pasa por alto en las discusiones elementales. Al igual que la mediana espacial , [8] la pseudo-mediana está bien definida para todas las distribuciones de variables aleatorias que tienen una dimensión dos o mayor; para distribuciones unidimensionales, existe alguna pseudomedia, que no tiene por qué ser única, sin embargo. Al igual que la mediana, la pseudo-mediana se define incluso para distribuciones de colas pesadas que carecen de media (finita) . [9]
El estadístico de Hodges-Lehmann de una muestra no necesita estimar ninguna media poblacional, que para muchas distribuciones no existe. El estimador de Hodges-Lehmann de dos muestras no necesita estimar la diferencia de dos medias o la diferencia de dos (pseudo) medianas; más bien, estima las diferencias entre la población de las variables aleatorias emparejadas extraídas respectivamente de las poblaciones. [4]
En estadísticas generales
Las estadísticas univariadas de Hodges-Lehmann tienen varias generalizaciones en las estadísticas multivariadas : [10]
Ver también
Notas
- ^ Lehmann (2006 , págs. 176 y 200-201)
- ^ Dodge, Y. (2003) El diccionario de términos estadísticos de Oxford , OUP. ISBN 0-19-850994-4 Entrada para "Estimador de un samaple de Hodges-Lehmann"
- ^ Hodges y Lehmann (1963)
- ^ a b Everitt (2002) Entrada para "estimador de Hodges-Lehmann"
- ^ a b Myles Hollander. Douglas A. Wolfe. Métodos estadísticos no paramétricos . 2ª ed. John Wiley.
- ^ Procedimientos estadísticos robustos del senador Jureckova.
- ^ Hettmansperger y McKean (1998 , págs. 2-4)
- ↑ a b Oja (2010 , p. 71)
- ^ Hettmansperger y McKean (1998 , págs. 2–4 y 355–356)
- ^ Oja (2010 , págs. 2-3)
- ↑ Oja (2010 , p. 34)
- ^ Oja (2010 , págs. 83–94)
- ^ Oja (2010 , págs. 98-102)
- ^ Oja (2010 , págs. 160, 162 y 167-169)
Referencias
- Everitt, BS (2002) El Diccionario de Estadística de Cambridge , CUP. ISBN 0-521-81099-X
- Hettmansperger, T. P .; McKean, J. W. (1998). Métodos estadísticos robustos no paramétricos . Biblioteca de estadísticas de Kendall. 5 (Primera ed., En lugar de Taylor y Francis (2010), segunda ed.). Londres; Nueva York: Edward Arnold; John Wiley and Sons, Inc. págs. Xiv + 467. ISBN 0-340-54937-8. Señor 1604954 .
- Hodges, J. L .; Lehmann, E. L. (1963). "Estimación de ubicación basada en rangos" . Anales de estadística matemática . 34 (2): 598–611. doi : 10.1214 / aoms / 1177704172 . JSTOR 2238406 . Señor 0152070 . Zbl 0203.21105 . PE euclid.aoms / 1177704172 .
- Lehmann, Erich L. (2006). No paramétricos: métodos estadísticos basados en rangos . Con la ayuda especial de H. J. M. D'Abrera (Reimpresión de la revisión de 1988 de la edición de Holden-Day de 1975). Nueva York: Springer. págs. xvi + 463. ISBN 978-0-387-35212-1. Señor 0395032 .
- Oja, Hannu (2010). Métodos multivariantes no paramétricos con R : un enfoque basado en signos y rangos espaciales . Notas de conferencias en estadística. 199 . Nueva York: Springer. págs. xiv + 232. doi : 10.1007 / 978-1-4419-0468-3 . ISBN 978-1-4419-0467-6. Señor 2598854 .
- Sen, Pranab Kumar (diciembre de 1963). "Sobre la estimación de la potencia relativa en ensayos de dilución (-directa) por métodos sin distribución". Biometría . 19 (4): 532–552. doi : 10.2307 / 2527532 . JSTOR 2527532 . Zbl 0119.15604 .