Estimador de Theil-Sen

En estadística no paramétrica , el estimador de Theil-Sen es un método para ajustar de manera robusta una línea a puntos muestrales en el plano ( regresión lineal simple ) eligiendo la mediana de las pendientes de todas las líneas a través de pares de puntos. También se ha llamado estimador pendiente de Sen , ^[1]^[2] la selección pendiente , ^[3]^[4] el método de mediana sola , ^[5] el robusto método de línea ajuste Kendall , ^[6] y la línea sólida Kendall-Theil . ^[7]Lleva el nombre de Henri Theil y Pranab K. Sen , quienes publicaron artículos sobre este método en 1950 y 1968 respectivamente, ^[8] y de Maurice Kendall debido a su relación con el coeficiente de correlación de rangos tau de Kendall . ^[9]

El estimador de Theil-Sen de un conjunto de puntos muestrales con valores atípicos (línea negra) en comparación con la línea de mínimos cuadrados ordinarios no robusta para el mismo conjunto (azul). La línea verde discontinua representa la verdad básica a partir de la cual se generaron las muestras.

Este estimador se puede calcular de manera eficiente y es insensible a valores atípicos . Puede ser significativamente más precisa que la regresión lineal simple no robusta (mínimos cuadrados) para datos asimétricos y heterocedásticos , y compite bien contra mínimos cuadrados incluso para datos distribuidos normalmente en términos de poder estadístico . ^[10] Se le ha llamado "la técnica no paramétrica más popular para estimar una tendencia lineal". ^[2]

Definición

Según lo definido por Theil (1950) , el estimador de Theil-Sen de un conjunto de puntos bidimensionales $(x i, y i)$ es la mediana $m$ de las pendientes $(y j - y i) / (x j - x i)$ determinado por todos los pares de puntos muestrales. Sen (1968) amplió esta definición para manejar el caso en el que dos puntos de datos tienen la misma coordenada $x$ . En la definición de Sen, se toma la mediana de las pendientes definidas solo a partir de pares de puntos que tienen distintas coordenadas $x$ . ^[8]

Una vez que se ha determinado la pendiente $m$ , se puede determinar una línea a partir de los puntos muestrales estableciendo la intersección en $y$ $b$ como la mediana de los valores $y i - mx i$ . La línea de ajuste es entonces la línea $y = mx + b$ con coeficientes $m$ y $b$ en forma pendiente-intersección . ^[11] Como observó Sen, esta elección de pendiente hace que el coeficiente de correlación de rangos tau de Kendall sea aproximadamente cero, cuando se usa para comparar los valores $x i$ con sus residuos asociados $y i - mx i - b$ . Intuitivamente, esto sugiere que la distancia que pasa la línea de ajuste por encima o por debajo de un punto de datos no está correlacionada con si ese punto está en el lado izquierdo o derecho del conjunto de datos. La elección de $b$ no afecta el coeficiente de Kendall, pero hace que la mediana del residuo sea aproximadamente cero; es decir, la línea de ajuste pasa por encima y por debajo del mismo número de puntos. ^[9]

Se puede determinar un intervalo de confianza para la estimación de la pendiente como el intervalo que contiene el 95% medio de las pendientes de las líneas determinadas por pares de puntos ^[12] y se puede estimar rápidamente muestreando pares de puntos y determinando el intervalo del 95% de la muestra. pendientes. Según las simulaciones, aproximadamente 600 pares de muestras son suficientes para determinar un intervalo de confianza preciso. ^[10]

Variaciones

Una variación del estimador de Theil-Sen, la regresión mediana repetida de Siegel (1982) , determina para cada punto muestral $(x i, y i)$ , la mediana $m i$ de las pendientes $(y j - y i) / (x j - x i)$ de líneas que atraviesan ese punto, y luego determina el estimador general como la mediana de estas medianas. Puede tolerar un mayor número de valores atípicos que el estimador de Theil-Sen, pero los algoritmos conocidos para calcularlo de manera eficiente son más complicados y menos prácticos. ^[13]

Una variante diferente empareja los puntos de muestra por el rango de sus coordenadas $x$ : el punto con la coordenada más pequeña se empareja con el primer punto por encima de la coordenada mediana, el segundo punto más pequeño se empareja con el siguiente punto por encima de la mediana, y así en. Luego calcula la mediana de las pendientes de las líneas determinadas por estos pares de puntos, ganando velocidad al examinar significativamente menos pares que el estimador de Theil-Sen. ^[14]

También se han estudiado las variaciones del estimador de Theil-Sen basadas en medianas ponderadas , basándose en el principio de que los pares de muestras cuyas coordenadas $x$ difieren más tienen más probabilidades de tener una pendiente precisa y, por lo tanto, deberían recibir una ponderación mayor. ^[15]

Para los datos estacionales, puede ser apropiado suavizar las variaciones estacionales en los datos considerando solo pares de puntos muestrales que pertenecen al mismo mes o la misma estación del año, y encontrando la mediana de las pendientes de las líneas determinadas por este conjunto de pares más restrictivo. ^[dieciséis]

Propiedades estadísticas

El estimador de Theil-Sen es un estimador insesgado de la pendiente verdadera en regresión lineal simple . ^[17] Para muchas distribuciones del error de respuesta , este estimador tiene una alta eficiencia asintótica en relación con la estimación por mínimos cuadrados . ^{[18] Los} estimadores con baja eficiencia requieren observaciones más independientes para lograr la misma varianza muestral de estimadores eficientes insesgados.

El estimador de Theil-Sen es más robusto que el estimador de mínimos cuadrados porque es mucho menos sensible a los valores atípicos . Tiene un punto de ruptura de

{\ Displaystyle 1 - {\ frac {1} {\ sqrt {2}}} \ aproximadamente 29,3 \%,}

lo que significa que puede tolerar la corrupción arbitraria de hasta el 29,3% de los puntos de datos de entrada sin degradar su precisión. ^[11] Sin embargo, el punto de ruptura disminuye para generalizaciones de dimensiones superiores del método. ^[19] Un punto de ruptura más alto, 50%, es válido para un algoritmo de ajuste de línea robusto diferente, el estimador mediano repetido de Siegel. ^[11]

El estimador de Theil-Sen es equivariante en cada transformación lineal de su variable de respuesta, lo que significa que transformar los datos primero y luego ajustar una línea, o ajustar una línea primero y luego transformarla de la misma manera, ambos producen el mismo resultado. ^[20] Sin embargo, no es equivariante en las transformaciones afines de las variables predictoras y de respuesta. ^[19]

Algoritmos e implementación

La pendiente mediana de un conjunto de $n$ puntos de muestra se puede calcular exactamente calculando todas las líneas $O (n 2) a$ través de pares de puntos y luego aplicando un algoritmo de búsqueda de la mediana del tiempo lineal . Alternativamente, puede estimarse muestreando pares de puntos. Este problema es equivalente, bajo la dualidad proyectiva , al problema de encontrar el punto de cruce en una disposición de líneas que tiene la coordenada $x$ media entre todos esos puntos de cruce. ^[21]

El problema de realizar la selección de pendientes de forma exacta pero más eficiente que el algoritmo de tiempo cuadrático de fuerza bruta ha sido ampliamente estudiado en geometría computacional . Se conocen varios métodos diferentes para calcular el estimador de Theil-Sen exactamente en el tiempo $O (n log n)$ , ya sea de forma determinista ^[3] o utilizando algoritmos aleatorios . ^[4] El estimador mediano repetido de Siegel también se puede construir en el mismo límite de tiempo. ^[22] En modelos de cálculo en los que las coordenadas de entrada son números enteros y en los que las operaciones bit a bit con números enteros toman un tiempo constante, el estimador de Theil-Sen se puede construir aún más rápidamente, en un tiempo esperado aleatorio. ${\ Displaystyle O (n {\ sqrt {\ log n}})}$ . ^[23]

Un estimador para la pendiente con rango medio aproximado, que tiene el mismo punto de ruptura que el estimador de Theil-Sen, se puede mantener en el modelo de flujo de datos (en el que los puntos de muestra son procesados uno por uno por un algoritmo que no tiene suficiente persistencia almacenamiento para representar el conjunto de datos completo) utilizando un algoritmo basado en redes ε . ^[24]

En el paquete de estadísticas R , tanto el estimador de Theil-Sen como el estimador mediano repetido de Siegel están disponibles a través de la mblmbiblioteca. ^[25] El Servicio Geológico de los Estados Unidos ha puesto a disposición una aplicación Visual Basic independiente y gratuita para la estimación de Theil-Sen . ^[26] El estimador Theil-Sen también se ha implementado en Python como parte de las bibliotecas SciPy y scikit-learn . ^[27]KTRLine

Aplicaciones

La estimación de Theil-Sen se ha aplicado a la astronomía debido a su capacidad para manejar modelos de regresión censurados . ^[28] En biofísica , Fernandes & Leblanc (2005) sugieren su uso para aplicaciones de teledetección como la estimación del área foliar a partir de datos de reflectancia debido a su "simplicidad en el cálculo, estimaciones analíticas de intervalos de confianza, robustez a valores atípicos, supuestos comprobables sobre residuales y ... información limitada a priori sobre errores de medición ". ^[29] Para medir datos ambientales estacionales como la calidad del agua , se ha propuesto una variante ajustada estacionalmente del estimador de Theil-Sen como preferible a la estimación por mínimos cuadrados debido a su alta precisión en presencia de datos asimétricos. ^[16] En informática , el método de Theil-Sen se ha utilizado para estimar las tendencias en el envejecimiento del software . ^[30] En meteorología y climatología , se ha utilizado para estimar las tendencias a largo plazo de la ocurrencia y velocidad del viento. ^[31]

Ver también

Dilución de regresión , para otro problema que afecta las pendientes de tendencia estimadas

Notas

^ Gilbert (1987) .
↑ a b El-Shaarawi y Piegorsch (2001) .
^ a b Cole y col. (1989) ; Katz y Sharir (1993) ; Brönnimann y Chazelle (1998) .
↑ a b Dillencourt, Mount y Netanyahu (1992) ; Matoušek (1991) ; Blunck y Vahrenhold (2006) .
^ Massart y col. (1997)
^ Sokal y Rohlf (1995) ; Dytham (2011) .
^ Granato (2006)
↑ a b Theil (1950) ; Sen (1968)
↑ a b Sen (1968) ; Osborne (2008) .
↑ a b Wilcox (2001) .
↑ a b c Rousseeuw y Leroy (2003) , págs. 67, 164.
^ Para determinar los intervalos de confianza, los pares de puntos deben muestrearse con reemplazo ; esto significa que el conjunto de pares utilizado en este cálculo incluye pares en los que ambos puntos son iguales entre sí. Estos pares siempre están fuera del intervalo de confianza, porque no determinan un valor de pendiente bien definido, pero usarlos como parte del cálculo hace que el intervalo de confianza sea más amplio de lo que sería sin ellos.
^ Logan (2010) , Sección 8.2.7 Regresión robusta ; Matoušek, Mount y Netanyahu (1998)
^ De Muth (2006) .
^ Jaeckel (1972) ; Scholz (1978) ; Sievers (1978) ; Birkes y Dodge (1993) .
↑ a b Hirsch, Slack y Smith (1982) .
↑ Sen (1968) , Teorema 5.1, p. 1384; Wang y Yu (2005) .
^ Sen (1968) , sección 6; Wilcox (1998) .
↑ a b Wilcox (2005) .
↑ Sen (1968) , pág. 1383.
^ Cole y col. (1989) .
^ Matoušek, Mount y Netanyahu (1998) .
^ Chan y Pătraşcu (2010) .
^ Bagchi y col. (2007) .
^ Logan (2010) , p. 237 ; Vannest, Davis y Parker (2013)
^ Vannest, Davis y Parker (2013) ; Granato (2006)
^ Comunidad de ciencia ficción (2015) ; Persson y Martins (2016)
^ Akritas, Murphy y LaValley (1995) .
^ Fernandes y Leblanc (2005) .
^ Vaidyanathan y Trivedi (2005) .
^ Romanić y col. (2014) .

Referencias

Akritas, Michael G .; Murphy, Susan A .; LaValley, Michael P. (1995), "El estimador de Theil-Sen con datos y aplicaciones a la astronomía doblemente censurados", Revista de la Asociación Estadounidense de Estadística , 90 (429): 170-177, doi : 10.1080 / 01621459.1995.10476499 , JSTOR 2291140 , MR 1325124.
Bagchi, Amitabha; Chaudhary, Amitabh; Eppstein, David ; Goodrich, Michael T. (2007), "Muestreo determinista y recuento de rangos en flujos de datos geométricos", Transacciones ACM sobre algoritmos , 3 (2): Art. No. 16, arXiv : cs / 0307027 , doi : 10.1145 / 1240233.1240239 , MR 2335299 , S2CID 123315817.
Birkes, David; Dodge, Yadolah (1993), "6.3 Estimación de la línea de regresión", Métodos alternativos de regresión , Serie de Wiley en probabilidad y estadística, 282 , Wiley-Interscience, págs. 113-118, ISBN 978-0-471-56881-0.
Blunck, Henrik; Vahrenhold, Jan (2006), "In-place randomized pendiente selection", International Symposium on Algorithms and Complexity , Lecture Notes in Computer Science, 3998 , Berlín: Springer-Verlag, pp. 30–41, doi : 10.1007 / 11758471_6 , ISBN 978-3-540-34375-2, MR 2263136.
Brönnimann, Hervé; Chazelle, Bernard (1998), "Selección de pendiente óptima mediante cortes", Teoría y aplicaciones de la geometría computacional , 10 (1): 23-29, doi : 10.1016 / S0925-7721 (97) 00025-4 , MR 1614381.
Chan, Timothy M .; Pătraşcu, Mihai (2010), "Recuento de inversiones, recuento de rango ortogonal fuera de línea y problemas relacionados", Actas del vigésimo primer simposio anual ACM-SIAM sobre algoritmos discretos (SODA '10) (PDF) , págs. 161-173.
Cole, Richard; Salowe, Jeffrey S .; Steiger, WL; Szemerédi, Endre (1989), "Un algoritmo de tiempo óptimo para la selección de pendientes", SIAM Journal on Computing , 18 (4): 792–810, doi : 10.1137 / 0218055 , MR 1004799.
De Muth, E. James (2006), Estadísticas básicas y aplicaciones estadísticas farmacéuticas , Bioestadística, 16 (2ª ed.), CRC Press, p. 577, ISBN 978-0-8493-3799-4.
Dillencourt, Michael B .; Mount, David M .; Netanyahu, Nathan S. (1992), "Un algoritmo aleatorio para la selección de pendientes", International Journal of Computational Geometry & Applications , 2 (1): 1–27, doi : 10.1142 / S0218195992000020 , MR 1159839.
Dytham, Calvin (2011), Choosing and Using Statistics: A Biologist's Guide (3ª ed.), John Wiley and Sons, p. 230, ISBN 978-1-4051-9839-4.
El-Shaarawi, Abdel H .; Piegorsch, Walter W. (2001), Encyclopedia of Environmetrics, Volumen 1 , John Wiley and Sons, p. 19, ISBN 978-0-471-89997-6.
Fernandes, Richard; Leblanc, Sylvain G. (2005), "Regresiones lineales paramétricas (mínimos cuadrados modificados) y no paramétricas (Theil-Sen) para predecir parámetros biofísicos en presencia de errores de medición", Remote Sensing of Environment , 95 (3): 303 –316, código bibliográfico : 2005RSEnv..95..303F , doi : 10.1016 / j.rse.2005.01.005.
Gilbert, Richard O. (1987), "6.5 Estimador no paramétrico de pendiente de Sen", Métodos estadísticos para el monitoreo de la contaminación ambiental , John Wiley and Sons, págs. 217-219, ISBN 978-0-471-28878-7.
Granato, Gregory E. (2006), "Capítulo A7: Kendall – Theil Robust Line (KTRLine — versión 1.0) —Un programa visual básico para calcular y graficar estimaciones robustas no paramétricas de coeficientes de regresión lineal entre dos variables continuas" , Análisis hidrológico y Interpretación , Técnicas y métodos del estudio geológico de EE. UU. , 4 , Servicio geológico de EE. UU..
Hirsch, Robert M .; Slack, James R .; Smith, Richard A. (1982), "Técnicas de análisis de tendencias para datos mensuales de calidad del agua", Water Resources Research , 18 (1): 107-121, Bibcode : 1982WRR .... 18..107H , doi : 10.1029 / WR018i001p00107.
Jaeckel, Louis A. (1972), "Estimación de coeficientes de regresión minimizando la dispersión de los residuos", Annals of Mathematical Statistics , 43 (5): 1449–1458, doi : 10.1214 / aoms / 1177692377 , MR 0348930.
Katz, Matthew J .; Sharir, Micha (1993), "Selección de pendiente óptima mediante expansores", Information Processing Letters , 47 (3): 115-122, doi : 10.1016 / 0020-0190 (93) 90234-Z , MR 1237287.
Logan, Murray (2010), Diseño y análisis bioestadístico con R: Guía práctica , ISBN 9781444362473
Massart, DL; Vandeginste, BGM; Buydens, LMC; De Jong, S .; Lewi, PJ; Smeyers-Verbeke, J. (1997), "12.1.5.1 Método de mediana única", Manual de quimiometría y cualimétrica: Parte A , Manejo de datos en ciencia y tecnología, 20A , Elsevier, págs. 355–356, ISBN 978-0-444-89724-4.
Matoušek, Jiří (1991), "Algoritmo óptimo aleatorio para la selección de pendientes", Information Processing Letters , 39 (4): 183–187, doi : 10.1016 / 0020-0190 (91) 90177-J , MR 1130747.
Matoušek, Jiří ; Mount, David M .; Netanyahu, Nathan S. (1998), "Algoritmos aleatorios eficientes para el estimador de línea media repetida", Algorithmica , 20 (2): 136–150, doi : 10.1007 / PL00009190 , MR 1484533 , S2CID 17362967.
Osborne, Jason W. (2008), Mejores prácticas en métodos cuantitativos , Sage Publications, Inc., p. 273, ISBN 9781412940658.
Persson, Magnus Vilhelm; Martins, Luiz Felipe (2016), Mastering Python Data Analysis , Packt Publishing, p. 177, ISBN 9781783553303
Romanić, Djordje; Ćurić, Mladjen; Jovičić, Ilija; Lompar, Miloš (2014), "Long-term trends of the 'Koshava' wind during the period 1949-2010", International Journal of Climatology , 35 (2): 288-302, Bibcode : 2015IJCli..35..288R , doi : 10.1002 / joc.3981.
Rousseeuw, Peter J .; Leroy, Annick M. (2003), Regresión robusta y detección de valores atípicos , Serie de Wiley en Probabilidad y estadística matemática, 516 , Wiley, p. 67 , ISBN 978-0-471-48855-2.
Scholz, Friedrich-Wilhelm (1978), "Estimaciones de regresión de la mediana ponderada", The Annals of Statistics , 6 (3): 603–609, doi : 10.1214 / aos / 1176344204 , JSTOR 2958563 , MR 0468054.
Comunidad SciPy (2015), "scipy.stats.mstats.theilslopes" , Guía de referencia de SciPy v0.15.1
Sen, Pranab Kumar (1968), "Estimaciones del coeficiente de regresión basadas en la tau de Kendall", Journal of the American Statistical Association , 63 (324): 1379-1389, doi : 10.2307 / 2285891 , JSTOR 2285891 , MR 0258201.
Siegel, Andrew F. (1982), "Regresión robusta usando medianas repetidas", Biometrika , 69 (1): 242–244, doi : 10.1093 / biomet / 69.1.242.
Sievers, Gerald L. (1978), "Estadísticas de rango ponderado para regresión lineal simple", Journal of the American Statistical Association , 73 (363): 628–631, doi : 10.1080 / 01621459.1978.10480067 , JSTOR 2286613.
Sokal, Robert R .; Rohlf, F. James (1995), Biometría: Los principios y la práctica de la estadística en la investigación biológica (3ª ed.), Macmillan, p. 539, ISBN 978-0-7167-2411-7.
Theil, H. (1950), "Un método invariante de rango de análisis de regresión lineal y polinomial. I, II, III", Nederl. Akad. Wetensch., Proc. , 53 : 386–392 , 521–525 , 1397–1412 , MR 0036489.
Vaidyanathan, Kalyanaraman; Trivedi, Kishor S. (2005), "A Comprehensive Model for Software Rejuvenation", IEEE Transactions on Dependable and Secure Computing , 2 (2): 124-137, doi : 10.1109 / TDSC.2005.15 , S2CID 15105513.
Vannest, Kimberly J .; Davis, John L .; Parker, Richard I. (2013), Investigación de caso único en escuelas: pautas prácticas para profesionales basados en la escuela , Routledge, p. 55, ISBN 9781136173622
Wang, Xueqin; Yu, Qiqing (2005), "Insesgado del estimador de Theil-Sen", Journal of Nonparametric Statistics , 17 (6): 685–695, doi : 10.1080 / 10485250500039452 , MR 2165096 , S2CID 121061001.
Wilcox, Rand R. (1998), "Una nota sobre el estimador de regresión de Theil-Sen cuando el regresor es aleatorio y el término de error es heterocedástico", Biometrical Journal , 40 (3): 261-268, doi : 10.1002 / (SICI ) 1521-4036 (199807) 40: 3 <261 :: AID-BIMJ261> 3.0.CO; 2-V.
Wilcox, Rand R. (2001), "Estimador de Theil-Sen", Fundamentos de los métodos estadísticos modernos: mejora sustancial de la potencia y la precisión , Springer-Verlag, págs. 207–210, ISBN 978-0-387-95157-7.
Wilcox, Rand R. (2005), "10.2 Estimador de Theil-Sen", Introducción a la estimación robusta y las pruebas de hipótesis , Academic Press, págs. 423–427, ISBN 978-0-12-751542-7.

[1] Gilbert (1987) .

[ep01-2] El-Shaarawi y Piegorsch (2001) .

[detalg-3] Cole y col. (1989) ; Katz y Sharir (1993) ; Brönnimann y Chazelle (1998) .

[randalg-4] Dillencourt, Mount y Netanyahu (1992) ; Matoušek (1991) ; Blunck y Vahrenhold (2006) .

[5] Massart y col. (1997)

[6] Sokal y Rohlf (1995) ; Dytham (2011) .

[7] Granato (2006)

[theilsen-8] Theil (1950) ; Sen (1968)

[whyken-9] Sen (1968) ; Osborne (2008) .

[w01-10] Wilcox (2001) .

[rl03-11] Rousseeuw y Leroy (2003) , págs. 67, 164.

[12] Para determinar los intervalos de confianza, los pares de puntos deben muestrearse con reemplazo ; esto significa que el conjunto de pares utilizado en este cálculo incluye pares en los que ambos puntos son iguales entre sí. Estos pares siempre están fuera del intervalo de confianza, porque no determinan un valor de pendiente bien definido, pero usarlos como parte del cálculo hace que el intervalo de confianza sea más amplio de lo que sería sin ellos.

[13] Logan (2010) , Sección 8.2.7 Regresión robusta ; Matoušek, Mount y Netanyahu (1998)

[14] De Muth (2006) .

[15] Jaeckel (1972) ; Scholz (1978) ; Sievers (1978) ; Birkes y Dodge (1993) .

[hss82-16] Hirsch, Slack y Smith (1982) .

[17] Sen (1968) , Teorema 5.1, p. 1384; Wang y Yu (2005) .

[18] Sen (1968) , sección 6; Wilcox (1998) .

[w05-19] Wilcox (2005) .

[20] Sen (1968) , pág. 1383.

[FOOTNOTEColeSaloweSteigerSzemerédi1989-21] Cole y col. (1989) .

[FOOTNOTEMatoušekMountNetanyahu1998-22] Matoušek, Mount y Netanyahu (1998) .

[FOOTNOTEChanPătraşcu2010-23] Chan y Pătraşcu (2010) .

[FOOTNOTEBagchiChaudharyEppsteinGoodrich2007-24] Bagchi y col. (2007) .

[25] Logan (2010) , p. 237 ; Vannest, Davis y Parker (2013)

[26] Vannest, Davis y Parker (2013) ; Granato (2006)

[27] Comunidad de ciencia ficción (2015) ; Persson y Martins (2016)

[FOOTNOTEAkritasMurphyLaValley1995-28] Akritas, Murphy y LaValley (1995) .

[FOOTNOTEFernandesLeblanc2005-29] Fernandes y Leblanc (2005) .

[FOOTNOTEVaidyanathanTrivedi2005-30] Vaidyanathan y Trivedi (2005) .

[FOOTNOTERomanićĆurićJovičićLompar2014-31] Romanić y col. (2014) .

[1]