Regresión robusta y detección de valores atípicos

Robust Regression and Outlier Detection es un libro sobre estadísticas robustas , que se centra especialmente en el punto de ruptura de los métodos para la regresión robusta . Fue escrito por Peter Rousseeuw y Annick M. Leroy, y publicado en 1987 por Wiley.

Fondo

El diagrama de estrellas de Hertzsprung-Russell trazado por luminosidad y color. Los métodos de regresión robustos pueden ajustar una curva a la secuencia principal , la curva central en este diagrama, sin estar fuertemente influenciados por los grupos de estrellas alejados de la secuencia principal.

La regresión lineal es el problema de inferir una relación funcional lineal entre una variable dependiente y una o más variables independientes , a partir de conjuntos de datos donde esa relación ha sido oscurecida por el ruido. Los mínimos cuadrados ordinarios asumen que todos los datos se encuentran cerca de la línea o el plano de ajuste, pero se apartan de él mediante la adición de valores residuales distribuidos normalmente . Por el contrario, los métodos de regresión robustos funcionan incluso cuando algunos de los puntos de datos son valores atípicos que no guardan relación con la línea o el plano de ajuste, posiblemente porque los datos provienen de una combinación de fuentes o posiblemente porque un agente adversario está tratando de corromper los datos para hacer que el método de regresión produzca un resultado inexacto. ^[1] Una aplicación típica, que se analiza en el libro, involucra el diagrama de tipos de estrellas de Hertzsprung-Russell , en el que se desea ajustar una curva a través de la secuencia principal de estrellas sin que el ajuste se vea interrumpido por las estrellas gigantes y las enanas blancas periféricas. . ^[2] El punto de ruptura de un método de regresión robusto es la fracción de datos atípicos que puede tolerar sin dejar de ser precisa. Para este estilo de análisis, los puntos de ruptura más altos son mejores. ^[1] El punto de ruptura para mínimos cuadrados ordinarios es cercano a cero (un solo valor atípico puede hacer que el ajuste se aleje arbitrariamente de los datos no corruptos restantes) ^[2] mientras que algunos otros métodos tienen puntos de ruptura tan altos como 50%. ^[1] Aunque estos métodos requieren pocas suposiciones sobre los datos y funcionan bien para datos cuyo ruido no se comprende bien, pueden tener una eficiencia algo menor que los mínimos cuadrados ordinarios (que requieren más datos para una precisión de ajuste dada) y su implementación puede ser complejo y lento. ^[3]

Temas

El libro tiene siete capítulos. ^[1]^[4] El primero es introductorio; describe la regresión lineal simple (en la que solo hay una variable independiente), analiza la posibilidad de valores atípicos que corrompan la variable dependiente o independiente, proporciona ejemplos en los que los valores atípicos producen resultados engañosos, define el punto de ruptura e introduce brevemente varios métodos para regresión simple robusta, incluida la regresión mediana repetida . ^[1]^[2] El segundo y tercer capítulos analizan con más detalle el método de la mínima mediana de cuadrados para la regresión (en el que se busca un ajuste que minimice la mediana de los residuos al cuadrado ) y el método de mínimos cuadrados recortados (en el que se busca para minimizar la suma de los residuos cuadrados que están por debajo de la mediana). Ambos métodos tienen un punto de ruptura del 50% y se pueden aplicar tanto para la regresión simple (capítulo dos) como para la regresión multivariante (capítulo tres). ^[1]^[5] Aunque la mediana mínima tiene una descripción geométrica atractiva (como encontrar una franja de altura mínima que contenga la mitad de los datos), su baja eficiencia lleva a la recomendación de utilizar los cuadrados menos recortados en su lugar; Los cuadrados mínimos recortados también se pueden interpretar como si se usara el método de la mediana mínima para encontrar y eliminar valores atípicos y luego usar la regresión simple para los datos restantes, ^[4] y se aproxima a la regresión simple en su eficiencia. ^[6] Además de describir estos métodos y analizar sus propiedades estadísticas, estos capítulos también describen cómo utilizar el software de los autores para implementar estos métodos. ^[1] El tercer capítulo también incluye descripciones de algunos estimadores alternativos con altos puntos de ruptura. ^[7]

El cuarto capítulo describe la estimación unidimensional de un parámetro de ubicación o tendencia central y su implementación de software, y el quinto capítulo entra en más detalles sobre los algoritmos utilizados por el software para calcular estas estimaciones de manera eficiente. El sexto capítulo se refiere a la detección de valores atípicos , comparando métodos para identificar puntos de datos como valores atípicos basados en estadísticas sólidas con otros métodos ampliamente utilizados, y el capítulo final se refiere a problemas de ubicación de dimensiones superiores, así como análisis de series de tiempo y problemas de ajuste de un elipsoide o covarianza. matriz a datos. ^[1]^[4]^[5]^[7] Además de utilizar el punto de ruptura para comparar métodos estadísticos, el libro también analiza su equivariancia : para qué familias de transformaciones de datos el ajuste para los datos transformados es igual a la versión transformada del encaja con los datos originales? ^[6]

De acuerdo con el enfoque del libro en las aplicaciones, presenta muchos ejemplos de análisis realizados utilizando métodos robustos, comparando las estimaciones resultantes con las estimaciones obtenidas por métodos estándar no robustos. ^[3]^[7] Se incluye material teórico, pero se deja a un lado para que pueda ser fácilmente saltado por lectores menos inclinados a la teoría. Los autores asumen la posición de que se pueden utilizar métodos robustos tanto para comprobar la aplicabilidad de la regresión ordinaria (cuando los resultados de ambos métodos concuerdan) como para suplantarlos en los casos en que los resultados no concuerden. ^[5]

Audiencia y recepción

El libro está dirigido a estadísticos aplicados, con el objetivo de convencerlos de que utilicen los métodos sólidos que describe. ^[1] A diferencia del trabajo anterior en estadísticas robustas, hace que los métodos robustos sean comprensibles y (a través de su software asociado) disponibles para los profesionales. ^[3] No se requieren conocimientos previos de estadísticas sólidas, ^[4] aunque se asume cierta experiencia en técnicas estadísticas básicas. ^[5] El libro también podría usarse como un libro de texto, ^[5] aunque el revisor PJ Laycock califica la posibilidad de tal uso como "audaz y progresiva" ^[4] y los revisores Seheult y Green señalan que es poco probable que tal curso encajar en los planes de estudios estadísticos británicos. ^[6]

Los revisores Seheult y Green se quejan de que gran parte del libro actúa como una guía de usuario para el software de los autores y debería haber sido recortado. ^[6] Sin embargo, el crítico Gregory F. Piepel escribe que "la presentación es muy buena", y recomienda el libro a cualquier usuario de métodos estadísticos. ^[1] Y, aunque sugiere reordenar algunos materiales, Karen Kafadar recomienda encarecidamente el libro como un libro de texto para estudiantes graduados y una referencia para profesionales. ^[5] Y el crítico AC Atkinson resume de manera concisa el libro como "interesante e importante". ^[8]

Libros relacionados

Ha habido varios libros anteriores sobre regresión robusta y detección de valores atípicos, que incluyen: ^[5]^[7]

Identificación de valores atípicos por DM Hawkins (1980)
Estadísticas sólidas de Peter J. Huber (1981)
Introducción a métodos estadísticos robustos y cuasi robustos por WJJ Rey (1983)
Comprensión del análisis de datos robusto y exploratorio por David C. Hoaglin, Frederick Mosteller y John Tukey (1983)
Estadísticas sólidas de Hampel, Ronchetti, Rousseeuw y Stahel (1986)

En comparación, la regresión robusta y la detección de valores atípicos combinan la robustez y la detección de valores atípicos. ^[5] Es menos teórico, más centrado en datos y software, y más centrado en el punto de ruptura que en otras medidas de robustez. ^[7] Además, es el primero en resaltar la importancia del "apalancamiento", el fenómeno de que las muestras con valores atípicos de la variable independiente pueden tener una influencia más fuerte en el ajuste que las muestras donde la variable independiente tiene un valor central. ^[8]

Referencias

^ a b c d e f g h i j Piepel, Gregory F. (mayo de 1989), "Revisión de regresión robusta y detección de valores atípicos ", Technometrics , 31 (2): 260-261, doi : 10.2307 / 1268828 , JSTOR 1268828
^ a b c Sonnberger, Harold (julio-septiembre de 1989), "Review of Robust Regression and Outlier Detection ", Journal of Applied Econometrics , 4 (3): 309–311, JSTOR 2096530
^ a b c Weisberg, Stanford (julio-agosto de 1989), "Review of Robust Regression and Outlier Detection ", American Scientist , 77 (4): 402–403, JSTOR 27855903
^ a b c d e Laycock, PJ (1989), "Revisión de regresión robusta y detección de valores atípicos ", Revista de la Royal Statistical Society, Serie D (The Statistician) , 38 (2): 138, doi : 10.2307 / 2348319 , JSTOR 2348319
^ a b c d e f g h Kafadar, Karen (junio de 1989), "Review of Robust Regression and Outlier Detection ", Revista de la Asociación Estadounidense de Estadística , 84 (406): 617–618, doi : 10.2307 / 2289958 , JSTOR 2289958
^ a b c d Seheult, AH; Green, PJ (1989), "Revisión de regresión robusta y detección de valores atípicos ", Revista de la Royal Statistical Society, Serie A (Estadísticas en la sociedad) , 152 (1): 133-134, doi : 10.2307 / 2982847 , JSTOR 2982847
^ a b c d e Yohai, VJ (1989), "Revisión de regresión robusta y detección de valores atípicos ", Revisiones matemáticas y zbMATH , MR 0914792 , Zbl 0711.62030
^ a b Atkinson, AC (junio de 1988), "Revisión de estadísticas robustas y regresión robusta y detección de valores atípicos ", Biometrics , 44 (2): 626–627, doi : 10.2307 / 2531877 , JSTOR 2531877

[piepel-1] ^ a b c d e f g h i j Piepel, Gregory F. (mayo de 1989), "Revisión de regresión robusta y detección de valores atípicos ", Technometrics , 31 (2): 260-261, doi : 10.2307 / 1268828 , JSTOR 1268828

[sonnberger-2] Sonnberger, Harold (julio-septiembre de 1989), "Review of Robust Regression and Outlier Detection ", Journal of Applied Econometrics , 4 (3): 309–311, JSTOR 2096530

[weisberg-3] Weisberg, Stanford (julio-agosto de 1989), "Review of Robust Regression and Outlier Detection ", American Scientist , 77 (4): 402–403, JSTOR 27855903

[laycock-4] Laycock, PJ (1989), "Revisión de regresión robusta y detección de valores atípicos ", Revista de la Royal Statistical Society, Serie D (The Statistician) , 38 (2): 138, doi : 10.2307 / 2348319 , JSTOR 2348319

[kafadar-5] Kafadar, Karen (junio de 1989), "Review of Robust Regression and Outlier Detection ", Revista de la Asociación Estadounidense de Estadística , 84 (406): 617–618, doi : 10.2307 / 2289958 , JSTOR 2289958

[segre-6] Seheult, AH; Green, PJ (1989), "Revisión de regresión robusta y detección de valores atípicos ", Revista de la Royal Statistical Society, Serie A (Estadísticas en la sociedad) , 152 (1): 133-134, doi : 10.2307 / 2982847 , JSTOR 2982847

[yohai-7] Yohai, VJ (1989), "Revisión de regresión robusta y detección de valores atípicos ", Revisiones matemáticas y zbMATH , MR 0914792 , Zbl 0711.62030

[atkinson-8] Atkinson, AC (junio de 1988), "Revisión de estadísticas robustas y regresión robusta y detección de valores atípicos ", Biometrics , 44 (2): 626–627, doi : 10.2307 / 2531877 , JSTOR 2531877

[1]