Regresión robusta

En estadísticas robustas , la regresión robusta es una forma de análisis de regresión diseñada para superar algunas limitaciones de los métodos paramétricos y no paramétricos tradicionales . El análisis de regresión busca encontrar la relación entre una o más variables independientes y una variable dependiente . Ciertos métodos de regresión ampliamente utilizados, como los mínimos cuadrados ordinarios , tienen propiedades favorables si sus supuestos subyacentes son verdaderos, pero pueden dar resultados engañosos si esos supuestos no son verdaderos; por lo tanto, se dice que los mínimos cuadrados ordinarios no son robustosa violaciones de sus supuestos. Los métodos de regresión robustos están diseñados para no verse demasiado afectados por violaciones de supuestos por parte del proceso de generación de datos subyacente.

En particular, las estimaciones de mínimos cuadrados para los modelos de regresión son muy sensibles a los valores atípicos . Si bien no existe una definición precisa de un valor atípico, los valores atípicos son observaciones que no siguen el patrón de las otras observaciones. Normalmente, esto no es un problema si el valor atípico es simplemente una observación extrema extraída de la cola de una distribución normal, pero si el valor atípico es el resultado de un error de medición no normal o alguna otra violación de los supuestos de mínimos cuadrados ordinarios estándar, entonces compromete la validez. de los resultados de la regresión si se utiliza una técnica de regresión no robusta.

Aplicaciones

Errores heterocedásticos

Un caso en el que se debe considerar una estimación robusta es cuando existe una fuerte sospecha de heterocedasticidad . En el modelo homocedástico , se supone que la varianza del término de error es constante para todos los valores de x . La heterocedasticidad permite que la varianza dependa de x , que es más precisa para muchos escenarios reales. Por ejemplo, la variación del gasto suele ser mayor para las personas con ingresos más altos que para las personas con ingresos más bajos. Los paquetes de software generalmente utilizan un modelo homocedástico de forma predeterminada, aunque dicho modelo puede ser menos preciso que un modelo heterocedástico. Un enfoque simple ( Tofallis, 2008 ) es aplicar mínimos cuadrados a los errores porcentuales, ya que esto reduce la influencia de los valores más grandes de la variable dependiente en comparación con los mínimos cuadrados ordinarios.

Presencia de valores atípicos

Otra situación común en la que se utiliza una estimación robusta ocurre cuando los datos contienen valores atípicos. En presencia de valores atípicos que no provienen del mismo proceso de generación de datos que el resto de los datos, la estimación por mínimos cuadrados es ineficiente y puede estar sesgada. Debido a que las predicciones de mínimos cuadrados se arrastran hacia los valores atípicos y debido a que la varianza de las estimaciones se infla artificialmente, el resultado es que los valores atípicos pueden enmascararse. (En muchas situaciones, incluidas algunas áreas de geoestadística y estadísticas médicas, son precisamente los valores atípicos los que son de interés).

Aunque a veces se afirma que los mínimos cuadrados (o los métodos estadísticos clásicos en general) son robustos, solo son robustos en el sentido de que la tasa de error de tipo I no aumenta en caso de violaciones del modelo. De hecho, la tasa de error de tipo I tiende a ser más baja que el nivel nominal cuando existen valores atípicos y, a menudo, hay un aumento dramático en la tasa de error de tipo II . La reducción de la tasa de error de tipo I se ha etiquetado como el conservadurismo de los métodos clásicos.

Historia e impopularidad de la regresión robusta

A pesar de su desempeño superior sobre la estimación de mínimos cuadrados en muchas situaciones, los métodos robustos de regresión todavía no se utilizan ampliamente. Varias razones pueden ayudar a explicar su impopularidad ( Hampel et al. 1986, 2005 ). Una posible razón es que hay varios métodos en competencia ^{[ cita requerida ]} y el campo tuvo muchos comienzos en falso. Además, el cálculo de estimaciones robustas es mucho más intensivo desde el punto de vista computacional que la estimación por mínimos cuadrados; En los últimos años, sin embargo, esta objeción se ha vuelto menos relevante, ya que la potencia informática ha aumentado considerablemente. Otra razón puede ser que algunos paquetes de software estadístico populares no implementaron los métodos ( Stromberg, 2004 ). La creencia de muchos estadísticos de que los métodos clásicos son sólidos puede ser otra razón ^{[ cita requerida ]} .

Aunque la adopción de métodos robustos ha sido lenta, los libros de texto modernos de estadística convencional a menudo incluyen una discusión de estos métodos (por ejemplo, los libros de Seber y Lee, y de Faraway; para una buena descripción general de cómo los diversos métodos de regresión robustos se desarrollaron a partir de una otro ver el libro de Andersen). Además, los paquetes de software estadístico modernos como R , Statsmodels , Stata y S-PLUS incluyen una funcionalidad considerable para una estimación robusta (ver, por ejemplo, los libros de Venables y Ripley, y de Maronna et al.).

Métodos de regresión robusta

Alternativas de mínimos cuadrados

El método más simple para estimar parámetros en un modelo de regresión que son menos sensibles a los valores atípicos que las estimaciones de mínimos cuadrados es utilizar las desviaciones mínimas absolutas . Incluso entonces, los valores atípicos graves pueden tener un impacto considerable en el modelo, motivando la investigación de enfoques aún más sólidos.

En 1964, Huber introdujo la estimación M para la regresión. La M en la estimación M significa "tipo de máxima verosimilitud". El método es robusto a valores atípicos en la variable de respuesta, pero resultó no ser resistente a valores atípicos en las variables explicativas ( puntos de apalancamiento ). De hecho, cuando hay valores atípicos en las variables explicativas, el método no tiene ventaja sobre los mínimos cuadrados.

En la década de 1980, se propusieron varias alternativas a la estimación M como intentos de superar la falta de resistencia. Vea el libro de Rousseeuw y Leroy para una revisión muy práctica. Los cuadrados mínimos recortados (LTS) son una alternativa viable y actualmente (2007) es la opción preferida de Rousseeuw y Ryan (1997, 2008). El estimador de Theil-Sen tiene un punto de ruptura más bajo que LTS pero es estadísticamente eficiente y popular. Otra solución propuesta fue la estimación S. Este método encuentra una línea (plano o hiperplano) que minimiza una estimación robusta de la escala (de la cual el método obtiene la S en su nombre) de los residuos. Este método es muy resistente a los puntos de apalancamiento y es robusto a los valores atípicos en la respuesta. Sin embargo, este método también resultó ineficaz.

La estimación MM intenta mantener la robustez y la resistencia de la estimación S, al tiempo que gana la eficiencia de la estimación M. El método procede encontrando una estimación S altamente robusta y resistente que minimiza una estimación M de la escala de los residuos (la primera M en el nombre del método). La escala estimada se mantiene constante mientras se localiza una estimación M cercana de los parámetros (la segunda M).

Alternativas paramétricas

Otro enfoque para la estimación robusta de modelos de regresión es reemplazar la distribución normal con una distribución de cola gruesa. Se ha informado que una distribución t con 4-6 grados de libertad es una buena opción en diversas situaciones prácticas. La regresión robusta bayesiana, al ser completamente paramétrica, depende en gran medida de tales distribuciones.

Bajo el supuesto de residuos distribuidos en t , la distribución es una familia de escala de ubicación. Es decir, ${\ Displaystyle x \ leftarrow (x- \ mu) / \ sigma}$ . Los grados de libertad de la distribución t a veces se denominan parámetro de curtosis . Lange, Little y Taylor (1989) analizan este modelo con cierta profundidad desde un punto de vista no bayesiano. Aparece un relato bayesiano en Gelman et al. (2003).

Un enfoque paramétrico alternativo es asumir que los residuos siguen una mezcla de distribuciones normales ( Daemi et al. 2019 ); en particular, una distribución normal contaminada en la que la mayoría de las observaciones provienen de una distribución normal especificada, pero una pequeña proporción proviene de una distribución normal con una varianza mucho mayor. Es decir, los residuales tienen probabilidad ${\ Displaystyle 1- \ varepsilon}$ de provenir de una distribución normal con varianza ${\ Displaystyle \ sigma ^ {2}}$ , dónde ${\ Displaystyle \ varepsilon}$ es pequeña y probabilidad ${\ Displaystyle \ varepsilon}$ de provenir de una distribución normal con varianza ${\ Displaystyle c \ sigma ^ {2}}$ para algunos ${\ Displaystyle c> 1}$ :

{\ Displaystyle e_ {i} \ sim (1- \ varepsilon) N (0, \ sigma ^ {2}) + \ varepsilon N (0, c \ sigma ^ {2}).}

Típicamente, ${\ Displaystyle \ varepsilon <0.1}$ . A esto a veces se le llama ${\ Displaystyle \ varepsilon}$ -Modelo de contaminación.

Los enfoques paramétricos tienen la ventaja de que la teoría de la verosimilitud proporciona un enfoque "estándar" para la inferencia (aunque para modelos mixtos como el ${\ Displaystyle \ varepsilon}$ -modelo de contaminación, es posible que no se apliquen las condiciones de regularidad habituales), y es posible construir modelos de simulación a partir del ajuste. Sin embargo, estos modelos paramétricos aún asumen que el modelo subyacente es literalmente verdadero. Como tales, no tienen en cuenta distribuciones residuales sesgadas o precisiones de observación finitas.

Pesos unitarios

Otro método robusto es el uso de pesos unitarios ( Wainer y Thissen, 1976), un método que se puede aplicar cuando hay múltiples predictores de un solo resultado. Ernest Burgess (1928) usó pesos unitarios para predecir el éxito en la libertad condicional. Calificó 21 factores positivos como presentes (p. Ej., "Sin arresto previo" = 1) o ausente ("arresto previo" = 0), luego se sumó para producir un puntaje predictor, que demostró ser un predictor útil del éxito de la libertad condicional. Samuel S. Wilks (1938) mostró que casi todos los conjuntos de pesos de regresión se suman a compuestos que están altamente correlacionados entre sí, incluidos los pesos unitarios, un resultado conocido como teorema de Wilks (Ree, Carretta y Earles, 1998). Robyn Dawes (1979) examinó la toma de decisiones en entornos aplicados, mostrando que los modelos simples con pesos unitarios a menudo superaban a los expertos humanos. Bobko, Roth y Buster (2007) revisaron la literatura sobre pesos unitarios y concluyeron que décadas de estudios empíricos muestran que los pesos unitarios funcionan de manera similar a los pesos de regresión ordinarios en la validación cruzada.

Ejemplo: datos de hígado BUPA

Los datos del hígado de BUPA han sido estudiados por varios autores, incluido Breiman (2001). Los datos se pueden encontrar en la página de conjuntos de datos clásicos , y hay algo de discusión en el artículo sobre la transformación de Box-Cox . A continuación se muestra un gráfico de los registros de ALT frente a los registros de γGT. Las dos líneas de regresión son las estimadas por mínimos cuadrados ordinarios (MCO) y por estimación MM robusta. El análisis se realizó en R utilizando un software disponible por Venables y Ripley (2002).

Las dos líneas de regresión parecen ser muy similares (y esto no es inusual en un conjunto de datos de este tamaño). Sin embargo, la ventaja del enfoque robusto sale a la luz cuando se consideran las estimaciones de la escala residual. Para mínimos cuadrados ordinarios, la estimación de la escala es 0,420, en comparación con 0,373 para el método robusto. Por lo tanto, la eficiencia relativa de los mínimos cuadrados ordinarios a la estimación de MM en este ejemplo es 1.266. Esta ineficiencia conduce a una pérdida de potencia en las pruebas de hipótesis y a intervalos de confianza innecesariamente amplios en los parámetros estimados.

Detección de valores atípicos

Otra consecuencia de la ineficiencia del ajuste por mínimos cuadrados ordinarios es que varios valores atípicos están enmascarados porque la estimación de la escala residual está inflada; los residuales escalados se acercan más a cero que cuando se usa una estimación de escala más apropiada. Las gráficas de los residuos escalados de los dos modelos aparecen a continuación. La variable en el eje x es solo el número de observación tal como apareció en el conjunto de datos. Rousseeuw y Leroy (1986) contienen muchas de estas gráficas.

Las líneas de referencia horizontales están en 2 y -2, de modo que cualquier residuo escalado observado más allá de estos límites puede considerarse un valor atípico. Claramente, el método de los mínimos cuadrados lleva a enmascarar muchas observaciones interesantes.

Mientras que en una o dos dimensiones la detección de valores atípicos mediante métodos clásicos se puede realizar manualmente, con grandes conjuntos de datos y en grandes dimensiones, el problema del enmascaramiento puede hacer que la identificación de muchos valores atípicos sea imposible. Los métodos robustos detectan automáticamente estas observaciones, lo que ofrece una gran ventaja sobre los métodos clásicos cuando existen valores atípicos.

Ver también

Regresión

Mínimos cuadrados repetidos iterativamente
Estimador M
Intersección relajada
RANSAC
Regresión mediana repetida
Estimador de Theil-Sen , un método para la regresión lineal simple robusta

Referencias

Liu, J .; Cosman, PC; Rao, BD (2018). "Regresión lineal robusta a través de la regularización L0" . Transacciones IEEE sobre procesamiento de señales . 66 (3): 698–713. doi : 10.1109 / TSP.2017.2771720 .
Andersen, R. (2008). Métodos modernos para regresión robusta . Serie de artículos de Sage University sobre aplicaciones cuantitativas en las ciencias sociales, 07-152.
Ben-Gal I., Detección de valores atípicos , en: Maimon O. y Rockach L. (Eds.) Manual de descubrimiento de conocimientos y minería de datos: una guía completa para profesionales e investigadores, "Kluwer Academic Publishers, 2005, ISBN 0-387-24435-2 .
Bobko, P., Roth, PL y Buster, MA (2007). "La utilidad de los pesos unitarios en la creación de puntuaciones compuestas: una revisión de la literatura, aplicación a la validez de contenido y metanálisis". Métodos de investigación organizacional , volumen 10, páginas 689-709. doi : 10.1177 / 1094428106294734
Daemi, Atefeh, Hariprasad Kodamana y Biao Huang. "Modelado de procesos gaussianos con probabilidad de mezcla gaussiana". Revista de control de procesos 81 (2019): 209-220. doi : 10.1016 / j.jprocont.2019.06.007
Breiman, L. (2001). "Modelado estadístico: las dos culturas" . Ciencia estadística . 16 (3): 199–231. doi : 10.1214 / ss / 1009213725 . JSTOR 2676681 .
Burgess, EW (1928). "Factores que determinan el éxito o el fracaso de la libertad condicional". En AA Bruce (Ed.), El funcionamiento de la ley de sentencias indeterminadas y la libertad condicional en Illinois (págs. 205–249). Springfield, Illinois: Junta de Libertad Condicional del Estado de Illinois. Libros de Google
Dawes, Robyn M. (1979). "La robusta belleza de los modelos lineales inadecuados en la toma de decisiones". Psicólogo estadounidense , volumen 34, páginas 571-582. doi : 10.1037 / 0003-066X.34.7.571 . pdf archivado
Draper, David (1988). "Análisis robusto basado en rangos de modelos lineales. I. Exposición y revisión" . Ciencia estadística . 3 (2): 239-257. doi : 10.1214 / ss / 1177012915 . JSTOR 2245578 .
Lejos, JJ (2004). Modelos lineales con R . Chapman y Hall / CRC.
Fornalski, KW (2015). "Aplicaciones del análisis de regresión bayesiana robusto". Revista Internacional de Ciencia de Sistemas de la Sociedad . 7 (4): 314–333. doi : 10.1504 / IJSSS.2015.073223 .
Gelman, A .; JB Carlin; HS Stern; DB Rubin (2003). Análisis de datos bayesianos (Segunda ed.). Chapman y Hall / CRC.
Hampel, FR; EM Ronchetti; PJ Rousseeuw; WA Stahel (2005) [1986]. Estadísticas robustas: el enfoque basado en funciones de influencia . Wiley.
Lange, KL; RJA Little; JMG Taylor (1989). "Modelado estadístico robusto utilizando la distribución t " . Revista de la Asociación Estadounidense de Estadística . 84 (408): 881–896. doi : 10.2307 / 2290063 . JSTOR 2290063 .
Lerman, G .; McCoy, M .; Tropp, JA; Zhang T. (2012). "Cálculo robusto de modelos lineales, o cómo encontrar una aguja en un pajar" , arXiv : 1202.4044 .
Maronna, R .; D. Martin; V. Yohai (2006). Estadísticas robustas: teoría y métodos . Wiley.
McKean, Joseph W. (2004). "Análisis robusto de modelos lineales" . Ciencia estadística . 19 (4): 562–570. doi : 10.1214 / 088342304000000549 . JSTOR 4144426 .
Radchenko SG (2005). Métodos robustos para la estimación de modelos estadísticos: Monografía. (en idioma ruso) . Kiev: РР «Sanspariel». pag. 504. ISBN 978-966-96574-0-4.
Ree, MJ, Carretta, TR y Earles, JA (1998). "En las decisiones de arriba hacia abajo, la ponderación de las variables no importa: una consecuencia del teorema de Wilk. Métodos de investigación organizacional , volumen 1 (4), páginas 407-420. Doi : 10.1177 / 109442819814003
Rousseeuw, PJ ; AM Leroy (2003) [1986]. Regresión robusta y detección de valores atípicos . Wiley.
Ryan, TP (2008) [1997]. Métodos modernos de regresión . Wiley.
Seber, GAF; AJ Lee (2003). Análisis de regresión lineal (segunda ed.). Wiley.
Stromberg, AJ (2004). "¿Por qué escribir software estadístico? El caso de métodos estadísticos robustos" . Revista de software estadístico . 10 (5). doi : 10.18637 / jss.v010.i05 .
Strutz, T. (2016). Ajuste de datos e incertidumbre (una introducción práctica a los mínimos cuadrados ponderados y más) . Springer Vieweg. ISBN 978-3-658-11455-8.
Tofallis, Chris (2008). "Regresión porcentual de mínimos cuadrados". Revista de métodos estadísticos aplicados modernos . 7 : 526–534. doi : 10.2139 / ssrn.1406472 . SSRN 1406472 .
Venables, WN; BD Ripley (2002). Estadística Aplicada moderna con S . Saltador.
Wainer, H. y Thissen, D. (1976). "Tres pasos hacia una regresión robusta". Psychometrika , volumen 41 (1), páginas 9–34. doi : 10.1007 / BF02291695
Wilks, SS (1938). "Sistemas de ponderación para funciones lineales de variables correlacionadas cuando no existe variable dependiente". Psychometrika , volumen 3, páginas 23–40. doi : 10.1007 / BF02287917

enlaces externos

Wikilibros de programación de R
Notas del curso de estadística sólida de Brian Ripley .
Las notas del curso de Nick Fieller sobre modelado estadístico y computación contienen material sobre regresión robusta.
Resumen de estadísticas sólidas de Olfa Nasraoui
Descripción general de la agrupación robusta de Olfa Nasraoui
¿Por qué escribir software estadístico? El caso de los métodos estadísticos robustos, AJ Stromberg
Software libre (Fortran 95) Regresión de norma L1. Minimización de desviaciones absolutas en lugar de mínimos cuadrados.
Implementación gratuita de Python de código abierto para una regresión no lineal robusta.