Regresión robusta


En estadísticas robustas , la regresión robusta es una forma de análisis de regresión diseñada para superar algunas limitaciones de los métodos paramétricos y no paramétricos tradicionales . El análisis de regresión busca encontrar la relación entre una o más variables independientes y una variable dependiente . Ciertos métodos de regresión ampliamente utilizados, como los mínimos cuadrados ordinarios , tienen propiedades favorables si sus suposiciones subyacentes son verdaderas, pero pueden dar resultados engañosos si esas suposiciones no son verdaderas; por lo tanto, se dice que los mínimos cuadrados ordinarios no son robustosa las violaciones de sus supuestos. Los métodos de regresión robustos están diseñados para que no se vean demasiado afectados por violaciones de suposiciones por parte del proceso subyacente de generación de datos.

En particular, las estimaciones de mínimos cuadrados para los modelos de regresión son muy sensibles a los valores atípicos . Si bien no existe una definición precisa de un valor atípico, los valores atípicos son observaciones que no siguen el patrón de las otras observaciones. Esto normalmente no es un problema si el valor atípico es simplemente una observación extrema extraída de la cola de una distribución normal, pero si el valor atípico resulta de un error de medición no normal o alguna otra violación de los supuestos estándar de mínimos cuadrados ordinarios, entonces compromete la validez. de los resultados de la regresión si se utiliza una técnica de regresión no robusta.

Un caso en el que se debe considerar una estimación robusta es cuando existe una fuerte sospecha de heteroscedasticidad . En el modelo homocedástico , se supone que la varianza del término de error es constante para todos los valores de x . La heterocedasticidad permite que la varianza dependa de x , que es más precisa para muchos escenarios reales. Por ejemplo, la varianza del gasto suele ser mayor para las personas con ingresos más altos que para las personas con ingresos más bajos. Los paquetes de software suelen tener un modelo homoscedástico predeterminado, aunque dicho modelo puede ser menos preciso que un modelo heteroscedástico. Un enfoque simple ( Tofallis, 2008) es aplicar mínimos cuadrados a los errores porcentuales, ya que esto reduce la influencia de los valores más grandes de la variable dependiente en comparación con los mínimos cuadrados ordinarios.

Otra situación común en la que se utiliza la estimación robusta ocurre cuando los datos contienen valores atípicos. En presencia de valores atípicos que no provienen del mismo proceso de generación de datos que el resto de los datos, la estimación por mínimos cuadrados es ineficiente y puede estar sesgada. Debido a que las predicciones de mínimos cuadrados se arrastran hacia los valores atípicos y debido a que la varianza de las estimaciones se infla artificialmente, el resultado es que los valores atípicos se pueden enmascarar. (En muchas situaciones, incluidas algunas áreas de geoestadística y estadísticas médicas, son precisamente los valores atípicos los que son de interés).

Aunque a veces se afirma que los mínimos cuadrados (o los métodos estadísticos clásicos en general) son robustos, solo lo son en el sentido de que la tasa de error de tipo I no aumenta si se viola el modelo. De hecho, la tasa de error de tipo I tiende a ser más baja que el nivel nominal cuando hay valores atípicos y, a menudo, hay un aumento drástico en la tasa de error de tipo II . La reducción de la tasa de error de tipo I ha sido etiquetada como el conservadurismo de los métodos clásicos.

A pesar de su desempeño superior sobre la estimación de mínimos cuadrados en muchas situaciones, los métodos robustos para la regresión aún no se utilizan ampliamente. Varias razones pueden ayudar a explicar su impopularidad ( Hampel et al. 1986, 2005 ). Una posible razón es que hay varios métodos en competencia [ cita requerida ] y el campo tuvo muchos comienzos en falso. Además, el cálculo de estimaciones robustas es mucho más intensivo desde el punto de vista computacional que la estimación por mínimos cuadrados; en los últimos años, sin embargo, esta objeción se ha vuelto menos relevante, ya que el poder de cómputo ha aumentado considerablemente. Otra razón puede ser que algunos paquetes populares de software estadístico fallaron en implementar los métodos ( Stromberg, 2004 ).). La creencia de muchos estadísticos de que los métodos clásicos son robustos puede ser otra razón [ cita requerida ] .