En estadística , la distancia de Cook o la D de Cook es una estimación de uso común de la influencia de un punto de datos cuando se realiza un análisis de regresión de mínimos cuadrados . [1] En un análisis práctico de mínimos cuadrados ordinarios , la distancia de Cook se puede utilizar de varias formas: para indicar puntos de datos influyentes cuya validez merece la pena comprobar; o para indicar regiones del espacio de diseño donde sería bueno poder obtener más puntos de datos. Lleva el nombre del estadístico estadounidense R. Dennis Cook , quien introdujo el concepto en 1977. [2] [3]
Definición
Los puntos de datos con grandes residuos ( valores atípicos ) y / o alto apalancamiento pueden distorsionar el resultado y la precisión de una regresión. La distancia de Cook mide el efecto de eliminar una observación determinada. Se considera que los puntos con una gran distancia de Cook merecen un examen más detenido en el análisis.
Para la expresión algebraica, primero defina
dónde es el término de error , es la matriz de coeficientes, es el número de covariables o predictores para cada observación, y es la matriz de diseño que incluye una constante. El estimador de mínimos cuadrados entonces es, y consecuentemente los valores ajustados (predichos) para la media de están
dónde es la matriz de proyección (o matriz de sombrero). La-th elemento diagonal de , dada por , [4] se conoce como el apalancamiento del-ª observación. Del mismo modo, el-th elemento del vector residual se denota por .
Distancia de Cook de observación se define como la suma de todos los cambios en el modelo de regresión cuando la observación se quita de ella [5]
dónde es el valor de respuesta ajustado obtenido al excluir , y es el error cuadrático medio del modelo de regresión. [6]
De manera equivalente, se puede expresar utilizando el apalancamiento [5] ():
Detectar observaciones muy influyentes
Hay diferentes opiniones sobre los valores de corte que se deben utilizar para detectar puntos muy influyentes . Dado que la distancia de Cook está en la métrica de una distribución F con y (como se define para la matriz de diseño arriba) grados de libertad, el punto medio (es decir, ) se puede utilizar como límite. [7] Dado que este valor es cercano a 1 para grandes, una pauta operativa simple de ha sido sugerido. [8] Tenga en cuenta que la medida de distancia de Cook no siempre identifica correctamente las observaciones influyentes. [9] [10]
Relación con otras medidas de influencia (e interpretación)
se puede expresar utilizando el apalancamiento [5] () y el cuadrado del residual internamente estudentizado (), como sigue:
El beneficio de la última formulación es que muestra claramente la relación entre y a (mientras que pyn son iguales para todas las observaciones). Si es grande entonces (para valores no extremos de ) incrementará . Si está cerca de 0 que será pequeño, mientras que si está cerca de 1 entonces se volverá muy grande (siempre que , es decir: que la observación no está exactamente en la línea de regresión que se ajustó sin observación ).
está relacionado con DFFITS a través de la siguiente relación (tenga en cuenta quees el residuo estudentizado externamente , yse definen aquí ):
se puede interpretar como la distancia que se mueven las estimaciones de uno dentro del elipsoide de confianza que representa una región de valores plausibles para los parámetros. [ aclaración necesaria ] Esto se muestra mediante una representación alternativa pero equivalente de la distancia de Cook en términos de cambios en las estimaciones de los parámetros de regresión entre los casos, donde la observación particular se incluye o se excluye del análisis de regresión.
Implementaciones de software
Muchos programas y paquetes de estadísticas, como R , Python , etc., incluyen implementaciones de la distancia de Cook.
Idioma / Programa | Función | Notas |
---|---|---|
R | cooks.distance(model, ...) | Ver [1] |
Pitón | CooksDistance().fit(X, y) | Ver [2] |
Extensiones
La medida de influencia de alta dimensión (HIM) es una alternativa a la distancia de Cook para cuando (es decir, cuando hay más predictores que observaciones). [11] Mientras que la distancia de Cook cuantifica la influencia de la observación individual en la estimación del coeficiente de regresión de mínimos cuadrados, el HIM mide la influencia de una observación en las correlaciones marginales.
Ver también
Referencias
- ^ Mendenhall, William; Sincich, Terry (1996). Un segundo curso de estadística: análisis de regresión (5ª ed.). Upper Saddle River, Nueva Jersey: Prentice-Hall. pag. 422. ISBN 0-13-396821-9.
Una medida de la influencia general que tiene una observación periférica en la estimacióncoeficientes fue propuesto por RD Cook (1979). La distancia de Cook, D i , se calcula ...
- ^ Cook, R. Dennis (febrero de 1977). "Detección de observaciones influyentes en regresión lineal". Tecnometría . Asociación Estadounidense de Estadística . 19 (1): 15-18. doi : 10.2307 / 1268249 . JSTOR 1268249 . Señor 0436478 .
- ^ Cook, R. Dennis (marzo de 1979). "Observaciones influyentes en regresión lineal". Revista de la Asociación Estadounidense de Estadística . Asociación Estadounidense de Estadística. 74 (365): 169-174. doi : 10.2307 / 2286747 . hdl : 11299/199280 . JSTOR 2286747 . Señor 0529533 .
- ^ Hayashi, Fumio (2000). Econometría . Prensa de la Universidad de Princeton. págs. 21-23. ISBN 1400823838.
- ^ a b c "Distancia del cocinero" .
- ^ "Estadísticas 512: Modelos lineales aplicados" (PDF) . Universidad de Purdue . Archivado desde el original (PDF) el 30 de noviembre de 2016 . Consultado el 25 de marzo de 2016 .
- ^ Bollen, Kenneth A .; Jackman, Robert W. (1990). "Diagnóstico de regresión: un tratamiento expositivo de valores atípicos y casos influyentes" . En Fox, John; Long, J. Scott (eds.). Métodos modernos de análisis de datos . Newbury Park, CA: Sage. págs. 266 . ISBN 0-8039-3366-5.
- ^ Cook, R. Dennis; Weisberg, Sanford (1982). Residuos e influencia en la regresión . Nueva York, NY: Chapman & Hall. hdl : 11299/37076 . ISBN 0-412-24280-X.
- ^ Kim, Myung Geun (31 de mayo de 2017). "Una nota de advertencia sobre el uso de la distancia de Cook" . Comunicaciones para aplicaciones y métodos estadísticos . 24 (3): 317–324. doi : 10.5351 / csam.2017.24.3.317 . ISSN 2383-4757 .
- ^ Sobre la estadística de diagnóstico de deleción en regresión
- ^ Medida de influencia de alta dimensión
Otras lecturas
- Atkinson, Anthony; Riani, Marco (2000). "Diagnóstico de eliminación" . Diagnóstico robusto y análisis de regresión . Nueva York: Springer. págs. 22-25. ISBN 0-387-95017-6.
- Heiberger, Richard M .; Holanda, Burt (2013). "Estadísticas de casos" . Análisis estadístico y visualización de datos . Springer Science & Business Media. págs. 312-27. ISBN 9781475742848.
- Krasker, William S .; Kuh, Edwin ; Welsch, Roy E. (1983). "Estimación de datos sucios y modelos defectuosos". Manual de Econometría . 1 . Elsevier. págs. 651–698. doi : 10.1016 / S1573-4412 (83) 01015-6 . ISBN 9780444861856.
- Aguinis, Herman; Gottfredson, Ryan K .; Joo, Harry (2013). "Recomendaciones de mejores prácticas para definir la identificación y el manejo de valores atípicos" . Métodos de investigación organizacional . Sabio. 16 (2): 270-301. doi : 10.1177 / 1094428112470848 . S2CID 54916947 . Consultado el 4 de diciembre de 2015 .