Distancia de Cook

En estadística , la distancia de Cook o la D de Cook es una estimación de uso común de la influencia de un punto de datos cuando se realiza un análisis de regresión de mínimos cuadrados . ^[1] En un análisis práctico de mínimos cuadrados ordinarios , la distancia de Cook se puede utilizar de varias formas: para indicar puntos de datos influyentes cuya validez merece la pena comprobar; o para indicar regiones del espacio de diseño donde sería bueno poder obtener más puntos de datos. Lleva el nombre del estadístico estadounidense R. Dennis Cook , quien introdujo el concepto en 1977. ^[2]^[3]

Definición

Los puntos de datos con grandes residuos ( valores atípicos ) y / o alto apalancamiento pueden distorsionar el resultado y la precisión de una regresión. La distancia de Cook mide el efecto de eliminar una observación determinada. Se considera que los puntos con una gran distancia de Cook merecen un examen más detenido en el análisis.

Para la expresión algebraica, primero defina

{\ Displaystyle {\ underset {n \ times 1} {\ mathbf {y}}} = {\ underset {n \ times p} {\ mathbf {X}}} \ quad {\ underset {p \ times 1} { \ boldsymbol {\ beta}}} \ quad + \ quad {\ underset {n \ times 1} {\ boldsymbol {\ varepsilon}}}}

dónde ${\ displaystyle {\ boldsymbol {\ varepsilon}} \ sim {\ mathcal {N}} \ left (0, \ sigma ^ {2} \ mathbf {I} \ right)}$ es el término de error , ${\ displaystyle {\ boldsymbol {\ beta}} = \ left [\ beta _ {0} \, \ beta _ {1} \ dots \ beta _ {p-1} \ right]}$ es la matriz de coeficientes, ${\ Displaystyle p}$ es el número de covariables o predictores para cada observación, y ${\ Displaystyle \ mathbf {X}}$ es la matriz de diseño que incluye una constante. El estimador de mínimos cuadrados entonces es ${\ Displaystyle \ mathbf {b} = \ left (\ mathbf {X} ^ {\ mathsf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ mathsf {T} } \ mathbf {y}}$ , y consecuentemente los valores ajustados (predichos) para la media de ${\ Displaystyle \ mathbf {y}}$ están

{\ Displaystyle \ mathbf {\ widehat {y}} = \ mathbf {X} \ mathbf {b} = \ mathbf {X} \ left (\ mathbf {X} ^ {\ mathsf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ mathsf {T}} \ mathbf {y} = \ mathbf {H} \ mathbf {y}}

dónde ${\ Displaystyle \ mathbf {H} \ equiv \ mathbf {X} (\ mathbf {X} ^ {\ mathsf {T}} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ mathsf { T}}}$ es la matriz de proyección (o matriz de sombrero). La ${\ Displaystyle i}$ -th elemento diagonal de ${\ Displaystyle \ mathbf {H} \,}$ , dada por ${\ Displaystyle h_ {ii} \ equiv \ mathbf {x} _ {i} ^ {\ mathsf {T}} (\ mathbf {X} ^ {\ mathsf {T}} \ mathbf {X}) ^ {- 1 } \ mathbf {x} _ {i}}$ , ^[4] se conoce como el apalancamiento del ${\ Displaystyle i}$ -ª observación. Del mismo modo, el ${\ Displaystyle i}$ -th elemento del vector residual ${\ Displaystyle \ mathbf {e} = \ mathbf {y} - \ mathbf {\ widehat {y \,}} = \ left (\ mathbf {I} - \ mathbf {H} \ right) \ mathbf {y}}$ se denota por ${\ Displaystyle e_ {i}}$ .

Distancia de Cook ${\ Displaystyle D_ {i}}$ de observación ${\ Displaystyle i \; ({\ text {para}} i = 1, \ dots, n)}$ se define como la suma de todos los cambios en el modelo de regresión cuando la observación ${\ Displaystyle i}$ se quita de ella ^[5]

{\ Displaystyle D_ {i} = {\ frac {\ sum _ {j = 1} ^ {n} \ left ({\ widehat {y \,}} _ {j} - {\ widehat {y \,}} _ {j (i)} \ right) ^ {2}} {ps ^ {2}}}}

dónde ${\ Displaystyle {\ widehat {y \,}} _ {j (i)}}$ es el valor de respuesta ajustado obtenido al excluir ${\ Displaystyle i}$ , y ${\ Displaystyle s ^ {2} = {\ frac {\ mathbf {e} ^ {\ top} \ mathbf {e}} {np}}}$ es el error cuadrático medio del modelo de regresión. ^[6]

De manera equivalente, se puede expresar utilizando el apalancamiento ^[5] ( ${\ Displaystyle h_ {ii}}$ ):

{\ Displaystyle D_ {i} = {\ frac {e_ {i} ^ {2}} {ps ^ {2}}} \ left [{\ frac {h_ {ii}} {(1-h_ {ii}) ^ {2}}} \ derecha].}

Detectar observaciones muy influyentes

Hay diferentes opiniones sobre los valores de corte que se deben utilizar para detectar puntos muy influyentes . Dado que la distancia de Cook está en la métrica de una distribución F con ${\ Displaystyle p}$ y ${\ displaystyle np}$ (como se define para la matriz de diseño ${\ Displaystyle \ mathbf {X}}$ arriba) grados de libertad, el punto medio (es decir, ${\ Displaystyle F_ {0.5} (p, np)}$ ) se puede utilizar como límite. ^[7] Dado que este valor es cercano a 1 para grandes ${\ Displaystyle n}$ , una pauta operativa simple de ${\ Displaystyle D_ {i}> 1}$ ha sido sugerido. ^[8] Tenga en cuenta que la medida de distancia de Cook no siempre identifica correctamente las observaciones influyentes. ^[9]^[10]

Relación con otras medidas de influencia (e interpretación)

${\ Displaystyle D_ {i}}$ se puede expresar utilizando el apalancamiento ^[5] ( ${\ Displaystyle 0 \ leq h_ {ii} \ leq 1}$ ) y el cuadrado del residual internamente estudentizado ( ${\ Displaystyle 0 \ leq t_ {i} ^ {2}}$ ), como sigue:

{\ Displaystyle {\ begin {alineado} D_ {i} & = {\ frac {e_ {i} ^ {2}} {ps ^ {2}}} \ left [{\ frac {h_ {ii}} {( 1-h_ {ii}) ^ {2}}} \ right] = {\ frac {1} {p}} {\ frac {e_ {i} ^ {2}} {{1 \ over np} \ sum _ {j = 1} ^ {n} {\ widehat {\ varepsilon \,}} _ {j} ^ {\, 2} (1-h_ {ii})}} \ left [{\ frac {h_ {ii} } {1-h_ {ii}}} \ right] \\ & = \ left [{\ frac {1} {p}} \ right] t_ {i} ^ {2} {\ frac {h_ {ii}} {1-h_ {ii}}}. \ End {alineado}}}

El beneficio de la última formulación es que muestra claramente la relación entre ${\ Displaystyle t_ {i} ^ {2}}$ y ${\ Displaystyle h_ {ii}}$ a ${\ Displaystyle D_ {i}}$ (mientras que pyn son iguales para todas las observaciones). Si ${\ Displaystyle t_ {i} ^ {2}}$ es grande entonces (para valores no extremos de ${\ Displaystyle h_ {ii}}$ ) incrementará ${\ Displaystyle D_ {i}}$ . Si ${\ Displaystyle h_ {ii}}$ está cerca de 0 que ${\ Displaystyle D_ {i}}$ será pequeño, mientras que si ${\ Displaystyle h_ {ii}}$ está cerca de 1 entonces ${\ Displaystyle D_ {i}}$ se volverá muy grande (siempre que ${\ Displaystyle t_ {i} ^ {2}> 0}$ , es decir: que la observación ${\ Displaystyle i}$ no está exactamente en la línea de regresión que se ajustó sin observación ${\ Displaystyle i}$ ).

${\ Displaystyle D_ {i}}$ está relacionado con DFFITS a través de la siguiente relación (tenga en cuenta que ${\ Displaystyle {{\ widehat {\ sigma}} \ over {\ widehat {\ sigma}} _ {(i)}} t_ {i} = t_ {i (i)}}$ es el residuo estudentizado externamente , y ${\ displaystyle {\ widehat {\ sigma}}, {\ widehat {\ sigma}} _ {(i)}}$ se definen aquí ):

{\ Displaystyle {\ begin {alineado} D_ {i} & = \ left [{\ frac {1} {p}} \ right] t_ {i} ^ {2} {\ frac {h_ {ii}} {1 -h_ {ii}}} \\ & = \ left [{\ frac {1} {p}} \ right] {{\ widehat {\ sigma}} _ {(i)} ^ {2} \ over {\ ancho ancho {\ sigma}} ^ {2}} {{\ ancho ancho {\ sigma}} ^ {2} \ sobre {\ ancho ancho {\ sigma}} _ {(i)} ^ {2}} t_ {i} ^ {2} {\ frac {h_ {ii}} {1-h_ {ii}}} = \ left [{\ frac {1} {p}} \ right] {{\ widehat {\ sigma}} _ {( i)} ^ {2} \ over {\ widehat {\ sigma}} ^ {2}} \ left (t_ {i (i)} {\ sqrt {\ frac {h_ {ii}} {1-h_ {ii }}}} \ right) ^ {2} \\ & = \ left [{\ frac {1} {p}} \ right] {{\ widehat {\ sigma}} _ {(i)} ^ {2} \ over {\ widehat {\ sigma}} ^ {2}} {\ text {DFFITS}} ^ {2} \ end {alineado}}}

${\ Displaystyle D_ {i}}$ se puede interpretar como la distancia que se mueven las estimaciones de uno dentro del elipsoide de confianza que representa una región de valores plausibles para los parámetros. ^{[ aclaración necesaria ]} Esto se muestra mediante una representación alternativa pero equivalente de la distancia de Cook en términos de cambios en las estimaciones de los parámetros de regresión entre los casos, donde la observación particular se incluye o se excluye del análisis de regresión.

Implementaciones de software

Muchos programas y paquetes de estadísticas, como R , Python , etc., incluyen implementaciones de la distancia de Cook.

Idioma / Programa	Función	Notas
R	`cooks.distance(model, ...)`	Ver [1]
Pitón	`CooksDistance().fit(X, y)`	Ver [2]

Extensiones

La medida de influencia de alta dimensión (HIM) es una alternativa a la distancia de Cook para cuando ${\ Displaystyle p> n}$ (es decir, cuando hay más predictores que observaciones). ^[11] Mientras que la distancia de Cook cuantifica la influencia de la observación individual en la estimación del coeficiente de regresión de mínimos cuadrados, el HIM mide la influencia de una observación en las correlaciones marginales.

Ver también

Referencias

^ Mendenhall, William; Sincich, Terry (1996). Un segundo curso de estadística: análisis de regresión (5ª ed.). Upper Saddle River, Nueva Jersey: Prentice-Hall. pag. 422. ISBN 0-13-396821-9. Una medida de la influencia general que tiene una observación periférica en la estimación ${\ Displaystyle \ beta}$ coeficientes fue propuesto por RD Cook (1979). La distancia de Cook, D _i , se calcula ...
^ Cook, R. Dennis (febrero de 1977). "Detección de observaciones influyentes en regresión lineal". Tecnometría . Asociación Estadounidense de Estadística . 19 (1): 15-18. doi : 10.2307 / 1268249 . JSTOR 1268249 . Señor 0436478 .
^ Cook, R. Dennis (marzo de 1979). "Observaciones influyentes en regresión lineal". Revista de la Asociación Estadounidense de Estadística . Asociación Estadounidense de Estadística. 74 (365): 169-174. doi : 10.2307 / 2286747 . hdl : 11299/199280 . JSTOR 2286747 . Señor 0529533 .
^ Hayashi, Fumio (2000). Econometría . Prensa de la Universidad de Princeton. págs. 21-23. ISBN 1400823838.
^ a b c "Distancia del cocinero" .
^ "Estadísticas 512: Modelos lineales aplicados" (PDF) . Universidad de Purdue . Archivado desde el original (PDF) el 30 de noviembre de 2016 . Consultado el 25 de marzo de 2016 .
^ Bollen, Kenneth A .; Jackman, Robert W. (1990). "Diagnóstico de regresión: un tratamiento expositivo de valores atípicos y casos influyentes" . En Fox, John; Long, J. Scott (eds.). Métodos modernos de análisis de datos . Newbury Park, CA: Sage. págs. 266 . ISBN 0-8039-3366-5.
^ Cook, R. Dennis; Weisberg, Sanford (1982). Residuos e influencia en la regresión . Nueva York, NY: Chapman & Hall. hdl : 11299/37076 . ISBN 0-412-24280-X.
^ Kim, Myung Geun (31 de mayo de 2017). "Una nota de advertencia sobre el uso de la distancia de Cook" . Comunicaciones para aplicaciones y métodos estadísticos . 24 (3): 317–324. doi : 10.5351 / csam.2017.24.3.317 . ISSN 2383-4757 .
^ Sobre la estadística de diagnóstico de deleción en regresión
^ Medida de influencia de alta dimensión

Otras lecturas

Atkinson, Anthony; Riani, Marco (2000). "Diagnóstico de eliminación" . Diagnóstico robusto y análisis de regresión . Nueva York: Springer. págs. 22-25. ISBN 0-387-95017-6.
Heiberger, Richard M .; Holanda, Burt (2013). "Estadísticas de casos" . Análisis estadístico y visualización de datos . Springer Science & Business Media. págs. 312-27. ISBN 9781475742848.
Krasker, William S .; Kuh, Edwin ; Welsch, Roy E. (1983). "Estimación de datos sucios y modelos defectuosos". Manual de Econometría . 1 . Elsevier. págs. 651–698. doi : 10.1016 / S1573-4412 (83) 01015-6 . ISBN 9780444861856.
Aguinis, Herman; Gottfredson, Ryan K .; Joo, Harry (2013). "Recomendaciones de mejores prácticas para definir la identificación y el manejo de valores atípicos" . Métodos de investigación organizacional . Sabio. 16 (2): 270-301. doi : 10.1177 / 1094428112470848 . S2CID 54916947 . Consultado el 4 de diciembre de 2015 .

[1] Mendenhall, William; Sincich, Terry (1996). Un segundo curso de estadística: análisis de regresión (5ª ed.). Upper Saddle River, Nueva Jersey: Prentice-Hall. pag. 422. ISBN 0-13-396821-9. Una medida de la influencia general que tiene una observación periférica en la estimación ${\ Displaystyle \ beta}$ coeficientes fue propuesto por RD Cook (1979). La distancia de Cook, D _i , se calcula ...

[2] Cook, R. Dennis (febrero de 1977). "Detección de observaciones influyentes en regresión lineal". Tecnometría . Asociación Estadounidense de Estadística . 19 (1): 15-18. doi : 10.2307 / 1268249 . JSTOR 1268249 . Señor 0436478 .

[3] Cook, R. Dennis (marzo de 1979). "Observaciones influyentes en regresión lineal". Revista de la Asociación Estadounidense de Estadística . Asociación Estadounidense de Estadística. 74 (365): 169-174. doi : 10.2307 / 2286747 . hdl : 11299/199280 . JSTOR 2286747 . Señor 0529533 .

[4] Hayashi, Fumio (2000). Econometría . Prensa de la Universidad de Princeton. págs. 21-23. ISBN 1400823838.

[mathworks-5] "Distancia del cocinero" .

[6] "Estadísticas 512: Modelos lineales aplicados" (PDF) . Universidad de Purdue . Archivado desde el original (PDF) el 30 de noviembre de 2016 . Consultado el 25 de marzo de 2016 .

[7] Bollen, Kenneth A .; Jackman, Robert W. (1990). "Diagnóstico de regresión: un tratamiento expositivo de valores atípicos y casos influyentes" . En Fox, John; Long, J. Scott (eds.). Métodos modernos de análisis de datos . Newbury Park, CA: Sage. págs. 266 . ISBN 0-8039-3366-5.

[8] Cook, R. Dennis; Weisberg, Sanford (1982). Residuos e influencia en la regresión . Nueva York, NY: Chapman & Hall. hdl : 11299/37076 . ISBN 0-412-24280-X.

[9] Kim, Myung Geun (31 de mayo de 2017). "Una nota de advertencia sobre el uso de la distancia de Cook" . Comunicaciones para aplicaciones y métodos estadísticos . 24 (3): 317–324. doi : 10.5351 / csam.2017.24.3.317 . ISSN 2383-4757 .

[10] Sobre la estadística de diagnóstico de deleción en regresión

[11] Medida de influencia de alta dimensión

[1]