Observación influyente


En estadística , una observación influyente es una observación para un cálculo estadístico cuya eliminación del conjunto de datos cambiaría notablemente el resultado del cálculo. [1] En particular, en el análisis de regresión, una observación influyente es aquella cuya eliminación tiene un gran efecto en las estimaciones de los parámetros. [2]

Se han propuesto varios métodos para medir la influencia. [3] [4] Suponga una regresión estimada , donde es un vector de columna n × 1 para la variable de respuesta, es la matriz de diseño n × k de variables explicativas (incluida una constante), es el vector residual n × 1 y es un vector k × 1 de estimaciones de algún parámetro de población . Defina también , la matriz de proyección de . Entonces tenemos las siguientes medidas de influencia:

Un valor atípico puede definirse como un punto de datos que difiere significativamente de otras observaciones. [6] [7] Un punto de alto apalancamiento son las observaciones realizadas en valores extremos de variables independientes. [8] Ambos tipos de observaciones atípicas obligarán a la línea de regresión a estar cerca del punto. [2] En el cuarteto de Anscombe, la imagen inferior derecha tiene un punto con alto apalancamiento y la imagen inferior izquierda tiene un punto periférico.


En el cuarteto de Anscombe, los dos conjuntos de datos de la parte inferior contienen puntos influyentes. Los cuatro conjuntos son idénticos cuando se examinan utilizando estadísticas de resumen simples, pero varían considerablemente cuando se grafican. Si se elimina un punto, la línea se vería muy diferente.