En estadística , una observación influyente es una observación para un cálculo estadístico cuya eliminación del conjunto de datos cambiaría notablemente el resultado del cálculo. [1] En particular, en el análisis de regresión, una observación influyente es aquella cuya eliminación tiene un gran efecto en las estimaciones de los parámetros. [2]
Se han propuesto varios métodos para medir la influencia. [3] [4] Suponga una regresión estimada , donde es un vector de columna n × 1 para la variable de respuesta, es la matriz de diseño n × k de variables explicativas (incluida una constante), es el vector residual n × 1 y es un vector k × 1 de estimaciones de algún parámetro de población . Defina también , la matriz de proyección de . Entonces tenemos las siguientes medidas de influencia:
Un valor atípico puede definirse como un punto de datos que difiere significativamente de otras observaciones. [6] [7] Un punto de alto apalancamiento son las observaciones realizadas en valores extremos de variables independientes. [8] Ambos tipos de observaciones atípicas obligarán a la línea de regresión a estar cerca del punto. [2] En el cuarteto de Anscombe, la imagen inferior derecha tiene un punto con alto apalancamiento y la imagen inferior izquierda tiene un punto periférico.