Errores y residuales


En estadística y optimización , los errores y los residuos son dos medidas estrechamente relacionadas y fácilmente confusas de la desviación de un valor observado de un elemento de una muestra estadística de su "valor teórico". El error (o perturbación ) de un valor observado es la desviación del valor observado del valor verdadero (no observable) de una cantidad de interés (por ejemplo, una media poblacional ), y el residuo de un valor observado es la diferencia entre valor observado y el estimadovalor de la cantidad de interés (por ejemplo, una media muestral ). La distinción es más importante en el análisis de regresión , donde los conceptos se denominan a veces los errores de regresión y residuos de la regresión y dónde conducen al concepto de residuos de Student .

Supongamos que hay una serie de observaciones de una distribución univariante y queremos estimar la media de esa distribución (el llamado modelo de ubicación ). En este caso, los errores son las desviaciones de las observaciones de la media de la población, mientras que los residuales son las desviaciones de las observaciones de la media de la muestra.

Un error estadístico (o perturbación ) es la cantidad en que una observación difiere de su valor esperado , este último se basa en toda la población de la que se eligió la unidad estadística al azar. Por ejemplo, si la altura media en una población de hombres de 21 años es 1,75 metros y un hombre elegido al azar mide 1,80 metros, entonces el "error" es 0,05 metros; si el hombre elegido al azar mide 1,70 metros de altura, entonces el "error" es −0,05 metros. El valor esperado, que es la media de toda la población, no suele ser observable y, por lo tanto, tampoco se puede observar el error estadístico.

Una desviación residual (o de ajuste), por otro lado, es una estimación observable del error estadístico no observable. Considere el ejemplo anterior con la altura de los hombres y suponga que tenemos una muestra aleatoria de n personas. La media muestral podría servir como un buen estimador de la media poblacional . Entonces tenemos:

Tenga en cuenta que, debido a la definición de la media de la muestra, la suma de los residuos dentro de una muestra aleatoria es necesariamente cero, y por lo tanto los residuos son necesariamente no independiente . Los errores estadísticos, por otro lado, son independientes y su suma dentro de la muestra aleatoria es casi seguro que no es cero.

Se pueden estandarizar los errores estadísticos (especialmente de una distribución normal ) en un puntaje z (o "puntaje estándar"), y estandarizar los residuos en un estadístico t , o más generalmente residuos estudentizados .