Datos perdidos


En las estadísticas , los datos que faltan o los valores que faltan ocurren cuando no se almacena ningún valor de datos para la variable en una observación . Los datos faltantes son una ocurrencia común y pueden tener un efecto significativo en las conclusiones que se pueden extraer de los datos.

Los datos faltantes pueden ocurrir debido a la falta de respuesta: no se proporciona información para uno o más elementos o para una unidad completa ("sujeto"). Algunos elementos tienen más probabilidades de generar una falta de respuesta que otros: por ejemplo, elementos sobre temas privados como los ingresos. El desgaste es un tipo de falta que puede ocurrir en estudios longitudinales, por ejemplo, estudiar el desarrollo donde una medición se repite después de un cierto período de tiempo. La pérdida ocurre cuando los participantes abandonan antes de que finalice la prueba y faltan una o más mediciones.

Los datos a menudo faltan en la investigación en economía , sociología y ciencias políticas porque los gobiernos o las entidades privadas eligen no informar estadísticas críticas, o no lo hacen, [1] o porque la información no está disponible. A veces, los valores faltantes son causados ​​por el investigador, por ejemplo, cuando la recopilación de datos se realiza incorrectamente o se cometen errores en la entrada de datos. [2]

Estas formas de ausencia toman diferentes tipos, con diferentes impactos en la validez de las conclusiones de la investigación: Falta completamente al azar, falta al azar y falta no al azar. Los datos faltantes se pueden manejar de manera similar a los datos censurados .

Comprender las razones por las que faltan datos es importante para manejar correctamente los datos restantes. Si faltan valores completamente al azar, es probable que la muestra de datos siga siendo representativa de la población. Pero si los valores faltan sistemáticamente, el análisis puede estar sesgado. Por ejemplo, en un estudio de la relación entre CI e ingresos, si los participantes con un CI superior a la media tienden a omitir la pregunta '¿Cuál es su salario?', los análisis que no tienen en cuenta esta falta aleatoria (patrón MAR ( ver más abajo)) puede fallar falsamente al encontrar una asociación positiva entre el coeficiente intelectual y el salario. Debido a estos problemas, los especialistas en metodología aconsejan rutinariamente a los investigadores que diseñen estudios para minimizar la ocurrencia de valores faltantes. [2] Se pueden utilizar modelos gráficos para describir en detalle el mecanismo de datos faltantes.[3] [4]

Los valores en un conjunto de datos faltan completamente al azar (MCAR) si los eventos que conducen a la falta de cualquier elemento de datos en particular son independientes tanto de las variables observables como de los parámetros de interés no observables, y ocurren completamente al azar. [5] Cuando los datos son MCAR, el análisis realizado sobre los datos es imparcial; sin embargo, los datos rara vez son MCAR.


El gráfico muestra las distribuciones de probabilidad de las estimaciones de la intensidad esperada de depresión en la población. El número de casos es 60. Sea la verdadera población una distribución normal estandarizada y la probabilidad de no respuesta una función logística de la intensidad de la depresión. La conclusión es: cuantos más datos faltan (MNAR), más sesgadas son las estimaciones. Subestimamos la intensidad de la depresión en la población.