Imputación (estadística)


En estadística , la imputación es el proceso de reemplazar los datos faltantes con valores sustituidos. Al sustituir un punto de datos, se le conoce como " imputación unitaria "; cuando se sustituye por un componente de un punto de datos, se conoce como " imputación de elementos ". Hay tres problemas principales que causan los datos faltantes: los datos faltantes pueden introducir una cantidad sustancial de sesgo , hacer que el manejo y el análisis de los datos sean más arduos y crear reducciones en la eficiencia . [1] Debido a que los datos faltantes pueden crear problemas para el análisis de datos, la imputación se ve como una forma de evitar las trampas relacionadas con la eliminación por lista.de casos que tienen valores faltantes. Es decir, cuando faltan uno o más valores para un caso, la mayoría de los paquetes estadísticos descartan por defecto cualquier caso que tenga un valor faltante, lo que puede introducir sesgos o afectar la representatividad de los resultados. La imputación preserva todos los casos al reemplazar los datos faltantes con un valor estimado basado en otra información disponible. Una vez que se han imputado todos los valores faltantes, el conjunto de datos se puede analizar utilizando técnicas estándar para obtener datos completos. [2]Los científicos han adoptado muchas teorías para dar cuenta de los datos faltantes, pero la mayoría de ellas introducen sesgos. Algunos de los intentos bien conocidos de lidiar con los datos faltantes incluyen: imputación de cubierta caliente y cubierta fría; eliminación por lista y por parejas; imputación media; factorización de matrices no negativas; imputación de regresión; última observación llevada adelante; imputación estocástica; e imputación múltiple.

Con mucho, el medio más común para tratar los datos faltantes es la eliminación por lista (también conocida como caso completo), que es cuando se eliminan todos los casos con un valor faltante. Si los datos faltan completamente al azar , entonces la eliminación por lista no agrega ningún sesgo, pero sí disminuye el poder .del análisis al disminuir el tamaño efectivo de la muestra. Por ejemplo, si se recopilan 1000 casos pero 80 tienen valores faltantes, el tamaño de muestra efectivo después de la eliminación por lista es 920. Si los casos no faltan completamente al azar, la eliminación por lista introducirá un sesgo porque la submuestra de casos representada por el los datos faltantes no son representativos de la muestra original (y si la muestra original era en sí misma una muestra representativa de una población, los casos completos tampoco son representativos de esa población). [3] Si bien la eliminación por lista es imparcial cuando los datos que faltan se pierden completamente al azar, esto rara vez es el caso en la actualidad. [4]

La eliminación por pares (o "análisis de casos disponibles") implica eliminar un caso cuando falta una variable requerida para un análisis en particular, pero incluir ese caso en análisis para los que están presentes todas las variables requeridas. Cuando se usa la eliminación por pares, el N total para el análisis no será consistente entre las estimaciones de los parámetros. Debido a los valores de N incompletos en algunos puntos en el tiempo, mientras se mantiene una comparación de casos completa para otros parámetros, la eliminación por pares puede introducir situaciones matemáticas imposibles, como correlaciones superiores al 100%. [5]

La única ventaja que tiene la eliminación completa de casos sobre otros métodos es que es sencillo y fácil de implementar. Esta es una gran razón por la cual el caso completo es el método más popular para manejar datos faltantes a pesar de las muchas desventajas que tiene.

Un método de imputación que alguna vez fue común fue la imputación hot-deck, en la que se imputaba un valor faltante de un registro similar seleccionado al azar. El término "plataforma caliente" se remonta al almacenamiento de datos en tarjetas perforadas e indica que los donantes de información provienen del mismo conjunto de datos que los destinatarios. La pila de cartas estaba "caliente" porque se estaba procesando en ese momento.