De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

En estadística , la imputación es el proceso de reemplazar los datos faltantes con valores sustituidos. Cuando se sustituye por un punto de datos, se conoce como "imputación unitaria"; cuando se sustituye un componente de un punto de datos, se conoce como "imputación de artículo". Hay tres problemas principales que causan los datos faltantes: los datos faltantes pueden introducir una cantidad sustancial de sesgo, hacer que el manejo y análisis de los datos sea más arduo y crear reducciones en la eficiencia. [1] Debido a que los datos faltantes pueden crear problemas para el análisis de datos, la imputación se considera una forma de evitar las trampas relacionadas con la eliminación por lista de casos que tienen valores perdidos. Es decir, cuando faltan uno o más valores para un caso, la mayoríaLos paquetes estadísticos descartan por defecto cualquier caso que tenga un valor faltante, lo que puede introducir sesgos o afectar la representatividad de los resultados. La imputación preserva todos los casos al reemplazar los datos faltantes con un valor estimado basado en otra información disponible. Una vez que se han imputado todos los valores faltantes, el conjunto de datos se puede analizar utilizando técnicas estándar para obtener datos completos. [2]Los científicos han adoptado muchas teorías para explicar los datos faltantes, pero la mayoría de ellas introducen sesgos. Algunos de los intentos bien conocidos de tratar los datos faltantes incluyen: imputación de cubierta caliente y cubierta fría; eliminación por lista y por parejas; imputación media; factorización matricial no negativa; imputación de regresión; última observación llevada a cabo; imputación estocástica; e imputación múltiple.

Eliminación de listwise (caso completo) [ editar ]

Con mucho, el medio más común de tratar los datos faltantes es la eliminación por lista (también conocida como caso completo), que es cuando se eliminan todos los casos con un valor perdido. Si los datos faltan completamente al azar , entonces la eliminación por lista no agrega ningún sesgo, pero disminuye la potenciadel análisis disminuyendo el tamaño efectivo de la muestra. Por ejemplo, si se recopilan 1000 casos pero 80 tienen valores faltantes, el tamaño de muestra efectivo después de la eliminación por lista es 920. Si los casos no faltan completamente al azar, la eliminación por lista introducirá sesgo porque la submuestra de casos representada por el los datos faltantes no son representativos de la muestra original (y si la muestra original era en sí misma una muestra representativa de una población, los casos completos tampoco son representativos de esa población). [3] Si bien la eliminación por listas es imparcial cuando los datos faltantes faltan completamente al azar, en la actualidad esto rara vez es el caso. [4]

La eliminación por pares (o "análisis de casos disponibles") implica eliminar un caso cuando falta una variable requerida para un análisis en particular, pero incluir ese caso en análisis para los que están presentes todas las variables requeridas. Cuando se utiliza la eliminación por pares, el N total para el análisis no será coherente entre las estimaciones de los parámetros. Debido a los valores de N incompletos en algunos puntos en el tiempo, mientras se mantiene la comparación de casos completa para otros parámetros, la eliminación por pares puede introducir situaciones matemáticas imposibles, como correlaciones superiores al 100%. [5]

La única ventaja que tiene la eliminación completa de casos sobre otros métodos es que es sencilla y fácil de implementar. Esta es una gran razón por la que el caso completo es el método más popular para manejar los datos faltantes a pesar de las muchas desventajas que tiene.

Imputación única [ editar ]

Hot-deck [ editar ]

Un método de imputación que alguna vez fue común fue la imputación en caliente en la que se imputaba un valor faltante de un registro similar seleccionado al azar. El término "mazo caliente" se remonta al almacenamiento de datos en tarjetas perforadas e indica que los donantes de información provienen del mismo conjunto de datos que los destinatarios. La pila de tarjetas estaba "caliente" porque se estaba procesando.

Una forma de imputación de plataforma caliente se llama "última observación llevada adelante" (o LOCF para abreviar), que implica ordenar un conjunto de datos de acuerdo con cualquiera de una serie de variables, creando así un conjunto de datos ordenado. Luego, la técnica encuentra el primer valor faltante y utiliza el valor de la celda inmediatamente anterior a los datos que faltan para imputar el valor faltante. El proceso se repite para la siguiente celda con un valor faltante hasta que se hayan imputado todos los valores perdidos. En el escenario común en el que los casos son mediciones repetidas de una variable para una persona u otra entidad, esto representa la creencia de que si falta una medición, la mejor suposición es que no ha cambiado desde la última vez que se midió. Se sabe que este método aumenta el riesgo de sesgos crecientes y conclusiones potencialmente falsas.Por esta razón, no se recomienda el uso de LOCF.[6]

Cubierta fría [ editar ]

La imputación de cubierta fría, por el contrario, selecciona donantes de otro conjunto de datos. Debido a los avances en el poder de las computadoras, los métodos de imputación más sofisticados generalmente han reemplazado a las técnicas originales de imputación aleatoria y clasificada. Es un método para reemplazar con valores de respuesta de elementos similares en encuestas anteriores. Está disponible en encuestas que miden intervalos de tiempo.

Sustitución media [ editar ]

Otra técnica de imputación implica reemplazar cualquier valor faltante con la media de esa variable para todos los demás casos, lo que tiene la ventaja de no cambiar la media de la muestra para esa variable. Sin embargo, la imputación media atenúa cualquier correlación que involucre las variables imputadas. Esto se debe a que, en los casos con imputación, se garantiza que no existe relación entre la variable imputada y cualquier otra variable medida. Por tanto, la imputación media tiene algunas propiedades atractivas para el análisis univariante, pero se vuelve problemática para el análisis multivariado.

La imputación media se puede realizar dentro de las clases (es decir, categorías como el género) y se puede expresar como dónde es el valor imputado para el registro y es la media muestral de los datos de los encuestados dentro de alguna clase . Este es un caso especial de imputación de regresión generalizada:

Aquí, los valores se estiman a partir de la regresión en datos no imputados, es una variable ficticia para la pertenencia a una clase y los datos se dividen en respondiente ( ) y faltante ( ). [7] [8]

Factorización matricial no negativa [ editar ]

La factorización matricial no negativa (NMF) puede tomar los datos faltantes mientras minimiza su función de costo, en lugar de tratar estos datos faltantes como ceros que podrían introducir sesgos. [9] Esto lo convierte en un método matemáticamente probado para la imputación de datos. Primero, probando que los datos faltantes se ignoran en la función de costos, luego probando que el impacto de los datos faltantes puede ser tan pequeño como un efecto de segundo orden.

Regresión [ editar ]

La imputación por regresión tiene el problema opuesto de la imputación media. Se estima un modelo de regresión para predecir los valores observados de una variable en función de otras variables, y ese modelo se utiliza luego para imputar valores en los casos en que falta el valor de esa variable. En otras palabras, la información disponible para casos completos e incompletos se utiliza para predecir el valor de una variable específica. Los valores ajustados del modelo de regresión se utilizan luego para imputar los valores faltantes. El problema es que los datos imputados no tienen un término de error incluido en su estimación, por lo que las estimaciones se ajustan perfectamente a lo largo de la línea de regresión sin ninguna varianza residual. Esto hace que las relaciones se sobreidentifiquen y sugieran una mayor precisión en los valores imputados de lo que se justifica.El modelo de regresión predice el valor más probable de los datos faltantes, pero no proporciona incertidumbre sobre ese valor.

La regresión estocástica fue un intento bastante exitoso de corregir la falta de un término de error en la imputación de regresión agregando la varianza de regresión promedio a las imputaciones de regresión para introducir error. La regresión estocástica muestra un sesgo mucho menor que las técnicas mencionadas anteriormente, pero aún así omitió una cosa: si los datos se imputan, intuitivamente uno pensaría que se debe introducir más ruido en el problema que la simple varianza residual. [5]

Imputación múltiple [ editar ]

Para abordar el problema del aumento del ruido debido a la imputación, Rubin (1987) [10] desarrolló un método para promediar los resultados a través de múltiples conjuntos de datos imputados para dar cuenta de esto. Todos los métodos de imputación múltiple siguen tres pasos. [11]

  1. Imputación: similar a la imputación única, los valores perdidos se imputan. Sin embargo, los valores imputados se extraen m veces de una distribución en lugar de una sola vez. Al final de este paso, debe haber m conjuntos de datos completos.
  2. Análisis: se analiza cada uno de los m conjuntos de datos. Al final de este paso debería haber m análisis.
  3. Combinación: los m resultados se consolidan en un resultado calculando la media, la varianza y el intervalo de confianza de la variable de interés [12] [13] o combinando simulaciones de cada modelo por separado. [14]

Así como existen múltiples métodos de imputación única, también existen múltiples métodos de imputación múltiple. Una ventaja que tiene la imputación múltiple sobre la imputación única y los métodos de caso completo es que la imputación múltiple es flexible y se puede utilizar en una amplia variedad de escenarios. La imputación múltiple se puede utilizar en los casos en que los datos faltan completamente al azar , faltan al azar e incluso cuando los datos faltan no al azar . Un enfoque popular es la imputación múltiple por ecuaciones encadenadas (MICE), también conocida como "especificación totalmente condicional" e "imputación múltiple de regresión secuencial". [15]MICE está diseñado para datos que faltan al azar, aunque hay evidencia de simulación que sugiere que con un número suficiente de variables auxiliares también puede trabajar con datos que faltan, no al azar. Sin embargo, MICE puede sufrir problemas de rendimiento cuando el número de observaciones es grande y los datos tienen características complejas, como no linealidades y alta dimensionalidad.

Los enfoques más recientes de imputación múltiple utilizan técnicas de aprendizaje automático para mejorar su rendimiento. MIDAS (Imputación múltiple con codificadores automáticos de eliminación de ruido), por ejemplo, utiliza codificadores automáticos de eliminación de ruido, un tipo de red neuronal no supervisada, para aprender representaciones latentes detalladas de los datos observados. [16] Se ha demostrado que MIDAS proporciona ventajas de precisión y eficiencia sobre las estrategias tradicionales de imputación múltiple.

Como se mencionó en la sección anterior, la imputación única no tiene en cuenta la incertidumbre en las imputaciones. Después de la imputación, los datos se tratan como si fueran los valores reales reales en una sola imputación. La negligencia de la incertidumbre en la imputación puede conducir y conducirá a resultados demasiado precisos y errores en las conclusiones extraídas. [17] Al imputar varias veces, la imputación múltiple da cuenta de la incertidumbre y el rango de valores que podría haber tomado el valor real. Como era de esperar, la combinación de la estimación de la incertidumbre y el aprendizaje profundo para la imputación se encuentra entre las mejores estrategias y se ha utilizado para modelar datos heterogéneos de descubrimiento de fármacos. [18] [19]

Además, si bien es cierto que la imputación única y el caso completo son más fáciles de implementar, la imputación múltiple no es muy difícil de implementar. Existe una amplia gama de diferentes paquetes estadísticos en diferentes programas estadísticos que permiten fácilmente que alguien realice una imputación múltiple. Por ejemplo, el paquete MICE permite a los usuarios de R realizar una imputación múltiple utilizando el método MICE. [20] MIDAS se puede implementar en R con el paquete rMIDAS y en Python con el paquete MIDASpy. [21]

Ver también [ editar ]

  • Bootstrapping (estadísticas)
  • Censura (estadísticas)
  • Geoimputación
  • Interpolación
  • Algoritmo de maximización de expectativas

Referencias [ editar ]

  1. Barnard, J .; Meng, XL (1 de marzo de 1999). "Aplicaciones de la imputación múltiple en estudios médicos: del SIDA al NHANES". Métodos estadísticos en la investigación médica . 8 (1): 17–36. doi : 10.1177 / 096228029900800103 . ISSN  0962-2802 . PMID  10347858 . S2CID  11453137 .
  2. ^ Gelman, Andrew y Jennifer Hill. Análisis de datos mediante regresión y modelos jerárquicos / multinivel. Cambridge University Press, 2006. Capítulo 25.
  3. ^ Lall, Ranjit (2016). "Cómo la imputación múltiple hace la diferencia" . Análisis político . 24 (4): 414–433. doi : 10.1093 / pan / mpw020 .
  4. Kenward, Michael G (26 de febrero de 2013). "El manejo de datos faltantes en ensayos clínicos" . Investigación clínica . 3 (3): 241–250. doi : 10.4155 / cli.13.7 . ISSN 2041-6792 . 
  5. ↑ a b Enders, CK (2010). Análisis de datos perdidos aplicado . Nueva York: Guilford Press. ISBN 978-1-60623-639-0.
  6. ^ Molnar, Frank J .; Hutton, Brian; Fergusson, Dean (7 de octubre de 2008). "¿El análisis que utiliza" la última observación llevada adelante "introduce sesgos en la investigación sobre la demencia?" . Revista de la Asociación Médica Canadiense . 179 (8): 751–753. doi : 10.1503 / cmaj.080820 . ISSN 0820-3946 . PMC 2553855 . PMID 18838445 .   
  7. ^ Kalton, Graham (1986). "El tratamiento de los datos faltantes de la encuesta". Metodología de la encuesta . 12 : 1-16.
  8. ^ Kalton, Graham; Kasprzyk, Daniel (1982). "Imputación de respuestas de encuesta faltantes" (PDF) . Actas de la sección sobre métodos de investigación de encuestas . Asociación Estadounidense de Estadística . 22 . S2CID 195855359 . Archivado desde el original (PDF) el 12 de febrero de 2020.  
  9. ^ Ren, Bin; Pueyo, Laurent; Chen, Christine; Choquet, Elodie; Debes, John H; Duchene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). "Utilización de la imputación de datos para la separación de señales en imágenes de alto contraste". El diario astrofísico . 892 (2): 74. arXiv : 2001.00563 . Código bibliográfico : 2020ApJ ... 892 ... 74R . doi : 10.3847 / 1538-4357 / ab7024 . S2CID 209531731 . 
  10. ^ Rubin, Donald (9 de junio de 1987). Imputación múltiple por falta de respuesta en encuestas . Serie de Wiley en Probabilidad y Estadística. Wiley. doi : 10.1002 / 9780470316696 . ISBN 9780471087052.
  11. ^ Lall, Ranjit (2016). "Cómo la imputación múltiple hace la diferencia" . Análisis político . 24 (4): 414–433. doi : 10.1093 / pan / mpw020 .
  12. ^ Yuan, Yang C. (2010). "Imputación múltiple de datos faltantes: conceptos y nuevos desarrollos" (PDF) . SAS Institute Inc., Rockville, MD . 49 : 1-11.
  13. Van Buuren, Stef (29 de marzo de 2012). "2. Imputación múltiple". Imputación flexible de datos faltantes . Serie de estadísticas interdisciplinarias de Chapman & Hall / CRC. 20125245 . Chapman y Hall / CRC. doi : 10.1201 / b11826 . ISBN 9781439868249.
  14. ^ Rey, Gary; Honaker, James; Joseph, Anne; Scheve, Kenneth (marzo de 2001). "Análisis de datos incompletos de ciencia política: un algoritmo alternativo para la imputación múltiple" . Revista Estadounidense de Ciencias Políticas . 95 (1): 49–69. doi : 10.1017 / S0003055401000235 . ISSN 1537-5943 . 
  15. Azur, Melissa J .; Stuart, Elizabeth A .; Frangakis, Constantine; Leaf, Philip J. (1 de marzo de 2011). "Imputación múltiple por ecuaciones encadenadas: ¿qué es y cómo funciona?" . Revista internacional de métodos de investigación psiquiátrica . 20 (1): 40–49. doi : 10.1002 / mpr.329 . ISSN 1557-0657 . PMC 3074241 . PMID 21499542 .   
  16. ^ Lall, Ranjit; Robinson, Thomas (2021). "El MIDAS Touch: Imputación de datos perdidos precisa y escalable con Deep Learning" . Análisis político . doi : 10.1017 / pan.2020.49 .
  17. Graham, John W. (1 de enero de 2009). "Análisis de datos faltantes: hacer que funcione en el mundo real". Revisión anual de psicología . 60 : 549–576. doi : 10.1146 / annurev.psych.58.110405.085530 . ISSN 0066-4308 . PMID 18652544 .  
  18. Irwin, Benedict (1 de junio de 2020). "Aplicaciones prácticas del aprendizaje profundo para imputar datos de descubrimiento de fármacos heterogéneos". Revista de información química y modelado . 60 (6): 2848-2857. doi : 10.1021 / acs.jcim.0c00443 . PMID 32478517 . 
  19. Whitehead, Thomas (12 de febrero de 2019). "Imputación de datos de ensayo de bioactividad mediante aprendizaje profundo". Revista de información química y modelado . 59 (3): 1197–1204. doi : 10.1021 / acs.jcim.8b00768 . PMID 30753070 . 
  20. ^ Horton, Nicholas J .; Kleinman, Ken P. (1 de febrero de 2007). "Mucho ruido y pocas nueces: una comparación de métodos de datos faltantes y software para adaptarse a modelos de regresión de datos incompletos" . El estadístico estadounidense . 61 (1): 79–90. doi : 10.1198 / 000313007X172556 . ISSN 0003-1305 . PMC 1839993 . PMID 17401454 .   
  21. ^ Lall, Ranjit; Robinson, Thomas (2021). "El MIDAS Touch: Imputación de datos perdidos precisa y escalable con Deep Learning" . Análisis político . doi : 10.1017 / pan.2020.49 .

Enlaces externos [ editar ]

  • Datos faltantes: Heffalumps a nivel de instrumento y Woozles a nivel de objeto
  • Multiple-imputation.com
  • Preguntas frecuentes sobre imputación múltiple, Penn State U
  • Una descripción de la imputación en caliente de Statistics Finland.
  • Documento que amplía el enfoque de Rao-Shao y discute problemas con imputación múltiple.
  • Algoritmo de inducción de reglas desordenadas difusas en papel utilizado como métodos de imputación de valores perdidos para la agrupación de K-Mean en datos cardiovasculares reales.
  • [1] Aplicación de la imputación en el mundo real por la Oficina de Estadísticas Nacionales del Reino Unido.