De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

En estadística , los datos perdidos o los valores perdidos ocurren cuando no se almacena ningún valor de datos para la variable en una observación . Los datos que faltan son una ocurrencia común y pueden tener un efecto significativo en las conclusiones que se pueden extraer de los datos.

Los datos faltantes pueden ocurrir debido a la falta de respuesta: no se proporciona información para uno o más elementos o para una unidad completa ("tema"). Es más probable que algunos elementos generen una falta de respuesta que otros: por ejemplo, elementos sobre temas privados como los ingresos. La deserción es un tipo de falta que puede ocurrir en estudios longitudinales, por ejemplo, estudiar el desarrollo en el que una medición se repite después de un cierto período de tiempo. La falta de información ocurre cuando los participantes abandonan antes de que finalice la prueba y faltan una o más mediciones.

Los datos a menudo faltan en la investigación en economía , sociología y ciencias políticas porque los gobiernos o las entidades privadas eligen no informar, o no reportan estadísticas críticas, [1] o porque la información no está disponible. A veces, los valores perdidos son causados ​​por el investigador, por ejemplo, cuando la recopilación de datos se realiza de manera incorrecta o se cometen errores en la entrada de datos. [2]

Estas formas de faltas toman diferentes tipos, con diferentes impactos en la validez de las conclusiones de la investigación: faltan completamente al azar, faltan al azar y faltan no al azar. Los datos que faltan se pueden manejar de manera similar a los datos censurados .

Tipos [ editar ]

Comprender las razones por las que faltan datos es importante para manejar correctamente los datos restantes. Si faltan valores completamente al azar, es probable que la muestra de datos aún sea representativa de la población. Pero si los valores faltan sistemáticamente, el análisis puede estar sesgado. Por ejemplo, en un estudio de la relación entre el coeficiente intelectual y los ingresos, si los participantes con un coeficiente intelectual superior al promedio tienden a saltarse la pregunta '¿Cuál es su salario?', Análisis que no tienen en cuenta esta falta al azar (patrón MAR ( ver más abajo)) pueden fallar falsamente en encontrar una asociación positiva entre el coeficiente intelectual y el salario. Debido a estos problemas, los metodólogos aconsejan habitualmente a los investigadores que diseñen estudios para minimizar la aparición de valores perdidos. [2] Se pueden utilizar modelos gráficos para describir en detalle el mecanismo de datos faltantes.[3] [4]

El gráfico muestra las distribuciones de probabilidad de las estimaciones de la intensidad esperada de depresión en la población. El número de casos es 60. Sea la población verdadera una distribución normal estandarizada y la probabilidad de no respuesta sea una función logística de la intensidad de la depresión. La conclusión es: cuantos más datos faltan (MNAR), más sesgadas son las estimaciones. Subestimamos la intensidad de la depresión en la población.

Desaparecido completamente al azar [ editar ]

Los valores en un conjunto de datos faltan completamente al azar (MCAR) si los eventos que conducen a que falte algún elemento de datos en particular son independientes tanto de las variables observables como de los parámetros de interés no observables, y ocurren completamente al azar. [5] Cuando los datos son MCAR, el análisis realizado sobre los datos es imparcial; sin embargo, los datos rara vez son MCAR.

En el caso de MCAR, la falta de datos no está relacionada con ninguna variable de estudio: por lo tanto, los participantes con datos completamente observados son, en efecto, una muestra aleatoria de todos los participantes a los que se les asignó una intervención en particular. Con MCAR, se asume que se preserva la asignación aleatoria de tratamientos, pero en la práctica, esa es una suposición poco realista y fuerte. [6]

Desaparecido al azar [ editar ]

La falta al azar (MAR) ocurre cuando la falta no es aleatoria, pero cuando la falta se puede explicar completamente por variables donde hay información completa. [7] Dado que MAR es una suposición que es imposible de verificar estadísticamente, debemos confiar en su razonabilidad sustantiva. [8] Un ejemplo es que los hombres tienen menos probabilidades de completar una encuesta de depresión, pero esto no tiene nada que ver con su nivel de depresión, después de tener en cuenta la masculinidad. Dependiendo del método de análisis, estos datos aún pueden inducir un sesgo de parámetros en los análisis debido al vacío contingente de las células (el hombre, la depresión muy alta puede tener cero entradas). Sin embargo, si el parámetro se estima con máxima probabilidad de información completa, MAR proporcionará estimaciones asintóticamente insesgadas. [cita requerida ]

Falta no al azar [ editar ]

Missing not at random (MNAR) (también conocido como no respuesta no ignorable) son datos que no son MAR ni MCAR (es decir, el valor de la variable que falta está relacionado con la razón por la que falta). [5] Para ampliar el ejemplo anterior, esto ocurriría si los hombres no completaran una encuesta de depresión debido a su nivel de depresión.

Técnicas para lidiar con los datos faltantes [ editar ]

Los datos faltantes reducen la representatividad de la muestra y, por lo tanto, pueden distorsionar las inferencias sobre la población. En términos generales, existen tres enfoques principales para manejar los datos faltantes: (1) Imputación —donde los valores se llenan en lugar de los datos faltantes, (2) omisión —donde las muestras con datos no válidos se descartan de análisis posteriores y (3) análisis - aplicando directamente métodos que no se vean afectados por los valores perdidos. Una revisión sistemática que aborda la prevención y el manejo de los datos faltantes para la investigación de resultados centrados en el paciente identificó diez estándares como necesarios para la prevención y el manejo de los datos faltantes. Estos incluyen estándares para el diseño del estudio, la realización del estudio, el análisis y la presentación de informes. [9]

En alguna aplicación práctica, los experimentadores pueden controlar el nivel de falta y evitar valores faltantes antes de recopilar los datos. Por ejemplo, en los cuestionarios informáticos, a menudo no es posible omitir una pregunta. Una pregunta tiene que ser respondida, de lo contrario no se puede continuar con la siguiente. Por lo tanto, este tipo de cuestionario elimina los valores perdidos debidos al participante, aunque es posible que este método no esté permitido por una junta de ética que supervisa la investigación. En la investigación de encuestas, es común hacer múltiples esfuerzos para contactar a cada individuo en la muestra, a menudo enviando cartas para intentar persuadir a aquellos que han decidido no participar para que cambien de opinión. [10] : 161–187Sin embargo, tales técnicas pueden ayudar o perjudicar en términos de reducir los efectos inferenciales negativos de los datos faltantes, porque el tipo de personas que están dispuestas a ser persuadidas para participar después de negarse inicialmente o no estar en casa probablemente sea significativamente diferente del tipo de personas que aún se negarán o permanecerán inalcanzables después de un esfuerzo adicional. [10] : 188–198

En situaciones en las que es probable que se produzcan valores perdidos, a menudo se aconseja al investigador que planifique el uso de métodos de análisis de datos que sean robustos a la falta. Un análisis es sólido cuando confiamos en que las violaciones leves a moderadas de los supuestos clave de la técnica producirán poco o ningún sesgo o distorsión en las conclusiones extraídas sobre la población.

Imputación [ editar ]

Algunas técnicas de análisis de datos no son resistentes a la falta y requieren "completar" o imputar los datos faltantes. Rubin (1987) argumentó que repetir la imputación incluso unas pocas veces (5 o menos) mejora enormemente la calidad de la estimación. [2] Para muchos propósitos prácticos, 2 o 3 imputaciones capturan la mayor parte de la eficiencia relativa que podría capturarse con un mayor número de imputaciones. Sin embargo, un número demasiado pequeño de imputaciones puede conducir a una pérdida sustancial de poder estadístico , y algunos académicos recomiendan ahora de 20 a 100 o más. [11] Cualquier análisis de datos de imputación múltiple debe repetirse para cada uno de los conjuntos de datos imputados y, en algunos casos, las estadísticas relevantes deben combinarse de una manera relativamente complicada. [2]

El algoritmo de maximización de expectativas es un enfoque en el que se estiman (imputan) los valores de las estadísticas que se calcularían si estuviera disponible un conjunto de datos completo, teniendo en cuenta el patrón de datos faltantes. En este enfoque, los valores de los elementos de datos individuales que faltan no suelen imputarse.

Interpolación (ejemplo: interpolación bilineal) [ editar ]

En el campo matemático del análisis numérico, la interpolación es un método para construir nuevos puntos de datos dentro del rango de un conjunto discreto de puntos de datos conocidos.

En la comparación de dos muestras emparejadas con datos faltantes, una estadística de prueba que utiliza todos los datos disponibles sin la necesidad de imputación es la prueba t de muestras parcialmente superpuestas. [12] Esto es válido en condiciones normales y asumiendo MCAR.

Eliminación parcial [ editar ]

Los métodos que implican reducir los datos disponibles a un conjunto de datos que no tiene valores perdidos incluyen:

  • Eliminación por lista / eliminación por mayúsculas y minúsculas
  • Eliminación por pares

Análisis completo [ editar ]

Métodos que tienen plenamente en cuenta toda la información disponible, sin la distorsión resultante de utilizar valores imputados como si fueran realmente observados:

  • Enfoques generativos:
    • El algoritmo de maximización de expectativas
    • estimación de máxima verosimilitud de información completa
  • Enfoques discriminatorios:
    • Clasificación de margen máximo de datos con características ausentes [13] [14]

También se pueden utilizar métodos de identificación parcial . [15]

Técnicas basadas en modelos [ editar ]

Las técnicas basadas en modelos, que a menudo utilizan gráficos, ofrecen herramientas adicionales para probar tipos de datos faltantes (MCAR, MAR, MNAR) y para estimar parámetros en condiciones de datos faltantes. Por ejemplo, una prueba para refutar MAR / MCAR dice lo siguiente:

Para cualquier tres variables X, Y , y Z , donde Z se observa plenamente y X y Y observó parcialmente, los datos deben satisfacer: .

En palabras, la porción observada de X debe ser independiente sobre el estado de missingness Y, condicional en cada valor de Z . El incumplimiento de esta condición indica que el problema pertenece a la categoría MNAR. [dieciséis]

(Observación: estas pruebas son necesarias para la MAR basada en variables, que es una ligera variación de la MAR basada en eventos. [17] [18] [19] )

Cuando los datos entran en la categoría de MNAR, se encuentran disponibles técnicas para estimar parámetros de manera consistente cuando se cumplen ciertas condiciones en el modelo. [3] Por ejemplo, si Y explica la razón de la falta de X y la propia Y tiene valores faltantes, la distribución de probabilidad conjunta de X e Y aún se puede estimar si la falta de Y es aleatoria. El estimado en este caso será:

donde y denotan las porciones observadas de sus respectivas variables.

Diferentes estructuras de modelos pueden producir diferentes estimaciones y diferentes procedimientos de estimación siempre que sea posible una estimación consistente. Las llamadas estimand anteriores para la primera estimación a partir de datos completos y multiplicándolo por estimarse a partir de los casos en los que Y se observa independientemente de la situación de X . Además, para obtener una estimación coherente, es fundamental que el primer término sea opuesto a .

En muchos casos, las técnicas basadas en modelos permiten que la estructura del modelo se someta a pruebas de refutación. [19] Cualquier modelo que implica la independencia entre una variable parcialmente observado X y el indicador missingness de otra variable Y (es decir ), en condicional puede ser sometido a la siguiente prueba de refutación: .

Finalmente, los estimados que surgen de estas técnicas se derivan en forma cerrada y no requieren procedimientos iterativos como la Maximización de Expectativas que son susceptibles de óptimos locales. [20]

Aparece una clase especial de problemas cuando la probabilidad de que falten depende del tiempo. Por ejemplo, en las bases de datos de trauma, la probabilidad de perder datos sobre el resultado del trauma depende del día posterior al trauma. En estos casos se aplican varios modelos de cadenas de Markov no estacionarias .[21]

Ver también [ editar ]

  • Censura (estadísticas)
  • Algoritmo de maximización de expectativas
  • Variable indicadora
  • Ponderación de probabilidad inversa
  • Variable latente
  • Completar la matriz

Referencias [ editar ]

  1. ^ Messner SF (1992). "Explorando las consecuencias de la presentación de informes de datos erráticos para la investigación transnacional sobre homicidio". Revista de Criminología Cuantitativa . 8 (2): 155-173. doi : 10.1007 / bf01066742 . S2CID  133325281 .
  2. ^ a b c d Mano, David J .; Adèr, Herman J .; Mellenbergh, Gideon J. (2008). Asesoramiento sobre métodos de investigación: el compañero de un consultor . Huizen, Países Bajos: Johannes van Kessel. págs. 305–332. ISBN 978-90-79418-01-5.
  3. ^ a b Mohan, Karthika; Pearl, Judea; Tian, ​​Jin (2013). Avances en los sistemas de procesamiento de información neuronal 26 . págs. 1277–1285.
  4. ^ Karvanen, Juha (2015). "Diseño de estudios en modelos causales" . Revista Escandinava de Estadística . 42 (2): 361–377. arXiv : 1211.2958 . doi : 10.1111 / sjos.12110 . S2CID 53642701 . 
  5. ↑ a b Polit DF Beck CT (2012). Investigación en enfermería: generación y evaluación de evidencia para la práctica de enfermería, 9ª ed . Filadelfia, Estados Unidos: Wolters Klower Health, Lippincott Williams & Wilkins.
  6. Deng (5 de octubre de 2012). "Sobre bioestadística y ensayos clínicos" . Archivado desde el original el 15 de marzo de 2016 . Consultado el 13 de mayo de 2016 .
  7. ^ "Copia archivada" . Archivado desde el original el 10 de septiembre de 2015 . Consultado el 1 de agosto de 2015 .Mantenimiento de CS1: copia archivada como título ( enlace )
  8. ^ Pequeño, Roderick JA; Rubin, Donald B. (2002), Análisis estadístico con datos faltantes (2a ed.), Wiley.
  9. ^ Li, Tianjing; Hutfless, Susan; Scharfstein, Daniel O .; Daniels, Michael J .; Hogan, Joseph W .; Little, Roderick JA; Roy, Jason A .; Law, Andrew H .; Dickersin, Kay (2014). "Los estándares deben aplicarse en la prevención y manejo de datos faltantes para la investigación de resultados centrada en el paciente: una revisión sistemática y consenso de expertos" . Revista de epidemiología clínica . 67 (1): 15–32. doi : 10.1016 / j.jclinepi.2013.08.013 . PMC 4631258 . PMID 24262770 .  
  10. ^ a b Agacharse, I .; Billiet, J .; Koch, A .; Fitzgerald, R. (2010). Reducción de la falta de respuesta a la encuesta: lecciones aprendidas de la encuesta social europea . Oxford: Wiley-Blackwell. ISBN 978-0-470-51669-0.
  11. ^ Graham JW; Olchowski AE; Gilreath TD (2007). "¿Cuántas imputaciones se necesitan realmente? Algunas aclaraciones prácticas de la teoría de la imputación múltiple" . Ciencia preventiva . 8 (3): 208–213. CiteSeerX 10.1.1.595.7125 . doi : 10.1007 / s11121-007-0070-9 . PMID 17549635 . S2CID 24566076 .   
  12. ^ Derrick, B; Russ, B; Al rebaño; Blanco, P (2017). "Estadística de prueba para la comparación de medias para dos muestras que incluyen observaciones tanto pareadas como independientes" . Revista de métodos estadísticos aplicados modernos . 16 (1): 137-157. doi : 10.22237 / jmasm / 1493597280 .
  13. ^ Chechik, Gal; Heitz, Geremy; Elidan, Gal; Abbeel, Pieter ; Koller, Daphne (1 de junio de 2008). "Clasificación de margen máximo de datos incompletos" (PDF) . Sistemas de procesamiento de información neuronal : 233–240.
  14. ^ Chechik, Gal; Heitz, Geremy; Elidan, Gal; Abbeel, Pieter ; Koller, Daphne (1 de junio de 2008). "Clasificación de margen máximo de datos con características ausentes" . The Journal of Machine Learning Research . 9 : 1–21. ISSN 1532-4435 . 
  15. ^ Tamer, Elie (2010). "Identificación parcial en econometría" . Revisión anual de economía . 2 (1): 167-195. doi : 10.1146 / annurev.economics.050708.143401 .
  16. ^ Mohan, Karthika; Pearl, Judea (2014). "Sobre la probabilidad de modelos con datos faltantes". Actas de AISTAT-2014, de próxima publicación .
  17. ^ Darwiche, Adnan (2009). Modelado y razonamiento con redes bayesianas . Prensa de la Universidad de Cambridge.
  18. ^ Potthoff, RF; Tudor, GE; Pieper, KS; Hasselblad, V. (2006). "¿Se puede evaluar si los datos faltantes faltan al azar en los estudios médicos?" . Métodos estadísticos en la investigación médica . 15 (3): 213–234. doi : 10.1191 / 0962280206sm448oa . PMID 16768297 . S2CID 12882831 .  
  19. ^ a b Perla, Judea; Mohan, Karthika (2013). Recuperabilidad y probabilidad de los datos faltantes: Introducción y resumen de resultados (PDF) (Informe técnico). Departamento de Ciencias de la Computación de UCLA, R-417.
  20. ^ Mohan, K .; Van den Broeck, G .; Choi, A .; Pearl, J. (2014). "Un método eficiente para el aprendizaje de parámetros de red bayesiana a partir de datos incompletos". Presentado en el Taller de Modelado Causal y Aprendizaje Automático, ICML-2014 .
  21. ^ Mirkes, EM; Abrigos, TJ; Levesley, J .; Gorban, AN (2016). "Manejo de datos faltantes en un gran conjunto de datos de atención médica: un estudio de caso de resultados de trauma desconocidos" . Informática en Biología y Medicina . 75 : 203–216. arXiv : 1604.00627 . Código bibliográfico : 2016arXiv160400627M . doi : 10.1016 / j.compbiomed.2016.06.004 . PMID 27318570 . S2CID 5874067 . Archivado desde el original el 5 de agosto de 2016.  

Lectura adicional [ editar ]

  • Acock AC (2005), "Working with missing values" , Journal of Marriage and Family , 67 (4): 1012-28, doi : 10.1111 / j.1741-3737.2005.00191.x , archivado desde el original en 2013-01 -05
  • Allison, Paul D. (2001), Datos faltantes , SAGE Publishing
  • Bouza-Herrera, Carlos N. (2013), Manejo de datos faltantes en muestreo de conjuntos clasificados , Springer
  • Enders, Craig K. (2010), Análisis de datos perdidos aplicado , Guilford Press
  • Graham, John W. (2012), Datos faltantes , Springer
  • Molenberghs, Geert; Fitzmaurice, Garrett; Kenward, Michael G .; Tsiatis, Anastasios; Verbeke, Geert, eds. (2015), Manual de metodología de datos faltantes , Chapman & Hall
  • Raghunathan, Trivellore (2016), Análisis de datos faltantes en la práctica , Chapman & Hall
  • Little, Roderick JA; Rubin, Donald B. (2002), Análisis estadístico con datos faltantes (2a ed.), Wiley
  • Tsiatis, Anastasios A. (2006), Teoría semiparamétrica y datos faltantes , Springer
  • Van den Broeck J, Cunningham SA, Eeckels R, Herbst K (2005), "Limpieza de datos: detección, diagnóstico y edición de anomalías en los datos", PLOS Medicine , 2 (10): e267, doi : 10.1371 / journal.pmed.0020267 , PMC  1198040 , PMID  16138788 , S2CID  5667073
  • Zarate LE, Nogueira BM, Santos TR, Song MA (2006). "Técnicas para la recuperación de valores perdidos en bases de datos desequilibradas: aplicación en una base de datos de marketing con datos perdidos masivos". Conferencia Internacional IEEE sobre Sistemas, Hombre y Cibernética, 2006. SMC '06 . 3 . págs. 2658–2664. doi : 10.1109 / ICSMC.2006.385265 .

Enlaces externos [ editar ]

Antecedentes [ editar ]

  • Valores perdidos-envision
  • psychwiki.com: Missing Values , Identifying Missing Values y Dealing with Missing Values
  • missingdata.org.uk , Departamento de Estadísticas Médicas, Escuela de Higiene y Medicina Tropical de Londres
  • Análisis de tendencias espaciales y temporales de registros de precipitaciones a largo plazo en cuencas de captación de datos escasos con datos faltantes, un estudio de caso de la llanura aluvial de Lower Shire en Malawi para el período 1953-2010. https://www.hydrol-earth-syst-sci-discuss.net/hess-2017-601/hess-2017-601.pdf
  • R-miss-tastic , una plataforma unificada para métodos y flujos de trabajo de valores perdidos.

Software [ editar ]

  • Mplus
  • PROC MI y PROC MIANALYZE - SAS
  • SPSS