Análisis exploratorio de datos


En estadística , el análisis exploratorio de datos es un enfoque de análisis de conjuntos de datos para resumir sus características principales, a menudo utilizando gráficos estadísticos y otros métodos de visualización de datos . Se puede usar o no un modelo estadístico , pero principalmente EDA es para ver lo que los datos pueden decirnos más allá del modelado formal o la tarea de prueba de hipótesis. John Tukey ha promovido el análisis exploratorio de datos desde 1970 para alentar a los estadísticos a explorar los datos y posiblemente formular hipótesis que podrían conducir a nuevos experimentos y recopilación de datos. EDA es diferente del análisis de datos inicial (IDA) , [1]que se enfoca más específicamente en verificar los supuestos requeridos para el ajuste del modelo y la prueba de hipótesis, y en el manejo de los valores faltantes y en la realización de transformaciones de variables según sea necesario. EDA abarca IDA.

Tukey definió el análisis de datos en 1961 como: "Procedimientos para analizar datos, técnicas para interpretar los resultados de dichos procedimientos, formas de planificar la recopilación de datos para hacer su análisis más fácil, más preciso o más exacto, y toda la maquinaria y resultados de ( matemáticas) estadísticas que se aplican al análisis de datos". [2]

La defensa de Tukey de EDA alentó el desarrollo de paquetes de computación estadística , especialmente S en Bell Labs . El lenguaje de programación S inspiró los sistemas S -PLUS y R. Esta familia de entornos de computación estadística presentó capacidades de visualización dinámica enormemente mejoradas, lo que permitió a los estadísticos identificar valores atípicos , tendencias y patrones en los datos que merecían un estudio más profundo.

El EDA de Tukey estaba relacionado con otros dos desarrollos en la teoría estadística : estadísticas robustas y estadísticas no paramétricas , las cuales intentaron reducir la sensibilidad de las inferencias estadísticas a los errores en la formulación de modelos estadísticos . Tukey promovió el uso del resumen de cinco números de datos numéricos: los dos extremos ( máximo y mínimo ), la mediana y los cuartiles , porque la mediana y los cuartiles, al ser funciones de la distribución empírica, están definidos para todas las distribuciones, a diferencia de la media y la media.desviación estándar ; además, los cuartiles y la mediana son más resistentes a las distribuciones sesgadas o de cola pesada que los resúmenes tradicionales (la media y la desviación estándar). Los paquetes S , S-PLUS y R incluían rutinas que usaban estadísticas de remuestreo , como el jackknife de Quenouille y Tukey y el bootstrap de Efron , que no son paramétricos y son robustos (para muchos problemas).

El análisis exploratorio de datos, las estadísticas robustas, las estadísticas no paramétricas y el desarrollo de lenguajes de programación estadísticos facilitaron el trabajo de los estadísticos en problemas científicos y de ingeniería. Tales problemas incluían la fabricación de semiconductores y la comprensión de las redes de comunicaciones, que preocupaban a Bell Labs. Estos desarrollos estadísticos, todos defendidos por Tukey, fueron diseñados para complementar la teoría analítica de probar hipótesis estadísticas , particularmente el énfasis de la tradición laplaciana en las familias exponenciales . [3]

John W. Tukey escribió el libro Exploratory Data Analysis en 1977. [4] Tukey sostuvo que se ponía demasiado énfasis en las estadísticas en las pruebas de hipótesis estadísticas (análisis de datos confirmatorios); se necesitaba poner más énfasis en el uso de datos para sugerir hipótesis para probar. En particular, sostuvo que confundir los dos tipos de análisis y emplearlos en el mismo conjunto de datos puede conducir a un sesgo sistemático debido a los problemas inherentes a la prueba de hipótesis sugeridas por los datos .


Diagrama de flujo del proceso de ciencia de datos