La exploración de datos es un enfoque similar al análisis de datos inicial , en el que un analista de datos utiliza la exploración visual para comprender qué hay en un conjunto de datos y las características de los datos, en lugar de a través de los sistemas tradicionales de gestión de datos. [1] Estas características pueden incluir tamaño o cantidad de datos, integridad de los datos, exactitud de los datos, posibles relaciones entre elementos de datos o archivos / tablas en los datos.
La exploración de datos se realiza normalmente mediante una combinación de actividades manuales y automatizadas. [1] [2] [3] Las actividades automatizadas pueden incluir elaboración de perfiles de datos o visualización de datos o informes tabulares para brindar al analista una vista inicial de los datos y una comprensión de las características clave. [1]
A menudo, esto va seguido de un desglose manual o un filtrado de los datos para identificar anomalías o patrones identificados mediante las acciones automatizadas. La exploración de datos también puede requerir secuencias de comandos manuales y consultas en los datos (por ejemplo, usando lenguajes como SQL o R ) o usando hojas de cálculo o herramientas similares para ver los datos sin procesar . [4]
Todas estas actividades tienen como objetivo crear un modelo mental y la comprensión de los datos en la mente del analista, y definir metadatos básicos (estadísticas, estructura, relaciones) para el conjunto de datos que se pueden utilizar en análisis posteriores. [1]
Una vez que se tiene esta comprensión inicial de los datos, los datos se pueden podar o refinar eliminando partes inutilizables de los datos ( limpieza de datos ), corrigiendo elementos con formato deficiente y definiendo relaciones relevantes entre conjuntos de datos. [2] Este proceso también se conoce como determinación de la calidad de los datos . [4]
La exploración de datos también puede referirse a la consulta y visualización ad hoc de datos para identificar posibles relaciones o conocimientos que pueden estar ocultos en los datos. [1]
Tradicionalmente, esta ha sido un área clave de enfoque para los estadísticos, con John Tukey como un evangelista clave en el campo. [5] Hoy en día, la exploración de datos está más extendida y es el foco de los analistas y científicos de datos ; siendo este último un papel relativamente nuevo dentro de las empresas y organizaciones más grandes.
Exploración de datos interactiva
Esta área de exploración de datos se ha convertido en un área de interés en el campo del aprendizaje automático . Este es un campo relativamente nuevo y aún está en evolución. [4] Como su nivel más básico, un algoritmo de aprendizaje automático se puede alimentar con un conjunto de datos y se puede utilizar para identificar si una hipótesis es cierta en función del conjunto de datos. Los algoritmos comunes de aprendizaje automático pueden enfocarse en identificar patrones específicos en los datos. [2] Muchos patrones comunes incluyen regresión y clasificación o agrupamiento , pero hay muchos patrones y algoritmos posibles que se pueden aplicar a los datos a través del aprendizaje automático.
Al emplear el aprendizaje automático, es posible encontrar patrones o relaciones en los datos que serían difíciles o imposibles de encontrar mediante inspección manual, ensayo y error o técnicas de exploración tradicionales. [6]
Software
- Trifacta : una plataforma de preparación y análisis de datos
- Paxata - software de preparación de datos de autoservicio
- Alteryx : software de análisis de datos avanzado y combinación de datos
- Microsoft Power BI : herramienta interactiva de visualización y análisis de datos
- OpenRefine : una aplicación de escritorio de código abierto independiente para la limpieza y transformación de datos
- Software Tableau: software interactivo de visualización de datos
Ver también
Referencias
- ^ a b c d e FOMENTAR la ciencia abierta , descripción general de las técnicas de exploración de datos: Stratos Idreos, Olga Papaemmonouil, Surajit Chaudhuri.
- ^ a b c Stanford.edu , 2011 Wrangler: Especificación visual interactiva de secuencias de comandos de transformación de datos, Kandel, Paepcke, Hellerstein Heer.
- ^ Arnab Nandi; HV Jagadish. Interacción guiada: repensar el paradigma de la consulta y el resultado (PDF) . Conferencia internacional sobre bases de datos muy grandes (VLDB) 2011.
- ^ a b c Stanford.edu , IEEE Visual Analytics Science & Technology (VAST), octubre de 2012 Visualización y análisis de datos empresariales: un estudio de entrevista., Sean Kandel, Andreas Paepcke, Joseph Hellerstein, Jeffrey Heer Proc.
- ^ Análisis de datos exploratorios , Pearson. ISBN 978-0201076165
- ^ Aprendizaje automático para la exploración de datos