disputa de datos

La disputa de datos , a veces denominada manipulación de datos , es el proceso de transformar y mapear datos de un formulario de datos " sin procesar " a otro formato con la intención de hacerlo más apropiado y valioso para una variedad de propósitos posteriores, como el análisis. El objetivo de la disputa de datos es garantizar la calidad y la utilidad de los datos. Los analistas de datos suelen pasar la mayor parte de su tiempo en el proceso de disputa de datos en comparación con el análisis real de los datos.

El proceso de disputa de datos puede incluir más manipulación , visualización de datos, agregación de datos, entrenamiento de un modelo estadístico , así como muchos otros usos potenciales. La disputa de datos normalmente sigue un conjunto de pasos generales que comienzan con la extracción de los datos sin procesar de la fuente de datos, "removiendo" los datos sin procesar (por ejemplo, clasificación) o analizando los datos en estructuras de datos predefinidas y, finalmente, depositando el contenido resultante en un sumidero de datos para almacenamiento y uso futuro. ^[1]

A menudo se dice que el término no técnico "wrangler" se deriva del trabajo realizado por el Programa Nacional de Preservación e Infraestructura de Información Digital de la Biblioteca del Congreso de los Estados Unidos (NDIIPP) y su socio del programa, la Asociación MetaArchive con sede en las Bibliotecas de la Universidad de Emory . El término "mung" tiene sus raíces en munging como se describe en el archivo de jerga . ^[2] El término "controlador de datos" también se sugirió como la mejor analogía para describir a alguien que trabaja con datos. ^[3]

Una de las primeras menciones de la disputa de datos en un contexto científico fue de Donald Cline durante el Experimento de Procesos de Tierras Frías de la NASA/NOAA. ^[4] Cline declaró que los organizadores de datos "coordinan la adquisición de toda la colección de datos del experimento". Cline también especifica las funciones que normalmente realiza un administrador de almacenamiento para trabajar con grandes cantidades de datos . Esto puede ocurrir en áreas como grandes proyectos de investigación y la realización de películas con una gran cantidad de imágenes complejas generadas por computadora . En la investigación, esto implica tanto la transferencia de datosdesde el instrumento de investigación hasta la red de almacenamiento o la instalación de almacenamiento, así como la manipulación de datos para volver a analizarlos a través de instrumentos informáticos de alto rendimiento o el acceso a través de bibliotecas digitales basadas en ciberinfraestructuras .

Con la llegada de la inteligencia artificial en la ciencia de datos, se ha vuelto cada vez más importante que la automatización de la disputa de datos tenga controles y equilibrios muy estrictos, razón por la cual el proceso de manipulación de datos no ha sido automatizado por el aprendizaje automático . La manipulación de datos requiere más que una solución automatizada, requiere el conocimiento de qué información debe eliminarse y la inteligencia artificial no está en el punto de comprender tales cosas. ^[5]

La disputa de datos es un superconjunto de la minería de datos y requiere procesos que algunos utilizan, pero no siempre. El proceso de minería de datos es encontrar patrones dentro de grandes conjuntos de datos, donde la disputa de datos transforma los datos para brindar información sobre esos datos. Aunque la disputa de datos es un superconjunto de la minería de datos no significa que la minería de datos no la use, hay muchos casos de uso para la disputa de datos en la minería de datos. La disputa de datos puede beneficiar la extracción de datos al eliminar datos que no benefician al conjunto general o que no tienen el formato adecuado, lo que producirá mejores resultados para el proceso general de extracción de datos.

Convertir datos desordenados en estadísticas útiles