La preparación de datos es el acto de manipular (o preprocesar) datos en bruto (que pueden provenir de fuentes de datos dispares) en una forma que pueda analizarse de forma rápida y precisa, por ejemplo, para fines comerciales. [1]
La preparación de datos es el primer paso en los proyectos de análisis de datos y puede incluir muchas tareas discretas como cargar datos o ingerir datos , fusionarlos , limpiarlos , aumentarlos y entregarlos. [2]
Los temas a tratar se dividen en dos categorías principales:
- errores sistemáticos que involucran un gran número de registros de datos, probablemente porque provienen de diferentes fuentes;
- errores individuales que afectan a un pequeño número de registros de datos, probablemente debido a errores en la entrada de datos original.
Especificación de datos
El primer paso es establecer una especificación completa y detallada del formato de cada campo de datos y lo que significan las entradas. Esto debería tener muy en cuenta:
- lo más importante, la consulta con los usuarios de los datos
- cualquier especificación disponible del sistema que utilizará los datos para realizar el análisis
- una comprensión completa de la información disponible y cualquier laguna en los datos de origen.
Consulte también la especificación de definición de datos .
Ejemplo
Suponga que hay un campo alfabético de dos caracteres que indica la ubicación geográfica. Es posible que en una fuente de datos un código "EE" signifique "Europa" y en otra fuente de datos el mismo código signifique "Estonia". Se necesitaría diseñar un conjunto de códigos inequívocos y enmendar el código en un conjunto de registros en consecuencia.
Además, el "área geográfica" puede referirse a cualquiera de, por ejemplo, la dirección de entrega, la dirección de facturación, la dirección desde la que se suministran los bienes, la moneda de facturación o las reglamentaciones nacionales aplicables. Todos estos asuntos deben estar cubiertos en la especificación.
Podría haber algunos registros con "X" o "555" en ese campo. Claramente, estos son datos inválidos ya que no se ajustan a la especificación. Si solo hay un pequeño número de dichos registros, se corregirá manualmente o si la precisión no es importante, simplemente se eliminarán esos registros del archivo. Otra posibilidad sería crear una categoría "no conocida".
Otros ejemplos de datos no válidos que requieren corrección
- Los números de teléfono están en el formato correcto y tienen los valores correctos para el territorio indicado en el campo de ubicación geográfica. El código de país puede estar presente en algunos registros y no en otros: debe eliminarse o insertarse (según la ubicación geográfica) según la especificación de los datos. De manera similar, los formatos de fechas y unidades de medida (pesos, longitudes) pueden ser inconsistentes.
- En algunos casos, los datos que faltan deben ser suministrados a partir de fuentes externas (por ejemplo, la búsqueda de la postal / código postal de una dirección a través de una fuente de datos externa)
- Los datos deben ser consistentes entre registros de datos diferentes pero relacionados (por ejemplo, el mismo individuo puede tener diferentes fechas de nacimiento en diferentes registros o conjuntos de datos).
Siempre que sea posible y económico, los datos deben verificarse con una fuente autorizada (por ejemplo, la información comercial se hace referencia a una base de datos de D&B para garantizar la precisión). [3] [4]
Dada la variedad de fuentes de datos (por ejemplo , bases de datos , aplicaciones comerciales ) que proporcionan datos y formatos a los que pueden llegar los datos, la preparación de datos puede ser bastante complicada y compleja. Hay muchas herramientas y tecnologías [5] que se utilizan para la preparación de datos. El costo de limpiar los datos siempre debe equilibrarse con el valor de la precisión mejorada.
Preparación de datos de autoservicio
Las herramientas y tecnologías tradicionales, como los lenguajes de secuencias de comandos o ETL y las herramientas de calidad de datos, no están pensadas para usuarios comerciales. Por lo general, requieren habilidades de programación o de TI que la mayoría de los usuarios comerciales no tienen. [ cita requerida ]
Varias empresas, como Paxata, Trifacta, Alteryx, Talend y Ataccama proporcionan interfaces visuales que muestran los datos y permiten al usuario explorar, estructurar, limpiar, aumentar y actualizar directamente los datos de muestra proporcionados por el usuario.
Una vez que se completa el trabajo de preparación, los pasos subyacentes se pueden ejecutar en otros conjuntos de datos para realizar las mismas operaciones. Esta reutilización proporciona un aumento significativo de la productividad en comparación con los métodos manuales y de codificación manual más tradicionales para la preparación de datos.
Ver también
- Edición de datos , corrección de errores en un corpus de datos.
- Preprocesamiento de datos , un paso de limpieza de datos en la minería de datos con fines de análisis
- Minería de datos , encuentra patrones e información dentro de conjuntos de datos
- Transmisión de datos