Limpieza de datos

La limpieza de datos o limpieza de datos es el proceso de detectar y corregir (o eliminar) registros corruptos o inexactos de un conjunto de registros, tabla o base de datos y se refiere a identificar partes incompletas, incorrectas, inexactas o irrelevantes de los datos y luego reemplazar, modificar, o borrar los datos sucios o burdos. ^[1] La limpieza de datos se puede realizar de forma interactiva con herramientas de gestión de datos o como procesamiento por lotes a través de secuencias de comandos . ^[2]

Después de la limpieza, un conjunto de datos debe ser coherente con otros conjuntos de datos similares en el sistema. Las inconsistencias detectadas o eliminadas pueden haber sido causadas originalmente por errores de entrada del usuario, por corrupción en la transmisión o el almacenamiento, o por diferentes definiciones de diccionario de datos de entidades similares en diferentes tiendas. La limpieza de datos difiere de la validación de datos en que la validación significa casi invariablemente que los datos se rechazan del sistema en el momento de la entrada y se realizan en el momento de la entrada, en lugar de en lotes de datos.

El proceso real de limpieza de datos puede implicar la eliminación de errores tipográficos o la validación y corrección de valores frente a una lista conocida de entidades. La validación puede ser estricto (tal como el rechazo de cualquier dirección que no tiene un válido código postal ), o con fuzzy o la coincidencia de cadenas aproximada (como los registros de corrección que coincidan parcialmente, los registros existentes conocidos). Algunas soluciones de limpieza de datos limpiarán los datos mediante la verificación cruzada con un conjunto de datos validados. Una práctica común de limpieza de datos es la mejora de datos, donde los datos se completan agregando información relacionada. Por ejemplo, agregar direcciones con cualquier número de teléfono relacionado con esa dirección. La limpieza de datos también puede implicar la armonización(o normalización) de datos, que es el proceso de reunir datos de "diferentes formatos de archivo, convenciones de nomenclatura y columnas", ^[3] y transformarlos en un conjunto de datos cohesivo; un ejemplo simple es la expansión de abreviaturas ("st, rd, etc." a "street, road, etcétera").

Los datos incoherentes e incorrectos desde el punto de vista administrativo pueden llevar a conclusiones falsas e inversiones mal dirigidas tanto a escala pública como privada. Por ejemplo, el gobierno puede querer analizar las cifras del censo de población para decidir qué regiones requieren más gasto e inversión en infraestructura y servicios. En este caso, será importante tener acceso a datos confiables para evitar decisiones fiscales erróneas. En el mundo empresarial, los datos incorrectos pueden resultar costosos. Muchas empresas utilizan bases de datos de información de clientes que registran datos como información de contacto, direcciones y preferencias. Por ejemplo, si las direcciones son inconsistentes, la empresa sufrirá el costo de reenviar correo o incluso perder clientes.

El término integridad abarca precisión, consistencia y algunos aspectos de la validación (ver también integridad de datos ) pero rara vez se usa por sí solo en contextos de limpieza de datos porque no es lo suficientemente específico. (Por ejemplo, " integridad referencial " es un término que se utiliza para referirse a la aplicación de las restricciones de clave externa anteriores).

Los datos de origen de buena calidad tienen que ver con la “cultura de la calidad de los datos” y deben iniciarse en la parte superior de la organización. No se trata solo de implementar comprobaciones de validación sólidas en las pantallas de entrada, porque casi sin importar cuán sólidas sean estas comprobaciones, los usuarios aún pueden eludirlas. Hay una guía de nueve pasos para las organizaciones que desean mejorar la calidad de los datos: ^[4]^[5]