La extracción de datos es el acto o proceso de recuperar datos de fuentes de datos (generalmente no estructuradas o mal estructuradas) para su posterior procesamiento o almacenamiento de datos ( migración de datos ). Por lo tanto, la importación al sistema de extracción intermedio suele ir seguida de la transformación de datos y posiblemente la adición de metadatos antes de exportarlos a otra etapa del flujo de trabajo de datos .
Por lo general, el término extracción de datos se aplica cuando los datos ( experimentales ) se importan por primera vez a una computadora desde fuentes primarias, como dispositivos de medición o registro . Los dispositivos electrónicos actuales suelen presentar un conector eléctrico (por ejemplo, USB ) a través del cual se pueden transmitir " datos en bruto " a una computadora personal .
Fuentes de datos
Las fuentes de datos no estructuradas típicas incluyen páginas web , correos electrónicos , documentos, PDF , texto escaneado, informes de mainframe, archivos de cola, clasificados, etc., que se utilizan además para clientes potenciales de ventas o marketing. La extracción de datos de estas fuentes no estructuradas se ha convertido en un desafío técnico considerable en el que, como históricamente la extracción de datos ha tenido que lidiar con cambios en los formatos de hardware físico, la mayoría de la extracción de datos actual se ocupa de extraer datos de estas fuentes de datos no estructuradas y de diferentes formatos de software. . Este creciente proceso de extracción de datos [1] de la web se denomina "extracción de datos web" o " web scraping ".
Imponente estructura
El acto de agregar estructura a los datos no estructurados toma varias formas
- Usar la coincidencia de patrones de texto , como expresiones regulares, para identificar estructuras a pequeña o gran escala, por ejemplo, registros en un informe y sus datos asociados de encabezados y pies de página;
- Usar un enfoque basado en tablas para identificar secciones comunes dentro de un dominio limitado, por ejemplo, en currículums enviados por correo electrónico, identificación de habilidades, experiencia laboral previa, calificaciones, etc.utilizando un conjunto estándar de títulos de uso común (estos diferirían de un idioma a otro), por ejemplo, Educación podría se encuentra en Educación / Cualificación / Cursos;
- Usar análisis de texto para intentar comprender el texto y vincularlo a otra información