raspado de datos


El raspado de datos es una técnica en la que un programa de computadora extrae datos de una salida legible por humanos proveniente de otro programa.

Normalmente, la transferencia de datos entre programas se logra utilizando estructuras de datos adecuadas para el procesamiento automatizado por parte de computadoras , no de personas. Dichos formatos y protocolos de intercambio suelen estar rígidamente estructurados, bien documentados, fáciles de analizar y minimizan la ambigüedad. Muy a menudo, estas transmisiones no son legibles por humanos en absoluto.

Por lo tanto, el elemento clave que distingue el raspado de datos del análisis regular es que la salida que se extrae está destinada a mostrarse a un usuario final , en lugar de ser una entrada para otro programa. Por lo tanto, generalmente no está documentado ni estructurado para un análisis conveniente. El raspado de datos a menudo implica ignorar datos binarios (generalmente imágenes o datos multimedia), formato de pantalla , etiquetas redundantes, comentarios superfluos y otra información que es irrelevante o dificulta el procesamiento automatizado.

El raspado de datos se realiza con mayor frecuencia para interactuar con un sistema heredado , que no tiene otro mecanismo que sea compatible con el hardware actual , o para interactuar con un sistema de terceros que no proporciona una API más conveniente . En el segundo caso, el operador del sistema de terceros a menudo considerará que el raspado de pantalla no es deseado, debido a razones como el aumento de la carga del sistema , la pérdida de ingresos publicitarios o la pérdida de control del contenido de la información.

El raspado de datos generalmente se considera una técnica ad hoc y poco elegante, que a menudo se usa solo como "último recurso" cuando no hay otro mecanismo disponible para el intercambio de datos. Aparte de la mayor sobrecarga de programación y procesamiento, las pantallas de salida destinadas al consumo humano a menudo cambian de estructura con frecuencia. Los humanos pueden hacer frente a esto fácilmente, pero un programa de computadora fallará. Dependiendo de la calidad y el alcance de la lógica de manejo de errores presente en la computadora, esta falla puede generar mensajes de error, resultados dañados o incluso bloqueos del programa .

Aunque el uso de " terminales tontas " físicas IBM 3270 está disminuyendo lentamente, a medida que más y más aplicaciones de mainframe adquieren interfaces web , algunas aplicaciones web simplemente continúan usando la técnica de raspado de pantalla para capturar pantallas antiguas y transferir los datos a los front-end modernos. . [1]


Un fragmento de pantalla y una interfaz de raspado de pantalla (cuadro azul con flecha roja) para personalizar el proceso de captura de datos.