Raspado de datos


El raspado de datos es una técnica en la que un programa de computadora extrae datos de la salida legible por humanos que proviene de otro programa.

Normalmente, la transferencia de datos entre programas se logra utilizando estructuras de datos adecuadas para el procesamiento automatizado por computadoras , no personas. Dichos formatos y protocolos de intercambio suelen estar estructurados de manera rígida, bien documentados, fáciles de analizar y minimizar la ambigüedad. Muy a menudo, estas transmisiones no son en absoluto legibles por humanos.

Por lo tanto, el elemento clave que distingue el raspado de datos del análisis sintáctico regular es que la salida que se raspa está destinada a mostrarse a un usuario final , en lugar de como una entrada a otro programa. Por lo tanto, generalmente no está documentado ni estructurado para un análisis conveniente. El raspado de datos a menudo implica ignorar datos binarios (generalmente imágenes o datos multimedia), formato de visualización , etiquetas redundantes, comentarios superfluos y otra información que es irrelevante o dificulta el procesamiento automatizado.

La extracción de datos se realiza con mayor frecuencia para interactuar con un sistema heredado , que no tiene otro mecanismo que sea compatible con el hardware actual , o para interactuar con un sistema de terceros que no proporciona una API más conveniente . En el segundo caso, el operador del sistema de terceros a menudo verá el raspado de pantalla como no deseado, debido a razones como el aumento de la carga del sistema , la pérdida de ingresos por publicidad o la pérdida de control del contenido de la información.

El raspado de datos generalmente se considera una técnica ad hoc y poco elegante, que a menudo se usa solo como "último recurso" cuando no hay ningún otro mecanismo disponible para el intercambio de datos. Aparte de la mayor sobrecarga de programación y procesamiento, las pantallas de salida destinadas al consumo humano a menudo cambian de estructura con frecuencia. Los seres humanos pueden hacer frente a esto fácilmente, pero un programa de computadora fallará. Dependiendo de la calidad y el alcance de la lógica de manejo de errores presente en la computadora, esta falla puede resultar en mensajes de error, salida corrupta o incluso fallas del programa .

Aunque el uso del " terminal tonto " físico IBM 3270s está disminuyendo lentamente, a medida que más y más aplicaciones de mainframe adquieren interfaces web , algunas aplicaciones web simplemente continúan usando la técnica de raspado de pantalla para capturar pantallas antiguas y transferir los datos a interfaces modernas. . [1]


Un fragmento de pantalla y una interfaz de eliminación de pantalla (cuadro azul con flecha roja) para personalizar el proceso de captura de datos.