Centro de OutWit


OutWit Hub es una aplicación de software de extracción de datos web diseñada para extraer automáticamente información de recursos locales o en línea. Reconoce y captura enlaces, imágenes, documentos, contactos, vocabulario y frases recurrentes, fuentes RSS y convierte datos estructurados y no estructurados en tablas formateadas que se pueden exportar a hojas de cálculo o bases de datos . La primera versión se lanzó en 2010. La versión 9.0 se lanzó en enero de 2020.

El programa incluye un navegador basado en Mozilla y una barra lateral que da acceso a una serie de vistas con extractores preestablecidos. Las páginas web y los documentos de texto se desglosan en sus diferentes constituyentes, presentados como tablas en estas vistas. La aplicación puede navegar a través de una serie de enlaces y secuencias de páginas de resultados de motores de búsqueda para extraer elementos de información, organizarlos en tablas y exportarlos a varios formatos. Los extractores predefinidos permiten recopilar tablas, listas o feeds estructurados. También se pueden crear raspadores personalizados para extraer datos de elementos de página menos estructurados. [1] Las expresiones regulares se pueden incluir en raspadores, así como en otras partes de la aplicación para definir marcadores de reconocimiento de variables. [2]

Aunque OutWit Hub se presenta como una herramienta para usuarios no técnicos, el hecho de que la aplicación no utilice la estructura del modelo de objeto del documento para sus extracciones impide el raspado visual de datos de "apuntar y agarrar" y obliga al usuario que quiere crear raspadores personalizados. para definir marcadores en el código fuente de la página. Sin embargo, la ventaja de este enfoque es que permite una definición más precisa de las máscaras de extracción que los nodos HTML y una ejecución más rápida, ya que no es necesario que el navegador represente el árbol del modelo de objeto del documento en el momento de la extracción.

Se puede descargar una versión gratuita limitada desde el sitio del editor y los sitios web de descarga de shareware . [3]

Una edición Enterprise de la aplicación incluye funciones avanzadas de extracción y automatización para extracciones específicas o de gran volumen, envío de series de consultas HTTP o POST generadas automáticamente y carga de datos extraídos a servidores FTP.