StormCrawler

StormCrawler es una colección de recursos de código abierto para crear rastreadores web escalables y de baja latencia en Apache Storm . Se proporciona bajo licencia Apache y está escrito principalmente en Java (lenguaje de programación) .

StormCrawler es modular y consta de un módulo principal, que proporciona los componentes básicos de un rastreador web, como buscar, analizar y filtrar URL. Además de los componentes centrales, el proyecto también proporciona recursos externos, como por ejemplo spout y pernos para Elasticsearch y Apache Solr o un ParserBolt que usa Apache Tika para analizar varios formatos de documentos.

Linux.com publicó una sesión de preguntas y respuestas en octubre de 2016 con el autor de StormCrawler. ^[2] InfoQ ejecutó uno en diciembre de 2016. ^[3] En enero de 2017 se publicó un punto de referencia comparativo con Apache Nutch en dzone.com. ^[4]

StormCrawler es utilizado principalmente por Common Crawl ^[8] para generar un gran conjunto de datos de noticias disponibles públicamente.