Apache Tika


Apache Tika es un marco de análisis y detección de contenido , escrito en Java , administrado por Apache Software Foundation . [2] Detecta y extrae metadatos y texto de más de mil tipos de archivos diferentes y, además de proporcionar una biblioteca Java , tiene ediciones de servidor y de línea de comandos adecuadas para su uso desde otros lenguajes de programación.

El proyecto se originó como parte del código base de Apache Nutch , para proporcionar identificación y extracción de contenido durante el rastreo . En 2007, se separó para hacerlo más extensible y utilizable por sistemas de gestión de contenido , otros rastreadores web y sistemas de recuperación de información. El Tika independiente fue fundado por Jérôme Charron, Chris Mattmann y Jukka Zitting. [3] En 2011 Chris Mattmann y Jukka Zitting lanzaron el libro de Manning "Tika in Action", y el proyecto lanzó la versión 1.0.

Tika proporciona capacidades para la identificación de más de 1400 tipos de archivos de la taxonomía de tipos MIME de la Autoridad de Números Asignados de Internet . Para la mayoría de los formatos más comunes y populares, [4] Tika proporciona funciones de extracción de contenido, extracción de metadatos e identificación de idiomas.

Si bien Tika está escrito en Java , se usa ampliamente en otros lenguajes. [6] El servidor RESTful y la herramienta CLI permiten que los programas que no son de Java accedan a la funcionalidad de Tika.

Tika es utilizada por instituciones financieras como Fair Isaac Corporation (FICO), [7] Goldman Sachs, [8] investigadores académicos y de la NASA [9] y por los principales sistemas de gestión de contenido, incluidos Drupal , [10] y Alfresco (software) [11 ] analizar grandes cantidades de contenido y ponerlo a disposición en formatos comunes utilizando técnicas de recuperación de información.

El 4 de abril de 2016 [12] Forbes publicó un artículo identificando a Tika como una de las tecnologías clave utilizadas por más de 400 periodistas para analizar 11,5 millones de documentos filtrados que exponen un escándalo internacional que involucra a líderes mundiales que almacenan dinero en corporaciones fantasma offshore . Los documentos filtrados y el proyecto para analizarlos se conocen como los Papeles de Panamá .