Facilidad de recuperación de información

El Centro de recuperación de información ( IRF ), fundado en 2006 y ubicado en Viena , Austria , era una plataforma de investigación para la creación de redes y la colaboración de profesionales en el campo de la recuperación de información . Cesó sus operaciones en 2012.

Las tecnologías actuales para extraer conceptos de documentos no estructurados son extremadamente intensivas en computación. Para permitir la experimentación interactiva con corpus de texto extensos y ricos, el IRF ha construido un entorno informático de alto rendimiento, en el que se han implementado los últimos avances tecnológicos:

La combinación de estas características de HPC para acelerar la minería de texto representa la implementación IRF de la supercomputación semántica.

El IRF tiene como objetivo llevar la tecnología de recuperación de información más avanzada a la comunidad de profesionales de la información sobre patentes. Esperamos que la tecnología de recuperación de información (IR) se convierta muy pronto en el centro de atención de la tecnología de la información. Todos los sectores de la industria pueden beneficiarse de la aplicación de procesos de minería de texto modernos y futuros a los requisitos especiales de la investigación de patentes. Aunque todas las ideas y conceptos son universalmente aplicables a todo tipo de información de propiedad intelectual, las patentes requieren la mayor sofisticación y nos enfrentan a problemas técnicos y organizacionales desafiantes. El cuerpo completo de documentos relacionados con patentes posiblemente constituya el corpus más grande de documentos compuestos, lo que lo convierte en un objetivo gratificante tanto para los científicos de minería de textos como para los usuarios finales. Además, las patentes se han convertido en un tema crucial, en particular para grandes corporaciones globales y universidades. Los usuarios industriales de datos de patentes se encuentran entre los profesionales de la información más exigentes e importantes. Como consecuencia, podrían beneficiarse al máximo de la tecnología que alivia la carga de investigar la gran cantidad de información sobre patentes.

La IRF proporciona una serie de recopilaciones de datos de prueba que han sido desarrolladas por la IRF, por uno de sus miembros o por terceros. Estas colecciones de datos se pueden utilizar libremente para experimentos científicos.

MAtrixware REsearch Collection ( MAREC ) es el primer corpus de datos de patentes estandarizados con fines de investigación. Consta de 19 millones de documentos de patentes en diferentes idiomas, normalizados a un formato XML muy específico. La colección ha sido desarrollada por Matrixware para la IRF.

logotipo de la IRF