EXCLAMAR


La EXtensible Cross-Linguistic Automatic Information Machine (EXCLAIM) fue una herramienta integrada para la recuperación de información entre idiomas (CLIR), creada en la Universidad de California, Santa Cruz a principios de 2006, con soporte para más de una docena de idiomas. Los desarrolladores principales fueron Justin Nuger y Jesse Saba Kirchner.

Los primeros trabajos en CLIR dependían de corpus paralelos construidos manualmente para cada par de idiomas. Este método requiere mucha mano de obra en comparación con los corpus paralelos creados automáticamente. Una forma más eficiente de encontrar datos para entrenar un sistema CLIR es usar páginas coincidentes en la web que están escritas en diferentes idiomas. [1]

EXCLAIM aprovecha la idea de corpus paralelos latentes en la web al automatizar la alineación de dichos corpus en varios dominios. El más significativo de ellos es la propia Wikipedia , que incluye artículos en 250 idiomas . El papel de EXCLAIM es utilizar herramientas de análisis semántico y lingüístico para alinear la información en estas Wikipedias para que puedan ser tratadas como corpus paralelos. EXCLAIM también es extensible para incorporar información de muchas otras fuentes, como el Centro de Recursos de Salud de la Comunidad China (CCHRC).

Uno de los objetivos principales del proyecto EXCLAIM es proporcionar el tipo de herramientas informáticas y herramientas CLIR para lenguas minoritarias y en peligro de extinción que a menudo solo están disponibles para lenguas mayoritarias poderosas o prósperas.

En 2009, EXCLAIM estaba en estado beta, con diversos grados de funcionalidad para diferentes idiomas. La compatibilidad con CLIR utilizando el conjunto de datos de Wikipedia y la versión más reciente de EXCLAIM (v.0.5), incluida la compatibilidad total con UTF-8 y la derivación de Porter para el componente en inglés, estaba disponible para los siguientes veintitrés idiomas:

La compatibilidad con el uso del conjunto de datos de Wikipedia y una versión anterior de EXCLAIM (v.0.3) está disponible para los siguientes idiomas: