Corpus de Bijankhan

El corpus Bijankhan ( persa : پیکرهٔ بی‌جن‌خان ) es un corpus etiquetado que es adecuado para la investigación del procesamiento del lenguaje natural (NLP) en el idioma persa . Esta colección se recopila a partir de noticias diarias y textos comunes. En esta colección, todos los documentos se clasifican en diferentes temas, como políticos, culturales, etc.; en unas 4300 categorías temáticas diferentes. El corpus contiene alrededor de 2,6 millones de palabras etiquetadas manualmente con un conjunto de etiquetas que contiene 550 etiquetas persas de parte del discurso .

El corpus de Bijankhan fue creado por el Grupo de Investigación de Bases de Datos de la Universidad de Teherán . ^[1] El corpus no es gratuito en el sentido de que no es gratuito para uso comercial, aunque estas restricciones varían según el país . El corpus de Bijankhan lleva el nombre de Mahmood Bijankhan , profesor de lingüística en la Universidad de Teherán debido a sus contribuciones en esta área.

Logotipo del cuerpo de Bijankhan