Corpus árabe coránico

El Corpus de árabe coránico es un recurso lingüístico anotado que consta de 77.430 palabras de árabe coránico. El proyecto tiene como objetivo proporcionar anotaciones morfológicas y sintácticas para los investigadores que deseen estudiar el lenguaje del Corán. ^[1]^[2]^[3]^[4]^[5]

Corpus árabe coránico
Centro de Investigación:	Universidad de Leeds
Versión inicial:	Noviembre de 2009
Idioma:	Árabe Coránico, Inglés
Anotación:	Sintaxis, morfología
Marco de referencia:	Gramática de dependencia
Licencia:	Licencia pública general GNU
Sitio web:	http://corpus.quran.com/

Árbol de sintaxis de dependencia para verso (67: 1)

Funciones

El análisis gramatical ayuda a los lectores a descubrir los significados previstos detallados de cada verso y oración. Cada palabra del Corán está etiquetada con su parte del discurso, así como con múltiples características morfológicas. A diferencia de otros corpus árabes anotados, el marco gramatical adoptado por el Corpus coránico es la gramática árabe tradicional de i'rab ( إﻋﺮﺍﺏ ). El proyecto de investigación está dirigido por Kais Dukes en la Universidad de Leeds , ^[4] y es parte del grupo de investigación de computación en lengua árabe dentro de la Escuela de Computación, supervisado por Eric Atwell. ^[6]

El corpus anotado incluye: ^[1]^[7]

Un corpus de árabe coránico etiquetado de parte del discurso verificado manualmente .
Un banco de árboles anotado de árabe coránico.
Una visualización novedosa de la gramática árabe tradicional a través de gráficos de dependencia.
Búsqueda morfológica del Corán.
Un léxico morfológico legible por máquina de palabras coránicas en inglés.
Una concordancia de parte del discurso para árabe coránico organizada por lema.
Un tablero de mensajes en línea para anotaciones de voluntarios de la comunidad.

La anotación de corpus asigna una etiqueta de parte del discurso y características morfológicas a cada palabra. Por ejemplo, la anotación implica decidir si una palabra es un sustantivo o un verbo, y si se declina para masculino o femenino. La primera etapa del proyecto implicó el etiquetado automático de parte del discurso mediante la aplicación de tecnología informática en idioma árabe al texto. La anotación para cada una de las 77.430 palabras del Corán fue luego revisada en etapas por dos anotadores, y aún se están realizando mejoras para mejorar aún más la precisión.

La investigación lingüística para el Corán que utiliza el corpus anotado incluye el entrenamiento de etiquetadores de parte del discurso del modelo Hidden Markov para árabe, ^[8] categorización automática de capítulos coránicos, ^[9] y análisis prosódico del texto. ^[10]

Además, el proyecto proporciona una traducción coránica palabra por palabra basada en fuentes aceptadas en inglés, en lugar de producir una nueva traducción del Corán. ^[4]

Ver también

Referencias

↑ ^a ^b K. Dukes, E. Atwell y N. Habash (2011). Colaboración supervisada para la anotación sintáctica del árabe coránico. Revista de evaluación y recursos lingüísticos (LREJ). Número especial sobre recursos lingüísticos construidos en colaboración.
^ Colaboración supervisada para la anotación sintáctica del árabe coránico en ResearchGate . Cargado por Nizar Habash, Universidad de Columbia .
^ K. Dukes y T. Buckwalter (2010). Un banco de árboles de dependencia del Corán utilizando la gramática árabe tradicional. En Actas de la 7ª Conferencia Internacional de Informática y Sistemas (INFOS). El Cairo, Egipto.
↑ ^a ^b ^c El Corpus Árabe Coránico Archivado el 23 de febrero de 2013 en la Wayback Machine en The Muslim Tribune. 20 de junio de 2011.
^ Eric Atwell, Claire Brierley, Kais Dukes, Majdi Sawalha y Abdul-Baquee Sharaf. Un enfoque de inteligencia artificial para el contenido árabe e islámico en Internet ^{[ enlace muerto permanente ]} , pág. 2. Riad : Universidad King Saud , 2011.
^ Ingeniería. "Perfil del Dr. Eric Atwell - Escuela de Informática - Universidad de Leeds" . www.comp.leeds.ac.uk .
^ K. Dukes y N. Habash (2011). Análisis estadístico en un solo paso de representaciones sintácticas híbridas de dependencia y circunscripción. Conferencia internacional sobre tecnologías de análisis (IWPT). Dublín, Irlanda.
^ M. Albared, N. Omar y M. Ab Aziz (2011). Desarrollo de un etiquetador de punto de venta árabe HMM competitivo utilizando Small Training Corpora. Sistemas inteligentes de información y bases de datos. Springer Berlín, Heidelberg.
^ AM Sharaf y E. Atwell (2011). Categorización automática de los capítulos coránicos. VII Congreso Internacional de Computación en Árabe (ICCA11). Riad, Arabia Saudita.
^ C. Brierley, M. Sawalha y E. Atwell (2012). Corpus anotado de límites para la predicción de rupturas de frases en árabe. Archivado el 15 de diciembre de 2018 en elSimposio anual de Wayback Machine IVACS. Cambridge.

enlaces externos