Truecasing es el problema en el procesamiento del lenguaje natural (NLP) de determinar el uso correcto de mayúsculas en las palabras cuando dicha información no está disponible. Esto suele surgir debido a la práctica estándar (en inglés y muchos otros idiomas) de poner en mayúscula automáticamente la primera palabra de una oración. También puede surgir en texto mal escrito o sin mayúsculas (por ejemplo, mensajes de texto en minúsculas o mayúsculas ).
Truecasing es innecesario en idiomas cuyos guiones no tienen una distinción entre letras mayúsculas y minúsculas. Esto incluye todos los idiomas que no están escritos en los alfabetos latino , griego , cirílico o armenio , como el japonés , el chino , el tailandés , el hebreo , el árabe , el hindi y el georgiano .
Técnicas
- La segmentación de oraciones se puede utilizar para determinar dónde comienzan las oraciones, para implementar la regla de que la primera palabra de cada oración debe estar en mayúscula.
- El etiquetado de parte de la oración se puede utilizar para identificar nombres propios, que deben escribirse en mayúscula. En algunos casos, la misma palabra se puede usar en diferentes partes del discurso y se escribe en mayúsculas de manera diferente. Por ejemplo, Xerox la empresa, como sustantivo, se escribe con mayúscula, pero para fotocopiar un documento, como verbo, no se escribe con mayúscula. Una fotocopiadora, como en la copia de un documento, puede reconocerse por la presencia de un determinante , que no se utiliza para nombres propios.
- El reconocimiento de entidad con nombre se puede utilizar para identificar nombres propios, que deben escribirse con mayúscula.
- Se puede utilizar un corrector ortográfico para identificar palabras que siempre están en mayúscula.
Aplicaciones
Truecasing ayuda en otras tareas de PNL, como el reconocimiento de entidades nombradas , la extracción automática de contenido y la traducción automática . [1] Las mayúsculas adecuadas permiten una detección más fácil de los nombres propios, que son los puntos de partida de NER y ACE. Algunos sistemas de traducción utilizan técnicas de aprendizaje automático estadístico , que podrían hacer uso de la información contenida en las mayúsculas para aumentar la precisión.
Referencias
- ^ Lita, LV; Ittycheriah, A .; Roukos, S .; Kambhatla, N. (2003). "tRuEcasIng" . Actas de la 41ª Reunión Anual de la Asociación de Lingüística Computacional . Sapporo, Japón. págs. 152-159.