Normalización de texto

La normalización del texto es el proceso de transformar el texto en una única forma canónica que podría no haber tenido antes. Normalizar el texto antes de almacenarlo o procesarlo permite la separación de preocupaciones , ya que se garantiza que la entrada sea consistente antes de que se realicen operaciones en él. La normalización del texto requiere saber qué tipo de texto se normalizará y cómo se procesará posteriormente; no existe un procedimiento de normalización de uso general. ^[1]

Aplicaciones

La normalización de texto se utiliza con frecuencia al convertir texto a voz . Los números , las fechas , los acrónimos y las abreviaturas son "palabras" no estándar que deben pronunciarse de manera diferente según el contexto. ^[2] Por ejemplo:

"$ 200" se pronunciaría como "doscientos dólares" en inglés, pero como "lua selau tālā" en samoano. ^[3]
"vi" podría pronunciarse como " vie " , " vee " o " sexto " dependiendo de las palabras que lo rodean. ^[4]

El texto también se puede normalizar para almacenar y buscar en una base de datos. Por ejemplo, si una búsqueda de "curriculum vitae" coincide con la palabra "curriculum vitae", entonces el texto se normalizaría eliminando las marcas diacríticas ; y si "john" coincide con "John", el texto se convertiría en un solo caso . Para preparar el texto para la búsqueda, también se puede derivar (p. Ej., Convertir "voló" y "volar" en "volar"), canonizar (p. Ej. , Usar sistemáticamente la ortografía del inglés estadounidense o británico ) o eliminar las palabras vacías.

Técnicas

Para una normalización simple e independiente del contexto, como eliminar caracteres no alfanuméricos o marcas diacríticas , las expresiones regulares serían suficientes. Por ejemplo, la secuencia de comandos sed normalizaría las ejecuciones de caracteres de espacio en blanco en un solo espacio. Una normalización más compleja requiere algoritmos correspondientemente complicados, incluido el conocimiento del dominio del idioma y el vocabulario que se normaliza. Entre otros enfoques, la normalización de texto se ha modelado como un problema de tokenización y etiquetado de flujos de texto ^[5] y como un caso especial de traducción automática. ^[6]^[7]sed ‑e "s/\s+/ /g" inputfile

Beca textual

En el campo de la erudición textual y la edición de textos históricos, el término "normalización" implica un grado de modernización y estandarización, por ejemplo, en la extensión de las abreviaturas de los escribas y la transliteración de los glifos arcaicos que se encuentran típicamente en los manuscritos y las primeras fuentes impresas. Por tanto, una edición normalizada se distingue de una edición diplomática (o edición semidiplomática ), en la que se intenta preservar estas características. El objetivo es lograr un equilibrio adecuado entre, por un lado, una rigurosa fidelidad al texto original (incluida, por ejemplo, la preservación de elementos enigmáticos y ambiguos); y, por otro, producir un nuevo texto que sea comprensible y accesible para el lector moderno. Por lo tanto, el grado de normalización queda a discreción del editor y variará. Algunos editores, por ejemplo, optan por modernizar la ortografía y la puntuación arcaicas, pero otros no. ^[8]

Ver también

Referencias

^ Richard Sproat y Steven Bedrick (septiembre de 2011). "CS506 / 606: Txt Nrmlztn" . Consultado el 2 de octubre de 2012 .
^ Sproat, R .; Negro, A .; Chen, S .; Kumar, S .; Ostendorfk, M .; Richards, C. (2001). "Normalización de palabras no estándar". Habla y Lenguaje por Computadora 15 ; 287–333. doi : 10.1006 / csla.2001.0169 .
^ "Números de Samoa" . MyLanguages.org . Consultado el 2 de octubre de 2012 .
^ "Normalización de texto de motores de texto a voz" . MSDN . Consultado el 2 de octubre de 2012 .
^ Zhu, C .; Tang, J .; Li, H .; Ng, H .; Zhao, T. (2007). "Un enfoque de etiquetado unificado para la normalización de texto". Actas de la 45ª Reunión Anual de la Asociación de Lingüística Computacional ; 688–695. doi : 10.1.1.72.8138 .
^ Filip, G .; Krzysztof, J .; Agnieszka, W .; Mikołaj, W. (2006). "La normalización de texto como caso especial de traducción automática". Actas de la multiconferencia internacional sobre informática y tecnología de la información 1 ; 51–56.
^ Mosquera, A .; Lloret, E .; Moreda, P. (2012). "Hacia facilitar la accesibilidad de los textos de la Web 2.0 a través de la normalización del texto" Actas del taller LREC: Procesamiento del lenguaje natural para mejorar la accesibilidad textual (NLP4ITA) ; 9-14
^ Harvey, PDA (2001). Edición de registros históricos . Londres: Biblioteca Británica. págs. 40–46. ISBN 0-7123-4684-8.

[cs506-1] Richard Sproat y Steven Bedrick (septiembre de 2011). "CS506 / 606: Txt Nrmlztn" . Consultado el 2 de octubre de 2012 .

[sproate-2] Sproat, R .; Negro, A .; Chen, S .; Kumar, S .; Ostendorfk, M .; Richards, C. (2001). "Normalización de palabras no estándar". Habla y Lenguaje por Computadora 15 ; 287–333. doi : 10.1006 / csla.2001.0169 .

[3] "Números de Samoa" . MyLanguages.org . Consultado el 2 de octubre de 2012 .

[msdn-4] "Normalización de texto de motores de texto a voz" . MSDN . Consultado el 2 de octubre de 2012 .

[tagging-5] Zhu, C .; Tang, J .; Li, H .; Ng, H .; Zhao, T. (2007). "Un enfoque de etiquetado unificado para la normalización de texto". Actas de la 45ª Reunión Anual de la Asociación de Lingüística Computacional ; 688–695. doi : 10.1.1.72.8138 .

[mt-6] Filip, G .; Krzysztof, J .; Agnieszka, W .; Mikołaj, W. (2006). "La normalización de texto como caso especial de traducción automática". Actas de la multiconferencia internacional sobre informática y tecnología de la información 1 ; 51–56.

[sm-7] Mosquera, A .; Lloret, E .; Moreda, P. (2012). "Hacia facilitar la accesibilidad de los textos de la Web 2.0 a través de la normalización del texto" Actas del taller LREC: Procesamiento del lenguaje natural para mejorar la accesibilidad textual (NLP4ITA) ; 9-14

[8] Harvey, PDA (2001). Edición de registros históricos . Londres: Biblioteca Británica. págs. 40–46. ISBN 0-7123-4684-8.

[1]