De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

La segmentación de texto es el proceso de dividir el texto escrito en unidades significativas, como palabras, oraciones o temas . El término se aplica tanto a los procesos mentales utilizados por los humanos al leer un texto, como a los procesos artificiales implementados en las computadoras, que son objeto del procesamiento del lenguaje natural . El problema no es trivial, porque si bien algunos idiomas escritos tienen marcadores de límites de palabras explícitos, como los espacios de palabras del inglés escrito y las formas distintivas de las letras inicial, media y final del árabe , tales señales son a veces ambiguas y no están presentes en todos los textos escritos. Idiomas.

Compare la segmentación del habla , el proceso de dividir el habla en porciones lingüísticamente significativas.

Problemas de segmentación [ editar ]

Segmentación de palabras [ editar ]

La segmentación de palabras es el problema de dividir una cadena de lenguaje escrito en las palabras que la componen.

En inglés y muchos otros idiomas que usan alguna forma del alfabeto latino , el espacio es una buena aproximación de un divisor de palabras ( delimitador de palabras ), aunque este concepto tiene límites debido a la variabilidad con la que los idiomas consideran emicamente colocaciones y compuestos . Muchos sustantivos compuestos en inglés se escriben de manera variable (por ejemplo, caja de hielo = caja de hielo = caja de hielo ; pocilga de cerdo = pocilga de cerdo = pocilga ) con una variación correspondiente en si los hablantes los consideran como frases nominaleso sustantivos simples; Hay tendencias en la forma en que se establecen las normas, como que los compuestos abiertos a menudo tienden a solidificarse eventualmente por convención generalizada, pero la variación sigue siendo sistémica. En contraste, los sustantivos compuestos alemanes muestran menos variación ortográfica, siendo la solidificación una norma más fuerte.

Sin embargo, el equivalente al carácter de espacio de palabras no se encuentra en todos los guiones escritos, y sin él, la segmentación de palabras es un problema difícil. Los idiomas que no tienen un proceso de segmentación de palabras trivial incluyen el chino, el japonés, donde se delimitan las oraciones pero no las palabras, el tailandés y laosiano , donde se delimitan las frases y las oraciones pero no las palabras, y el vietnamita , donde se delimitan las sílabas pero no las palabras.

Sin embargo, en algunos sistemas de escritura, como el guión Ge'ez utilizado para amárico y tigrinya entre otros idiomas, las palabras están delimitadas explícitamente (al menos históricamente) con un carácter que no es un espacio en blanco.

El Consorcio Unicode ha publicado un Anexo estándar sobre segmentación de texto , [1] que explora los problemas de la segmentación en textos de varios manuscritos.

La división de palabras es el proceso de analizar el texto concatenado (es decir, texto que no contiene espacios u otros separadores de palabras) para inferir dónde existen los saltos de palabras.

La división de palabras también puede referirse al proceso de separación por guiones .

Segmentación de intenciones [ editar ]

La segmentación por intención es el problema de dividir las palabras escritas en frases clave (2 o más grupos de palabras).

En inglés y en todos los demás idiomas, la intención o el deseo central se identifica y se convierte en la piedra angular de la segmentación de intenciones de la frase clave. El producto / servicio central, la idea, la acción y el pensamiento anclan la frase clave.

"[Todas las cosas están hechas de átomos ]. [Pequeñas partículas que se mueven] [en movimiento perpetuo ], [atrayéndose entre ] [cuando están a poca distancia ], [pero repeliendo ] [al ser comprimidas ] [en una otro ] ".

Segmentación de oraciones [ editar ]

La segmentación de oraciones es el problema de dividir una cadena de lenguaje escrito en las oraciones que la componen . En inglés y en algunos otros idiomas, el uso de puntuación, en particular el carácter de punto / punto, es una aproximación razonable. Sin embargo, incluso en inglés, este problema no es trivial debido al uso del carácter de punto completo para las abreviaturas, que pueden o no terminar también una oración. Por ejemplo, el Sr. no es su propia oración en "El Sr. Smith fue a las tiendas en Jones Street". Al procesar texto sin formato, las tablas de abreviaturas que contienen puntos pueden ayudar a prevenir la asignación incorrecta de los límites de las oraciones.

Al igual que con la segmentación de palabras, no todos los lenguajes escritos contienen caracteres de puntuación que son útiles para aproximar los límites de las oraciones.

Segmentación de temas [ editar ]

El análisis de temas consta de dos tareas principales: identificación de temas y segmentación del texto. Mientras que el primero es una clasificación simple de un texto específico, el último caso implica que un documento puede contener múltiples temas, y la tarea de la segmentación de texto computarizado puede ser descubrir estos temas automáticamente y segmentar el texto en consecuencia. Los límites del tema pueden ser evidentes en los títulos y párrafos de las secciones. En otros casos, es necesario utilizar técnicas similares a las que se utilizan en la clasificación de documentos .

Segmentar el texto en temas o giros del discurso puede ser útil en algunas tareas de procesamiento natural: puede mejorar significativamente la recuperación de información o el reconocimiento de voz (indexando / reconociendo documentos con mayor precisión o dando la parte específica de un documento correspondiente a la consulta como resultado ). También es necesario en sistemas de detección y seguimiento de temas y problemas de resumen de texto .

Se han probado muchos enfoques diferentes: [2] [3] por ejemplo , HMM , cadenas léxicas , similitud de pasajes usando la co-ocurrencia de palabras , agrupamiento , modelado de temas , etc.

Es una tarea bastante ambigua: las personas que evalúan los sistemas de segmentación de texto a menudo difieren en los límites de los temas. Por lo tanto, la evaluación de segmentos de texto también es un problema desafiante.

Otros problemas de segmentación [ editar ]

Es posible que se requieran procesos para segmentar el texto en segmentos además de los mencionados, incluidos morfemas (una tarea que generalmente se llama análisis morfológico ) o párrafos .

Enfoques de segmentación automática [ editar ]

La segmentación automática es el problema en el procesamiento del lenguaje natural de implementar un proceso de computadora para segmentar el texto.

Cuando la puntuación y pistas similares no están disponibles de manera constante, la tarea de segmentación a menudo requiere técnicas bastante no triviales, como la toma de decisiones estadísticas, diccionarios grandes, así como la consideración de restricciones sintácticas y semánticas. Los sistemas eficaces de procesamiento del lenguaje natural y las herramientas de segmentación de texto generalmente operan en el texto en dominios y fuentes específicos. Por ejemplo, procesar el texto utilizado en los registros médicos es un problema muy diferente al procesamiento de artículos de noticias o anuncios inmobiliarios.

El proceso de desarrollo de herramientas de segmentación de texto comienza con la recopilación de un gran corpus de texto en un dominio de aplicación. Hay dos enfoques generales:

  • Análisis manual de texto y software personalizado de escritura.
  • Anote el corpus de muestra con información de límites y use el aprendizaje automático

Algunos sistemas de segmentación de texto aprovechan cualquier marcado como HTML y conocen formatos de documentos como PDF para proporcionar evidencia adicional para los límites de oraciones y párrafos.

Ver también [ editar ]

  • Separación
  • Procesamiento natural del lenguaje
  • Segmentación del habla
  • Análisis léxico
  • El recuento de palabras
  • Salto de línea

Referencias [ editar ]

  1. ^ UAX # 29
  2. ^ Freddy YY Choi (2000). "Avances en la segmentación de texto lineal independiente del dominio" (PDF) . Actas de la 1ª Reunión del Capítulo Norteamericano de la Asociación de Lingüística Computacional (ANLP-NAACL-00) . págs. 26–33.
  3. ^ Jeffrey C. Reynar (1998). "Segmentación de temas: algoritmos y aplicaciones" (PDF) . IRCS-98-21. Universidad de Pensilvania . Consultado el 8 de noviembre de 2007 . Cite journal requires |journal= (help)