Segmentación de texto

Este artículo necesita citas adicionales para su verificación . Por favor, ayuda a mejorar este artículo mediante la adición de citas de fuentes confiables . El material no obtenido puede ser cuestionado y eliminado.
Buscar fuentes: "Segmentación de texto" - noticias · periódicos · libros · académico · JSTOR ( octubre de 2011 ) ( Aprenda cómo y cuándo eliminar este mensaje de plantilla )

La segmentación de texto es el proceso de dividir el texto escrito en unidades significativas, como palabras, oraciones o temas . El término se aplica tanto a los procesos mentales utilizados por los humanos al leer un texto, como a los procesos artificiales implementados en las computadoras, que son objeto del procesamiento del lenguaje natural . El problema no es trivial, porque si bien algunos idiomas escritos tienen marcadores de límites de palabras explícitos, como los espacios de palabras del inglés escrito y las formas distintivas de las letras inicial, media y final del árabe , tales señales son a veces ambiguas y no están presentes en todos los textos escritos. Idiomas.

Compare la segmentación del habla , el proceso de dividir el habla en porciones lingüísticamente significativas.

Problemas de segmentación [ editar ]

Segmentación de palabras [ editar ]

La segmentación de palabras es el problema de dividir una cadena de lenguaje escrito en las palabras que la componen.

En inglés y muchos otros idiomas que usan alguna forma del alfabeto latino , el espacio es una buena aproximación de un divisor de palabras ( delimitador de palabras ), aunque este concepto tiene límites debido a la variabilidad con la que los idiomas consideran emicamente colocaciones y compuestos . Muchos sustantivos compuestos en inglés se escriben de manera variable (por ejemplo, caja de hielo = caja de hielo = caja de hielo ; pocilga de cerdo = pocilga de cerdo = pocilga ) con una variación correspondiente en si los hablantes los consideran como frases nominaleso sustantivos simples; Hay tendencias en la forma en que se establecen las normas, como que los compuestos abiertos a menudo tienden a solidificarse eventualmente por convención generalizada, pero la variación sigue siendo sistémica. En contraste, los sustantivos compuestos alemanes muestran menos variación ortográfica, siendo la solidificación una norma más fuerte.

Sin embargo, el equivalente al carácter de espacio de palabras no se encuentra en todos los guiones escritos, y sin él, la segmentación de palabras es un problema difícil. Los idiomas que no tienen un proceso de segmentación de palabras trivial incluyen el chino, el japonés, donde se delimitan las oraciones pero no las palabras, el tailandés y laosiano , donde se delimitan las frases y las oraciones pero no las palabras, y el vietnamita , donde se delimitan las sílabas pero no las palabras.

Sin embargo, en algunos sistemas de escritura, como el guión Ge'ez utilizado para amárico y tigrinya entre otros idiomas, las palabras están delimitadas explícitamente (al menos históricamente) con un carácter que no es un espacio en blanco.

El Consorcio Unicode ha publicado un Anexo estándar sobre segmentación de texto , ^{[1] que} explora los problemas de la segmentación en textos de varios manuscritos.

La división de palabras es el proceso de analizar el texto concatenado (es decir, texto que no contiene espacios u otros separadores de palabras) para inferir dónde existen los saltos de palabras.

La división de palabras también puede referirse al proceso de separación por guiones .

Segmentación de intenciones [ editar ]

Esta sección puede resultar confusa o poco clara para los lectores . Por favor ayude a aclarar la sección . Puede haber una discusión sobre esto en la página de discusión . ( Septiembre de 2019 ) ( Obtenga información sobre cómo y cuándo eliminar este mensaje de plantilla )

La segmentación por intención es el problema de dividir las palabras escritas en frases clave (2 o más grupos de palabras).

En inglés y en todos los demás idiomas, la intención o el deseo central se identifica y se convierte en la piedra angular de la segmentación de intenciones de la frase clave. El producto / servicio central, la idea, la acción y el pensamiento anclan la frase clave.

"[Todas las cosas están hechas de átomos ]. [Pequeñas partículas que se mueven] [en movimiento perpetuo ], [atrayéndose entre sí ] [cuando están a poca distancia ], [pero repeliendo ] [al ser comprimidas ] [en una otro ] ".

Segmentación de oraciones [ editar ]

La segmentación de oraciones es el problema de dividir una cadena de lenguaje escrito en las oraciones que la componen . En inglés y en algunos otros idiomas, el uso de puntuación, en particular el carácter de punto / punto, es una aproximación razonable. Sin embargo, incluso en inglés, este problema no es trivial debido al uso del carácter de punto completo para las abreviaturas, que pueden o no terminar también una oración. Por ejemplo, el Sr. no es su propia oración en "El Sr. Smith fue a las tiendas en Jones Street". Al procesar texto sin formato, las tablas de abreviaturas que contienen puntos pueden ayudar a prevenir la asignación incorrecta de los límites de las oraciones.

Al igual que con la segmentación de palabras, no todos los lenguajes escritos contienen caracteres de puntuación que son útiles para aproximar los límites de las oraciones.

Segmentación de temas [ editar ]

El análisis de temas consta de dos tareas principales: identificación de temas y segmentación del texto. Mientras que el primero es una clasificación simple de un texto específico, el último caso implica que un documento puede contener múltiples temas, y la tarea de la segmentación de texto computarizado puede ser descubrir estos temas automáticamente y segmentar el texto en consecuencia. Los límites del tema pueden ser evidentes en los títulos y párrafos de las secciones. En otros casos, es necesario utilizar técnicas similares a las que se utilizan en la clasificación de documentos .

Segmentar el texto en temas o giros del discurso puede ser útil en algunas tareas de procesamiento natural: puede mejorar significativamente la recuperación de información o el reconocimiento de voz (indexando / reconociendo documentos con mayor precisión o dando la parte específica de un documento correspondiente a la consulta como resultado ). También es necesario en sistemas de detección y seguimiento de temas y problemas de resumen de texto .

Se han probado muchos enfoques diferentes: ^[2]^[3] por ejemplo , HMM , cadenas léxicas , similitud de pasajes usando la co-ocurrencia de palabras , agrupamiento , modelado de temas , etc.

Es una tarea bastante ambigua: las personas que evalúan los sistemas de segmentación de texto a menudo difieren en los límites de los temas. Por lo tanto, la evaluación de segmentos de texto también es un problema desafiante.

Otros problemas de segmentación [ editar ]

Es posible que se requieran procesos para segmentar el texto en segmentos además de los mencionados, incluidos morfemas (una tarea que generalmente se llama análisis morfológico ) o párrafos .

Enfoques de segmentación automática [ editar ]

La segmentación automática es el problema en el procesamiento del lenguaje natural de implementar un proceso de computadora para segmentar el texto.

Cuando la puntuación y pistas similares no están disponibles de manera constante, la tarea de segmentación a menudo requiere técnicas bastante no triviales, como la toma de decisiones estadísticas, diccionarios grandes, así como la consideración de restricciones sintácticas y semánticas. Los sistemas eficaces de procesamiento del lenguaje natural y las herramientas de segmentación de texto generalmente operan en el texto en dominios y fuentes específicos. Por ejemplo, procesar el texto utilizado en los registros médicos es un problema muy diferente al procesamiento de artículos de noticias o anuncios inmobiliarios.

El proceso de desarrollo de herramientas de segmentación de texto comienza con la recopilación de un gran corpus de texto en un dominio de aplicación. Hay dos enfoques generales:

Análisis manual de texto y software personalizado de escritura.
Anote el corpus de muestra con información de límites y use el aprendizaje automático

Algunos sistemas de segmentación de texto aprovechan cualquier marcado como HTML y conocen formatos de documentos como PDF para proporcionar evidencia adicional para los límites de oraciones y párrafos.

Ver también [ editar ]

Separación
Procesamiento natural del lenguaje
Segmentación del habla
Análisis léxico
El recuento de palabras
Salto de línea

Referencias [ editar ]

^ UAX # 29
^ Freddy YY Choi (2000). "Avances en la segmentación de texto lineal independiente del dominio" (PDF) . Actas de la 1ª Reunión del Capítulo Norteamericano de la Asociación de Lingüística Computacional (ANLP-NAACL-00) . págs. 26–33.
^ Jeffrey C. Reynar (1998). "Segmentación de temas: algoritmos y aplicaciones" (PDF) . IRCS-98-21. Universidad de Pensilvania . Consultado el 8 de noviembre de 2007 . Cite journal requires |journal= (help)

[1] UAX # 29

[2] Freddy YY Choi (2000). "Avances en la segmentación de texto lineal independiente del dominio" (PDF) . Actas de la 1ª Reunión del Capítulo Norteamericano de la Asociación de Lingüística Computacional (ANLP-NAACL-00) . págs. 26–33.

[3] Jeffrey C. Reynar (1998). "Segmentación de temas: algoritmos y aplicaciones" (PDF) . IRCS-98-21. Universidad de Pensilvania . Consultado el 8 de noviembre de 2007 . Cite journal requires |journal= (help)

vtmiProcesamiento natural del lenguaje
Términos generales	AI completo Bolsa de palabras n-gramo Bigram Trigrama Comprensión del lenguaje natural Corpus de habla Para las palabras Corpus de texto
Análisis de texto	Extracción de colocación Minería de conceptos Procesamiento de término compuesto Resolución de correferencia Lematización Reconocimiento de entidad designada Aprendizaje de ontología Analizando Etiquetado de parte de la voz Similitud semántica Análisis de los sentimientos Derivado Extracción de terminología Fragmentación de texto Segmentación de texto Segmentación de oraciones Segmentación de palabras Vinculación textual Truecasing Desambiguación del sentido de las palabras
Resumen automático	Resumen de varios documentos Extracción de oraciones Simplificación de texto
Máquina traductora	Asistido por computadora Basado en ejemplos Basado en reglas Neural
Identificación automática y captura de datos	Reconocimiento de voz Segmentación del habla Síntesis de voz Generación de lenguaje natural Reconocimiento óptico de caracteres
Modelo de tema	Asignación de Dirichlet latente Análisis semántico latente Asignación Pachinko
Asistida por ordenador de revisión	Calificación de ensayos automatizada Concordancer Corrector gramatical Texto predictivo Corrector ortográfico Adivinación de sintaxis
Interfaz de usuario de lenguaje natural	Chatbot Ficción interactiva Respuesta a preguntas Asistente virtual Interfaz de usuario de voz