Desambiguación del límite de la oración


La desambiguación de límites de oraciones ( SBD ), también conocida como ruptura de oraciones , detección de límites de oraciones y segmentación de oraciones , es el problema en el procesamiento del lenguaje natural para decidir dónde comienzan y terminan las oraciones . Las herramientas de procesamiento del lenguaje natural a menudo requieren que su entrada se divida en oraciones; sin embargo, la identificación de los límites de las oraciones puede ser un desafío debido a la posible ambigüedad de los signos de puntuación . En inglés escrito , un punto puede indicar el final de una oración, o puede denotar una abreviatura , un punto decimal , unapuntos suspensivos , o una dirección de correo electrónico, entre otras posibilidades. Aproximadamente el 47% de los períodos en el corpus del Wall Street Journal denotan abreviaturas. [1] Los signos de interrogación y exclamación pueden ser igualmente ambiguos debido a su uso en emoticonos , código de computadora y jerga .

Esta estrategia consigue aproximadamente el 95% de las oraciones correctas. [2] Cosas como nombres abreviados, p. Ej., " DH Lawrence " (con espacios en blanco entre las palabras individuales que forman el nombre completo), ortografías ortográficas idiosincrásicas utilizadas con fines estilísticos (a menudo se refieren a un concepto único, p. Ej., El título de un producto de entretenimiento como " .hack // SIGN ") y el uso de puntuación no estándar (o el uso no estándar de puntuación) en un texto a menudo caen por debajo del 5% restante.

Otro enfoque es aprender automáticamente un conjunto de reglas a partir de un conjunto de documentos en los que los saltos de oración están marcados previamente. Las soluciones se han basado en un modelo de máxima entropía . [3] La arquitectura SATZ utiliza una red neuronal para eliminar la ambigüedad de los límites de las oraciones y alcanza un 98,5% de precisión.