Segmentación del habla

La segmentación del habla es el proceso de identificar los límites entre palabras , sílabas o fonemas en los lenguajes naturales hablados . El término se aplica tanto a los procesos mentales utilizados por los humanos como a los procesos artificiales de procesamiento del lenguaje natural .

La segmentación del habla es un subcampo de la percepción general del habla y un subproblema importante del campo tecnológicamente enfocado del reconocimiento del habla , y no puede resolverse adecuadamente de forma aislada. Como en la mayoría de los problemas de procesamiento del lenguaje natural , se debe tener en cuenta el contexto , la gramática y la semántica , y aun así, el resultado suele ser una división probabilística (estadísticamente basada en la probabilidad) en lugar de categórica. Aunque parezca que la coarticulación—Un fenómeno que puede ocurrir entre palabras adyacentes con la misma facilidad que dentro de una sola palabra— presenta el principal desafío en la segmentación del habla entre idiomas. En las siguientes secciones se pueden ver algunos otros problemas y estrategias empleadas para resolver esos problemas.

Este problema se superpone en cierta medida con el problema de la segmentación del texto que ocurre en algunos idiomas que tradicionalmente se escriben sin espacios entre palabras, como el chino y el japonés , en comparación con los sistemas de escritura que indican la segmentación del habla entre palabras mediante un divisor de palabras , como el espacio . Sin embargo, incluso para esos idiomas, la segmentación del texto suele ser mucho más fácil que la segmentación del habla, porque el lenguaje escrito suele tener poca interferencia entre las palabras adyacentes y, a menudo, contiene pistas adicionales que no están presentes en el habla (como el uso de caracteres chinos para las raíces de las palabras en Japonés).

Reconocimiento léxico

En los lenguajes naturales, el significado de una oración hablada compleja se puede entender descomponiéndola en segmentos léxicos más pequeños (aproximadamente, las palabras del idioma), asociando un significado a cada segmento y combinando esos significados de acuerdo con las reglas gramaticales del idioma. .

Aunque no se cree que los bebés utilicen el reconocimiento léxico en su primer año, debido a su vocabulario muy limitado, es uno de los principales procesos involucrados en la segmentación del habla para adultos. Existen tres modelos principales de reconocimiento léxico en la investigación actual: primero, el acceso de palabras completas, que sostiene que las palabras tienen una representación de palabras completas en el léxico; segundo, descomposición, que sostiene que palabras morfológicamente complejos se descomponen en sus morfemas ( raíces , tallos , inflexiones , etc.) y, a continuación interpretados y; tercero, la opinión de que se utilizan modelos de palabra completa y de descomposición, pero que el modelo de palabra completa ofrece algunas ventajas computacionales y, por lo tanto, es dominante en el reconocimiento léxico. ^[1]

Para dar un ejemplo, en un modelo de palabra completa, la palabra "gatos" podría almacenarse y buscarse por letra, primero "c", luego "ca", "gato" y finalmente "gatos". La misma palabra, en un modelo de descomposición, probablemente se almacenaría bajo la palabra raíz "gato" y se podría buscar después de eliminar el sufijo "s". "Falling", de manera similar, se almacenaría como "fall" y se le añadiría el sufijo "ing". ^[2]

Aunque los defensores del modelo de descomposición reconocen que un análisis de morfema por morfema puede requerir mucho más cálculo, argumentan que el desempaquetado de información morfológica es necesario para otros procesos (como la estructura sintáctica ) que pueden ocurrir paralelamente a las búsquedas léxicas.

En general, la investigación de los sistemas de reconocimiento léxico humano es limitada debido a la poca evidencia experimental que discrimina completamente entre los tres modelos principales. ^[1]

En cualquier caso, el reconocimiento léxico probablemente contribuya de manera significativa a la segmentación del habla a través de las pistas contextuales que proporciona, dado que es un sistema altamente probabilístico, basado en la probabilidad estadística de que ciertas palabras o constituyentes aparezcan juntos. Por ejemplo, uno puede imaginar una situación en la que una persona podría decir "Compré mi perro en una tienda ____" y la vocal de la palabra que falta se pronuncia como "red", "sudor" o "mascota". Si bien la probabilidad de "netshop" es extremadamente baja, dado que "netshop" no es actualmente un compuesto o frase en inglés, y "sweatshop" también parece improbable en el contexto, "pet shop" es una buena opción porque es una frase común y también se relaciona con la palabra "perro". ^[3]

Además, un enunciado puede tener diferentes significados dependiendo de cómo se divida en palabras. Un ejemplo popular, a menudo citado en el campo, es la frase "Cómo arruinar una bonita playa", que suena muy similar a "Cómo reconocer el habla". ^[4] Como muestra este ejemplo, la segmentación léxica adecuada depende del contexto y la semántica que se basa en la totalidad del conocimiento y la experiencia humanos y, por lo tanto, requeriría la implementación de tecnologías avanzadas de reconocimiento de patrones e inteligencia artificial en una computadora.

El reconocimiento léxico es de particular valor en el campo del reconocimiento de voz por computadora , ya que la capacidad de construir y buscar una red de ideas conectadas semánticamente aumentaría en gran medida la efectividad del software de reconocimiento de voz. Los modelos estadísticos se pueden utilizar para segmentar y alinear el habla grabada con palabras o teléfonos. Las aplicaciones incluyen sincronización automática de labios para animación de dibujos animados, subtítulos de video de seguimiento de la pelota que rebota e investigación lingüística. El software de segmentación y alineación automática está disponible comercialmente.

Señales fonotácticas

Para la mayoría de los idiomas hablados, los límites entre las unidades léxicas son difíciles de identificar; La fonotáctica es una respuesta a este problema. Se podría esperar que los espacios entre palabras utilizados por muchos idiomas escritos como el inglés o el español correspondan a pausas en su versión hablada, pero eso es cierto solo en el habla muy lenta, cuando el hablante inserta deliberadamente esas pausas. En el habla normal, uno suele encontrar muchas palabras consecutivas que se dicen sin pausas entre ellas y, a menudo, los sonidos finales de una palabra se mezclan suavemente o se fusionan con los sonidos iniciales de la siguiente.

La noción de que el habla se produce como la escritura, como una secuencia de vocales y consonantes distintas, puede ser una reliquia de la herencia alfabética de algunas comunidades lingüísticas. De hecho, la forma en que se producen las vocales depende de las consonantes circundantes, al igual que las consonantes se ven afectadas por las vocales circundantes; esto se llama coarticulación . Por ejemplo, en la palabra "kit", la [k] está más adelantada que cuando decimos "atrapado". Pero también, la vocal en "kick" es fonéticamente diferente de la vocal en "kit", aunque normalmente no escuchamos esto. Además, hay cambios específicos del idioma que ocurren en el habla informal, lo que lo hace bastante diferente de la ortografía. Por ejemplo, en inglés, la frase "hit you" a menudo podría escribirse de manera más apropiada como "hitcha".

Desde una perspectiva de descomposición, en muchos casos, la fonotáctica juega un papel importante en permitir que los hablantes sepan dónde trazar los límites de las palabras. En inglés, los hablantes perciben que la palabra "fresa" consta (fonéticamente) de dos partes: "paja" y "baya". Otras interpretaciones como "stra" y "wberry" son inhibidas por la fonotactica inglesa, que no permite el cluster "wb" word-initial. Otros ejemplos de este tipo son "día / sueño" y "milla / piedra", que es poco probable que se interpreten como "da / ydream" o "mil / estone" debido a la probabilidad fonotáctica o improbabilidad de ciertos grupos. La oración "Five women left", que podría transcribirse fonéticamente como [faɪvwɪmɘnlɛft], está marcada ya que ni / vw / in / faɪvwɪmɘn / ni / nl / in / wɪmɘnlɛft / están permitidos como inicios de sílabas o codas en fonotactica inglesa. Estas señales fonotácticas a menudo permiten a los hablantes distinguir fácilmente los límites de las palabras.

La armonía vocal en idiomas como el finlandés también puede servir para proporcionar pistas fonotácticas. Si bien el sistema no permite que las vocales anteriores y posteriores coexistan dentro de un morfema, los compuestos permiten que dos morfemas mantengan su propia armonía vocal mientras coexisten en una palabra. Por lo tanto, en compuestos como "selkä / ongelma" ('problema de espalda') donde la armonía vocal es distinta entre dos constituyentes en un compuesto, el límite estará donde se produzca el cambio de armonía: entre la "ä" y la "ö " en este caso. ^[5] Aún así, hay casos en los que la fonotáctica puede no ayudar en la segmentación. Las palabras con agrupaciones poco claras o armonía de vocales no contrastadas como en "opinto / uudistus" ('reforma estudiantil') no ofrecen pistas fonotácticas sobre cómo están segmentadas. ^[6]^{[ se necesita cita completa ]}

Sin embargo, desde la perspectiva del modelo de palabra completa, se cree que estas palabras se almacenan como palabras completas, por lo que las partes constituyentes no serían necesariamente relevantes para el reconocimiento léxico.

Segmentación del habla en bebés y no nativos

Los bebés son uno de los principales focos de investigación en la segmentación del habla. Dado que los bebés aún no han adquirido un léxico capaz de proporcionar pistas contextuales extensas o búsquedas de palabras basadas en la probabilidad durante su primer año, como se mencionó anteriormente, a menudo deben depender principalmente de claves fonotácticas y rítmicas ( siendo la prosodia la clave dominante), todos que son específicos del idioma. Entre los 6 y los 9 meses, los bebés comienzan a perder la capacidad de discriminar entre los sonidos que no están presentes en su idioma nativo y se vuelven sensibles a la estructura sonora de su idioma nativo, y las habilidades de segmentación de palabras aparecen alrededor de los 7,5 meses.

Aunque es necesario realizar mucha más investigación sobre los procesos exactos que utilizan los bebés para comenzar la segmentación del habla, los estudios actuales y pasados sugieren que los bebés nativos del inglés se acercan a las sílabas acentuadas como el comienzo de las palabras. A los 7,5 meses, los bebés parecen ser capaces de segmentar palabras bisilábicas con patrones de estrés fuerte-débil , aunque los patrones de estrés débil-fuerte a menudo se malinterpretan, por ejemplo, interpretar "guiTAR es" como "GUI TARis". Parece que los bebés también muestran cierta complejidad en el seguimiento de la frecuencia y probabilidad de las palabras, por ejemplo, reconociendo que aunque las sílabas "el" y "perro" ocurren juntas con frecuencia, "el" también ocurre comúnmente con otras sílabas, lo que puede llevar a la análisis de que "perro" es una palabra o concepto individual en lugar de la interpretación "el perro". ^[7]^[8]

Los estudiantes de idiomas son otro grupo de personas que se están investigando dentro de la segmentación del habla. De alguna manera, aprender a segmentar el habla puede ser más difícil para un niño que aprende un segundo idioma que para un bebé, no solo por la falta de familiaridad con las probabilidades y restricciones del sonido, sino particularmente por la aplicación excesiva de los patrones del idioma nativo. Si bien algunos patrones pueden ocurrir entre idiomas, como en la segmentación silábica del francés y el inglés, es posible que no funcionen bien con idiomas como el japonés, que tiene un sistema de segmentación basado en mora . Además, las restricciones fonotácticas como el clúster de marcado de límites / ld / en alemán u holandés están permitidas (sin marcar necesariamente los límites) en inglés. Incluso la relación entre el estrés y la longitud de las vocales , que puede parecer intuitiva para los hablantes de inglés, puede no existir en otros idiomas, por lo que los estudiantes de un segundo idioma enfrentan un desafío especialmente grande al aprender un idioma y sus señales de segmentación. ^[9]

Ver también

Ambigüedad
Reconocimiento de voz
Procesamiento de voz
Separación
Mondegreen
Percepción del habla
Desambiguación del límite de la oración

Referencias

^ a b Badecker, William y Mark Allen. "Análisis morfológico y la percepción de la identidad léxica: un estudio de cebado enmascarado de homógrafos de tallo" . Journal of Memory and Language 47.1 (2002): 125-144. Consultado el 27 de abril de 2014.
^ Taft, Marcus y Kenneth I. Forster. "Almacenamiento léxico y recuperación de palabras polimorfemicas y polisilábicas" . Journal of Verbal Learning and Verbal Behavior 15.6 (1976): 607–620. Consultado el 27 de abril de 2014.
^ Lieberman, Henry; Alexander Faaborg; Waseem Daher; José Espinosa (9 al 12 de enero de 2005). "Cómo arruinar una playa bonita cantan incienso tranquilo" (PDF) . Biblioteca multimedia del MIT. Cite journal requiere |journal=( ayuda )
^ Un ejemplo de uso frecuente en la literatura de reconocimiento de voz . Un ejemplo temprano es N. Rex Dixon, "Some Problems in Automatic Recognition of Continuous Speech and Their Implications for Pattern Recognition" Actas de la Primera Conferencia Conjunta Internacional sobre Reconocimiento de Patrones , IEEE, 1973, citado en Mark Liberman, "Wrecking a nice beach ", Language Log 5 de agosto de 2014
^ Bertram, Raymond; Alexander Pollatsek; y Jukka Hyönä. "Análisis morfológico y el uso de señales de segmentación en la lectura de compuestos finlandeses" . Revista de memoria y lenguaje 51.3 (2004): 325–345. Consultado el 27 de abril de 2014.
^ "Introducción general" (PDF) . Archivado desde el original (PDF) el 27 de abril de 2014. Falta o vacío |title=( ayuda )
^ Jusczyk, Peter W. y Derek M. Houston. "Los inicios de la segmentación de palabras en bebés que aprenden inglés" . Psicología cognitiva 39 (1999): 159-207. Consultado el 27 de abril de 2014.
^ Johnson, Elizabeth K. y Peter W. Jusczyk. "Segmentación de palabras por niños de 8 meses: cuando las señales del habla cuentan más que las estadísticas" . Journal of Memory and Language 44 (2001): 548–567. Consultado el 27 de abril de 2014.
^ Tyler, Michael D. y Anne Cutler. "Diferencias entre idiomas en el uso de señales para la segmentación del habla" . Revista de la Sociedad Americana de Acústica 126 (2009): 367–376. Consultado el 27 de abril de 2014.

enlaces externos

Software de segmentación de voz "Phonolyze"
SPPAS: la anotación y el análisis automáticos del habla

[Badecker_&_Allen-1] Badecker, William y Mark Allen. "Análisis morfológico y la percepción de la identidad léxica: un estudio de cebado enmascarado de homógrafos de tallo" . Journal of Memory and Language 47.1 (2002): 125-144. Consultado el 27 de abril de 2014.

[2] Taft, Marcus y Kenneth I. Forster. "Almacenamiento léxico y recuperación de palabras polimorfemicas y polisilábicas" . Journal of Verbal Learning and Verbal Behavior 15.6 (1976): 607–620. Consultado el 27 de abril de 2014.

[3] Lieberman, Henry; Alexander Faaborg; Waseem Daher; José Espinosa (9 al 12 de enero de 2005). "Cómo arruinar una playa bonita cantan incienso tranquilo" (PDF) . Biblioteca multimedia del MIT. Cite journal requiere |journal=( ayuda )

[4] Un ejemplo de uso frecuente en la literatura de reconocimiento de voz . Un ejemplo temprano es N. Rex Dixon, "Some Problems in Automatic Recognition of Continuous Speech and Their Implications for Pattern Recognition" Actas de la Primera Conferencia Conjunta Internacional sobre Reconocimiento de Patrones , IEEE, 1973, citado en Mark Liberman, "Wrecking a nice beach ", Language Log 5 de agosto de 2014

[5] Bertram, Raymond; Alexander Pollatsek; y Jukka Hyönä. "Análisis morfológico y el uso de señales de segmentación en la lectura de compuestos finlandeses" . Revista de memoria y lenguaje 51.3 (2004): 325–345. Consultado el 27 de abril de 2014.

[6] "Introducción general" (PDF) . Archivado desde el original (PDF) el 27 de abril de 2014. Falta o vacío |title=( ayuda )

[7] Jusczyk, Peter W. y Derek M. Houston. "Los inicios de la segmentación de palabras en bebés que aprenden inglés" . Psicología cognitiva 39 (1999): 159-207. Consultado el 27 de abril de 2014.

[8] Johnson, Elizabeth K. y Peter W. Jusczyk. "Segmentación de palabras por niños de 8 meses: cuando las señales del habla cuentan más que las estadísticas" . Journal of Memory and Language 44 (2001): 548–567. Consultado el 27 de abril de 2014.

[9] Tyler, Michael D. y Anne Cutler. "Diferencias entre idiomas en el uso de señales para la segmentación del habla" . Revista de la Sociedad Americana de Acústica 126 (2009): 367–376. Consultado el 27 de abril de 2014.

[1]