TRACE es un modelo conexionista de percepción del habla , propuesto por James McClelland y Jeffrey Elman en 1986. [1] Se basa en una estructura llamada "Trace", una estructura de procesamiento dinámico compuesta por una red de unidades, que funciona como el memoria de trabajo del sistema, así como el mecanismo de procesamiento perceptual. [2] TRACE se convirtió en un programa de computadora funcional para ejecutar simulaciones perceptivas. Estas simulaciones son predicciones sobre cómo una mente / cerebro humano procesa los sonidos y las palabras del habla a medida que se escuchan en tiempo real.
Inspiración
TRACE se creó durante el período formativo del conexionismo y se incluyó como un capítulo en Procesamiento distribuido paralelo: Exploraciones en las microestructuras de la cognición . [3] Los investigadores encontraron que ciertos problemas relacionados con la percepción del habla podrían conceptualizarse en términos de un modelo de activación interactiva conexionista. Los problemas fueron que (1) el habla se extiende en el tiempo, (2) los sonidos del habla (fonemas) se superponen entre sí, (3) la articulación de un sonido del habla se ve afectada por los sonidos que vienen antes y después, y (4) existe una variabilidad natural en el habla (por ejemplo, acento extranjero) así como ruido en el ambiente (por ejemplo, un restaurante concurrido). Cada uno de estos hace que la señal del habla sea compleja y, a menudo, ambigua, lo que dificulta que la mente / cerebro humano decida qué palabras está escuchando realmente. En términos muy simples, un modelo de activación interactivo resuelve este problema colocando diferentes tipos de unidades de procesamiento (fonemas, palabras) en capas aisladas, permitiendo que las unidades activadas pasen información entre capas y haciendo que las unidades dentro de las capas compitan entre sí, hasta que el “ ganador ”es considerado“ reconocido ”por el modelo.
Resultados clave
"TRACE fue el primer modelo que instancia la activación de múltiples palabras candidatas que coinciden con cualquier parte de la entrada de voz". [4] Una simulación de la percepción del habla implica presentar el programa de computadora TRACE con una entrada de voz simulada, ejecutar el programa y generar un resultado. Una simulación exitosa indica que el resultado es significativamente similar a cómo las personas procesan el habla.
Transcurso del tiempo del reconocimiento de palabras
En psicolingüística se acepta generalmente que (1) cuando se escucha el comienzo de una palabra, un conjunto de palabras que comparten el mismo sonido inicial se activan en la memoria, [5] (2) las palabras que se activan compiten entre sí mientras cada vez se escucha más palabra, [6] (3) en algún momento, debido tanto a la entrada auditiva como a la competencia léxica, se reconoce una palabra. [1]
Por ejemplo, un oyente escucha el comienzo de calvo y las palabras calvo, pelota, malo, factura se activan en la memoria. Luego, poco después, solo el calvo y la pelota permanecen en competencia (mal, se eliminó el pico porque el sonido de la vocal no coincide con la entrada). Poco después, se reconoce a la calva. TRACE simula este proceso representando la dimensión temporal del habla, permitiendo que las palabras del léxico varíen en su fuerza de activación y haciendo que las palabras compitan durante el procesamiento. La Figura 1 muestra un gráfico de líneas de la activación de palabras en una simple simulación de TRACE.
Efecto léxico sobre la percepción de fonemas
Si se pronuncia un sonido de habla ambiguo que está exactamente entre / t / y / d / , el oyente puede tener dificultades para decidir cuál es. Pero, si ese mismo sonido ambiguo se escucha al final de una palabra como woo /? / (¿Dónde? Es el sonido ambiguo), entonces es más probable que el oyente perciba el sonido como a / d / . Esto probablemente ocurre porque madera es una palabra, pero woot no lo es. Un fonema ambiguo presentado en un contexto léxico será percibido como consistente con el contexto léxico circundante. Este efecto de percepción se conoce como efecto Ganong. [7] TRACE simula esto de manera confiable y puede explicarlo en términos relativamente simples. Esencialmente, la unidad léxica que ha sido activada por la entrada (es decir, madera) retroalimenta la activación a la capa de fonemas, impulsando la activación de sus fonemas constituyentes (es decir, / d / ), resolviendo así la ambigüedad.
Base léxica de la segmentación
Los hablantes no suelen dejar pausas entre las palabras cuando hablan [ cita requerida ] , sin embargo, los oyentes parecen no tener dificultad para escuchar el habla como una secuencia de palabras. Esto se conoce como el problema de la segmentación y es uno de los problemas más antiguos de la psicología del lenguaje . TRACE propuso la siguiente solución, respaldada por simulaciones. Cuando las palabras se activan y reconocen, esto revela la ubicación de los límites de las palabras. La activación de palabras más fuerte conduce a una mayor confianza en los límites de las palabras, lo que informa al oyente de dónde esperar que comience la siguiente palabra. [1]
Proceso
El modelo TRACE es una red conexionista con una capa de entrada y tres capas de procesamiento: pseudo-espectro (característica), fonema y palabra. La figura 2 muestra un diagrama esquemático de TRACE. Hay tres tipos de conectividad: (1) conexiones excitadoras de retroalimentación desde la entrada a las características, las características a los fonemas y los fonemas a las palabras; (2) conexiones inhibitorias laterales (es decir, dentro de la capa) en las capas de característica, fonema y palabra; y (3) conexiones excitadoras de retroalimentación de arriba hacia abajo desde las palabras hasta los fonemas. La entrada a TRACE funciona de la siguiente manera. El usuario proporciona una secuencia de fonemas que se convierte en un vector de características multidimensional. Esta es una aproximación de los espectros acústicos extendidos en el tiempo. El vector de entrada se revela poco a poco para simular la naturaleza temporal del habla. A medida que se presenta cada nuevo fragmento de entrada, esto envía actividad a lo largo de las conexiones de red, cambiando los valores de activación en las capas de procesamiento. Las funciones activan unidades de fonemas y los fonemas activan unidades de palabras. Los parámetros gobiernan la fuerza de las conexiones excitadoras e inhibidoras, así como muchos otros detalles de procesamiento. No existe un mecanismo específico que determine cuándo se ha reconocido una palabra o un fonema. Si las simulaciones se comparan con los datos del tiempo de reacción de un experimento perceptual (por ejemplo, decisión léxica), normalmente se utiliza un umbral de activación. Esto permite interpretar el comportamiento del modelo como reconocimiento y registrar un tiempo de reconocimiento como el número de ciclos de procesamiento que han transcurrido. Para una comprensión más profunda de la dinámica de procesamiento de TRACE, se remite a los lectores a la publicación original [1] ya una herramienta de software de TRACE que ejecuta simulaciones con una interfaz gráfica de usuario.
Crítica
Debate sobre la modularidad de la mente
La relevancia de TRACE para el debate de la modularidad ha sido recientemente destacada por el informe de Norris, Cutler y McQueen (2001) sobre el modelo Merge (?) De percepción del habla. [8] Si bien comparte una serie de características con TRACE, una diferencia clave es la siguiente. Mientras que TRACE permite que las unidades de palabras realimenten la activación al nivel del fonema, Merge restringe su procesamiento a las conexiones de retroalimentación. En los términos de este debate, se considera que TRACE viola el principio de encapsulación de información, fundamental para la modularidad, cuando permite una etapa posterior de procesamiento (palabras) para enviar información a una etapa anterior (fonemas). Merge aboga por la modularidad argumentando que la misma clase de fenómenos perceptivos que se explica en TRACE puede explicarse en una arquitectura conexionista que no incluye conexiones de retroalimentación. Norris y col. señale que cuando dos teorías pueden explicar el mismo fenómeno, la parsimonia dicta que es preferible la teoría más simple.
Aplicaciones
Terapia del habla y del lenguaje
Los modelos de procesamiento del lenguaje se pueden utilizar para conceptualizar la naturaleza de la discapacidad en personas con trastornos del habla y del lenguaje . Por ejemplo, se ha sugerido que los déficits del lenguaje en la afasia expresiva pueden ser causados por una competencia excesiva entre unidades léxicas, lo que impide que cualquier palabra se active lo suficiente. [9] Los argumentos a favor de esta hipótesis consideran que la disfunción mental puede explicarse por una ligera perturbación del procesamiento del modelo de red. Esta línea de investigación emergente incorpora una amplia gama de teorías y modelos, y TRACE representa solo una pieza de un rompecabezas en crecimiento.
Distinción del software de reconocimiento de voz
Los modelos psicolingüísticos de percepción del habla, por ejemplo, TRACE, deben distinguirse de las herramientas informáticas de reconocimiento de voz . Las primeras son teorías psicológicas sobre cómo la mente / cerebro humano procesa la información. Estos últimos son soluciones diseñadas para convertir una señal acústica en texto. Históricamente, los dos campos han tenido poco contacto, pero esto está comenzando a cambiar. [10]
Influencia
La influencia de TRACE en la literatura psicológica puede evaluarse por el número de artículos que la citan. Hay 345 citas de McClelland y Elman (1986) en la base de datos PsycINFO . La Figura 3 muestra la distribución de esas citas a lo largo de los años desde su publicación. La figura sugiere que el interés en TRACE creció significativamente en 2001 y se ha mantenido fuerte, con alrededor de 30 citas por año.
Ver también
- Teoría motora de la percepción del habla (teoría rival)
- Modelo de cohorte (teoría rival)
Referencias
- ^ a b c d McClelland, JL y Elman, JL (1986)
- ^ McClelland, James; Elman, Jeffrey (enero de 1986). "El modelo TRACE de percepción del habla". Psicología cognitiva . 18 (1): 1–86. doi : 10.1016 / 0010-0285 (86) 90015-0 . PMID 3753912 .
- ^ McClelland, JL, DE Rumelhart y el grupo de investigación de PDP (1986). Procesamiento distribuido paralelo: exploraciones en la microestructura de la cognición. Volumen 2: Modelos psicológicos y biológicos, Cambridge, Massachusetts: MIT Press
- ^ Weber, Andrea; Scharenborg, Odette (1 de mayo de 2012). "Modelos de reconocimiento de palabras habladas". Revisiones interdisciplinarias de Wiley: ciencia cognitiva . 3 (3): 387–401. doi : 10.1002 / wcs.1178 . hdl : 11858 / 00-001M-0000-0012-29E4-5 . ISSN 1939-5086 . PMID 26301470 .
- ^ Marslen-Wilson, W .; Tyler, LK (1980). "La estructura temporal de la comprensión del lenguaje hablado". Cognición . 8 (1): 1–71. CiteSeerX 10.1.1.299.7676 . doi : 10.1016 / 0010-0277 (80) 90015-3 . PMID 7363578 .
- ^ Luce, PA; Pisoni, DB (1998). "Reconocimiento de la palabra hablada: el modelo de activación vecinal" . Oído y audición . 19 : 1–36. doi : 10.1097 / 00003446-199802000-00001 . PMC 3467695 .
- ^ Ganong, WF (1980). Categorización fonética en la percepción auditiva. Revista de psicología experimental: percepción y rendimiento humanos, 6, 110-125.
- ^ Norris, D .; McQueen, JM; Cutler, A. (2000). "Fusionar información en el reconocimiento de voz: la retroalimentación nunca es necesaria". Ciencias del comportamiento y del cerebro . 23 : 299–370. doi : 10.1017 / s0140525x00003241 . hdl : 11858 / 00-001M-0000-0013-3790-1 .
- ^ Dinámica autoorganizada del acceso léxico en normales y afásicos. McNellis, Mark G .; Blumstein, Sheila E .; Journal of Cognitive Neuroscience, Vol 13 (2), febrero de 2001. págs. 151-170.
- ^ Scharenborg, O .; Norris, D .; diez Bosch, L .; McQueen, JM (2005). "¿Cómo debería funcionar un reconocedor de voz?". Ciencia cognitiva . 29 (6): 867–918. doi : 10.1207 / s15516709cog0000_37 . hdl : 11858 / 00-001M-0000-0013-1E5D-C . PMID 21702797 .
enlaces externos
- jTRACE : una reimplementación de Java del modelo TRACE. Software independiente de la plataforma de código abierto. La página también incluye la descarga de una implementación de lenguaje C anterior de TRACE.