Procesamiento neurocomputacional del habla

El procesamiento neurocomputacional del habla es una simulación por computadora de la producción y la percepción del habla al referirse a los procesos neuronales naturales de producción y percepción del habla , tal como ocurren en el sistema nervioso humano ( sistema nervioso central y sistema nervioso periférico ). Este tema se basa en la neurociencia y la neurociencia computacional . ^[1]

Descripción general

Los modelos neurocomputacionales de procesamiento del habla son complejos. Comprenden al menos una parte cognitiva , una parte motora y una parte sensorial .

La parte cognitiva o lingüística de un modelo neurocomputacional de procesamiento del habla comprende la activación neuronal o la generación de una representación fonémica en el lado de la producción del habla (por ejemplo, versión neurocomputacional y extendida del modelo Levelt desarrollado por Ardi Roelofs: ^[2] WEAVER ++ ^[3] así como la activación neuronal o generación de una intención o significado del lado de la percepción del habla o la comprensión del habla .

La parte motora de un modelo neurocomputacional de procesamiento del habla comienza con una representación fonémica de un elemento del habla, activa un plan motor y termina con la articulación de ese elemento del habla en particular (ver también: fonética articulatoria ).

La parte sensorial de un modelo neurocomputacional de procesamiento del habla comienza con una señal acústica de un elemento del habla ( señal acústica del habla ), genera una representación auditiva para esa señal y activa una representación fonémica para ese elemento del habla.

Temas de procesamiento del habla neurocomputacional

El procesamiento neurocomputacional del habla es el procesamiento del habla mediante redes neuronales artificiales . Los mapas, mapeos y rutas neuronales que se describen a continuación son estructuras modelo, es decir, estructuras importantes dentro de las redes neuronales artificiales.

Mapas neuronales

Fig. 1: Mapa neuronal 2D con patrón de activación local. magenta: neurona con mayor grado de activación; azul: neuronas sin activación

Una red neuronal artificial se puede separar en tres tipos de mapas neuronales, también llamados "capas":

mapas de entrada (en el caso del procesamiento del habla: mapa auditivo primario dentro de la corteza auditiva , mapa somatosensorial primario dentro de la corteza somatosensorial ),
mapas de salida (mapa motor primario dentro de la corteza motora primaria ), y
mapas corticales de nivel superior (también llamados "capas ocultas").

El término "mapa neural" se prefiere aquí sobre el término "capa neural", porque un mapa neural cortial debe modelarse como un mapa 2D de neuronas interconectadas (p. Ej., Como un mapa autoorganizado ; ver también Fig. 1). Por tanto, cada "neurona modelo" o " neurona artificial " dentro de este mapa 2D está representada fisiológicamente por una columna cortical, ya que la corteza cerebral presenta anatómicamente una estructura en capas.

Representaciones neuronales (estados neuronales)

Una representación neuronal dentro de una red neuronal artificial es un estado (neuronal) temporalmente activado dentro de un mapa neuronal específico. Cada estado neuronal está representado por un patrón de activación neuronal específico. Este patrón de activación cambia durante el procesamiento del habla (por ejemplo, de una sílaba a otra).

Fig. 2: Mapa neuronal 2D con patrón de activación distribuido. Ejemplo: " espectrograma neuronal " (esta representación neuronal auditiva es especulativa; consulte el modelo ACT, a continuación)

En el modelo ACT (ver más abajo), se asume que un estado auditivo puede ser representado por un " espectrograma neuronal " (ver Fig. 2) dentro de un mapa de estado auditivo. Se supone que este mapa del estado auditivo está ubicado en la corteza de asociación auditiva (ver corteza cerebral ).

Un estado somatosensorial se puede dividir en un estado táctil y propioceptivo y se puede representar mediante un patrón de activación neural específico dentro del mapa del estado somatosensorial. Se supone que este mapa de estados está ubicado en la corteza de asociación somatosensorial (ver corteza cerebral , sistema somatosensorial , corteza somatosensorial ).

Se puede suponer un estado de plan motor para representar un plan motor, es decir, la planificación de la articulación del habla para una sílaba específica o para un elemento de habla más largo (por ejemplo, palabra, frase corta). Se supone que este mapa de estado está ubicado en la corteza premotora , mientras que la activación instantánea (o de nivel inferior) de cada articulador del habla ocurre dentro de la corteza motora primaria (ver corteza motora ).

Las representaciones neuronales que ocurren en los mapas sensoriales y motores (como se introdujo anteriormente) son representaciones distribuidas (Hinton et al. 1968 ^[4] ): Cada neurona dentro del mapa sensorial o motor está más o menos activada, lo que lleva a un patrón de activación específico.

La representación neuronal de las unidades de voz que se encuentran en el mapa de sonidos de voz (ver a continuación: modelo DIVA) es una representación puntual o local. Cada elemento de voz o unidad de voz está representado aquí por una neurona específica (celda modelo, ver más abajo).

Mapeos neuronales (proyecciones sinápticas)

Fig.3: Mapeo neuronal entre mapa fonético (patrón de activación local para un estado fonético específico), mapa de estado del plan motor (patrón de activación distribuido) y mapa de estado auditivo (patrón de activación distribuido) como parte del modelo ACT. Solo se muestran las conexiones neuronales con la neurona ganadora dentro del mapa fonético.

Un mapeo neural conecta dos mapas neurales corticales. Las asignaciones neuronales (a diferencia de las vías neuronales) almacenan información de entrenamiento ajustando los pesos de sus enlaces neuronales (ver neurona artificial , redes neuronales artificiales ). Los mapeos neuronales son capaces de generar o activar una representación distribuida (ver arriba) de un estado sensorial o motor dentro de un mapa sensorial o motor a partir de una activación puntual o local dentro del otro mapa (ver, por ejemplo, la proyección sináptica del mapa de sonidos del habla al mapa motor mapa, al mapa de la región del objetivo auditivo, o al mapa de la región del objetivo somatosensorial en el modelo DIVA, que se explica a continuación; o vea, por ejemplo, el mapeo neural del mapa fonético al mapa del estado auditivo y el mapa del estado del plan motor en el modelo ACT, explicado a continuación y la Fig .3).

El mapeo neuronal entre dos mapas neuronales es compacto o denso: cada neurona de un mapa neuronal está interconectada con (casi) cada neurona del otro mapa neuronal (conexión de muchos a muchos, ver redes neuronales artificiales ). Debido a este criterio de densidad para los mapeos neuronales, los mapas neuronales que están interconectados por un mapeo neuronal no están muy separados unos de otros.

Vías neurales

A diferencia de los mapas neurales, las vías neurales pueden conectar mapas neurales que están muy separados (por ejemplo, en diferentes lóbulos corticales, ver corteza cerebral ). Desde el punto de vista funcional o de modelado, las vías neuronales principalmente envían información sin procesar esta información. Una vía neuronal en comparación con un mapeo neuronal necesita muchas menos conexiones neuronales. Se puede modelar una vía neural utilizando una conexión uno a uno de las neuronas de ambos mapas neurales (ver mapeo topográfico y ver disposición somatotópica ).

Ejemplo: en el caso de dos mapas neuronales, cada uno de los cuales comprende 1,000 neuronas modelo, un mapeo neuronal necesita hasta 1,000,000 de conexiones neuronales (conexión de muchos a muchos), mientras que solo se necesitan 1,000 conexiones en el caso de una conexión de vía neuronal.

Además, los pesos de enlace de las conexiones dentro de un mapeo neuronal se ajustan durante el entrenamiento, mientras que las conexiones neuronales en el caso de una vía neuronal no necesitan ser entrenadas (cada conexión es de exhibición máxima).

Modelo DIVA

El enfoque principal en el modelado neurocomputacional de la producción del habla es el modelo DIVA desarrollado por Frank H. Guenther y su grupo en la Universidad de Boston. ^[5]^[6]^[7]^[8] El modelo da cuenta de una amplia gama de datos fonéticos y de neuroimagen pero, como cada modelo neurocomputacional, sigue siendo especulativo hasta cierto punto.

Estructura del modelo

Fig. 4: Organización del modelo DIVA; Esta figura es una adaptación de Guenther et al. 2006

La organización o estructura del modelo DIVA se muestra en la Fig.4.

Mapa sonoro del habla: la representación fonémica como punto de partida

El mapa de sonidos del habla, que se supone que está ubicado en la parte inferior y posterior del área de Broca (opérculo frontal izquierdo), representa (especificadas fonológicamente) unidades de habla específicas del lenguaje (sonidos, sílabas, palabras, frases cortas). Cada unidad de voz (principalmente sílabas; por ejemplo, la sílaba y la palabra "palm" / pam /, las sílabas / pa /, / ta /, / ka /, ...) está representada por una celda modelo específica dentro del mapa de sonidos del habla ( es decir, representaciones neuronales puntuales, véase más arriba). Cada célula modelo (ver neurona artificial ) corresponde a una pequeña población de neuronas que se encuentran a corta distancia y que se activan juntas.

Control feedforward: activación de representaciones motoras

Cada neurona (célula modelo, neurona artificial ) dentro del mapa de sonido del habla puede activarse y posteriormente activa un comando motor hacia adelante hacia el mapa motor, llamado mapa de posición y velocidad articulatoria. La representación neuronal activada en el nivel de ese mapa motor determina la articulación de una unidad de habla, es decir, controla todos los articuladores (labios, lengua, velo, glotis) durante el intervalo de tiempo para producir esa unidad de habla. El control directo también involucra estructuras subcorticales como el cerebelo , que no se modelan en detalle aquí.

Una unidad de voz representa una cantidad de elementos de voz que pueden asignarse a la misma categoría fonémica. Por tanto, cada unidad de habla está representada por una neurona específica dentro del mapa de sonido del habla, mientras que la realización de una unidad de habla puede exhibir alguna variabilidad articulatoria y acústica. Esta variabilidad fonética es la motivación para definir regiones objetivo sensoriales en el modelo DIVA (ver Guenther et al. 1998 ^[9] ).

Modelo articulatorio: generación de información de retroalimentación somatosensorial y auditiva

El patrón de activación dentro del mapa motor determina el patrón de movimiento de todos los articuladores modelo (labios, lengua, velo, glotis) para un elemento del habla. Para no sobrecargar el modelo, no se realiza un modelado detallado del sistema neuromuscular . El sintetizador articulatorio de voz Maeda se utiliza para generar movimientos articuladores, lo que permite la generación de una forma de tracto vocal variable en el tiempo y la generación de la señal acústica del habla para cada elemento del habla en particular.

En términos de inteligencia artificial, el modelo articulatorio se puede llamar planta (es decir, el sistema, que está controlado por el cerebro); representa una parte de la encarnación del sistema de procesamiento del habla neuronal. El modelo articulatorio genera una salida sensorial que es la base para generar información de retroalimentación para el modelo DIVA (ver más abajo: control de retroalimentación).

Control de retroalimentación: regiones objetivo sensoriales, mapas de estado y mapas de error

Por un lado, el modelo articulatorio genera información sensorial , es decir, un estado auditivo para cada unidad de habla que está representado neuronalmente dentro del mapa de estado auditivo (representación distribuida), y un estado somatosensorial para cada unidad de habla que está representado de forma neuronal dentro del mapa de estado somatosensorial. (representación distribuida también). Se supone que el mapa del estado auditivo está ubicado en la corteza temporal superior, mientras que se supone que el mapa del estado somatosensorial está ubicado en la corteza parietal inferior .

Por otro lado, el mapa de sonidos del habla, si se activa para una unidad de habla específica (activación de una sola neurona; activación puntual), activa la información sensorial mediante proyecciones sinápticas entre el mapa de sonidos del habla y el mapa de la región diana auditiva y entre el mapa de los sonidos del habla y la región diana somatosensorial. mapa. Se supone que las regiones diana auditiva y somatosensorial están ubicadas en regiones corticales auditivas de orden superior y en regiones corticales somatosensoriales de orden superior, respectivamente. Estos patrones de activación sensorial de la región objetivo, que existen para cada unidad del habla, se aprenden durante la adquisición del habla (mediante entrenamiento de imitación; ver más abajo: aprendizaje).

En consecuencia, hay dos tipos de información sensorial disponibles si se activa una unidad de habla al nivel del mapa de sonido del habla: (i) regiones objetivo sensoriales aprendidas (es decir, estado sensorial previsto para una unidad de habla) y (ii) patrones de activación del estado sensorial resultantes a partir de una ejecución (articulación) posiblemente imperfecta de una unidad de habla específica (es decir , el estado sensorial actual , que refleja la producción y articulación actuales de esa unidad de habla en particular). Ambos tipos de información sensorial se proyectan en mapas de errores sensoriales, es decir, en un mapa de errores auditivos que se supone que está ubicado en la corteza temporal superior (como el mapa del estado auditivo) y en un mapa de errores somatosensoriales que se supone que está ubicado en el corteza parietal inferior (como el mapa del estado somatosensorial) (ver Fig. 4).

Si el estado sensorial actual se desvía del estado sensorial pretendido, ambos mapas de error están generando comandos de retroalimentación que se proyectan hacia el mapa motor y que son capaces de corregir el patrón de activación del motor y posteriormente la articulación de una unidad de habla en producción. Por lo tanto, en total, el patrón de activación del mapa motor no solo está influenciado por un comando de retroalimentación específico aprendido para una unidad de voz (y generado por la proyección sináptica del mapa de sonido del habla) sino también por un comando de retroalimentación generado a nivel de los mapas de errores sensoriales (ver Fig. 4).

Aprendizaje (modelado de la adquisición del habla)

Si bien la estructura de un modelo neurocientífico de procesamiento del habla (que se muestra en la Figura 4 para el modelo DIVA) está determinada principalmente por procesos evolutivos , el conocimiento (específico del idioma) así como las habilidades del habla (específicas del idioma) se aprenden y se entrenan durante la adquisición del habla . En el caso del modelo DIVA, se supone que el recién nacido no tiene disponible un mapa de sonidos del habla ya estructurado (específico del idioma); es decir, ninguna neurona dentro del mapa de sonidos del habla está relacionada con ninguna unidad de habla. Más bien, la organización del mapa de sonidos del habla así como la sintonización de las proyecciones con el mapa motor y con los mapas de la región objetivo sensorial se aprende o se entrena durante la adquisición del habla. Dos fases importantes de la adquisición temprana del habla se modelan en el enfoque DIVA: Aprender balbuceando y por imitación .

Balbuceo

Durante el balbuceo, se sintonizan las proyecciones sinápticas entre los mapas de errores sensoriales y el mapa motor. Este entrenamiento se realiza generando una cantidad de comandos de retroalimentación semi-aleatorios, es decir, el modelo DIVA "balbucea". Cada una de estas órdenes de balbuceo conduce a la producción de un "elemento articulatorio", también etiquetado como "elemento de habla prelingüístico (es decir, no específico del lenguaje)" (es decir, el modelo articulatorio genera un patrón de movimiento articulatorio sobre la base del motor del balbuceo mando). Posteriormente, se genera una señal acústica.

Sobre la base de la señal articulatoria y acústica, se activa un patrón de estado auditivo y somatosensorial específico a nivel de los mapas de estado sensorial (ver Fig. 4) para cada ítem del habla (prelingüística). En este punto, el modelo DIVA tiene disponible el patrón de activación sensorial y motor asociado para diferentes elementos del habla, lo que permite al modelo sintonizar las proyecciones sinápticas entre los mapas de errores sensoriales y el mapa motor. Por lo tanto, durante el balbuceo, el modelo DIVA aprende comandos de retroalimentación (es decir, cómo producir un comando de motor adecuado (retroalimentación) para una entrada sensorial específica).

Imitación

Durante la imitación, el modelo DIVA organiza su mapa de sonido del habla y sintoniza las proyecciones sinápticas entre el mapa de sonido del habla y el mapa motor, es decir, la sintonización de los comandos del motor de avance, así como las proyecciones sinápticas entre el mapa de sonido del habla y las regiones objetivo sensoriales (ver Fig.4) . El entrenamiento de imitación se realiza exponiendo el modelo a una cantidad de señales de habla acústicas que representan realizaciones de unidades de habla específicas del lenguaje (por ejemplo, sonidos de habla aislados, sílabas, palabras, frases cortas).

La sintonización de las proyecciones sinápticas entre el mapa de sonidos del habla y el mapa de la región diana auditiva se logra asignando una neurona del mapa de sonidos del habla a la representación fonémica de ese elemento del habla y asociándola con la representación auditiva de ese elemento del habla, que está activado. en el mapa de la región de destino auditivo. Se producen regiones auditivas (es decir, una especificación de la variabilidad auditiva de una unidad de voz), porque una unidad de voz específica (es decir, una representación fonémica específica) se puede realizar mediante varias realizaciones acústicas (auditivas) (ligeramente) diferentes (para la diferencia entre elementos de voz y unidad de voz ( ver arriba: control anticipativo).

El ajuste de las proyecciones sinápticas entre el mapa de sonido del habla y el mapa del motor (es decir, el ajuste de los comandos del motor hacia adelante) se logra con la ayuda de los comandos de retroalimentación, ya que las proyecciones entre los mapas de errores sensoriales y el mapa del motor ya se sintonizaron durante el entrenamiento de balbuceo (ver arriba). . Por lo tanto, el modelo DIVA intenta "imitar" un elemento del habla auditiva al intentar encontrar un comando motor de avance adecuado. Posteriormente, el modelo compara la salida sensorial resultante ( estado sensorial actual después de la articulación de ese intento) con la región objetivo auditiva ya aprendida ( estado sensorial pretendido ) para ese elemento del habla. Luego, el modelo actualiza el comando del motor de retroalimentación actual mediante el comando del motor de retroalimentación actual generado a partir del mapa de errores auditivos del sistema de retroalimentación auditiva. Este proceso puede repetirse varias veces (varios intentos). El modelo DIVA es capaz de producir el ítem del habla con una diferencia auditiva decreciente entre el estado auditivo actual y el deseado de un intento a otro.

Durante la imitación, el modelo DIVA también es capaz de sintonizar las proyecciones sinápticas del mapa de sonido del habla al mapa de la región objetivo somatosensorial, ya que cada nuevo intento de imitación produce una nueva articulación del elemento del habla y, por lo tanto, produce un patrón de estado somatosensorial que está asociado con la representación fonémica. de ese elemento de discurso.

Experimentos de perturbación

Perturbación en tiempo real de F1: la influencia de la retroalimentación auditiva

Si bien la retroalimentación auditiva es más importante durante la adquisición del habla, puede activarse menos si el modelo ha aprendido un comando motor de retroalimentación adecuado para cada unidad de voz. Pero se ha demostrado que la retroalimentación auditiva necesita ser fuertemente coactivada en el caso de perturbación auditiva (por ejemplo, cambiando una frecuencia de formante, Tourville et al. 2005). ^[10] Esto es comparable a la fuerte influencia de la retroalimentación visual en los movimientos de alcance durante la perturbación visual (por ejemplo, cambiar la ubicación de los objetos al mirar a través de un prisma ).

Bloqueo inesperado de la mandíbula: la influencia de la retroalimentación somatosensorial

De manera comparable a la retroalimentación auditiva, también la retroalimentación somatosensorial puede coactivarse fuertemente durante la producción del habla, por ejemplo, en el caso de un bloqueo inesperado de la mandíbula (Tourville et al. 2005).

Modelo ACT

Un enfoque adicional en el modelado neurocomputacional del procesamiento del habla es el modelo ACT desarrollado por Bernd J. Kröger y su grupo ^[11] en la Universidad RWTH Aachen , Alemania (Kröger et al. 2014, ^[12] Kröger et al. 2009, ^[13] Kröger et al. 2011 ^[14] ). El modelo ACT está de acuerdo con el modelo DIVA en grandes partes. El modelo ACT se centra en el " repositorio de acciones " (es decir, el repositorio de las habilidades del habla sensoriomotora , comparable al silabario mental, ver Levelt y Wheeldon 1994 ^[15] ), que no se detalla en el modelo DIVA. Además, el modelo ACT introduce explícitamente un nivel de planes motores , es decir, una descripción motora de alto nivel para la producción de elementos del habla (ver objetivos motores , corteza motora ). El modelo ACT, como cualquier modelo neurocomputacional, sigue siendo especulativo hasta cierto punto.

Estructura

Fig.5: Organización del modelo ACT

La organización o estructura del modelo ACT se muestra en la Fig.5.

Para la producción del habla , el modelo ACT comienza con la activación de una representación fonémica de un elemento del habla (mapa fonémico). En el caso de una sílaba frecuente , se produce una coactivación a nivel del mapa fonético , lo que lleva a una coactivación adicional del estado sensorial pretendido a nivel de los mapas de estados sensoriales y a una coactivación de un motor. estado del plan al nivel del mapa del plan del motor. En el caso de una sílaba poco frecuente , el módulo de planificación motora genera un intento de un plan motor para ese elemento del habla activando planes motores para elementos del habla fonéticos similares a través del mapa fonético (ver Kröger et al. 2011 ^[16] ). El plan motor o puntuación de acción del tracto vocal comprende acciones del tracto vocal que se superponen temporalmente, que son programadas y posteriormente ejecutadas por el módulo de programación, ejecución y control del motor . Este módulo obtiene información de retroalimentación somatosensorial en tiempo real para controlar la ejecución correcta del plan motor (previsto). La programación motora conduce a un patrón de activación al nivel del mapa motor primario y posteriormente activa el procesamiento neuromuscular . Los patrones de activación de las motoneuronas generan fuerzas musculares y posteriormente patrones de movimiento de todos los articuladores modelo (labios, lengua, velo, glotis). El sintetizador articulatorio Birkholz 3D se utiliza para generar la señal acústica del habla .

Las señales de retroalimentación articulatoria y acústica se utilizan para generar información de retroalimentación somatosensorial y auditiva a través de los módulos de preprocesamiento sensorial, que se reenvía hacia el mapa auditivo y somatosensorial. A nivel de los módulos de procesamiento sensorial-fonético, la información auditiva y somatosensorial se almacena en la memoria a corto plazo y la señal sensorial externa (ES, Fig.5, que se activa a través del circuito de retroalimentación sensorial) se puede comparar con la ya entrenada. señales sensoriales (TS, Fig. 5, que se activan a través del mapa fonético). Se pueden generar señales de error auditivas y somatosensoriales si las señales sensoriales externas e intencionadas (entrenadas) son notablemente diferentes (cf. modelo DIVA).

El área de color verde claro en la Fig. 5 indica aquellos mapas neuronales y módulos de procesamiento, que procesan una sílaba como una unidad completa (ventana de tiempo de procesamiento específico alrededor de 100 ms y más). Este procesamiento comprende el mapa fonético y los mapas de estado sensorial directamente conectados dentro de los módulos de procesamiento sensorial-fonético y el mapa de estado del plan motor conectado directamente, mientras que el mapa motor primario, así como el proceso del mapa (primario) auditivo y (primario) somatosensorial, son más pequeños. ventanas de tiempo (alrededor de 10 ms en el modelo ACT).

Fig.6: Ubicación hipotética de regiones cerebrales para mapas neuronales del modelo ACT

La ubicación cortical hipotética de los mapas neurales dentro del modelo ACT se muestra en la Fig. 6. Las ubicaciones hipotéticas de los mapas sensoriales primarios y motores primarios se dan en magenta, las ubicaciones hipotéticas del mapa de estados del plan motor y los mapas de estados sensoriales (dentro de sensorial-fonético módulo de procesamiento, comparable a los mapas de error en DIVA) se dan en naranja, y las ubicaciones hipotéticas para el mapa fonético reflejado se dan en rojo. Las flechas dobles indican mapeos neuronales. Los mapeos neuronales conectan mapas neuronales, que no están muy separados entre sí (ver arriba). Las dos ubicaciones reflejadas del mapa fonético están conectadas a través de una vía neuronal (ver arriba), lo que lleva a una duplicación (simple) uno a uno del patrón de activación actual para ambas realizaciones del mapa fonético. Se supone que esta vía neural entre las dos ubicaciones del mapa fonético es parte del fasciculus arcuatus (AF, ver Fig. 5 y Fig. 6).

Para la percepción del habla , el modelo comienza con una señal acústica externa (por ejemplo, producida por un altavoz externo). Esta señal es preprocesada, pasa el mapa auditivo y conduce a un patrón de activación para cada sílaba o palabra en el nivel del módulo de procesamiento auditivo-fonético (ES: señal externa, ver Fig. 5). El camino ventral de la percepción del habla (ver Hickok y Poeppel 2007 ^[17] ) activaría directamente un elemento léxico, pero no está implementado en ACT. Más bien, en ACT, la activación de un estado fonémico se produce a través del mapa fonémico y, por tanto, puede conducir a una coactivación de las representaciones motoras para ese elemento del habla (es decir, vía dorsal de la percepción del habla; ibid.).

Repositorio de acciones

Fig. 7: Visualización de los pesos de los enlaces sinápticos para una sección del mapa fonético, entrenado para las 200 sílabas más frecuentes del alemán estándar. Cada cuadro representa una neurona dentro del mapa fonético autoorganizado . Cada una de las tres representaciones de peso de enlace se refiere a la misma sección dentro del mapa fonético y, por lo tanto, se refiere a las mismas neuronas de 10 × 10

El mapa fonético junto con el mapa de estado del plan motor, los mapas de estado sensorial (que ocurren dentro de los módulos de procesamiento sensorial-fonético) y el mapa fonético (estado) forman el depósito de acciones. El mapa fonético se implementa en ACT como un mapa neuronal autoorganizado y diferentes elementos del habla están representados por diferentes neuronas dentro de este mapa (representación puntual o local, ver arriba: representaciones neuronales). El mapa fonético presenta tres características principales:

Puede ocurrir más de una realización fonética dentro del mapa fonético para un estado fonético (ver pesos de enlace fonético en la Fig.7: por ejemplo, la sílaba / de: m / está representada por tres neuronas dentro del mapa fonético)
Fonetotopía : el mapa fonético muestra un orden de los elementos del habla con respecto a diferentes características fonéticas (ver pesos de enlace fonémico en la Fig. 7. Tres ejemplos: (i) las sílabas / p @ /, / t @ / y / k @ / ocurren en un orden ascendente en el lado izquierdo dentro del mapa fonético; (ii) las oclusivas iniciales de sílabas ocurren en la parte superior izquierda del mapa fonético, mientras que las fricativas iniciales de las sílabas ocurren en la mitad inferior derecha; (iii) sílabas CV y sílabas CVC también ocurren en diferentes áreas del mapa fonético).
El mapa fonético es hipermodal o multimodal : la activación de un ítem fonético a nivel del mapa fonético coactiva (i) un estado fonético (ver pesos de enlace fonémico en la Fig.7), (ii) un estado de plan motor (ver plan motor pesos de enlace en la Fig. 7), (iii) un estado auditivo (ver pesos de enlace auditivo en la Fig. 7), y (iv) un estado somatosensorial (no mostrado en la Fig. 7). Todos estos estados se aprenden o entrenan durante la adquisición del habla ajustando los pesos de los enlaces sinápticos entre cada neurona dentro del mapa fonético, que representa un estado fonético particular y todas las neuronas dentro del plan motor asociado y los mapas de estado sensorial (ver también Fig.3).

El mapa fonético implementa el vínculo acción-percepción dentro del modelo ACT (ver también Fig.5 y Fig.6: la representación neural dual del mapa fonético en el lóbulo frontal y en la intersección del lóbulo temporal y lóbulo parietal ).

Planes de motor

Un plan de motor es una descripción de motor de alto nivel para la producción y la articulación de unos elementos de voz (véase metas motoras , habilidades motoras , la fonética articulatoria , la fonología articulatoria ). En nuestro modelo neurocomputacional ACT, un plan motor se cuantifica como una puntuación de acción del tracto vocal. Las puntuaciones de acción del tracto vocal determinan cuantitativamente el número de acciones del tracto vocal (también llamadas gestos articulatorios) que deben activarse para producir un elemento del habla, su grado de realización y duración, y la organización temporal de todas las acciones del tracto vocal que se están acumulando. un elemento del habla (para una descripción detallada de las puntuaciones de las acciones del tracto vocal, véase, por ejemplo, Kröger & Birkholz 2007). ^[18] La realización detallada de cada acción del tracto vocal (gesto articulatorio) depende de la organización temporal de todas las acciones del tracto vocal que construyen un elemento del habla y especialmente de su superposición temporal. Por lo tanto, la realización detallada de cada acción del tracto vocal dentro de un elemento del habla se especifica por debajo del nivel del plan motor en nuestro modelo neurocomputacional ACT (ver Kröger et al. 2011). ^[19]

Integración de aspectos sensoriomotores y cognitivos: el acoplamiento del repositorio de acción y el léxico mental

Un problema grave de los modelos fonéticos o sensoriomotores del procesamiento del habla (como DIVA o ACT) es que no se modela el desarrollo del mapa fonético durante la adquisición del habla. Una posible solución a este problema podría ser un acoplamiento directo del repositorio de acciones y el léxico mental sin introducir explícitamente un mapa fonémico al comienzo de la adquisición del habla (incluso al comienzo del entrenamiento de imitación; ver Kröger et al. 2011 PALADYN Journal of Behavioral Robotics) .

Experimentos: adquisición del habla

Un tema muy importante para todos los enfoques neurocientíficos o neurocomputacionales es separar la estructura y el conocimiento. Mientras que la estructura del modelo (es decir, de la red neuronal humana, que se necesita para procesar el habla) está determinada principalmente por procesos evolutivos , el conocimiento se recopila principalmente durante la adquisición del habla mediante procesos de aprendizaje . Se llevaron a cabo diferentes experimentos de aprendizaje con el modelo ACT para aprender (i) un sistema de cinco vocales / i, e, a, o, u / (ver Kröger et al.2009), (ii) un pequeño sistema de consonantes ( oclusivas sonoras / b, d, g / en combinación con las cinco vocales adquiridas anteriormente como sílabas CV (ibid.), (iii) un pequeño modelo de lenguaje que comprende el sistema de cinco vocales, oclusivas sonoras y sordas / b, d, g, p, t, k /, nasales / m, n / y el lateral / l / y los tipos de tres sílabas (V, CV y CCV) (ver Kröger et al. 2011) ^[20] y (iv) los 200 tipos más frecuentes sílabas del alemán estándar para un niño de 6 años (ver Kröger et al. 2011). ^[21] En todos los casos, se puede observar un orden de elementos fonéticos con respecto a diferentes características fonéticas.

Experimentos: percepción del habla

A pesar de que el modelo ACT en sus versiones anteriores fue diseñado como un modelo de producción de voz pura (incluida la adquisición de voz), el modelo es capaz de exhibir importantes fenómenos básicos de percepción del habla, es decir, percepción categórica y el efecto McGurk. En el caso de la percepción categórica , el modelo puede mostrar que la percepción categórica es más fuerte en el caso de las oclusivas que en el caso de las vocales (ver Kröger et al. 2009). Además, el modelo ACT pudo exhibir el efecto McGurk , si se implementó un mecanismo específico de inhibición de neuronas del nivel del mapa fonético (ver Kröger y Kannampuzha 2008). ^[22]

Ver también

La producción del habla
Percepción del habla
Neurociencia Computacional
Síntesis articulatoria
Retroalimentación auditiva

Referencias

^ Rouat J, Loiselle S, Pichevar R (2007) Hacia el procesamiento del sonido y el habla neurocomputacional. En: Sytylianou Y, Faundez-Zanuy M, Esposito A. Progress in Nonlinear Speech Processing (Springer, Berlín) págs. 58-77. ACMDL
^ "Ardi Roelofs" . Archivado desde el original el 26 de abril de 2012 . Consultado el 8 de diciembre de 2011 .
^ TEJEDOR ++
^ Hinton GE, McClelland JL, Rumelhart DE (1968) Representaciones distribuidas. En: Rumelhart DE, McClelland JL (eds.). Procesamiento distribuido paralelo: exploraciones en la microestructura de la cognición . Volumen 1: Fundaciones (MIT Press, Cambridge, MA)
^ Modelo DIVA: un modelo de producción del habla, centrado en los procesos de control de retroalimentación, desarrollado por Frank H. Guenther y su grupo en la Universidad de Boston, MA, EE . UU . El término "DIVA" se refiere a "Direcciones en las velocidades de los articuladores"
^ Guenther, FH, Ghosh, SS y Tourville, JA (2006) pdf Archivado el 15 deabril de 2012en Wayback Machine . Modelado neuronal e imagenología de las interacciones corticales subyacentes a la producción de sílabas. Cerebro y lenguaje , 96, págs. 280-301
^ Guenther FH (2006) Interacción cortical subyacente a la producción de sonidos del habla. Journal of Communication Disorders 39, 350–365
^ Guenther, FH y Perkell, JS (2004) pdf Archivado el 15 de abril de 2012en la Wayback Machine . Un modelo neuronal de la producción del habla y su aplicación a los estudios del papel de la retroalimentación auditiva en el habla. En: B. Maassen, R. Kent, H. Peters, P. Van Lieshout y W. Hulstijn (eds.), Control motor del habla en el habla normal y desordenada (págs. 29–49). Oxford: Prensa de la Universidad de Oxford
^ Guenther, FH, Hampson, M. y Johnson, D. (1998) Una investigación teórica de los marcos de referencia para la planificación de los movimientos del habla. Revisión psicológica 105: 611-633
^ Tourville J, Guenther F, Ghosh S, Reilly K, Bohland J, Nieto-Castanon A (2005) Efectos de la perturbación acústica y articulatoria sobre la actividad cortical durante la producción del habla. Póster, 11a reunión anual de la Organización de Mapeo del Cerebro Humano (Toronto, Canadá)
^ Modelo ACT: un modelo de producción, percepción y adquisición del habla, desarrollado por Bernd J. Kröger y su grupo en la Universidad RWTH Aachen, Alemania . El término "ACT" se refiere al término "ACTion"
^ BJ Kröger, J Kannampuzha, E Kaufmann (2014) pdf El aprendizaje asociativo y la autoorganización como principios básicos para simular la adquisición del habla, la producción del habla y la percepción del habla. EPJ Física biomédica no lineal 2 (1), 1-28
^ Kröger BJ, Kannampuzha J, Neuschaefer-Rube C (2009) pdf Hacia un modelo neurocomputacional de producción y percepción del habla. Comunicación oral 51: 793-809
^ Kröger BJ, Birkholz P, Neuschaefer-Rube C (2011) Hacia un enfoque de robótica del desarrollo basado en la articulación para el procesamiento de textos en la comunicación cara a cara. PALADYN Journal of Behavioral Robotics 2: 82-93. DOI
^ Levelt, WJM, Wheeldon, L. (1994) ¿Los hablantes tienen acceso a un silabario mental? Cognición 50, 239-269
^ Kröger BJ, Miller N, Lowit A, Neuschaefer-Rube C. (2011) Asignaciones de habla neuromotoras defectuosas como fuente de apraxia del habla: evidencia de un modelo neuronal cuantitativo de procesamiento del habla. En: Lowit A, Kent R (eds.) Assessment of Motor Speech Disorders. (Plural Publishing, San Diego, CA) págs. 325-346
^ Hickok G, Poeppel D (2007) Hacia una neuroanatomía funcional de la percepción del habla. Tendencias en ciencias cognitivas 4, 131-138
^ Kröger BJ, Birkholz P (2007) Un concepto basado en gestos para el control del movimiento del habla en la síntesis articulatoria del habla. En: Esposito A, Faundez-Zanuy M, Keller E, Marinaro M (eds.) Verbal and Nonverbal Communication Behaviors, LNAI 4775 (Springer Verlag, Berlín, Heidelberg) pp. 174-189
^ Kröger BJ, Birkholz P, Kannampuzha J, Eckers C, Kaufmann E, Neuschaefer-Rube C (2011) Interpretación neurobiológica de un modelo de aproximación cuantitativa de objetivos para acciones de habla. En: Kröger BJ, Birkholz P (eds.) Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2011 (TUDpress, Dresden, Alemania), págs. 184-194
^ Kröger BJ, Miller N, Lowit A, Neuschaefer-Rube C. (2011) Asignaciones de habla neuromotoras defectuosas como fuente de apraxia del habla: evidencia de un modelo neuronal cuantitativo de procesamiento del habla. En: Lowit A, Kent R (eds.) Assessment of Motor Speech Disorders. (Plural Publishing, San Diego, CA) págs. 325-346
^ Kröger BJ, Birkholz P, Kannampuzha J, Kaufmann E, Neuschaefer-Rube C (2011) Hacia la adquisición de un repositorio de acción sensoriomotora del tracto vocal dentro de un modelo neuronal de procesamiento del habla. En: Esposito A, Vinciarelli A, Vicsi K, Pelachaud C , Nijholt A (eds.) Análisis de la comunicación verbal y no verbal y la promulgación: los problemas de procesamiento. LNCS 6800 (Springer, Berlín), págs. 287-293
^ Kröger BJ, Kannampuzha J (2008) Un modelo neurofuncional de producción del habla que incluye aspectos de la percepción auditiva y audiovisual del habla. Actas de la Conferencia Internacional sobre Procesamiento Audiovisual del Habla 2008 (Moreton Island, Queensland, Australia) págs. 83–88

Otras lecturas

Iaroslav Blagouchine y Eric Moreau. Control de un robot de voz a través de un modelo interno óptimo basado en una red neuronal con restricciones. Transacciones IEEE sobre robótica, vol. 26, no. 1, págs. 142-159, febrero de 2010.

[1] Rouat J, Loiselle S, Pichevar R (2007) Hacia el procesamiento del sonido y el habla neurocomputacional. En: Sytylianou Y, Faundez-Zanuy M, Esposito A. Progress in Nonlinear Speech Processing (Springer, Berlín) págs. 58-77. ACMDL

[2] "Ardi Roelofs" . Archivado desde el original el 26 de abril de 2012 . Consultado el 8 de diciembre de 2011 .

[3] TEJEDOR ++

[4] Hinton GE, McClelland JL, Rumelhart DE (1968) Representaciones distribuidas. En: Rumelhart DE, McClelland JL (eds.). Procesamiento distribuido paralelo: exploraciones en la microestructura de la cognición . Volumen 1: Fundaciones (MIT Press, Cambridge, MA)

[5] Modelo DIVA: un modelo de producción del habla, centrado en los procesos de control de retroalimentación, desarrollado por Frank H. Guenther y su grupo en la Universidad de Boston, MA, EE . UU . El término "DIVA" se refiere a "Direcciones en las velocidades de los articuladores"

[6] Guenther, FH, Ghosh, SS y Tourville, JA (2006) pdf Archivado el 15 deabril de 2012en Wayback Machine . Modelado neuronal e imagenología de las interacciones corticales subyacentes a la producción de sílabas. Cerebro y lenguaje , 96, págs. 280-301

[7] Guenther FH (2006) Interacción cortical subyacente a la producción de sonidos del habla. Journal of Communication Disorders 39, 350–365

[8] Guenther, FH y Perkell, JS (2004) pdf Archivado el 15 de abril de 2012en la Wayback Machine . Un modelo neuronal de la producción del habla y su aplicación a los estudios del papel de la retroalimentación auditiva en el habla. En: B. Maassen, R. Kent, H. Peters, P. Van Lieshout y W. Hulstijn (eds.), Control motor del habla en el habla normal y desordenada (págs. 29–49). Oxford: Prensa de la Universidad de Oxford

[9] Guenther, FH, Hampson, M. y Johnson, D. (1998) Una investigación teórica de los marcos de referencia para la planificación de los movimientos del habla. Revisión psicológica 105: 611-633

[10] Tourville J, Guenther F, Ghosh S, Reilly K, Bohland J, Nieto-Castanon A (2005) Efectos de la perturbación acústica y articulatoria sobre la actividad cortical durante la producción del habla. Póster, 11a reunión anual de la Organización de Mapeo del Cerebro Humano (Toronto, Canadá)

[11] Modelo ACT: un modelo de producción, percepción y adquisición del habla, desarrollado por Bernd J. Kröger y su grupo en la Universidad RWTH Aachen, Alemania . El término "ACT" se refiere al término "ACTion"

[12] BJ Kröger, J Kannampuzha, E Kaufmann (2014) pdf El aprendizaje asociativo y la autoorganización como principios básicos para simular la adquisición del habla, la producción del habla y la percepción del habla. EPJ Física biomédica no lineal 2 (1), 1-28

[13] Kröger BJ, Kannampuzha J, Neuschaefer-Rube C (2009) pdf Hacia un modelo neurocomputacional de producción y percepción del habla. Comunicación oral 51: 793-809

[14] Kröger BJ, Birkholz P, Neuschaefer-Rube C (2011) Hacia un enfoque de robótica del desarrollo basado en la articulación para el procesamiento de textos en la comunicación cara a cara. PALADYN Journal of Behavioral Robotics 2: 82-93. DOI

[15] Levelt, WJM, Wheeldon, L. (1994) ¿Los hablantes tienen acceso a un silabario mental? Cognición 50, 239-269

[16] Kröger BJ, Miller N, Lowit A, Neuschaefer-Rube C. (2011) Asignaciones de habla neuromotoras defectuosas como fuente de apraxia del habla: evidencia de un modelo neuronal cuantitativo de procesamiento del habla. En: Lowit A, Kent R (eds.) Assessment of Motor Speech Disorders. (Plural Publishing, San Diego, CA) págs. 325-346

[17] Hickok G, Poeppel D (2007) Hacia una neuroanatomía funcional de la percepción del habla. Tendencias en ciencias cognitivas 4, 131-138

[18] Kröger BJ, Birkholz P (2007) Un concepto basado en gestos para el control del movimiento del habla en la síntesis articulatoria del habla. En: Esposito A, Faundez-Zanuy M, Keller E, Marinaro M (eds.) Verbal and Nonverbal Communication Behaviors, LNAI 4775 (Springer Verlag, Berlín, Heidelberg) pp. 174-189

[19] Kröger BJ, Birkholz P, Kannampuzha J, Eckers C, Kaufmann E, Neuschaefer-Rube C (2011) Interpretación neurobiológica de un modelo de aproximación cuantitativa de objetivos para acciones de habla. En: Kröger BJ, Birkholz P (eds.) Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2011 (TUDpress, Dresden, Alemania), págs. 184-194

[20] Kröger BJ, Miller N, Lowit A, Neuschaefer-Rube C. (2011) Asignaciones de habla neuromotoras defectuosas como fuente de apraxia del habla: evidencia de un modelo neuronal cuantitativo de procesamiento del habla. En: Lowit A, Kent R (eds.) Assessment of Motor Speech Disorders. (Plural Publishing, San Diego, CA) págs. 325-346

[21] Kröger BJ, Birkholz P, Kannampuzha J, Kaufmann E, Neuschaefer-Rube C (2011) Hacia la adquisición de un repositorio de acción sensoriomotora del tracto vocal dentro de un modelo neuronal de procesamiento del habla. En: Esposito A, Vinciarelli A, Vicsi K, Pelachaud C , Nijholt A (eds.) Análisis de la comunicación verbal y no verbal y la promulgación: los problemas de procesamiento. LNCS 6800 (Springer, Berlín), págs. 287-293

[22] Kröger BJ, Kannampuzha J (2008) Un modelo neurofuncional de producción del habla que incluye aspectos de la percepción auditiva y audiovisual del habla. Actas de la Conferencia Internacional sobre Procesamiento Audiovisual del Habla 2008 (Moreton Island, Queensland, Australia) págs. 83–88

[1]