Atención (aprendizaje automático)

En el contexto de las redes neuronales , la atención es una técnica que imita la atención cognitiva . El efecto mejora las partes importantes de los datos de entrada y desvanece el resto; la idea es que la red debería dedicar más potencia informática a esa pequeña pero importante parte de los datos. Qué parte de los datos es más importante que otras depende del contexto y se aprende a través de los datos de entrenamiento por descenso de gradiente .

La atención se utiliza en una amplia variedad de modelos de aprendizaje automático, incluido el procesamiento del lenguaje natural y la visión por computadora . ^[1]^[2]

Las redes transformadoras hacen un uso extensivo de los mecanismos de atención para lograr su poder expresivo. ^[1] Los sistemas de visión por computadora basados en redes neuronales convolucionales también pueden beneficiarse de los mecanismos de atención. ^{[ cita requerida ] El} modelo de perceptor usa atención asimétrica para aplicar transformadores directamente a la imagen, audio, video o datos espaciales sin usar convoluciones, a un costo computacional que es subcuadrático a la dimensión de los datos. ^[3]^[4]

Las dos técnicas de atención más comunes que se utilizan son la atención de producto escalar , que utiliza el producto escalar entre vectores para determinar la atención, y la atención de múltiples cabezas , que combina varios mecanismos de atención diferentes para dirigir la atención general de una red o subred.

Un ejemplo de traducción de idiomas

Para construir una máquina que traduzca del inglés al francés (vea el diagrama a continuación), se comienza con un codificador-decodificador y se le inserta una unidad de atención. La unidad de atención es una red neuronal completamente conectada que alimenta una combinación ponderada de salidas del codificador al decodificador.

Encoder-Decoder con atención. Este diagrama utiliza valores específicos para aliviar una sopa de letras de notación ya abarrotada. La parte izquierda (en negro) es el codificador-decodificador, la parte central (en naranja) es la unidad de atención y la parte derecha (en gris y colores) son los datos calculados. Las regiones grises en la matriz H y el vector w son valores cero. Los subíndices son ejemplos de tamaños de vector, excepto para i-1 que indica un paso de tiempo.

Leyenda
etiqueta	descripción
100	longitud máxima de la oración
300	tamaño de incrustación (dimensión de la palabra)
500	longitud del vector oculto
10k	tamaño del diccionario de 10,000 palabras
x , y	Vector de diccionario 10k 1-hot . x → x implementado como una tabla de búsqueda en lugar de una multiplicación de vectores.
x, y	Vector de incrustación de 300 palabras. Los vectores generalmente se calculan previamente a partir de otros proyectos como GloVe o Word2Vec .
h	Vector oculto del codificador de 500 long. En cada momento, este vector resume todas las palabras anteriores. La h final puede verse como un vector de "oración", o un vector de pensamiento, como lo llama Hinton.
s	Codificador RNN de neuronas ocultas con decodificador de 500 longitudes. ^{[ aclaración necesaria ]}
mi	Codificador de 500 neuronas RNN . 300 + 300 entradas, 500 salidas.
D	Decodificador de 2 capas. 1 capa con 500 neuronas y la otra capa con 300 neuronas.
puntaje	Puntuación de alineación de 100 largos
w	Peso de atención de vector de 100 largos. Estos son pesos "suaves" que cambian durante el pase hacia adelante, en contraste con los pesos neuronales "duros" que cambian durante la fase de aprendizaje.
A	Módulo de atención: una red completamente conectada cuya salida es una puntuación de 100 largos.
H	500x100. 100 vectores ocultos h concatenados en una matriz
C	Vector de contexto de 500 largos = H * w. c es una combinación lineal de h vectores ponderados por w.

Esta tabla muestra los cálculos en cada paso de tiempo. Para mayor claridad, utiliza valores numéricos y formas específicos en lugar de letras. Las formas anidadas representan la naturaleza resumida de h, donde cada h contiene una historia de las palabras que le precedieron. Aquí, los puntajes de atención se cocinaron para obtener los pesos de atención deseados.

paso	X	h, H = salida del codificador estos son vectores de 500x1 representados como formas	y _i-1 = entrada del decodificador a Atención	puntuación de alineación	w = peso de atención = softmax (puntuación)	c = vector de contexto = H * w	y = salida del decodificador
1	I	= codificación vectorial para "I"	-	-	-	-	-
2	amor	= codificación vectorial para "Me encanta"	-	-	-	-	-
3	usted	= codificación vectorial para "te amo"	-	-	-	-	-
4	-	-	y ₁ aún no existe, así que usamos esto en su lugar	[.63 -3.2 -2.5 .5 .5 ...]	[.94 .02 .04 0 0 ...]	.94 * + .02 * + .04 *	je
5	-	-	año ₁	[-1,5 -3,9 .57 .5 .5 ...]	[.11 .01 .88 0 0 ...]	.11 * + .01 * + .88 *	t '
6	-	-	y ₂	[-2.8 .64 -3.2 .5 .5 ...]	[.03 .95 .02 0 0 ...]	.03 * + .95 * + .02 *	aime

Visto como una matriz, los pesos de atención muestran cómo la red ajusta su enfoque de acuerdo con el contexto.

	I	amor	usted
je	.94	.02	.04
t '	.11	.01	.88
aime	.03	.95	.02

Esta visión de las ponderaciones de la atención aborda el problema de la " explicabilidad " por el que se critican las redes neuronales. Las redes que realizan la traducción literal sin tener en cuenta el orden de las palabras tendrían una matriz diagonalmente dominante si fueran analizables en estos términos. El dominio fuera de la diagonal muestra que el mecanismo de atención tiene más matices. En la primera pasada por el decodificador, el 94% del peso de la atención está en la primera palabra inglesa "I", por lo que la red ofrece la palabra "je". En la segunda pasada del decodificador, el 88% del peso de la atención está en la tercera palabra en inglés "you", por lo que ofrece "t '". En la última pasada, el 95% del peso de la atención está en la segunda palabra en inglés "love", por lo que ofrece "aime".

Ver también

Transformador (modelo de aprendizaje automático) § Atención de productos punto a escala
Perceptor § Componentes para la atención de consultas-clave-valor (QKV)

Referencias

^ ^a ^b Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gómez, Aidan N .; Kaiser, Lukasz; Polosukhin, Illia (5 de diciembre de 2017). "La atención es todo lo que necesita". arXiv : 1706.03762 [ cs.CL ].
^ Ramachandran, Prajit; Parmar, Niki; Vaswani, Ashish; Bello, Irwan; Levskaya, Anselm; Shlens, Jonathon (13 de junio de 2019). "Autoatención autónoma en modelos de visión". arXiv : 1906.05909 [ cs.CV ].
^ Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (22 de junio de 2021). "Perceptor: percepción general con atención iterativa". arXiv : 2103.03206 [ cs.CV ].
^ Ray, Tiernan. "Supermodelo de Google: DeepMind Perceiver es un paso en el camino hacia una máquina de inteligencia artificial que podría procesar cualquier cosa" . ZDNet . Consultado el 19 de agosto de 2021 .

enlaces externos

Alex Graves (4 de mayo de 2020), Atención y memoria en el aprendizaje profundo (video conferencia), DeepMind / UCL , a través de YouTube
Pizarra de algoritmo Rasa: atención a través de YouTube

[allyouneed-1] Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gómez, Aidan N .; Kaiser, Lukasz; Polosukhin, Illia (5 de diciembre de 2017). "La atención es todo lo que necesita". arXiv : 1706.03762 [ cs.CL ].

[2] Ramachandran, Prajit; Parmar, Niki; Vaswani, Ashish; Bello, Irwan; Levskaya, Anselm; Shlens, Jonathon (13 de junio de 2019). "Autoatención autónoma en modelos de visión". arXiv : 1906.05909 [ cs.CV ].

[perceiver-3] Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (22 de junio de 2021). "Perceptor: percepción general con atención iterativa". arXiv : 2103.03206 [ cs.CV ].

[4] Ray, Tiernan. "Supermodelo de Google: DeepMind Perceiver es un paso en el camino hacia una máquina de inteligencia artificial que podría procesar cualquier cosa" . ZDNet . Consultado el 19 de agosto de 2021 .

[1]