BERT (modelo de lenguaje)

Las representaciones de codificador bidireccional de Transformers ( BERT ) es una técnica de aprendizaje automático basada en transformadores para la formación previa del procesamiento del lenguaje natural (NLP) desarrollada por Google . BERT fue creado y publicado en 2018 por Jacob Devlin y sus colegas de Google. ^[1]^[2] A partir de 2019 , Google ha estado aprovechando BERT para comprender mejor las búsquedas de los usuarios. ^[3]^[actualizar]

El BERT original en inglés tiene dos modelos: ^[1] (1) el BERT _BASE : 12 codificadores con 12 cabezales de auto-atención bidireccionales, y (2) el BERT _LARGE : 24 codificadores con 16 cabezales de auto-atención bidireccionales. Ambos modelos están entrenados previamente a partir de datos sin etiquetar extraídos de BooksCorpus ^[4] con 800 millones ^de palabras y Wikipedia en inglés con 2,500 millones de palabras. ^[5]

Actuación

Cuando se publicó BERT, logró un rendimiento de vanguardia en una serie de tareas de comprensión del lenguaje natural : ^[1]

Conjunto de tareas GLUE ( Evaluación de comprensión del lenguaje general ) (que consta de 9 tareas)
SQuAD ( conjunto de datos de respuesta a preguntas de Stanford ) v1.1 y v2.0
SWAG ( Situaciones con generaciones adversas )

Análisis

Las razones del desempeño de vanguardia de BERT en estas tareas de comprensión del lenguaje natural aún no se comprenden bien. ^[6]^[7] La investigación actual se ha centrado en investigar la relación detrás de la salida de BERT como resultado de secuencias de entrada cuidadosamente seleccionadas, ^[8]^[9] análisis de representaciones de vectores internos a través de clasificadores de sondeo, ^[10]^[11] y las relaciones representado por pesos de atención . ^[6]^[7]

Historia

BERT tiene sus orígenes en las representaciones contextuales previas al entrenamiento, incluido el Aprendizaje de Secuencia Semi-supervisado , ^[12] Pre-Entrenamiento Generativo , ELMo , ^[13] y ULMFit . ^[14] A diferencia de los modelos anteriores, BERT es una representación de lenguaje profundamente bidireccional, no supervisada, previamente entrenada usando solo un corpus de texto plano. Los modelos libres de contexto como word2vec o GloVe generan una representación de incrustación de una sola palabra para cada palabra en el vocabulario, donde BERT tiene en cuenta el contexto para cada aparición de una palabra determinada. Por ejemplo, mientras que el vector para "correr" tendrá la misma representación del vector word2vec para sus dos apariciones en las oraciones "Él está dirigiendo una empresa" y "Está corriendo un maratón", BERT proporcionará una inserción contextualizada que será diferente según la oración.

El 25 de octubre de 2019, Google Search anunció que habían comenzado a aplicar modelos BERT para consultas de búsqueda en inglés dentro de los EE . UU . ^[15] El 9 de diciembre de 2019, se informó que la Búsqueda de Google había adoptado BERT en más de 70 idiomas. ^[16] En octubre de 2020, BERT procesó casi todas las consultas en inglés. ^[17]

Reconocimiento

BERT ganó el premio al Mejor Documento Largo en la Conferencia Anual de 2019 del Capítulo Norteamericano de la Asociación de Lingüística Computacional (NAACL). ^[18]

Ver también

Transformador (modelo de aprendizaje automático)
Word2vec
Autoencoder
Matriz documento-plazo
Extracción de características
Aprendizaje de funciones
Modelos de lenguaje de redes neuronales
Modelo de espacio vectorial
Vector de pensamiento
fastText
Guante
TensorFlow

Referencias

^ a b c Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 de octubre de 2018). "BERT: Pre-formación de transformadores bidireccionales profundos para la comprensión del lenguaje". arXiv : 1810.04805v2 [ cs.CL ].
^ "Open Sourcing BERT: Pre-formación de vanguardia para el procesamiento del lenguaje natural" . Blog de IA de Google . Consultado el 27 de noviembre de 2019 .
^ "Comprender las búsquedas mejor que nunca" . Google . 2019-10-25 . Consultado el 27 de noviembre de 2019 .
^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). "Alineación de libros y películas: hacia explicaciones visuales similares a una historia viendo películas y leyendo libros". págs. 19-27. arXiv : 1506.06724 [ cs.CV ].
^ Annamoradnejad, Issa (27 de abril de 2020). "ColBERT: uso de incrustación de frases BERT para detección de humor". arXiv : 2004.12765 [ cs.CL ].
^ a b Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna (noviembre de 2019). "Revelando los oscuros secretos de BERT" . Actas de la Conferencia de 2019 sobre métodos empíricos en el procesamiento del lenguaje natural y la 9a Conferencia conjunta internacional sobre el procesamiento del lenguaje natural (EMNLP-IJCNLP) . págs. 4364–4373. doi : 10.18653 / v1 / D19-1445 . S2CID 201645145 .
^ a b Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (2019). "¿Qué mira BERT? Un análisis de la atención de BERT" . Actas del Taller de ACL 2019 BlackboxNLP: Análisis e interpretación de redes neuronales para PNL . Stroudsburg, PA, EE.UU .: Asociación de Lingüística Computacional: 276–286. doi : 10.18653 / v1 / w19-4828 .
^ Khandelwal, Urvashi; Él, Él; Qi, Peng; Jurafsky, Dan (2018). "Sharp Near, Fuzzy Far Away: Cómo los modelos de lenguaje neuronal utilizan el contexto". Actas de la 56ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 1: Documentos extensos) . Stroudsburg, PA, EE.UU .: Asociación de Lingüística Computacional: 284–294. arXiv : 1805.04623 . Código bibliográfico : 2018arXiv180504623K . doi : 10.18653 / v1 / p18-1027 . S2CID 21700944 .
^ Gulordava, Kristina; Bojanowski, Piotr; Grave, Edouard; Linzen, Tal; Baroni, Marco (2018). "Redes recurrentes verdes incoloras sueñan jerárquicamente". Actas de la Conferencia 2018 del Capítulo Norteamericano de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano, Volumen 1 (Documentos largos) . Stroudsburg, PA, EE.UU .: Asociación de Lingüística Computacional: 1195–1205. arXiv : 1803.11138 . Código Bib : 2018arXiv180311138G . doi : 10.18653 / v1 / n18-1108 . S2CID 4460159 .
^ Giulianelli, Mario; Harding, Jack; Mohnert, Florian; Hupkes, Dieuwke; Zuidema, Willem (2018). "Bajo el capó: uso de clasificadores de diagnóstico para investigar y mejorar cómo los modelos de lenguaje rastrean la información del acuerdo". Actas del taller EMNLP 2018 BlackboxNLP: análisis e interpretación de redes neuronales para PNL . Stroudsburg, PA, EE.UU .: Asociación de Lingüística Computacional: 240–248. arXiv : 1808.08079 . Código bibliográfico : 2018arXiv180808079G . doi : 10.18653 / v1 / w18-5426 . S2CID 52090220 .
^ Zhang, Kelly; Bowman, Samuel (2018). "El modelado de idiomas le enseña más que la traducción: lecciones aprendidas a través del análisis de tareas sintácticas auxiliares" . Actas del taller EMNLP 2018 BlackboxNLP: análisis e interpretación de redes neuronales para PNL . Stroudsburg, PA, EE.UU .: Asociación de Lingüística Computacional: 359–361. doi : 10.18653 / v1 / w18-5448 .
^ Dai, Andrew; Le, Quoc (4 de noviembre de 2015). "Aprendizaje secuencial semi-supervisado". arXiv : 1511.01432 [ cs.LG ].
^ Peters, Matthew; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Luke, Zettlemoyer (15 de febrero de 2018). "Representaciones de palabras contextualizadas profundas". arXiv : 1802.05365v2 [ cs.CL ].
^ Howard, Jeremy; Ruder, Sebastian (18 de enero de 2018). "Ajuste fino del modelo de lenguaje universal para la clasificación de texto". arXiv : 1801.06146v5 [ cs.CL ].
^ Nayak, Pandu (25 de octubre de 2019). "Comprender las búsquedas mejor que nunca" . Blog de Google . Consultado el 10 de diciembre de 2019 .
^ Montti, Roger (10 de diciembre de 2019). "BERT de Google se despliega en todo el mundo" . Revista del motor de búsqueda . Revista del motor de búsqueda . Consultado el 10 de diciembre de 2019 .
^ "Google: BERT ahora se utiliza en casi todas las consultas en inglés" . Search Engine Land . 2020-10-15 . Consultado el 24 de noviembre de 2020 .
^ "Premios al Mejor Papel" . NAACL . 2019 . Consultado el 28 de marzo de 2020 .

Otras lecturas

Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "Una introducción a BERTology: lo que sabemos sobre cómo funciona BERT". arXiv : 2002.12327 [ cs.CL ].

enlaces externos

Repositorio oficial de GitHub

[:0-1] Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 de octubre de 2018). "BERT: Pre-formación de transformadores bidireccionales profundos para la comprensión del lenguaje". arXiv : 1810.04805v2 [ cs.CL ].

[2] "Open Sourcing BERT: Pre-formación de vanguardia para el procesamiento del lenguaje natural" . Blog de IA de Google . Consultado el 27 de noviembre de 2019 .

[3] "Comprender las búsquedas mejor que nunca" . Google . 2019-10-25 . Consultado el 27 de noviembre de 2019 .

[4] Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). "Alineación de libros y películas: hacia explicaciones visuales similares a una historia viendo películas y leyendo libros". págs. 19-27. arXiv : 1506.06724 [ cs.CV ].

[5] Annamoradnejad, Issa (27 de abril de 2020). "ColBERT: uso de incrustación de frases BERT para detección de humor". arXiv : 2004.12765 [ cs.CL ].

[:1-6] Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna (noviembre de 2019). "Revelando los oscuros secretos de BERT" . Actas de la Conferencia de 2019 sobre métodos empíricos en el procesamiento del lenguaje natural y la 9a Conferencia conjunta internacional sobre el procesamiento del lenguaje natural (EMNLP-IJCNLP) . págs. 4364–4373. doi : 10.18653 / v1 / D19-1445 . S2CID 201645145 .

[:2-7] Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (2019). "¿Qué mira BERT? Un análisis de la atención de BERT" . Actas del Taller de ACL 2019 BlackboxNLP: Análisis e interpretación de redes neuronales para PNL . Stroudsburg, PA, EE.UU .: Asociación de Lingüística Computacional: 276–286. doi : 10.18653 / v1 / w19-4828 .

[8] Khandelwal, Urvashi; Él, Él; Qi, Peng; Jurafsky, Dan (2018). "Sharp Near, Fuzzy Far Away: Cómo los modelos de lenguaje neuronal utilizan el contexto". Actas de la 56ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 1: Documentos extensos) . Stroudsburg, PA, EE.UU .: Asociación de Lingüística Computacional: 284–294. arXiv : 1805.04623 . Código bibliográfico : 2018arXiv180504623K . doi : 10.18653 / v1 / p18-1027 . S2CID 21700944 .

[9] Gulordava, Kristina; Bojanowski, Piotr; Grave, Edouard; Linzen, Tal; Baroni, Marco (2018). "Redes recurrentes verdes incoloras sueñan jerárquicamente". Actas de la Conferencia 2018 del Capítulo Norteamericano de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano, Volumen 1 (Documentos largos) . Stroudsburg, PA, EE.UU .: Asociación de Lingüística Computacional: 1195–1205. arXiv : 1803.11138 . Código Bib : 2018arXiv180311138G . doi : 10.18653 / v1 / n18-1108 . S2CID 4460159 .

[10] Giulianelli, Mario; Harding, Jack; Mohnert, Florian; Hupkes, Dieuwke; Zuidema, Willem (2018). "Bajo el capó: uso de clasificadores de diagnóstico para investigar y mejorar cómo los modelos de lenguaje rastrean la información del acuerdo". Actas del taller EMNLP 2018 BlackboxNLP: análisis e interpretación de redes neuronales para PNL . Stroudsburg, PA, EE.UU .: Asociación de Lingüística Computacional: 240–248. arXiv : 1808.08079 . Código bibliográfico : 2018arXiv180808079G . doi : 10.18653 / v1 / w18-5426 . S2CID 52090220 .

[11] Zhang, Kelly; Bowman, Samuel (2018). "El modelado de idiomas le enseña más que la traducción: lecciones aprendidas a través del análisis de tareas sintácticas auxiliares" . Actas del taller EMNLP 2018 BlackboxNLP: análisis e interpretación de redes neuronales para PNL . Stroudsburg, PA, EE.UU .: Asociación de Lingüística Computacional: 359–361. doi : 10.18653 / v1 / w18-5448 .

[12] Dai, Andrew; Le, Quoc (4 de noviembre de 2015). "Aprendizaje secuencial semi-supervisado". arXiv : 1511.01432 [ cs.LG ].

[13] Peters, Matthew; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Luke, Zettlemoyer (15 de febrero de 2018). "Representaciones de palabras contextualizadas profundas". arXiv : 1802.05365v2 [ cs.CL ].

[14] Howard, Jeremy; Ruder, Sebastian (18 de enero de 2018). "Ajuste fino del modelo de lenguaje universal para la clasificación de texto". arXiv : 1801.06146v5 [ cs.CL ].

[15] Nayak, Pandu (25 de octubre de 2019). "Comprender las búsquedas mejor que nunca" . Blog de Google . Consultado el 10 de diciembre de 2019 .

[16] Montti, Roger (10 de diciembre de 2019). "BERT de Google se despliega en todo el mundo" . Revista del motor de búsqueda . Revista del motor de búsqueda . Consultado el 10 de diciembre de 2019 .

[17] "Google: BERT ahora se utiliza en casi todas las consultas en inglés" . Search Engine Land . 2020-10-15 . Consultado el 24 de noviembre de 2020 .

[18] "Premios al Mejor Papel" . NAACL . 2019 . Consultado el 28 de marzo de 2020 .

[1]