Transformer 3 preentrenado generativo ( GPT-3 ) es un modelo de lenguaje autorregresivo que utiliza el aprendizaje profundo para producir texto similar al humano. Es el modelo de predicción de lenguaje de tercera generación de la serie GPT-n (y el sucesor de GPT-2 ) creado por OpenAI , un laboratorio de investigación de inteligencia artificial con sede en San Francisco . [2] La versión completa de GPT-3 tiene una capacidad de 175 mil millones de parámetros de aprendizaje automático . GPT-3, que se introdujo en mayo de 2020 y estaba en prueba beta en julio de 2020, [3] es parte de una tendencia en el procesamiento del lenguaje natural.(PNL) de representaciones lingüísticas pre-entrenadas. [1] Antes del lanzamiento de GPT-3, el modelo de lenguaje más grande era Turing NLG de Microsoft , introducido en febrero de 2020, con una capacidad de 17 mil millones de parámetros, menos de una décima parte de los de GPT-3. [4]
Autor (es) original (es) | OpenAI [1] |
---|---|
Versión inicial | 11 de junio de 2020 (beta) |
Repositorio | |
Tipo | Modelo de lenguaje transformador autorregresivo |
Sitio web | openai |
La calidad del texto generado por GPT-3 es tan alta que es difícil distinguirlo del escrito por un humano, que tiene tanto beneficios como riesgos. [4] Treinta y un investigadores e ingenieros de OpenAI presentaron el documento original del 28 de mayo de 2020 que presenta GPT-3. En su artículo, advirtieron sobre los peligros potenciales de GPT-3 y pidieron investigación para mitigar el riesgo. [1] : 34 David Chalmers , un filósofo australiano, describió al GPT-3 como "uno de los sistemas de IA más interesantes e importantes jamás producidos". [5]
Microsoft anunció el 22 de septiembre de 2020 que había licenciado el uso "exclusivo" de GPT-3; otros aún pueden usar la API pública para recibir resultados, pero solo Microsoft tiene acceso al código subyacente de GPT-3. [6]
Fondo
Según The Economist , algoritmos mejorados, computadoras potentes y un aumento en los datos digitalizados han impulsado una revolución en el aprendizaje automático , con nuevas técnicas en la década de 2010 que dieron como resultado "mejoras rápidas en las tareas", incluida la manipulación del lenguaje. [7] Los modelos de software están entrenados para aprender utilizando miles o millones de ejemplos en una "estructura ... basada libremente en la arquitectura neuronal del cerebro". [7] Una arquitectura utilizada en el procesamiento del lenguaje natural (NLP) es una red neuronal basada en un modelo de aprendizaje profundo que se introdujo por primera vez en 2017: el Transformer . [8] Los modelos GPT-n se basan en esta arquitectura de red neuronal de aprendizaje profundo basada en transformadores. Hay una serie de sistemas de PNL capaces de procesar, extraer, organizar, conectar, contrastar, comprender y generar respuestas a preguntas. [9]
El 11 de junio de 2018, los investigadores e ingenieros de OpenAI publicaron su artículo original sobre modelos generativos, modelos de lenguaje, sistemas de inteligencia artificial, que podrían ser entrenados previamente con un corpus enorme y diverso de texto a través de conjuntos de datos , en un proceso que llamaron pre-generativo. entrenamiento (GP). [10] Los autores describieron cómo se mejoraron los rendimientos de comprensión del lenguaje en el procesamiento del lenguaje natural (NLP) en GPT-n a través de un proceso de "preentrenamiento generativo de un modelo de lenguaje en un corpus diverso de texto sin etiquetar, seguido de un ajuste fino discriminativo en cada tarea específica ". Esto eliminó la necesidad de supervisión humana y de etiquetado manual que requiere mucho tiempo. [10]
En febrero de 2020, Microsoft presentó su Turing Natural Language Generation (T-NLG), que entonces era el "modelo de lenguaje más grande jamás publicado con 17 mil millones de parámetros". [11] Funcionó mejor que cualquier otro modelo de lenguaje en una variedad de tareas que incluían resumir textos y responder preguntas . [11]
Capacidades
El 28 de mayo de 2020, una preimpresión de arXiv realizada por un grupo de 31 ingenieros e investigadores de OpenAI describió el desarrollo de GPT-3, un "modelo de lenguaje de última generación" de tercera generación. [1] [4] El equipo aumentó la capacidad de GPT-3 en más de dos órdenes de magnitud con respecto a la de su predecesor, GPT-2, [12] haciendo que GPT-3 sea el modelo de lenguaje no disperso más grande [ se necesita más explicación ] hasta la fecha. [1] : 14 [2] Debido a que GPT-3 es estructuralmente similar a sus predecesores [1], su mayor nivel de precisión se atribuye a su mayor capacidad y mayor número de parámetros. [13] La capacidad de GPT-3 es diez veces mayor que la de Turing NLG de Microsoft , el siguiente modelo de PNL más grande. [4]
El sesenta por ciento del conjunto de datos de preentrenamiento ponderado para GPT-3 proviene de una versión filtrada de Common Crawl que consta de 410 mil millones de tokens codificados por pares de bytes . [1] : 9 Otras fuentes son 19 mil millones de tokens de WebText2 que representan el 22% del total ponderado, 12 mil millones de tokens de Books1 que representan el 8%, 55 mil millones de tokens de Books2 que representan el 8% y 3 mil millones de tokens de Wikipedia que representan el 3%. [1] : 9 GPT-3 se entrenó en cientos de miles de millones de palabras y es capaz de codificar en CSS, JSX, Python, entre otros. [3] Dado que los datos de entrenamiento de GPT-3 eran completos, no requiere más entrenamiento para distintas tareas de lenguaje. [3] Los datos de entrenamiento contienen lenguaje tóxico ocasional y GPT-3 ocasionalmente genera lenguaje tóxico como resultado de imitar sus datos de entrenamiento. Un estudio de la Universidad de Washington encontró que GPT-3 producía lenguaje tóxico a un nivel de toxicidad comparable a los modelos similares de procesamiento del lenguaje natural de GPT-2 y CTRL. GPT-3 produjo un lenguaje menos tóxico en comparación con su modelo predecesor, GPT-1, aunque produjo más generaciones y una mayor toxicidad del lenguaje tóxico en comparación con CTRL Wiki, un modelo de lenguaje entrenado completamente en datos de Wikipedia. [14]
El 11 de junio de 2020, OpenAI anunció que los usuarios podían solicitar acceso a su API GPT-3 fácil de usar, un "conjunto de herramientas de aprendizaje automático", para ayudar a OpenAI a "explorar las fortalezas y los límites" de esta nueva tecnología. [15] [16] La invitación describía cómo esta API tenía una interfaz de "entrada y salida de texto" de propósito general que puede completar casi "cualquier tarea en inglés", en lugar del caso de uso único habitual. [15] Según un usuario, que tenía acceso a una versión temprana privada de la API OpenAI GPT-3, GPT-3 era "inquietantemente bueno" para escribir "texto increíblemente coherente" con solo unas pocas indicaciones sencillas. [17] En un experimento inicial, se pidió a 80 sujetos estadounidenses que juzgaran si los artículos cortos de ~ 200 palabras fueron escritos por humanos o por GPT-3. Los participantes juzgaron incorrectamente el 48% de las veces, y lo hicieron solo un poco mejor que adivinar al azar. [1]
Debido a que GPT-3 puede "generar artículos de noticias que los evaluadores humanos tienen dificultades para distinguir de los artículos escritos por humanos", [4] GPT-3 tiene el "potencial de promover tanto las aplicaciones beneficiosas como las dañinas de los modelos de lenguaje". [1] : 34 En su artículo del 28 de mayo de 2020, los investigadores describieron en detalle los posibles "efectos dañinos de GPT-3" [4] que incluyen "información errónea, spam , phishing , abuso de procesos legales y gubernamentales , ensayo académico fraudulento pretextos de redacción e ingeniería social ". [1] Los autores llaman la atención sobre estos peligros para llamar a la investigación sobre la mitigación de riesgos . [1] [18] : 34
GPT-3 es capaz de realizar un aprendizaje de disparo cero , pocos disparos y un disparo . [1]
Reseñas
- En una revisión de julio de 2020 en The New York Times , Farhad Manjoo dijo que la capacidad de GPT-3 para generar código de computadora, poesía y prosa no es solo "asombrosa", "espeluznante" y "humillante", sino también "más que un poco aterrador ". [19]
- Daily Nous presentó una serie de artículos de nueve filósofos sobre GPT-3. [20] El filósofo australiano David Chalmers describió al GPT-3 como "uno de los sistemas de IA más interesantes e importantes jamás producidos". [5]
- Una revisión en Wired dijo que GPT-3 estaba "provocando escalofríos en Silicon Valley ". [21]
- El National Law Review dijo que GPT-3 es un "paso impresionante en el proceso más grande", con OpenAI y otros encontrando "aplicaciones útiles para todo este poder" mientras continúan "trabajando hacia una inteligencia más general ". [22]
- Un artículo en MIT Technology Review , coescrito por el crítico de Deep Learning Gary Marcus , [23] afirmó que la "comprensión del mundo de GPT-3 a menudo está muy mal, lo que significa que nunca se puede confiar realmente en lo que dice". [24] Según los autores, GPT-3 modela las relaciones entre palabras sin tener una comprensión del significado detrás de cada palabra.
- Jerome Pesenti, director del laboratorio de inteligencia artificial de Facebook, dijo que GPT-3 es "inseguro", señalando el lenguaje sexista , racista y de otro tipo sesgado y negativo generado por el sistema cuando se le pidió que hablara sobre judíos , mujeres, personas negras y el Holocausto . [25]
- Nabla, una start-up francesa especializada en tecnología sanitaria, probó GPT-3 como chatbot médico , aunque la propia OpenAI advirtió contra tal uso. Como era de esperar, GPT-3 mostró varias limitaciones. Por ejemplo, mientras probaba las respuestas de GPT-3 sobre problemas de salud mental, la IA aconsejó a un paciente simulado que se suicidara. [26]
- Noam Chomsky expresó su escepticismo sobre el valor científico de GPT-3: "No es un modelo de lenguaje. Funciona tan bien para lenguajes imposibles como para lenguajes reales. Por lo tanto, es refutado, si se pretende como un modelo de lenguaje, por criterios científicos normales". ...] Quizás sea útil para algún propósito, pero parece que no nos dice nada sobre el lenguaje o la cognición en general ". [27]
Aplicaciones
- GPT-3 se utiliza en ciertos productos de Microsoft para traducir el lenguaje convencional a un código informático formal. [28]
- Andrew Mayne ha utilizado GPT-3 para AI Writer, [29] que permite a las personas comunicarse con personajes históricos por correo electrónico.
- Jason Rohrer ha utilizado GPT-3 en un proyecto de chatbot de temática retro llamado "Proyecto Diciembre", al que se puede acceder en línea y que permite a los usuarios conversar con varias IA utilizando la tecnología GPT-3.
- GPT-3 fue utilizado por The Guardian para escribir un artículo acerca de que la IA es inofensiva para los seres humanos. Se alimentaron algunas ideas y se produjeron ocho ensayos diferentes, que finalmente se fusionaron en un solo artículo. [30]
- GPT-3 se usa en AI Dungeon , que genera juegos de aventuras basados en texto.
Controversia
El constructor de GPT-3, OpenAI , se fundó inicialmente como una organización sin fines de lucro en 2015. [31] En 2019, OpenAI no lanzó públicamente el modelo precursor de GPT-3, rompiendo con las prácticas anteriores de código abierto de OpenAI, citando preocupaciones de que el modelo perpetuar noticias falsas. OpenAI finalmente lanzó una versión de GPT-2 que tenía un 8% del tamaño del modelo original. [32] En el mismo año, OpenAI se reestructuró para convertirse en una empresa con fines de lucro. [33] En 2020, Microsoft anunció que la compañía tenía una licencia exclusiva de GPT-3 para los productos y servicios de Microsoft luego de una inversión multimillonaria en OpenAI. El acuerdo permite que OpenAI ofrezca una API de cara al público de modo que los usuarios puedan enviar mensajes de texto a GPT-3 para recibir la salida del modelo, pero solo Microsoft tendrá acceso al código fuente de GPT-3. [34]
Los grandes modelos de lenguaje, como GPT-3, han sido criticados por los investigadores de ética de la IA de Google por el impacto ambiental de la capacitación y el almacenamiento de los modelos, detallados en un artículo en coautoría de Timnit Gebru y Emily M. Bender en 2021. [35 ]
Referencias
- ^ a b c d e f g h i j k l m Brown, Tom B .; Mann, Benjamín; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Niño, Rewon; Ramesh, Aditya; Ziegler, Daniel M .; Wu, Jeffrey; Invierno, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Ajedrez, Benjamín; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 de julio de 2020). "Los modelos de lenguaje son aprendices de pocas oportunidades". arXiv : 2005.14165 [ cs.CL ].
- ^ a b Shead, Sam (23 de julio de 2020). "Por qué todo el mundo habla del generador de texto de IA lanzado por un laboratorio respaldado por Elon Musk" . CNBC . Consultado el 31 de julio de 2020 . Se publicaron cuatro preimpresiones entre el 28 de mayo y el 22 de julio de 2020.
- ^ a b c Bussler, Frederik (21 de julio de 2020). "¿GPT-3 eliminará la codificación?" . Hacia la ciencia de datos . Consultado el 1 de agosto de 2020 .
- ^ a b c d e f Sagar, Ram (3 de junio de 2020). "OpenAI lanza GPT-3, el modelo más grande hasta ahora" . Revista Analytics India . Consultado el 31 de julio de 2020 .
- ^ a b Chalmers, David (30 de julio de 2020). Weinberg, Justin (ed.). "GPT-3 e Inteligencia General" . Nous diario . Filósofos sobre GPT-3 (actualizado con respuestas de GPT-3) . Consultado el 4 de agosto de 2020 .
- ^ Hao, Karen (23 de septiembre de 2020). "OpenAI está dando a Microsoft acceso exclusivo a su modelo de lenguaje GPT-3" . Revisión de tecnología del MIT . Consultado el 25 de septiembre de 2020 .
Las compañías dicen que OpenAI continuará ofreciendo su API de cara al público , que permite a los usuarios elegidos enviar texto a GPT-3 u otros modelos de OpenAI y recibir su salida. Sin embargo, solo Microsoft tendrá acceso al código subyacente de GPT-3, lo que le permitirá incrustar, reutilizar y modificar el modelo como le plazca.
- ^ a b "La comprensión de las limitaciones de la IA está empezando a asimilar" . The Economist . 11 de junio de 2020. ISSN 0013-0613 . Consultado el 31 de julio de 2020 .
- ^ Polosukhin, Illia; Kaiser, Lukasz; Gómez, Aidan N .; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish (12 de junio de 2017). "La atención es todo lo que necesita". arXiv : 1706.03762 [ cs.CL ].
- ^ "Procesamiento del lenguaje natural" . Consultado el 31 de julio de 2020 .
- ^ a b Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 de junio de 2018). "Mejora de la comprensión del lenguaje mediante la formación previa generativa" (PDF) . pag. 12 . Consultado el 31 de julio de 2020 .
- ^ a b Sterling, Bruce (13 de febrero de 2020). "Semántica web: Microsoft Project Turing presenta la generación de lenguaje natural de Turing (T-NLG)" . Cableado . ISSN 1059-1028 . Consultado el 31 de julio de 2020 .
- ^ "Los modelos de lenguaje son estudiantes multitarea sin supervisión" (PDF) . Consultado el 4 de diciembre de 2019 .
GPT-2, es un transformador de parámetros 1.5B
Cite journal requiere|journal=
( ayuda ) - ^ Ray, Tiernan (1 de junio de 2020). "Gigantesco GPT-3 de OpenAI insinúa los límites de los modelos de lenguaje para IA" . ZDNet . Consultado el 31 de julio de 2020 .
- ^ Gehman, Samuel; Gururangan, Suchin; Sap, Maarten; Choi, Yejin; Smith, Noah A. (16 al 20 de noviembre de 2020), REALTOXICITYPROMPTS: Evaluating Neural Toxic Degeneration in Language Models , Association for Computational Linguistics, págs. 3356–3369 , consultado el 2 de junio de 2021
- ^ a b "API de OpenAI" . OpenAI . 11 de junio de 2020.
- ^ "TechCrunch - Noticias de puesta en marcha y tecnología" . TechCrunch . 11 de junio de 2020 . Consultado el 31 de julio de 2020 .
Si alguna vez ha querido probar el conjunto de herramientas de aprendizaje automático de OpenAI, ahora es mucho más fácil. La empresa ha lanzado una API que permite a los desarrolladores utilizar sus herramientas de inteligencia artificial en "prácticamente cualquier tarea en inglés".
- ^ Arram (9 de julio de 2020). "GPT-3: Una IA que es inquietantemente buena escribiendo casi cualquier cosa" . Arram Sabeti . Consultado el 31 de julio de 2020 .
- ^ https://arxiv.org/abs/2005.14165
- ^ Manjoo, Farhad (29 de julio de 2020). "¿Cómo sabes que un humano escribió esto?" . The New York Times . ISSN 0362-4331 . Consultado el 4 de agosto de 2020 .
- ^ Weinberg, Justin, ed. (30 de julio de 2020). "Filósofos en GPT-3 (actualizado con respuestas por GPT-3)" . Nous diario . Consultado el 31 de julio de 2020 .
- ^ Simonite, Tom (22 de julio de 2020). "¿Escribió una persona este titular o una máquina?" . Cableado . ISSN 1059-1028 . Consultado el 31 de julio de 2020 .
- ^ Claypoole, Theodore (30 de julio de 2020). "La nueva herramienta de inteligencia artificial GPT-3 asciende a nuevos picos, pero demuestra lo lejos que aún necesitamos viajar" . La Revisión de la Ley Nacional . Consultado el 4 de agosto de 2020 .
- ^ Marcus, Gary (1 de diciembre de 2018). "El problema más profundo del aprendizaje profundo" . Medio . Consultado el 29 de septiembre de 2020 .
- ^ Marcus, Gary; Davis, Ernest (22 de agosto de 2020). "GPT-3, Bloviator: el generador de lenguaje de OpenAI no tiene idea de lo que está hablando" . Revisión de tecnología del MIT . Consultado el 23 de agosto de 2020 .
- ^ Metz, Cade (24 de noviembre de 2020). "Conoce GPT-3. Ha aprendido a codificar (y bloguear y discutir)" . The New York Times . ISSN 0362-4331 . Consultado el 24 de noviembre de 2020 .
- ^ "El chatbot médico que usa el GPT-3 de OpenAI le dijo a un paciente falso que se suicidara" . Noticias de AI . 28 de octubre de 2020 . Consultado el 8 de enero de 2021 .
- ^ Chomsky sobre Terence McKenna, Sam Harris, GPT3, Criptomonedas, Kierkegaard, Neuralink y Hofstadter . 24 de marzo de 2021. El evento ocurre a las 1:11:44.
- ^ https://blogs.microsoft.com/ai/from-conversation-to-code-microsoft-introduces-its-first-product-features-powered-by-gpt-3/
- ^ Escritor de IA
- ^ GPT-3 (8 de septiembre de 2020). "Un robot escribió todo este artículo. ¿Todavía tienes miedo, humano? | GPT-3" . The Guardian . ISSN 0261-3077 . Consultado el 15 de septiembre de 2020 .
- ^ Olanoff, Drew (11 de diciembre de 2015). "OpenAI sin fines de lucro de inteligencia artificial se lanza con el respaldo de Elon Musk y Sam Altman" . Tech Crunch . Consultado el 31 de mayo de 2021 .
- ^ Hao, Karen (29 de agosto de 2019). "OpenAI ha lanzado la versión más grande hasta ahora de su IA que arroja noticias falsas" . Revisión de tecnología del MIT . Consultado el 31 de mayo de 2021 .
- ^ Coldewey, Devin (11 de marzo de 2019). "OpenAI cambia de una organización sin fines de lucro a una 'ganancia limitada' para atraer capital" . Tech Crunch . Consultado el 31 de mayo de 2021 .
- ^ Hao, Karen (23 de septiembre de 2020). "OpenAI está dando a Microsoft acceso exclusivo a su modelo de lenguaje GPT-3" . Revisión de tecnología del MIT . Consultado el 31 de mayo de 2021 .
- ^ Bender, Emily M .; Gebru, Timnit; McMillan-Major, Angelina; Shmitchell, Shmargaret (3 de marzo de 2021). Sobre los peligros de los loros estocásticos: ¿Pueden los modelos lingüísticos ser demasiado grandes? . FAccT '21: Actas de la Conferencia de la ACM de 2021 sobre equidad, rendición de cuentas y transparencia. págs. 610–623. doi : 10.1145 / 3442188.3445922 .
enlaces externos
- Video: OpenAI GPT-3 - ¡Bueno en casi todo! (Documentos de dos minutos)
- Video: GPT3: un modelo de lenguaje aún más grande ( Computerphile )
- Video: GPT-3 vs cerebro humano (Lex Fridman)