Historia del procesamiento del lenguaje natural

La historia del procesamiento del lenguaje natural describe los avances del procesamiento del lenguaje natural (Esquema del procesamiento del lenguaje natural). Existe cierta superposición con la historia de la traducción automática , la historia del reconocimiento de voz y la historia de la inteligencia artificial .

Investigación y desarrollo

La historia de la traducción automática se remonta al siglo XVII, cuando filósofos como Leibniz y Descartes plantearon propuestas de códigos que relacionarían palabras entre lenguajes. Todas estas propuestas siguieron siendo teóricas y ninguna resultó en el desarrollo de una máquina real.

Las primeras patentes de "máquinas traductoras" se solicitaron a mediados de la década de 1930. Una propuesta de Georges Artsrouni era simplemente un diccionario bilingüe automático que usaba cinta de papel . La otra propuesta, de Peter Troyanskii , un ruso , fue más detallada. Incluía tanto el diccionario bilingüe como un método para tratar los roles gramaticales entre idiomas, basado en el esperanto .

En 1950, Alan Turing publicó su famoso artículo " Computación y maquinaria e inteligencia " que proponía lo que ahora se llama la prueba de Turing como criterio de inteligencia. Este criterio depende de la capacidad de un programa de computadora para hacerse pasar por un ser humano en una conversación escrita en tiempo real con un juez humano, lo suficientemente bien como para que el juez sea incapaz de distinguir de manera confiable, basándose únicamente en el contenido de la conversación, entre el programa y un ser humano real.

En 1957, las estructuras sintácticas de Noam Chomsky revolucionaron la lingüística con la " gramática universal ", un sistema de estructuras sintácticas basado en reglas. ^[1]

El experimento de Georgetown en 1954 implicó la traducción completamente automática de más de sesenta oraciones en ruso al inglés. Los autores afirmaron que dentro de tres o cinco años, la traducción automática sería un problema resuelto. ^[2] Sin embargo, el progreso real fue mucho más lento, y después del informe ALPAC en 1966, que encontró que diez años de investigación no habían cumplido con las expectativas, la financiación para la traducción automática se redujo drásticamente. Se realizaron pocas investigaciones adicionales en traducción automática hasta finales de la década de 1980, cuando se desarrollaron los primeros sistemas estadísticos de traducción automática .

Algunos sistemas de PNL de notable éxito desarrollados en la década de 1960 fueron SHRDLU , un sistema de lenguaje natural que trabaja en " mundos de bloques " restringidos con vocabularios restringidos.

En 1969 Roger Schank introdujo la teoría de la dependencia conceptual para la comprensión del lenguaje natural. ^[3] Este modelo, parcialmente influenciado por el trabajo de Sydney Lamb , fue ampliamente utilizado por los estudiantes de Schank en la Universidad de Yale , como Robert Wilensky, Wendy Lehnert y Janet Kolodner .

En 1970, William A. Woods introdujo la red de transición aumentada (ATN) para representar la entrada del lenguaje natural. ^[4] En lugar de reglas de estructura sintagmática , los ATN utilizaron un conjunto equivalente de autómatas de estado finito que se llamaban de forma recursiva. Los ATN y su formato más general llamado "ATN generalizados" continuaron utilizándose durante varios años. Durante la década de 1970, muchos programadores comenzaron a escribir "ontologías conceptuales", que estructuraban información del mundo real en datos comprensibles por computadora. Algunos ejemplos son MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Política (Carbonell, 1979) y Plot Units (Lehnert 1981). ). Durante este tiempo, se escribieron muchos chatterbots , incluidos PARRY , Racter y Jabberwacky .

Hasta la década de 1980, la mayoría de los sistemas de PNL se basaban en complejos conjuntos de reglas escritas a mano. Sin embargo, a fines de la década de 1980, hubo una revolución en la PNL con la introducción de algoritmos de aprendizaje automático para el procesamiento del lenguaje. Esto se debió tanto al aumento constante del poder computacional resultante de la Ley de Moore como a la disminución gradual del dominio de las teorías lingüísticas chomskyanas (por ejemplo, la gramática transformacional ), cuyos fundamentos teóricos desalentaron el tipo de lingüística de corpus que subyace al enfoque de aprendizaje automático para procesamiento del lenguaje. ^[5] Algunos de los primeros algoritmos de aprendizaje automático utilizados, como los árboles de decisión , produjeron sistemas de reglas estrictas si-entonces similares a las reglas escritas a mano existentes. Sin embargo, la investigación se ha centrado cada vez más en modelos estadísticos , que toman decisiones probabilísticas suaves basadas en asignar ponderaciones de valor real a las características que componen los datos de entrada. Los modelos de lenguaje de caché en los que ahora se basan muchos sistemas de reconocimiento de voz son ejemplos de tales modelos estadísticos. Dichos modelos son generalmente más robustos cuando se les proporciona una entrada desconocida, especialmente una entrada que contiene errores (como es muy común para los datos del mundo real), y producen resultados más confiables cuando se integran en un sistema más grande que comprende múltiples subtareas.

Muchos de los primeros éxitos notables se produjeron en el campo de la traducción automática , debido especialmente al trabajo en IBM Research, donde se desarrollaron sucesivamente modelos estadísticos más complicados. Estos sistemas pudieron aprovechar los corpus textuales multilingües existentes que habían sido elaborados por el Parlamento de Canadá y la Unión Europea como resultado de leyes que exigían la traducción de todos los procedimientos gubernamentales a todos los idiomas oficiales de los sistemas de gobierno correspondientes. Sin embargo, la mayoría de los otros sistemas dependían de corpus desarrollados específicamente para las tareas implementadas por estos sistemas, lo que fue (y a menudo sigue siendo) una limitación importante en el éxito de estos sistemas. Como resultado, una gran cantidad de investigación se ha dedicado a métodos para aprender de manera más efectiva a partir de cantidades limitadas de datos.

La investigación reciente se ha centrado cada vez más en algoritmos de aprendizaje no supervisados y semi-supervisados . Dichos algoritmos pueden aprender de datos que no han sido anotados manualmente con las respuestas deseadas, o usando una combinación de datos anotados y no anotados. Generalmente, esta tarea es mucho más difícil que el aprendizaje supervisado y, por lo general, produce resultados menos precisos para una determinada cantidad de datos de entrada. Sin embargo, existe una enorme cantidad de datos no anotados disponibles (que incluyen, entre otras cosas, todo el contenido de la World Wide Web ), que a menudo pueden compensar los resultados inferiores.

Software

Software	Año	Creador	Descripción
Experimento de Georgetown	1954	Universidad de Georgetown e IBM	implicó la traducción completamente automática de más de sesenta frases rusas al inglés.
ESTUDIANTE	1964	Daniel Bobrow	podría resolver problemas verbales de álgebra de la escuela secundaria. ^[6]
ELIZA	1964	Joseph Weizenbaum	una simulación de una psicoterapeuta rogeriana , reformulando su respuesta con algunas reglas gramaticales. ^[7]
SHRDLU	1970	Terry Winograd	un sistema de lenguaje natural que funciona en " mundos de bloques " restringidos con vocabularios restringidos, funcionó extremadamente bien
PARAR	1972	Kenneth Colby	Un charlatán
KL-ONE	1974	Sondheimer y col.	un sistema de representación del conocimiento en la tradición de las redes y marcos semánticos ; es un lenguaje marco .
MARGIE	1975	Roger Schank
TaleSpin (software)	1976	Meehan
ESCRÚPULO		Lehnert
ASCENSOR / ESCALERA	1978	Hendrix	una interfaz de lenguaje natural para una base de datos de información sobre los barcos de la Marina de los EE. UU.
SAM (software)	1978	Cullingford
PAM (software)	1978	Robert Wilensky
Política (software)	1979	Carbonell
Unidades de trazado (software)	1981	Lehnert
Jabberwacky	mil novecientos ochenta y dos	Rollo carpintero	chatterbot con el objetivo declarado de "simular el chat humano natural de una manera interesante, entretenida y divertida".
MUMBLE (software)	mil novecientos ochenta y dos	McDonald
Racter	1983	William Chamberlain y Thomas Etter	chatterbot que generó prosa en inglés al azar.
MOPTRANS ^[8]	1984	Lytinen
KODIAK (software)	1986	Wilensky
Absity (software)	1987	Hirst
Dr. Sbaitso	1991	Laboratorios creativos
Watson (software de inteligencia artificial)	2006	IBM	Un sistema de respuesta a preguntas que ganó el Jeopardy! concurso, derrotando a los mejores jugadores humanos en febrero de 2011.
Siri	2011	manzana	Un asistente virtual desarrollado por Apple.
Cortana	2014	Microsoft	Un asistente virtual desarrollado por Microsoft.
Amazon Alexa	2014	Amazonas	Un asistente virtual desarrollado por Amazon.
Asistente de Google	2016	Google	Un asistente virtual desarrollado por Google.

Referencias

^ "SEM1A5 - Parte 1 - Una breve historia de la PNL" . Consultado el 25 de junio de 2010 .
^ Hutchins, J. (2005)
^ Roger Schank , 1969, un analizador de dependencia conceptual para el lenguaje natural Actas de la conferencia de 1969 sobre lingüística computacional, Sång-Säby, Suecia, páginas 1-3
↑ Woods, William A (1970). "Gramáticas de la red de transición para el análisis del lenguaje natural". Comunicaciones del ACM 13 (10): 591–606 [1]
↑ La lingüística chomskyana fomenta la investigación de " casos extremos " que enfatizan los límites de sus modelos teóricos (comparables a losfenómenos patológicos en matemáticas), típicamente creados mediante experimentos mentales , en lugar de la investigación sistemática de fenómenos típicos que ocurren en datos del mundo real. como es el caso de la lingüística de corpus . La creación y el uso de estos corpus de datos del mundo real es una parte fundamental de los algoritmos de aprendizaje automático para la PNL. Además, los fundamentos teóricos de la lingüística chomskyana, como el llamadoargumento de la " pobreza del estímulo ", implican que los algoritmos de aprendizaje general, como se utilizan normalmente en el aprendizaje automático, no pueden tener éxito en el procesamiento del lenguaje. Como resultado, el paradigma de Chomskyan desalentó la aplicación de tales modelos al procesamiento del lenguaje.
^ McCorduck 2004 , p. 286, Crevier 1993 , págs. 76-79, Russell y Norvig 2003 , pág. 19
^ McCorduck 2004 , págs. 291-296, Crevier 1993 , págs. 134-139
^ Janet L. Kolodner, Christopher K. Riesbeck; Experiencia, memoria y razonamiento ; Prensa de psicología; 2014 reimpresión

Bibliografía

Crevier, Daniel (1993), AI: The Tumultuous Search for Artificial Intelligence , Nueva York, NY: BasicBooks, ISBN 0-465-02997-3
McCorduck, Pamela (2004), Máquinas que piensan (2a ed.), Natick, MA: AK Peters, Ltd., ISBN 978-1-56881-205-2, OCLC 52197627.
Russell, Stuart J .; Norvig, Peter (2003), Inteligencia artificial: un enfoque moderno (2a ed.), Upper Saddle River, Nueva Jersey: Prentice Hall, ISBN 0-13-790395-2.

[1] "SEM1A5 - Parte 1 - Una breve historia de la PNL" . Consultado el 25 de junio de 2010 .

[2] Hutchins, J. (2005)

[3] Roger Schank , 1969, un analizador de dependencia conceptual para el lenguaje natural Actas de la conferencia de 1969 sobre lingüística computacional, Sång-Säby, Suecia, páginas 1-3

[4] Woods, William A (1970). "Gramáticas de la red de transición para el análisis del lenguaje natural". Comunicaciones del ACM 13 (10): 591–606 [1]

[5] La lingüística chomskyana fomenta la investigación de " casos extremos " que enfatizan los límites de sus modelos teóricos (comparables a losfenómenos patológicos en matemáticas), típicamente creados mediante experimentos mentales , en lugar de la investigación sistemática de fenómenos típicos que ocurren en datos del mundo real. como es el caso de la lingüística de corpus . La creación y el uso de estos corpus de datos del mundo real es una parte fundamental de los algoritmos de aprendizaje automático para la PNL. Además, los fundamentos teóricos de la lingüística chomskyana, como el llamadoargumento de la " pobreza del estímulo ", implican que los algoritmos de aprendizaje general, como se utilizan normalmente en el aprendizaje automático, no pueden tener éxito en el procesamiento del lenguaje. Como resultado, el paradigma de Chomskyan desalentó la aplicación de tales modelos al procesamiento del lenguaje.

[6] McCorduck 2004 , p. 286, Crevier 1993 , págs. 76-79, Russell y Norvig 2003 , pág. 19

[7] McCorduck 2004 , págs. 291-296, Crevier 1993 , págs. 134-139

[8] Janet L. Kolodner, Christopher K. Riesbeck; Experiencia, memoria y razonamiento ; Prensa de psicología; 2014 reimpresión

[1]