Jürgen Schmidhuber

Jürgen Schmidhuber (nacido el 17 de enero de 1963) ^[1] es un científico informático más conocido por su trabajo en el campo de la inteligencia artificial , el aprendizaje profundo y las redes neuronales artificiales . Es codirector del Instituto Dalle Molle de Investigación en Inteligencia Artificial en Lugano , en Ticino, en el sur de Suiza . ^[2] Siguiendo a Google Scholar , de 2016 a 2021 ha recibido más de 100.000 citas científicas . ^[3] Se le ha referido como "padre de la IA moderna", ^[4]^[5]^[6]^[7]^[8]^[9]^[10] "padre de la IA",^[11]^[12]^[13] "padre de la IA madura",^[2] "Papá" de los famosos productos de IA ,^[14] "Padrino",^[15]^[7] y "padre del aprendizaje profundo".^[16]^[7] (El propio Schmidhuber, sin embargo, ha llamado a Alexey Grigorevich Ivakhnenko el "padre del aprendizaje profundo".^[17] )

Schmidhuber realizó sus estudios de pregrado en la Universidad Técnica de Munich en Munich , Alemania. ^[1] Enseñó allí desde 2004 hasta 2009 cuando se convirtió en profesor de inteligencia artificial en la Università della Svizzera Italiana en Lugano , Suiza. ^[18]

Con sus alumnos Sepp Hochreiter , Felix Gers , Fred Cummins, Alex Graves y otros, Schmidhuber publicó versiones cada vez más sofisticadas de un tipo de red neuronal recurrente llamada memoria a corto plazo (LSTM). Los primeros resultados ya se informaron en la tesis de diploma de Hochreiter (1991) que analizó y superó el famoso problema del gradiente de fuga . ^[19] El nombre LSTM se introdujo en un informe técnico (1995) que dio lugar a la publicación LSTM más citada (1997). ^[20]

La arquitectura estándar LSTM que se utiliza en casi todas las aplicaciones actuales se introdujo en 2000. ^[21] La "vanilla LSTM" de hoy que utiliza la retropropagación a través del tiempo se publicó en 2005, ^[22]^[23] y su algoritmo de entrenamiento de clasificación temporal conexionista (CTC) ^[24] en 2006. CTC habilitó el reconocimiento de voz de un extremo a otro con LSTM. En 2015, LSTM capacitado por CTC se utilizó en una nueva implementación de reconocimiento de voz en el software de Google para teléfonos inteligentes . ^[2] Google también usó LSTM para el asistente inteligente Allo ^[25] y para Google Translate . ^[26]^[27] Apple usó LSTM para la función "Quicktype" en el iPhone ^[28]^[29] y para Siri . ^[30] Amazon usó LSTM para Amazon Alexa . ^[31] En 2017, Facebook realizó alrededor de 4.500 millones de traducciones automáticas todos los días utilizando las redes LSTM. ^[32] Bloomberg Business Week escribió: "Estos poderes hacen que LSTM sea posiblemente el logro de IA más comercial, utilizado para todo, desde predecir enfermedades hasta componer música". ^[15]

En 2011, el equipo de Schmidhuber en IDSIA con su postdoctorado Dan Ciresan también logró aceleraciones dramáticas de las redes neuronales convolucionales (CNN) en computadoras rápidas paralelas llamadas GPU . Una CNN anterior sobre GPU de Chellapilla et al. (2006) fue 4 veces más rápido que una implementación equivalente en CPU. ^[33] La profunda CNN de Dan Ciresan et al. (2011) en IDSIA ya era 60 veces más rápido ^[34] y logró la primera actuación sobrehumana en un concurso de visión por computadora en agosto de 2011. ^[35] Entre el 15 de mayo de 2011 y el 10 de septiembre de 2012, sus CNN rápidos y profundos ganaron nada menos que cuatro concursos de imagen. ^[36]^[37]También mejoraron significativamente el mejor rendimiento en la literatura para múltiples bases de datos de imágenes . ^[38] El enfoque se ha convertido en fundamental para el campo de la visión por computadora . ^[37] Se basa en diseños de CNN presentados mucho antes por Yann LeCun et al. (1989) ^[39] quien aplicó el algoritmo de retropropagación a una variante de la arquitectura CNN original de Kunihiko Fukushima llamada neocognitron , ^[40] posteriormente modificada por el método de J. Weng llamado max-pooling . ^[41]^[37]