Jürgen Schmidhuber


Jürgen Schmidhuber (nacido el 17 de enero de 1963) [1] es un científico informático más conocido por su trabajo en el campo de la inteligencia artificial , el aprendizaje profundo y las redes neuronales artificiales . Es codirector del Instituto Dalle Molle de Investigación en Inteligencia Artificial en Lugano , en Ticino, en el sur de Suiza . [2] Siguiendo a Google Scholar , de 2016 a 2021 ha recibido más de 100.000 citas científicas . [3] Se le ha referido como "padre de la IA moderna", [4][5] [6] [7] [8] [9] [10] "padre de la IA", [11] [12] [13] "padre de la IA madura", [2] "Papá" de los famosos productos de IA , [14] "Padrino", [15] [7] y "padre del aprendizaje profundo". [16] [7] (El propio Schmidhuber, sin embargo, ha llamado a Alexey Grigorevich Ivakhnenko el "padre del aprendizaje profundo". [17] )

Schmidhuber realizó sus estudios de pregrado en la Universidad Técnica de Munich en Munich , Alemania. [1] Enseñó allí desde 2004 hasta 2009 cuando se convirtió en profesor de inteligencia artificial en la Università della Svizzera Italiana en Lugano , Suiza. [18]

Con sus alumnos Sepp Hochreiter , Felix Gers , Fred Cummins, Alex Graves y otros, Schmidhuber publicó versiones cada vez más sofisticadas de un tipo de red neuronal recurrente llamada memoria a corto plazo (LSTM). Los primeros resultados ya se informaron en la tesis de diploma de Hochreiter (1991) que analizó y superó el famoso problema del gradiente de fuga . [19] El nombre LSTM se introdujo en un informe técnico (1995) que dio lugar a la publicación LSTM más citada (1997). [20]

La arquitectura estándar LSTM que se utiliza en casi todas las aplicaciones actuales se introdujo en 2000. [21] La "vanilla LSTM" de hoy que utiliza la retropropagación a través del tiempo se publicó en 2005, [22] [23] y su algoritmo de entrenamiento de clasificación temporal conexionista (CTC) [24] en 2006. CTC habilitó el reconocimiento de voz de un extremo a otro con LSTM. En 2015, LSTM capacitado por CTC se utilizó en una nueva implementación de reconocimiento de voz en el software de Google para teléfonos inteligentes . [2] Google también usó LSTM para el asistente inteligente Allo [25] y para Google Translate . [26] [27] Apple usó LSTM para la función "Quicktype" en el iPhone [28] [29] y para Siri . [30] Amazon usó LSTM para Amazon Alexa . [31] En 2017, Facebook realizó alrededor de 4.500 millones de traducciones automáticas todos los días utilizando las redes LSTM. [32] Bloomberg Business Week escribió: "Estos poderes hacen que LSTM sea posiblemente el logro de IA más comercial, utilizado para todo, desde predecir enfermedades hasta componer música". [15]

En 2011, el equipo de Schmidhuber en IDSIA con su postdoctorado Dan Ciresan también logró aceleraciones dramáticas de las redes neuronales convolucionales (CNN) en computadoras rápidas paralelas llamadas GPU . Una CNN anterior sobre GPU de Chellapilla et al. (2006) fue 4 veces más rápido que una implementación equivalente en CPU. [33] La profunda CNN de Dan Ciresan et al. (2011) en IDSIA ya era 60 veces más rápido [34] y logró la primera actuación sobrehumana en un concurso de visión por computadora en agosto de 2011. [35] Entre el 15 de mayo de 2011 y el 10 de septiembre de 2012, sus CNN rápidos y profundos ganaron nada menos que cuatro concursos de imagen. [36] [37]También mejoraron significativamente el mejor rendimiento en la literatura para múltiples bases de datos de imágenes . [38] El enfoque se ha convertido en fundamental para el campo de la visión por computadora . [37] Se basa en diseños de CNN presentados mucho antes por Yann LeCun et al. (1989) [39] quien aplicó el algoritmo de retropropagación a una variante de la arquitectura CNN original de Kunihiko Fukushima llamada neocognitron , [40] posteriormente modificada por el método de J. Weng llamado max-pooling . [41] [37]