Song-Chun Zhu ( chino :朱 松 纯) es un informático y matemático aplicado chino conocido por su trabajo en visión por computadora , inteligencia artificial cognitiva y robótica . Zhu es profesor en los Departamentos de Estadística e Informática de la Universidad de California, Los Ángeles . [1] Zhu también se desempeña como Director del Centro de Visión, Cognición, Aprendizaje y Autonomía de UCLA (VCLA). [2]
Song-Chun Zhu | |
---|---|
Nació | Junio de 1968 |
Nacionalidad | chino |
Ocupación | Científico informático, matemático aplicado |
Premios | Premio Helmholtz Test-of-Time Premio IEEE Fellow David Marr |
Antecedentes académicos | |
alma mater | Universidad de Ciencia y Tecnología de China (Licenciatura en Ciencias de la Computación) Universidad de Harvard (Maestría y Doctorado en Ciencias de la Computación) |
Tesis | Teorías estadísticas y computacionales para la segmentación de imágenes, modelado de texturas y reconocimiento de objetos (1996) |
Asesor de doctorado | David Mumford |
Trabajo académico | |
Disciplina | Ciencias de la Computación y Estadística |
Instituciones | Universidad de California, Los Angeles |
Intereses principales | Inteligencia artificial |
Sitio web | www |
En 2005, Zhu fundó el Lotus Hill Institute, una organización independiente sin fines de lucro para promover la colaboración internacional en los campos de la visión por computadora y el reconocimiento de patrones . [3] Zhu ha publicado extensamente y ha dado conferencias a nivel mundial sobre inteligencia artificial, y en 2011, se convirtió en miembro del IEEE ( Instituto de Ingenieros Eléctricos y Electrónicos ) por "contribuciones al modelado estadístico, el aprendizaje y la inferencia en visión por computadora". [4]
Zhu tiene dos hijas, Stephanie y Beverly. [5] Beverly Yi Zhu ( chino :朱 易) es una patinadora artística competitiva chino-estadounidense . [ cita requerida ]
Temprana edad y educación
Nacido y criado en Ezhou , China , Zhu encontró inspiración, cuando era joven, en el desarrollo de computadoras jugando al ajedrez, lo que despertó su interés en la inteligencia artificial. En 1991, Zhu obtuvo su licenciatura en Ciencias de la Computación de la Universidad de Ciencia y Tecnología de China en Hefei . Durante sus años de licenciatura, Zhu, que encontró profundamente influyente la teoría computacional de la visión del fallecido neurocientífico del MIT David Marr , aspiraba a seguir una teoría general unificada de la visión y la inteligencia artificial. [6] En 1992, Zhu continuó sus estudios de visión por computadora en la Escuela de Graduados de Artes y Ciencias de Harvard . En Harvard, Zhu estudió bajo la supervisión del matemático estadounidense David Mumford y obtuvo una introducción al aprendizaje "probablemente aproximadamente correcto" (PAC) bajo la instrucción de Leslie Valiant . Zhu concluyó sus estudios en Harvard en 1996 con un doctorado. en Ciencias de la Computación y siguió a Mumford a la División de Matemáticas Aplicadas en la Universidad de Brown como becario postdoctoral. [3]
Carrera profesional
Después de su beca postdoctoral, Zhu dio una breve conferencia en el Departamento de Ciencias de la Computación de la Universidad de Stanford . En 1998, se incorporó a la Universidad Estatal de Ohio como profesor asistente en los Departamentos de Ciencias de la Computación y Ciencias Cognitivas. En 2002, Zhu se unió a la Universidad de California, Los Ángeles en los Departamentos de Ciencias de la Computación y Estadística como profesor asociado, ascendiendo al rango de profesor titular en 2006. En UCLA, Zhu estableció el Centro de Visión, Cognición, Aprendizaje y Autonomía. Su principal interés de investigación ha residido en la búsqueda de un marco estadístico y computacional unificado para la visión y la inteligencia, que incluye el gráfico And-Or espacial, temporal y causal (STC-AOG) como una representación unificada y numerosos métodos de Monte Carlo para la inferencia y el aprendizaje. . [7] [8]
En 2005, Zhu estableció una organización independiente sin fines de lucro en su ciudad natal de Ezhou, el Lotus Hill Institute (LHI). LHI ha estado involucrado en la recopilación de conjuntos de datos a gran escala de imágenes y anotando los objetos, escenas y actividades, habiendo recibido contribuciones de muchos académicos de renombre, incluido Harry Shum . El Instituto también cuenta con un equipo de anotación de tiempo completo para analizar estructuras de imágenes, habiendo acumulado más de 500,000 imágenes hasta la fecha. [ cita requerida ]
Desde que estableció LHI, Zhu ha organizado numerosos talleres y conferencias, además de ser el presidente general de la Conferencia sobre Visión por Computadora y Reconocimiento de Patrones (CVPR) de 2012 en Providence, Rhode Island , donde le otorgó a Ulf Grenander una Medalla de Pionero, y el CVPR de 2019 celebrado en Long Beach, California . [9]
En julio de 2017, Zhu fundó DMAI en Los Ángeles como una startup de inteligencia artificial dedicada al desarrollo de una plataforma de inteligencia artificial cognitiva unificada. [10]
En septiembre de 2020, Zhu regresó a China para unirse a la Universidad de Pekín para dirigir su Instituto de Inteligencia Artificial, uniéndose así a otro experto chino en inteligencia artificial en los EE. UU. Y conocido desde hace mucho tiempo de Zhu, el exjefe de inteligencia artificial e investigación de Microsoft, Harry Shum. Shum también fue designado por la Universidad de Pekín en agosto para presidir el comité académico del Instituto de Inteligencia Artificial. [11]
Zhu está trabajando en la creación de un instituto de investigación de IA nuevo e independiente: el Instituto de Inteligencia Artificial General de Beijing (BIGAI). Según la introducción, basada en el paradigma de "datos pequeños para grandes tareas", BIGAI se centra en la tecnología avanzada de IA, la integración multidisciplinaria, el intercambio académico internacional, para nutrir a la nueva generación de jóvenes talentos de IA. [11] Se espera que el instituto reúna investigadores profesionales, académicos y expertos para poner en práctica el marco teórico de inteligencia artificial de Zhu y promover conjuntamente las tecnologías de inteligencia artificial originales chinas y construir una nueva generación de plataformas generales de inteligencia artificial.
Investigación y trabajo
Zhu ha publicado más de trescientos artículos en revistas y actas revisadas por pares en las siguientes cuatro fases:
Pioneros en modelos estadísticos para formular conceptos en el marco de Marr
A principios de la década de 1990, Zhu, con colaboradores en el grupo de teoría de patrones, desarrolló modelos estadísticos avanzados para la visión por computadora. Centrándose en desarrollar un marco estadístico unificador para las primeras representaciones de la visión presentadas en el trabajo póstumamente publicado de David Marr titulado Visión , primero formularon texturas en un nuevo modelo de campo aleatorio de Markov , llamado FRAME, utilizando un principio de entropía minimax para introducir descubrimientos en neurociencia y psicofísica para Distribuciones de Gibbs en física estadística. [12] Luego probaron la equivalencia entre el modelo FRAME y el conjunto microcanónico, [13] al que llamaron conjunto Julesz. Este trabajo recibió la nominación honoraria del Premio Marr durante la Conferencia Internacional sobre Visión por Computador (ICCV) en 1999. [14]
Durante la década de 1990, Zhu desarrolló dos nuevas clases de ecuaciones diferenciales parciales no lineales (PDE). Una clase de segmentación de imágenes se denomina competencia regional. [15] Este trabajo que conecta PDE con modelos de imágenes estadísticas recibió el premio Helmholtz Test of Time Award en ICCV 2013. La otra clase, llamada GRADE (Gibbs Reaction and Diffusion Equations) se publicó en 1997 y emplea un enfoque de dinámica de Langevin para inferencia y aprendizaje. Descenso de gradiente estocástico (SGD). [dieciséis]
A principios de la década de 2000, Zhu formuló textones [17] utilizando modelos generativos con teoría de codificación escasa e integró los modelos de textura y texton para representar el boceto primario. [18] Con Ying Nian Wu, Zhu avanzó en el estudio de las transiciones perceptivas entre regímenes de modelos en la escala de información y propuso una teoría del espacio de escala perceptual para ampliar el espacio de escala de la imagen. [19]
Expandiendo el paradigma gramatical de Fu mediante un gráfico estocástico y-o
Desde 1999 hasta 2002, con su Ph.D. estudiante Zhuowen Tu, Zhu desarrolló un paradigma de Monte Carlo (DDMCMC) basado en datos de la cadena de Markov [20] para atravesar todo el espacio de estados mediante la extensión del trabajo de difusión de salto de Grenander-Miller. Con otro Ph.D. El estudiante, Adrian Barbu, generalizó el algoritmo de muestreo de conglomerados ( Swendsen-Wang ) en física desde los modelos de Ising / Potts a probabilidades arbitrarias. Este avance en el campo hizo que los operadores de fusión-división fueran reversibles por primera vez en la literatura y logró una aceleración de 100 veces sobre el muestreador Gibbs y la difusión por salto. Este logro condujo al trabajo sobre análisis de imágenes [21] que ganó el Premio Marr en ICCV 2003. [14]
En 2004, Zhu pasó a la visión de alto nivel mediante el estudio de la gramática estocástica . El método gramatical se remonta al enfoque de reconocimiento de patrones sintácticos defendido por King-Sun Fu en la década de 1970. Zhu desarrolló modelos gramaticales para algunos problemas de visión clave, como el modelado facial, el envejecimiento facial, la ropa, la detección de objetos, el análisis sintáctico de estructuras rectangulares, etc. Escribió una monografía con Mumford en 2006 titulada A Stochastic Grammar of Images . [22] En 2007, Zhu y sus coautores recibieron una nominación al Premio Marr. Al año siguiente, Zhu recibió el premio JK Aggarwal de la Asociación Internacional de Reconocimiento de Patrones por "contribuciones a una base unificada para la conceptualización, el modelado, el aprendizaje y la inferencia de patrones visuales". [23]
Zhu ha extendido los modelos de gráficos y-o al gráfico y-o espacial, temporal y causal (STC-AOG) para expresar las estructuras compositivas como una representación unificada de objetos, escenas, acciones, eventos y efectos causales en físicos y problemas de comprensión de la escena social.
Explorando la cognición y el sentido común visual de la "materia oscura de la IA"
Desde 2010, Zhu ha colaborado con académicos de la ciencia cognitiva, la inteligencia artificial, la robótica y el lenguaje para explorar lo que él llama la "materia oscura de la inteligencia artificial": el 95% del procesamiento inteligente no detectable directamente en la información sensorial.
Juntos han aumentado el problema de análisis sintáctico de imágenes y comprensión de escenas mediante el modelado cognitivo y el razonamiento sobre los siguientes aspectos: funcionalidad (funciones de objetos y escenas, uso de herramientas), física intuitiva (relaciones de apoyo, materiales, estabilidad y riesgo), intención. y atención (lo que la gente sabe, piensa y pretende hacer en la escena social), causalidad (los efectos causales de las acciones para cambiar la fluidez de los objetos) y utilidad (los valores comunes que impulsan las actividades humanas en el video). [24] [25] [26] Los resultados se difunden a través de una serie de talleres. [27]
Hay muchos otros temas que Zhu ha explorado durante este período, incluidos los siguientes: formulación de conceptos de inteligencia artificial como herramientas, contenedores, líquidos; integrar el análisis sintáctico y la reconstrucción de escenas tridimensionales a partir de imágenes individuales mediante la funcionalidad de razonamiento, la estabilidad física, los diálogos situados mediante el análisis conjunto de vídeo y texto; desarrollar el aprendizaje comunicativo; y mapear el panorama energético de los problemas de aprendizaje no convexos. [28]
Persiguiendo un paradigma de "datos pequeños para grandes tareas" para la IA general
En un artículo público de amplia circulación escrito en chino en 2017, Zhu se refirió a la popular investigación de aprendizaje profundo impulsada por datos como un paradigma de "big data para pequeñas tareas" que entrena una red neuronal para cada tarea específica con datos masivos anotados, lo que resulta en ininterpretables modelos e IA estrecha. Zhu, en cambio, abogó por un paradigma de "datos pequeños para grandes tareas" para lograr una IA general. [29]
Zhu construyó un entorno VR / AR realista a gran escala para entrenar y probar agentes de IA autónomos encargados de ejecutar una gran cantidad de tareas diarias. Esta plataforma de realidad virtual / realidad aumentada recibió el premio al mejor artículo en la conferencia ACM TURC en 2019. Los agentes integran capacidades dentro de los campos de la visión, el lenguaje, la cognición, el aprendizaje y la robótica, en el proceso de desarrollo del sentido común físico y social y la comunicación con los humanos utilizando una arquitectura cognitiva. [30]
Premios y honores
- 1999 - Nominación honoraria al Premio Marr, Séptima Conferencia Internacional sobre Visión por Computador, Corfú, Grecia
- 2001 - Sloan Research Fellow en Ciencias de la Computación, Fundación Alfred Sloan
- 2001 - Premio a la carrera, National Science Foundation
- 2001 - Premio Joven Investigador, Oficina de Investigación Naval
- 2003 - Premio Marr, Novena Conf. Int'l. en Computer Vision, Niza, Francia
- 2007 - Nominación honorífica al Premio Marr en el XI ICCV en Río, Brasil 2008
- 2008 - Premio JK Aggarwal, Asociación Internacional de Reconocimiento de Patrones.
- 2011 - Miembro, IEEE Computer Society.
- 2013 - Premio Helmholtz Test-of-Time en la 14th Int'l Conf. en Computer Vision en Sydney, Australia
- 2017 - Premio de Modelado Computacional, Sociedad de Ciencias Cognitivas
- 2019 - Premio al mejor artículo, Conferencia ACM TURC
Publicaciones
Libros
- SC Zhu y DB Mumford, A Stochastic Grammar of Images , monografía, ahora Publishers Inc. 2007.
- A.Barbu y SC Zhu, Monte Carlo Methods , Springer, publicado en 2019.
- SC Zhu, AI: The Era of Big Integration - Unifying Disciplines within Artificial Intelligence , DMAI, Inc., publicado en 2019.
- SC Zhu y YN Wu, Conceptos y representaciones en visión y cognición , Draft enseñado durante más de 10 años, Springer, Preparándose para 2020.
Documentos
- Zhu, SC, Wu, Y. y Mumford, D. (1998). MARCO: filtros, campos aleatorios y entropía minimax hacia una teoría unificada para el modelado de texturas. Revista Internacional de Visión por Computador, 27 (2) págs. 1–20.
- YN Wu, SC Zhu y XW Liu, (2000). Equivalencia de los modelos Julesz Ensemble y FRAME International Journal of Computer Vision, 38 (3), 247-265.
- Tu, Z. y Zhu, S.-C. Segmentación de imágenes por cadena de Markov impulsada por datos Monte Carlo, IEEE Trans. sobre PAMI, 24 (5), 657-673, 2002.
- Barbu, A. y Zhu, S.-C., Generalizing Swendsen-Wang to Sampling Arbitrary Posterior Probabilities, IEEE Trans. sobre PAMI, 27 (8), 1239-1253, 2005.
- Tu, Z., Chen, X., Yuille y Zhu, S.-C. (2003). Análisis de imágenes: unificando la segmentación, la detección y el reconocimiento. Actas Novena Conferencia Internacional IEEE sobre Visión por Computador.
- Zhu, SC y Yuille, A. (1996). Competencia regional: unificación de serpientes, región en crecimiento y Bayes / MDL para segmentación de imágenes multibanda. Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas, 18 (9), 884–900.
- Zhu, SC y Mumford, D. (1997). Aprendizaje previo y reacción-difusión de Gibbs. Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas, 19 (11), 1236–1250.
- Zhu, S.-C., Guo, C., Wang, Y. y Xu, Z. (2005). ¿Qué son los Textons? Revista Internacional de Visión por Computador, 62 (1/2), 121-143.
- Zhu, S.-C. y Mumford, D. (2006). Una gramática estocástica de imágenes. Fundamentos y tendencias en gráficos por computadora y visión, 2 (4), 259–362.
- Guo, C. Zhu, S.-C. y Wu, Y. (2007), Primal sketch: Integrating Texture and Structure. Visión por computadora y comprensión de la imagen, vol. 106, número 1, 5-19.
- YN Wu, CE Guo y SC Zhu (2008), De la escala de información de imágenes naturales a regímenes de modelos estadísticos, Quarterly of Applied Mathematics, vol. 66, no. 1, 81-122.
- B. Zheng, Y. Zhao, J. Yu, K. Ikeuchi y SC Zhu (2015), Comprensión de la escena mediante el razonamiento de la estabilidad y la seguridad, Revista Internacional de Visión por Computadora, vol. 112, no. 2, págs. 221–238, 2015.
- Y. Zhu, YB Zhao y SC Zhu (2015), Comprensión de herramientas: modelado, aprendizaje y reconocimiento de objetos orientados a tareas, Proc. de IEEE Conf. en Visión por Computador y Reconocimiento de Patrones (CVPR).
- Fire, A. y SC Zhu (2016), Learning Perceptual Causality from Video, ACM Trans. sobre sistemas y tecnología inteligentes, 7 (2): 23.
- YX Zhu, C. Jiang, Y. Zhao, D. Terzopoulos y SC Zhu (2016), Inferir fuerzas y aprender las utilidades humanas a partir del vídeo, Proc. de IEEE Conf. en Visión por Computador y Reconocimiento de Patrones (CVPR).
- D. Xie, T. Shu, S. Todorovic y SC Zhu (2018), Learning and Inferring “Dark Matter” and Predicting Human Intents and Trajectories in Videos, IEEE Trans on Pattern Analysis and Machine Intelligence, 40 (7): 1639- 1652.
- Zhu, Y. et al (2020) Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Human-like Commonsense, Engineering número especial sobre IA.
- SC Zhu, (2019) AI: The Era of Big Integration - Unifying Disciplines within Artificial Intelligence, DMAI, Inc ..
Referencias
- ^ "Song-Chun Zhu" .
- ^ "Centro de Visión, Cognición, Aprendizaje y Autonomía" .
- ^ a b "Profesor Song-Chun Zhu, UCLA" .
- ^ "Song-Chun Zhu" .
- ^ "Investigación: ¿estamos en el camino correcto?" .
- ^ "ACM 图灵 大会 上 的" 华山 论剑 ": 朱 松 纯 对话 沈 向 洋 Diálogo de los doctores Song-Chun Zhu y Harry Shum en ACM TURC 2019" .
- ^ "Un marco unificado para la transferencia de conocimientos entre humanos y robots" .
- ^ "Métodos de Monte Carlo (tapa dura)" .
- ^ "Una carta de los organizadores de PAMI TC y CVPR 2019" .
- ^ "DMAI" .
- ^ a b "DMAI" .
- ^ Zhu, SC, Wu, Y. y Mumford, D. (1998). MARCO: filtros, campos aleatorios y entropía minimax hacia una teoría unificada para el modelado de texturas. Revista Internacional de Visión por Computador, 27 (2) pp.1-20.
- ^ YN Wu, SC Zhu y XW Liu, (2000). Equivalencia de los modelos Julesz Ensemble y FRAME International Journal of Computer Vision, 38 (3), 247-265.
- ^ a b "Premios Computer Vision" .
- ^ Zhu, SC y Yuille, A. (1996). Competencia regional: unificación de serpientes, región en crecimiento y Bayes / MDL para segmentación de imágenes multibanda. Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas, 18 (9), 884–900.
- ^ Zhu, SC y Mumford, D. (1997). Aprendizaje previo y reacción-difusión de Gibbs. Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas, 19 (11), 1236–1250.
- ^ Zhu, S.-C., Guo, C., Wang, Y. y Xu, Z. (2005). ¿Qué son los Textons? Revista Internacional de Visión por Computador, 62 (1/2), 121-143.
- ↑ Guo, C. Zhu, S.-C. y Wu, Y. (2007), Primal sketch: Integrating Texture and Structure. Visión por computadora y comprensión de la imagen, vol. 106, número 1, 5-19.
- ^ YN Wu, CE Guo y SC Zhu (2008), De escala de información de imágenes naturales a regímenes de modelos estadísticos, Quarterly of Applied Mathematics, vol. 66, no. 1, 81-122.
- ^ Tu, Z. y Zhu, S.-C. Segmentación de imágenes por cadena de Markov impulsada por datos Monte Carlo, IEEE Trans. sobre PAMI, 24 (5), 657-673, 2002.
- ^ Tu, Z., Chen, X., Yuille y Zhu, S.-C. (2003). Análisis de imágenes: unificando la segmentación, la detección y el reconocimiento. Actas Novena Conferencia Internacional IEEE sobre Visión por Computador.
- ^ Zhu, S.-C. y Mumford, D. (2006). Una gramática estocástica de imágenes. Fundamentos y tendencias en gráficos por computadora y visión, 2 (4), 259–362.
- ^ "Premio JK Aggarwal 2008 otorgado al Prof. Song-Chun Zhu" .
- ^ B. Zheng, Y. Zhao, J. Yu, K. Ikeuchi y SC Zhu (2015), Comprensión de la escena mediante el razonamiento de estabilidad y seguridad, Revista internacional de visión por computadora, vol. 112, no. 2, págs. 221-238, 2015.
- ^ Y. Zhu, YB Zhao y SC Zhu (2015), Herramientas de comprensión: modelado de objetos orientados a tareas, aprendizaje y reconocimiento, Proc. de IEEE Conf. en Visión por Computador y Reconocimiento de Patrones (CVPR).
- ^ YX Zhu, C. Jiang, Y. Zhao, D. Terzopoulos y SC Zhu (2016), Inferir fuerzas y aprender las utilidades humanas del vídeo, Proc. de IEEE Conf. en Visión por Computador y Reconocimiento de Patrones (CVPR).
- ^ "La visión se encuentra con la cognición" .
- ^ "Song-chun Zhu" .
- ^ "Algunas charlas invitadas" .
- ^ "La belleza del aprendizaje y la inteligencia humana" .
enlaces externos
- Centro de UCLA para la visión, la cognición, el aprendizaje y la autonomía
- Página de Song-Chun Zhu en UCLA
- Lotus Hill Institute for Computer vision and Information Science
- Visión por computadora y reconocimiento de patrones, Long Beach, CA, 2019
- DM Group, la materia oscura de la IA
- ACM 图灵 大会 上 的 “华山 论剑” : 朱 松 纯 对话 沈 向 洋 Diálogo de los Dres. Song-Chun Zhu y Harry Shum en ACM TURC 2019
- La bibliografía de informática de DBLP
- Taller internacional sobre visión y cognición: funcionalidad, física, intención, causalidad
- 浅谈 人工智能, 《视觉 求索》 公众 号, noviembre de 2017