La síntesis de imágenes humanas es una tecnología que se puede aplicar para realizar interpretaciones creíbles e incluso fotorrealistas [1] [2] de semejanzas humanas, en movimiento o inmóviles. Ha existido efectivamente desde principios de la década de 2000 . Muchas películas que utilizan imágenes generadas por computadora han presentado imágenes sintéticas de personajes similares a los humanos compuestas digitalmente en el material fílmico real o simulado. Hacia finales de la década de 2010 , la inteligencia artificial de aprendizaje profundo se aplicó para sintetizar imágenes y videos. que parecen humanos, sin necesidad de ayuda humana, una vez que se ha completado la fase de entrenamiento, mientras que la ruta 7D de la vieja escuela requería cantidades masivas de trabajo humano.
Cronología de la síntesis de imágenes humanas
- En 1971, Henri Gouraud realizó la primera captura y representación geométrica CG de un rostro humano. El modelo fue su esposa Sylvie Gouraud. El modelo 3D era un modelo simple de estructura de alambre y aplicó el sombreador Gouraud por el que es más conocido para producir la primera representación conocida de semejanza humana en computadora (ver imágenes) . [3]
- El cortometraje de 1972 Una mano animada por computadora de Edwin Catmull y Fred Parke fue la primera vez que se utilizaron imágenes generadas por computadora en una película para simular la apariencia humana en movimiento. La película presentaba una mano y una cara simuladas por computadora (vea la película aquí) .
- La película de 1976 Futureworld reutilizó partes de Una mano animada por computadora en la pantalla grande.
- El video musical de 1983 de la canción Musique Non-Stop de la banda alemana Kraftwerk salió al aire en 1986. Creado por la artista Rebecca Allen , presenta simulaciones por computadora de apariencia no realista, pero claramente reconocibles de los miembros de la banda.
- La película de 1994 The Crow fue la primera producción cinematográfica en utilizar la composición digital de una representación simulada por computadora de un rostro en escenas filmadas con un cuerpo doble . La necesidad fue la musa cuando el actor Brandon Lee que interpretaba al protagonista murió trágicamente accidentalmente en el escenario.
- En 1999 Paul Debevec et al. de la USC capturó el campo de reflectancia de un rostro humano con su primera versión de un escenario de luz . Presentaron su método en el SIGGRAPH 2000 [4]
- En 2003, el público debutó con imágenes humanas realistas en las películas de 2003 The Matrix Reloaded en la secuencia de pelea fornida donde hasta 100 Agentes Smith pelean contra Neo y en The Matrix Revolutions donde al comienzo del enfrentamiento final, el pómulo del Agente Smith recibe un puñetazo. en por Neo dejando el aspecto digital antinaturalmente ileso. El DVD extra de Matrix Revolutions documenta el proceso con cierto detalle y las técnicas utilizadas, incluida la captura del movimiento facial y la captura del movimiento limbal , y la proyección en modelos.
- En 2003, The Animatrix: Final Flight of the Osiris, una imagen de vanguardia que quiere ser humana y que no engaña al espectador hecha por Square Pictures .
- En 2003 semejanza digitales de Tobey Maguire se hizo para las películas de Spider-Man 2 y Spider-Man 3 de Sony Pictures Imageworks . [5]
- En 2005 se estableció el proyecto Face of the Future . [6] por la Universidad de St Andrews y Perception Lab, financiado por EPSRC . [7] El sitio web contiene un "Transformador facial", que permite a los usuarios transformar su rostro en cualquier etnia y edad , así como la capacidad de transformar su rostro en una pintura (al estilo de Sandro Botticelli o Amedeo Modigliani ). [8] Este proceso se logra combinando la fotografía del usuario con una cara promedio . [7]
- En 2009 Debevec et al. presentó nuevas imágenes digitales, hechas por Image Metrics , esta vez de la actriz Emily O'Brien, cuya reflectancia fue capturada con la luz de la etapa 5 de la USC. [9] El movimiento parece bastante convincente en contraste con la torpe carrera en Animatrix: Final Flight of the Osiris que fue el estado del arte en 2003 si el fotorrealismo era la intención de los animadores .
- En 2009, se hizo una imagen digital de un Arnold Schwarzenegger más joven para la película Terminator Salvation, aunque el resultado final fue criticado como poco convincente. La geometría facial se adquirió de un molde de 1984 de Schwarzenegger.
- En 2010, Walt Disney Pictures lanzó una secuela de ciencia ficción titulada Tron: Legacy con un aspecto digital rejuvenecido digitalmente del actor Jeff Bridges interpretando al antagonista CLU .
- En SIGGGRAPH 2013, Activision y USC presentaron un "Digital Ira" en tiempo real, un rostro digital parecido a Ari Shapiro, un científico investigador de ICT USC, [10] utilizando la etapa de luz X de USC de Ghosh et al. tanto para el campo de reflectancia como para la captura de movimiento. [11] El resultado final tanto precalculado como renderizado en tiempo real con la GPU de juego más moderna que se muestra aquí y parece bastante realista.
- En 2014, The Presidential Portrait de USC ICT en conjunto con el Smithsonian Institution se realizó utilizando el último escenario de luz móvil de USC en el que el presidente Barack Obama capturó su geometría, texturas y reflectancia. [12]
- En 2014, Ian Goodfellow et al. presentó los principios de una red generativa de confrontación . Las GAN llegaron a los titulares a principios de 2018 con las controversias de deepfakes .
- Para la película Furious 7 de 2015 , Weta Digital realizó una apariencia digital del actor Paul Walker que murió en un accidente durante el rodaje para permitir la finalización de la película. [13]
- En 2016 , se demostraron de manera creíble técnicas que permiten la falsificación casi en tiempo real de expresiones faciales en videos 2D existentes. [14]
- En 2016, se hizo una imagen digital de Peter Cushing para la película Rogue One , donde su apariencia parecería tener la misma edad que el actor durante el rodaje de la película original de Star Wars de 1977 .
- En SIGGRAPH 2017, investigadores de la Universidad de Washington presentaron una imagen digital impulsada por audio de la parte superior del torso de Barack Obama . (ver) Fue impulsado solo por una pista de voz como datos de origen para la animación después de que se completó la fase de entrenamiento para adquirir sincronización de labios e información facial más amplia del material de entrenamiento que consiste en videos 2D con audio. [15]
- A finales de 2017 [16] y principios de 2018, surgió la controversia de los deepfakes en la que los videos porno se manipularon utilizando el aprendizaje automático profundo para que el rostro de la actriz fuera reemplazado por la opinión del software de cómo se vería el rostro de otra persona en la misma pose y Encendiendo.
- En 2018, GDC Epic Games y Tencent Games demostraron "Siren", una imagen digital de la actriz Bingjie Jiang . Esto fue posible con las siguientes tecnologías: CubicMotion 's visión por ordenador del sistema, 3Lateral ' s sistema de aparejos facial y Vicon sistema de captura de movimiento 's. La demostración se realizó casi en tiempo real a 60 fotogramas por segundo en Unreal Engine 4 . [17]
- En 2018, en la Conferencia Mundial de Internet en Wuzhen, la Agencia de Noticias Xinhua presentó dos imitaciones digitales hechas a semejanza de sus presentadores de noticias reales Qiu Hao ( idioma chino ) [18] y Zhang Zhao ( idioma inglés ). Los imitaciones digitales se hicieron en conjunto con Sogou . [19] Ni la síntesis de voz utilizada ni los gestos de los presentadores digitales parecidos fueron lo suficientemente buenos como para engañar al espectador y confundirlos con humanos reales fotografiados con una cámara de televisión.
- En septiembre de 2018, Google agregó "imágenes pornográficas sintéticas involuntarias" a su lista de prohibiciones, lo que permite que cualquiera solicite al motor de búsqueda los resultados del bloque que los representen falsamente como "desnudos o en una situación sexualmente explícita". [20]
- En febrero de 2019, Nvidia open source StyleGAN , una novedosa red generativa de adversarios . [21] Inmediatamente después de esto, Phillip Wang creó el sitio web ThisPersonDoesNotExist.com con StyleGAN para demostrar que se pueden hacer automáticamente cantidades ilimitadas de retratos faciales de nadie, a menudo fotorrealistas, usando un GAN. [22] StyleGAN de Nvidia se presentó en un artículo aún no revisado por pares a finales de 2018. [22]
- A JUNIO 2019 CVPR el MIT CSAIL presenta un sistema titulado "Speech2Face: Aprender la cara detrás de una voz" que sintetiza las caras probables en base a sólo una grabación de una voz. Fue entrenado con cantidades masivas de video de personas hablando.
- Desde el 1 de julio de 2019 [23] Virginia ha tipificado como delito la venta y difusión de pornografía sintética no autorizada, pero no la fabricación. [24] como § 18.2-386.2 titulado 'Difusión o venta ilegal de imágenes de otra persona; multa.' se convirtió en parte del Código de Virginia . El texto de la ley establece: " Cualquier persona que, con la intención de coaccionar , acosar o intimidar , difunda o venda maliciosamente cualquier imagen en video o fija creada por cualquier medio que muestre a otra persona que está totalmente desnuda o en estado de desnudez para exponer los genitales , el área púbica, las nalgas o los senos femeninos , cuando dicha persona sepa o tenga motivos para saber que no tiene licencia o autorización para difundir o vender tal videográfico o imagen fija, es culpable de un delito menor de Clase 1 " . . [24] Las cuentas eran idénticos Proyecto de Ley 2678 presentado por el Delegado Marcus Simon a la Casa de Delegados de Virginia el 14 de enero 2019 y tres día después de una idéntica proyecto del Senado 1736 se introdujo en el Senado de Virginia por el senador Adam Ebbin .
- Desde septiembre 1 2019 de Texas Senado proyecto de ley SB 751 enmiendas al código electoral entró en vigor, dando a los candidatos en las elecciones un período de protección de 30 días para las elecciones durante el cual la producción y distribución parecidos digitales o falsificaciones sintéticos de los candidatos es un delito. El texto de la ley define el sujeto de la ley como " un video, creado con la intención de engañar, que parece representar a una persona real realizando una acción que no ocurrió en la realidad " [25].
- En septiembre de 2019 , Yle , la empresa de radiodifusión pública finlandesa , emitió un resultado de periodismo experimental , un deepfake del presidente en funciones, Sauli Niinistö, en su principal transmisión de noticias con el fin de resaltar el avance de la tecnología de desinformación y los problemas que surgen de ella.
- 1 de enero de 2020 [26] California, la ley estatal AB-602 entró en vigor que prohíbe la fabricación y distribución de pornografía sintética sin el consentimiento de las personas representadas. AB-602 proporciona a las víctimas de pornografía sintética medidas cautelares y plantea amenazas legales de daños legales y punitivos a los delincuentes que fabrican o distribuyen pornografía sintética sin consentimiento. El proyecto de ley AB-602 fue promulgado por el gobernador de California , Gavin Newsom, el 3 de octubre de 2019 y fue escrito por el miembro de la Asamblea del Estado de California , Marc Berman . [27]
- El 1 de enero de 2020 , entró en vigor la ley china que exige que las imágenes falsificadas sintéticamente tengan un aviso claro sobre su falsedad. El incumplimiento podría ser considerado como un crimen la Administración ciberespacio de China, declaró en su página web. China anunció esta nueva ley en noviembre de 2019. [28] El gobierno chino parece reservarse el derecho de enjuiciar tanto a los usuarios como a las plataformas de video en línea que no cumplan con las reglas. [29]
Avance clave para el fotorrealismo: captura de reflectancia
En 1999 Paul Debevec et al. de USC hizo la primera captura de reflectancia conocida sobre el rostro humano con su etapa de luz extremadamente simple . Presentaron su método y resultados en SIGGRAPH 2000. [4]
El avance científico requirió encontrar el componente de luz del subsuelo (los modelos de simulación brillan ligeramente desde adentro) que se puede encontrar usando el conocimiento de que la luz que se refleja desde la capa de aceite a aire retiene su polarización y la luz del subsuelo pierde su polarización. Por lo tanto, equipado solo con una fuente de luz móvil, cámara de video móvil, 2 polarizadores y un programa de computadora que hace cálculos matemáticos extremadamente simples, se adquirió la última pieza necesaria para alcanzar el fotorrealismo. [4]
Para obtener un resultado creíble, se debe capturar y simular tanto la luz reflejada por la piel ( BRDF ) como dentro de la piel (un caso especial de BTDF ), que en conjunto componen el BSDF .
Capturar
- La geometría y texturas 3D se capturan en un modelo 3D mediante un método de reconstrucción 3D , como muestrear el objetivo mediante escaneo 3D con un escáner RGB XYZ como Arius3d o Cyberware (texturas de fotos, no escáner RGB XYZ puro), estereofotogramétricamente de fotos sincronizadas o incluso de suficientes fotos repetidas no simultáneas . La escultura digital se puede utilizar para crear modelos de las partes del cuerpo para las que no se pueden obtener datos, por ejemplo, partes del cuerpo cubiertas por la ropa.
- Para obtener resultados creíbles, también se debe capturar el campo de reflectancia o se debe seleccionar una aproximación de las bibliotecas para formar un modelo de reflectancia 7D del objetivo.
Síntesis
Todo el proceso de hacer que se parezcan digitales, es decir, personajes tan reales y realistas que puedan hacerse pasar como imágenes de humanos, es una tarea muy compleja, ya que requiere modelado , animación , mapeo cruzado y representación fotorrealista de la dinámica del cuerpo blando de la apariencia humana.
La síntesis con un actor y los algoritmos adecuados se aplica utilizando potentes ordenadores . La parte del actor en la síntesis es cuidar de imitar las expresiones humanas en la síntesis de imágenes fijas y también el movimiento humano en la síntesis de imágenes en movimiento . Se necesitan algoritmos para simular las leyes de la física y la fisiología y para mapear los modelos y su apariencia, movimientos e interacción en consecuencia.
A menudo, en la parte de síntesis se emplean tanto modelado y renderizado basados en la física / fisiología (es decir, animación esquelética ) como basados en imágenes . Los modelos híbridos que emplean ambos enfoques han mostrado mejores resultados en realismo y facilidad de uso. La animación del objetivo Morph reduce la carga de trabajo al brindar un control de mayor nivel, donde las diferentes expresiones faciales se definen como deformaciones del modelo, que permite que las expresiones se ajusten de manera intuitiva. La animación de destino de Morph puede transformar el modelo entre diferentes expresiones faciales definidas o poses corporales sin mucha necesidad de intervención humana.
El uso del mapeo de desplazamiento juega un papel importante para obtener un resultado realista con detalles finos de la piel, como poros y arrugas de hasta 100 µm .
Enfoque de aprendizaje automático
A finales de la década de 2010, NVIDIA utilizó el aprendizaje automático y, más precisamente, las redes generativas de adversario (GAN) para producir retratos humanos aleatorios pero fotorrealistas. El sistema, denominado StyleGAN , se entrenó en una base de datos de 70.000 imágenes del sitio web del depósito de imágenes Flickr . El código fuente se hizo público en GitHub en 2019. [30] Los resultados de la red del generador a partir de entradas aleatorias se pusieron a disposición del público en varios sitios web. [31] [32]
De manera similar, desde 2018, la tecnología deepfake ha permitido a las GAN intercambiar caras entre actores; combinado con la capacidad de falsificar voces, las GAN pueden generar videos falsos que parecen convincentes. [33]
Aplicaciones
Las aplicaciones principales caen dentro de los dominios de la fotografía de archivo , conjuntos de datos sintéticos , cinematografía virtual , juegos de computadora y video y ataques de desinformación encubiertos . [34] [32]
Además, algunas investigaciones sugieren que puede tener efectos terapéuticos ya que "los psicólogos y consejeros también han comenzado a usar avatares para brindar terapia a clientes que tienen fobias , antecedentes de trauma , adicciones , síndrome de Asperger o ansiedad social ". [35] La fuerte impronta de memoria y los efectos de activación cerebral causados por ver un avatar digital de uno mismo se denomina efecto doppelgänger . [35] El efecto doppelgänger puede curar cuando un ataque de desinformación encubierto se expone como tal a los objetivos del ataque.
Asuntos relacionados
La síntesis de voz ha estado al borde de ser completamente indistinguible de una grabación de la voz de un humano real desde la introducción en 2016 del software de edición y generación de voz Adobe Voco , un prototipo programado para ser parte de Adobe Creative Suite y DeepMind WaveNet , un prototipo. de Google . [36] La capacidad de robar y manipular las voces de otras personas plantea obvias preocupaciones éticas. [37]
En la Conferencia sobre Sistemas de Procesamiento de Información Neuronal (NeurIPS) de 2018, los investigadores de Google presentaron el trabajo 'Transferir el aprendizaje de la verificación del hablante a la síntesis de texto a voz de varios altavoces' , que transfiere el aprendizaje de la verificación del hablante para lograr la síntesis de texto a voz, que se puede hacer que suene casi como cualquiera a partir de una muestra de voz de solo 5 segundos (escuchar) . [38]
La obtención de imágenes para el entrenamiento de IA plantea una cuestión de privacidad, ya que las personas que se utilizan para el entrenamiento no dieron su consentimiento. [39]
La tecnología similar al sonido digital llegó a manos de los delincuentes, ya que en 2019 los investigadores de Symantec conocieron 3 casos en los que la tecnología se había utilizado para cometer delitos . [40] [41]
Esto, junto con el hecho de que (a partir de 2016) se han demostrado de manera creíble técnicas que permiten la falsificación casi en tiempo real de expresiones faciales en videos 2D existentes, lo que aumenta el estrés en la situación de desinformación. [14]
Ver también
- Actuación de captura de movimiento
- Manipulación de internet
- Síntesis de medios
- Técnicas de propaganda
- Adquisición de datos 3D y reconstrucción de objetos
- Reconstrucción 3D a partir de múltiples imágenes.
- Estimación de pose 3D en general y estimación de pose de cuerpo articulado, especialmente para capturar la semejanza humana.
- Reconstrucción 4D
- Seguimiento de dedos
- Reconocimiento de gestos
- StyleGAN
Referencias
- ^ Modelo muscular basado en la física para el control de la forma de la boca en IEEE Explore (requiere membresía)
- ^ Animación facial realista en 3D en teleconferencias de espacio virtual en IEEE Explore (requiere membresía)
- ^ "Images de synthèse: palme de la longévité pour l'ombrage de Gouraud" .
- ^ a b c Debevec, Paul (2000). "Adquirir el campo de reflectancia de un rostro humano" . Actas de la 27ª conferencia anual sobre gráficos por ordenador y técnicas interactivas - SIGGRAPH '00 . ACM. págs. 145-156. doi : 10.1145 / 344779.344855 . ISBN 978-1581132083. S2CID 2860203 . Consultado el 24 de mayo de 2017 .
- ^ Pighin, Frédéric. "Notas del curso de clonación facial digital Siggraph 2005" (PDF) . Consultado el 24 de mayo de 2017 .
- ^ "Transformador de cara de St. Andrews" . Armario de inutilidad . 30 de enero de 2005 . Consultado el 7 de diciembre de 2020 .
- ^ a b West, Marc (4 de diciembre de 2007). "Cambiando el rostro de la ciencia" . Plus Magazine . Consultado el 7 de diciembre de 2020 .
- ^ Goddard, John (27 de enero de 2010). "Las muchas caras de la investigación racial" . thestar.com . Consultado el 7 de diciembre de 2020 .
- ^ En este video de la charla TED a las 00:04:59 puedes ver dos clips, uno con la verdadera Emily filmada con una cámara real y otro con una imagen digital de Emily, filmada con una simulación de una cámara, que es cuál es difícil de decir . Bruce Lawmen fue escaneado usando la etapa de luz 6 de la USC en posición fija y también se registró corriendo allí en una cinta de correr . Se ve a muchos, muchos imitadores digitales de Bruce corriendo con fluidez y naturalidad en la secuencia final del video de la charla TED.
- ^ ReForm - Creación de clones digitales de Hollywood (youtube). El proyecto de creadores. 2017-05-24.
- ^ Debevec, Paul. "Digital Ira SIGGRAPH 2013 Real-Time Live" . Consultado el 24 de mayo de 2017 .
- ^ "Escaneado e impresión de un retrato en 3D del presidente Barack Obama" . Universidad del Sur de California. 2013 . Consultado el 24 de mayo de 2017 .
- ^ Giardina, Carolyn (25 de marzo de 2015). " ' Furious 7' y cómo Weta de Peter Jackson creó Digital Paul Walker" . El reportero de Hollywood . Consultado el 24 de mayo de 2017 .
- ^ a b Thies, Justus (2016). "Face2Face: captura de rostros en tiempo real y recreación de videos RGB" . Proc. Visión por computadora y reconocimiento de patrones (CVPR), IEEE . Consultado el 24 de mayo de 2017 .
- ^ Suwajanakorn, Supasorn; Seitz, Steven; Kemelmacher-Shlizerman, Ira (2017), Synthesizing Obama: Learning Lip Sync from Audio , Universidad de Washington , consultado el 2 de marzo de 2018
- ^ Roettgers, Janko (21 de febrero de 2018). "Productores de pornografía ofrecen ayudar a Hollywood a eliminar videos de deepfake" . Variedad . Consultado el 28 de febrero de 2018 .
- ^ Takahashi, decano (21 de marzo de 2018). "Epic Games muestra un increíble humano digital en tiempo real con la demostración de Siren" . VentureBeat . Consultado el 10 de septiembre de 2018 .
- ^ Kuo, Lily (9 de noviembre de 2018). "Primer presentador de noticias de IA del mundo presentado en China" . Consultado el 9 de noviembre de 2018 .
- ^ Hamilton, Isobel Asher (9 de noviembre de 2018). "China creó lo que dice ser el primer presentador de noticias de IA. Mírelo en acción aquí" . Consultado el 9 de noviembre de 2018 .
- ^ Harwell, Drew (30 de diciembre de 2018). "Los videos de pornografía falsa se utilizan como armas para acosar y humillar a las mujeres: 'Todo el mundo es un objetivo potencial ' " . The Washington Post . Consultado el 14 de marzo de 2019 .
En septiembre [de 2018], Google agregó "imágenes pornográficas sintéticas involuntarias" a su lista de prohibiciones.
- ^ "Generador de caras hiperrealistas de fuentes abiertas de NVIDIA StyleGAN" . Medium.com . 2019-02-09 . Consultado el 3 de octubre de 2019 .
- ^ a b Paez, Danny (13 de febrero de 2019). "Esta persona no existe es el mejor sitio web único de 2019" . Inverse (sitio web) . Consultado el 5 de marzo de 2018 .
- ^ "Las nuevas leyes estatales entran en vigor el 1 de julio" .
- ^ a b "§ 18.2-386.2. Difusión o venta ilegal de imágenes de otro; sanción" . Virginia . Consultado el 1 de enero de 2020 .
- ^ "Relativo a la creación de un delito por fabricar un video engañoso con la intención de influir en el resultado de una elección" . Texas . 2019-06-14 . Consultado el 2 de enero de 2020 .
En esta sección, "video falso profundo" significa un video, creado con la intención de engañar, que parece representar a una persona real realizando una acción que no ocurrió en la realidad.
- ^ Johnson, RJ (30 de diciembre de 2019). "Aquí están las nuevas leyes de California que entrarán en vigor en 2020" . KFI . iHeartMedia . Consultado el 1 de enero de 2020 .
- ^ Mihalcik, Carrie (4 de octubre de 2019). "Las leyes de California buscan tomar medidas enérgicas contra los deepfakes en la política y la pornografía" . cnet.com . CNET . Consultado el 14 de octubre de 2019 .
- ^ "China busca erradicar las fake news y deepfakes con nuevas reglas de contenido en línea" . Reuters.com . Reuters . 2019-11-29 . Consultado el 8 de diciembre de 2019 .
- ^ Statt, Nick (29 de noviembre de 2019). "China tipifica como delito la publicación de deepfakes o fake news sin divulgación" . The Verge . Consultado el 8 de diciembre de 2019 .
- ^ Sincronizado (2019-02-09). "Generador de caras hiperrealistas de fuentes abiertas de NVIDIA StyleGAN" . Sincronizado . Consultado el 4 de agosto de 2020 .
- ^ Sitio web de exhibición pública de StyleGAN
- ^ a b Porter, Jon (20 de septiembre de 2019). "100.000 disparos a la cabeza generados por IA avisan a las empresas de fotografías de archivo" . The Verge . Consultado el 7 de agosto de 2020 .
- ^ "¿Qué es un deepfake?" . PCMAG.com . Marzo de 2020 . Consultado el 8 de junio de 2020 .
- ^ Harwell, Drew. "Las aplicaciones de citas necesitan mujeres. Los anunciantes necesitan diversidad. Las empresas de inteligencia artificial ofrecen una solución: personas falsas" . Washington Post . Consultado el 4 de agosto de 2020 .
- ^ a b Murphy, Samantha (2011). "Scientific American: su avatar, su guía" (.pdf) . Scientific American / Uni de Stanford . Consultado el 29 de junio de 2013 .
- ^ "WaveNet: un modelo generativo para audio crudo" . Deepmind.com . 2016-09-08 . Consultado el 24 de mayo de 2017 .
- ^ "Adobe Voco 'Photoshop-para-voz' causa preocupación" . BBC.com . BBC . 2016-11-07 . Consultado el 5 de julio de 2016 .
- ^ Jia, Ye; Zhang, Yu; Weiss, Ron J. (12 de junio de 2018), "Transferir el aprendizaje de la verificación del altavoz a la síntesis de texto a voz de varios altavoces", Advances in Neural Information Processing Systems , 31 : 4485–4495, arXiv : 1806.04558 , Bibcode : 2018arXiv180604558J
- ^ Negocios, Rachel Metz, CNN. "Si su imagen está en línea, podría estar entrenando IA de reconocimiento facial" . CNN . Consultado el 4 de agosto de 2020 .
- ^ "Las voces falsas 'ayudan a los ciberdelincuentes a robar dinero en efectivo ' " . bbc.com . BBC . 2019-07-08 . Consultado el 16 de abril de 2020 .
- ^ Drew, Harwell (16 de abril de 2020). "Una inteligencia artificial primero: software que imita la voz supuestamente utilizado en un gran robo" . Washington Post . Consultado el 8 de septiembre de 2019 .