Investigadores de Microsoft presentaron un innovador modelo de inteligencia artificial, el VASA-1, capaz de tomar una imagen estática de un rostro y un fragmento de audio para crear un video convincente de la persona hablando. Las primeras pruebas no se hicieron esperar y en las redes comenzó a circular una Mona Lisa cantante de rap. ¿Le hubiera gustado a Leonardo Da Vinci escucharla así? 

VASA-1, fue desarrollada por Microsoft y para "jugar". Solo basta la imagen de una persona y una pista de audio, el resto está cantado. El equipo de investigación buscó animar imágenes fijas hablando y cantando, utilizando cualquier pista de audio de respaldo proporcionada, y al mismo tiempo mostrando expresiones faciales creíbles, según publicó el medio español La Razón.

En cada una de las animaciones, las expresiones faciales cambian junto con las palabras de una manera que enfatiza lo que se dice. Los investigadores señalan también que, a pesar de la naturaleza realista de los videos, una inspección más cercana puede revelar fallos y evidencia de que han sido generados artificialmente.

La eficacia del sistema quedó en evidencia cuando el video de la Mona Lisa interpretando una canción de rap se viralizó de inmediato y al mismo tiempo generó opiniones encontradas en las redes sociales como cada avance tecnológico que sale a escena.

Detalles Técnicos

El entrenamiento del modelo incluyó una amplia gama de videos faciales, permitiendo a VASA-1 reconocer movimientos naturales como el parpadeo, la expresión facial y la mirada. Aunque los videos generados muestran realismo, aún presentan señales de su origen artificial.

Microsoft destacó que su modelo supera a herramientas similares y sienta las bases para interactuar en tiempo real con avatares realistas, impulsando la conversación entre humanos y sistemas de inteligencia artificial.

Este avance tecnológico, aunque emocionante, plantea importantes cuestiones éticas y regulatorias que deben abordarse antes de su implementación generalizada.