Microsoft lance VASA-1, une IA capable de faire chanter et parler une seule image (vidéos)

sarra

il y a 12 mois

Microsoft vient de lancer VASA-1 , une IA capable de faire chanter et parler une seule image à partir d’une référence audio de manière expressive. C’est assez déstabilisant et impressionnant quand on voit une photo prendre vie grâce à cette intelligence artificielle de chez Microsoft.

Bindu Reddy, CEO de l’entreprise AbacusAI, dévoile sur la plateforme X, une première vidéo générée par IA qui semble super réelle. Elle explique que Microsoft Research introduit l’IA VASA-1. Concrètement, cette IA prend une seule photo de portrait et une piste audio pour générer une vidéo de visage parlant hyper-réaliste avec une synchronisation précise des lèvres et de l’audio.

Cela donne un comportement facial réaliste et des mouvements de tête naturels générés en temps réel:

The First AI-Generated Video That Looks Super Real

Microsoft Research announced VASA-1.

It takes a single portrait photo and speech audio and produces a hyper-realistic talking face video with precise lip-audio sync, lifelike facial behavior, and naturalistic head movements… pic.twitter.com/6bxd4mEgFR

— Bindu Reddy (@bindureddy) April 17, 2024

Microsoft a partagé plusieurs exemple de l’utilisation de cette technologie sur le site www.microsoft.com/en-us/research/project/vasa-1/. Parmi les vidéos les plus impressionnantes, nous partageons avec vous celle qui fait chanter le portrait de Mona Lisa aka la Joconde de Da Vinci, réalisé au début du 16ème siècle, sur un morceau de Rap:

Microsoft VASA-1 AI can make single image sing and talk from audio reference quite expressively.pic.twitter.com/7yaSBZlKRj

— Massimo (@Rainmaker1973) April 18, 2024

Actuellement, VASA-1 a ses limites, générant des vidéos en 512×512 mégapixels et à 40 images par seconde. Cependant, à l’avenir, cette IA pourrait améliorer la création d’avatars réalistes pour les jeux vidéo et les outils pédagogiques. Cependant, elle ne peut pas encore créer un corps complet, et les cheveux ne sont pas animés.

Cette technologie n’est pas accessible en ce moment pour le public. Microsoft admet qu’il existe des risques de mauvais usage. Cependant, il est crucial de souligner ses nombreux avantages potentiels incluant l’amélioration de l’équité éducative, une meilleure accessibilité pour les personnes ayant des difficultés de communication, et la possibilité d’offrir compagnie ou soutien thérapeutique.

Le géant américain tient à préciser qu’il œuvre à développer l’intelligence artificielle de manière responsable, dans le but ultime de favoriser le bien-être humain.

I.D.