Voice Engine est le nouvel outil d’Open AI , qui va plus loin dans l’utilisation de l’intelligence artificielle. Il serait capable de cloner des voix en quelques secondes informe Open AI, le concepteur de ChatGPT.
Ce logiciel pourrait reproduire n’importe quelle voix et n’importe quel accent en seulement 15 secondes d’écoute de la voix originale. Une avancée fascinante et préoccupante.
Tout juste quelques semaines après le lancement de Sora qui permet de créer des vidéos ultraréalistes générées à partir de textes, Open AI expose fait découvrir cette fois ci des voix clonées sonnant très réalistes à l’oreille.
Le projet Voice Engine a été lancé en 2022, s’appuyant sur l’interface de programmation text-to-speech basée sur Whisper, un modèle IA de pointe conçu pour la transcription et la traduction de la parole en texte. Cette API est déjà utilisée pour la synthèse vocale par ChatGPT.
Open AI donne une démonstration du Voice Engine sur son site web:
We’re sharing our learnings from a small-scale preview of Voice Engine, a model which uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker. https://t.co/yLsfGaVtrZ
— OpenAI (@OpenAI) March 29, 2024
Si le clonage des voix pourrait être facilement employé à des fins malveillantes, Open AI assure que cette technologie, qui n’est pas encore disponible pour tout le monde “pour le moment”, sera surveillée avec l’aide des autorités compétentes, et entourée pour éviter l’usurpation d’identité.
Des filigranes seront utilisés pour retracer l’origine d’une voix et pour une “surveillance proactive de son utilisation”. Cependant, il reste difficile d’être entièrement rassuré…
I.D.
Lire aussi:
Sora d’OpenAI : Des vidéos ultraréalistes générées à partir de textes (vidéos)