Microsoft : 3 secondes, c’est assez pour imiter une voix

Microsoft continue à élaborer ses propres outils fondés sur l’Intelligence Artificielle, et VALL-E fait partie des récentes percées de l’entreprise dans ce domaine. En effet, c’est un outil “text-to-speech” qui produit une voix synthétique depuis un texte.

A noter que Microsoft n’est pas la seule entreprise qui a travaillé sur cet outil, mais elle a certainement été la meilleure pour le développer car il s’agit d’un mécanisme différent de ceux des outils similaires, a mené son AI avec 60 000 heures d’enregistrements audio en anglais, qui est “cent fois plus grand” que les systèmes actuels.

L’Intelligence Artificielle VALL-E est capable de reproduire n’importe quelle voix, à l’aide d’un échantillon de 3 secondes, autrement dit, vous n’avez qu’une phrase à dire et c’est suffisant pour que l’entreprise de Redmond imite votre voix.

« Les résultats des expériences montrent que VALL-E surpasse de manière significative le système TTS zéro-shot de pointe en termes de naturel de la parole et de similarité des locuteurs. De plus, nous constatons que VALL-E pourrait préserver l’émotion de l’orateur et l’environnement acoustique de l’invite acoustique en synthèse”, explique Microsoft au site d’exposition de ce projet.

Ars Technica a souligné que Microsoft n’a pas rendu VALL-E accessible pour tout le monde, parce que clairement c’est le genre de logiciel qui ne peut pas être donné à quiconque parce qu’il pourrait être utilisé par des gens malveillants.

Microsoft, a expliqué que VALL-E pourrait être utilisé pour éditer de vrais enregistrements, créer du contenu et accélérer la production de livres audio.

Print Friendly, PDF & Email

Plus :  Actu   Tek   TopNews



  • Envoyer