Avec son IA, Microsoft peut désormais cloner une voix à la perfection

Publié le 01 août 2025 à 10h26

Avec son nouveau modèle d’IA, Microsoft est sur le point de transformer la synthèse vocale en offrant une qualité jamais vue jusqu'à présent. Pour preuve, cette technologie est capable de cloner une voix à la perfection.

Microsoft a fait d'énormes progrès en matière de synthèse vocale. © El editorial / Shutterstock

L'info en 3 points

Microsoft révolutionne la synthèse vocale avec DragonV2.1Neural, capable de cloner des voix avec une précision inédite.
Le modèle permet de synthétiser des discours en plus de 100 langues, améliorant la prononciation et la prosodie.
Pour contrer les risques de deepfakes, Microsoft impose des mesures de sécurité strictes et ajoute des filigranes audio.

Le géant de Redmond a récemment mis à jour sa fonction Azure AI Speech en introduisant un nouveau modèle de synthèse vocale appelé DragonV2.1, capable de créer des voix à partir d’une quantité minimale de données. Cette avancée promet de produire une expérience vocale plus naturelle et immersive et de réduire sensiblement les défauts de prononciation par rapport aux précédentes itérations.

Microsoft dévoile une technologie très avancée capable d'imiter votre voix à la perfection

L’une des principales forces de DragonV2.1 réside dans sa capacité à synthétiser un discours dans plus de 100 langues en n’utilisant que quelques secondes d’un échantillon vocal. Le modèle DragonV1 souffrait en effet de difficultés de prononciation, notamment avec les noms propres. Le nouveau modèle apporte des améliorations considérables à la sonorité des voix, « offrant une prosodie plus réaliste et stable tout en maintenant une meilleure précision de prononciation », selon Microsoft. Il démontre également une réduction du taux d’erreur de mot de 12,8% en moyenne par rapport à DragonV1.

Grâce à DragonV2.1, Microsoft ouvre la porte à une multitude d’applications. La technologie permet, par exemple, de personnaliser les voix des chatbots ou de doubler le contenu de vidéos dans différentes langues tout en conservant la voix originale de l’acteur.

Pour aller encore plus loin, l'outil offre un contrôle précis sur la prononciation et l’accent grâce à des balises SSML de phonèmes et des lexiques personnalisés. Pour faciliter la prise en main de cette fonctionnalité, le géant de Redmond a intégré plusieurs profils de voix pré-conçus baptisés Andrew, Ava et Brian, ces derniers étant disponibles pour tester la technologie.

À découvrir

Voici les jobs que l'IA remplacera, et ceux qui resteront, selon Microsoft

31 juillet 2025 à 12h55

News

Quelles mesures de sécurité face aux risques de deepfakes ?

Avec un tel niveau de fidélité, la technologie suscite forcément des inquiétudes. D'ailleurs, Microsoft ne cache pas le potentiel détournement de son outil, dont le nouveau modèle augmente considérablement le risque de deepfakes. Pour limiter les abus, la firme américaine impose plusieurs conditions : l’utilisateur doit obtenir le consentement explicite de la personne dont la voix est utilisée, déclarer l’usage de contenus synthétiques et s’abstenir de toute tentative d’imitation ou de tromperie.

De plus, Microsoft s'engage à ajouter automatiquement des filigranes aux fichiers audio générés. Cette technologie atteint actuellement une précision de détection de 99,7% dans divers scénarios de retouche audio, ce qui pourrait, espérons-le, aider à freiner l'usage malveillant des voix synthétiques.

Source : Neowin

À découvrir

Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2025

04 février 2025 à 14h11

Comparatifs services

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (6)

ovancantfort

l’utilisateur doit obtenir le consentement explicite de la personne dont la voix est utilisée, déclarer l’usage de contenus synthétiques et s’abstenir de toute tentative d’imitation ou de tromperie.

Ouf! Avec de telles mesures de sécurité, je me sens totalement rassuré…

yomiel

À cause des usages à des finalités illégales (usurpation d’identité et propagation de fausses informations), chaque message vocal réel nécessitera d’être signé numériquement pour vérifier son authenticité. Quel cauchemar.

Francis7

Je suis sûr qu’une oreille avertie pourrait quand même faire la différence même avec un accent et la prosodie reproduite à la perfection. C’est parce que quand on parle, on emploie aussi des expressions singulières propres à chacun selon le contexte : des petits parasites linguistiques comme des « heu », des « tu vois ? », « y a pas de souci », "‹ fin ›. Les français aiment bien commencer des phrases par « 'fin » pour dire « Enfin » pour nuancer leur propos. etc…Il y a plein petits exemples de la vie de tous les jours que l’IA ne pourrait pas inventer. Il y a aussi la connaissance des institutions et des termes employés pour désigner des structures, des établissements, des lieux.

crush56

Ne t’inquiète pas ça viendra, ce n’est que le début

Loposo

On couple ça à Claude ou mistral, je me met en télétravail et les 2 font les réunions à m à place, même en teams

azeazeaze

sur teams interpreteur on a déjà la fonction de clonage de voix, qui est franchement bluffant.