Avec son nouveau modèle d’IA, Microsoft est sur le point de transformer la synthèse vocale en offrant une qualité jamais vue jusqu'à présent. Pour preuve, cette technologie est capable de cloner une voix à la perfection.

- Microsoft révolutionne la synthèse vocale avec DragonV2.1Neural, capable de cloner des voix avec une précision inédite.
- Le modèle permet de synthétiser des discours en plus de 100 langues, améliorant la prononciation et la prosodie.
- Pour contrer les risques de deepfakes, Microsoft impose des mesures de sécurité strictes et ajoute des filigranes audio.
Le géant de Redmond a récemment mis à jour sa fonction Azure AI Speech en introduisant un nouveau modèle de synthèse vocale appelé DragonV2.1, capable de créer des voix à partir d’une quantité minimale de données. Cette avancée promet de produire une expérience vocale plus naturelle et immersive et de réduire sensiblement les défauts de prononciation par rapport aux précédentes itérations.
Microsoft dévoile une technologie très avancée capable d'imiter votre voix à la perfection
L’une des principales forces de DragonV2.1 réside dans sa capacité à synthétiser un discours dans plus de 100 langues en n’utilisant que quelques secondes d’un échantillon vocal. Le modèle DragonV1 souffrait en effet de difficultés de prononciation, notamment avec les noms propres. Le nouveau modèle apporte des améliorations considérables à la sonorité des voix, « offrant une prosodie plus réaliste et stable tout en maintenant une meilleure précision de prononciation », selon Microsoft. Il démontre également une réduction du taux d’erreur de mot de 12,8% en moyenne par rapport à DragonV1.
Grâce à DragonV2.1, Microsoft ouvre la porte à une multitude d’applications. La technologie permet, par exemple, de personnaliser les voix des chatbots ou de doubler le contenu de vidéos dans différentes langues tout en conservant la voix originale de l’acteur.
Pour aller encore plus loin, l'outil offre un contrôle précis sur la prononciation et l’accent grâce à des balises SSML de phonèmes et des lexiques personnalisés. Pour faciliter la prise en main de cette fonctionnalité, le géant de Redmond a intégré plusieurs profils de voix pré-conçus baptisés Andrew, Ava et Brian, ces derniers étant disponibles pour tester la technologie.
Quelles mesures de sécurité face aux risques de deepfakes ?
Avec un tel niveau de fidélité, la technologie suscite forcément des inquiétudes. D'ailleurs, Microsoft ne cache pas le potentiel détournement de son outil, dont le nouveau modèle augmente considérablement le risque de deepfakes. Pour limiter les abus, la firme américaine impose plusieurs conditions : l’utilisateur doit obtenir le consentement explicite de la personne dont la voix est utilisée, déclarer l’usage de contenus synthétiques et s’abstenir de toute tentative d’imitation ou de tromperie.
De plus, Microsoft s'engage à ajouter automatiquement des filigranes aux fichiers audio générés. Cette technologie atteint actuellement une précision de détection de 99,7% dans divers scénarios de retouche audio, ce qui pourrait, espérons-le, aider à freiner l'usage malveillant des voix synthétiques.
Source : Neowin