Comment Microsoft veut synthétiser votre voix

24 mai 2024 à 11h29
3
Microsoft exploite l'IA pour synthétiser les voix © KAMAZON STUDIO / Shutterstock
Microsoft exploite l'IA pour synthétiser les voix © KAMAZON STUDIO / Shutterstock

Microsoft a annoncé le déploiement d'Azure AI Speech, un outil qui repose sur l'intelligence artificielle capable de reproduire la voix de n'importe qui à l'aide d'un simple échantillon. Les usages sont nombreux, et les possibles dérives aussi…

Capitalisant sur son investissement massif dans OpenAI, la firme de Redmond s'impose aujourd'hui comme l'un des leaders de l'IA. Elle déploie la technologie dans l'ensemble de ses produits phares et étoffe son offre cloud avec des outils qui s'appuient sur celle-ci.

Sa stratégie est payante, puisque Microsoft trône désormais en première place des entreprises les plus valorisées au monde, dépassant même Apple. Avec Azure AI Speech, la société montre toute l'étendue des possibilités offertes par l'IA.

Les meilleures IA pour générer vos contenus
A découvrir
Les meilleures IA pour générer vos contenus
27 mars 2024 à 20:50
Comparatifs services

De nombreux usages possibles

Initialement présenté en 2023, l'outil permet aux utilisateurs de créer et d'utiliser leur propre voix d'IA dans les applications créées par les clients de Microsoft. Concrètement, si un logiciel que vous utilisez collabore avec la société pour exploiter Azure AI Speech, vous serez alors en mesure de synthétiser votre voix dans celui-ci.

Cette fonctionnalité ouvre la voie à de très nombreux usages. Microsoft a d'ailleurs élaboré de premiers partenariats permettant de démontrer les capacités de son modèle. Avec Truecaller, une application américaine qui identifie et bloque les appels indésirables, l'IA répond aux appels qui sont potentiellement des spams. Avec la voix de l'utilisateur, elle interroge l'interlocuteur afin de déterminer s'il s'agit bel et bien d'une conversation indésirable.

L'outil a également été déployé dans Skype, cette fois à des fins de traduction instantanée et en temps réel. Si l'on discute avec une personne qui ne parle pas notre langue, l'IA traduira automatiquement les propos dans la langue de l'interlocuteur, en reproduisant la voix à l'identique.

Wondershare, une société qui propose une application dédiée à la créativité, a aussi intégré l'outil. Ses utilisateurs peuvent l'exploiter pour reproduire leur voix dans plusieurs langues, ou commenter des vidéos.

Une technologie dangereuse, et Microsoft le sait

Microsoft propose de tester l'outil, mais il faut avant tout disposer d'un compte Azure avec une ressource Speech ou Cognitive Services. « Tous les clients doivent accepter nos politiques d'utilisation, qui exigent notamment le consentement explicite du locuteur d'origine, la divulgation de la nature synthétique du contenu créé et l'interdiction d'usurper l'identité d'une personne ou de tromper les personnes utilisant le service de voix personnelle », détaille la société, visiblement consciente du danger potentiel que représente un tel système.

Au mois d'avril, Microsoft présentait une autre IA, similaire, permettant de transformer la photo de quelqu'un en vidéo. Si ce type de dispositifs peut s'avérer utile dans de nombreux domaines, ils sont aussi très inquiétants, alors que les experts alertent sur une recrudescence de deepfakes de plus en plus réalistes.

Microsoft Copilot
  • Intégration de DALL-E 3 pour une création d'images plus créatives et réalistes
  • Capacité de traitement des images par GPT-4 Vision pour des réponses contextuelles précises
  • Interface conviviale et intégrée dans divers produits Microsoft

Microsoft Copilot est un chatbot combinant l'intelligence artificielle avancée avec la capacité de générer des images créatives et réalistes grâce à DALL-E 3, et de traiter des requêtes qui reposent sur des images grâce à GPT-4. Cette intégration multimodale en fait un outil polyvalent pour les utilisateurs cherchant à obtenir des informations contextuelles sur des images ou à générer des contenus visuels sur mesure.

Microsoft Copilot est un chatbot combinant l'intelligence artificielle avancée avec la capacité de générer des images créatives et réalistes grâce à DALL-E 3, et de traiter des requêtes qui reposent sur des images grâce à GPT-4. Cette intégration multimodale en fait un outil polyvalent pour les utilisateurs cherchant à obtenir des informations contextuelles sur des images ou à générer des contenus visuels sur mesure.

Source : Microsoft

Mathilde Rochefort

Avide de nouvelles technologies et particulièrement férue de la marque à la pomme, j’en fais mon métier depuis près d’une décennie. Réseaux sociaux, IA et autres applications… Je partage mon expertise...

Lire d'autres articles

Avide de nouvelles technologies et particulièrement férue de la marque à la pomme, j’en fais mon métier depuis près d’une décennie. Réseaux sociaux, IA et autres applications… Je partage mon expertise quotidiennement sur le World Wide Web.

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (3)

ovancantfort
Tous les clients doivent accepter nos politiques d’utilisation, qui exigent notamment le consentement explicite du locuteur d’origine<br /> Ouf, me voilà rassuré! Avec des mesures aussi fortes, les mauvais acteurs n’ont aucune chance d’abuser de ce système. Après tout, qu’est-ce qui pourrait mal se passer ?
merotic
Je suis pour l’IA si elle peut remplacer tous ceux qui sont en faveur de l’IA <br /> Et puis si ça peut donner l’impression que le locuteur est plus intelligent qu’il ne le paraît je dis oui. On retrouvera peut-être enfin des discussions avec de la logique et non de l’idéologie.<br /> Bon, ça fait peur car le piratage d’une voix aura des conséquences terribles comme le chantage sur les photos.
youmetooandyou
j’ai enregistré la voix de mon chef quand il m’a engueulé.<br /> Ensuite j’utilise MS AI Speech avec la voix de mon chef «&nbsp;tu as très bien travaillé, je vais t’augmenter&nbsp;» et je fais tourner en boucle chez moi le soir pour m’endormir.<br /> Enfin j’ai été convoqué au bureau de mon chef parce qu’étant admin Microsoft Azure il a récupéré les usages de MS AI Speech et a vu qu’une phrase tournait en boucle et quelle voix était utilisée.
bizbiz
Reproduire la voix est une chose mais quid de l’accent qui va avec, notamment pour les méridionaux comme moi ou pour Patrick Bosso ? Cette IA est fournie avec les cigales ?
Voir tous les messages sur le forum
Haut de page

Sur le même sujet