La start-up Hume AI propose une intelligence artificielle (IA) capable de cloner la voix de l'utilisateur, copiant son timbre, son rythme de paroles, et même certaines de ses intonations. Une fonctionnalité intrigante… Et un brin troublante.

De plus en plus d'IA vocales voient le jour. ©Tero Vesalainen / Shutterstock
De plus en plus d'IA vocales voient le jour. ©Tero Vesalainen / Shutterstock
L'info en 3 points
  • Hume AI lance EVI 3, une IA capable de cloner la voix de l'utilisateur, imitant timbre et intonations.
  • L'application détecte et interprète les émotions en temps réel, offrant des interactions vocales plus empathiques.
  • Malgré des résultats prometteurs, la voix clonée manque pour l'heure de subtilité émotionnelle.

Avec l'émergence de l'IA générative, un nombre croissant d'applications voient le jour, notamment pour cloner la voix des utilisateurs. Ainsi, Hume AI, start-up pionnière dans le domaine de l’intelligence artificielle dite « émotionnelle », lance EVI 3. Ce modèle est supposément capable de créer une copie vocale personnalisée de n'importe quel usager.

Reproduire la voix à partir d'un simple extrait audio

L'application de Hume permet d'interagir avec un assistant vocal avancé, décliné en plusieurs variantes selon les préférences de chacun. Celui-ci ne se contente pas de comprendre les paroles, mais détecte et interprète également les émotions en temps réel. Il adapte ensuite son ton et ses réponses en conséquence, afin d’offrir des interactions plus empathiques et personnalisées.

Mais la société veut maintenant aller plus loin. Avec EVI 3, sa nouvelle version expérimentale, Hume propose une fonctionnalité inédite : le clonage de la voix de l’utilisateur. Concrètement, l'idée est de créer un miroir émotionnel, où l’IA vous parle comme vous parleriez à vous-même.

Pour cela, il suffit de partager un court extrait audio, de 30 à 90 secondes, pour que l'IA se familiarise avec notre voix. À noter, tout de même, que les premiers retours sont mitigés ; si la restitution du ton et du rythme est impressionnante, la voix clonée reste trop caricaturale et manque de subtilité émotionnelle.

Bien qu'EVI 3 se distingue par sa capacité à reproduire des inflexions naturelles, des pauses et des accents, le système montre encore des limites car il reste très influencé par le contenu du message d’origine. Mais il est certain qu'il va drastiquement s'améliorer avec le temps.

L'IA permet de générer des clones numériques. ©MeshCube / Shutterstock
L'IA permet de générer des clones numériques. ©MeshCube / Shutterstock

Des questions sur la sécurité et l'éthique

Les possibles usages sont nombreux. Cette technologie pourrait être utilisée pour rendre les échanges avec des assistants vocaux plus naturels, donner vie à des personnages de jeux vidéo ou de fictions audio, ou encore aider des personnes ayant perdu leur voix à en retrouver une version fidèle. Dans le domaine du marketing, elle permettrait aussi de générer des voix sur mesure pour des campagnes ou des contenus automatisés.

À terme, l'entreprise envisage même que ce type d’IA puisse intervenir à la place d’un utilisateur, par exemple pour participer à des réunions virtuelles en son nom. Toutefois, une telle fonctionnalité soulève aussi des questions sur l'éthique et la sécurité. D'autant plus à l'heure actuelle, alors que les deepfakes audio sont désormais exploités à des fins malveillantes.

De son côté, Hume AI affirme avoir mis en place plusieurs garde-fous pour protéger les données des utilisateurs. Par défaut, celles-ci sont anonymisées et utilisées pour entraîner les modèles. Et sur les produits grand public comme la démo ou l’application mobile, la collecte de données peut être désactivée manuellement, fait-elle savoir.

À découvrir
Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2025

11 juillet 2025 à 13h53

Comparatifs services

Sources : ZDNet, Hume AI