Unmute : l'IA de Xavier Niel qui donne la parole... aux chatbots

Publié le 31 mai 2025 à 18h02

Kyutai, le laboratoire rattaché à Iliad, dévoile Unmute. Cette IA transforme n’importe quel modèle de langage en interlocuteur vocal capable de répondre sans délai perceptible grâce à une architecture modulaire, pour dialoguer en temps réel avec l’utilisateur.

Xavier Niel aura-t-il le même succès avec Unmute qu'avec la Freebox Ultra ? - ©Nicolas Guyot / Clubic

L'info en 3 points

Kyutai lance Unmute, une IA capable de transformer des modèles de langage en interlocuteurs vocaux réactifs et modulaires.
Unmute réduit la latence en combinant reconnaissance vocale, génération textuelle, et synthèse vocale pour des dialogues fluides.
Avec Unmute, personnalisez voix et personnalité du chatbot en modifiant simplement l'invite système ou en choisissant une voix.

Kyutai poursuit son travail sur l’interaction vocale avec les intelligences artificielles. Après Moshi, sa première IA vocale en temps réel, le laboratoire, chapeauté par Xavier Niel, présente Unmute. Cette nouvelle technologie offre un dialogue plus naturel en limitant le temps d’attente entre la parole de l’utilisateur et la réponse du chatbot.

Unmute combine plusieurs éléments distincts : la reconnaissance vocale, un modèle de langage capable de générer du texte, et la synthèse vocale. Ces composants fonctionnent en parallèle pour réduire la latence et permettre au chatbot de parler presque simultanément à l’interlocuteur. La démonstration publique est disponible sur unmute.sh et une présentation est prévue à VivaTech.

À découvrir

Quels sont les meilleurs générateurs de voix par intelligence artificielle ? Comparatif 2025

Unmute capte la parole et répond presque en même temps, sans rupture

Le système écoute l’utilisateur en continu. Il convertit la voix en texte pendant que celui-ci parle. Dès qu’une phrase se dégage, le modèle de langage commence à formuler une réponse. La synthèse vocale s’active avant que la réponse ne soit entièrement finalisée. Ce fonctionnement évite les pauses gênantes qui coupent le rythme naturel d’une conversation.

Le logiciel repère les pauses dans la parole et sait quand un interlocuteur a fini sa phrase. Cela limite les interruptions inopportunes et rend l’échange plus fluide. La reconnaissance vocale fonctionne en streaming, ce qui permet d’acheminer la parole en temps réel sans délai supplémentaire.

En évitant d’attendre la fin complète de la réponse textuelle, Unmute rend la conversation plus dynamique. Le chatbot ne répond pas après que l’utilisateur a fini, il parle presque en même temps. Le dialogue gagne en naturel et en réactivité.

Parlez à Unmute et il vous répond... instantanément- Capture d'écran ©Mélina Loupia / Clubic

La modularité d’Unmute permet de personnaliser la voix et la personnalité du chatbot

Unmute dissocie clairement trois étapes : la transcription vocale, la génération textuelle, la synthèse vocale. Chaque élément reste indépendant, ce qui offre une grande flexibilité. Par exemple, Kyutai utilise Gemma 3 12B comme modèle de langage, mais le système accepte n’importe quel autre modèle sans modification.

Le choix de la voix ne demande que dix secondes d’enregistrement vocal pour configurer la synthèse vocale. Cela permet de créer un assistant qui parle avec une voix personnalisée, plus naturelle et adaptée à différents usages.

Modifier la personnalité de l’interlocuteur ne nécessite pas de retravailler le modèle. Il suffit d’ajuster une invite système pour changer son ton ou son style. Le même chatbot peut ainsi devenir un conseiller patient, un animateur enthousiaste ou un assistant professionnel, selon le contexte. Au passage, essayez « Fabieng », il pourrait vous étonner.

Kyutai annonce aussi la publication prochaine en open source de ses modèles de synthèse et de reconnaissance vocale. Cette mise à disposition favorisera la créativité et la prise en main par d’autres équipes.

La séparation en modules fait perdre certains détails subtils, comme l’intonation émotionnelle ou l’ironie. Néanmoins, elle assure une réactivité élevée et une simplicité d’intégration dans différents projets.

À découvrir

Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2025

Source : Unmute, Kyutai

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (5)

gamez

quand je parle je vois bien le petit cercle blanc réagir mais c’est tout.
je n’ai ni réponse vocale ni textuelle.

maj: ca marche sur telephone mais pas sur mon pc

zebaffe

Le problème se situe entre ta chaîse et l’écran je présume

bizbiz

Mortel ce truc ! Par contre Fabieng ferait bien de lâcher un peu le chichon .

arsworld

C’est complètement hallucinant.
J’ai cloné 8 sec de texte de ma voix, le resultat est fou. Je me suis parlé à moi-même en bon schizo training et lui ai demandé qu’il se prénomme comme moi, ce qu’il a accepté
Trés trés impressionnant.
Reconnaissance : TOP
Réponse et vélocité : TOP
Conversation française : Assez difficile pour lui
Conversation anglaise : top
Raconter une histoire en FR avec 1 ourson une fée et un requin. Il est monocorde et n’utilise pas de ponctuation.

Mais franchement si ça ça peu tourner en Local sans serveur externe et sans machine de guerre, ça va être une folie.

gamez

Exemple typique de réponse quand on n’a rien à dire