Kyutai, le laboratoire rattaché à Iliad, dévoile Unmute. Cette IA transforme n’importe quel modèle de langage en interlocuteur vocal capable de répondre sans délai perceptible grâce à une architecture modulaire, pour dialoguer en temps réel avec l’utilisateur.

- Kyutai lance Unmute, une IA capable de transformer des modèles de langage en interlocuteurs vocaux réactifs et modulaires.
- Unmute réduit la latence en combinant reconnaissance vocale, génération textuelle, et synthèse vocale pour des dialogues fluides.
- Avec Unmute, personnalisez voix et personnalité du chatbot en modifiant simplement l'invite système ou en choisissant une voix.
Kyutai poursuit son travail sur l’interaction vocale avec les intelligences artificielles. Après Moshi, sa première IA vocale en temps réel, le laboratoire, chapeauté par Xavier Niel, présente Unmute. Cette nouvelle technologie offre un dialogue plus naturel en limitant le temps d’attente entre la parole de l’utilisateur et la réponse du chatbot.
Unmute combine plusieurs éléments distincts : la reconnaissance vocale, un modèle de langage capable de générer du texte, et la synthèse vocale. Ces composants fonctionnent en parallèle pour réduire la latence et permettre au chatbot de parler presque simultanément à l’interlocuteur. La démonstration publique est disponible sur unmute.sh et une présentation est prévue à VivaTech.
Unmute capte la parole et répond presque en même temps, sans rupture
Le système écoute l’utilisateur en continu. Il convertit la voix en texte pendant que celui-ci parle. Dès qu’une phrase se dégage, le modèle de langage commence à formuler une réponse. La synthèse vocale s’active avant que la réponse ne soit entièrement finalisée. Ce fonctionnement évite les pauses gênantes qui coupent le rythme naturel d’une conversation.
Le logiciel repère les pauses dans la parole et sait quand un interlocuteur a fini sa phrase. Cela limite les interruptions inopportunes et rend l’échange plus fluide. La reconnaissance vocale fonctionne en streaming, ce qui permet d’acheminer la parole en temps réel sans délai supplémentaire.
En évitant d’attendre la fin complète de la réponse textuelle, Unmute rend la conversation plus dynamique. Le chatbot ne répond pas après que l’utilisateur a fini, il parle presque en même temps. Le dialogue gagne en naturel et en réactivité.
La modularité d’Unmute permet de personnaliser la voix et la personnalité du chatbot
Unmute dissocie clairement trois étapes : la transcription vocale, la génération textuelle, la synthèse vocale. Chaque élément reste indépendant, ce qui offre une grande flexibilité. Par exemple, Kyutai utilise Gemma 3 12B comme modèle de langage, mais le système accepte n’importe quel autre modèle sans modification.
Le choix de la voix ne demande que dix secondes d’enregistrement vocal pour configurer la synthèse vocale. Cela permet de créer un assistant qui parle avec une voix personnalisée, plus naturelle et adaptée à différents usages.
Modifier la personnalité de l’interlocuteur ne nécessite pas de retravailler le modèle. Il suffit d’ajuster une invite système pour changer son ton ou son style. Le même chatbot peut ainsi devenir un conseiller patient, un animateur enthousiaste ou un assistant professionnel, selon le contexte. Au passage, essayez « Fabieng », il pourrait vous étonner.
Kyutai annonce aussi la publication prochaine en open source de ses modèles de synthèse et de reconnaissance vocale. Cette mise à disposition favorisera la créativité et la prise en main par d’autres équipes.
La séparation en modules fait perdre certains détails subtils, comme l’intonation émotionnelle ou l’ironie. Néanmoins, elle assure une réactivité élevée et une simplicité d’intégration dans différents projets.