🔴 French Days en direct 🔴 French Days en direct

VoiceBox : la toute nouvelle IA de génération de voix révolutionnaire dévoilée par Meta

23 juin 2023 à 09h40
6
 © Meta
© Meta

VoiceBox est le dernier modèle de génération text-to-speech (TTS) présenté par Meta. Sa promesse ? Révolutionner le domaine de la voix synthétique par l'IA grâce à l'apprentissage contextuel.

Son petit nom : VoiceBox. Cette IA de génération de voix est en passe de faire de la parole ce que ChatGPT et DALL-E ont fait respectivement pour la génération de texte et d'images. Cette IA de génération de voix utilise un modèle d'apprentissage pour instiller la parole dans un contexte textuel et audio. Il est entraîné grâce à 50 000 heures d'enregistrements de livres audio en français, anglais, espagnol, allemand, polonais et portugais. Révolutionnaire, vraiment ?

L'apprentissage contextuel pour des performances exceptionnelles

L'apprentissage contextuel est ce qui distingue VoiceBox des autres générateurs de voix. Il a été exercé pour prédire des segments de paroles en analysant les autres segments qui l'entourent. L'outil complète la parole à partir du contexte qu'on lui donne et est capable de générer des portions de discours sans avoir à reconstituer l'intégralité des textes donnés en entrée.

Il est également en capacité d'éditer des clips audio en éliminant les bruits indésirables ou en remplaçant des phrases mal prononcées. Cette habileté offre la possibilité aux utilisateurs de styliser, nettoyer et éditer des enregistrements sonores plus intuitivement. La flexibilité d'usage potentielle offerte par VoiceBox n'est pour l'instant pas égalée.

© Meta
© Meta

Polyvalent et efficient

Contrairement aux autres générateurs text-to-speech traditionnels, VoiceBox ne nécessite pas de bases de données colossales pour traiter un sujet spécifique. Reposant sur une méthode d'apprentissage novatrice nommée Flow Matching, il est capable de fonctionner 20 fois plus rapidement que les systèmes actuels. Pour l'instant, il excelle aux résultats des tests : 1,9 % de taux d'erreurs seulement, et un taux d'intelligibilité bien plus élevé que ses concurrents.

Ces performances ouvrent de nombreuses possibilités d'applications. VoiceBox pourrait être utilisé dans des domaines tels que les assistants virtuels ou les outils de création audio dans les vidéos. Une utilisation dans le metaverse pour animer des personnages non joueurs est également envisageable.

Meta marque clairement sa volonté de se positionner dans le domaine de la génération de voix synthétique. VoiceBox, armé d'un nouveau système d'apprentissage contextuel, se montre déjà plus performant que la concurrence. Parviendra-t-il à se faire une place dans la grande démarche de démocratisation des systèmes d'IA ?

Sources : Meta, Engadget

Camille Coirault

Une fois réveillé dans le bateau arrivé en Morrowind, j’avais mis le doigt dans l'engrenage. Un autre de mes doigts fut lui aussi coincé entre les pages des livres d’auteurs classiques : Charles Baud...

Lire d'autres articles

Une fois réveillé dans le bateau arrivé en Morrowind, j’avais mis le doigt dans l'engrenage. Un autre de mes doigts fut lui aussi coincé entre les pages des livres d’auteurs classiques : Charles Baudelaire, Émile Zola, Choderlos de Laclos ou Victor Hugo pour ne citer qu’eux. Vingt ans après, quelques milliers d'heures à jouer, à lire, et me voilà ! Mon coeur balance toujours entre ma passion de la tech, des jeux vidéo et mon amour incommensurable pour les Lettres. Spoiler : je n’ai pas choisi et cela ne risque pas d’arriver de sitôt.

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (6)

Kriz4liD
Si j étais une société tech sans scrupule, et si par exemple je disposais une armada de zombies qui utilisent mon réseau social et mon application de messagerie instantané , j aurais mis tout le monde sur écoute et j aurais entraîné mon IA en espionnant les conversations des gens !<br /> Le speech serait tellement naturel et moins formel !<br /> Pour moi l idée d entraîner l ia sur des livres audio n’est pas mauvaise , elle ne sera juste pas si naturelle . Ce sera comme si tu discutais avec un snob ou un comédien de théâtre
ar-s
Un concurrent sérieux à Vall-E de microsoft ? ça en a l’air.
xryl
J’attends de l’entendre en vrai, car aucune démo sur leur site, juste 2 ou 3 clips qui ont pu être complètement retouchés. D’habitude Meta publie ses modèles sur Hugginface pour pouvoir les tester, et là, non. Bizarre ?
TV34
Finalement le Zuck n’avait pas mis tous ses oeufs dans le métaverse… pas mal de choses intéressantes de Meta en IA récemment
Voir tous les messages sur le forum
Haut de page

Sur le même sujet