le mardi 13 septembre 2016

Chez Google l'intelligence artificielle prend la parole

Google a récemment présenté un nouveau projet visant à optimiser les transcriptions textuelles afin de les rendre plus naturelles.

Après la vision artificielle, Google s'intéresse désormais à un autre aspect de l'intelligence artificielle : la conversion des textes en paroles. Les dispositifs d'aujourd'hui, notamment ceux embarqués au sein des outils d'accessibilité, sonnent encore très synthétiques.

Ces derniers reposent sur l'enregistrement de personnes avec une combinaison de mots calqués sur la reconnaissance textuelle. Il y a eu les travaux visant à enchainer les mots les uns après les autres (Concatenative TTS) et puis ceux visant à synthétiser la diction (Parametric TTS).

Mais Google a mis au point son projet WaveNet, lequel repose sur un réseau de neurones artificiels. WaveNet est capable d'apprendre plus de 16 000 sons par seconde pour peaufiner la diction et générer des modèles prédictifs de sons à venir en fonction des précédents.

intelligence artificielle artificial AI IA ban


Il en résulte alors une intonation plus naturelle proche de celle qu'un humain pourrait avoir en lisant les mêmes textes. Voici ci-dessous en anglais les différences observées :

Modifié le 13/09/2016 à 12h02
Commentaires