Google apprend à son IA à distinguer les voix

01 juin 2018 à 15h36
0
Les enceintes intelligentes ont encore des progrès à faire avant de distinguer clairement qui s'adresse à elle. Google est en train de travailler sur ce que les experts appellent la séparation des voix, et la solution trouvée s'avère plutôt élégante.

En mêlant l'image au son, l'IA parvient à reconnaître une, voire plusieurs voix mélangées.

Inné pour l'Homme, pas pour la machine

On en a tous fait l'expérience : en se concentrant, on parvient à isoler la voix d'une personne, même quand celle-ci s'exprime dans un environnement bruyant. Cette capacité nous est innée, et les spécialistes de la cognition l'ont baptisée séparation automatique des discours. Mais la machine est encore loin de pouvoir égaler cette prouesse du cerveau humain.

La recherche s'était jusque-là attelée à trouver une solution en se concentrant uniquement sur le signal audio. Mais distinguer plusieurs voix dans un même signal audio, et parvenir à les séparer, s'avère impossible à ce jour. Une équipe d'ingénieurs en logiciel du laboratoire Google Research a donc décidé d'explorer une autre voie, en combinant les ressources de l'audio et de la vidéo.



Un visage identifié par la voix

Leur modèle d'apprentissage profond permet à une IA d'isoler séparément les signaux de plusieurs discours en même temps. La vidéo ci-dessus montre bien comment le logiciel parvient à distinguer quand John parle, quand c'est Rory qui s'exprime, quand leurs voix se mélangent, etc. Le logiciel s'est d'abord entraîné pendant 2 000 heures à identifier séparément chacune des voix sur des vidéos sans bruit de fonds, et à les associer à leur visage respectif.

Une fois cette étape achevée, des bruits ont été ajoutés aux mêmes séquences pour entraîner l'IA à isoler les voix au milieu du brouhaha. Dernière étape : le même exercice avec, simultanément, deux voix connues de la machine. Celle-ci parvient à les distinguer et donc à enregistrer le signal qu'elle veut. Les ingénieurs de Google imaginent de nombreuses applications possibles à leur procédé : la captation sélective d'une voix, ou bien une reconnaissance faciale inversée, bien pratique pendant une visioconférence.

Soyez toujours courtois dans vos commentaires.
Respectez le réglement de la communauté.
0
0

Actualités du moment

L’application Telegram bannie en Iran
Facebook Developer Conference (F8) : rendez-vous à 19h pour la keynote
Google Container, l'extension Firefox qui empêche Google de vous tracer
Un MacBook Air à moins de 900 euros commercialisé fin 2018 ?
PlayStation Now : des jeux PS2 également au catalogue
B&You Light :  l'offre 30 Go à 9,99€ par mois
Clubic 18.0 (ans) : une version majeure
App Store : le nombre d’apps recule en 2017 (mais pas pour le Play Store)
Android 8.0 Oreo : bientôt sur Galaxy S7 et S7 Edge, déjà sur Honor 7X
Bon plan : la trottinette électrique STREETY à 179,90€ au lieu de 399,00€
Haut de page