Google apprend à son IA à distinguer les voix

Par
le 01 mai 2018 à 14:32
 0
Les enceintes intelligentes ont encore des progrès à faire avant de distinguer clairement qui s'adresse à elle. Google est en train de travailler sur ce que les experts appellent la séparation des voix, et la solution trouvée s'avère plutôt élégante.

En mêlant l'image au son, l'IA parvient à reconnaître une, voire plusieurs voix mélangées.

Inné pour l'Homme, pas pour la machine



On en a tous fait l'expérience : en se concentrant, on parvient à isoler la voix d'une personne, même quand celle-ci s'exprime dans un environnement bruyant. Cette capacité nous est innée, et les spécialistes de la cognition l'ont baptisée séparation automatique des discours. Mais la machine est encore loin de pouvoir égaler cette prouesse du cerveau humain.

La recherche s'était jusque-là attelée à trouver une solution en se concentrant uniquement sur le signal audio. Mais distinguer plusieurs voix dans un même signal audio, et parvenir à les séparer, s'avère impossible à ce jour. Une équipe d'ingénieurs en logiciel du laboratoire Google Research a donc décidé d'explorer une autre voie, en combinant les ressources de l'audio et de la vidéo.



Un visage identifié par la voix



Leur modèle d'apprentissage profond permet à une IA d'isoler séparément les signaux de plusieurs discours en même temps. La vidéo ci-dessus montre bien comment le logiciel parvient à distinguer quand John parle, quand c'est Rory qui s'exprime, quand leurs voix se mélangent, etc. Le logiciel s'est d'abord entraîné pendant 2 000 heures à identifier séparément chacune des voix sur des vidéos sans bruit de fonds, et à les associer à leur visage respectif.

Une fois cette étape achevée, des bruits ont été ajoutés aux mêmes séquences pour entraîner l'IA à isoler les voix au milieu du brouhaha. Dernière étape : le même exercice avec, simultanément, deux voix connues de la machine. Celle-ci parvient à les distinguer et donc à enregistrer le signal qu'elle veut. Les ingénieurs de Google imaginent de nombreuses applications possibles à leur procédé : la captation sélective d'une voix, ou bien une reconnaissance faciale inversée, bien pratique pendant une visioconférence.

Modifié le 01/06/2018 à 15h36
Cet article vous a intéressé ?
Abonnez-vous à la newsletter et recevez chaque jour, le meilleur de l’actu high-tech et du numérique.

Dernières actualités

Google va s’adapter aux exigences de l’Union européenne et annonce qu’il donnera aux utilisateurs Android une meilleure visibilité aux alternatives à Chrome et à son moteur de recherche.
18:02 | Android
L’entreprise NVIDIA a fait la démonstration de son dernier logiciel à base d’intelligence artificielle. Celui-ci est capable d’interpréter des gribouillis sommaires et de les transformer en œuvres d’art.
17:33 | NVIDIA
La SNCF facilite l’achat de billets de train en intégrant son service de réservation dans la messagerie de Facebook. Le groupe ferroviaire veut se rapprocher de ses clients et leur offrir plus de souplesse dans l’organisation de leurs voyages.
17:04 | E-commerce
Après les iPad et les iMac, Apple poursuit le renouvellement de sa gamme en commercialisant une nouvelle version de ses écouteurs true wireless, les AirPods. A ses côtés, vient s’inviter un boîtier de recharge sans fil.
Vous aimez vibrer devant vos films préférés mais malheureusement votre système son est médiocre ? Dans ce cas, on a ce qu'il vous faut ! Rien de tel qu'un bon plan sur la barre de son BOSE Solo 5 à 219,99€ en ce moment chez Darty.
16:30 | Bon plan
Ce mardi, HP a présenté son Envy x360 15, un laptop convertible de 15,6 pouces. Équipé, au choix, d’APUs Ryzen de troisième génération ou de puces estampillées Intel Core, l’appareil arrivera sur le marché en avril prochain, à partir 800 dollars dans ses déclinaisons motorisées par AMD.
Le norvégien Opera propose désormais un VPN gratuit et illimité sur son application Android. Cette nouveauté pourrait permettre à l’entreprise, cotée en bourse depuis près d’un an, de gagner en compétitivité face à ses concurrents directs sur le marché du navigateur mobile.
15:37 | Opera
Une fois n’est pas coutume, nous voici de retour pour non pas pour vous jouer un mauvais tour, mais bien pour vous proposer quelques bons plans dont nous avons le secret. Car vous le savez, chez Clubic, la Team Bons Plans reste continuellement à l’affût des meilleures offres proposées chaque jours par les grandes enseignes de la vente en ligne.
Amazon Italie a malencontreusement publié la fiche produit du Huawei P30 Pro. L’occasion de découvrir son prix et ses caractéristiques avant sa présentation officielle le 26 mars prochain.
Respawn a profité de la mise à jour du jeu et du lancement de la saison 1 pour annoncer avoir interdit un demi-million de comptes qui ont pu se livrer à de la triche.
Avec un renforcement de l’arsenal répressif, les autorités pourront infliger de lourdes amendes aux médias accusés de diffuser des fake news sur la toile en Russie, et à celles ou ceux qui crient trop violemment leur opposition au Kremlin.
Le service de prise de rendez-vous médicaux en ligne a annoncé une nouvelle levée de fonds de 150 millions d’euros réalisée auprès de différents investisseurs.
13:50 | E-business
La décision est tombée. La Commission européenne a annoncé, ce mercredi, avoir infligé une amende dépassant le milliard d’euros au géant américain, pour avoir abusé de la position dominante de sa régie publicitaire.
13:30 | Google
Microsoft a annoncé le support par DirectX 12 du VRS (Variable Rate Shading). Cette technologie permet notamment aux développeurs de prioriser l’ajout d’ombres sur les zones d’une image qui en ont le plus besoin, économisant ainsi des ressources sur les zones où la qualité de l’ombrage est moins importante. Un bon moyen d’optimiser les performances d’un jeu sans trop impacter son attrait sur le plan visuel.
Hier soir, Google a présenté officiellement Stadia, son service de jeu en streaming... qui n'a pas du tout convaincu un certain Emmanuel Freund, co-fondateur de Shadow.
scroll top