Alibaba dévoile une IA capable de vous faire parler et chanter à partir d’une simple photo

01 mars 2024 à 08h58
19
Faire parler la Joconde est désormais un jeu d'enfant © Alibaba
Faire parler la Joconde est désormais un jeu d'enfant © Alibaba

On arrête plus l’IA. Le groupe chinois Alibaba a présenté récemment son nouveau modèle d’intelligence artificielle surnommé « EMO ». Ce dernier permet d’animer une photo avec un réalisme saisissant.

Après les deepfakes, voilà une nouvelle prouesse de l’IA qui pourrait causer bien des soucis. Dans un article de recherche publié le 27 février 2024, le groupe chinois Alibaba (qui tient notamment le site de e-commerce AliExpress) a détaillé le fonctionnement de son modèle de génération de vidéo EMO qui est capable d’ajouter des mouvements et une voix à une simple photo.

Faire dire (et chanter) n’importe quoi à n’importe qui

En utilisant un algorithme qui retranscrit directement l’audio reçu d’une part en mouvement faciale de l’autre part et « sans avoir recours à des modèles 3D intermédiaires ou à des points de repère faciaux » EMO se permet donc de faire parler ou chanter des photos avec des mouvements de tête et de lèvres extraordinairement proches de la réalité.

Ainsi, en faisant passer une simple photo d’Audrey Hepburn dans la moulinette d'EMO, il devient possible de faire chanter du Ed Sheeran à l’actrice aujourd’hui décédée. Vous voulez faire chanter du Eminem à une photo de Leonardo DiCaprio à 20 ans ? Pas de problème non plus. Plus impressionnant encore, le logiciel se débrouille très bien avec des personnages dessinés ou peint, puisqu’Alibaba se permet même de faire déclarer à La Joconde un monologue de Shakespeare, avec les expressions faciales qui vont avec.

Une arme de désinformation massive ?

Pour entrainer EMO, les chercheurs ont « constitué une base de données audio-vidéo riche de 250 heures de contenus et de 150 millions d’images », précise l’article. « Les contenus audio sont riches en information concernant les expressions faciales, permettant théoriquement de générer un large panel de mouvements faciaux », poursuivent les ingénieurs dernières EMO. La tâche n’est pas pour autant facile, les modèles de diffusion (similaire à ce que fait Stable Diffusion) pouvant parfois se perdre dans la retranscription des mouvements faciaux.

Bien évidemment, en y regardant de près il est possible de voir quelques artefacts et les vidéos en elle-même dégagent quelque chose qui se rapproche parfois un peu de la vallée dérangeante, mais pour une première version du système les résultats sont tout de même époustouflants… et un peu inquiétants. La possibilité de faire dire n’importe quoi à n’importe qui en n’ayant besoin de rien de plus qu’une image en relativement bonne qualité pourrait être utilisée comme une arme de désinformation massive, surtout si son utilisation est encore plus aisée que ce qui se fait aujourd’hui avec les deepfake.

Les 6 meilleurs générateurs d'images par intelligence artificielle (2024)
A découvrir
Les 6 meilleurs générateurs d'images par intelligence artificielle (2024)
30 août 2023 à 09:00
Comparatifs services

Corentin Béchade

Journaliste depuis quasiment 10 ans, j’ai écumé le secteur de la tech et du numérique depuis mes tout premiers chapôs. Bidouilleur (beaucoup), libriste (un peu), j’ai développé une spécialisation sur...

Lire d'autres articles

Journaliste depuis quasiment 10 ans, j’ai écumé le secteur de la tech et du numérique depuis mes tout premiers chapôs. Bidouilleur (beaucoup), libriste (un peu), j’ai développé une spécialisation sur les thèmes de l’écologie et du numérique ainsi que sur la protection de la vie privée. Le week-end je torture des Raspberry Pi à grands coups de commandes 'sudo' pour me détendre.

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (19)

xXBernadette_SanguineXx
heu, pas comme si ça existait depuis 10 ans, on appelait ça des filtres à l’époque…
bizbiz
" En utilisant un algorithme qui retranscrit directement l’audio reçu d’une part en mouvement faciale de l’autre part et « sans avoir recours à des modèles 3D intermédiaires ou à des points de repère faciaux »"<br /> Et c’est donc là que se trouve le tour de force. Wombo.ai et consorts ont du soucis à se faire.<br /> Par contre, aucunes notes sur la disponibilité ou sur l’utilisation de cet outils ?
SlashDot2k19
Bluffant…<br /> Il y a 30 ans Internet était surnommé « l’autoroute de l’information ».<br /> Dorénavant c’est devenu « l’ autoroute de la désinformation »
Vankovic
La fin du Monde est proche…<br /> On savait que ce genre de chose allait arriver.<br /> Il y avait déjà quelques vidéos «&nbsp;prometteuses&nbsp;» dans le genre.<br /> Là, on va verser rapidement dans le systématique.<br /> C’est extrêmement inquiétant, même dans la vie courante, quel est l’intérêt «&nbsp;utile&nbsp;» de ce genre de chose, à part faire circuler de fausses informations ? Concrètement à quoi cela peut-il servir, à part pour quelques biopics cinématographiques ?<br /> Il est largement temps de légiférer, même si c’est illusoire…
fredolabecane
ça va en faire chanter plus d’un…
malak
Deepfake puissance 100… la seule limite sera notre imagination…
xryl
Je suis Sony, Universale, ou Warner Bros, je te garantie de l’intérêt de cette techno. Une prise qui a foiré, un acteur qui est défoncé 24/7 sur le tournage, je peux quand même reprendre une prise, ou finir un film (type Fast &amp; Furious) avec un acteur décédé.<br /> Et si j’ai les bons lobbys, je peux même faire en sorte que ce ne soit pas illégal d’inclure cela dans mes contrats et d’abuser de la technologie pour faire une seule prise à un figurant/auditionneur et le faire jouer pendant 2h dans un film.
g-jack
Finalement on va peut être arriver à un virage ou l’information visuelle n’aura plus aucune crédibilité, du coup c’est tout un système à revoir (vidéo surveillance, authentification faciale, preuve par l’image ou l’audio…) mais après si on sait que c’est si simple et que ça ne vaut plus rien, peut être ça évitera justement l’utilisation de fausses videos vu que ça n’aura plus aucune valeur aux yeux de personnes…<br /> Bon ok il y a du chemin à parcourir !
Vankovic
xryl:<br /> Je suis Sony, Universale, ou Warner Bros, je te garantie de l’intérêt de cette techno. Une prise qui a foiré, un acteur qui est défoncé 24/7 sur le tournage, je peux quand même reprendre une prise, ou finir un film (type Fast &amp; Furious) avec un acteur décédé.<br /> Et si j’ai les bons lobbys, je peux même faire en sorte que ce ne soit pas illégal d’inclure cela dans mes contrats et d’abuser de la technologie pour faire une seule prise à un figurant/auditionneur et le faire jouer pendant 2h dans un film.<br /> ça confirme bien mes propos.<br /> Seul les productions télévisées ou cinématographiques peuvent y trouver un intérêt, sain ou pas…<br /> Au delà de ça, tout autre usage est forcément problématique ou suspect.<br /> Sans compter les usages «&nbsp;anodins&nbsp;» mais destructeurs dans la société civile.<br /> Adolescents malsains qui «&nbsp;règlent leurs comptes&nbsp;», licenciements abusifs ou calculés, mise en cause d’innocents, etc. La liste sera sans fin.
bizbiz
Au final le célèbre adage de Saint Thomas n’a plus lieu d’être ? A moins d’utiliser la bonne formule qui aurait dû être être " Je ne crois que ce que je touche ! " … en plongeant sa main sale dans la plaie béante et sanguinolente du Christ … le sadique .<br /> Sinon, rétropédalage total et retour à la TSF et au canard acheté au tabac-presse du coin de la rue.<br /> On est pas sorti de l’auberge .
ben_car
Certes mais le risque est-il si important ?<br /> Quand le potentiel est de faire chanter de la J-pop à Bob l’éponge.
nicgrover
Je lui trouve un petit air bridé à Mona Lisa. Ah on me dit dans l’oreillette qu’elle fredonne en cantonais…
ben_car
Cette adage était déjà pas viable à ça création.
crowfix
C’est juste totalement l’inverse.<br /> Un filtre c’est appliquer une image fixe sur une image en mouvement en la collant comme on peut pour obtenir un résultat dégueulasse juste bon à faire marrer les gamines de 10 ans.<br /> Là on transforme une image fixe en 3D visiblement puisque ce n’est pas juste un applat vu que les cheveux et autres détails bougent indépendamment du reste de l’image et on la rend vivante en la contrôlant par une vidéo.
youmetooandyou
finalement face à l’intelligence artificielle, la seule réponse est l’intelligence réelle : ne pas croire bêtement une image, une video, un article, un influenceur, un politicien, un imam, … et rechercher systématiquement le débat contradictoire.<br /> C’est vrai, ça va à l’encontre de l’air du temps où on veut tout, tout de suite, et pas le temps, pas envie de chercher si ce qu’on me présente est vrai ou pas.
Rainforce
Excellent ! ( ou pas )
TeslaCybertruck
Est-ce qu’on pourra aussi faire chanter une image de Xi Jinping sur du Winnie l’ourson en Chine ou ce sera bloqué ?
Binbin
Cette IA made in China, très très spécifique, est-elle une commande d’un certain Vladimir P. ?
taist
c’est quand même très bluffant !
Voir tous les messages sur le forum
Haut de page

Sur le même sujet