Meta : mais quelle est donc cette nouvelle IA, qui pourrait créer des images à partir de fichiers audios ?

Alexandre Boero
Par Alexandre Boero, Journaliste-reporter, responsable de l'actu.
Publié le 10 mai 2023 à 13h45
© kovop / Shutterstock
© kovop / Shutterstock

La maison-mère de Facebook, Meta, a dévoilé ImageBind, un nouveau modèle d'intelligence artificielle qui brille par sa polyvalence et qui fait preuve, sur le papier, d'une créativité très prometteuse.

Mark Zuckerberg a présenté, mardi 9 mai, un tout nouveau modèle d'IA multimodale publié en open source, rattaché à la division Meta AI de son groupe. ImageBind, c'est son nom, possède des propriétés étonnantes en ce qu'il est capable de créer du contenu en combinant jusqu'à six types de données, rapprochant un peu plus encore les machines des humains, et de leur aptitude à apprendre simultanément, de manière holistique.

ImageBind, l'IA aux 6 sens de Meta

« ImageBind est un nouveau modèle d'IA qui combine différents sens, tout comme les gens le font », résume le fondateur de Facebook. L'IA est ici capable de lier des informations provenant de six modalités différentes : des données textuelles, visuelles, audios, de mouvement, thermiques et de profondeur.

Le modèle peut littéralement surpasser les modèles spécialisés antérieurs, qui eux, étaient formés individuellement pour telle ou telle modalité. En outre, il contribue à améliorer, à faire progresser l'intelligence artificielle, en cela qu'il permet aux machines d'analyser différentes sortes d'informations.

Prenons l'exemple de Make-A-Scene, l'IA générative de Meta qui transforme les textes et croquis en œuvres d'art. En utilisant le modèle ImageBind, elle pourrait créer des images à partir de fichiers ou données audios. Dans une vidéo publiée sur son compte Facebook, Mark Zuckerberg donne l'exemple d'une image animée grâce à la combinaison de 4 modalités, dont une requête écrite, « petite créature », l'audio d'une pluie en forêt ou encore la photo d'une forêt. Le résultat est bluffant, regardez :

© Capture d'écran Meta, par Clubic
© Capture d'écran Meta, par Clubic

Une IA qui s'inspire des capacités humaines

« ImageBind fait partie des efforts de Meta pour créer des systèmes d'IA multimodaux qui apprennent de tous les types de données possibles autour d'eux », explique l'entreprise, qui ajoute que plus le nombre de modalités augmente, plus les chercheurs voient grandir leur capacité à développer de nouveaux systèmes holistiques.

Pour les systèmes d'IA traditionnels, il existe une intégration spécifique pour chaque modalité respective. ImageBind montre qu'il est possible de créer un espace d'intégration commun sur plusieurs modalités, le tout sans avoir à s'entraîner sur les données avec chaque combinaison différente de modalités. Ce modèle peut, vous l'aurez compris, donner une nouvelle vie à vos fichiers, images et requêtes, en les récupérant sous d'autres formats en sortie.

Autres exemples d'ImageBind © Meta

« Notre modèle a de nouvelles capacités émergentes, ou comportement de mise à l'échelle, c'est-à-dire des capacités qui n'existaient pas dans les modèles plus petits mais qui apparaissent dans des versions plus grandes. Cela peut inclure la reconnaissance de l'audio qui correspond à une certaine image ou la prédiction de la profondeur d'une scène à partir d'une photo », explique Meta, qui nous démontre bien sa capacité à créer des systèmes d'intelligence artificielle qui apprennent à partir de tous les types de données possibles qui les entourent. On n'arrête pas le progrès.

Par Alexandre Boero
Journaliste-reporter, responsable de l'actu

Journaliste, responsable de l'actualité de Clubic. En soutien direct du rédacteur en chef, je suis aussi le reporter et le vidéaste de la bande. Journaliste de formation, j'ai fait mes gammes à l'EJCAM, école reconnue par la profession, où j'ai bouclé mon Master avec une mention « Bien » et un mémoire sur les médias en poche.

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !
Commentaires (0)
Rejoignez la communauté Clubic
Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.
Commentaires (7)
Francis7

Cela ne m’étonne pas du tout mais qu’est-ce qu’un fichier audio ? Il est bien plus que ce qu’on se l’imagine.
Il y a des amplificateurs HIFI/HC qui utilisent un fichier audio en .wav sur CD audio sur un lecteur classique relié en optique ou coaxial pour mettre à jour leur Firmware.
Alors par extension, tout est possible.

soixante

Meta : mais quelle est donc cette nouvelle IA, qui pourrait créer des images à partir de fichiers audios ?

Avec du LSD et Ummagumma dans le lecteur CD, j’pense on peut faire pareil pour moins cher !

Mister_Georges

J’aimerai bien voir l’image qui va se générer avec la chanson Vanina de Dave (1975)… :face_with_spiral_eyes:

jcc137

Joli fantasme ! moi aussi je serais bien spectateur de la partie refrain :grin:

norwy

Meta + IA = Fuyez !

Francis7

Je ne sais pas. Je ne suis pas fan de Meta mais j’aime bien l’IA en soi. Il y a un chercheur français en IA chez Meta et lui, il critique plutôt le modèle (propriétaire ?) de ChatGPT.

C’est une guerre qui est lancée ici ou là et qui n’est pas prête de se terminer.

bennukem

Texte : hentai
Audio : bruit de cochon
Image : palais de l’Elysée
Imu : pieuvre avec des longues tentacules

A votre avis , quel résultat ?