Meta : mais quelle est donc cette nouvelle IA, qui pourrait créer des images à partir de fichiers audios ?

Par Alexandre Boero, Journaliste-reporter, responsable de l'actu.

Publié le 10 mai 2023 à 13h45

La maison-mère de Facebook, Meta, a dévoilé ImageBind, un nouveau modèle d'intelligence artificielle qui brille par sa polyvalence et qui fait preuve, sur le papier, d'une créativité très prometteuse.

Mark Zuckerberg a présenté, mardi 9 mai, un tout nouveau modèle d'IA multimodale publié en open source, rattaché à la division Meta AI de son groupe. ImageBind, c'est son nom, possède des propriétés étonnantes en ce qu'il est capable de créer du contenu en combinant jusqu'à six types de données, rapprochant un peu plus encore les machines des humains, et de leur aptitude à apprendre simultanément, de manière holistique.

ImageBind, l'IA aux 6 sens de Meta

« ImageBind est un nouveau modèle d'IA qui combine différents sens, tout comme les gens le font », résume le fondateur de Facebook. L'IA est ici capable de lier des informations provenant de six modalités différentes : des données textuelles, visuelles, audios, de mouvement, thermiques et de profondeur.

Le modèle peut littéralement surpasser les modèles spécialisés antérieurs, qui eux, étaient formés individuellement pour telle ou telle modalité. En outre, il contribue à améliorer, à faire progresser l'intelligence artificielle, en cela qu'il permet aux machines d'analyser différentes sortes d'informations.

Prenons l'exemple de Make-A-Scene, l'IA générative de Meta qui transforme les textes et croquis en œuvres d'art. En utilisant le modèle ImageBind, elle pourrait créer des images à partir de fichiers ou données audios. Dans une vidéo publiée sur son compte Facebook, Mark Zuckerberg donne l'exemple d'une image animée grâce à la combinaison de 4 modalités, dont une requête écrite, « petite créature », l'audio d'une pluie en forêt ou encore la photo d'une forêt. Le résultat est bluffant, regardez :

Une IA qui s'inspire des capacités humaines

« ImageBind fait partie des efforts de Meta pour créer des systèmes d'IA multimodaux qui apprennent de tous les types de données possibles autour d'eux », explique l'entreprise, qui ajoute que plus le nombre de modalités augmente, plus les chercheurs voient grandir leur capacité à développer de nouveaux systèmes holistiques.

Pour les systèmes d'IA traditionnels, il existe une intégration spécifique pour chaque modalité respective. ImageBind montre qu'il est possible de créer un espace d'intégration commun sur plusieurs modalités, le tout sans avoir à s'entraîner sur les données avec chaque combinaison différente de modalités. Ce modèle peut, vous l'aurez compris, donner une nouvelle vie à vos fichiers, images et requêtes, en les récupérant sous d'autres formats en sortie.

Autres exemples d'ImageBind © Meta

« Notre modèle a de nouvelles capacités émergentes, ou comportement de mise à l'échelle, c'est-à-dire des capacités qui n'existaient pas dans les modèles plus petits mais qui apparaissent dans des versions plus grandes. Cela peut inclure la reconnaissance de l'audio qui correspond à une certaine image ou la prédiction de la profondeur d'une scène à partir d'une photo », explique Meta, qui nous démontre bien sa capacité à créer des systèmes d'intelligence artificielle qui apprennent à partir de tous les types de données possibles qui les entourent. On n'arrête pas le progrès.

Source : Meta, Facebook @Zuck

Par Alexandre Boero

Journaliste-reporter, responsable de l'actu

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (7)

Francis7

Cela ne m’étonne pas du tout mais qu’est-ce qu’un fichier audio ? Il est bien plus que ce qu’on se l’imagine.
Il y a des amplificateurs HIFI/HC qui utilisent un fichier audio en .wav sur CD audio sur un lecteur classique relié en optique ou coaxial pour mettre à jour leur Firmware.
Alors par extension, tout est possible.

soixante

Meta : mais quelle est donc cette nouvelle IA, qui pourrait créer des images à partir de fichiers audios ?

Avec du LSD et Ummagumma dans le lecteur CD, j’pense on peut faire pareil pour moins cher !

Mister_Georges

J’aimerai bien voir l’image qui va se générer avec la chanson Vanina de Dave (1975)…

jcc137

Joli fantasme ! moi aussi je serais bien spectateur de la partie refrain

norwy

Meta + IA = Fuyez !

Francis7

Je ne sais pas. Je ne suis pas fan de Meta mais j’aime bien l’IA en soi. Il y a un chercheur français en IA chez Meta et lui, il critique plutôt le modèle (propriétaire ?) de ChatGPT.

C’est une guerre qui est lancée ici ou là et qui n’est pas prête de se terminer.

bennukem

Texte : hentai
Audio : bruit de cochon
Image : palais de l’Elysée
Imu : pieuvre avec des longues tentacules

A votre avis , quel résultat ?