Meta : mais quelle est donc cette nouvelle IA, qui pourrait créer des images à partir de fichiers audios ?

10 mai 2023 à 13h45
7
meta logo © kovop / Shutterstock
© kovop / Shutterstock

La maison-mère de Facebook, Meta, a dévoilé ImageBind, un nouveau modèle d'intelligence artificielle qui brille par sa polyvalence et qui fait preuve, sur le papier, d'une créativité très prometteuse.

Mark Zuckerberg a présenté, mardi 9 mai, un tout nouveau modèle d'IA multimodale publié en open source, rattaché à la division Meta AI de son groupe. ImageBind, c'est son nom, possède des propriétés étonnantes en ce qu'il est capable de créer du contenu en combinant jusqu'à six types de données, rapprochant un peu plus encore les machines des humains, et de leur aptitude à apprendre simultanément, de manière holistique.

ImageBind, l'IA aux 6 sens de Meta

« ImageBind est un nouveau modèle d'IA qui combine différents sens, tout comme les gens le font », résume le fondateur de Facebook. L'IA est ici capable de lier des informations provenant de six modalités différentes : des données textuelles, visuelles, audios, de mouvement, thermiques et de profondeur.

Le modèle peut littéralement surpasser les modèles spécialisés antérieurs, qui eux, étaient formés individuellement pour telle ou telle modalité. En outre, il contribue à améliorer, à faire progresser l'intelligence artificielle, en cela qu'il permet aux machines d'analyser différentes sortes d'informations.

Prenons l'exemple de Make-A-Scene, l'IA générative de Meta qui transforme les textes et croquis en œuvres d'art. En utilisant le modèle ImageBind, elle pourrait créer des images à partir de fichiers ou données audios. Dans une vidéo publiée sur son compte Facebook, Mark Zuckerberg donne l'exemple d'une image animée grâce à la combinaison de 4 modalités, dont une requête écrite, « petite créature », l'audio d'une pluie en forêt ou encore la photo d'une forêt. Le résultat est bluffant, regardez :

ImageBind test 1 © Capture d'écran Meta
© Capture d'écran Meta, par Clubic

Une IA qui s'inspire des capacités humaines

« ImageBind fait partie des efforts de Meta pour créer des systèmes d'IA multimodaux qui apprennent de tous les types de données possibles autour d'eux », explique l'entreprise, qui ajoute que plus le nombre de modalités augmente, plus les chercheurs voient grandir leur capacité à développer de nouveaux systèmes holistiques.

Pour les systèmes d'IA traditionnels, il existe une intégration spécifique pour chaque modalité respective. ImageBind montre qu'il est possible de créer un espace d'intégration commun sur plusieurs modalités, le tout sans avoir à s'entraîner sur les données avec chaque combinaison différente de modalités. Ce modèle peut, vous l'aurez compris, donner une nouvelle vie à vos fichiers, images et requêtes, en les récupérant sous d'autres formats en sortie.

ImageBind © Meta
Autres exemples d'ImageBind © Meta

« Notre modèle a de nouvelles capacités émergentes, ou comportement de mise à l'échelle, c'est-à-dire des capacités qui n'existaient pas dans les modèles plus petits mais qui apparaissent dans des versions plus grandes. Cela peut inclure la reconnaissance de l'audio qui correspond à une certaine image ou la prédiction de la profondeur d'une scène à partir d'une photo », explique Meta, qui nous démontre bien sa capacité à créer des systèmes d'intelligence artificielle qui apprennent à partir de tous les types de données possibles qui les entourent. On n'arrête pas le progrès.

Source : Meta, Facebook @Zuck

A découvrir en vidéo

Haut de page

Sur le même sujet

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (7)

Francis7
Cela peut inclure la reconnaissance de l’audio qui correspond à une certaine image<br /> Cela ne m’étonne pas du tout mais qu’est-ce qu’un fichier audio ? Il est bien plus que ce qu’on se l’imagine.<br /> Il y a des amplificateurs HIFI/HC qui utilisent un fichier audio en .wav sur CD audio sur un lecteur classique relié en optique ou coaxial pour mettre à jour leur Firmware.<br /> Alors par extension, tout est possible.
soixante
Meta : mais quelle est donc cette nouvelle IA, qui pourrait créer des images à partir de fichiers audios ?<br /> Avec du LSD et Ummagumma dans le lecteur CD, j’pense on peut faire pareil pour moins cher !
Mister_Georges
J’aimerai bien voir l’image qui va se générer avec la chanson Vanina de Dave (1975)…
jcc137
Joli fantasme ! moi aussi je serais bien spectateur de la partie refrain
norwy
Meta + IA = Fuyez !
Francis7
Je ne sais pas. Je ne suis pas fan de Meta mais j’aime bien l’IA en soi. Il y a un chercheur français en IA chez Meta et lui, il critique plutôt le modèle (propriétaire ?) de ChatGPT.<br /> C’est une guerre qui est lancée ici ou là et qui n’est pas prête de se terminer.
bennukem
Texte : hentai<br /> Audio : bruit de cochon<br /> Image : palais de l’Elysée<br /> Imu : pieuvre avec des longues tentacules<br /> A votre avis , quel résultat ?
Voir tous les messages sur le forum