Meta : mais quelle est donc cette nouvelle IA, qui pourrait créer des images à partir de fichiers audios ?

Alexandre Boero
Chargé de l'actualité de Clubic
10 mai 2023 à 13h45
7
© kovop / Shutterstock
© kovop / Shutterstock

La maison-mère de Facebook, Meta, a dévoilé ImageBind, un nouveau modèle d'intelligence artificielle qui brille par sa polyvalence et qui fait preuve, sur le papier, d'une créativité très prometteuse.

Mark Zuckerberg a présenté, mardi 9 mai, un tout nouveau modèle d'IA multimodale publié en open source, rattaché à la division Meta AI de son groupe. ImageBind, c'est son nom, possède des propriétés étonnantes en ce qu'il est capable de créer du contenu en combinant jusqu'à six types de données, rapprochant un peu plus encore les machines des humains, et de leur aptitude à apprendre simultanément, de manière holistique.

ImageBind, l'IA aux 6 sens de Meta

« ImageBind est un nouveau modèle d'IA qui combine différents sens, tout comme les gens le font », résume le fondateur de Facebook. L'IA est ici capable de lier des informations provenant de six modalités différentes : des données textuelles, visuelles, audios, de mouvement, thermiques et de profondeur.

Le modèle peut littéralement surpasser les modèles spécialisés antérieurs, qui eux, étaient formés individuellement pour telle ou telle modalité. En outre, il contribue à améliorer, à faire progresser l'intelligence artificielle, en cela qu'il permet aux machines d'analyser différentes sortes d'informations.

Prenons l'exemple de Make-A-Scene, l'IA générative de Meta qui transforme les textes et croquis en œuvres d'art. En utilisant le modèle ImageBind, elle pourrait créer des images à partir de fichiers ou données audios. Dans une vidéo publiée sur son compte Facebook, Mark Zuckerberg donne l'exemple d'une image animée grâce à la combinaison de 4 modalités, dont une requête écrite, « petite créature », l'audio d'une pluie en forêt ou encore la photo d'une forêt. Le résultat est bluffant, regardez :

© Capture d'écran Meta, par Clubic
© Capture d'écran Meta, par Clubic

Une IA qui s'inspire des capacités humaines

« ImageBind fait partie des efforts de Meta pour créer des systèmes d'IA multimodaux qui apprennent de tous les types de données possibles autour d'eux », explique l'entreprise, qui ajoute que plus le nombre de modalités augmente, plus les chercheurs voient grandir leur capacité à développer de nouveaux systèmes holistiques.

Pour les systèmes d'IA traditionnels, il existe une intégration spécifique pour chaque modalité respective. ImageBind montre qu'il est possible de créer un espace d'intégration commun sur plusieurs modalités, le tout sans avoir à s'entraîner sur les données avec chaque combinaison différente de modalités. Ce modèle peut, vous l'aurez compris, donner une nouvelle vie à vos fichiers, images et requêtes, en les récupérant sous d'autres formats en sortie.

Autres exemples d'ImageBind © Meta
Autres exemples d'ImageBind © Meta

« Notre modèle a de nouvelles capacités émergentes, ou comportement de mise à l'échelle, c'est-à-dire des capacités qui n'existaient pas dans les modèles plus petits mais qui apparaissent dans des versions plus grandes. Cela peut inclure la reconnaissance de l'audio qui correspond à une certaine image ou la prédiction de la profondeur d'une scène à partir d'une photo », explique Meta, qui nous démontre bien sa capacité à créer des systèmes d'intelligence artificielle qui apprennent à partir de tous les types de données possibles qui les entourent. On n'arrête pas le progrès.

Source : Meta, Facebook @Zuck

Alexandre Boero

Chargé de l'actualité de Clubic

Chargé de l'actualité de Clubic

Journaliste, chargé de l'actualité de Clubic. Reporter, vidéaste, animateur et même imitateur-chanteur, j'ai écrit mon premier article en 6ème. J'ai fait de cette vocation mon métier (diplômé de l'EJC...

Lire d'autres articles

Journaliste, chargé de l'actualité de Clubic. Reporter, vidéaste, animateur et même imitateur-chanteur, j'ai écrit mon premier article en 6ème. J'ai fait de cette vocation mon métier (diplômé de l'EJCAM, école reconnue par la profession), pour écrire, interviewer, filmer, monter et produire du contenu écrit, audio ou vidéo au quotidien. Quelques atomes crochus avec la Tech, certes, mais aussi avec l'univers des médias, du sport et du voyage. Outre le journalisme, la production vidéo et l'animation, je possède une chaîne YouTube (à mon nom) qui devrait piquer votre curiosité si vous aimez les belles balades à travers le monde, les nouvelles technologies et la musique :)

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (7)

Francis7
Cela peut inclure la reconnaissance de l’audio qui correspond à une certaine image<br /> Cela ne m’étonne pas du tout mais qu’est-ce qu’un fichier audio ? Il est bien plus que ce qu’on se l’imagine.<br /> Il y a des amplificateurs HIFI/HC qui utilisent un fichier audio en .wav sur CD audio sur un lecteur classique relié en optique ou coaxial pour mettre à jour leur Firmware.<br /> Alors par extension, tout est possible.
soixante
Meta : mais quelle est donc cette nouvelle IA, qui pourrait créer des images à partir de fichiers audios ?<br /> Avec du LSD et Ummagumma dans le lecteur CD, j’pense on peut faire pareil pour moins cher !
Mister_Georges
J’aimerai bien voir l’image qui va se générer avec la chanson Vanina de Dave (1975)…
jcc137
Joli fantasme ! moi aussi je serais bien spectateur de la partie refrain
norwy
Meta + IA = Fuyez !
Francis7
Je ne sais pas. Je ne suis pas fan de Meta mais j’aime bien l’IA en soi. Il y a un chercheur français en IA chez Meta et lui, il critique plutôt le modèle (propriétaire ?) de ChatGPT.<br /> C’est une guerre qui est lancée ici ou là et qui n’est pas prête de se terminer.
bennukem
Texte : hentai<br /> Audio : bruit de cochon<br /> Image : palais de l’Elysée<br /> Imu : pieuvre avec des longues tentacules<br /> A votre avis , quel résultat ?
Voir tous les messages sur le forum
Haut de page

Sur le même sujet