L'IA de Google peut maintenant créer une image à partir d'un texte

Pierre Crochart
Spécialiste smartphone & gaming
25 mai 2022 à 08h10
3
© Google Research Lab
© Google Research Lab

« Un jeune homme fatigué tape sur son clavier » permettra sans doute dans quelques années de générer une image très méta de votre serviteur en train d’écrire cet article. Grâce à Imagen, Google franchit une nouvelle étape dans le monde de l’intelligence artificielle et du machine learning.

En bêta fermée au sein du Google Research Lab, ce nouvel algorithme surpuissant serait, d’après les dires de ses créateurs et créatrices, plus performant encore que l’impressionnant DALL-E 2 de la firme OpenAI.

Tout est possible, tout est réalisable

Sur son site, qui sert également de note d’intention à l’outil, Imagen est décrit comme un « modèle de diffusion texte-image doté d’un degré de photoréalisme et de compréhension du langage sans précédent ». En d’autres termes, il serait capable de faire strictement tout ce que vous voulez.

Un génie de la lampe, en quelque sorte, enclin à générer le plus précisément possible une image à partir des mots renseignés par l’utilisateur. Plusieurs exemples à notre disposition permettent d’admirer les résultats. « Un cobra géant dans une ferme, mais le cobra est constitué de maïs », « un cerveau chevauchant une fusée en direction de la lune », ou encore « un oiseau très énervé » sont uniquement quelques exemples extraits d’un site qui en contient des dizaines.

Quelques exemples d'images générées par Imagen © Google Research Lab
Quelques exemples d'images générées par Imagen © Google Research Lab

Pour arriver à un tel résultat, le laboratoire utilise la méthode dite de la diffusion. Tout part d’une image en faible résolution, assez chaotique, affinée au fur et à mesure que l’IA pioche dans son modèle de données à partir des mots proposés. À partir d’un premier canevas de 64 x 64 pixels, Imagen l’upscale pour obtenir une image en 1 024 x 1 024 pixels. Pendant le processus, des détails sont ajoutés en les harmonisant avec le matériau d’origine.

Pour le dire autrement, Imagen fonctionne comme le ferait un artiste peintre. D’abord en croquant des formes assez sommaires, puis en ajoutant à chaque passe des détails et de la couleur en fonction du modèle de données mobilisé. Et d’après un panel d’observateurs engagés par Google, les résultats issus d’Imagen sont plus précis que ceux issus de DALL-E 2.

Comparaison directe de la requête « une pomme noire et un sac à dos vert » dans Imagen et DALL-E 2. © Google Research Lab
Comparaison directe de la requête « une pomme noire et un sac à dos vert » dans Imagen et DALL-E 2. © Google Research Lab

Google conscient des limites et des risques posés par son outil

Impressionnant, Imagen est évidemment imparfait. Les résultats présentés ont été obtenus dans des conditions de laboratoire très contrôlées. Mais en dehors même de ces précautions, le site de la Research Team est riche en réflexions sur les potentielles dérives d’un tel outil à disposition du plus grand nombre.

Dans un chapitre intitulé « limites et impact sociétal », les chercheurs ne cachent pas leur inquiétude de voir leur technologie détournée à des fins douteuses. C’est aussi pourquoi « pour le moment, écrivent les concepteurs, nous avons décidé de ne pas ouvrir le code ou proposer de démo publique. »

De plus, il est dit qu’Imogen mobilise des sets de données dans lesquels aucune curation n’a été faite. Un choix qui lui a permis de progresser plus rapidement, mais qui laisse la porte ouverte à des interprétations racistes, sexistes, ou basées sur du contenu pornographique.

Une belle occasion de rappeler qu’une intelligence artificielle, et la technologie en général d’ailleurs, n’est jamais neutre. Elle est le fruit des croyances et des opinions de celles et ceux qui la conçoivent, et la chose n’est que plus criante lorsqu’on parle d’IA. Un domaine de recherche que l’on sait particulièrement embourbé dans des biais racistes.

Pierre Crochart

Spécialiste smartphone & gaming

Spécialiste smartphone & gaming

Monsieur GSM et jeux vidéo du Clubic. J’aime autant croquer dans la pomme que trifouiller dans les circuits de l’Android. Grassement payé par les marques pour dire du bien de leurs produits.

Lire d'autres articles

Monsieur GSM et jeux vidéo du Clubic. J’aime autant croquer dans la pomme que trifouiller dans les circuits de l’Android. Grassement payé par les marques pour dire du bien de leurs produits.

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (3)

gamez
mais les dérives on peut en faire à partir de tout et n’importe quoi. si on ne fait pas découvrir l’outil aux gens à cause de ça, on n’avancera jamais et on ne fera plus jamais rien de nouveau
ChezDebarras
n’oubliez pas de choisir la langue du texte !<br /> Parce que sinon, quand vous utilserez ce service de google pour montrer à vos enfants ce qu’est de « mordre », vous risqueriez des surprises en tapant le texte « bite »
Than
On peut dériver à partir de tout. Faut-il tout interdire ?<br /> Combien de millénaires encore avant de comprendre ça ?<br /> Quand on nous vend une petite cuillère, c’est fait pour manger. Pourtant, on peut pocher des yeux avec… Faut-il interdire les petites cuillères, ces objets trop dangereux pour l’Humanité ?
Voir tous les messages sur le forum
Haut de page

Sur le même sujet