🔴 Soldes d'été : jusqu'à - 50% sur le high-tech 🔴 Soldes d'été : jusqu'à - 50% sur le high-tech

L'IA de Google peut maintenant créer une image à partir d'un texte

Pierre Crochart
Spécialiste smartphone & gaming
25 mai 2022 à 08h10
3
Google Imagen © © Google Research Lab
© Google Research Lab

« Un jeune homme fatigué tape sur son clavier » permettra sans doute dans quelques années de générer une image très méta de votre serviteur en train d’écrire cet article. Grâce à Imagen, Google franchit une nouvelle étape dans le monde de l’intelligence artificielle et du machine learning.

En bêta fermée au sein du Google Research Lab, ce nouvel algorithme surpuissant serait, d’après les dires de ses créateurs et créatrices, plus performant encore que l’impressionnant DALL-E 2 de la firme OpenAI.

Tout est possible, tout est réalisable

Sur son site, qui sert également de note d’intention à l’outil, Imagen est décrit comme un « modèle de diffusion texte-image doté d’un degré de photoréalisme et de compréhension du langage sans précédent ». En d’autres termes, il serait capable de faire strictement tout ce que vous voulez.

Un génie de la lampe, en quelque sorte, enclin à générer le plus précisément possible une image à partir des mots renseignés par l’utilisateur. Plusieurs exemples à notre disposition permettent d’admirer les résultats. « Un cobra géant dans une ferme, mais le cobra est constitué de maïs », « un cerveau chevauchant une fusée en direction de la lune », ou encore « un oiseau très énervé » sont uniquement quelques exemples extraits d’un site qui en contient des dizaines.

Google Imagen © © Google Research Lab
Quelques exemples d'images générées par Imagen © Google Research Lab

Pour arriver à un tel résultat, le laboratoire utilise la méthode dite de la diffusion. Tout part d’une image en faible résolution, assez chaotique, affinée au fur et à mesure que l’IA pioche dans son modèle de données à partir des mots proposés. À partir d’un premier canevas de 64 x 64 pixels, Imagen l’upscale pour obtenir une image en 1 024 x 1 024 pixels. Pendant le processus, des détails sont ajoutés en les harmonisant avec le matériau d’origine.

Pour le dire autrement, Imagen fonctionne comme le ferait un artiste peintre. D’abord en croquant des formes assez sommaires, puis en ajoutant à chaque passe des détails et de la couleur en fonction du modèle de données mobilisé. Et d’après un panel d’observateurs engagés par Google, les résultats issus d’Imagen sont plus précis que ceux issus de DALL-E 2.

DALL-E 2 vs Google Imagen © © Google Research Lab
Comparaison directe de la requête « une pomme noire et un sac à dos vert » dans Imagen et DALL-E 2. © Google Research Lab

Google conscient des limites et des risques posés par son outil

Impressionnant, Imagen est évidemment imparfait. Les résultats présentés ont été obtenus dans des conditions de laboratoire très contrôlées. Mais en dehors même de ces précautions, le site de la Research Team est riche en réflexions sur les potentielles dérives d’un tel outil à disposition du plus grand nombre.

Dans un chapitre intitulé « limites et impact sociétal », les chercheurs ne cachent pas leur inquiétude de voir leur technologie détournée à des fins douteuses. C’est aussi pourquoi « pour le moment, écrivent les concepteurs, nous avons décidé de ne pas ouvrir le code ou proposer de démo publique. »

De plus, il est dit qu’Imogen mobilise des sets de données dans lesquels aucune curation n’a été faite. Un choix qui lui a permis de progresser plus rapidement, mais qui laisse la porte ouverte à des interprétations racistes, sexistes, ou basées sur du contenu pornographique.

Une belle occasion de rappeler qu’une intelligence artificielle, et la technologie en général d’ailleurs, n’est jamais neutre. Elle est le fruit des croyances et des opinions de celles et ceux qui la conçoivent, et la chose n’est que plus criante lorsqu’on parle d’IA. Un domaine de recherche que l’on sait particulièrement embourbé dans des biais racistes.

Soyez toujours courtois dans vos commentaires.
Respectez le réglement de la communauté.
3
4
gamez
mais les dérives on peut en faire à partir de tout et n’importe quoi. si on ne fait pas découvrir l’outil aux gens à cause de ça, on n’avancera jamais et on ne fera plus jamais rien de nouveau
ChezDebarras
n’oubliez pas de choisir la langue du texte !<br /> Parce que sinon, quand vous utilserez ce service de google pour montrer à vos enfants ce qu’est de « mordre », vous risqueriez des surprises en tapant le texte « bite »
Than
On peut dériver à partir de tout. Faut-il tout interdire ?<br /> Combien de millénaires encore avant de comprendre ça ?<br /> Quand on nous vend une petite cuillère, c’est fait pour manger. Pourtant, on peut pocher des yeux avec… Faut-il interdire les petites cuillères, ces objets trop dangereux pour l’Humanité ?
Voir tous les messages sur le forum

Lectures liées

Apple : on sait (peut-être) quand le casque de réalité mixte sera annoncé !
D'impressionnantes peintures de guerre réalisées par IA pour soutenir l’Ukraine
Pour une IA responsable, Microsoft restreint la reconnaissance faciale
Voici Jetson ONE, le premier eVTOL volant à une place qui vole vraiment (Vidéo)
Une IA pour compter les moutons, on n’arrête pas le progrès
Vous pouvez désormais manger vos impressions 3D, grâce à la Pâtisserie Numérique
La Magie et la Tech font bon ménage, la preuve en images à VivaTech
Knext, le robot barista de demain qui fait saliver tout VivaTech
Vers des robots plus humains : des scientifiques japonais mettent au point une peau presque humaine et auto-réparable
Google licencie un ingénieur après sa discussion troublante avec une IA : elle avait peur d'être débranchée
Haut de page