Zoomer sur une image floue ou pixelisée et y voir net ? Mission pas impossible selon Google

01 septembre 2021 à 18h00
25
googleexemple © Google

Un programme capable d’upscaler en cascade une image et de la faire passer d’une définition de 64 x 64 pixels à 1 024 x 1 024.

Dans un article titré High Fidelity Image Generation Using Diffusion Models, Jonathan Ho, ingénieur logiciel et membre de la Brain Team de Google, détaille une technologie d'upscaling en cascade mise au point par l’entreprise. Elle est en mesure d’effectuer des mises à l’échelle x16 d’images en basse définition : elle peut ainsi transformer une image de 64 x 64 pixels en une de 1 024 x 1 024 pixels. Rien d’inédit là-dedans pour l'instant ; si ce n’est le résultat qui, vous le constatez sur les images, se montre nettement supérieur à la plupart des méthodes actuelles.

SR3, ou Super-Resolution via Repeated Refinement

Ce nouveau programme de super-résolution d'image a été nommé « SR3 » par la Brain Team pour « Super-Resolution via Repeated Refinement ».

En résumé, SR3 opère la super-résolution par « un processus de débruitage stochastique exécuté de manière itérative par un modèle U-Net ». Mais soyez rassurés, les choses peuvent s’expliquer plus simplement.

GoogleSR3-1 © Google
GoogleSR3-2 © Google
googleSR3 © google

La méthode SR3 consiste en fait à appliquer, dans un premier temps, un bruit gaussien à une image avec une faible définition. Cette phase permet au programme de « cartographier » son sujet. Ensuite, il fait le chemin inverse : il applique des technologies de réduction du bruit numérique pour reconstruire une image sans bruit dans une définition supérieure à celle du départ.

Jonathan Ho explique le principe ainsi : « SR3 […] prend en entrée une image à basse résolution, et construit une image à haute résolution correspondante à partir de bruit pur. Le modèle est entraîné sur un processus de corruption d'image dans lequel du bruit est progressivement ajouté à une image haute résolution jusqu'à ce qu'il ne reste que du bruit. Il apprend ensuite à inverser ce processus, en partant du bruit pur et en supprimant progressivement le bruit ».

Un taux de confusion proche de 50 % pour les visages

Selon Google, cette technologie offre « d'excellents résultats dans la tâche de super-résolution pour les images naturelles » dans des mises à l'échelle en x4 et x8. L’entreprise rapporte un taux de confusion proche de 50 % pour les photos de visages passées d’une résolution en 16 x 16 à 128 x 128 et de 40 % pour les images de nature (de 64 x 64 à 256 x 256) plus difficiles à améliorer ; des taux qui restent dans les deux cas bien supérieurs à ceux obtenus avec les méthodes PULSE et FSRGAN par exemple.

confusion © Google

Les résultats sont déjà impressionnants, mais Google n'emploie pas uniquement SR3 pour embellir de vieux clichés. En effet, la société met aussi à profit cette technologie pour générer des images dans des définitions de plus en plus élevées via son Cascaded Diffusion Models (CDM), « un modèle de diffusion conditionnel par classe entraîné sur les données d'ImageNet pour générer des images naturelles à haute résolution ».

irish © Google
cheese © Google

Source : Google

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (25)

nicgrover
Ce sont les myopes qui vont être contents…
pagnelli
Impressionnant comment est-ce qu’il recréer de la matière et de la texture par exemple sur la photo du burger en 32 par 32 il n’y a pas autant de détails que ce que l’on peut retrouver sur la grande photo
Wen84
Cela peut surement créer une image détaillée (En tout cas à priori), mais on ne peut pas faire revenir une information qui a été perdue. Donc ce serait bien de faire un comparatif avec la vraie image en bonne définition
SPH
Ca m’a donné envie d’aller au MacDo (en vrai !!)
Blap
C’est possible aussi, tout depend de l’image originale et ce qu’il ya a recuperer
tfpsly
pagnelli:<br /> Impressionnant comment est-ce qu’il recréer de la matière et de la texture par exemple sur la photo du burger en 32 par 32 il n’y a pas autant de détails que ce que l’on peut retrouver sur la grande photo<br /> L’algorithme «&nbsp;imagine&nbsp;» une image plus détaillée, qui floutée donnerait l’image basse résolution donnée en entrée. Ce n’est pas exactement l’image de départ avant réduction de résolution (ce serait impossible à cause de la perte d’information). Le résultat ne fait que ressembler à une image originale potentielle.
Bibifokencalecon
Wen84 a cependant raison sur 2 points :<br /> il serait intéressant de pouvoir comparer les 2 photos (celle d’origine et celle recréée)<br /> et il est vrai aussi qu’on ne peut pas recréer une information perdue.<br /> Ici les 2 technologies (SR3 et CDM) permettent de simuler un rendu en plus haute définition avec une approche de raffinement itérative couplée à de l’intelligence artificielle. C’est impressionnant et bien sûr Google ne prétend pas «&nbsp;recréer&nbsp;» la photo d’origine. Même si le résultat pourrait être 100% identique (à l’oeil nu).
Voigt-Kampf
La première image il y a la photo de référence, il faut penser à bien regarder.<br /> Cela dit rien de nouveau. Il y a des gars qui font des remasters de jeux anciens en utilisant IA pour la reconstruction d’images en haute résolution parfois le résultat est spectaculaire : Final Fantasy 9 Remastered – Original vs. Moguri AI Graphics Mod Comparison - YouTube<br /> On n’oubliera pas le film des Frères Lumières «&nbsp;La Ciotat&nbsp;» remasterisé en haute résolution grâce à l’IA etc.<br /> En fait il faudrait plutôt comparé cet algorithme avec ceux déjà existant.
MisterDams
C’est un peu ce que fait la première image aussi en comparant aux méthodes Regression et Bi-cubique. Mais effectivement il manque les autres qui sont mentionnés.<br /> Par contre j’ai pas compris le taux de confusion, c’est le pourcentage d’humains qui se laissent bernés par l’upscaling en ne distinguant pas la différence avec l’originale ?
Bibifokencalecon
" We compare SR3 with existing methods using human evaluation study. We conduct a Two-Alternative Forced Choice Experiment where subjects are asked to choose between the reference high resolution image, and the model output when asked the question, “Which image would you guess is from a camera? ” We measure the performance of the model through confusion rates (% of time raters choose the model outputs over reference images, where a perfect algorithm would achieve a 50% confusion rate)."<br /> (source : l’article Google originel)<br /> Donc oui, le ratio d’humain qui ne sont pas capables de choisir entre les 2 photos. Mais le but est de voir si l’algorithme de Google fait mieux que ces 2 concurrents principaux (PULSE and FSRGAN). Et la réponse est aussi oui.
Kriz4liD
Si j’ai bien compris, ils en parlent à la fin de l’article, sr3 arrive à générer une image proche jusqu’à 50%, si j’ai bien compris
gamez
ils créent de l’information qui n’existait pas au départ. donc méfiance
sandalfo
Incroyable, les réseaux de neurones «&nbsp;imaginent&nbsp;» du détail qu’ils n’ont pas.<br /> C’est impressionnant. Je pense que les neurones sont entrainés avec des photos de visage pour savoir comment remplir les blancs. On ne peut pas utiliser cet algo avec n’importe quel type d’image il faut l’entrainer d’abord non ?
tfpsly
natanoj:<br /> Ils ont une banque d’image haute résolution puis ils la downscalent pour entrainer le réseau. Ensuite ils comparent avec la sortie du réseau. Ce type d’architecture est connu depuis longtemps<br /> C’est un peu l’idée, sauf que l’entrée est en fait l’image full res mais bruitée. Les «&nbsp;carrées&nbsp;» produits en augmentant la résolution sans interpoler les pixels d’une image sont vus comme du bruit, et le réseau de neurones essaye d’éliminer ce bruit.<br /> SR3 is a super-resolution diffusion model that takes as input a low-resolution image, and builds a corresponding high resolution image from pure noise. The model is trained on an image corruption process in which noise is progressively added to a high-resolution image until only pure noise remains. It then learns to reverse this process, beginning from pure noise and progressively removing noise to reach a target distribution through the guidance of the input low-resolution image…<br /> Et en plus elle est appliquée en cascade : à chaque itération l’algo double la résolution - c’est ce qui est représenté par ce gif :<br /> https://1.bp.blogspot.com/-fZUmX3WWlJ8/YPG5qDDvVmI/AAAAAAAAH6w/nK7NMZzGZno-t_rBeuhkPHBq4k8Z32kYQCLcBGAsYHQ/w640-h236/image3.gif(image plus large que 4096 Ko)<br /> Et ça ne m’étonnerai pas que l’on retrouve ça dans GCam pour le zoom…
ar-s
Tous ces embellissement via algo et IA font des rendus impressionnants, ils n’en demeure pas moins que c’est du c’est du travestissement. L’agrandissement n’est pas l’originale.<br /> J’ai testé ‹&nbsp;heritage&nbsp;› qui fait des embellissements de fou de vieilles photos (embellissement, coloration etc) et même si, encore une fois, les résultats sont impressionnants. Ils ne sont pas forcément fidèle à la réalité. En cela ces technologies me gênent.
tfpsly
J’ai superposé les images générées avec l’original, on voit bien que l’algo «&nbsp;imagine&nbsp;» fortement les détails - les rides, la paupière zoomée, les tâches du léopard etc. n’ont pas grand chose à voir avec le réel mais donne un résultat visuellement satisfaisant :<br /> (cliquer pour grossir l’image)
sylvio50
Ce n’est pas la 1ère fois que Google arrive à Upscaler une image de basse définition (genre 16 x 16 px) en une autre de haute définition (genre 1024 x 1024 px).<br /> J’avais déjà vu des news sur le sujet il y a plus de 5 ans déjà, c’est pour ça que quand je vois des documentaire / reportage oèu les journalistes «&nbsp;masquent&nbsp;» les visages avec des gros pixels, je me dis toujours qu’ils ne savant pas ce qu’ils font.<br /> Je pense que ce qui est nouveau ici, c’est que l’upscaling a lieu sur des images «&nbsp;flouté&nbsp;» avec un flou «&nbsp;Gaussien&nbsp;» plutôt que «&nbsp;pixélisé&nbsp;». Les autres upscaling concernaient des images en très basse définitions uniquement (c’est à dire des «&nbsp;images avec des gros pixels&nbsp;», bien que par définition, un pixel logique n’est pas de taille mais on se comprend).
obbiclubic
La taille des fichiers photos va pouvoir être plus petite alors … et si on veut un petit agrandissement on utilise cette techno
Voigt-Kampf
Et du coup les autres méthodes IA ne sont pas capable d’éliminer le bruit ? Du coup effectivement là ça serait intéressant (et si ça peut éliminer les macroblocks des compressions trop accentuées style jpeg).
MisterDams
C’est complémentaire. On ne compte pas que sur ça pour améliorer la qualité des images (la preuve avec les capteurs 200Mpx qui sortent), mais ça peut aider à combler quelques lacunes.<br /> Quand on voit aujourd’hui la gueule des premières photos prises avec des appareils photos numériques de même pas 2Mpx, le rendu est franchement pas fou, et la matière «&nbsp;manquante&nbsp;» ne peut qu’être reimaginée puisqu’elle n’a pas été stockée au départ.<br /> Le but est d’être suffisamment efficace pour être crédible effectivement. Mais au contraire, le côté imaginaire moi ça me rassurerait presque, qu’un algo puisse pas choper une photo de moi en arrière plan d’une vieille photo et l’upscaler jusqu’à pouvoir valider une reconnaissance faciale en se faisant passer pour moi.
Adrift
C’est interessant pour le stockage egalement; on pourrait stoker des images en 64x64 et les upscaller a la demande…
Zimt
Je ne vous parle même pas des exploits mathématiques qui sont derrière tout ça ( reconstruction de données à partir de presque rien, etc).
cid1
Les fameux policiers ou détective du FBI, du NCIS et toute ces séries ou on voit le détective demander au Lab assistent de «&nbsp;enhance the picture&nbsp;» vont enfin devenir vraies.
Voir tous les messages sur le forum
Haut de page

Sur le même sujet