Zoomer sur une image floue ou pixelisée et y voir net ? Mission pas impossible selon Google

Publié le 01 septembre 2021 à 18h00

Un programme capable d’upscaler en cascade une image et de la faire passer d’une définition de 64 x 64 pixels à 1 024 x 1 024.

Dans un article titré High Fidelity Image Generation Using Diffusion Models, Jonathan Ho, ingénieur logiciel et membre de la Brain Team de Google, détaille une technologie d'upscaling en cascade mise au point par l’entreprise. Elle est en mesure d’effectuer des mises à l’échelle x16 d’images en basse définition : elle peut ainsi transformer une image de 64 x 64 pixels en une de 1 024 x 1 024 pixels. Rien d’inédit là-dedans pour l'instant ; si ce n’est le résultat qui, vous le constatez sur les images, se montre nettement supérieur à la plupart des méthodes actuelles.

SR3, ou Super-Resolution via Repeated Refinement

Ce nouveau programme de super-résolution d'image a été nommé « SR3 » par la Brain Team pour « Super-Resolution via Repeated Refinement ».

En résumé, SR3 opère la super-résolution par « un processus de débruitage stochastique exécuté de manière itérative par un modèle U-Net ». Mais soyez rassurés, les choses peuvent s’expliquer plus simplement.

La méthode SR3 consiste en fait à appliquer, dans un premier temps, un bruit gaussien à une image avec une faible définition. Cette phase permet au programme de « cartographier » son sujet. Ensuite, il fait le chemin inverse : il applique des technologies de réduction du bruit numérique pour reconstruire une image sans bruit dans une définition supérieure à celle du départ.

Jonathan Ho explique le principe ainsi : « SR3 […] prend en entrée une image à basse résolution, et construit une image à haute résolution correspondante à partir de bruit pur. Le modèle est entraîné sur un processus de corruption d'image dans lequel du bruit est progressivement ajouté à une image haute résolution jusqu'à ce qu'il ne reste que du bruit. Il apprend ensuite à inverser ce processus, en partant du bruit pur et en supprimant progressivement le bruit ».

Un taux de confusion proche de 50 % pour les visages

Selon Google, cette technologie offre « d'excellents résultats dans la tâche de super-résolution pour les images naturelles » dans des mises à l'échelle en x4 et x8. L’entreprise rapporte un taux de confusion proche de 50 % pour les photos de visages passées d’une résolution en 16 x 16 à 128 x 128 et de 40 % pour les images de nature (de 64 x 64 à 256 x 256) plus difficiles à améliorer ; des taux qui restent dans les deux cas bien supérieurs à ceux obtenus avec les méthodes PULSE et FSRGAN par exemple.

Les résultats sont déjà impressionnants, mais Google n'emploie pas uniquement SR3 pour embellir de vieux clichés. En effet, la société met aussi à profit cette technologie pour générer des images dans des définitions de plus en plus élevées via son Cascaded Diffusion Models (CDM), « un modèle de diffusion conditionnel par classe entraîné sur les données d'ImageNet pour générer des images naturelles à haute résolution ».

Source : Google

Par Rémi Bouvet

Référencement logiciel

Google

Intelligence artificielle

Actualités High-Tech

Comparer

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (10)

nicgrover

Ce sont les myopes qui vont être contents…

pagnelli

Impressionnant comment est-ce qu’il recréer de la matière et de la texture par exemple sur la photo du burger en 32 par 32 il n’y a pas autant de détails que ce que l’on peut retrouver sur la grande photo

Wen84

Cela peut surement créer une image détaillée (En tout cas à priori), mais on ne peut pas faire revenir une information qui a été perdue. Donc ce serait bien de faire un comparatif avec la vraie image en bonne définition

SPH

Ca m’a donné envie d’aller au MacDo (en vrai !!)

Blap

C’est possible aussi, tout depend de l’image originale et ce qu’il ya a recuperer

tfpsly

L’algorithme « imagine » une image plus détaillée, qui floutée donnerait l’image basse résolution donnée en entrée. Ce n’est pas exactement l’image de départ avant réduction de résolution (ce serait impossible à cause de la perte d’information). Le résultat ne fait que ressembler à une image originale potentielle.

Bibifokencalecon

Wen84 a cependant raison sur 2 points :

il serait intéressant de pouvoir comparer les 2 photos (celle d’origine et celle recréée)
et il est vrai aussi qu’on ne peut pas recréer une information perdue.

Ici les 2 technologies (SR3 et CDM) permettent de simuler un rendu en plus haute définition avec une approche de raffinement itérative couplée à de l’intelligence artificielle. C’est impressionnant et bien sûr Google ne prétend pas « recréer » la photo d’origine. Même si le résultat pourrait être 100% identique (à l’oeil nu).

Voigt-Kampf

La première image il y a la photo de référence, il faut penser à bien regarder.
Cela dit rien de nouveau. Il y a des gars qui font des remasters de jeux anciens en utilisant IA pour la reconstruction d’images en haute résolution parfois le résultat est spectaculaire : Final Fantasy 9 Remastered – Original vs. Moguri AI Graphics Mod Comparison - YouTube

On n’oubliera pas le film des Frères Lumières « La Ciotat » remasterisé en haute résolution grâce à l’IA etc.
En fait il faudrait plutôt comparé cet algorithme avec ceux déjà existant.

MisterDams

C’est un peu ce que fait la première image aussi en comparant aux méthodes Regression et Bi-cubique. Mais effectivement il manque les autres qui sont mentionnés.

Par contre j’ai pas compris le taux de confusion, c’est le pourcentage d’humains qui se laissent bernés par l’upscaling en ne distinguant pas la différence avec l’originale ?

Bibifokencalecon

" We compare SR3 with existing methods using human evaluation study. We conduct a Two-Alternative Forced Choice Experiment where subjects are asked to choose between the reference high resolution image, and the model output when asked the question, “Which image would you guess is from a camera? ” We measure the performance of the model through confusion rates (% of time raters choose the model outputs over reference images, where a perfect algorithm would achieve a 50% confusion rate)."

(source : l’article Google originel)

Donc oui, le ratio d’humain qui ne sont pas capables de choisir entre les 2 photos. Mais le but est de voir si l’algorithme de Google fait mieux que ces 2 concurrents principaux (PULSE and FSRGAN). Et la réponse est aussi oui.