Une IA arrive à animer des personnages sur des photos ou des peintures

Publié le 27 mai 2019 à 09h25

Une Intelligence Artificielle (IA) a réussi à animer le visage de personnages tirés de photos ou de peintures.

L'algorithme peut « donner vie » à n'importe quel type de portrait, transformant ainsi des images de visages uniques et fixes en têtes animées.

Un peu comme la Grosse Dame

Dans une démonstration des capacités (assez incroyables) du logiciel, on aperçoit Mona Lisa, célèbre pour son expression ambiguë, animée comme l'un des tableaux de la saga Harry Potter. Elle tourne la tête, fait mine de parler et cligne des yeux. Malgré ces résultats impressionnants voir fascinants, l'équipe de recherche a pour l'instant refusé de commenter ses travaux.

La technologie, mise au point par un groupe de chercheurs du Samsung AI Center et de l'Institut des sciences et technologies de Skolkovo à Moscou, repose sur des réseaux de neurones à convolution. L'objectif est d'obtenir d'une image source qu'elle imite (avec le plus de réalisme possible) les mouvements du faciès d'une personne. Ce qui est intéressant dans ce document hébergé par arXiv, c'est que le système n'exige pas une tonne d'images sources et semble fonctionner après avoir vu une image, une seule fois (d'où le fait que cela fonctionne parfaitement bien avec un tableau comme la Joconde).

Cartographier le mouvement du visage

Comment cette technologie fonctionne-t-elle ? Premièrement, un réseau d'incorporation cartographie des informations telles que la taille des yeux, du nez et de la bouche de l'image source, puis les convertit en vecteurs. Deuxièmement, un réseau de générateurs copie l'expression d'une personne dans une vidéo, en traçant les repères de son visage. Troisièmement, un « réseau » colle les vecteurs incorporés de l'image source sur les points de repère de la vidéo cible... de sorte que l'image source imite le mouvement de la vidéo.

À la fin du process, un « score de réalisme » est calculé. Le score est utilisé pour vérifier dans quelle mesure l'image source correspond aux poses de la vidéo cible. Avant que le système soit suffisamment bon pour travailler sur des exemples avec très peu d'échantillons d'entrée (comme la Joconde), ce dernier a nécessité une formation préalable très approfondie.

Source : The Register

Par Aymeric Geoffre-Rouland

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !