Facebook exploite les photos d'Instagram pour une nouvelle IA de vision artificielle

Par Guillaume Belfiore, Rédacteur en chef adjoint.

Publié le 09 mars 2021 à 13h45

Un milliard d'images disponibles publiquement sur Instagram ont été exploitées par Facebook afin d'entraîner un algorithme de vision artificielle capable d'apprendre de lui-même.

Avec le modèle SEER (SElf-supERvised), l'algorithme est capable de s'optimiser de lui-même sans avoir systématiquement à estampiller une image avec un mot-clé précis. De fait, la présence humaine est moins requise.

Quand l'algorithme développe un « bon sens »

Traditionnellement, les algorithmes de vision artificielle sont entraînés à partir de bases de données au sein desquelles une images présente plusieurs libellés saisis par des être humains. Il peut s'agir d'un ensemble de photos prédéfinies ou d'une base évolutive faisant appel aux internautes.

C'est ainsi, par exemple, qu'au travers de son fameux captcha, Google demande à l'utilisateur d'identifier certains objets. Ces données sont ensuite traitées pour entraîner toujours plus l'algorithme.

Pour les photos d'Instagram, aucun label n'a été ajouté et l'algorithme ne s'appuie pas non plus sur les tags ajoutés par les utilisateurs du réseau. Pour Facebook, nous arrivons alors à un stade où l'intelligence artificielle développe une sorte de « bon sens ».

Cette notion de bon sens aurait déjà été atteinte au sein de la traduction automatique en analysant un schéma sémantique et en retournant la bonne traduction pour un homonyme par exemple. En revanche, le dispositif serait plus complexe pour une image puisqu'il faut alors déterminer chacun des composants de cette dernière.

Sur son blog, Facebook explique : « Avec les images, l'algorithme doit décider quel pixel appartient à quel concept. Par ailleurs, un même concept peut varier d'une image à l'autre, par exemple un chat avec des poses différentes ou avec différents angles de vue. »

Facebook a testé SEER avec la base de données d'ImageNet contenant quelque 14 197 122 clichés. La société explique avoir dépassé la plupart des dispositifs de vision artificielle avec un taux de réussite de 84,2 %. En s'entraînant avec seulement 10 % de la base d'ImageNet, ce score passe à 77,9 %, et avec 1 % de cette base, SEER atteint 60,5 % de réussite.

Vers des données moins biaisées par les humains

Facebook annonce que ces travaux seront publiés en open source pour accélérer les projet sur le machine learning. La société ajoute que ce type d'IA pourrait également éviter d'altérer les algorithmes avec une curation humaine, et donc potentiellement biaisée avec des éléments pouvant parfois être jugés sexistes ou racistes.

Interrogé par la BBC, la professeure Sandra Wachter, de l'institut Internet d'Oxford, explique que ces recherches sont très importantes avant d'ajouter toutefois : « Il est peut-être possible de retirer la subjectivité humaine mais des données neutres et non biaisées n'existent pas, il faudra toujours faire avec. » Elle ajoute : « Il sera important de comprendre la raison pour laquelle un algorithme décide de créer un ensemble particulier. »

Source : BBC, Facebook

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (2)

MisterDams

La donnée sera effectivement toujours biaisée.

Au sein d’un pays déjà, avec des gens qui s’exposent moins que d’autres, dont certains parce qu’ils se considèrent « moins dans les standards » (oui, on a aussi nos biais). On peut donc imaginer que la duckface soit un visage normal pour l’IA car fréquemment constaté.

Biaisée à l’échelle internationale, car la présence en ligne des images de nos visages n’est pas équitable partout, on imagine donc qu’un résident d’un pays pauvre a autant de pertinence qu’un autre, mais qu’il sera moins exposé à l’analyse de l’IA en raison de sa connexion internet qui lui impose de publier moins de photos, voire une qualité inférieure en raison de son matériel qui du coup masque certains détails.

Demongornot

Cleaview AI 2.0