Théière ou balle de golf ? Le deep learning a encore du chemin à faire

Publié le 12 janvier 2019 à 15h30

Des chercheurs ont mené cinq expériences visant à tester la façon dont l'intelligence artificielle fonctionne pour reconnaître des objets. Leurs résultats ont montré qu'il était très facile de tromper les algorithmes de deep learning, mais aussi que ces derniers commettaient des erreurs très différentes de celles réalisées par les humains.

L'étude a été menée par une équipe de chercheurs en psychologie cognitive à l'Université de Californie, à Los Angeles (UCLA). L'objectif initial était de mieux comprendre le fonctionnement de réseaux de deep learning performants, comme VGG-19 ou AlexNet, mais il s'est aussi avéré que leurs compétences demeuraient limitées.

Des erreurs grossières d'identification

En premier lieu, les scientifiques ont soumis des images modifiées à l'intelligence artificielle, par exemple une théière avec la texture d'une balle de golf (voir l'illustration ci-dessus) ou un chameau doté de zébrures. Et la machine a largement fait fausse route. Selon elle, il n'y avait ainsi que 0,41 % de chances que l'image d'illustration soit une théière. Son premier choix était une balle de golf. D'après les auteurs de l'étude, le problème n'est pas tant que l'IA se trompe dans son identification, mais plutôt que le choix correct ne figure pas parmi les réponses considérées comme probables.

La deuxième expérience a également mis en avant les failles du deep learning, grâce à des images de figurine en verre. Une nouvelle fois, les choix réalisés par la machine ont été majoritairement erronés, et parfois surprenants. Un ours polaire a ainsi été confondu avec... un ouvre-boîte.

De même, les résultats se sont révélés négatifs lors du troisième test, composé de dessins sur fond blanc, avec un contour noir. Les réseaux ont alors été incapables d'identifier des formes facilement reconnaissables par un humain, comme un papillon, un avion ou une banane.

L'IA relève la tête

En revanche, les algorithmes de deep learning se sont montrés un peu plus performants lors de la quatrième expérience. Il s'agissait cette fois de reconnaître des images entièrement noires.

Enfin, pour le dernier test, les chercheurs ont brouillé les images présentées à l'IA, tout en conservant certains morceaux. Et dans ce contexte, le réseau VGG-19 a été capable d'identifier correctement les objets, alors même que des humains confrontés aux mêmes images ont éprouvé de grandes difficultés face à l'exercice.

L'intelligence artificielle ne reproduit pas l'intelligence humaine

La première conclusion des chercheurs est que les réseaux de deep learning ont encore besoin d'améliorations avant d'aboutir à un taux de succès satisfaisant.

Mais ils ont également mis en avant le fonctionnement très différent de la machine par rapport à l'humain. Là où ce dernier se concentre en priorité sur la forme globale, l'IA semble, au contraire, attacher plus d'importance à la texture ou aux détails. C'est ainsi qu'une technologie sophistiquée en vient à confondre un animal sauvage avec un ustensile de cuisine.

Source : ScienceDaily

Par Bastien Contreras

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (7)

Ph_L

J’imagine que l’on spécialise certaines IA dans la “compréhension en 3D” de l’espace qui les entoure: sur la perception en 3 dimensions de la scène qui les entoure. Ainsi déjà elles ne confondraient pas - éventuellement - un paysage avec une image de paysage !! Les IA travailleraient par 2 . S’agissant de la circulation routière, la priorité de la 2° IA serait de situer les objets dans l’espace (et de se situer dans l’espace) pour repérer par exemple une grille en travers de la route !

dFxed

@Ph.L.
Concernant la route, pas besoin de 2e IA pour reconnaître l’environnement 3D. C’est le rôle du LIDAR.

Et je pense que c’est le fonctionnement différent de l’IA qui permettra d’avoir des résultats différents. Bien qu’aujourd’hui elle se trompe, j’espère que demain c’est elle qui nous indiquera nos erreurs (par exemple sur des illusions optiques)

BetaGamma

Tremblez… car ces algorithmes sont déjà dans les salles de marché et dans certains systèmes d’armement

dj41ph4

Pas grave, déguisement en balle de golf… ni vu ni connu

Nmut

On ne doit pas avoir plusieurs IA (sauf question de redondance mais c’est autre chose). Comme une esprit humain (et même encore plus puisque la capacité du système permet de traiter beaucoup plus de données, c’est ici la force de l’IA), un maximum de données doivent être utilisées pour avoir une bonne probabilité d’analyse correcte de la situation du véhicule.
Dans le cas traité par l’article, pour simplifier, on va juste parler de réseau de neurones sur de la reconnaissance d’images. Dans l’absolu, on doit entraîner notre IA avec des jeux de tests en lui indiquant: ceci est une théière et cela est une balle de golf. On ne “sait” pas à l’avance comment cette IA va caractériser l’une et l’autre. Si il y a des erreurs à la fin c’est soit le jeu de données initial incomplet ou biaisé, soit le traitement initial de l’image (principalement pour accélérer et faciliter le traitement: réduction de la résolution par exemple), soit le réseau de neurone mal calibré (pas assez de neurones, en général une dizaine suffit mais si on prévoit des cas foireux comme pour notre théière, il faut augmenter), soit le jeu de test insuffisant ou biaisé (cas le plus fréquent).
Bref, je trouve cette étude un peu légère dans son traitement et ses conclusions. Il n’y a pas d’analyse des raisons ou sources de la déviation.

Faisduvelo

Il faut aussi prendre en compte l’observation dynamique : sur une seule photo de théière avec une texture de balle de golfe, le trompe-l’oeil peut bien tromper aussi l’IA. Mais dans une configuration avec déplacement, l’évolution de l’angle et de la distance donnerait probablement un tout autre résultat. C’est quand même ça qui nous permet de faire la différence entre un paysage et une image de paysage ou entre deux personnes de taille différentes, mais à des distance différentes.

Precrime

MERCI à l’auteur de ne pas être tombé dans les dérives marketeux de l’IA à toutes les sauces et et de bien parler de deep learning
intelligence: (source wiki)
1.Faculté de connaître, de comprendre ; qualité de l’esprit qui comprend et s’adapte facilement.
2.L’ensemble des fonctions mentales ayant pour objet la connaissance rationnelle (opposé à sensation et à intuition).