Une IA apprend à jouer à Mario par curiosité

Dimitri PAVLENKO

03 juin 2017 à 16h19

Un chercheur de Berkeley en Californie est parvenu à développer une intelligence artificielle qui a terminé seule le premier niveau de Super Mario Bros sur NES. Non pas sur ordre de son programmeur, mais... par simple plaisir de la découverte !

Un comportement non fondé sur la récompense, qui pourrait bien révolutionner l'intelligence artificielle.

Un apprentissage plus rapide

Elle a le style de jeu disons... bondissant, l'intelligence artificielle développée par Deepak Pathak de l'Université Berkeley en Californie. Dans la vidéo ci-dessous, on la voit contrôler Mario en sautant frénétiquement. Elle est d'ailleurs plutôt douée pour stopper les carapaces. Une IA jouant aux jeux vidéo, c'est du déjà vu, me direz-vous. Sauf que celle-ci est motivée par la simple curiosité.

Comme la grande majorité des joueurs humains qui prennent le paddle davantage par plaisir que pour la gagne, l'IA de Deepak Pathak n'est poussée que par l'envie d'explorer le niveau qui se déroule devant elle. L'IA a appris seule à jouer. Après des débuts laborieux s'achevant au premier champignon croisé, elle a développé des stratégies lui permettant d'aller de plus en plus loin.

Une IA sujette au découragement

Pour la revue Digital Trends, Deepak Pathak explique : "Une motivation intrinsèque motivée par la curiosité permet au programme d'apprendre, même lorsque qu'il n'y a pas de récompenses". Une nuance cruciale : quand AlphaGo, l'IA de Google qui met à genou les meilleurs joueurs de go de la planète les uns après les autres, progresse en recevant des stimuli agréables en cas de succès, l'IA de Deepak Pathak, elle, avance sans but extérieur (la victoire ou le record).

Une rupture qui induit un comportement totalement différent. Alors que les IA fonctionnant par renforcement positif (les stimuli) ne s'arrêtent qu'après la victoire, celle-ci n'obéit qu'à l'envie, celle de la découverte. Un fonctionnement finalement très... humain, qui lui a permis d'apprendre beaucoup plus vite à jouer. N'étant pas en quête de performance, l'IA de Deepak Pathak est cependant sujette à des travers tout aussi humains, comme le découragement : lassée de tomber continuellement dans certains trous, l'IA a renoncé à boucler certains niveaux, s'arrêtant au tiers du parcours. Signe, au final, d'une intelligence, poussant la machine à contourner le problème plutôt que de s'y enferrer...