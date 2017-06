Un apprentissage plus rapide

Une IA sujette au découragement

Un comportement non fondé sur la récompense, qui pourrait bien révolutionner l'intelligence artificielle.Elle a le style de jeu disons... bondissant, l'intelligence artificielle développée par Deepak Pathak de l'Université Berkeley en Californie. Dans la vidéo ci-dessous, on la voit contrôler Mario en sautant frénétiquement. Elle est d'ailleurs plutôt douée pour stopper les carapaces. Une IA jouant aux jeux vidéo, c'est du déjà vu, me direz-vous. Sauf que celle-ci estComme la grande majorité des joueurs humains qui prennent le paddle davantage par plaisir que pour la gagne, l'IA de Deepak Pathak n'est poussée que par l'envie d'explorer le niveau qui se déroule devant elle. L'IA a appris seule à jouer. Après des débuts laborieux s'achevant au premier champignon croisé, elle a développé des stratégies lui permettant d'aller de plus en plus loin.Pour la revue, Deepak Pathak explique : "". Une nuance cruciale : quand AlphaGo, l'IA de Google qui met à genou les meilleurs joueurs de go de la planète les uns après les autres, progresse en recevant des stimuli agréables en cas de succès, l'IA de Deepak Pathak, elle, avance sans but extérieur (la victoire ou le record).Une rupture qui induit un comportement totalement différent. Alors que les IA fonctionnant par renforcement positif (les stimuli) ne s'arrêtent qu'après la victoire, celle-ci n'obéit qu'à l'envie, celle de la découverte. Un fonctionnement finalement très... humain, qui lui a permis d'. N'étant pas en quête de performance, l'IA de Deepak Pathak est cependant sujette à des travers tout aussi humains, comme le découragement : lassée de tomber continuellement dans certains trous, l'IA a renoncé à boucler certains niveaux, s'arrêtant au tiers du parcours. Signe, au final, d'une intelligence, poussant la machine à contourner le problème plutôt que de s'y enferrer...