NVIDIA vient de dévoiler NitroGen, une IA capable de jouer automatiquement à plus de 1 000 jeux vidéo. Elle regarde des vidéos de gameplay et reproduit les actions à la manette. Mieux encore, le modèle est open source, poids et données inclus, avec en prime un simulateur universel pour tester le système sur de nouveaux titres.

NVIDIA vient de présenter NitroGen, une IA qui a collecté des vidéos de gameplay et appris à jouer toute seule. Le petit truc en plus, c'est que cette IA peut jouer à plus de 1 000 jeux différents.
Le système a été nourri avec 40 000 heures de vidéos publiques. Pas n'importe lesquelles, des vidéos avec les fameuses « superpositions de manette », ces petites icônes qui montrent en temps réel ce que fait le joueur avec son stick et ses boutons. En analysant ces images, l'IA apprend à reproduire exactement les mêmes gestes.
Dans le détail, 846 jeux disposent de plus d'une heure de vidéo dans la base de données, 91 dépassent les 100 heures et 15 atteignent même le cap des 1 000 heures. Avec ça, NitroGen peut enchaîner des combats en 3D, contrôler des plateformes 2D ou explorer des mondes générés aléatoirement. Les tests montrent que le modèle augmente le taux de réussite des tâches jusqu'à 52 % comparé à un apprentissage from scratch, soit partir de rien.
Une IA qui observe et agit comme un joueur humain
La technique est assez impressionnante. NitroGen commence par repérer où se trouve la manette dans chaque vidéo en comparant les images avec des modèles connus. Ensuite, un réseau hybride identifie précisément la position des joysticks et l'état de chaque bouton. La corrélation atteint 0,84 pour les sticks et 0,96 pour les boutons. Autrement dit, l'IA reproduit fidèlement ce que font les joueurs humains.
Elle peut donc gérer des tâches répétitives ou carrément complexes sans broncher. Missions secondaires, collecte de ressources, quêtes interminables, NitroGen s'adapte au contexte du jeu et ajuste ses mouvements en fonction de la situation. Que vous jouiez sur Xbox ou PlayStation, peu importe, l'IA gère différents types de manettes sans problème, malgré la diversité des formats et les artefacts visuels qui traînent parfois dans les vidéos.
Pour les développeurs, ça ouvre des portes intéressantes. Ils peuvent tester automatiquement des niveaux, automatiser le farming fastidieux ou observer des stratégies optimisées dans différents scénarios. Plutôt pratique quand on développe un jeu avec des dizaines d'heures de contenu à valider. L'IA accomplit des missions secondaires, collecte des ressources et complète des quêtes sans intervention humaine, tout en ajustant ses mouvements selon le contexte et en s'adaptant à des environnements très variés.

Pré-entraînement massif pour s'adapter à n'importe quel jeu
Le secret de NitroGen tient dans son apprentissage massif. Le modèle de 500 millions de paramètres a ingurgité 40 000 heures de vidéos couvrant des dizaines de genres et de styles visuels. Cette base énorme lui permet de s'adapter à des jeux qu'il n'a jamais vus grâce au clonage comportemental.
Les chiffres parlent d'eux-mêmes. Un modèle pré-entraîné explose les performances d'un modèle qui part de zéro. Selon la complexité de la tâche et la quantité de données disponibles, l'affinage sur de nouveaux jeux fait grimper le taux de réussite de 10 à 52 %. C'est colossal.
NVIDIA a aussi développé un simulateur universel qui permet à NitroGen de contrôler pratiquement n'importe quel jeu commercial via une interface standardisée. L'IA s'adapte rapidement à de nouveaux titres sans avoir besoin de paramétrages compliqués. Et cerise sur le gâteau, tout est open source. Les poids du modèle et l'ensemble des données sont accessibles librement, ce qui permet aux chercheurs et aux studios d'expérimenter avec des agents multi-jeux.
Dans les tests, NitroGen a prouvé qu'elle pouvait gérer des situations très variées. Automatiser le farming dans des MMORPG, boucler des missions secondaires dans des jeux d'aventure, explorer des environnements générés procéduralement, l'IA reste cohérente avec le comportement humain observé dans les vidéos d'entraînement. Même sur des jeux totalement inconnus, elle atteint des performances proches de ce qu'elle fait sur des titres qu'elle connaît déjà.
Les 40 000 heures de vidéos couvrent un éventail immense de mécaniques et de genres. Cette diversité donne au modèle une base solide pour généraliser. Grâce au simulateur universel et aux données open source, n'importe qui peut étendre les tests à de nouveaux jeux sans développer de modèles spécifiques. Le tout réduit drastiquement le temps et le coût de création d'agents capables de jouer à plusieurs titres. Parce que sérieusement, qui a vraiment envie de farmer pendant des heures ?
Source : NVIDIA