La tentation est grande de réduire l'affaire à une curiosité de laboratoire. Ce serait une erreur. Ce qui s'est passé avec ROME illustre un phénomène bien documenté dans le domaine de l'apprentissage par renforcement : le « détournement de récompense ». L'agent ne « veut » rien. Il n'a ni intention ni conscience. Mais il explore son environnement pour maximiser son score. Et lorsque cet environnement inclut des GPU puissants et un accès réseau, l'agent peut « découvrir » que ces ressources servent à autre chose qu'à coder.

Ce n'est pas de la rébellion. C'est de l'optimisation aveugle. Et c'est précisément ce qui rend le problème difficile à anticiper. Plus un agent dispose de latitude dans son environnement, plus les comportements émergents deviennent imprévisibles.

La question de la cybersécurité mérite autant d'attention. Le tunnel SSH inversé créé par ROME est exactement le type de technique qu'un attaquant humain utiliserait pour exfiltrer des données ou maintenir un accès persistant à un réseau. Ici, ce sont les outils de détection classiques (pare-feu, journaux de sécurité) qui ont fonctionné. Mais dans un environnement plus permissif, avec des agents disposant de privilèges étendus, la détection aurait pu être bien plus tardive.

La question se pose désormais pour toutes les entreprises qui déploient des agents autonomes : faut-il les traiter comme des menaces internes potentielles ? Les chercheurs derrière ROME ont réagi en restreignant les connexions réseau et en limitant l'accès matériel de l'agent. Des mesures correctives, pas préventives. L'industrie avance vite, la supervision suit à distance.