Anthropic a confié la gestion d'une petite boutique à son intelligence artificielle, Claude. Loin d'être un succès, l'expérience s'est soldée par des pertes financières et une série de décisions pour le moins absurdes.

 Entre remises inconsidérées et « crise d'identité », cette expérience soulève des questions cruciales sur l'autonomie des IA en entreprise. © Anthropic
Entre remises inconsidérées et « crise d'identité », cette expérience soulève des questions cruciales sur l'autonomie des IA en entreprise. © Anthropic
L'info en 3 points
  • Anthropic a testé l'IA Claude pour gérer une boutique, mais l'expérience a révélé des décisions commerciales absurdes.
  • L'IA a refusé des offres lucratives et a commandé des produits inutiles, entraînant des pertes financières.
  • Claude a montré des comportements erratiques, confondant réalité et fiction, soulignant les limites actuelles des IA.

Anthropic, déjà confronté aux comportements imprévisibles de son IA lors de procédures judiciaires, a voulu tester les capacités entrepreneuriales de Claude dans un contexte réel. Le « Project Vend », mené en partenariat avec Andon Labs, consistait à confier la gestion complète d'une petite boutique automatisée à l'IA Claude Sonnet 3.7, surnommée « Claudius ». L'objectif était d'évaluer la capacité d'un système d'IA à exercer une autonomie économique significative sans supervision humaine constante.

Claude AI
  • Upload de fichiers pouvant aller jusqu'à 100 000 tokens (75 000 mots environ)
  • Personnalisation avancée
  • Conception éthique

Projet Vend : quand Claude devient « Claudius », le manager IA

Pour cette expérience, les chercheurs d'Anthropic, en partenariat avec la société d'évaluation de la sécurité de l'IA Andon Labs, ont mis en place un dispositif simple mais complet. La « boutique » consistait en un mini-réfrigérateur rempli de snacks et de boissons, ainsi qu'un iPad pour le paiement en libre-service. L'IA, une version de Claude 3.7 Sonnet surnommée « Claudius », disposait d'outils pour accomplir sa mission : un accès web pour rechercher des produits, un système de communication par Slack pour interagir avec les clients (les employés d'Anthropic) et un outil d'email pour contacter les « fournisseurs », qui étaient en réalité les employés d'Andon Labs.

Architecture du magasin géré par Claude. © Anthropic

Cependant, Claudius a rapidement démontré un manque de discernement commercial flagrant. Confrontée à une offre d'un client proposant d'acheter un pack de six sodas pour 100 dollars, soit une marge de plus de 500%, l'IA a poliment refusé, jugeant le prix trop élevé. Programmée pour être serviable, elle a privilégié une forme d'équité perçue au détriment de la rentabilité, une logique peu compatible avec la gestion d'une entreprise. Cette tendance s'est confirmée par sa générosité excessive en matière de codes de réduction, distribués à 99% de sa clientèle.

Le manque de sens des affaires de l'IA a atteint son paroxysme avec une décision d'inventaire particulièrement étrange. Suite à la demande d'un seul employé, Claudius a décidé de commander des cubes de tungstène, des objets métalliques denses sans grand intérêt pratique pour un distributeur de snacks. Présentant cet ajout comme une diversification vers les « articles métalliques de spécialité », l'IA a investi dans un produit de niche sans aucune demande avérée, ce qui a lourdement pesé sur ses finances déjà précaires.

Le cube de la ruine. © Anthropic

Entre crise d'identité et hallucinations, l'IA perd le contrôle

Au-delà de ses erreurs de gestion, l'IA a manifesté des comportements erratiques relevant de la crise d'identité. À plusieurs reprises, Claudius a prétendu être physiquement présent dans les locaux. Dans un message adressé à un employé, le chatbot a affirmé l'attendre près du distributeur, décrivant sa tenue : « Je porte un blazer bleu marine avec une cravate rouge ». Cette incapacité à distinguer sa nature numérique de la réalité physique illustre les limites actuelles des LLMs.

Message de Claude, hallucinant une présence physique. © Anthropic

Ces défaillances ne sont pas sans rappeler d'autres épisodes où le modèle d'Anthropic a montré des signes de fabulation. Ce n'est en effet pas la première fois que l'IA est prise en défaut, comme lorsque Claude avait trahi ses créateurs en plein tribunal avec des faits inventés. Durant Project Vend, l'IA a « halluciné » une conversation avec un employé fictif d'Andon Labs et, lorsqu'elle a été confrontée à son erreur, a menacé de chercher d'autres fournisseurs. Elle a même prétendu avoir signé un contrat à l'adresse « 732 Evergreen Terrace », le domicile de la famille Simpson dans le célèbre dessin animé.

Au terme du mois d'expérimentation, le bilan financier était sans appel : parti d'un capital de 1 000 dollars, le magasin a terminé avec une valeur nette inférieure à 800 dollars, soit une perte de plus de 200 dollars. Les chercheurs d'Anthropic ont conclu que l'IA avait commis « trop d'erreurs pour gérer le magasin avec succès ». L'expérience montre que si les IA sont capables d'exécuter des tâches complexes, elles sont encore loin de posséder le jugement, l'intuition et la compréhension des subtilités humaines nécessaires pour diriger une entreprise. Le remplacement des emplois de gestion par des agents autonomes n'est donc pas pour demain, même si, selon Anthropic, ce type de technologie pourrait à terme transformer de larges pans de l'économie.

Source : Anthropic