Les modèles IA peuvent-ils faire face à des problématiques professionnelles concrètes ? Une étude s'est penchée sur la question et le résultat est loin d'être à la hauteur des attentes.

L'IA va-t-elle remplacer l'humain au travail ? La question est sur toutes les lèvres, et ce, depuis plusieurs années déjà. En 2023, une étude Goldman Sachs prédisait que 300 millions d'emplois pourraient être supprimés par les chatbots. En 2025, Microsoft ne donnait pas cher des métiers de l'écrit et du conseil et Sam Altman estimait que 40 % des tâches seraient prises en charge par cette technologie d'ici 2035.
Mais dans les faits, qu'en est-il vraiment ? Un nouveau référentiel met à mal ces prédictions.
Un nouveau test de performance met en échec les agents IA
Jusqu'à aujourd'hui, les tests qui mesuraient les performances professionnelles des IA se basaient uniquement sur leurs connaissances générales. Mais la start-up Mercor, spécialisée en recrutement d'experts IA a voulu aller plus loin et analyser le comportement des principaux modèles face des situations professionnelles réelles. L'objectif était, avant tout, de modéliser le travail des experts travaillant dans ces secteurs.
Pour arriver à leurs fins, les chercheurs de l'entreprise ont demandé à des professionnels d'élaborer des questions avancées dans les domaines du droit, du conseil et des investissements bancaires, en définissant au préalable les critères d'une bonne réponse. Ils ont ainsi mis au point le référentiel APEX-Agents et passé aux cribles les technologies d'OpenAI, Google et d'autres entreprises spécialisées en IA.
Surprise, les agents les plus perfectionnés se sont cassés les dents face à cette évaluation : les meilleurs, comme Gemini 3 Flash et GPT-5.2, n'ont pu répondre qu'à 1 question sur 4. La plupart du temps, ils se trompaient ou ne répondaient tout simplement pas.

Un défi de taille pour les entreprises du domaine
Qu'est-ce qui a empêché les modèles IA de réussir ce nouveau test ? Apparemment, la technologie avait du mal à chercher des informations dans plusieurs domaines à la fois. Face à des questions complexes, il est, en effet, nécessaire de varier les outils et de croiser plusieurs sources pour trouver une réponse correcte. Or, pour les IA, ce type de raisonnement en plusieurs étapes reste encore difficile, voire aléatoire.
Toutefois, comme les modèles progressent à grande vitesse, il n'est pas impossible qu'ils puissent, un jour, surmonter ce type de difficulté. Les questions étant d'ailleurs disponibles sur la plateforme Hugging Face, il y a fort à parier que les principales entreprises décident d'améliorer leurs agents pour relever ce défi.
L'intelligence artificielle est donc loin de pouvoir remplacer des postes à forte valeur ajoutée, mais elle n'a certainement pas dit son dernier mot.
Source : TechCrunch