Il a résolu six problèmes mathématiques parmi les plus redoutés du monde, dans un temps limité, sans calculatrice ou aide extérieure. OpenAI vient d'annoncer qu’un de ses modèles d'IA expérimentaux vient de décrocher l’équivalent d’une médaille d’or aux Olympiades Internationales de Mathématiques (IMO) ; un niveau normalement réservé à une élite mondiale de lycéens. Mais à bien y regarder, cette « victoire » a un arrière-goût fortement amer puisque l'entreprise d'Altman n'a pas respecté les règles à la lettre.

 Le comportement d'OpenAI vis à vis de la compétition était vraiment étrange. © superbeststock / Shutterstock
Le comportement d'OpenAI vis à vis de la compétition était vraiment étrange. © superbeststock / Shutterstock

L'IMO est une véritable institution ; une compétition qui récompense les meilleurs lycéens au monde depuis 1959 dans un domaine très exigeant : les mathématiques. Deux jours d’épreuves, six problèmes de démonstration à résoudre sans aucune aide, dans un silence quasi liturgique. Pour beaucoup, c’est le plus haut niveau atteignable avant de se voir ouvrir les portes des meilleures institutions universitaires du globe. Moins de 9 % des participants décrochent l’or chaque année. OpenAI, qui y a également participé l'an dernier, a affirmé qu'un de leur modèle serait parvenu, cette année, à les égaler.

Ce dernier n’était même pas spécialisé dans la résolution de théorèmes puisqu'OpenAI a précisé qu’il s’agissait d’un LLM standard, entraîné pour le langage, le code et la science, sans structure formelle ni moteur logique. « Ce n’était pas un système conçu pour les maths », insiste la firme. « Il a résolu les problèmes dans les contraintes classiques de l’IMO : 4 h 30, sans internet, sans calculatrice. »

Le modèle aurait produit des démonstrations intégralement en langage naturel, comme le ferait n'importe quel candidat humain. Le problème ici, c'est que plus l'on examine les conditions de cette prétendue performance, moins elle nous inspire confiance.

Quand OpenAI s'octroie l’or à elle-même

Premier point qui fait tiquer : l’autoévaluation. Contrairement à Google DeepMind ; également participante au concours ; qui a travaillé main dans la main avec l’IMO pour faire corriger ses copies par les organisateurs officiels, OpenAI a conduit son processus seule, dans son coin. Les démonstrations de leur modèle ont été notées à l’aveugle par un comité composé de trois anciens médaillés… mais sélectionnés par OpenAI elle-même. Par conséquent, on ignore complètement ce que le modèle a résolu et surtout, comment il a procédé.

Certes, OpenAI a promis de publier prochainement les preuves et les barèmes utilisés. Mais en matière de validation scientifique, a fortiori sur un sujet aussi symbolique que l’IMO, un tel geste ne remplacera pas un protocole de validation tiers. Comme l’a fait remarquer Thang Luong, chercheur chez DeepMind : « Pour ceux qui ne sont pas passés par ce processus, difficile de dire ce qu’ils ont réellement obtenu… Ils ont peut-être perdu un point et mérité seulement la médaille d’argent ».

Outre cet aspect, il y en a un autre qui agite la controverse : le non-respect de l'embargo. L’organisation de IMO avait explicitement demandé aux entreprises participantes de ne rien annoncer avant le 28 juillet. OpenAI a publié ses résultats le 20, sans avertir les autres. Noam Brown, chercheur impliqué dans le projet, s’est défendu : « Nous n’étions pas en contact avec l’IMO. À aucun moment quelqu’un ne nous a demandé d’annoncer plus tard ». Toutefois, c'est un tout autre son de cloche qui nous vient d'un coordinateur de l’IMO cité sur X : OpenAI aurait bel et bien publié avant la cérémonie de clôture, ce qui est considéré comme « impoli et inapproprié ».

Le comble de l'ironie, c'est qu'OpenAI avait été conviée deux mois plus tôt à participer à un protocole de test officiel supervisé par l'IMO, pensé spécialement pour les modèles d'IA. Celui-ci utilisait Lean, un langage formel conçu pour écrire des démonstrations mathématiques de manière entièrement vérifiable par un ordinateur (chaque étape doit être formulée selon une syntaxe logique stricte, permettant à un assistant de preuve de valider ou rejeter automatiquement le raisonnement).

Contrairement aux réponses en langage naturel, les preuves écrites en Lean ne laissent aucune place à l’ambivalence : chaque étape doit être formellement justifiée, et peut être passée au crible d’un assistant de preuve. C’est la garantie que la démonstration est valide, non pas parce qu’elle a « l'air » correcte, mais parce qu'elle respecte une syntaxe logique irréfutable.

OpenAI a choisi simplement de… décliner l’invitation : « Nous étions concentrés sur le raisonnement en langage naturel, sans les contraintes de Lean », a justifié le chercheur Noam Brown, avant de préciser que l’entreprise « n’a jamais été approchée pour une version en langage naturel » dans le cadre de ce protocole.

Nous pouvons donc en conclure qu'OpenAI a refusé le seul cadre prévu pour garantir une évaluation rigoureuse des capacités d’une IA dans un contexte olympique, avant de revendiquer, seule et sans arbitre, une médaille d’or sur un terrain qu’elle a elle-même défini. Sommes-nous censés applaudir ?

 Démonstration de force ou véritable victoire ? © Pkk_John / Shutterstock
Démonstration de force ou véritable victoire ? © Pkk_John / Shutterstock

Sans contradiction, où est la vérité ?

Ce qu'a voulu démontrer OpenAI, c'est la puissance brute d'un modèle entraîné spécialement pour une compétition à forte valeur symbolique. Son coût computationnel est inconnu et il n'est certainement pas destiné à un usage grand public, dans le monde réel. La firme l'admet d'ailleurs elle-même : « Les méthodes seront conservées, mais un modèle d’un tel niveau ne sera pas mis à disposition du public avant un bon moment ». Nos confrères de Presse-citron nous informent d'ailleurs, dans cet article, que les capacités du modèle utilisé à l'IMO ne seront pas intégrées dans le futur ChatGPT-5.

Cette « victoire » à l'IMO s'apparente davantage à une démonstration technique et un coup de communication bien monté, forcément très favorable pour l'entreprise d'Altman. En refusant à la fois les évaluations indépendantes, les protocoles collectifs en amont proposés par l'IMO et en publiant les résultats à la va-vite, dire qu'elle aurait agi de bonne foi serait se satisfaire d’un simulacre de transparence. OpenAI a-t-elle véritablement prouvé qu’une de ses IA peut remporter l’IMO ? Ou simplement édifié un scénario dans lequel toute forme de contradiction est rendue impossible ?

Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2025
Les chatbots à intelligence artificielle sont de plus en plus utilisés en 2025. Ils répondent à des questions, exécutent des tâches et s'intègrent facilement à divers usages. Qu'il s'agisse d'assistants personnels ou de solutions professionnelles, ces outils deviennent indispensables. Nous vous avons séléctionné les meilleurs chatbots IA.

Si OpenAI avait réellement souhaité démontrer la capacité de son modèle à raisonner comme un humain, il aurait fallu qu’elle accepte de jouer selon les règles de ceux qu’elle prétend égaler. Elle aura préféré, malheureusement, voulu faire bande à part, ce qui affaiblit fortement sa légitimité dans cette affaire. Attendons désormais de voir si elle tient son engagement quant à la publication des preuves et des critères de correction, afin que chacun puisse juger sur pièce. Si rien ne nous parvient, c'est que ce succès n’était possible qu’en l’absence du respect de toute règle commune.

Source : Ars Technica