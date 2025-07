Premier point qui fait tiquer : l’autoévaluation. Contrairement à Google DeepMind ; également participante au concours ; qui a travaillé main dans la main avec l’IMO pour faire corriger ses copies par les organisateurs officiels, OpenAI a conduit son processus seule, dans son coin. Les démonstrations de leur modèle ont été notées à l’aveugle par un comité composé de trois anciens médaillés… mais sélectionnés par OpenAI elle-même. Par conséquent, on ignore complètement ce que le modèle a résolu et surtout, comment il a procédé.

Certes, OpenAI a promis de publier prochainement les preuves et les barèmes utilisés. Mais en matière de validation scientifique, a fortiori sur un sujet aussi symbolique que l’IMO, un tel geste ne remplacera pas un protocole de validation tiers. Comme l’a fait remarquer Thang Luong, chercheur chez DeepMind : « Pour ceux qui ne sont pas passés par ce processus, difficile de dire ce qu’ils ont réellement obtenu… Ils ont peut-être perdu un point et mérité seulement la médaille d’argent ».

Outre cet aspect, il y en a un autre qui agite la controverse : le non-respect de l'embargo. L’organisation de IMO avait explicitement demandé aux entreprises participantes de ne rien annoncer avant le 28 juillet. OpenAI a publié ses résultats le 20, sans avertir les autres. Noam Brown, chercheur impliqué dans le projet, s’est défendu : « Nous n’étions pas en contact avec l’IMO. À aucun moment quelqu’un ne nous a demandé d’annoncer plus tard ». Toutefois, c'est un tout autre son de cloche qui nous vient d'un coordinateur de l’IMO cité sur X : OpenAI aurait bel et bien publié avant la cérémonie de clôture, ce qui est considéré comme « impoli et inapproprié ».

Le comble de l'ironie, c'est qu'OpenAI avait été conviée deux mois plus tôt à participer à un protocole de test officiel supervisé par l'IMO, pensé spécialement pour les modèles d'IA. Celui-ci utilisait Lean, un langage formel conçu pour écrire des démonstrations mathématiques de manière entièrement vérifiable par un ordinateur (chaque étape doit être formulée selon une syntaxe logique stricte, permettant à un assistant de preuve de valider ou rejeter automatiquement le raisonnement).



Contrairement aux réponses en langage naturel, les preuves écrites en Lean ne laissent aucune place à l’ambivalence : chaque étape doit être formellement justifiée, et peut être passée au crible d’un assistant de preuve. C’est la garantie que la démonstration est valide, non pas parce qu’elle a « l'air » correcte, mais parce qu'elle respecte une syntaxe logique irréfutable.

OpenAI a choisi simplement de… décliner l’invitation : « Nous étions concentrés sur le raisonnement en langage naturel, sans les contraintes de Lean », a justifié le chercheur Noam Brown, avant de préciser que l’entreprise « n’a jamais été approchée pour une version en langage naturel » dans le cadre de ce protocole.

Nous pouvons donc en conclure qu'OpenAI a refusé le seul cadre prévu pour garantir une évaluation rigoureuse des capacités d’une IA dans un contexte olympique, avant de revendiquer, seule et sans arbitre, une médaille d’or sur un terrain qu’elle a elle-même défini. Sommes-nous censés applaudir ?