OpenAI vient de dévoiler GPT-5.5, son modèle d'intelligence artificielle le plus avancé à ce jour. Plus autonome, efficace et conçu pour le travail en profondeur, il entend redéfinir ce que l'IA peut vraiment accomplir au quotidien.

Dans le sillage du lancement du bluffant ChatGPT Images 2.0 mercredi, OpenAI a annoncé jeudi 23 avril le déploiement progressif de GPT-5.5, qui ne se présente pas comme une mise à jour cosmétique. Au contraire, le modèle planifie, utilise des outils, vérifie ses résultats et persiste face à l'ambiguïté, sans qu'on ait à lui tenir la main à chaque étape. Du codage agentique à la recherche scientifique, il semblerait qu'OpenAI joue une carte plus ambitieuse encore que d'habitude.
GPT-5.5 d'OpenAI est officiellement disponible et ses performances font sensation
Sur le terrain du développement logiciel, GPT-5.5 frappe fort. Terminal-Bench 2.0, qui simule des enchaînements de tâches complexes pilotées en ligne de commande (le genre de workflows qu'un développeur senior gère au quotidien) lui attribue 82,7 % de réussite. Sur SWE-Bench Pro, qui soumet le modèle à de vraies demandes de correction de bugs issues de projets GitHub réels, il résout 58,6 % des cas. Mieux que GPT-5.4, donc, et en utilisant moins de ressources pour y parvenir. Une précision toutefois, on attire votre attention sur le fait que c'est OpenAI qui livre, ce soir, ces résultats.
Donc les chiffres, c'est bien, mais les témoignages sont plus intéressants. Dan Shipper, le fondateur de la société Every, a placé GPT-5.5 face à un bug sérieux apparu après le lancement d'une application, que lui et un ingénieur expérimenté avaient mis plusieurs jours à comprendre avant de réécrire une partie du code. GPT-5.4 n'avait pas su quoi en faire. GPT-5.5 a proposé exactement la même réécriture que celle à laquelle l'ingénieur était finalement arrivé. Shipper le qualifie ainsi de « premier modèle de code que j'ai utilisé qui possède une vraie clarté conceptuelle. »
Ce que les ingénieurs retiennent avant tout, c'est que GPT-5.5 ne se contente pas d'exécuter des instructions. Il comprend la structure d'un projet dans sa globalité. Il repère les problèmes en amont, suggère lui-même ce qu'il faudra tester, et quand il modifie quelque chose dans un code, il s'assure que le changement reste cohérent sur l'ensemble du projet, sans qu'on ait à le guider pas à pas. Un ingénieur de NVIDIA, qui y a eu accès en avant-première, explique en allant peut-être un brin loin dans la comparaison, que « perdre l'accès à GPT-5.5, c'est comme avoir perdu un membre. »
Du bureau au labo, GPT-5.5 s'attaque au travail de fond
GPT-5.5 ne se limite pas au développement logiciel. Sur GDPval, un benchmark qui évalue la qualité du travail produit dans 44 professions différentes (comptable, juriste, analyste, et bien d'autres), il obtient 84,9 %. Sur OSWorld-Verified, qui teste si un modèle est capable d'utiliser un vrai ordinateur en autonomie, comme le ferait un humain, il atteint 78,7 % (le taux de tâches réussies). Et sur Tau2-bench Telecom, qui simule des échanges complexes dans un service client, il culmine à 98 % de précision, sans aucune adaptation préalable de ses instructions de départ.
Pour OpenAI, les preuves les plus convaincantes ne viennent pas des classements, mais de l'usage réel en interne. L'équipe financière de l'entreprise a confié à Codex le traitement de près de 25 000 formulaires fiscaux américains (les fameux K-1), pour un total dépassant les 71 000 pages de documents. Résultat, ce sont deux semaines qui ont été gagnées sur le calendrier habituel. L'équipe commerciale, elle, a automatisé ses rapports hebdomadaires et récupère jusqu'à dix heures de travail par semaine. Au total, plus de 85 % des employés d'OpenAI utilisent désormais Codex chaque semaine.

Le modèle GPT-5.5 progresse sensiblement sur des benchmarks scientifiques pointus comme GeneBench, qui évalue ses capacités en génétique, et BixBench, centré sur l'analyse de données biologiques. Détail intéressant, une version interne du modèle a contribué à démontrer une conjecture mathématique longtemps non résolue, liée aux nombres de Ramsey, un domaine qui étudie l'apparition inévitable de structures ordonnées dans des systèmes complexes. La preuve a ensuite été vérifiée formellement par un logiciel spécialisé appelé Lean, utilisé par les mathématiciens pour s'assurer qu'un raisonnement est rigoureusement exact. L'IA ne se contente plus d'assister les chercheurs ici mais contribue à faire avancer la connaissance.
OpenAI assume les risques de sécurité autour de son modèle GPT-5.5
OpenAI assume clairement le sujet des risques. GPT-5.5 est officiellement classé à un niveau de danger élevé en matière de cybersécurité, selon la grille d'évaluation interne de l'entreprise, le Preparedness Framework, qui est conçu pour mesurer le potentiel de nuisance de ses propres modèles. Concrètement, cela veut dire que le modèle est suffisamment capable pour être potentiellement détourné à des fins malveillantes. OpenAI a donc déployé des filtres de détection plus stricts, réservé un accès élargi aux professionnels de la cyberdéfense vérifiés, et engagé des discussions avec des gouvernements au sujet de la protection des infrastructures sensibles. Plus le modèle est puissant, plus les garde-fous doivent l'être aussi.
Pour les développeurs qui intégreront GPT-5.5 dans leurs applications via l'API, la facturation se fera à la consommation, c'est-à-dire 5 dollars par million de tokens en entrée (c'est-à-dire le texte envoyé au modèle) et 30 dollars par million de tokens en sortie, donc les réponses générées. La version Pro est nettement plus chère, avec des montants de 30 et 180 dollars respectivement. Des tarifs élevés au premier regard, mais OpenAI assure que GPT-5.5 a besoin de moins de tokens que GPT-5.4 pour accomplir les mêmes tâches. En clair, sur des usages intensifs, le modèle peut compenser une bonne partie de la différence de prix, toujours d'après la firme californienne.
GPT-5.5 est accessible dès aujourd'hui pour les abonnés Plus, Pro, Business et Enterprise, aussi bien dans ChatGPT que dans Codex. Dans ce dernier, le modèle peut traiter des documents et des échanges très longs grâce à une fenêtre de contexte de 400 000 tokens. La version Pro, encore plus performante, est réservée aux formules Pro, Business et Enterprise. Quant aux développeurs qui voudraient intégrer le modèle dans leurs propres applications, l'accès via l'API est annoncé pour très prochainement. Tout le monde n'y a pas accès, en tout cas pas tout de suite, chose assez rare chez l'acteur américain.
Reste une question que les benchmarks ne tranchent pas : à mesure qu'OpenAI déploie des modèles plus puissants, plus autonomes et accessibles au plus grand nombre, la promesse de garde-fous « qui avancent au même rythme » sera difficile à tenir, et surtout, difficile à vérifier de l'extérieur. GPT-5.5 est peut-être le modèle le plus impressionnant qu'OpenAI ait jamais sorti. Mais l'entreprise reste, in fine, seule juge de ce que son propre modèle est capable de faire de mal.
- Chat dans différentes langues, dont le français
- Générer, traduire et obtenir un résumé de texte
- Générer, optimiser et corriger du code