Le surpuissant modèle Claude Opus 4.8 d'Anthropic est là et il sait enfin reconnaître ses propres erreurs

Par Alexandre Boero, Journaliste-reporter, responsable de l'actu.

Publié le 29 mai 2026 à 08h02

Suivez-nous Ajoutez-nous en favori Google

Anthropic a lancé jeudi Claude Opus 4.8, nouvelle version de son modèle d'IA le plus puissant. Il est plus performant sur les benchmarks d'Anthropic, plus honnête dans ses réponses, et disponible au même tarif que son prédécesseur.

Meilleur sur les benchmarks, plus fiable dans ses jugements et quatre fois moins enclin à laisser passer ses propres erreurs sans les signaler, Claude Opus 4.8, dévoilé jeudi et d'ores et déjà disponible, s'impose comme une évolution sérieuse du modèle phare d'Anthropic. La start-up en profite pour déployer de nouvelles fonctionnalités, dont un contrôle d'effort inédit sur claude.ai. Mais pour son modèle encore plus ambitieux, le fameux Mythos, il faudra encore un peu patienter, on en reparle plus bas.

Anthropic lance Opus 4.8, le modèle qui apprend (enfin) à douter

Sur les tests fournis par Anthropic, Opus 4.8 progresse sur presque tous les fronts. En codage autonome, il grimpe à 69,2 %, contre 64,3 % pour son prédécesseur Claude Opus 4.7 et atteint 83,4 % sur les tâches où le modèle pilote seul un ordinateur, comme un humain le ferait. En analyse financière automatisée, il score à 53,9 %. Il y a une petite ombre au tableau, sur les missions de programmation en terminal, où GPT-5.5 d'OpenAI garde l'avantage avec 78,2 %, contre 74,6 % pour Opus 4.8.

Là où le modèle Opus 4.8 est particulièrement intéressant, c'est dans sa façon de gérer ses propres erreurs. La plupart des IA ont tendance à afficher une confiance excessive, même quand leur travail comporte des failles, c'est leur petit pêché mignon. Opus 4.8 signale lui-même ses incertitudes, plutôt que de les passer sous silence. Concrètement, il est quatre fois moins susceptible que son prédécesseur de laisser traîner un bug dans du code sans le mentionner. Les premiers testeurs l'ont unanimement noté, explique Anthropic.

Avant de lancer Opus 4.8, la firme californienne a aussi passé le modèle au crible de ses tests d'alignement. Autrement dit, elle a vérifié qu'il se comporte bien et dans l'intérêt de ses utilisateurs. Verdict, selon l'équipe dédiée, le modèle « atteint de nouveaux sommets » en matière de comportement responsable, notamment dans sa capacité à respecter les choix de l'utilisateur plutôt qu'à les orienter. Mieux encore, les comportements problématiques, comme mentir ou se laisser détourner à des fins malveillantes, sont nettement moins fréquents que chez Opus 4.7.

Claude Opus 4.8 est arrivé. © Alexandre Boero / Clubic

Derrière Opus 4.8, Anthropic prépare déjà un modèle encore plus puissant

Le lancement s'accompagne de plusieurs nouveautés. Dans Claude Code, une fonction baptisée « dynamic workflows », encore en préversion, permet de déléguer au modèle des tâches considérables. Plutôt que de traiter une tâche seul et en séquence, il la divise en centaines de fils de travail parallèles pour avancer bien plus vite, jusqu'à livrer un projet de code complet de bout en bout. Sur claude.ai, un nouveau curseur laisse l'utilisateur choisir la profondeur de réflexion investie dans chaque réponse.

La bonne nouvelle pour les utilisateurs et les développeurs, c'est que la tarification ne change pas. Comptez 5 dollars par million de mots traités en entrée, 25 en sortie (des tokens, dans le jargon). Le mode rapide, qui permet au modèle de répondre 2,5 fois plus vite qu'en fonctionnement normal, devient lui trois fois moins cher que sur les versions précédentes. Les développeurs peuvent dès aujourd'hui intégrer Opus 4.8 dans leurs applications via l'API Claude, en appelant le modèle sous l'identifiant « claude-opus-4-8 ». On notera qu'Anthropic a intégré des crans à d'autres modèles, comme Sonnet 4.6 proposé désormais en quatre versions d'« effort » (bas, moyen, élevé et maximum), en plus de la pensée adaptative que l'on peut activer, qui utilisent tous les deux vos limites plus rapidement.

Anthropic prépare déjà la suite. En coulisses, le programme baptisé « projet Glasswing » donne accès à une poignée d'organisations sélectionnées à « Mythos Preview », le modèle encore plus puissant qu'Opus, actuellement testé pour des usages en cybersécurité, pour éviter tout couac. Trop capable pour être diffusé sans précautions, il fait encore l'objet de vérifications poussées avant une disponibilité élargie. Anthropic promet d'aller vite, et l'accès devrait s'ouvrir plus largement dans les prochaines semaines, s'engage la société.

Claude AI

Upload de fichiers pouvant aller jusqu'à 100 000 tokens (75 000 mots environ)
Personnalisation avancée
Conception éthique

9 / 10

Télécharger

Par Alexandre Boero

Journaliste-reporter, responsable de l'actu

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (5)

AtomosF

J’espère que ces nouveaux modèles baissent (de manière directe ou indirecte) la consommation en token des anciens. Sonnet me suffit, bon maintenant il faut aussi ajuster si on veut Low,Medium ou High.

Binbin

Nul doute qu’OpenAI va vite répliquer.
Cette concurrence est passionnante, il y a des nouveautés quasi chaque semaine…

EdouartTranche

Les bench c’est une chose mais en pratique je trouve que Claude Opus context 1M reste bien devant en code sur les gros projets et dans la durée. Codex est bon en code mais il s’essouffle vite et commence à faire n’importe quoi ou rien de pertinent. Son contexte est bien plus limité ça n’aide pas.
En ce moment j’ai un Claude Max x20 avec un petit Codex Pro pour le 2e avis, ça me va bien.

Loposo

j’ai testé chatgpt 5.5 sur du soft musique et sur un aspect technique pur rien a dire, il est puissant, mais le résultat manquait complément de musicalité la ou gemini pro j’obtiens des meilleur résultat que même par rapport a claude sonnet, je n’ai pas opus

Binbin

La fenêtre de contexte ne fait pas tout, GTP est bien plus efficient mais il y a une difference notable pour nous Européens :

« Memories are off by default and aren’t available in the European Economic Area, the United Kingdom, or Switzerland at launch. »

https://developers.openai.com/codex/memories