Anthropic a lancé jeudi Claude Opus 4.8, nouvelle version de son modèle d'IA le plus puissant. Il est plus performant sur les benchmarks d'Anthropic, plus honnête dans ses réponses, et disponible au même tarif que son prédécesseur.
Meilleur sur les benchmarks, plus fiable dans ses jugements et quatre fois moins enclin à laisser passer ses propres erreurs sans les signaler, Claude Opus 4.8, dévoilé jeudi et d'ores et déjà disponible, s'impose comme une évolution sérieuse du modèle phare d'Anthropic. La start-up en profite pour déployer de nouvelles fonctionnalités, dont un contrôle d'effort inédit sur claude.ai. Mais pour son modèle encore plus ambitieux, le fameux Mythos, il faudra encore un peu patienter, on en reparle plus bas.
Anthropic lance Opus 4.8, le modèle qui apprend (enfin) à douter
Sur les tests fournis par Anthropic, Opus 4.8 progresse sur presque tous les fronts. En codage autonome, il grimpe à 69,2 %, contre 64,3 % pour son prédécesseur Claude Opus 4.7 et atteint 83,4 % sur les tâches où le modèle pilote seul un ordinateur, comme un humain le ferait. En analyse financière automatisée, il score à 53,9 %. Il y a une petite ombre au tableau, sur les missions de programmation en terminal, où GPT-5.5 d'OpenAI garde l'avantage avec 78,2 %, contre 74,6 % pour Opus 4.8.
Là où le modèle Opus 4.8 est particulièrement intéressant, c'est dans sa façon de gérer ses propres erreurs. La plupart des IA ont tendance à afficher une confiance excessive, même quand leur travail comporte des failles, c'est leur petit pêché mignon. Opus 4.8 signale lui-même ses incertitudes, plutôt que de les passer sous silence. Concrètement, il est quatre fois moins susceptible que son prédécesseur de laisser traîner un bug dans du code sans le mentionner. Les premiers testeurs l'ont unanimement noté, explique Anthropic.
Avant de lancer Opus 4.8, la firme californienne a aussi passé le modèle au crible de ses tests d'alignement. Autrement dit, elle a vérifié qu'il se comporte bien et dans l'intérêt de ses utilisateurs. Verdict, selon l'équipe dédiée, le modèle « atteint de nouveaux sommets » en matière de comportement responsable, notamment dans sa capacité à respecter les choix de l'utilisateur plutôt qu'à les orienter. Mieux encore, les comportements problématiques, comme mentir ou se laisser détourner à des fins malveillantes, sont nettement moins fréquents que chez Opus 4.7.

Derrière Opus 4.8, Anthropic prépare déjà un modèle encore plus puissant
Le lancement s'accompagne de plusieurs nouveautés. Dans Claude Code, une fonction baptisée « dynamic workflows », encore en préversion, permet de déléguer au modèle des tâches considérables. Plutôt que de traiter une tâche seul et en séquence, il la divise en centaines de fils de travail parallèles pour avancer bien plus vite, jusqu'à livrer un projet de code complet de bout en bout. Sur claude.ai, un nouveau curseur laisse l'utilisateur choisir la profondeur de réflexion investie dans chaque réponse.
La bonne nouvelle pour les utilisateurs et les développeurs, c'est que la tarification ne change pas. Comptez 5 dollars par million de mots traités en entrée, 25 en sortie (des tokens, dans le jargon). Le mode rapide, qui permet au modèle de répondre 2,5 fois plus vite qu'en fonctionnement normal, devient lui trois fois moins cher que sur les versions précédentes. Les développeurs peuvent dès aujourd'hui intégrer Opus 4.8 dans leurs applications via l'API Claude, en appelant le modèle sous l'identifiant « claude-opus-4-8 ». On notera qu'Anthropic a intégré des crans à d'autres modèles, comme Sonnet 4.6 proposé désormais en quatre versions d'« effort » (bas, moyen, élevé et maximum), en plus de la pensée adaptative que l'on peut activer, qui utilisent tous les deux vos limites plus rapidement.
Anthropic prépare déjà la suite. En coulisses, le programme baptisé « projet Glasswing » donne accès à une poignée d'organisations sélectionnées à « Mythos Preview », le modèle encore plus puissant qu'Opus, actuellement testé pour des usages en cybersécurité, pour éviter tout couac. Trop capable pour être diffusé sans précautions, il fait encore l'objet de vérifications poussées avant une disponibilité élargie. Anthropic promet d'aller vite, et l'accès devrait s'ouvrir plus largement dans les prochaines semaines, s'engage la société.

- Upload de fichiers pouvant aller jusqu'à 100 000 tokens (75 000 mots environ)
- Personnalisation avancée
- Conception éthique