Anthropic a lancé, mardi soir, Claude Sonnet 5. Ce nouveau modèle d'intelligence artificielle agentique se rapproche des performances d'Opus 4.8, pour un prix nettement inférieur, il est disponible dès maintenant sur tous les plans Claude.

Lancé ce mardi 30 juin, le modèle Sonnet 5 d'Anthropic succède à Sonnet 4.6 avec un vrai bond en « agentivité », comprenez la capacité d'une IA à agir seule, étape par étape, pour mener une tâche jusqu'au bout, en planifiant, en naviguant sur le web et en maniant des outils. Sur les benchmarks, les tests qui permettent de comparer les modèles entre eux, fournis par l'entreprise américaine, Sonnet 5 talonne désormais Opus 4.8, longtemps réservé aux tâches les plus exigeantes. Anthropic promet aussi un modèle globalement plus sûr et plus fiable, accessible dès sur tous les plans de Claude, compte gratuit inclus.
Claude Sonnet 5 débarque pour défier Opus 4.8 sur le rapport performance-prix
Pour avoir une petite idée des capacités de Sonnet 5, sur SWE-bench Pro, le benchmark de référence en programmation autonome, le modèle grimpe à 63,2 % contre 58,1 % pour Sonnet 4.6, et atteint 80,4 % sur Terminal-Bench, l'évaluation qui mesure la maîtrise d'un terminal de commandes. Sur le raisonnement multidisciplinaire de Humanity's Last Exam, la progression est tout aussi nette, avec ou sans outils, et elle confirme que les gains vont au-delà de l'agentique mais déborde aussi sur la capacité de raisonnement multidisciplinaire. Détail amusant, sur l'évaluation de travail de connaissance GDPval-AA v2, Sonnet 5 décroche même 1618 points, un cheveu devant les 1615 d'Opus 4.8, pourtant bien plus onéreux.
D'ailleurs, l'écart avec Opus 4.8 se resserre. Sur ces mêmes benchmarks, on remarque que Sonnet 5 talonne désormais son grand frère, parfois à quelques points seulement. Reste un avantage de taille, le prix, qui est jusqu'à 2,5 fois moins cher au token au tarif de lancement, pour des résultats jusque-là réservés aux modèles haut de gamme, un atout salué par les premiers testeurs.

Le nouveau modèle est disponible depuis hier soir sur tous les plans Claude, gratuit compris, ainsi que sur Claude Code et la plateforme développeurs. On évoquait le prix il y a un instant. Et justement, l'offre de lancement s'affiche à 2 dollars le million de tokens en entrée et 10 dollars en sortie jusqu'au 31 août, avant de passer à 3 et 15 dollars une fois cette période passée. À noter qu'un nouveau découpage des tokens accompagne ce lancement. Dans le détail, un même texte peut désormais en consommer légèrement plus, mais le tarif de lancement a été calibré pour que la transition reste neutre côté facture. Anthropic en a en tout cas profité pour relever les limites d'usage sur Chat, Cowork, Claude Code et Claude Plateform, histoire d'accompagner les niveaux d'effort les plus gourmands.
Des capacités cyber volontairement limitées par Anthropic
Anthropic insiste aussi sur la sécurité du modèle. Sonnet 5 affiche un taux de comportements indésirables plus faible que Sonnet 4.6 par exemple, qui était déjà plutôt bon, avec moins d'hallucinations et de sycophancy, ce travers qui pousse une IA à flatter son interlocuteur plutôt qu'à le contredire. Sur l'audit comportemental automatisé, qui passe au crible un large éventail de dérives, le modèle obtient un score de 2,53 sur 10, contre 2,89 pour son prédécesseur. Un net progrès, même s'il faut dire qu'il reste un peu au-dessus des 2,10 d'Opus 4.8 et des 1,95 de Mythos Preview. Il résiste également mieux aux tentatives de détournement par injection de prompts malveillants.
Sur le terrain plus sensible de la cybersécurité, Anthropic veut rassurer et indique que son modèle n'a pas été spécifiquement entraîné à ces tâches, et qu'il reste loin derrière Opus 4.8 ou l'inaccessible Mythos 5 hors des USA, pour concevoir des « exploits », autrement dit des programmes qui exploitent une faille pour s'introduire dans un système. On comprend qu'il est ainsi volontairement limité. Lors d'un test mené avec Mozilla sur Firefox, Sonnet 5 n'est jamais parvenu à produire un exploit fonctionnel, même sans aucune protection activée. De quoi lui laisser les portes ouvertes hors du territoire américain, cette fois.
Des garde-fous spécifiques restent toutefois activés par défaut, les mêmes que ceux d'Opus 4.7 et 4.8, mais moins stricts que ceux de Fable 5. Voilà qui positionne Sonnet 5 comme un choix solide et raisonnablement sûr pour la majorité des usages professionnels, sans pour autant remplacer les modèles haut de gamme sur les tâches les plus sensibles.