Claude Sonnet 4.5 veut détrôner GPT-5 sur le code, et il a de sérieux arguments

Anthropic lance Claude Sonnet 4.5, présenté comme son modèle le plus performant pour le développement logiciel et l’usage direct de l’ordinateur, avec des bonds mesurés sur les benchmarks publics et des nouveautés concrètes pour les workflows des développeurs. Sa cible est claire : concurrencer frontalement GPT‑5 grâce à d'excellentes performances sur les benchmarks clés et plus de 30 heures d’autonomie sur des tâches multi-étapes, deux marqueurs forts de robustesse pratique annoncés par l’éditeur.

L’annonce s’inscrit dans une trajectoire entamée avec Claude 3.7 et l’agent Claude Code, qui posaient les bases d’un accompagnement « terminal-first » et d’un pipeline plus agentique pour coder à grande échelle. Entre-temps, l’extension « Claude for Chrome » a permis d’opérationnaliser l’« ordinateur piloté par IA » dans le navigateur, une marche supplémentaire vers des agents capables d’exécuter des tâches bout en bout. Sonnet 4.5 arrive avec une boîte à outils plus complète : intégration VS Code native, exécution de code et création de fichiers dans l’app, et un SDK d’agents pour reproduire les briques de Claude Code côté développeurs.

Un seul cap : le code

Anthropic revendique l’état de l’art en programmation avec Claude Sonnet 4.5 sur SWE-bench Verified (le benchmark de référence sur le code), et met en avant une endurance opérationnelle observée « 30+ heures » sur des tâches longues, un point sensible pour les agents qui gèrent des bases de code étendues. Les capacités d’« ordinateur » progressent également, avec 61,4% sur OSWorld, un benchmark de tâches réelles sur PC, en nette hausse par rapport au précédent Sonnet 4.

Côté distribution, Sonnet 4.5 est disponible dans Claude.ai et via l’API au même tarif que Sonnet 4 (3 $/M tokens en entrée, 15 $/M en sortie), et fait aussi son entrée dans Amazon Bedrock pour les déploiements en entreprise. L’éditeur accompagne le modèle d’un SDK d’agents, de checkpoints pour Claude Code et d’une extension VS Code, afin d’outiller des usages production plutôt que des prototypes isolés.

Anthropic revendique l’état de l’art en programmation avec Claude Sonnet 4.5 sur SWE-bench Verified (le benchmark de référence sur le code), et met en avant une endurance opérationnelle observée « 30+ heures » sur des tâches longues, un point sensible pour les agents qui gèrent des bases de code étendues. Les capacités d’« ordinateur » progressent également, avec 61,4% sur OSWorld, un benchmark de tâches réelles sur PC, en nette hausse par rapport au précédent Sonnet 4.

Côté distribution, Sonnet 4.5 est disponible dans Claude.ai et via l’API au même tarif que Sonnet 4 (3 $/M tokens en entrée, 15 $/M en sortie), et fait aussi son entrée dans Amazon Bedrock pour les déploiements en entreprise. L’éditeur accompagne le modèle d’un SDK d’agents, de checkpoints pour Claude Code et d’une extension VS Code, afin d’outiller des usages production plutôt que des prototypes isolés.

Un duel outillé, pas qu’un podium

OpenAI pousse un arsenal très orienté développeurs avec GPT‑5 et GPT‑5‑Codex, intégrés aux IDE et aux toolchains collaboratives, tandis qu’Anthropic riposte avec checkpoints, mémoire étendue et un kit de développement pour reproduire les fondations de Claude Code dans d'autres solutions.

Dans ce bras de fer, l’ancrage « ordinateur et navigateur » d’Anthropic prend appui sur son extension pour piloter Chrome et les progrès mesurés sur OSWorld, quand OpenAI capitalise sur ses intégrations et la maturité de son écosystème développeurs, porté notamment par son rachat de Windsurf en début d'année. Pour les DSI, la disponibilité de Sonnet 4.5 dans Bedrock facilite l’intégration avec la gouvernance et la sécurité existantes, un levier déterminant au-delà des seules performances de benchmark.

Source : Anthropic