Le nouveau Claude Opus 4.6 fait ce qu'aucune IA n'avait réussi avant lui

Par Alexandre Boero, Journaliste-reporter, responsable de l'actu.

Publié le 05 février 2026 à 19h38

Anthropic a dévoilé jeudi soir Claude Opus 4.6, son modèle d'IA le plus performant à ce jour. Avec un million de tokens de contexte et des performances record en programmation, il surpasse GPT 5.2 d'OpenAI.

Claude Opus 4.6 est arrivé ! © Alexandre Boero / Clubic

L'éditeur californien Anthropic lance ce 5 février 2026 Claude Opus 4.6, nouvelle version de son modèle d'intelligence artificielle phare. Les performances sont spectaculaires, et il est même premier de sa catégorie sur Terminal-Bench 2.0 avec 65,4%, 144 points Elo d'avance sur GPT-5.2 sur les tâches professionnelles. Avec une fenêtre contextuelle d'1 million de tokens pour traiter d'immenses volumes de données, les développeurs accèdent désormais à des équipes d'agents capables de collaborer en autonomie sur des projets complexes.

Claude Opus 4.6 pulvérise les records sur les benchmarks de programmation

Claude Opus 4.6 aide Anthropic et ses utilisateurs à franchir un nouveaucap dans l'assistance à la programmation. Le modèle planifie désormais avec plus de minutie, maintient sa concentration sur des missions longues, et navigue dans d'immenses bases de code sans perdre le fil. On peut dire que sa capacité à détecter ses propres erreurs lors de la relecture est une avancée notable pour les développeurs.

Les résultats sont évidents sur les benchmarks de référence qu'Anthropic révèlent dans sa présentation. Sur Terminal-Bench 2.0, l'évaluation phare du code agentique, Opus 4.6 décroche le meilleur score du secteur avec 65,4%. Sur GDPval-AA, qui mesure les performances sur des tâches professionnelles réelles en finance et juridique, il atteint 1606 points Elo, soit 144 points d'avance sur le GPT-5.2 d'OpenAI. Il domine également BrowseComp, le test qui mesure la capacité à dénicher des informations difficiles à trouver en ligne.

Michael Truell, cofondateur de l'éditeur de code IA Cursor, témoigne que « Claude Opus 4.6 excelle face aux problèmes les plus complexes. Il offre une plus grande ténacité, une meilleure revue de code et il persévère sur les tâches à long terme, là où d'autres abandonnent ». Chez GitHub, Mario Rodriguez confirme que le modèle commence à déverrouiller des tâches à long terme, domaine jusqu'ici réservé aux humains.

Capture d'écran de Claude, d'Anthropic. © Alexandre Boero / Clubic

Des intégrations Office qui rapprochent l'IA du quotidien professionnel

Premier modèle de la gamme Opus à proposer une fenêtre de contexte d'1 million de tokens, Claude Opus 4.6 repousse les limites du traitement documentaire. Pour schématiser, il peut désormais « digérer » l'équivalent de plusieurs livres en une seule fois, avc un énorme volume sans perte de performance. Sur le benchmark MRCR v2, Opus 4.6 atteint 76%, là où Sonnet 4.5 plafonnait à 18,5%. Terminé, donc, le fameux context rot, cette dégradation des performances qui sabotait les conversations trop longues.

Claude Code permet désormais de créer des équipes d'agents qui collaborent comme de vrais collègues. Au lieu d'un assistant unique qui traite les tâches l'une après l'autre, plusieurs IA travaillent simultanément sur différentes parties d'un projet. Sarah Sachs, responsable IA chez Notion, affirme que le modèle ne ressemble plus à un simple outil mais à « un véritable collaborateur compétent ».

Ajoutons à cela qu'Anthropic s'invite dans vos outils de bureau, avec une forte appétence pour Microsoft. Claude in Excel devient plus puissant et comprend désormais vos tableaux brouillons sans qu'on lui explique leur structure. Claude in PowerPoint débarque en avant-première et crée des présentations en respectant vos couleurs, polices et mise en page habituelles. Ces fonctionnalités, réservées aux offres Max, Team et Enterprise, rapprochent plus que jamais l'IA du bureau traditionnel.

Opus 4.6 est à la pointe de la technologie en matière de tâches professionnelles concrètes dans plusieurs domaines professionnels. © Anthropic

Anthropic maintient ses prix malgré le bond technologique d'Opus 4.6

Malgré ce bond en avant, Anthropic ne change pas ses tarifs, 5 dollars étaient nécessaires pour traiter un million de tokens (l'équivalent d'un gros roman), et 25 dollars pour en générer un. Un prix agressif pour toujours tenir tête à la concurrence. Les développeurs peuvent d'ailleurs dès aujourd'hui utiliser Claude Opus 4.6 depuis l'API sur Amazon, Google Cloud et autres géants du cloud.

Les nouveautés techniques valent le coup d'œil côté API. Avec l'adaptive thinking, Claude ajuste son temps de réflexion selon que vous lui posez une colle ou une question basique. Quatre modes d'intensité sont disponibles. La compaction contextuelle fait du ménage automatiquement, puisqu'elle résume les vieux échanges quand la mémoire sature. Voilà qui permet des conversations interminables sans plantage ni oubli.

Pour finir, la sécurité n'a pas été sacrifiée sur l'autel de la performance. Anthropic affirme qu'Opus 4.6 présente le meilleur profil de sûreté du secteur, avec des taux de comportements déviants extrêmement faibles. La firme a déployé la batterie d'évaluations la plus complète jamais réalisée, en introduisant de nouveaux tests pour le bien-être des utilisateurs et six sondes de cybersécurité inédites. Une vigilance indispensable à mesure que ces modèles gagnent en puissance et en autonomie.

Mais attention, son concurrent OpenAI n'a pas dit son dernier, avec dans la foulée le lancement du modèle GPT-5.3-Codex, son modèle de codage agentique le plus avancé à ce jour.

À découvrir

Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2026

Comparatifs services

Par Alexandre Boero

Journaliste-reporter, responsable de l'actu

Intelligence artificielle

Actualités High-Tech

Comparer

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (6)

G29

« Sur le benchmark MRCR v2, Opus 4.6 atteint 76%, là où Sonnet 4.5 plafonnait à 18,5%. »
Comparer Opus 4.6 à Sonnet 4.5 est une vaste blague…
Comparez Opus 4.6 à Opus 4.5 ou Sonnet 4.6 à Sonnet 4.5, mais là c’est du n’importe quoi…

Édit : pour ceux qui ne connaissent pas la gamme, c’est comme si Opus était à Sonnet ce que « Audi avec toutes les options » était à « Skoda tarif de base sans aucune option », comme si vous compariez l’audi RS3 2026 à une Skoda Favia de base de 2023. Comparez l’audi dernier modèle à l’audi équivalente de la génération précédente, et la Skoda dernière génération à la Skoda équivalente de la génération prcédente ; mais pas le haut de gamme le plus cher de la dernière version au bas de gamme de la version précédente.
(Note : j’aime les Skoda pour leur rapport qualité/prix - avant de me faire défoncer dans les commentaires)

Hanandano

Ma tête a heurté le bureau au même endroit.

En fait le problème (et bon avec Alex c’est une habitude. J’avoue que parfois ça m’agace parfois ça me fait marrer) c’est que l’article n’est qu’une copie / traduction du communiqué d’anthropic qu’on trouve ici

Mais alex a une flemme incroyable de mettre le petit « source : https://www.anthropic.com/news/claude-opus-4-6 » en bas de l’article. Pourquoi ? Je ne sais pas et à vrai dire c’est pas grave.

Bref la comparaison n’est pas de lui. L’évaluation d’opus 4.6 n’est pas de lui non plus. Etc.

A common complaint about AI models is “context rot,” where performance degrades as conversations exceed a certain number of tokens. Opus 4.6 performs markedly better than its predecessors: on the 8-needle 1M variant of MRCR v2—a needle-in-a-haystack benchmark that tests a model’s ability to retrieve information “hidden” in vast amounts of text—Opus 4.6 scores 76%, whereas Sonnet 4.5 scores just 18.5%. This is a qualitative shift in how much context a model can actually use while maintaining peak performance.

C’est juste un peu de bs marketing qui se retrouve packagé sous le nom d’information. Mais c’est le monde dans lequel on vit.

Ca me fait penser à la vidéo coup de gueule de Yann tout court sur la voix de Henri IV. Si vous n’avez pas vu, foncez c’est déprimant.

Fodger

Franchement en dev GPT est mauvais dans les faits … Dans les moteurs peu connus, gratos, GLM 4.7 déchire pas mal.

romaindpro

Si par « mauvais », on entends moins bon que certaines AI et que de très bon codeurs humains, mais meilleurs que 95% des dev en service, alors oui…

Hanandano

ça c’est les stats de l’IDM, je reconnais !

Fodger

Par mauvais j’entends par la qualité du code généré.