Lancé en mars 2026, Nemotron 3 Super totalise déjà 120 milliards de paramètres, dont seulement 12 milliards actifs à chaque inférence. Sur le leaderboard EnterpriseOps-Gym, il obtient une moyenne de 27,3 points, devance Kimi-K2.5 en deuxième position, DeepSeek v3.2 troisième et GPT-OSS-120B cinquième.

Les poids du modèle de Nemotron 3 Super, plus de 10 000 milliards de tokens de données et les recettes d'entraînement sont tous publiés en open source©NVIDIA
Les poids du modèle de Nemotron 3 Super, plus de 10 000 milliards de tokens de données et les recettes d'entraînement sont tous publiés en open source©NVIDIA

EnterpriseOps-Gym, développé par ServiceNow AI Research, évalue les agents sur 1 150 tâches réparties sur 8 domaines d'entreprise, tickets, emails, orchestration hybride, dans des environnements interactifs avec 512 outils fonctionnels et des séquences pouvant atteindre 34 étapes, chaque action modifiant définitivement la base de données partagée.

NVIDIA vient d'y publier ses premiers résultats avec Nemotron 3 Super sur ce benchmark. Les poids du modèle, plus de 10 000 milliards de tokens de données et les recettes d'entraînement sont tous publiés en open source. C'est un niveau de transparence rare dans le secteur, y compris face à Meta avec Llama. Les organisations qui hébergent leurs agents sur leur propre infrastructure disposent ainsi d'une base solide, auditable et personnalisable.

12 milliards de paramètres actifs pour battre des modèles deux fois plus lourds

Nemotron 3 Super intègre LatentMoE, une technique de compression des tokens dans un espace latent avant distribution aux experts, activant quatre fois plus d'experts pour un même coût d'inférence. Le résultat est contre-intuitif : un modèle n'activant qu'une fraction de ses paramètres à chaque passe dépasse des architectures denses bien plus gourmandes.

Grâce à la prédiction multi-token, la génération de texte long gagne jusqu'à trois fois en vitesse, avec une fenêtre de contexte native d'un million de tokens. Des agents qui enchaînent des dizaines d'étapes sur tickets, documents et appels d'outils successifs bénéficient directement de cette capacité de mémorisation longue.

Nemotron 3 Super obtient des scores équivalents ou supérieurs à GPT-OSS-120B et Qwen3.5-122B, avec un débit jusqu'à 2,2 fois et 7,5 fois plus élevé selon les configurations. Pré-entraîné sur 25 000 milliards de tokens, le modèle a ensuite bénéficié d'un apprentissage par renforcement sur 21 environnements avec 1,2 million de rollouts. Grâce à son architecture hybride Mamba-Transformer, la complexité de traitement des longues séquences tombe bien en dessous de celle d'un Transformer pur.

Nemotron 3 Super mène sur les workflows TEAMS, Email et Hybrid, tout en restant compétitif sur CSM, ITSM et Drive.

Un modèle ouvert au service de l'écosystème NVIDIA

Les poids de Nemotron 3 Super sont téléchargeables, modifiables et hébergeables par n'importe quelle organisation, contrairement aux modèles fermés d'OpenAI ou d'Anthropic. Optimisé nativement pour les GPU NVIDIA, entraîné via NeMo et déployable via NIM, le modèle oriente naturellement les équipes techniques vers les accélérateurs de Santa Clara. Sans compter l'argument commercial d'NVIDIA de distribuer gratuitement un modèle de cette qualité pour l'ensemble de sa chaîne matérielle.

En production, une instance complète en précision FP16 requiert au minimum deux GPU A100 80 Go ou un H100 SXM. Le coût d'inférence tourne autour de 0,10 dollar par million de tokens en entrée et 0,40 dollar en sortie, bien en dessous des modèles propriétaires comparables.

Soit un modèle prêt à la production pour les DSI soucieux de garder leurs données sur leur propre infrastructure, avec une licence ouverte et des recettes d'entraînement publiées. Mais les performances réelles dépendent du déploiement, des données, de la latence, du coût et des contraintes de sécurité propres à chaque organisation.

Source : VCCFTech