La firme chinoise DeepSeek a discrètement mis à jour son modèle d'intelligence artificielle R1. Malgré une communication minimale, les premiers retours d'utilisateurs suggèrent des améliorations substantielles, plaçant cette nouvelle itération au coude-à-coude avec les solutions d'IA les plus performantes du moment, y compris celles d'OpenAI et de Google.

L'écosystème de l'intelligence artificielle est en constante ébullition, et la Chine y joue un rôle de plus en plus prépondérant. DeepSeek, une entreprise qui s'est déjà fait remarquer pour son approche pragmatique du développement de l'IA, loin du gigantisme de certaines firmes américaines, vient de le prouver une nouvelle fois. Une version actualisée de son modèle de raisonnement, baptisée R1-0528, a été publiée sur la plateforme Hugging Face, un hub communautaire pour les modèles d'IA. Bien que DeepSeek ait qualifié cette mise à jour de « mineure », les testeurs et développeurs indépendants rapportent des avancées notables.

- Compréhension avancée du langage naturel
- Réponses adaptées à des contextes variés
- Disponible en plusieurs langues
Des performances qui bousculent la hiérarchie
Ce nouveau DeepSeek R1 semble avoir particulièrement progressé sur ses capacités de raisonnement logique complexe et de génération de code. Selon les premiers tests comparatifs, le modèle se positionnerait juste derrière les modèles de raisonnement o4-mini et o3 d'OpenAI sur des bancs d'essai comme LiveCodeBench. Les utilisateurs soulignent une amélioration de la structuration du raisonnement, adoptant une approche « chaîne de pensée » (Chain-of-Thought) plus méthodique, où le modèle détaille les étapes de sa réflexion pour aboutir à une conclusion.
La qualité de la génération de texte est également saluée, avec des résultats plus naturels et mieux formatés. Une particularité des versions antérieures, qui injectait parfois des références saugrenues à la mécanique quantique dans des contextes non pertinents, semble avoir été corrigée, rendant les textes plus cohérents. Le modèle fait aussi preuve d'une capacité de « pensée longue », lui permettant de se concentrer sur des tâches complexes pendant une durée étendue, potentiellement jusqu'à 30 à 60 minutes, grâce notamment à une gestion améliorée des contextes longs (jusqu'à 32 000 tokens avec une bonne fiabilité, 128 000 tokens au total). En contrepartie de ces gains qualitatifs, certains testeurs notent des temps de réponse légèrement plus lents, un compromis jugé acceptable au vu de la précision accrue.
Sous le capot : une architecture optimisée et accessible
Le modèle initial R1 s'appuyait sur une architecture dite « Mixture-of-Experts » (MoE) avec un total de 671 milliards de paramètres, dont seulement 37 milliards étaient actifs simultanément. La nouvelle version est listée avec 685 milliards de paramètres, ce qui le place, en termes de volume brut de données, parmi les plus grands modèles mondiaux. Cette approche MoE permet une grande efficacité, tant en termes de coûts d'entraînement que de ressources nécessaires à l'inférence. Pour rappel, le modèle R1 originel avait été entraîné pour un coût estimé à moins de 6 millions de dollars, un chiffre bien inférieur aux centaines de millions souvent évoqués pour des modèles de taille comparable.
DeepSeek maintient sa philosophie d'ouverture, puisque cette nouvelle version est disponible sous licence MIT, ce qui autorise son utilisation y compris dans des projets commerciaux. Cette accessibilité, combinée à des tarifs d'API historiquement compétitifs pour les versions précédentes, confirme la volonté de DeepSeek de rendre l'IA de pointe plus abordable, un positionnement qui avait déjà été souligné lors de l'annonce de ses futurs modèles et de sa stratégie tarifaire. La publication sur Hugging Face, même avec une documentation pour l'instant minimale, permet à la communauté de s'emparer rapidement du modèle et d'en explorer les capacités.
Source : Neowin
04 février 2025 à 14h11