Ce nouveau DeepSeek R1 semble avoir particulièrement progressé sur ses capacités de raisonnement logique complexe et de génération de code. Selon les premiers tests comparatifs, le modèle se positionnerait juste derrière les modèles de raisonnement o4-mini et o3 d'OpenAI sur des bancs d'essai comme LiveCodeBench. Les utilisateurs soulignent une amélioration de la structuration du raisonnement, adoptant une approche « chaîne de pensée » (Chain-of-Thought) plus méthodique, où le modèle détaille les étapes de sa réflexion pour aboutir à une conclusion.

La qualité de la génération de texte est également saluée, avec des résultats plus naturels et mieux formatés. Une particularité des versions antérieures, qui injectait parfois des références saugrenues à la mécanique quantique dans des contextes non pertinents, semble avoir été corrigée, rendant les textes plus cohérents. Le modèle fait aussi preuve d'une capacité de « pensée longue », lui permettant de se concentrer sur des tâches complexes pendant une durée étendue, potentiellement jusqu'à 30 à 60 minutes, grâce notamment à une gestion améliorée des contextes longs (jusqu'à 32 000 tokens avec une bonne fiabilité, 128 000 tokens au total). En contrepartie de ces gains qualitatifs, certains testeurs notent des temps de réponse légèrement plus lents, un compromis jugé acceptable au vu de la précision accrue.