NeMo se distingue par sa taille relativement modeste de 12 milliards de paramètres, qui lui permet d'être déployé sur carte graphique milieu de gamme avec 8 Go de VRAM minimum. C'est moins que ce que demande un modèle moins puissant comme Mistral 7B. Le revers de la médaille, et c'est ici que le partenariat avec Nvidia intervient : NeMo demande du matériel doté de l'architecture Ampère. Malgré cette compacité, le modèle affiche des performances remarquables en matière de raisonnement, de connaissances générales et de codage. Son atout majeur réside dans sa fenêtre de contexte exceptionnelle de 128 000 tokens, lui permettant d'analyser et de générer des textes beaucoup plus longs que la plupart de ses concurrents de taille similaire, et de se hisser au niveau de GPT-4o et Claude 3.