vLLM optimise l’inférence des grands modèles grâce à PagedAttention, une gestion mémoire inspirée des OS qui réduit la fragmentation et améliore l’efficacité sur les contextes longs - © vLLM

Pourquoi utiliser vLLM ?

PagedAttention & gestion mémoire

vLLM introduit le concept de PagedAttention, inspiré de la mémoire virtuelle des systèmes d’exploitation. Cette technique découpe le cache de clés/valeurs (KV cache) en pages, réduisant le gaspillage mémoire et permettant un partage plus efficace entre les requêtes. Cela permet de supporter des contextes longs sans explosion du coûts mémoire.

Grâce à cette approche, vLLM atteint une inférence avec moins de fragmentation et permet d’augmenter le batch tout en conservant une latence raisonnable, notamment pour les modèles de grande taille ou les séquences longues.

Batching continu, décodage spéculatif, quantification

vLLM supporte le batching continu (continuous batching) : les requêtes entrantes sont agrégées de façon dynamique pour maximiser l’usage du GPU sans imposer un batch fixé d’avance. Cela améliore l’efficacité dans des scénarios où les requêtes arrivent en flux irrégulier.

Il embarque aussi le décodage spéculatif (speculative decoding), une stratégie où des tokens candidats sont générés en avance pour réduire la latence de finition de la prédiction.

Enfin, vLLM prend en charge différentes techniques de quantification (GPTQ, AWQ, INT4, INT8, FP8), afin de diminuer l’usage mémoire et accélérer l’inférence sur matériel contraint.

Compatibilité matérielle & intégration (modèles, API)

vLLM vise à être compatible avec un large éventail de matériels : GPU NVIDIA, GPU AMD, CPUs Intel/AMD, TPU. Il offre aussi la possibilité d’extension via des plugins hardware (ex : Ascend).

Côté modèles, il s’intègre avec les architectures Hugging Face, prend en charge les modèles multimodaux, les adaptateurs LoRA, et offre un serveur API compatible OpenAI pour faciliter l’intégration dans des workflows existants.

De plus, la version “V1 engine” apporte une refonte du cœur (scheduler, gestion KV, API) pour rendre la base de code plus modulaire et efficiente, tout en maintenant les optimisations clés.

vLLM : toutes les réponses à vos questions

Avec quels OS ou plateformes est‑il compatible ?

vLLM fonctionne principalement sur Linux. Il supporte les GPU NVIDIA (CUDA), les GPU AMD, les CPU Intel/AMD, et des TPU selon les versions.

Des plugins comme vLLM‑Ascend permettent l’usage sur le matériel NPU Ascend dans certains cas.

Un backend OpenVINO est aussi disponible pour les CPU x86-64 (avec au moins AVX2).

Faut‑il créer un compte pour l’utiliser ?

Non, l’utilisation de vLLM en open source ne nécessite pas de compte utilisateur. C’est une bibliothèque que vous installez localement ou sur vos serveurs, sans abonnement ni vérification centralisée.

Cependant, si vous interagissez avec des services tiers ou des API basées sur vLLM, un compte pourrait être requis selon le service.

Gratuit ou payant ?

vLLM est distribué en open source (licence Apache‑2.0).

Toutes les fonctionnalités de base sont gratuites. Certains composants matériels ou plugins spécifiques peuvent dépendre d’outils externes ou d’implémentations communautaires.

La communauté et les contributions externes peuvent proposer des extensions, mais cela ne modifie pas la nature libre du projet.