Les chercheurs de la firme Huawei ont dévoilé une nouvelle méthode open source qui rend les modèles IA moins gourmands en mémoire sans diminuer leurs performances.

Les modèles IA deviennent de plus en plus performants et les entreprises multiplient les innovations en matière de mémoire : NVIDIA a, par exemple, développé le mois dernier un tout nouveau format. La firme Apple planche, quant à elle, sur une mémoire HBM à intégrer à ses iPhone. En Chine, des chercheurs ont également dévoilé une réponse aux soucis de mémoire persistante des IA.
De son côté, Huawei vient aussi d'apporter sa contribution à ce domaine et propose une méthode pour diminuer la consommation de mémoire des LLM. On vous explique.
La mémoire des LLM, un défi de taille pour les spécialistes
Plus les modèles IA sont performants, plus ils ont besoin de puissance et de mémoire pour fonctionner. Cela vient notamment du fait que ces technologies utilisent des nombres à virgule flottants, qui offrent une grande précision de calcul mais consomment, hélas, beaucoup de mémoire.
Pour régler ce problème, les chercheurs ont misé sur la technique de la quantification, qui remplace ces nombres précis par des versions simplifiées, plus légères mais aussi plus approximatives. Les équipes de Huawei viennent toutefois de trouver une solution permettant d'utiliser la quantification sans perte de performance : il s'agit de la méthode open source SINQ (« Sinkhorn-Normalized Quantization »), récemment partagée sur le site Arxiv.
SINQ peut réduire la consommation de mémoire de 60% à 70%. Cerise sur le gâteau, cette nouvelle méthode ne nécessite pas d'étapes complexes ou de données supplémentaires.

SINQ, un projet open source prometteur développé par Huawei
Testée sur les modèles de DeepSeek, Qwen3 et LLaMA, SINQ se base sur deux innovations : une mise à l'échelle sur deux axes et un algorithme de type Sinkhorn-Knopp. Elle est capable de quantifier les modèles 2 fois plus vite que la méthode HQQ et 30 fois plus vite que la méthode AWQ. On peut également la combiner avec d'autres techniques d'étalonnage pour produire des résultats plus précis.
Cette méthode devrait permettre le déploiement de modèles IA sur du matériel bien plus abordable et des configurations plus modestes. L'objectif est, avant tout, de permettre aux spécialistes IA de réduire la taille de leurs modèles sans empiéter sur leur qualité.
Le code de SINQ a été partagé sous licence Apache 2.0 sur Github et Hugging Face. Des modèles pré-quantifiés sont également dans les tuyaux et devraient bientôt être proposés sur Hugging Face. En misant sur l'open source, les chercheurs de Huawei espèrent probablement que de nombreuses organisations adopteront leur méthode pour améliorer leurs modèles et que la communauté contribuera à l'amélioration de cette technique innovante.
Source : Venture Beat