Intel et l'Institut Weizmann ont présenté, mercredi, une technique de « décodage spéculatif », capable d'accélérer l'inférence des modèles d'intelligence artificielle jusqu'à 2,8 fois, sans tailler dans la qualité des réponses.

On vous présente aujourd'hui le décolage spéculatif, une nouvelle étape dans l'IA générative © Bird stocker TH / Shutterstock
On vous présente aujourd'hui le décolage spéculatif, une nouvelle étape dans l'IA générative © Bird stocker TH / Shutterstock

En marge de la Conférence internationale sur l'apprentissage automatique (ICML) qui a lieu cette semaine à Vancouver, des chercheurs de l'Institut Weizmann et du géant Intel indiquent avoir fait un vrai bond en avant dans l'optimisation de l'intelligence artificielle générative. Ce bond a une qualification : le « décodage spéculatif universel ».

Les experts disent, rapport de recherche à l'appui, avoir développé une méthode prometteuse, permettant d'accélérer n'importe quel grand modèle linguistique grâce à des petits modèles assistants, même s'ils proviennent de développeurs différents. L'approche est déjà intégrée dans la bibliothèque Hugging Face Transformers, de la licorne franco-américaine, qui aide à démocratiser l'accès à ces performances accrues pour des millions de développeurs partout dans le monde.

Une innovation qui supprime les barrières entre modèles d'IA générative

Depuis le Canada, les équipes d'Intel Labs et de l'Institut Weizmann des sciences ont dévoilé leur solution au problème des vocabulaires hétérogènes. Traditionnellement, le décodage spéculatif nécessitait que les modèles partagent le même vocabulaire, ce qui limitait drastiquement les possibilités d'optimisation.

Mais la nouvelle technique brise cette barrière, en permettant à n'importe quel petit modèle provisoire d'accélérer n'importe quel grand modèle linguistique, quelles que soient leurs différences de vocabulaire. « Nos travaux de recherche montrent comment transformer l'accélération spéculative en un outil universel. Il ne s'agit pas seulement d'une amélioration théorique, mais d'outils pratiques qui aident déjà les développeurs à créer des applications plus rapides et plus intelligentes », explique Oren Pereg, chercheur senior chez Intel Labs.

Dans le détail, l'innovation repose sur trois nouveaux algorithmes qui découplent le codage spéculatif de l'alignement du vocabulaire. Cette approche que nous découvrons ouvre la voie à un déploiement flexible des modèles. Les développeurs pourraient ainsi associer librement différents modèles selon leurs besoins de performance et leurs contraintes matérielles.

Le décodage spéculatif démystifié par l'exemple

Avant de nous égarer, arrêtons-nous un instant sur le décodage spéculatif. Le principe peut sembler complexe, mais il s'appuie sur une logique simple d'efficacité collaborative. Imaginez une question posée à un modèle d'IA : « Quelle est la capitale de la France... » Un modèle traditionnel génère chaque mot étape par étape, calculant entièrement « Paris », puis « une », puis « célèbre », en consommant des ressources importantes à chaque étape.

Avec le décodage spéculatif, le petit modèle assistant rédige rapidement une phrase complète comme « Paris, une ville célèbre... » Le grand modèle vérifie ensuite cette séquence en une seule fois, en réduisant considérablement les cycles de calcul par mot de sortie. Cette méthode peut multiplier par 2,8 la vitesse d'inférence, sans aucune perte de qualité dans les résultats, ce qui est très important.

La révolution technique repose sur l'utilisation du texte brut comme représentation intermédiaire partagée entre les différents vocabulaires. Les algorithmes développés permettent ainsi de contourner les limitations des familles de modèles co-entraînés, ce qui rend le décodage spéculatif vraiment universel et indépendant des fournisseurs.

Intel ouvre une nouvelle ère pour le développement d'applications d'IA

L'impact de cette recherche dépasse le cadre académique. Les algorithmes sont en effet déjà intégrés dans la bibliothèque open source Hugging Face Transformers, qui compte plus de 378 000 dépôts et 6 000 packages open source qui en dépendent. L'intégration permet aux créateurs d'applications d'accéder immédiatement à l'accélération avancée, sans nécessiter d'adaptation de code.

Intel note que l'adoption par la communauté open source a été remarquablement rapide. Les mainteneurs principaux de Hugging Face ont évalué en profondeur l'efficacité de ces méthodes et ont découvert qu'elles étaient les plus performantes parmi tous les algorithmes de décodage spéculatif précédemment supportés, sur divers cas d'usage et configurations matérielles.

« Ce travail lève un obstacle technique majeur à l'accélération et à l'abaissement du coût de l'IA générative », souligne Nadav Timor, doctorant dans l'équipe du professeur David Harel à l'Institut Weizmann. Les développeurs, entreprises et chercheurs vont pouvoir combiner les modèles selon leurs besoins spécifiques, et les mettre au service de l'innovation, indispensable dans un écosystème IA de plus en plus fragmenté.

Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2025
À découvrir
Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2025

11 juillet 2025 à 13h53

Comparatifs services