Le MIT CSAIL a testé un système de modèles de langage capable d’analyser plus de 10 millions de jetons dans un même document. Les essais ont montré que le modèle pouvait traiter de très longs textes sans perdre le fil des informations.

Dans la plupart des modèles de langage, les textes fleuve qui dépassent des milliers de mots saturent rapidement la mémoire. Pour pallier cet encombrement, les chercheurs du MIT ont mis au point un modèle récursif, autrement dit RLM. Au lieu de charger tout le document dans la mémoire, le RLM conserve le texte hors du modèle et ne transmet au LLM que les fragments nécessaires. Il reçoit un aperçu général, comme le nombre total de jetons, puis génère du code pour extraire et analyser chaque section. Le modèle conserve ainsi le contexte complet et peut traiter de longs documents en plusieurs étapes, sans réentraînement.
Les premiers tests ont été effectués sur des documents de plusieurs millions de jetons, soit des textes complexes et des codes, pour mettre à l’épreuve les capacités des modèles classiques.
Des textes de plusieurs millions de jetons enfin exploitables
Les chercheurs du MIT ont mis le RLM à l’épreuve sur des volumineux, de 6 à 11 millions de jetons, pour voir comment le modèle suit le fil des informations. Sur BrowseComp‑Plus, benchmark de récupération de passages précis, le RLM basé sur GPT‑5 a extrait correctement 91 % des réponses attendues. Par comparaison, le modèle standard n’a pu retrouver aucun extrait pertinent, et CodeAct, une méthode concurrente, a atteint 51 %. Sur OOLONG‑Pairs, conçu pour tester le raisonnement à étapes multiples, le modèle de base n’a résolu que 0,04 % des problèmes, tandis que le RLM a donné des réponses correctes dans 58 % des cas. Sur CodeQA, qui évalue la compréhension et l’analyse de code, GPT‑5 classique avait 24 % de bonnes réponses ; le modèle récursif a doublé ce score, à 62 %.
Pour atteindre ces performances, le RLM divise les documents en fragments. Il lit d’abord des indications générales, comme le nombre de sections ou de caractères, puis écrit du code pour localiser les passages clés. Chaque extrait est envoyé séparément dans la fenêtre de contexte, analysé, et intégré dans le résultat final. Alex Zhang, co‑auteur et chercheur au MIT CSAIL, explique que ce découpage permet de traiter des textes très longs sans perdre d’informations ni réentraîner le modèle. Les modèles traditionnels s’arrêtent dès que la mémoire est saturée, mais le RLM garde le fil même quand les documents dépassent largement la limite de jetons.

Une architecture qui divise pour mieux traiter
Le RLM s’organise autour de deux modèles. Le « modèle racine », souvent un GPT‑5 complet, planifie le traitement et écrit le code pour interroger le texte stocké hors mémoire. Le « modèle travailleur », plus rapide et léger, reçoit chaque extrait isolé pour l’analyser. Alex Zhang, chercheur au MIT CSAIL, précise dans son étude que cette séparation permet de traiter les documents en fragments sans saturer la fenêtre de contexte du modèle racine.
Pour récupérer les informations, le RLM écrit des boucles et des commandes simples pour identifier les sections pertinentes. Il peut rechercher des mots-clés, repérer les limites d’un chapitre ou isoler des passages financiers spécifiques. Chaque fragment est ensuite transmis au modèle racine pour produire la réponse finale. Les chercheurs comparent cette organisation à un programmeur qui manipule des fichiers trop volumineux pour tenir en mémoire.
Le RLM peut aussi être combiné à des méthodes comme le RAG, qui associe les modèles de langage à des bases de données externes pour retrouver rapidement des passages spécifiques. Pour Alex Zhang, cette intégration renforce la capacité du système à accéder à des informations précises et garde le raisonnement global. Les équipes peuvent ainsi remplacer les appels classiques aux LLM par des appels récursifs sans modifier l’interface : le modèle accepte une chaîne de caractères et renvoie une réponse complète.
Le code du RLM est disponible sur GitHub pour que les développeurs puissent tester et adapter le système. Alex Zhang précise que, même si le flux de travail ajoute des étapes, les coûts restent comparables aux solutions classiques et que les performances dépassent largement celles des modèles standards sur des tâches de longue portée ou complexes.
Source : VentureBeat