Le RLM s’organise autour de deux modèles. Le « modèle racine », souvent un GPT‑5 complet, planifie le traitement et écrit le code pour interroger le texte stocké hors mémoire. Le « modèle travailleur », plus rapide et léger, reçoit chaque extrait isolé pour l’analyser. Alex Zhang, chercheur au MIT CSAIL, précise dans son étude que cette séparation permet de traiter les documents en fragments sans saturer la fenêtre de contexte du modèle racine.

Pour récupérer les informations, le RLM écrit des boucles et des commandes simples pour identifier les sections pertinentes. Il peut rechercher des mots-clés, repérer les limites d’un chapitre ou isoler des passages financiers spécifiques. Chaque fragment est ensuite transmis au modèle racine pour produire la réponse finale. Les chercheurs comparent cette organisation à un programmeur qui manipule des fichiers trop volumineux pour tenir en mémoire.

Le RLM peut aussi être combiné à des méthodes comme le RAG, qui associe les modèles de langage à des bases de données externes pour retrouver rapidement des passages spécifiques. Pour Alex Zhang, cette intégration renforce la capacité du système à accéder à des informations précises et garde le raisonnement global. Les équipes peuvent ainsi remplacer les appels classiques aux LLM par des appels récursifs sans modifier l’interface : le modèle accepte une chaîne de caractères et renvoie une réponse complète.

Le code du RLM est disponible sur GitHub pour que les développeurs puissent tester et adapter le système. Alex Zhang précise que, même si le flux de travail ajoute des étapes, les coûts restent comparables aux solutions classiques et que les performances dépassent largement celles des modèles standards sur des tâches de longue portée ou complexes.