RAG : définition, fonctionnement et pièges à éviter en 2026

Un toit s'effondre sur un banquet grec, et l'art de mémoire est né. Le RAG repose sur la même intuition : on ne retrouve que ce qu'on a rangé. Explication, état de l'art mi-2026 et les trois erreurs qui condamnent les projets d'entreprise.

La salle est pleine. Simonide de Céos vient d'achever son éloge, la coupe circule, les convives rient encore de la dernière strophe quand un serviteur glisse au poète que deux jeunes hommes le demandent dehors. Il sort. Personne ne l'attend. Dans son dos, un craquement sourd : le toit du banquet cède d'un bloc et écrase tous ceux qui sont restés à table. Les corps sont broyés au point que les familles, le lendemain, ne reconnaissent plus les leurs.

Mis à jour le 5 juillet 2026.

Cicéron raconte la suite dans le De oratore. Sommé d'identifier les morts, Simonide ferme les yeux et parcourt mentalement la salle : il ne se rappelle aucun visage en détail, mais il sait qui était assis où. Rangée par rangée, place par place, il rend chaque cadavre à sa famille. De ce réflexe naît l'art de mémoire — la méthode des loci, le « palais de mémoire » que les orateurs romains pratiqueront pendant des siècles et dont Frances Yates a retracé la longue fortune. La leçon tient en une phrase : pour retrouver une chose, ne cherche pas la chose, cherche sa place.

Vingt-cinq siècles plus tard, cette phrase décrit trait pour trait l'architecture qui réconcilie l'IA générative avec la connaissance des entreprises : le RAG, Retrieval-Augmented Generation — la génération augmentée par la recherche.

Des modèles brillants, mais sans domicile

Vous avez testé ChatGPT, Claude ou Gemini, et vous avez été impressionné. Puis vous avez posé une question propre à votre entreprise — un produit, un client, une procédure interne — et l'IA a répondu à côté, avec un aplomb déconcertant. Rien d'anormal : un grand modèle de langage apprend des régularités sur des milliards de textes publics, mais il ignore tout de vous. La culture générale d'un agrégé, la mémoire d'un poisson rouge dès qu'il s'agit de vos affaires.

Platon avait pressenti l'ironie. Dans le Phèdre, le dieu Theuth offre l'écriture au roi d'Égypte, qui la refuse : confier sa mémoire à des signes extérieurs produira des hommes qui paraissent savoir sans rien savoir. Un LLM brut est ce lettré platonicien — il a lu la bibliothèque du monde, mais sans ancrage, il récite plus qu'il ne sait. Le RAG répond à l'objection du roi par un déplacement simple : on ne demande plus à l'IA de tout savoir, on lui apprend où aller vérifier.

Indexer, chercher, générer : la salle du banquet en trois temps

Revenons dans la salle, avant l'effondrement. Ce que fait Simonide sans y penser — associer chaque convive à sa place — un système RAG le fait industriellement, en trois temps.

Indexation. Vos documents (PDF, mails, fiches produit, contrats, FAQ) sont découpés en fragments, puis convertis en vecteurs et stockés dans une base dédiée. Chaque fragment y occupe une position dans un espace à plusieurs milliers de dimensions, où la proximité géométrique traduit la proximité de sens. Ce sont les loci de Simonide, version calculable : chaque idée a son siège à table.

Recherche. À la question posée, le système ne relit pas toute la bibliothèque ; il identifie les passages dont la position est la plus proche de celle de la question, comme le poète parcourant les places une à une.

Génération. Le modèle rédige alors sa réponse à partir de ces passages, en citant ses sources. L'intelligence d'un LLM, mariée à la connaissance de votre maison — et une réponse qui rend des comptes, document d'origine à l'appui.

Ce détail des « dimensions » mérite un arrêt, car il touche à une idée vertigineuse. Ranger le sens dans l'espace suppose que les concepts ont une géométrie — que « roi » moins « homme » plus « femme » atterrit près de « reine ». Leibniz rêvait au XVIIe siècle d'une characteristica universalis, une langue où raisonner reviendrait à calculer. Les embeddings vectoriels en sont une incarnation bornée mais réelle : une mathématique du sens, qui définit la qualité de tout ce qui suit — un mauvais modèle d'embedding éloigne ce qui devrait être proche, et le souvenir se perd.

Ce que 2026 a changé, et ce qui tient bon

On a régulièrement annoncé la mort du RAG. L'argument : avec des fenêtres de contexte qui dépassent désormais le million de tokens chez les principaux modèles, pourquoi ne pas verser tous les documents directement dans le prompt ? Trois raisons font que l'architecture résiste. Le coût, d'abord : relire des gigaoctets à chaque question n'a aucun sens économique. La fiabilité, ensuite : les évaluations de long contexte montrent que les modèles exploitent moins bien l'information noyée au milieu d'un contexte géant — le fameux lost in the middle. La gouvernance, enfin : une base de recherche permet de filtrer par droits d'accès et de mettre à jour un document sans rien réentraîner, ce qu'aucun prompt géant ne sait faire.

Le RAG de mi-2026 ne ressemble plus, en revanche, au pipeline linéaire de 2023. Deux évolutions dominent. Le RAG agentique, d'abord : le modèle ne subit plus la recherche, il la conduit — il décompose une question complexe en sous-questions, choisit ses outils de recherche, évalue ce qui remonte et recommence si nécessaire. Le GraphRAG, ensuite : les documents sont reliés dans un graphe de connaissances, précieux quand la réponse exige de connecter des faits dispersés (conformité réglementaire, analyse de contrats croisés), au prix d'une indexation nettement plus lourde. En pratique, les architectures sérieuses combinent : une couche de routage envoie les questions simples vers la recherche vectorielle classique et réserve les machineries coûteuses aux questions qui les justifient.

Les trois erreurs qui condamnent un projet RAG

Après plusieurs déploiements en PME comme en grand groupe, je vois toujours les mêmes trois causes de naufrage — et rarement d'autres.

Le chunking naïf. Découper les documents tous les 500 tokens, sans égard pour leur structure, revient à ranger un souvenir dans le mauvais locus : on ne le retrouvera jamais. Un tableau coupé en deux, une clause contractuelle séparée de son article, une procédure tranchée au milieu d'une étape — chacun de ces fragments orphelins produira des réponses fausses avec des sources exactes. Le remède est connu : découpage aligné sur la structure réelle (titres, sections, clauses), chevauchement contrôlé, métadonnées de provenance sur chaque fragment.

L'évaluation absente. La plupart des projets se jugent à la démonstration : dix questions posées devant le comité, réponses bluffantes, feu vert. Six mois après, personne ne sait si le système s'est dégradé, car personne n'a construit de jeu de test. Un RAG sérieux se dote dès le départ d'un référentiel de questions-réponses validées par les métiers, et mesure à chaque changement deux choses distinctes : est-ce que les bons passages remontent (rappel), et est-ce que la réponse leur reste fidèle (fidélité). Sans cela, on pilote aux anecdotes.

La gouvernance des sources. Verser dans l'index tout le contenu du serveur partagé, c'est indexer quinze ans de versions contradictoires — et l'IA citera avec assurance la procédure abrogée en 2019. Il faut décider ce qui entre (documents à jour, avec un propriétaire identifié), ce qui sort, et qui voit quoi : les droits d'accès doivent être répliqués dans la recherche elle-même, sous peine de faire fuiter la grille salariale via une question innocente. Garbage in, garbage out n'a jamais cessé d'être vrai ; le RAG lui donne juste une voix plus convaincante.

Par où commencer

Rien de tout cela n'est insurmontable, mais rien n'est plug and play — d'où tant de démonstrateurs abandonnés. Dans le cadre de mon activité de conseil en intelligence artificielle, la méthode ne varie pas : un audit des données existantes (lesquelles ont de la valeur, dans quel état), une architecture proportionnée au besoin plutôt qu'à la mode, des itérations courtes avec un jeu d'évaluation dès la première semaine, et un transfert de compétences pour que l'autonomie reste chez vous. Le bon critère de départ tient en une question : quel savoir dort dans vos dossiers que trois secondes de recherche rendraient utile ?

Simonide, lui, n'avait besoin que d'une salle effondrée pour comprendre que rien ne se retrouve qui n'a pas d'abord été rangé.

Le RAG expliqué par un poète grec mort il y a 2 500 ans

Ce que vous allez apprendre

Des modèles brillants, mais sans domicile

Indexer, chercher, générer : la salle du banquet en trois temps

Ce que 2026 a changé, et ce qui tient bon

Les trois erreurs qui condamnent un projet RAG

Par où commencer