RAG — Génération Augmentée par Récupération : Définition et Architecture

Point clé : Le RAG résout le problème fondamental des LLMs en production : leurs connaissances sont gelées à la date d'entraînement et ne couvrent pas les données propriétaires de l'entreprise. En récupérant des documents pertinents avant chaque génération, le RAG transforme un modèle généraliste en expert de vos données.

Définition

La Génération Augmentée par Récupération (RAG, Retrieval-Augmented Generation) est une architecture qui combine un système de récupération de documents avec un modèle de génération de texte. Avant de générer une réponse, le système RAG recherche dans une base de connaissances les passages les plus pertinents pour la requête, puis fournit ces passages comme contexte au LLM pour qu'il génère une réponse ancrée dans des sources concrètes.

Architecture d'un Pipeline RAG

Phase d'Indexation (Offline)

Les documents sources (contrats, documentation produit, bases de connaissances) sont découpés en segments (chunks).
Chaque segment est transformé en vecteur numérique via un modèle d'embedding.
Ces vecteurs sont stockés dans une base de données vectorielle (Pinecone, Qdrant, pgvector).

Phase de Récupération et Génération (Online)

La requête utilisateur est transformée en vecteur avec le même modèle d'embedding.
Une recherche de similarité identifie les k segments les plus pertinents.
Ces segments sont injectés dans le prompt du LLM comme contexte.
Le LLM génère une réponse en s'appuyant sur ce contexte, plutôt que sur sa seule mémoire paramétrique.

Avantages du RAG par Rapport au Fine-Tuning

Critère	RAG	Fine-tuning
Mise à jour des connaissances	Immédiate (mise à jour de l'index)	Réentraînement requis
Traçabilité des sources	Native (les segments récupérés sont identifiables)	Opaque
Coût	Faible (pas de réentraînement)	Élevé
Données confidentielles	Restent dans l'index, ne contaminent pas le modèle	Intégrées au modèle

Exemple Pratique : Assistant de Réponse aux Appels d'Offres

Une entreprise de services professionnels indexe ses 500 derniers appels d'offres gagnés, ses fiches de références clients et ses présentations de compétences. Lors d'un nouvel appel d'offres, un agent RAG récupère les passages les plus pertinents et rédige une première version de réponse ancrée dans des succès prouvés, avec citations. L'équipe commerciale valide et affine, réduisant le temps de rédaction de 70 %.

Limites et Bonnes Pratiques

Le RAG ne supprime pas les hallucinations — il les réduit. Si le document pertinent n'est pas dans l'index, ou si la récupération échoue, le LLM peut halluciner. Les bonnes pratiques incluent : citer systématiquement les sources récupérées, définir un seuil de confiance minimum pour la récupération, et mettre en place une validation humaine pour les sorties à fort impact.

Knowlee intègre le RAG dans ses agents via le MCP memoryGraph pour les connaissances structurées et ragDolphin pour les documents media, garantissant que les agents travaillent toujours sur des faits vérifiables plutôt que sur des suppositions.

FAQ

Q : Quelle est la différence entre RAG et recherche hybride ? La recherche hybride combine recherche vectorielle (sémantique) et recherche lexicale (BM25) pour améliorer la récupération. C'est une amélioration du composant de récupération du RAG, pas une alternative.

Q : Faut-il un LLM spécifique pour le RAG ? Non. N'importe quel LLM avec une fenêtre de contexte suffisamment large fonctionne. Les modèles avec des fenêtres de 100k+ tokens permettent d'injecter davantage de contexte récupéré.

Q : Comment évaluer la qualité d'un système RAG ? Via des métriques de fidélité (la réponse est-elle soutenue par les documents récupérés ?) et de pertinence de récupération (les bons documents ont-ils été récupérés ?). Des frameworks comme RAGAS automatisent cette évaluation.