RAG — Génération Augmentée par Récupération : Définition et Architecture
Point clé : Le RAG résout le problème fondamental des LLMs en production : leurs connaissances sont gelées à la date d'entraînement et ne couvrent pas les données propriétaires de l'entreprise. En récupérant des documents pertinents avant chaque génération, le RAG transforme un modèle généraliste en expert de vos données.
Définition
La Génération Augmentée par Récupération (RAG, Retrieval-Augmented Generation) est une architecture qui combine un système de récupération de documents avec un modèle de génération de texte. Avant de générer une réponse, le système RAG recherche dans une base de connaissances les passages les plus pertinents pour la requête, puis fournit ces passages comme contexte au LLM pour qu'il génère une réponse ancrée dans des sources concrètes.
Architecture d'un Pipeline RAG
Phase d'Indexation (Offline)
- Les documents sources (contrats, documentation produit, bases de connaissances) sont découpés en segments (chunks).
- Chaque segment est transformé en vecteur numérique via un modèle d'embedding.
- Ces vecteurs sont stockés dans une base de données vectorielle (Pinecone, Qdrant, pgvector).
Phase de Récupération et Génération (Online)
- La requête utilisateur est transformée en vecteur avec le même modèle d'embedding.
- Une recherche de similarité identifie les k segments les plus pertinents.
- Ces segments sont injectés dans le prompt du LLM comme contexte.
- Le LLM génère une réponse en s'appuyant sur ce contexte, plutôt que sur sa seule mémoire paramétrique.
Avantages du RAG par Rapport au Fine-Tuning
| Critère | RAG | Fine-tuning |
|---|---|---|
| Mise à jour des connaissances | Immédiate (mise à jour de l'index) | Réentraînement requis |
| Traçabilité des sources | Native (les segments récupérés sont identifiables) | Opaque |
| Coût | Faible (pas de réentraînement) | Élevé |
| Données confidentielles | Restent dans l'index, ne contaminent pas le modèle | Intégrées au modèle |
Exemple Pratique : Assistant de Réponse aux Appels d'Offres
Une entreprise de services professionnels indexe ses 500 derniers appels d'offres gagnés, ses fiches de références clients et ses présentations de compétences. Lors d'un nouvel appel d'offres, un agent RAG récupère les passages les plus pertinents et rédige une première version de réponse ancrée dans des succès prouvés, avec citations. L'équipe commerciale valide et affine, réduisant le temps de rédaction de 70 %.
Limites et Bonnes Pratiques
Le RAG ne supprime pas les hallucinations — il les réduit. Si le document pertinent n'est pas dans l'index, ou si la récupération échoue, le LLM peut halluciner. Les bonnes pratiques incluent : citer systématiquement les sources récupérées, définir un seuil de confiance minimum pour la récupération, et mettre en place une validation humaine pour les sorties à fort impact.
Knowlee intègre le RAG dans ses agents via le MCP memoryGraph pour les connaissances structurées et ragDolphin pour les documents media, garantissant que les agents travaillent toujours sur des faits vérifiables plutôt que sur des suppositions.
FAQ
Q : Quelle est la différence entre RAG et recherche hybride ? La recherche hybride combine recherche vectorielle (sémantique) et recherche lexicale (BM25) pour améliorer la récupération. C'est une amélioration du composant de récupération du RAG, pas une alternative.
Q : Faut-il un LLM spécifique pour le RAG ? Non. N'importe quel LLM avec une fenêtre de contexte suffisamment large fonctionne. Les modèles avec des fenêtres de 100k+ tokens permettent d'injecter davantage de contexte récupéré.
Q : Comment évaluer la qualité d'un système RAG ? Via des métriques de fidélité (la réponse est-elle soutenue par les documents récupérés ?) et de pertinence de récupération (les bons documents ont-ils été récupérés ?). Des frameworks comme RAGAS automatisent cette évaluation.