Retrieval Augmented Generation

Il Retrieval Augmented Generation (RAG) è un'architettura AI che potenzia la risposta di un modello linguistico recuperando prima documenti rilevanti da una knowledge base esterna, poi usando quei documenti come contesto di ancoraggio durante la generazione. Il RAG consente a un modello di rispondere da informazioni attuali, specifiche e proprietarie anziché dai soli dati di addestramento statici.

Come Funziona

Un sistema RAG opera in due fasi sequenziali per ogni query:

Fase di recupero:

La query in input viene convertita in un vettore tramite un modello di embedding.
Quel vettore viene usato per cercare in un database vettoriale contenente documenti suddivisi in chunk e embeddati dalla knowledge base.
I chunk semanticamente più simili vengono recuperati tramite vector search.

Fase di generazione:

I chunk recuperati vengono preposti al prompt del modello linguistico come contesto.
Il modello genera una risposta usando sia la conoscenza pre-addestrata che il contesto recuperato.
L'output è ancorato a informazioni reali, non a inferenze dai dati di addestramento.

La qualità del recupero è il principale determinante della qualità dell'output RAG. Chunking migliore, embedding migliori e strategie di recupero ibrido più raffinate migliorano tutti il contesto di ancoraggio, e quindi la risposta finale.

Casi d'Uso Comuni

Q&A aziendale — i dipendenti interrogano documentazione interna, SOP e knowledge di prodotto in linguaggio naturale.
Sales intelligence — gli agenti recuperano la cronologia degli account e i segnali recenti prima di comporre outreach personalizzato.
Revisione di contratti e documenti — l'AI recupera precedenti o clausole rilevanti prima di redigere o analizzare nuovi documenti.
Customer support — gli assistenti recuperano documentazione di prodotto e policy per rispondere con precisione a domande specifiche.

RAG vs. Fine-Tuning

Il fine-tuning incorpora la conoscenza nei pesi del modello; aggiornarla richiede un ciclo completo o parziale di ri-addestramento. Il RAG archivia la conoscenza esternamente; aggiornarla significa aggiornare la knowledge base, il che è immediato ed economico. Per i casi d'uso enterprise dove i dati cambiano frequentemente (prezzi, stato degli account, specifiche di prodotto), il RAG è quasi sempre la scelta corretta. Il fine-tuning è più adatto per adattare lo stile o il pattern di ragionamento del modello, non la sua conoscenza fattuale.

Termini Correlati

L'Approccio di Knowlee

Il RAG è l'architettura di recupero centrale dentro Knowlee. Ogni azione degli agenti — generare outreach, valutare un prospect, riepilogare la cronologia di un account — inizia con un passaggio di recupero contro il knowledge graph. Il contesto recuperato è ancorato a dati reali degli account, non a inferenze del modello. È questo che consente una personalizzazione genuina su larga scala anziché la sostituzione di variabili in template. Per un'analisi più approfondita di come questa architettura si trasformi in un vantaggio strategico durevole, vedi The Enterprise Knowledge Graph Moat.