Recherche Vectorielle — Définition, Algorithmes et Applications IA

Point clé : La recherche vectorielle trouve du sens, pas des mots-clés. Deux documents peuvent être sémantiquement proches sans partager un seul terme commun — la recherche vectorielle les trouvera là où une recherche lexicale classique échouerait.

Définition

La recherche vectorielle est une méthode de récupération d'information qui représente documents et requêtes comme des vecteurs dans un espace mathématique à haute dimension, puis identifie les documents dont les vecteurs sont les plus proches du vecteur requête selon une mesure de similarité (cosinus, produit scalaire, distance euclidienne).

Cette approche permet la recherche sémantique : deux textes exprimant la même idée avec des mots différents auront des vecteurs proches, même en l'absence de mots communs.

Mécanisme Technique

Embeddings

Les textes sont convertis en vecteurs denses de haute dimension (typiquement 768 à 3072 dimensions) par un modèle d'embedding. Des exemples incluent text-embedding-3-large (OpenAI), E5-large, et les modèles sentence-transformers. La qualité du modèle d'embedding détermine directement la qualité de la recherche.

Index de Recherche Approximative

Pour des millions de vecteurs, une recherche exhaustive est trop lente. Des algorithmes d'indexation comme HNSW (Hierarchical Navigable Small World) ou IVF (Inverted File Index) permettent une recherche approximative du plus proche voisin (ANN) avec des latences de quelques millisecondes.

Mesures de Similarité

La similarité cosinus est la mesure standard pour les textes : elle mesure l'angle entre deux vecteurs indépendamment de leur magnitude, ce qui la rend robuste aux variations de longueur de texte.

Cas d'Usage Enterprise

Recherche documentaire intelligente : Retrouver des clauses contractuelles similaires, des précédents juridiques, des cas client analogues — sans connaître les termes exacts utilisés dans les documents.

Déduplication sémantique : Identifier des fiches prospects en doublon même si les noms d'entreprises sont formulés différemment (« Société Générale » vs « SG »).

Recommandation de contenu : Suggérer des articles, produits ou contacts pertinents basés sur la similarité de profil plutôt que sur des correspondances exactes de catégories.

FAQ

Q : Quelle est la différence entre recherche vectorielle et recherche full-text ? La recherche full-text (BM25, Elasticsearch) cherche des correspondances de termes exacts avec pondération TF-IDF. La recherche vectorielle cherche des correspondances sémantiques. La recherche hybride combine les deux pour de meilleurs résultats.

Q : Peut-on faire de la recherche vectorielle avec PostgreSQL ? Oui, via l'extension pgvector qui ajoute un type de données vector et des opérateurs de similarité. Supabase intègre pgvector nativement.

Q : Combien de vecteurs peut-on indexer efficacement ? Les bases de données vectorielles spécialisées (Qdrant, Pinecone, Weaviate) gèrent des milliards de vecteurs. pgvector est adapté jusqu'à quelques dizaines de millions avec HNSW.

Termes Associés