Hybride Suche: Semantische und Keyword-Suche kombiniert

Kernaussage: Hybride Suche kombiniert semantische Vektorsuche mit klassischer Keyword-Suche (BM25), um die Stärken beider Ansätze zu vereinen — und erzielt dabei in den meisten Unternehmensanwendungen bessere Suchergebnisse als jede Einzelmethode.

Was ist hybride Suche?

Hybride Suche (Hybrid Search) bezeichnet eine Suchmethode, die gleichzeitig semantische Ähnlichkeit (über Embedding-Vektoren) und lexikalische Übereinstimmung (über traditionelle Keyword-Algorithmen wie BM25) berechnet und beide Signale zu einem kombinierten Relevanz-Score zusammenführt.

Der Hintergrund: Semantische Vektorsuche ist stark für konzeptuelle Ähnlichkeit ("Was bedeutet das?"), aber schwach bei exakten Begriffen (Eigennamen, Produktnummern, Akronymen). BM25-Volltextsuche ist stark bei exakten Treffern, aber blind für semantische Varianten. Hybride Suche vereint beide Stärken.

In RAG-Systemen ist hybride Suche oft die beste Wahl: Das System findet Dokumente, die semantisch ähnlich sind UND exakte Keywords enthalten — mit entsprechend höherer Präzision.

Wie hybride Suche funktioniert

Parallele Ausführung

Für eine Anfrage werden gleichzeitig eine Vektorsuche (semantisch) und eine Keyword-Suche (BM25) ausgeführt. Beide liefern gerankte Ergebnislisten.

Reciprocal Rank Fusion (RRF)

Die verbreitetste Methode, beide Rankinglisten zu kombinieren: RRF kombiniert die Rangpositionen aus beiden Listen, ohne dass explizite Score-Kalibrierung nötig ist.

Gewichtetes Merging

Alternativer Ansatz: Semantik- und Keyword-Scores werden mit konfigurierbaren Gewichtungen zusammengeführt. Ermöglicht feinere Kontrolle über den Einfluss beider Signale.

Wann hybride Suche besonders vorteilhaft ist

  • Firmennamen und Eigennamen: Vektorsuche allein kann bei unbekannten Namen versagen; BM25 findet exakte Treffer
  • Produktcodes und Artikelnummern: Exakte Begriffe ohne semantische Varianten
  • Fachbegriffe: Wenn die genaue Formulierung wichtig ist
  • Mehrsprachige Kontexte: Hybride Suche ist oft robuster bei Sprachmix

Praxisbeispiele im DACH-Kontext

Großhändler in München: Produktsuche mit hybrider Suche über 500.000 Artikel: Kunden finden Produkte durch semantische Beschreibungen ("Kabel für Outdoor-Einsatz, wasserdicht") ebenso wie durch exakte Artikelnummern — in beiden Fällen mit hoher Präzision.

Versicherung in Zürich: Interne Dokumentensuche für Schadenssachbearbeiter: Hybride Suche über Schadensberichte und Richtlinien findet sowohl semantisch verwandte Präzedenzfälle als auch exakt gematchte Vertragsklauseln.

Wie Knowlee hybride Suche nutzt

Knowlee implementiert hybride Suche für alle Retrieval-Operationen: Bei der Kontextsuche für KI-Agenten werden semantische Ähnlichkeit und exakte Keyword-Übereinstimmung kombiniert. Das Ergebnis: präzisere Kontextauswahl, weniger irrelevante Information, bessere Agentenleistung.

FAQ

Ist hybride Suche immer besser als reine Vektorsuche? In der Praxis meistens ja, besonders wenn der Datensatz Eigennamen, Codes oder Fachjargon enthält. In sehr konzeptuellen Suchanwendungen ohne exakte Begriffe kann reine Vektorsuche ausreichen.

Welche Datenbanken unterstützen hybride Suche nativ? Weaviate, Qdrant und ElasticSearch/OpenSearch unterstützen hybride Suche. pgvector mit Kombination aus FTS und Vektor-Index ermöglicht ebenfalls hybride Suche in PostgreSQL.

Wie wählt man die richtige Gewichtung für die Kombination? Durch Offline-Evaluation auf einem Test-Set mit bekannten relevanten Dokumenten. Die optimale Gewichtung ist anwendungsspezifisch und sollte empirisch ermittelt werden.