Vektorsuche: Semantische Ähnlichkeitssuche für KI-Anwendungen
Kernaussage: Vektorsuche (Vector Search) ermöglicht das Finden semantisch ähnlicher Inhalte, unabhängig von exakten Schlüsselwörtern — die Grundlage für RAG-Systeme, semantische Dokumentensuche und kontextbewusste KI-Empfehlungen.
Was ist Vektorsuche?
Vektorsuche ist eine Suchmethode, die Texte, Bilder oder andere Daten als mathematische Vektoren (Listen von Zahlen) repräsentiert und ähnliche Inhalte durch die Berechnung von Vektorabständen im mehrdimensionalen Raum findet.
Im Gegensatz zur klassischen Schlüsselwortsuche (die nach exakten Übereinstimmungen sucht) versteht Vektorsuche semantische Ähnlichkeit: Eine Suchanfrage nach "Vertragskündigung" findet auch Dokumente, die von "Vertragsauflösung" oder "Beendigung des Vertragsverhältnisses" sprechen — ohne dass diese exakten Wörter in der Anfrage vorkommen.
Die Grundlage: Embedding-Modelle wandeln Texte in hochdimensionale Vektoren um, bei denen semantisch ähnliche Texte nah beieinander liegen. Die Suche findet dann die k nächsten Nachbarn eines Anfragevektors (k-Nearest-Neighbor, kNN).
Funktionsweise der Vektorsuche
- Indexierung: Alle Dokumente werden durch ein Embedding-Modell in Vektoren umgewandelt und in einer Vektordatenbank gespeichert.
- Anfrage: Die Suchanfrage wird durch dasselbe Embedding-Modell in einen Vektor umgewandelt.
- Ähnlichkeitsberechnung: Die Datenbank berechnet die Ähnlichkeit des Anfragevektors zu allen gespeicherten Vektoren (typischerweise Kosinus-Ähnlichkeit oder Euklidischer Abstand).
- Rückgabe: Die k ähnlichsten Dokumente werden zurückgegeben.
Ähnlichkeitsmetriken
- Kosinus-Ähnlichkeit: Misst den Winkel zwischen Vektoren — unabhängig von deren Länge. Beliebt für Text-Embeddings.
- Euklidischer Abstand: Misst den geometrischen Abstand. Geeignet, wenn Vektorgröße relevant ist.
- Dot Product: Schnell berechenbar, wird oft für normalisierte Vektoren verwendet.
Praxisbeispiele im DACH-Kontext
Rechtskanzlei in Düsseldorf: Vektorsuche über 10.000 archivierte Vertragsklauseln ermöglicht es Anwälten, semantisch ähnliche Klauseln in Sekunden zu finden — auch wenn sie unterschiedlich formuliert sind. Klassische Volltextsuche hätte diese Ähnlichkeiten nicht erkannt.
E-Commerce in Hamburg: Produktsuchfunktion auf Basis von Vektorsuche: Kunden, die "bequeme Schuhe für lange Wanderungen" suchen, erhalten relevante Ergebnisse, auch wenn kein Produkt exakt diese Formulierung enthält.
Wie Knowlee Vektorsuche einsetzt
Knowlee verwendet Vektorsuche als Kern des RAG-Systems: Alle Firmendaten, Kontakthistorien und Signale werden als Vektoren indexiert. Wenn ein KI-Agent Kontext für eine Aufgabe benötigt, ruft er über semantische Vektorsuche die relevantesten Informationen ab.
FAQ
Was ist der Unterschied zwischen Vektorsuche und Volltextsuche? Volltextsuche findet exakte Keyword-Übereinstimmungen. Vektorsuche findet semantisch ähnliche Inhalte, auch wenn verschiedene Formulierungen verwendet werden. Für viele Anwendungen kombiniert man beide Ansätze (Hybride Suche).
Welche Embedding-Modelle werden für Vektorsuche verwendet? Verbreitet: OpenAI text-embedding-3-large, Cohere Embed v3, BGE-M3, GTE und E5. Für deutschsprachige Texte empfehlen sich mehrsprachige Modelle.
Wie viele Vektoren kann eine Vektordatenbank verwalten? Moderne Vektordatenbanken (Pinecone, Qdrant, Weaviate) verwalten Milliarden von Vektoren. Für die meisten Unternehmensanwendungen im DACH-Mittelstand sind Millionen von Vektoren ausreichend.