Ich bin vom AMLD Intelligence Summit 2026 (10.–12. Februar 2026, im SwissTech Convention Center / EPFL in Lausanne) mit einer Erkenntnis zurückgekehrt, die einfach auszusprechen, aber schwer gut umzusetzen ist: Wir befinden uns in einer Renaissance des Information Retrieval (IR), und "eine Vektorsuche zu haben" ist kein Alleinstellungsmerkmal mehr.
Die Suche ist eine Aufgabe, die im letzten Jahrzehnt viele Verbesserungen erfahren hat; was früher ein einzelnes Suchfeld war, ist heute die Retrieval-Engine hinter zahlreichen Produktoberflächen.
Retrieval Augmented Generation (RAG), die Techniken, die eingesetzt werden, um ein Sprachmodell mit externem Kontext wie Unternehmensdokumenten zu erweitern, ist ein klares Beispiel für diesen Trend. Aber auch andere Dienste zeigen dieses Muster.
Nehmen wir Empfehlungssysteme: Reale Recommender-Systeme nutzen oft einen zweistufigen Prozess. Wie im YouTube-Recommender-Paper von Google detailliert beschrieben, führen sie zunächst eine Kandidatengenerierung durch, indem sie eine kleine Teilmenge aus einem massiven Korpus abrufen, und bewerten (ranken) die Ergebnisse anschliessend. Dieser Wandel ist sogar in Regierungsprojekten sichtbar, wie etwa im Schweizer Bundesrechtsökosystem, wo Fedlex ein Projekt zur "KI-Suche auf Fedlex-Daten" pilotiert.
Hier ist also die wichtigste Erkenntnis, die ich von der Konferenz mitgenommen habe: Im Jahr 2026 besteht der Wettbewerbsvorteil (der "Moat") nicht mehr darin, dass "wir Embeddings haben" oder "wir Vektorsuche nutzen". Es geht darum, ob Ihr Retrieval-Stack domänenspezifisch, evaluationsgetrieben und kosteneffizient genug ist, um zu skalieren.
Die Forschungsgemeinschaft hat uns dies in klarer Sprache mitgeteilt: Selbst grosse Benchmarks wie MTEB existieren aus dem Grund, dass keine einzige Embedding-Methode bei allen Aufgaben dominiert. Das ist auch der Grund, warum sich echter State-of-the-Art bei der "Domänenfokussierung" zeigt: Juristische Sprache ist nicht einfach nur "Englisch mit längeren Sätzen"; domänenspezifisches Pretraining und Anpassung übertreffen in diesen Bereichen wiederholt generische Modelle.
Die Evolution des Information Retrival
Traditionelle Information-Retrieval-Methoden wie TF-IDF (Term Frequency–Inverse Document Frequency) und das besonders erfolgreiche BM25 basieren auf lexikalischer Überschneidung.
BM25 wurde zu einer der am weitesten verbreiteten und effektivsten Ranking-Funktionen in der klassischen Suche. Es trieb in den 2010er Jahren viele reale Suchmaschinen an, und es ist sehr wahrscheinlich, dass, wenn Sie vor 10 Jahren eine Suchleiste verwendet haben, diese genau diese Techniken (oder eine enge Variation davon) nutzte.
Der Grund, warum in diesem Bereich geforscht wurde, ist, dass die lexikalische Suche ein strukturelles Problem hat: den Vokabular-Konflikt (auch bekannt als "lexikalische Lücke").
Das einfachste Beispiel ist immer noch das intuitivste: Wenn Sie eine Suchanfrage haben, die das Wort "Automobil" enthält, werden Sie wahrscheinlich Dokumente verpassen, die nur das Wort "Auto" enthalten, es sei denn, die Suchmaschine hat eine zusätzliche Komplexitätsebene eingeführt, um vordefinierte Synonyme zu handhaben. Es wurde sogar bewiesen, dass dies kein Randfall war.
Konzentrieren wir uns nun nur auf die Schweiz, und die lexikalische Lücke wird schmerzhaft konkret. Die Bundesgesetzgebung der Schweiz wird beispielsweise auf Deutsch, Französisch und Italienisch publiziert. Diese Sprachversionen werden als gleichermassen verbindlich behandelt.
Das bedeutet, dass eine naive Stichwort-Engine rechtlich blind sein kann: Die Suche nach einem deutschen Rechtsbegriff kann die französische Formulierung im Bundesgesetz verpassen (oder umgekehrt), es sei denn, Sie bauen Übersetzung, mehrsprachige Indexierung oder bedeutungsbewusstes Retrieval in das System ein. Selbst wenn BM25 interpretierbar und billig ist, "versteht" es also grundlegend keine Bedeutung; in mehrsprachigen, zitationsreichen und abkürzungsreichen Domänen (Recht, Finanzen) ist Bedeutung jedoch genau das, was darüber entscheidet, ob Ergebnisse brauchbar sind.
Wie Suchmaschinen die Bedeutung einer Anfrage wirklich erfassen können
Vor einigen Jahren erlebte das Feld des Information Retrieval (IR) mit der Einführung des Konzepts des "Dense Retrieval" einen wichtigen Paradigmenwechsel. Es revolutionierte das Spiel, indem es sich auf erlernte Repräsentationen konzentrierte, anstatt Text als einfache "Wortetasche" (Bag of Words) zu behandeln, bei der die Reihenfolge und semantische Beziehungen weitgehend ignoriert werden. Betrachten Sie zum Beispiel die Sätze "Die Katze jagte die Maus" und "Die Maus jagte die Katze". Sie enthalten exakt dieselben Wörter und beziehen sich auf dieselben Entitäten und Handlungen. Dennoch ist die Bedeutung völlig unterschiedlich, da die Wortfolge bestimmt, wer die Handlung ausführt und wer sie empfängt. In einem modernen Kontext erwartet ein Benutzer, der nach "Welches Tier jagte die Maus?" sucht, den ersten Satz ("die Katze") abzurufen. Ein System, das Wortfolge oder semantische Rollen ignoriert, könnte beide Sätze als sehr ähnlich betrachten und den falschen zurückgeben (da beide von Katzen, Mäusen und Jagen handeln).
Die Art und Weise, wie Dense-Retrieval-Methoden dieses Problem lösen, besteht darin, sowohl Anfragen als auch Dokumente in einen kontinuierlichen, hochdimensionalen Raum einzubetten, der als Vektorraum bezeichnet wird. Hier ist die übergeordnete Idee: Stellen Sie sich einen Raum vor, der von Tausenden von Vektoren bevölkert ist, von denen jeder ein Dokument repräsentiert. Wenn wir eine Suche ausführen, wandeln wir die Anfrage in einen eigenen Vektor um, bilden ihn in denselben Raum ab und rufen die Dokumente ab, deren Vektoren dem Anfragevektor am nächsten liegen, da sie am ähnlichsten sind. Dieser vektorbasierte Ansatz ermöglicht es dem Modell, tiefere semantische Bedeutungen und Beziehungen zu erfassen, die dem Text innewohnen – etwas, womit Term-Matching-Methoden wie TF-IDF oder BM25 oft zu kämpfen haben.
Dense Passage Retrieval (DPR) ist ein Paradebeispiel für das moderne "Dense Retrieval"-Framework. Es nutzt eine Dual-Encoder-Architektur eines neuronalen Netzwerks mit zwei separaten Encodern: einem für die Generierung des Anfrage-Embeddings und einem anderen für das Dokumentenpassagen-Embedding. Die entscheidende Innovation besteht darin, dass diese beiden Encoder gemeinsam trainiert werden.
Dieses gemeinsame Training maximiert die Ähnlichkeit (Nähe) von Vektorrepräsentationen für relevante Frage-Passagen-Paare, während es gleichzeitig die Distanz für irrelevante Paare vergrössert. Im Wesentlichen lehrt dieser Prozess dem Modell, die geeigneten Arten von Dokumenten für jede gegebene Anfrage zu antizipieren. Und das ist es, was gross angelegtes Retrieval hocheffizient macht.
Sobald die Dokumenten-Embeddings vorberechnet und indexiert sind, ist der Abrufprozess für eine neue Anfrage extrem schnell: Die Anfrage wird einmal encodiert, und ihr resultierender Vektor wird verwendet, um eine schnelle Nearest-Neighbor-Suche (Suche nach dem nächsten Nachbarn) gegen den riesigen statischen Index von Dokumentenvektoren durchzuführen.
Diese Fähigkeit, Retrieval im Vektorraum in grossem Massstab durchzuführen, ist ein entscheidender Vorteil, der es DPR und ähnlichen Dense-Retrieval-Modellen oft ermöglicht, starke, etablierte Baselines wie BM25 in Bezug auf die Top-k-Retrieval-Genauigkeit deutlich zu übertreffen, insbesondere bei Question Answering (QA)-Benchmarks, bei denen das Verständnis des Kontexts unerlässlich ist.
Die Architektur, die Embeddings und Top-k-Retrieval kombiniert, ist zum Standard für die Implementierung von "LLMs mit Geschäftswissen" geworden. Um ein RAG-System effizient zu implementieren:
- Sie fügen nicht eine gesamte Dokumentenbibliothek in einen LLM-Prompt ein.
- Sie rufen die Top-k-Chunks (oder Seiten, oder Abschnitte) von Dokumenten ab, die am relevantesten sind, und füttern nur diese in das Modell ein.
Diese Technik bietet mehrere Vorteile: Sie senkt die Kosten durch die Verwendung von weniger Token für die Antwortgenerierung, erhöht die Geschwindigkeit, da weniger Kontext verarbeitet wird, und verbessert die Genauigkeit, indem sie die Auswirkungen des "Long Context Decay" abmildert.
Das Abrufen von Daten aus einer Vektordatenbank ist jedoch keine einfache Tätigkeit, insbesondere wenn wir uns in grossem Massstab bewegen. Sie sind ständig gezwungen, den strikten Kompromiss zwischen rasend schneller Effizienz und perfekter Genauigkeit zu navigieren – ein Balanceakt, der von Approximate Nearest Neighbor (ANN)-Algorithmen bewältigt wird.
Während ältere CPU-basierte Standards wie HNSW früher die Norm waren, erfordert die massive Skalierung von GenAI im Jahr 2026 spezialisierte Ansätze. Zwei entscheidende Techniken, die moderne Retrieval-Stacks dominieren, sind:
- CAGRA (CUDA ANNS Graph-based): Ein hochmoderner Graph-Algorithmus, der von NVIDIA von Grund auf für extreme GPU-Beschleunigung entwickelt wurde. Anstatt durch eine CPU ausgebremst zu werden, nutzt er massive Parallelisierung, um auf Datensätzen in Milliardenhöhe einen extrem hohen Durchsatz zu erzielen.
- DiskANN: Ein speicherbasierter Ansatz, der entwickelt wurde, um die "Memory Wall" zu durchbrechen. Anstatt Sie zu zwingen, all Ihre grossen Vektorindizes in teurem RAM zu speichern, nutzt er clever moderne, schnelle NVMe-SSDs, um Milliarden-Datensätze mit kaum spürbaren Latenzeinbussen zu durchsuchen.