RAG '2.0': de Instructed Retriever koppelt AI-agents aan de juiste data
In dit artikel:
Databricks heeft recent een nieuwe architectuur gepresenteerd, de Instructed Retriever (IR), die Retrieval‑Augmented Generation (RAG) uitbreidt om AI-toegang tot bedrijfsdata veel betrouwbaarder te maken. RAG laat grote taalmodellen documenten doorzoeken en antwoorden genereren, maar worstelt met het opvolgen van instructies, het juist interpreteren van domeinspecifieke context en het voorafgaand redeneren over output. Multi‑step agents losten deels het redeneervraagstuk op, maar gingen ten koste van snelheid en efficiëntie. IR probeert deze problemen gerichter aan te pakken.
In plaats van dat systeemspecificaties de zoekquery van het model oppervlakkig beïnvloeden, zet de Instructed Retriever die specificaties als expliciete spelregels voor zowel retrieval (het terugvinden van relevante data) als generation (het formuleren van het antwoord). Praktisch voor de gebruiker verandert er niets: dezelfde vraag levert een chatbotantwoord op. Onder de motorkap splitst IR queries in concrete onderdelen (bijv. “jaar”, “divisie”, “omzet”), rangschikt het resultaten op relevantie en vertaalt natuurlijke taal naar precieze database‑queries (zoals “dit jaar” → WHERE date BETWEEN …). Daardoor ontloopt het systeem de onnauwkeurigheid van ongestuurde NL‑interpretatie.
Benchmarks tonen flinke winst: IR verbetert prestaties ten opzichte van traditionele RAG met ongeveer 70 procent. Toch is IR niet universeel superieur; zeer grote LLM’s zoals GPT‑5.2 en Claude 4.5 Sonnet halen op sommige tests (StaRK‑Instruct, StaRK‑Amazon) hogere scores. Belangrijk detail: die LLM’s hebben honderden miljarden parameters, terwijl Databricks’ IR‑model circa 4 miljard parameters bevat. In verhouding is IR dus opvallend efficiënt — grofweg 90–95 procent van topmodellen bereiken met veel minder rekencapaciteit en kosten.
De kleinere schaal van IR maakt inzet op gewone CPU’s haalbaar en verlaagt API‑kosten aanzienlijk. Een vuistregel die genoemd wordt: ongeveer 1 GB RAM per miljard parameters, wat de praktische voordelen van een compacte architectuur onderstreept. Databricks biedt IR binnen Agent Bricks aan en verwacht dat concurrenten snel soortgelijke oplossingen zullen implementeren. Conclusie: eenvoudige, ongestuurde RAG‑implementaties raken op termijn achterhaald; investeringen in een architectuur die queries expliciet stuurt en domeinkennis structureel meeneemt, betalen zich terug in nauwkeurigheid en kostenreductie.