RAG Engine in Vertex AI: kennisbank bouwen

Met RAG Engine in Vertex AI bouw je een AI die antwoorden geeft op basis van jouw eigen documenten uit Drive of Cloud Storage, met de bron erbij.

schedule7 min lezen event1 Jun 2026 updateBijgewerkt 52 dagen

open_in_new data_object

Een taalmodel weet veel, maar niet alles, en zeker niet jouw specifieke documenten, beleid of producten. Vraag je het iets over je eigen kennisbank, dan gokt het of zegt het iets dat plausibel klinkt maar fout is. RAG Engine in Vertex AI lost dat op. Het laat het model antwoorden op basis van jouw documenten in plaats van uit het hoofd.

RAG staat voor retrieval-augmented generation. Het idee is eenvoudig en krachtig: voordat het model antwoordt, zoekt het systeem de meest relevante stukken uit jouw documenten en geeft die mee als context. Het model baseert zijn antwoord dan op die echte bronnen. Zo krijg je antwoorden die kloppen met jouw werkelijkheid. RAG Engine is sinds 2025 algemeen beschikbaar (GA) op Vertex AI.

Waarom RAG

Zonder RAG put een model alleen uit wat het tijdens training leerde. Dat is verouderd, algemeen en kent jouw specifieke informatie niet. Je zou kunnen fine-tunen, maar dat is duur en de kennis veroudert weer. RAG is flexibeler: je documenten staan los van het model en je werkt ze gewoon bij wanneer je wilt.

Het tweede grote voordeel is verifieerbaarheid. Omdat het antwoord op aangewezen fragmenten is gebaseerd, kun je tonen waar het vandaan komt. Een gebruiker ziet niet alleen het antwoord maar ook de bron, wat het vertrouwen enorm vergroot.

info

RAG verandert het model niet

RAG voegt jouw documenten niet toe aan het model zelf. Het zoekt bij elke vraag de relevante stukken op en geeft die als context mee. Daardoor blijven je documenten actueel en onder je eigen beheer.

Hoe RAG Engine werkt

Het proces verloopt in twee fasen. Eerst de voorbereiding: je documenten worden in stukken (chunks) geknipt en omgezet in embeddings, die in een index belanden. Bij RAG Engine heet die index een corpus. Dat bouw je een keer op, en je werkt het bij als je documenten veranderen.

Dan de vraagfase: komt er een vraag binnen, dan wordt die ook in een embedding omgezet, zoekt het systeem in het corpus de meest gelijkende fragmenten en geeft die samen met de vraag aan het model. Het model schrijft een antwoord dat op die fragmenten steunt.

De volgorde van die vraagfase ziet er zo uit:

De gebruiker stelt een vraag.
De vraag wordt omgezet naar een embedding.
RAG Engine zoekt de relevante fragmenten in het corpus.
De fragmenten plus de vraag gaan naar het model.
Het model geeft een onderbouwd antwoord, met de bron erbij.

Documenten inladen

RAG Engine haalt je documenten rechtstreeks uit de plekken waar ze al staan. Je kunt importeren vanuit Google Drive (een gedeelde map of losse bestanden) en vanuit een Cloud Storage-bucket (gs://mijn-bucket/map). Daarnaast zijn er connectors voor onder andere Slack, Jira en SharePoint. Ondersteunde formaten zijn onder meer Google Docs, Slides, PDF, DOCX, PPTX, HTML, Markdown en platte tekst.

Wil je vanuit Google Drive importeren, dan moet je de map of het bestand delen met het service-account van RAG Engine. Dat account heeft de vorm service-PROJECTNUMMER@gcp-sa-vertex-rag.iam.gserviceaccount.com. Zonder die deling kan het systeem er niet bij.

warning

Deel alleen wat in de kennisbank mag

Het service-account ziet alles in de gedeelde Drive-map. Zet er geen vertrouwelijke of persoonsgevoelige documenten in die niet in antwoorden mogen opduiken. Maak liever een aparte map met alleen de bronnen die de kennisbank nodig heeft.

Een kennisbank opzetten

Je begint met je documenten verzamelen: handleidingen, beleid, productinformatie, wat dan ook. RAG Engine knipt ze in behapbare stukken en bouwt het corpus op. Hoe je opknipt doet ertoe: te grote stukken zijn vaag, te kleine missen context. Je kunt de chunkgrootte en de overlap tussen chunks zelf instellen. Een goede maat is vaak een alinea of een korte sectie, met een kleine overlap zodat zinnen op de grens niet wegvallen.

Zodra het corpus staat, koppel je het aan een generatief model, bijvoorbeeld een Gemini-model op Vertex AI. Bij elke vraag haalt RAG Engine de relevante stukken op en laat het model antwoorden. Je test met echte vragen om te zien of de juiste fragmenten worden gevonden en of de antwoorden kloppen.

Zo zet je een kennisbank op

Verzamel de documenten in een aparte Drive-map of Cloud Storage-bucket.
Deel die map met het RAG-service-account (service-PROJECTNUMMER@gcp-sa-vertex-rag.iam.gserviceaccount.com) als je Drive gebruikt.
Maak een corpus aan en importeer de bestanden, met een passende chunkgrootte en overlap.
Koppel het corpus aan een generatief model zoals Gemini op Vertex AI.
Test met echte vragen of de juiste fragmenten worden gevonden.
Stel het opknippen bij als antwoorden vaag of incompleet zijn.
Werk het corpus bij wanneer documenten wijzigen.

Een opslagkeuze maken

RAG Engine bewaart de embeddings in een vectordatabase. Standaard gebruikt het de ingebouwde RagManagedDb, die op Google Spanner draait en die Google voor je provisioneert en schaalt. Voor de meeste teams is dat de eenvoudigste start, want je hoeft niets zelf op te zetten.

Heb je al een eigen vectoroplossing of stel je specifieke eisen, dan kun je ook kiezen voor Vertex AI Vector Search, Vertex AI Feature Store, Pinecone of Weaviate. Dat voorkomt vendor lock-in, maar vraagt meer eigen beheer. Begin gerust met de ingebouwde optie en stap pas over als je daar een concrete reden voor hebt.

Kwaliteit verbeteren

Als antwoorden tegenvallen, ligt het zelden aan het model en vaak aan het zoeken. Worden de verkeerde fragmenten opgehaald, dan kan het beste model er niets goeds van maken. Begin je verbetering daarom bij de zoekstap: knip je documenten beter op, stel chunkgrootte en overlap bij, of verbeter de kwaliteit van je bronnen.

Een veel voorkomende fout is rommelige brondata. Verouderde, tegenstrijdige of dubbele documenten leiden tot verwarrende antwoorden. Een opgeruimde, actuele kennisbank geeft betere resultaten dan een grote, slordige verzameling.

lightbulb

Begin klein en schoon

Begin met een kleine, schone set documenten in plaats van alles ineens. Een kennisbank van honderd goede documenten geeft betere antwoorden dan tienduizend rommelige. Breid pas uit als de basis goed werkt.

Betrouwbaarheid en bronnen

Een sterke eigenschap van RAG is dat je de bron kunt tonen. Laat bij elk antwoord zien uit welke documenten het komt. Zo kan de gebruiker zelf controleren en bouw je vertrouwen op. Het verandert een ondoorzichtig antwoord in een onderbouwd antwoord.

Houd er rekening mee dat RAG hallucinaties vermindert maar niet volledig uitsluit. Het model kan nog steeds iets toevoegen dat niet in de bronnen staat. Door het model expliciet te vragen alleen op de gegeven fragmenten te steunen, en bij twijfel te zeggen dat het iets niet weet, beperk je dat verder.

warning

Betrouwbaar, niet onfeilbaar

RAG maakt antwoorden veel betrouwbaarder maar niet onfeilbaar. Controleer bij kritieke toepassingen de antwoorden en toon altijd de bron, zodat gebruikers zelf kunnen verifieren wat het systeem beweert.

Onderhoud

Een kennisbank is geen eenmalig project. Documenten veranderen, beleid wordt herzien, producten worden vervangen. Werk je corpus bij wanneer dat gebeurt, anders geeft je systeem verouderde antwoorden met de schijn van zekerheid, wat erger is dan geen antwoord.

Plan dit onderhoud in. Spreek af wie verantwoordelijk is voor het actueel houden van de bronnen en hoe vaak het corpus wordt ververst. Een goed onderhouden kennisbank blijft jarenlang waardevol.

Wat betekent RAG?

Retrieval-augmented generation: het systeem haalt eerst relevante fragmenten op en laat het model daarop een antwoord baseren.

Waarom niet gewoon fine-tunen?

Fine-tunen is duur en de kennis veroudert. Met RAG houd je je documenten los van het model en werk je ze eenvoudig bij door het corpus te verversen.

Waar kan ik mijn documenten vandaan halen?

RAG Engine importeert onder andere uit Google Drive en Cloud Storage, met connectors voor bronnen als Slack, Jira en SharePoint. Voor Drive deel je de map met het RAG-service-account.

Welke vectordatabase moet ik kiezen?

De ingebouwde RagManagedDb op Spanner is de makkelijkste start, want Google beheert die voor je. Kies pas voor Vector Search, Pinecone of Weaviate als je daar een concrete reden voor hebt.

Geeft RAG altijd het juiste antwoord?

Het vermindert fouten sterk maar niet volledig. Toon de bron en controleer kritieke antwoorden, zodat gebruikers kunnen verifieren.

Hoe groot mag mijn kennisbank zijn?

Zo groot als nodig, maar begin klein en schoon. Kwaliteit van de bronnen weegt zwaarder dan pure omvang.

RAG Engine maakt van een algemeen taalmodel een expert in jouw documenten. Bouw een schoon corpus, toon je bronnen en houd alles actueel voor antwoorden die echt kloppen.

Waarom RAG

Hoe RAG Engine werkt

Documenten inladen

Een kennisbank opzetten

Een opslagkeuze maken

Kwaliteit verbeteren

Betrouwbaarheid en bronnen

Onderhoud

Grounding instellen in Vertex AI voor betrouwbare antwoorden

Grounding in Vertex AI: betrouwbaardere antwoorden van Gemini

Vraag en antwoord over je eigen documenten: van NotebookLM tot een eigen RAG-pijplijn

Wat is RAG? Retrieval-Augmented Generation in begrijpelijke taal

LangChain integreren met Vertex AI