Vertex AI-kosten begrijpen en beheersen

Vertex AI rekent per gebruik af over tokens, draaiuren en opslag. Leer waar het geld weglekt en hoe je met budgetten en bewuste keuzes grip houdt op je rekening.

schedule7 min lezen event1 Jun 2026 updateBijgewerkt 5 uur

open_in_new data_object

De kracht van betalen per gebruik is ook de valkuil. Je betaalt alleen voor wat je gebruikt, maar zonder oplettendheid kan dat sneller oplopen dan je denkt. Een vergeten endpoint, een te groot model of een uit de hand gelopen experiment, en je rekening verrast je. Grip op kosten begint met begrijpen waarvoor je betaalt.

Vertex AI kent meerdere kostenposten naast elkaar. Generatieve modellen reken je af per token. Endpoints en training betaal je per draaiuur van de hardware. En opslag van data, modellen en indexen kost ook iets. Als je die posten kent, kun je gericht sturen op de plekken waar het geld zit.

De belangrijkste kostenposten

De eerste post zijn de tokens. Bij generatieve modellen betaal je voor de hoeveelheid tekst die in en uit het model gaat, gerekend in tokens. Langere prompts en langere antwoorden kosten meer. Grotere, krachtiger modellen kosten per token meer dan kleinere. Input-tokens zijn doorgaans goedkoper dan output-tokens, dus een begrensd antwoord weegt zwaarder mee dan een lange prompt.

De tweede post is rekentijd. Een endpoint dat draait, kost geld per uur, ook zonder verkeer. Een trainingsjob kost rekentijd zolang hij loopt. De derde post is opslag: je data, je modellen en je vector-indexen nemen ruimte in en die ruimte kost iets.

info

Wat is een token?

Een token is ongeveer een woorddeel. Een gemiddeld Nederlands woord is grofweg twee tokens. Door je prompts korter en je antwoorden begrensd te houden, verlaag je direct je tokenkosten bij generatieve modellen.

Waar het geld vaak weglekt

De grootste verrassingen komen meestal van resources die doorlopen zonder gebruik. Een test-endpoint dat je vergat uit te zetten, kost dag en nacht door. Een Workbench-instance met een GPU die een weekend aanstaat, tikt flink aan. Dit zijn de stille kostenlekken, soms honderden euro's per maand zonder dat er ook maar één verzoek doorheen ging.

Een tweede lek is een te zwaar model voor een lichte taak. Het grootste model is verleidelijk, maar voor veel taken is een lichter model bijna even goed en veel goedkoper. Een snel, compact model kost per miljoen tokens een fractie van een groot redeneer-model. Door per taak bewust het juiste model te kiezen, bespaar je vaak fors zonder merkbaar kwaliteitsverlies.

Drie keuzes die het meeste besparen

De volgende drie keuzes leveren in de praktijk de grootste besparing op. Loop ze regelmatig na voor je projecten.

Keuze	Wanneer toepassen	Effect
Ongebruikte endpoints en instances uitzetten	Als ze niet continu nodig zijn	De snelste en grootste besparing, je stopt direct met betalen voor idle hardware
Een lichter model kiezen	Als de taak eenvoudig is en het grootste model geen merkbaar beter resultaat geeft	Lagere kosten per token bij gelijkwaardige kwaliteit
Batch in plaats van een endpoint gebruiken	Als je geen real-time antwoord nodig hebt maar periodiek grote hoeveelheden verwerkt	Batch-verwerking is doorgaans ongeveer de helft goedkoper en vraagt geen draaiend endpoint

Budgetten en waarschuwingen

De belangrijkste gewoonte is een budget met waarschuwingen instellen in Cloud Billing. Je stelt een maandbedrag in en krijgt een melding als je een bepaald percentage daarvan nadert. Zo zie je het aankomen voordat de rekening uit de hand loopt, in plaats van achteraf te schrikken.

Stel waarschuwingen op meerdere niveaus in, bijvoorbeeld bij de helft, bij drie kwart en bij het volledige budget. Dan heb je steeds tijd om in te grijpen. Houd er rekening mee dat een budgetwaarschuwing een melding is en geen harde rem: Vertex AI stopt niet automatisch met uitgeven als je het budget bereikt. Een budget instellen kost vijf minuten en bespaart je mogelijk honderden euro's aan verrassingen.

Zo houd je grip op je kosten

Stel in Cloud Billing een maandbudget in voor je project.
Voeg waarschuwingen toe op meerdere niveaus, bijvoorbeeld 50%, 75% en 100%.
Bekijk regelmatig de kostenoverzichten per dienst en per project.
Spoor ongebruikte endpoints en instances op en zet ze uit.
Stel automatisch stoppen bij inactiviteit in voor je notebooks en Workbench-instances.
Evalueer of een lichter model voldoet voor je eenvoudige taken.

Slim ontwerpen voor kosten

Veel besparing zit in het ontwerp. Een korte, scherpe prompt kost minder dan een lange. Een begrensd antwoord kost minder dan een onbeperkt antwoord. Een kennisbank die alleen relevante fragmenten meegeeft, kost minder dan een die hele documenten in de prompt propt.

Ook caching helpt. Als je vaak dezelfde of vergelijkbare verzoeken doet, kun je antwoorden of een vaste context hergebruiken in plaats van het model elke keer opnieuw te laten werken. Dat verlaagt zowel je kosten als je responstijd. Denk bij het bouwen vanaf het begin aan deze keuzes.

lightbulb

Begrens de lengte van antwoorden

Begrens de maximale lengte van antwoorden bij generatieve modellen. Een model dat onbeperkt mag uitweiden, kost niet alleen meer output-tokens maar geeft vaak ook langdradige antwoorden. Een limiet bespaart geld en verbetert de leesbaarheid.

Overzicht houden

Bekijk regelmatig waar je geld heen gaat. De kostenoverzichten in Google Cloud tonen per dienst en per project wat je uitgeeft. Door dit wekelijks even te checken, merk je een uitschieter snel op en kun je achterhalen waar die vandaan komt. Voor meer detail kun je je facturatiegegevens naar BigQuery exporteren en daar per dienst, project of label analyseren.

Label je resources zodat je kosten kunt toewijzen aan projecten of teams. Dan zie je niet alleen het totaal maar ook waar het zit, wat helpt om gericht te besparen en om kosten eerlijk toe te rekenen binnen je organisatie.

warning

Controleer op draaiende resources

Een vergeten draaiend endpoint of een actieve GPU-instance is de meest voorkomende oorzaak van een onverwacht hoge rekening. Controleer aan het eind van elke werkdag of werkweek of er resources draaien die uit kunnen.

Tot slot

Kostenbeheersing in Vertex AI is geen eenmalige actie maar een gewoonte. Stel budgetten in, zet uit wat je niet gebruikt, kies bewust je modellen en houd je overzichten in de gaten. Met die discipline benut je de kracht van betalen per gebruik zonder de valkuilen.

Waarvoor betaal ik bij Vertex AI?

Voor tokens bij generatieve modellen, voor draaiuren van endpoints en training, en voor opslag van data, modellen en indexen. Deze posten lopen naast elkaar, dus je rekening is de som van alles wat je gebruikt.

Waarom kost een endpoint geld zonder verkeer?

Omdat de hardware draait en het model geladen houdt, ook als er geen verzoeken binnenkomen. Zet endpoints uit als je ze niet gebruikt, of gebruik batch-verwerking voor periodiek werk.

Hoe voorkom ik een onverwacht hoge rekening?

Stel budgetten met waarschuwingen op meerdere niveaus in, zet ongebruikte resources uit en controleer regelmatig je kostenoverzichten. Houd er rekening mee dat een budgetwaarschuwing geen harde rem is, je blijft zelf verantwoordelijk voor het ingrijpen.

Is het grootste model altijd het beste?

Nee. Voor veel taken is een lichter model bijna even goed en flink goedkoper. Kies per taak bewust het juiste model en reserveer de zware modellen voor wat ze echt nodig heeft.

Wat is goedkoper, batch of een endpoint?

Batch-verwerking is doorgaans ongeveer de helft goedkoper dan een draaiend endpoint en vraagt geen permanente infrastructuur. Gebruik batch als je geen antwoord in real time nodig hebt en grote hoeveelheden periodiek verwerkt.

Hoe wijs ik kosten toe aan een team of project?

Label je resources en bekijk de kosten per label in de overzichten van Cloud Billing. Voor meer detail kun je je facturatiegegevens naar BigQuery exporteren en daar per dienst, project of label analyseren.

Vertex AI betaal je per gebruik, en dat geeft je controle, mits je hem pakt. Met budgetten, opgeruimde resources en bewuste keuzes houd je je kosten voorspelbaar en laag.

De belangrijkste kostenposten

Waar het geld vaak weglekt

Drie keuzes die het meeste besparen

Budgetten en waarschuwingen

Slim ontwerpen voor kosten

Overzicht houden

Tot slot

Vertex AI: aan de slag met Google's AI-platform

Vertex AI versus Google AI Studio: wanneer gebruik je wat?

Quota beheren voor Vertex AI-gebruik

Beveiliging instellen voor Vertex AI-workloads

Auditlogs instellen voor Vertex AI