De kracht van betalen per gebruik is ook de valkuil. Je betaalt alleen voor wat je gebruikt, maar zonder oplettendheid kan dat sneller oplopen dan je denkt. Een vergeten endpoint, een te groot model of een uit de hand gelopen experiment, en je rekening verrast je. Grip op kosten begint met begrijpen waarvoor je betaalt.
Vertex AI kent meerdere kostenposten naast elkaar. Generatieve modellen reken je af per token. Endpoints en training betaal je per draaiuur van de hardware. En opslag van data, modellen en indexen kost ook iets. Als je die posten kent, kun je gericht sturen op de plekken waar het geld zit.
De belangrijkste kostenposten
De eerste post zijn de tokens. Bij generatieve modellen betaal je voor de hoeveelheid tekst die in en uit het model gaat, gerekend in tokens. Langere prompts en langere antwoorden kosten meer. Grotere, krachtiger modellen kosten per token meer dan kleinere. Input-tokens zijn doorgaans goedkoper dan output-tokens, dus een begrensd antwoord weegt zwaarder mee dan een lange prompt.
De tweede post is rekentijd. Een endpoint dat draait, kost geld per uur, ook zonder verkeer. Een trainingsjob kost rekentijd zolang hij loopt. De derde post is opslag: je data, je modellen en je vector-indexen nemen ruimte in en die ruimte kost iets.
Wat is een token?
Een token is ongeveer een woorddeel. Een gemiddeld Nederlands woord is grofweg twee tokens. Door je prompts korter en je antwoorden begrensd te houden, verlaag je direct je tokenkosten bij generatieve modellen.
Waar het geld vaak weglekt
De grootste verrassingen komen meestal van resources die doorlopen zonder gebruik. Een test-endpoint dat je vergat uit te zetten, kost dag en nacht door. Een Workbench-instance met een GPU die een weekend aanstaat, tikt flink aan. Dit zijn de stille kostenlekken, soms honderden euro's per maand zonder dat er ook maar één verzoek doorheen ging.
Een tweede lek is een te zwaar model voor een lichte taak. Het grootste model is verleidelijk, maar voor veel taken is een lichter model bijna even goed en veel goedkoper. Een snel, compact model kost per miljoen tokens een fractie van een groot redeneer-model. Door per taak bewust het juiste model te kiezen, bespaar je vaak fors zonder merkbaar kwaliteitsverlies.
Drie keuzes die het meeste besparen
De volgende drie keuzes leveren in de praktijk de grootste besparing op. Loop ze regelmatig na voor je projecten.
| Keuze | Wanneer toepassen | Effect |
|---|---|---|
| Ongebruikte endpoints en instances uitzetten | Als ze niet continu nodig zijn | De snelste en grootste besparing, je stopt direct met betalen voor idle hardware |
| Een lichter model kiezen | Als de taak eenvoudig is en het grootste model geen merkbaar beter resultaat geeft | Lagere kosten per token bij gelijkwaardige kwaliteit |
| Batch in plaats van een endpoint gebruiken | Als je geen real-time antwoord nodig hebt maar periodiek grote hoeveelheden verwerkt | Batch-verwerking is doorgaans ongeveer de helft goedkoper en vraagt geen draaiend endpoint |
Budgetten en waarschuwingen
De belangrijkste gewoonte is een budget met waarschuwingen instellen in Cloud Billing. Je stelt een maandbedrag in en krijgt een melding als je een bepaald percentage daarvan nadert. Zo zie je het aankomen voordat de rekening uit de hand loopt, in plaats van achteraf te schrikken.
Stel waarschuwingen op meerdere niveaus in, bijvoorbeeld bij de helft, bij drie kwart en bij het volledige budget. Dan heb je steeds tijd om in te grijpen. Houd er rekening mee dat een budgetwaarschuwing een melding is en geen harde rem: Vertex AI stopt niet automatisch met uitgeven als je het budget bereikt. Een budget instellen kost vijf minuten en bespaart je mogelijk honderden euro's aan verrassingen.
Zo houd je grip op je kosten
- Stel in Cloud Billing een maandbudget in voor je project.
- Voeg waarschuwingen toe op meerdere niveaus, bijvoorbeeld 50%, 75% en 100%.
- Bekijk regelmatig de kostenoverzichten per dienst en per project.
- Spoor ongebruikte endpoints en instances op en zet ze uit.
- Stel automatisch stoppen bij inactiviteit in voor je notebooks en Workbench-instances.
- Evalueer of een lichter model voldoet voor je eenvoudige taken.
Slim ontwerpen voor kosten
Veel besparing zit in het ontwerp. Een korte, scherpe prompt kost minder dan een lange. Een begrensd antwoord kost minder dan een onbeperkt antwoord. Een kennisbank die alleen relevante fragmenten meegeeft, kost minder dan een die hele documenten in de prompt propt.
Ook caching helpt. Als je vaak dezelfde of vergelijkbare verzoeken doet, kun je antwoorden of een vaste context hergebruiken in plaats van het model elke keer opnieuw te laten werken. Dat verlaagt zowel je kosten als je responstijd. Denk bij het bouwen vanaf het begin aan deze keuzes.
Begrens de lengte van antwoorden
Begrens de maximale lengte van antwoorden bij generatieve modellen. Een model dat onbeperkt mag uitweiden, kost niet alleen meer output-tokens maar geeft vaak ook langdradige antwoorden. Een limiet bespaart geld en verbetert de leesbaarheid.
Overzicht houden
Bekijk regelmatig waar je geld heen gaat. De kostenoverzichten in Google Cloud tonen per dienst en per project wat je uitgeeft. Door dit wekelijks even te checken, merk je een uitschieter snel op en kun je achterhalen waar die vandaan komt. Voor meer detail kun je je facturatiegegevens naar BigQuery exporteren en daar per dienst, project of label analyseren.
Label je resources zodat je kosten kunt toewijzen aan projecten of teams. Dan zie je niet alleen het totaal maar ook waar het zit, wat helpt om gericht te besparen en om kosten eerlijk toe te rekenen binnen je organisatie.
Controleer op draaiende resources
Een vergeten draaiend endpoint of een actieve GPU-instance is de meest voorkomende oorzaak van een onverwacht hoge rekening. Controleer aan het eind van elke werkdag of werkweek of er resources draaien die uit kunnen.
Tot slot
Kostenbeheersing in Vertex AI is geen eenmalige actie maar een gewoonte. Stel budgetten in, zet uit wat je niet gebruikt, kies bewust je modellen en houd je overzichten in de gaten. Met die discipline benut je de kracht van betalen per gebruik zonder de valkuilen.
Waarvoor betaal ik bij Vertex AI?
Voor tokens bij generatieve modellen, voor draaiuren van endpoints en training, en voor opslag van data, modellen en indexen. Deze posten lopen naast elkaar, dus je rekening is de som van alles wat je gebruikt.
Waarom kost een endpoint geld zonder verkeer?
Omdat de hardware draait en het model geladen houdt, ook als er geen verzoeken binnenkomen. Zet endpoints uit als je ze niet gebruikt, of gebruik batch-verwerking voor periodiek werk.
Hoe voorkom ik een onverwacht hoge rekening?
Stel budgetten met waarschuwingen op meerdere niveaus in, zet ongebruikte resources uit en controleer regelmatig je kostenoverzichten. Houd er rekening mee dat een budgetwaarschuwing geen harde rem is, je blijft zelf verantwoordelijk voor het ingrijpen.
Is het grootste model altijd het beste?
Nee. Voor veel taken is een lichter model bijna even goed en flink goedkoper. Kies per taak bewust het juiste model en reserveer de zware modellen voor wat ze echt nodig heeft.
Wat is goedkoper, batch of een endpoint?
Batch-verwerking is doorgaans ongeveer de helft goedkoper dan een draaiend endpoint en vraagt geen permanente infrastructuur. Gebruik batch als je geen antwoord in real time nodig hebt en grote hoeveelheden periodiek verwerkt.
Hoe wijs ik kosten toe aan een team of project?
Label je resources en bekijk de kosten per label in de overzichten van Cloud Billing. Voor meer detail kun je je facturatiegegevens naar BigQuery exporteren en daar per dienst, project of label analyseren.
Vertex AI betaal je per gebruik, en dat geeft je controle, mits je hem pakt. Met budgetten, opgeruimde resources en bewuste keuzes houd je je kosten voorspelbaar en laag.