Quota zijn de grenzen aan hoeveel je van een dienst mag gebruiken. Hoeveel verzoeken per minuut je naar een model mag sturen, hoeveel trainingsjobs je tegelijk mag draaien, hoeveel van een bepaalde dure hardware je mag inzetten. Ze bestaan om de infrastructuur eerlijk te verdelen en om jou te beschermen tegen onbedoeld extreem gebruik.
Veel mensen komen quota pas tegen als ze ertegenaan lopen: een toepassing die ineens foutmeldingen geeft omdat de limiet is bereikt. Door quota vooraf te begrijpen en te beheren, voorkom je die verrassingen en houd je je toepassingen soepel draaiend.
Waarom quota bestaan
Quota dienen twee doelen. Ze verdelen gedeelde infrastructuur eerlijk, zodat niet een gebruiker alle capaciteit opslokt. En ze beschermen jou: een fout in je code die per ongeluk een miljoen verzoeken afvuurt, wordt door een quotum afgeremd voordat het een enorme rekening of een storing veroorzaakt.
Dat tweede doel wordt vaak vergeten, maar is waardevol. Een quotum is ook een vangnet. Het zet een bovengrens op wat er mis kan gaan, of dat nu een fout, een aanval of een uit de hand gelopen test is. In die zin is een quotum niet alleen een beperking maar ook een bescherming.
Per minuut of per gelijktijdig gebruik
Quota worden vaak uitgedrukt per minuut of per gelijktijdig gebruik. Een limiet van verzoeken per minuut betekent dat je binnen elke minuut niet meer dan dat aantal mag sturen. Overschrijd je het, dan krijg je tijdelijk foutmeldingen (meestal een 429-status) tot de minuut voorbij is.
Je quota bekijken
In de Google Cloud-console vind je onder IAM en beheer, bij Quota en systeemlimieten, een overzicht van je quota per dienst. Daar zie je per limiet wat je maximum is en hoeveel je ervan gebruikt. Dat overzicht is je startpunt: voordat je een toepassing opschaalt, check je of je quota het verwachte gebruik aankunnen.
Het loont om dit vooraf te doen, niet pas als het misgaat. Als je weet dat een nieuwe toepassing veel verzoeken gaat doen, kijk je eerst of je limiet toereikend is en vraag je tijdig een verhoging aan. Een verhoging kan even duren, dus je wilt er niet op het laatste moment achter komen.
Zo bekijk je je Vertex AI-quota
- Open in de Google Cloud-console IAM en beheer en kies Quota en systeemlimieten.
- Filter op de dienst (bijvoorbeeld Vertex AI API) en op de regio die je gebruikt.
- Bekijk per limiet je maximum en je huidige gebruik.
- Schat in of je quota het verwachte gebruik aankunnen.
- Vraag tijdig een verhoging aan waar nodig.
- Stel waarschuwingen in zodat je het merkt wanneer je een limiet nadert.
Een verhoging aanvragen
Loop je tegen een grens aan of verwacht je dat te gaan doen, dan vraag je een verhoging aan via de console. Je selecteert het quotum, kiest Quotum bewerken en geeft de gewenste nieuwe waarde op, vaak met een korte toelichting waarom. Google beoordeelt het verzoek en kent het toe als het redelijk is. Om een verzoek te kunnen indienen heb je een rol nodig met het recht serviceusage.quotas.update, dat zit standaard in de rollen Eigenaar, Bewerker en Quota Administrator.
Vraag op tijd aan. Een verhoging is niet altijd direct geregeld, zeker niet bij grote sprongen of bij schaarse hardware. Plan dit een paar dagen vooruit, zodat je niet stilstaat op het moment dat je juist wilt opschalen. Bij echt grote verhogingen kun je het beste samen met je Google Cloud-accountteam optrekken.
Vraag verhogingen aan voordat je ze nodig hebt
Vraag quotaverhogingen aan voordat je toepassing tegen de grens loopt. Een verhoging kan tijd kosten om goedgekeurd te worden, en een toepassing die op een limiet vastloopt, faalt intussen voor je gebruikers.
Quota als kostenrem
Quota hebben een verrassend nuttige bijrol: ze begrenzen je kosten. Een lager quotum betekent dat een fout of een uit de hand gelopen proces maar tot een bepaalde hoogte schade kan aanrichten. Zo werkt een quotum als een rem die voorkomt dat een ongeluk een gigantische rekening oplevert.
Voor diensten waar je niet veel gebruik verwacht, kun je quota bewust laag houden. Dan weet je dat er geen verrassingen kunnen ontstaan boven dat niveau. Het is een eenvoudige maar effectieve manier om grip te houden, naast budgetten en waarschuwingen.
De drie strategieën hieronder vullen elkaar aan:
| Strategie | Wanneer | Waarom |
|---|---|---|
| Houd quota laag | Diensten met laag verwacht gebruik | Een fout of aanval kan maar beperkte schade aanrichten |
| Verhoog quota tijdig | Diensten die je bewust opschaalt | Je toepassingen lopen niet vast op een limiet |
| Combineer met budgetten | Altijd | Naast een gebruikslimiet heb je ook een kostenlimiet en waarschuwingen |
Omgaan met limieten in je code
Een goede toepassing gaat netjes om met quota. Bereik je een limiet, dan krijg je een specifieke foutmelding (meestal 429 Resource exhausted). In plaats van meteen te falen, kan je code even wachten en het opnieuw proberen, met een oplopende wachttijd (exponentiele backoff). Zo overleeft je toepassing tijdelijke pieken zonder te crashen.
Dit netjes opvangen van limieten maakt je toepassing robuust. Verkeer komt zelden gelijkmatig binnen, en een korte piek hoeft geen storing te betekenen als je code geduldig opnieuw probeert. Bouw deze veerkracht in vanaf het begin.
Vang quotafouten netjes op
Een toepassing die niet netjes omgaat met quotafouten, valt hard om bij een verkeerspiek. Bouw opnieuw proberen met oplopende wachttijd in, zodat een tijdelijke limiet een korte vertraging wordt in plaats van een storing voor je gebruikers.
Tot slot
Quota zijn geen vijand maar een hulpmiddel. Ze verdelen capaciteit eerlijk, beschermen je tegen ongelukken en helpen je kosten beheersen. Door ze te kennen, op tijd te verhogen waar nodig en er in je code netjes mee om te gaan, houd je je toepassingen soepel en veilig draaiend. Ken je grenzen, verhoog ze op tijd, gebruik ze bewust als bescherming en vang ze netjes op in je code voor een betrouwbare omgeving.
Waarom bestaan quota?
Om gedeelde infrastructuur eerlijk te verdelen en om jou te beschermen tegen onbedoeld extreem gebruik dat tot storingen of hoge kosten leidt.
Hoe verhoog ik een quotum?
Via het quotaoverzicht in de Google Cloud-console selecteer je het quotum, kies je Quotum bewerken en geef je een nieuwe waarde op met een korte toelichting. Google beoordeelt het verzoek en kent het toe als het redelijk is. Je hebt het recht serviceusage.quotas.update nodig, dat zit in de rollen Eigenaar, Bewerker en Quota Administrator.
Kan ik quota gebruiken om kosten te beheersen?
Ja. Een lager quotum begrenst hoeveel een fout of aanval kan kosten. Het werkt als rem naast budgetten en waarschuwingen.
Wat gebeurt er als ik een limiet overschrijd?
Je krijgt tijdelijk foutmeldingen, meestal een 429-status, tot de limiet weer ruimte heeft. Een goede toepassing wacht even en probeert het opnieuw met oplopende wachttijd.
Hoe lang duurt een quotaverhoging?
Dat verschilt. Kleine verhogingen kunnen snel gaan, maar grote sprongen of schaarse hardware kunnen dagen duren. Vraag daarom een paar dagen vooruit aan en trek bij grote verhogingen op met je Google Cloud-accountteam.
Gelden quota per regio?
Vaak wel. Veel Vertex AI-limieten worden per regio bijgehouden, dus controleer het overzicht voor elke regio waarin je werkt en vraag verhogingen per regio aan.