# Batch-voorspellingen uitvoeren op Vertex AI

[[TOC]]

Niet elke voorspelling hoeft direct. Soms heb je een hele stapel data die je in een keer wilt scoren: alle klanten van vannacht, alle nieuwe documenten van vandaag, alle transacties van de week. Daarvoor zijn batch-voorspellingen. Het model verwerkt de hele stapel ineens en schrijft de resultaten weg.

Het grote verschil met een endpoint is dat er niets continu hoeft te draaien. Je start een job, die verwerkt je data, en daarna is alles weer weg. Je betaalt alleen voor de verwerking zelf. Voor periodiek werk is dat veel goedkoper dan een endpoint dat dag en nacht klaarstaat. Sinds begin 2026 leven de Vertex AI-modellen onder het Gemini Enterprise Agent Platform, maar de manier van werken met batch is hetzelfde gebleven.

## Wanneer kies je batch

Batch is de juiste keuze als je geen antwoord per direct nodig hebt. Denk aan een nachtelijke run die voorspellingen klaarzet voor de volgende werkdag, of een wekelijkse analyse. De data is er al, het mag even duren, en je wilt niet voor een continu endpoint betalen.

Heb je daarentegen real-time antwoord nodig op losse verzoeken van gebruikers, dan past een endpoint beter. De twee vullen elkaar aan: een endpoint voor live verzoeken, batch voor het zware periodieke werk.

| Situatie | Beste keuze |
| --- | --- |
| Grote hoeveelheden data periodiek scoren, wachttijd van minuten tot uren is prima | Batch-voorspelling |
| Gebruikers verwachten direct antwoord op losse verzoeken | Endpoint (online) |
| Zowel live verzoeken als zwaar nachtelijk werk | Combineer beide |

:::tip title="Batch is fors goedkoper op Gemini"
Voor Gemini-modellen rekent Vertex AI ongeveer **50 procent minder** voor batch dan voor online verwerking, in ruil voor een doorlooptijd tot 24 uur. Gemini 2.5 Pro zakt zo bijvoorbeeld van 1,25 naar 0,625 dollar per miljoen invoer-tokens. Heb je het antwoord niet meteen nodig, dan is batch bijna altijd de zuinige keuze.
:::

## Hoe een batch-job werkt

Je zet je invoerdata klaar in een ondersteund formaat, meestal in Cloud Storage of BigQuery. Daarna start je een batch-job waarin je het model, de invoerlocatie en de uitvoerlocatie aanwijst. Vertex AI start tijdelijk de nodige machines, verwerkt alle records en schrijft de voorspellingen weg.

Voor Gemini-modellen lever je je verzoeken aan als een JSONL-bestand in Cloud Storage of als een BigQuery-tabel, waarbij elke regel een aanvraag is in hetzelfde formaat als de gewone Gemini-API. De uitvoer kies je los van de invoer: terug naar een BigQuery-tabel of naar een JSONL-bestand in een Cloud Storage-bucket.

Na afloop staan de resultaten op de uitvoerlocatie, klaar om verder te verwerken of in te laden in je systemen. De machines die de job draaiden zijn dan al weer opgeruimd, dus de kosten stoppen.

:::howto title="Zo draai je een batch-voorspelling"
1. Zet je invoerdata klaar in **Cloud Storage** (JSONL) of **BigQuery**, in het formaat dat het model verwacht.
2. Kies het model dat de voorspellingen moet doen, bijvoorbeeld `gemini-2.5-flash`.
3. Start een batch-voorspellingsjob met de invoer- en de uitvoerlocatie.
4. Wacht tot de job klaar is en controleer de status.
5. Lees de voorspellingen uit de uitvoerlocatie (BigQuery-tabel of JSONL-bestand).
6. Verwerk de resultaten in je eigen systemen of rapportages.
:::

## Data voorbereiden

Het formaat van je invoer moet kloppen met wat het model verwacht. Elk record bevat de velden die het model nodig heeft om een voorspelling te doen. Controleer dit zorgvuldig, want een batch van duizenden records met een formaatfout levert duizenden mislukte voorspellingen.

Houd ook rekening met ontbrekende of foute waarden. Bedenk vooraf wat er moet gebeuren met records die incompleet zijn. Filter ze eruit of vul ze aan, zodat je job niet struikelt over een handvol rotte records.

:::tip title="Test eerst klein"
Test je batch-job eerst op een klein bestand met enkele tientallen records. Klopt het formaat en zien de voorspellingen er goed uit, dan draai je pas de volledige set. Zo ontdek je fouten goedkoop.
:::

## Kosten en planning

Batch-voorspellingen kosten alleen rekentijd tijdens de verwerking, plus de batchkorting voor Gemini-modellen. Hoe meer records en hoe zwaarder het model, hoe langer de job en hoe hoger de kost. Maar je betaalt niets voor de tijd dat er geen job draait, wat batch zo aantrekkelijk maakt voor periodiek werk.

Plan je jobs op rustige momenten als dat kan, bijvoorbeeld 's nachts. Automatiseer ze met een planner zodat ze vanzelf draaien en de resultaten klaarstaan wanneer je ze nodig hebt, zonder dat iemand handmatig iets hoeft te starten. Houd er wel rekening mee dat een batch-job tot 24 uur kan duren voordat alle resultaten binnen zijn.

:::warn title="Controleer of de job volledig is geslaagd"
Controleer altijd of een batch-job volledig is geslaagd voordat je de resultaten gebruikt. Een gedeeltelijk mislukte job kan ontbrekende of foute voorspellingen opleveren die je beslissingen vervuilen als je ze blind vertrouwt.
:::

## Resultaten gebruiken

De uitvoer van een batch-job is een bestand of tabel met per record de voorspelling. Die laad je in je database, je rapportage of je toepassing. Vaak is dit de brandstof voor een dashboard of voor een proces dat de volgende ochtend op de verse voorspellingen draait.

Bewaar bij elke run welke modelversie en welke invoer is gebruikt. Als een voorspelling later vragen oproept, wil je kunnen terugzoeken hoe die tot stand kwam. Dat is belangrijk voor controle en vertrouwen.

:::faq
### Wat is het verschil met een endpoint?
Een endpoint geeft real-time antwoord op losse verzoeken en draait continu. Batch verwerkt grote hoeveelheden ineens en draait alleen tijdens de job.

### In welk formaat lever ik mijn data aan?
Voor Gemini-modellen lever je je verzoeken als een JSONL-bestand in Cloud Storage of als een BigQuery-tabel, waarbij elke regel of rij een aanvraag is met de benodigde velden.

### Betaal ik tussen jobs door?
Nee, je betaalt alleen voor de rekentijd tijdens de job. Daarbuiten zijn er geen rekenkosten, alleen eventueel opslag.

### Hoeveel goedkoper is batch dan online?
Voor Gemini-modellen rekent Vertex AI ongeveer de helft van het online-tarief, in ruil voor een doorlooptijd tot 24 uur.

### Hoe lang duurt een batch-job?
Dat hangt af van de hoeveelheid records en het model. Voor Gemini geldt een doelstelling van maximaal 24 uur per job.

### Kan ik batch-jobs automatisch laten draaien?
Ja, je plant ze met een planner zodat ze bijvoorbeeld elke nacht draaien en de resultaten 's ochtends klaarstaan.
:::

Batch-voorspellingen zijn de zuinige keuze voor zwaar periodiek werk. Bereid je data goed voor, test klein, controleer de uitkomst en automatiseer de planning voor een soepel proces.