Een getraind model dat in opslag staat, doet nog niets. Pas als je het achter een endpoint zet, kun je er voorspellingen aan vragen. Een endpoint is het adres waar je toepassing naartoe stuurt en waarvan ze antwoord terugkrijgt, in real time en op verzoek.
Endpoints zijn bedoeld voor situaties waarin je snel een antwoord nodig hebt op losse verzoeken. Een gebruiker doet iets, je toepassing vraagt het model om een voorspelling en geeft het resultaat direct terug. Voor grote stapels data ineens gebruik je liever batch-voorspellingen.
Hoe een endpoint werkt
Bij het deployen kies je een model uit het register en wijs je het toe aan een endpoint. Daarbij bepaal je op welke hardware het model draait. Vertex AI start die hardware, laadt het model en houdt het draaiend, klaar om verzoeken te beantwoorden.
Een endpoint kan meerdere modellen of versies bedienen, met verkeer dat je over die versies verdeelt. Dat is handig als je een nieuwe versie geleidelijk wilt uitrollen en het oude model als terugval wilt houden.
Een endpoint kost geld zolang het draait
Een endpoint draait continu en wordt per uur afgerekend zolang het actief is, ook zonder verzoeken. Dat is de prijs voor een model dat altijd klaarstaat om direct te antwoorden. Voor incidenteel gebruik is batch vaak goedkoper.
Een model deployen
Het deployen verloopt in een paar stappen. Je kiest het model, maakt een endpoint aan en koppelt het model eraan met de gewenste hardware en schaalinstellingen. Na een paar minuten staat het endpoint klaar en kun je het aanroepen.
Bij het aanroepen stuur je je invoer mee in het verwachte formaat en krijg je de voorspelling terug. Regel de toegang via een serviceaccount met de juiste rol, zodat alleen geautoriseerde toepassingen het endpoint kunnen bevragen.
Een model deployen naar een endpoint
- Kies een getraind model uit het modelregister.
- Maak een endpoint aan in de Vertex AI-console of via de API.
- Deploy het model naar het endpoint met de gewenste hardware.
- Stel automatisch schalen in met een minimum en een maximum.
- Geef een toepassing toegang via een serviceaccount met de juiste rol.
- Roep het endpoint aan en verwerk de voorspelling.
Kies een dedicated public endpoint
Voor productie raadt Google een dedicated public endpoint aan in plaats van een gedeeld endpoint. Dat geeft isolatie van het verkeer van anderen, grotere payloads en langere time-outs. Sinds 2025 is dit ook de standaard-serveringswijze voor modellen uit Model Garden.
Automatisch schalen
Verkeer schommelt. Overdag druk, 's nachts stil. Met automatisch schalen past Vertex AI het aantal machines aan op de drukte. Je stelt een minimum en een maximum in. Bij veel verkeer komen er machines bij, bij weinig verkeer vallen ze weer weg.
Het minimum is een belangrijke keuze. Zet je het op nul, dan bespaar je kosten in rustige periodes, maar de eerste verzoeken na stilte zijn traag omdat een machine moet opstarten. Zet je het op een, dan staat er altijd iets klaar tegen continue kosten.
De juiste keuze hangt af van je situatie:
- Minimum van een of hoger als je toepassing altijd snel moet reageren en stille periodes kort zijn.
- Minimum van nul (scale-to-zero) als af en toe een trage eerste reactie acceptabel is en je kosten wilt sparen bij lange stille periodes.
- Batch-voorspellingen als je geen real-time antwoord nodig hebt, maar grote hoeveelheden in een keer verwerkt.
Nieuwe versies uitrollen
Een nieuw model wil je niet meteen al je verkeer geven. Met verkeerssplitsing stuur je eerst een klein deel naar de nieuwe versie en houd je de rest op de oude. Presteert de nieuwe versie goed, dan verhoog je het aandeel stap voor stap.
Zo ontdek je problemen voordat ze al je gebruikers raken. Gaat er iets mis, dan zet je het verkeer terug naar de oude versie zonder downtime. Dit is veiliger dan een harde omschakeling in een keer.
Test eerst op een klein deel van het verkeer
Test een nieuwe modelversie altijd eerst op een klein deel van het verkeer. Een model dat in de test goed leek maar op echt verkeer faalt, raakt zo maar een handvol gebruikers in plaats van iedereen.
Beveiliging en monitoring
Een endpoint is een ingang naar je model en verdient bescherming. Geef alleen de toepassingen die het echt nodig hebben toegang, via serviceaccounts met minimale rechten. Log de verzoeken zodat je kunt zien wie wat wanneer vroeg. Wil je het endpoint helemaal buiten het publieke internet houden, gebruik dan een privaat endpoint via Private Service Connect.
Monitor daarnaast de prestaties. Houd de responstijd, het aantal fouten en de belasting in de gaten. Zo merk je op tijd of een endpoint overbelast raakt of trager wordt, voordat gebruikers erover klagen.
Wat is het verschil tussen een endpoint en een batch-voorspelling?
Een endpoint geeft direct antwoord op losse verzoeken. Batch verwerkt grote hoeveelheden in een keer, zonder dat je een real-time antwoord nodig hebt. Voor live toepassingen kies je een endpoint, voor periodieke verwerking batch.
Waarom kost een endpoint geld zonder verkeer?
Omdat de hardware draait en het model geladen houdt om direct te kunnen antwoorden. Met een minimum van nul (scale-to-zero) beperk je deze kosten in stille periodes, ten koste van een tragere eerste reactie.
Kan ik twee modelversies tegelijk draaien?
Ja. Je verdeelt het verkeer over versies op een endpoint, wat handig is voor een geleidelijke uitrol met een terugval naar de oude versie.
Wat is het verschil tussen een dedicated en een gedeeld endpoint?
Een dedicated public endpoint isoleert jouw verkeer en biedt grotere payloads en langere time-outs. Een gedeeld endpoint deelt capaciteit met anderen. Voor productie is dedicated de aanbevolen keuze.
Hoe beveilig ik mijn endpoint?
Geef toegang via serviceaccounts met minimale rechten, log verzoeken, monitor op afwijkend gebruik en overweeg een privaat endpoint via Private Service Connect voor verkeer dat buiten het publieke internet moet blijven.
Een endpoint maakt je model bruikbaar in echte toepassingen. Kies je hardware en schaalinstellingen bewust, rol nieuwe versies voorzichtig uit en houd beveiliging en monitoring op orde.