Van experiment naar productie
Een prompt schrijven in een chatinterface is eenvoudig. Diezelfde prompt betrouwbaar en schaalbaar laten werken voor duizenden gebruikers is een ander verhaal.
Prompts in productie staan bloot aan:
- Onverwachte invoerpatronen van echte gebruikers
- Modelupdates die het gedrag subtiel veranderen
- Toenemende eisen naarmate het product groeit
- Beveiligingsproblemen via prompt injection
Professioneel promptbeheer vereist infrastructuur: versiebeheer, monitoring, testen en een snelle updatecyclus.
Versiebeheer voor prompts
Prompts zijn productie-artefacten, net als code. Ze horen bijgehouden te worden in een versiebeheersysteem. Er zijn drie veelgebruikte aanpakken.
Optie 1: prompts in code (Git). Sla prompts op als tekst- of JSON-bestanden in je repository. Ze versiebeheren automatisch mee met je code. Eenvoudig, maar elke promptwijziging vereist een deploy.
Optie 2: prompts in een database. Sla prompts op in een database met versienummering. Prompts kunnen worden bijgewerkt zonder code-deploy. Dit vraagt wel om extra infrastructuur en een beheerlaag.
Optie 3: prompt management tools. Platforms zoals LangSmith, PromptLayer, Langfuse, Braintrust en Helicone bieden ingebouwde prompt-versioning, testen en monitoring. Dit is de meest volwassen aanpak voor grotere systemen.
Kies passend bij je schaal
Een startend project heeft genoeg aan Git. Een team met meerdere engineers en honderden prompts profiteert van een dedicated prompt management tool met rollback en omgevingsgebonden uitrol (dev, staging, productie).
Humanloop is gestopt
Humanloop, lang een populaire keuze, is in augustus 2025 overgenomen door Anthropic en het platform is op 8 september 2025 uitgezet. Bouw geen nieuwe integratie meer op Humanloop. Kies een actief alternatief zoals Langfuse, Braintrust, LangSmith of PromptLayer.
Monitoring in productie
Wat moet je monitoren? Verdeel het over drie categorieën.
Kwaliteitsmetrieken:
- Taakcompletie-rate: bereiken gebruikers hun doel?
- Uitvalrate: hoeveel prompts falen of leveren lege output?
- Kwaliteitsscore via LLM-as-judge op een steekproef
Prestatiemetrieken:
- Latency: hoe lang duurt een aanroep?
- Tokengebruik: hoeveel tokens per aanroep?
- Kosten: wat kosten alle aanroepen samen?
Veiligheidsmetrieken:
- Detectie van injection-pogingen
- Output-filtering: hoeveel outputs worden geblokkeerd als ongepast?
Zet monitoring op in vijf stappen
- Log alle prompt-respons-paren, inclusief metadata (tijdstip, gebruikers-ID, model, tokens).
- Stel alerts in die afgaan als uitvalrate, latency of kosten boven een drempel komen.
- Neem steekproeven voor handmatige review: beoordeel dagelijks of wekelijks een aantal willekeurige outputs.
- Monitor modeldrift: modelupdates kunnen de kwaliteit veranderen, dus detecteer dit vroeg via je evaluatiesuite.
- Houd kosten per feature bij zodat je dure functionaliteit herkent en kunt optimaliseren.
Snelle deploy-cyclus
De beste manier om prompts te verbeteren is snel itereren. Elke dag een kleine verbetering deployen levert meer op dan één grote update per maand.
Principes voor snelle iteratie:
- Scheid promptlogica van applicatiecode zodat een promptupdate geen volledige code-deploy vereist.
- Automatiseer de evaluatiepipeline zodat je een wijziging snel kunt valideren.
- Gebruik feature flags om een nieuwe prompt alleen voor een subset van gebruikers te activeren.
- Houd rollback eenvoudig: met één klik terug naar de vorige versie.
Veilige uitrol met canary en shadow
Rol een nieuwe prompt niet meteen uit naar alle gebruikers. Gebruik een gecontroleerde uitrol.
Canary deploy. Activeer de nieuwe prompt voor 1 tot 5 procent van het verkeer. Monitor gedurende 24 tot 48 uur. Blijven de kwaliteitsmetrieken stabiel, vergroot dan stapsgewijs het percentage.
Shadow mode. Stuur elke aanvraag naar zowel de oude als de nieuwe prompt, maar toon de gebruiker alleen de oude. Vergelijk de outputs offline. Zo loop je geen productierisico bij het valideren.
Behandel een promptupdate als een code-deploy
Promptupdates zijn productiewijzigingen met directe impact op gebruikers. Behandel ze met dezelfde voorzichtigheid als een code-deploy: testen, gefaseerde uitrol, monitoring en een rollback-plan.
Geheimen en gevoelige context
Zet nooit API-sleutels, wachtwoorden of klantgegevens direct in een prompt. Gebruik environment variables of een secrets management systeem.
Wees voorzichtig met klantdata in prompts. Begrijp precies welke data naar het model gaat en wat de privacy-implicaties zijn. Werk je in Google Cloud met Vertex AI of Gemini, controleer dan de dataverwerkingsvoorwaarden en regio-instellingen zodat data niet ongewenst je gewenste regio verlaat. Bij gevoelige data: leg de verwerking vast in een verwerkersovereenkomst met je AI-provider.
Kosten optimaliseren in productie
Bij grote schaal worden tokenkosten significant. Vier strategieën helpen.
Caching. Wordt dezelfde prompt herhaaldelijk gesteld, cache dan het antwoord. Bij statische of zelden veranderende content is dit eenvoudig toe te passen. Voor lange, herbruikbare systeemcontext bieden veel providers daarnaast prompt-caching aan, wat de kosten van die context flink verlaagt.
Prompt compressie. Verwijder overbodige woorden en herhalingen. Kortere prompts kosten minder tokens.
Model tiering. Gebruik een goedkoper, kleiner model voor eenvoudige taken en roep een duurder model alleen aan voor complexe gevallen. Binnen de Gemini-familie kun je bijvoorbeeld een Flash-model inzetten voor routinewerk en een Pro-model reserveren voor moeilijke gevallen.
Batch processing. Verwerk meerdere aanvragen tegelijk via de batch-API als latency minder kritiek is.
Begin klein en bouw uit
Start met Git plus logging en een handvol evaluatievoorbeelden. Voeg pas een prompt management tool, canary deploys en LLM-as-judge toe wanneer je schaal dat rechtvaardigt. Vroeg investeren in een evaluatieproces betaalt zich het snelst terug.
Hoe weet ik of een modelupdate mijn prompts heeft beïnvloed?
Draai je evaluatiesuite automatisch na elke modelupdate. Dalen de scores, onderzoek dan welke typen outputs zijn verslechterd en pas de betreffende prompts of voorbeelden aan.
Moet ik productie-prompts beveiligen?
Ja. Behandel prompts als intellectueel eigendom: bewaar ze in beveiligde opslag, beperk de toegang tot het engineering-team en log wie welke wijziging maakt.
Hoe ga ik om met modeldeprecatie?
Abonneer je op de aankondigingen van je provider. Test een nieuwe modelversie op je evaluatiesuite voordat je overstapt en houd je prompts waar mogelijk modelagnostisch.
Hoe beheer ik prompts in meerdere talen?
Sla vertalingen op als aparte prompt-varianten per taal en voer per taal evaluaties uit. Vermijd automatisch vertaalde prompts in productie zonder handmatige review.
Welke tool kies ik voor prompt management?
Voor kleine teams volstaat vaak PromptLayer of LangSmith vanwege de lage instapdrempel. Wil je sterke evaluatie en observability, kijk dan naar Langfuse, Braintrust of Helicone. Houd er rekening mee dat Humanloop sinds eind 2025 niet meer beschikbaar is.
Hoe groot moet mijn canary-percentage zijn?
Begin met 1 tot 5 procent van het verkeer en monitor 24 tot 48 uur. Blijven de metrieken stabiel, verhoog dan stapsgewijs (bijvoorbeeld naar 25, 50 en 100 procent) met steeds een monitorvenster ertussen.
Prompts in productie beheren is een discipline op zich. Begin eenvoudig met Git en logging, voeg complexiteit toe naarmate je schaal groeit en investeer vroeg in een evaluatieproces. Zo houd je de controle om snel te verbeteren zonder productierisico.