Naar inhoud
lightbulb Welkom op de nieuwe kennisbank | We hebben de docs volledig vernieuwd met meer dan 160 features. Bekijk wat nieuw isarrow_forward

Prompts evalueren: methoden en aanpak

Leer hoe je de kwaliteit van prompts systematisch meet met automatische en handmatige evaluatiemethoden, van eenvoudige rubrics tot LLM-as-judge.

Waarom prompts evalueren?

Intuïtie is een slechte maatstaf voor promptkwaliteit. Wat goed voelt, werkt niet altijd goed op schaal. Een prompt die voor vijf handmatige tests werkt, kan bij honderd automatische tests structureel falen.

Systematische evaluatie geeft je:

  • Een objectieve maatstaf voor promptkwaliteit.
  • Een basis voor vergelijking tussen promptversies.
  • Detectie van regressies als je het model of de prompt wijzigt.
  • Inzicht in welke inputs problematisch zijn.

Evaluatie is het fundament van professioneel promptengineering. Zonder evaluatie ben je aan het gokken.

Typen evaluatiemethoden

Exacte matching

De eenvoudigste methode is de output vergelijken met een verwacht antwoord. Dit werkt goed voor:

  • Classificatie (verwacht "POSITIEF", output is "POSITIEF" of niet).
  • Extractie van specifieke waarden (verwacht "Amsterdam", output is "Amsterdam" of niet).
  • JSON-structuur (parse de output en vergelijk de velden).

De beperking is dat het alleen werkt als er een exact correct antwoord bestaat.

Regelgebaseerde evaluatie

Definieer regels waaraan de output moet voldoen:

  • Lengte: is de output tussen 50 en 200 woorden?
  • Formaat: bevat de output een geldig JSON-object?
  • Inhoud: bevat de output het vereiste telefoonnummer?
  • Toon: bevat de output geen verboden woorden?

Regelgebaseerde evaluatie is snel, goedkoop en volledig automatiseerbaar.

Rubric-scoring

Definieer een beoordelingsrubric met criteria en scores:

Criteria voor antwoordkwaliteit:
- Relevantie (0-3): beantwoordt de output de gestelde vraag?
- Volledigheid (0-3): dekt de output alle aspecten?
- Nauwkeurigheid (0-3): zijn de feiten correct?
- Stijl (0-1): past de toon bij de instructie?

Maximale score: 10

Rubrics zijn menselijk te beoordelen, maar ook door een LLM te scoren (zie LLM-as-judge).

LLM-as-judge

Gebruik een ander, of hetzelfde, taalmodel als beoordelaar. Je geeft het beoordelingsmodel de originele prompt, de output en een beoordelingsinstructie, bijvoorbeeld:

Beoordeel de volgende AI-output op een schaal van 1 tot 5 op nauwkeurigheid, relevantie en volledigheid. Geef per criterium een score en een korte toelichting.

LLM-as-judge is schaalbaar, consistent en goedkoper dan menselijke annotatie. Let wel op bias: modellen neigen naar outputs die op hun eigen stijl lijken, naar langere antwoorden en naar zelfgegenereerde tekst.

info

De meest gebruikte methode

LLM-as-judge is inmiddels de meest gebruikte evaluatiemethode in moderne promptengineering. Tools zoals Promptfoo, LangSmith en Braintrust zijn hier specifiek voor gebouwd.

Een evaluatieproces opzetten

Zo zet je een evaluatieproces op

  1. Definieer succescriteria. Wat maakt een prompt succesvol voor jouw use case? Schrijf dit concreet op voordat je begint.
  2. Maak een testset. Verzamel minimaal 20 tot 50 representatieve inputs met verwachte outputs.
  3. Kies evaluatiemethoden. Combineer exacte matching, regelgebaseerde checks en LLM-as-judge.
  4. Automatiseer. Voer de evaluaties automatisch uit bij elke promptwijziging, bijvoorbeeld in je CI-pijplijn.
  5. Volg in de tijd. Sla scores op en vergelijk ze over promptversies en modelversies heen.

Testset samenstellen

Een goede testset bevat een mix van moeilijkheidsgraden:

  • Typische gevallen (60 tot 70%): de bulk van je verwachte input.
  • Randgevallen (20 tot 30%): grensgevallen, lange inputs, korte inputs.
  • Moeilijke gevallen (rond 10%): gevallen waarvan je weet dat het model er moeite mee heeft.

Balanceer de categorieën bij classificatietaken. Als je dataset 90% positief is, overschat je de prestaties wanneer je alleen accuracy meet.

lightbulb

Versie je testset mee met je prompts

Bewaar je testset in versiebeheer naast je prompts. Zo zie je precies bij welke promptwijziging een regressie ontstond en kun je oude versies opnieuw doormeten met dezelfde inputs.

Evaluatiemetrieken

Accuracy: het percentage correct geclassificeerde of exact gematchte outputs. Eenvoudig, maar misleidend bij ongebalanceerde datasets.

Precision en recall: beter voor classificatietaken met onbalans. Precision: van alles wat het model als positief labelde, hoeveel was echt positief? Recall: van alle echte positieven, hoeveel labelde het model correct?

BLEU en ROUGE: automatische metrieken die de overlap meten tussen gegenereerde tekst en een referentietekst. Beperkt bruikbaar voor open taken.

Human eval score: menselijke beoordelingen gecombineerd tot één score. Duurder, maar het meest betrouwbaar voor creatieve of complexe taken.

warning

Geen enkele metriek is perfect

Gebruik altijd meerdere metrieken en combineer automatische evaluatie met periodieke handmatige review. Een hoge BLEU-score garandeert geen hoge menselijke beoordeling.

Tools en de Google-context

Voor wie binnen Google Cloud werkt: het Gen AI evaluation-onderdeel binnen Vertex AI biedt een ingebouwde evaluatiedienst voor Gemini-modellen, met zowel berekende metrieken als beoordeling per model. Sinds Google Cloud Next in april 2026 valt dit onder het Gemini Enterprise Agent Platform, de nieuwe naam waaronder de voormalige Vertex AI-diensten worden geleverd. De aanpak in dit artikel blijft hetzelfde, ongeacht welke tool je kiest.

Buiten Google Cloud zijn Promptfoo (open source, sterk in CI/CD en security-tests), LangSmith en Braintrust populaire keuzes. Promptfoo is in maart 2026 overgenomen door OpenAI, maar blijft open source en modelonafhankelijk.

Samenvatting

Systematische evaluatie is wat goed promptengineering onderscheidt van gissen. Bouw een evaluatieproces vroeg in je project op, zodat je elke wijziging met vertrouwen kunt doorvoeren.

Hoeveel testgevallen heb ik minimaal nodig?

Voor een basisevaluatie volstaan 20 tot 50 gevallen. Voor productiesystemen zijn 100 tot 500 gevallen gebruikelijk, afhankelijk van de taakvariatie. Meer is beter, maar de kwaliteit van de testgevallen is belangrijker dan de hoeveelheid.

Hoe voorkom ik dat mijn testset de trainingsdata van het model lekt?

Zorg dat je testset uit echte gebruiksdata of handmatig gemaakte gevallen bestaat, en niet uit data die publiek beschikbaar was tijdens de training. Bij grote publieke modellen is dit lastig volledig te garanderen, dus weeg de risico's per use case af.

Kan ik hetzelfde model als beoordelaar en als generator gebruiken?

Dat kan, maar wees voorzichtig met bias. Overweeg een ander model als beoordelaar, of kalibreer het oordeel van het model door ook menselijke scores te verzamelen.

Hoe automatiseer ik de evaluatie?

Gebruik tools zoals Promptfoo, LangSmith, Braintrust of de Gen AI evaluation-dienst binnen Vertex AI. Ze koppelen aan de grote API-providers en draaien je evaluaties automatisch, bijvoorbeeld bij elke wijziging in je CI-pijplijn.

Wanneer is LLM-as-judge een slechte keuze?

Bij taken met één objectief correct antwoord, zoals classificatie of waarde-extractie, is exacte matching of een regelgebaseerde check goedkoper en betrouwbaarder. Gebruik LLM-as-judge vooral voor open of subjectieve outputs.

Hoe vaak moet ik mijn evaluatie opnieuw draaien?

Draai de evaluatie bij elke promptwijziging en bij elke wisseling van model of modelversie. Plan daarnaast een periodieke handmatige review in, omdat automatische metrieken niet alle kwaliteitsproblemen vangen.