Naar inhoud
lightbulb Welkom op de nieuwe kennisbank | We hebben de docs volledig vernieuwd met meer dan 160 features. Bekijk wat nieuw isarrow_forward

Temperature en top-p instellen voor AI-modellen

Wat zijn temperature en top-p?

Temperature en top-p zijn twee parameters die bepalen hoe een taalmodel tokens selecteert bij het genereren van tekst. Ze beinvloeden de mate van willekeurigheid en variatie in de output.

Temperature schaalt de kansverdeling over mogelijke tokens. Bij een lage temperature kiest het model bijna altijd het meest waarschijnlijke token. Bij een hoge temperature wordt de verdeling vlakker en worden ook minder waarschijnlijke tokens regelmatig gekozen.

Top-p (ook wel nucleus sampling) beperkt de selectie tot de meest waarschijnlijke tokens die samen een cumulatieve kans van p hebben. Bij top-p 0,9 overweegt het model alleen tokens die samen 90% van de kansverdeling bedekken.

Beide parameters werken op hetzelfde principe: minder willekeurigheid leidt tot consistentere, voorspelbaardere output, en meer willekeurigheid leidt tot creatievere, variabelere output.

Belangrijk in 2026: reasoning-modellen zetten temperature vast

De klassieke regel "verlaag temperature voor feiten en code" geldt vooral voor de oudere, niet-redenerende modellen. De nieuwere reasoning-modellen werken anders.

warning

Bij reasoning-modellen blijf je van temperature af

Voor GPT-5 en aanverwante reasoning-varianten accepteert de OpenAI API alleen nog temperature 1; een andere waarde geeft een foutmelding of wordt genegeerd. Voor Gemini 3 raadt Google aan om temperature op de standaard van 1,0 te laten staan. Een lagere waarde kan juist looping of slechtere prestaties veroorzaken bij complexe reken- en redeneertaken. De advieswaarden verderop in dit artikel gelden dus voor klassieke (niet-redenerende) modellen en API-aanroepen waarin je temperature daadwerkelijk mag sturen.

Niet-redenerende modellen (zoals oudere GPT-varianten en Gemini 2.5 Flash of Pro) blijven temperature wel respecteren op de gebruikelijke schaal. Check dus altijd in de documentatie van het specifieke model of temperature nog effect heeft voordat je gaat fijn-stemmen.

Temperature in de praktijk

info

De standaardschaal

De meeste API-providers hanteren een temperature-schaal van 0 tot 2, waarbij 1 de standaard is. ChatGPT, Claude en Gemini gebruiken standaard temperature 1 tenzij je iets anders opgeeft. De onderstaande advieswaarden gaan uit van modellen die temperature daadwerkelijk toepassen.

Temperature 0 tot 0,2: deterministisch Het model kiest bijna altijd het meest waarschijnlijke token. De output is consistent, voorspelbaar en reproduceerbaar. Ideaal voor:

  • Feitelijke vragen
  • Data-extractie
  • Code genereren
  • Classificatie
  • Gevallen waarin je altijd hetzelfde antwoord wilt

Temperature 0,3 tot 0,6: gebalanceerd Lichte variatie met behoud van coherentie. Goed voor de meeste zakelijke toepassingen. Ideaal voor:

  • Samenvattingen
  • E-mails
  • Rapporten
  • Klantenservice-antwoorden

Temperature 0,7 tot 1,0: creatief Merkbare variatie in woordkeuze, stijl en richting. Elke run levert andere output. Ideaal voor:

  • Creatief schrijven
  • Brainstormen
  • Marketingteksten
  • Storytelling

Temperature 1,0 tot 2,0: experimenteel Hoge willekeurigheid, soms onsamenhangend. Gebruik dit spaarzaam. Kan interessant zijn voor:

  • Extreme creativiteit
  • Onverwachte associaties
  • Onderzoek naar modeleigenschappen

Top-p in de praktijk

Top-p werkt anders dan temperature, maar bereikt vergelijkbare effecten:

  • Top-p 1,0: alle tokens kunnen worden geselecteerd (geen beperking).
  • Top-p 0,9: selecteer uit tokens die samen 90% kans vertegenwoordigen (licht beperkt).
  • Top-p 0,5: selecteer uit de top 50% kansen (sterk beperkt, conservatief).
  • Top-p 0,1: selecteer uit slechts de meest waarschijnlijke tokens (zeer conservatief).

Zo stel je het stap voor stap in

  1. Controleer eerst het modeltype: bij een reasoning-model (zoals GPT-5 of Gemini 3) laat je temperature op 1 staan en stuur je liever de reasoning_effort of je prompt.
  2. Begin met de standaardinstellingen: temperature 1,0 en top-p 1,0 zijn de standaard. Verander alleen iets als je daar een reden voor hebt.
  3. Verlaag temperature voor consistentie: gebruik 0,1 tot 0,3 voor feitelijke of technische taken op een klassiek model.
  4. Verhoog temperature voor creativiteit: gebruik 0,7 tot 1,0 voor creatieve taken.
  5. Gebruik top-p als alternatief: houd temperature op 1,0 en verlaag top-p, of andersom. Pas niet beide tegelijk aan.
  6. Test meerdere waarden: de optimale instelling hangt af van het model en de taak.

Vuistregels per use case

De waarden hieronder gelden voor klassieke (niet-redenerende) modellen waarbij je temperature kunt sturen.

Use case Aanbevolen temperature Top-p
Code genereren 0,0 tot 0,2 1,0
Feitelijke vraag en antwoord 0,0 tot 0,3 1,0
Data-extractie 0,0 1,0
Zakelijke e-mails 0,3 tot 0,5 1,0
Samenvattingen 0,3 tot 0,5 1,0
Marketing copy 0,7 tot 0,9 0,9
Creatief schrijven 0,8 tot 1,0 0,9
Brainstormen 1,0 tot 1,2 1,0

Temperature en self-consistency

Voor self-consistency (meerdere runs vergelijken en het vaakst voorkomende antwoord kiezen) heb je variatie nodig. Temperature 0 geeft bij elke run hetzelfde antwoord, waardoor majority voting zinloos wordt.

Gebruik temperature 0,5 tot 0,8 voor self-consistency: genoeg variatie voor diverse redeneerpaden, maar niet zo hoog dat de kwaliteit daalt. Bij reasoning-modellen die temperature vastzetten is deze techniek niet meer nodig, omdat het model intern al meerdere redeneerstappen afweegt.

warning

Parameters vervangen geen goede prompt

Temperature en top-p zijn geen vervanging voor een goede prompt. Een slechte prompt met lage temperature blijft slechte output geven. De parameters fijn-stemmen het gedrag van een model op een prompt die al goed is.

Top-p versus temperature: wat kies je?

In de meeste gevallen kies je een van de twee en houd je de ander op de standaard:

  • Wil je van deterministisch naar creatief schuiven, gebruik dan temperature en houd top-p op 1,0.
  • Wil je de kansstaart afknippen om zeldzame tokens te vermijden, verlaag dan top-p en houd temperature op 1,0.

Beide tegelijk aanpassen kan, maar maakt het lastiger te begrijpen wat de precieze invloed van elke parameter is.

Praktisch voorbeeld

Stel, je laat een model productbeschrijvingen genereren. Met temperature 0,2 krijg je telkens vrijwel dezelfde, zakelijke tekst: handig als je consistentie en een vaste toon wilt. Zet je temperature op 0,8, dan krijg je per run andere invalshoeken en woordkeuzes: handig als je meerdere varianten naast elkaar wilt vergelijken. Genereer in dat geval bijvoorbeeld vijf versies en kies de beste, in plaats van te mikken op een perfecte one-shot.

Heeft temperature invloed op de intelligentie van het model?

Nee. Temperature bepaalt alleen de willekeurigheid van de tokenselectie, niet de kennis of redeneervaardigheid van het model. Een sterk model met hoge temperature is nog steeds sterk, maar geeft meer gevarieerde output.

Kan ik temperature instellen in ChatGPT of Claude.ai?

In de standaard webinterface meestal niet rechtstreeks. Via de API heb je meer controle, al geldt voor de nieuwere reasoning-modellen dat temperature vaak vastligt op 1. Bij sommige Custom GPT-configuraties kun je nog een toon of stijl meegeven, maar reken niet op een vrije temperature-schuif zoals bij oudere modellen.

Waarom is temperature 0 niet echt deterministisch?

Bij temperature 0 kiest het model altijd het meest waarschijnlijke token, maar hardware-variatie zoals floating-point afrondingsverschillen kan soms tot minuscule verschillen leiden. In de praktijk is temperature 0 vrijwel deterministisch, maar technisch gezien niet volledig.

Wat is de beste temperature voor code genereren?

Op een klassiek model gebruik je temperature 0 tot 0,2. Code heeft harde correctheidscriteria waarbij creativiteit schadelijk is; je wilt de meest waarschijnlijke, technisch correcte output. Bij een reasoning-model laat je temperature op 1 staan en vertrouw je op het redeneervermogen van het model.

Geldt het advies "lage temperature voor feiten" ook voor GPT-5 en Gemini 3?

Niet meer op dezelfde manier. Deze reasoning-modellen verwachten temperature 1. Bij Gemini 3 kan een lagere waarde zelfs leiden tot looping of slechtere prestaties op reken- en redeneertaken. Stuur het gedrag daar liever via je prompt of via de instelling voor redeneerinspanning.

Moet ik temperature en top-p tegelijk aanpassen?

Liever niet. Kies een van de twee en houd de ander op de standaard, zodat je begrijpt welke parameter welk effect heeft. Pas beide alleen samen aan als je gericht experimenteert en het resultaat goed meet.

Temperature en top-p zijn eenvoudige knoppen met grote impact. Begrijp wat ze doen, controleer eerst of je model ze nog respecteert, kies bewust en test de resultaten. Een paar minuten experimenteren met deze parameters levert vaak meer op dan uren prompts herschrijven.