Naar inhoud
lightbulb Welkom op de nieuwe kennisbank | We hebben de docs volledig vernieuwd met meer dan 160 features. Bekijk wat nieuw isarrow_forward

Tree-of-Thought voor complexe redenering

Leer de Tree-of-Thought-techniek: laat een AI-model meerdere redeneerpaden verkennen, ze evalueren en het beste pad uitwerken voor complexe probleemoplossing.

Wat is Tree-of-Thought?

Tree-of-Thought (ToT) is een geavanceerde prompting-techniek waarbij een taalmodel niet één lineair redeneerpad volgt, maar meerdere paden parallel verkent, elk pad evalueert en vervolgens het meest belovende pad verder uitwerkt.

De techniek is geïnspireerd op hoe mensen complexe problemen aanpakken: we overwegen meerdere opties, laten de minder kansrijke vallen en diepen de beste verder uit. Standaard chain-of-thought-denken is lineair, terwijl Tree-of-Thought vertakt.

De aanpak werd in mei 2023 beschreven in een invloedrijk paper van Yao en collega's, met auteurs van Princeton University en Google DeepMind (gepubliceerd op NeurIPS 2023). De experimenten lieten zien dat ToT de prestaties op wiskundige redeneer- en planningsproblemen sterk verbeterde vergeleken met standaard chain-of-thought.

Waarom werkt Tree-of-Thought?

Bij complexe problemen met meerdere mogelijke oplossingen schiet lineair redeneren vaak tekort. Het model kiest het eerste plausibele pad en werkt dat uit, ook als een ander pad beter was geweest.

ToT dwingt het model om de oplossingsruimte eerst te verkennen voordat het zich vastlegt op één aanpak. Het exploreert, evalueert en exploiteert: een patroon dat uit de theorie van zoekalgoritmen komt.

info

Het kerneffect uit het originele paper

In het originele ToT-paper loste het systeem het spel Game of 24 op, waarbij GPT-4 met standaard chain-of-thought slechts ongeveer 4 procent correct had. Met Tree-of-Thought steeg dit naar ongeveer 74 procent. Het verschil zit volledig in de zoekstrategie, niet in extra training.

De drie componenten van ToT

1. Gedachte-generatie. Het model genereert per stap meerdere tussenliggende "gedachten": mogelijke volgende acties, hypothesen of deeloplossingen. Doorgaans drie tot vijf opties per knooppunt.

2. State-evaluatie. Het model beoordeelt elk gegenereerd pad. Hoe veelbelovend is dit pad? Leidt het naar de oplossing? Is het consistent? Je kunt het model zichzelf laten evalueren of een apart evaluatiemodel inzetten.

3. Zoekstrategie. Welk algoritme gebruik je voor de verkenning? Twee veelgebruikte opties:

  • Breedte-eerst zoeken (BFS): verken alle paden tot een bepaalde diepte.
  • Diepte-eerst zoeken (DFS): volg het meest belovende pad zo diep mogelijk en keer terug bij een doodlopend pad.

ToT implementeren in de praktijk

In de meest basale vorm implementeer je ToT via meerdere achtereenvolgende prompts.

Prompt 1, genereer kandidaatoplossingen. "Los het volgende probleem op. Genereer drie totaal verschillende benaderingen. Beschrijf elke benadering in twee zinnen. Probleem: [beschrijving]."

Prompt 2, evalueer de kandidaten. "Evalueer elk van deze drie benaderingen: [output van prompt 1]. Geef elke benadering een score van 1 tot 10 op haalbaarheid, volledigheid en risico. Welke benadering is het meest veelbelovend en waarom?"

Prompt 3, verdiep de winnaar. "Werk de meest veelbelovende benadering volledig uit: [winnende benadering]. Beschrijf de stappen, de valkuilen en hoe je die aanpakt."

Zo pas je Tree-of-Thought handmatig toe

  1. Definieer het probleem precies. Een vaag probleem levert een vage redeneerboom op.
  2. Vraag om meerdere kandidaatopties. Drie tot vijf opties per stap is een goed beginpunt.
  3. Laat het model zichzelf evalueren. Vraag om een expliciete beoordeling van elk pad, liefst met een score.
  4. Kies het meest belovende pad. Handmatig of via een automatische evaluatie.
  5. Verdiep en verfijn. Werk het gekozen pad verder uit en corrigeer waar nodig.

Wanneer gebruik je ToT?

Tree-of-Thought is het meest waardevol bij:

  • Planningsproblemen: projectplanning, reisplannen en strategische beslissingen.
  • Wiskundige redenering: meerstapsproblemen waarbij tussentijdse correctie mogelijk is.
  • Creatieve taken met kwaliteitscriteria: meerdere opties genereren en de beste selecteren.
  • Diagnostische problemen: meerdere hypothesen overwegen en stap voor stap elimineren.

Voor eenvoudige taken is ToT overkill. Gebruik het selectief, want de overhead is groot en de kosten lopen snel op.

lightbulb

Reasoning-modellen doen al veel van het werk

In 2026 verwerken zogeheten reasoning-modellen, zoals Gemini met thinking en de o-serie van OpenAI, intern al veel van wat ToT eerder handmatig deed. Voor zulke modellen is een uitgebreide ToT-prompt vaak minder nodig. De techniek blijft nuttig wanneer je een gewoon model gebruikt, of wanneer je een complexe beslissing expliciet wilt structureren, vergelijken en auditeren in plaats van het volledig aan het model over te laten.

ToT automatiseren

Voor productiegebruik wil je ToT automatiseren. Dat vereist vier onderdelen:

  • Een controller die de zoekstrategie implementeert.
  • Een generator-model dat kandidaatgedachten maakt.
  • Een evaluator-model, dat hetzelfde model kan zijn, dat de kandidaten beoordeelt.
  • Een boom-datastructuur die de paden bijhoudt.

Frameworks als LangChain en LangGraph bieden bouwblokken voor ToT-implementaties. Er bestaan ook specifieke ToT-bibliotheken op GitHub die het paper rechtstreeks implementeren, waaronder de officiële code van de auteurs.

warning

Let op de kosten

ToT kan snel duur worden qua API-kosten. Bij drie kandidaten per stap en vier stappen diep heb je al 3 tot de macht 4, oftewel 81 potentiële paden. In de praktijk snoei je agressief, maar plan je budget zorgvuldig en stel een limiet in op het aantal knooppunten.

Vergelijking: Chain-of-Thought versus Tree-of-Thought

Aspect Chain-of-Thought Tree-of-Thought
Paden Eén lineair pad Meerdere vertakte paden
Evaluatie Geen tussentijdse evaluatie Evaluatie bij elk knooppunt
Gebruik Eenvoudige tot middelcomplexe redenering Complexe plannings- en zoekproblemen
Kosten Laag Hoog
Implementatie Eenvoudig Complex
Kan ik ToT gebruiken zonder API?

Ja. Een vereenvoudigde versie voer je handmatig uit in een chatinterface: vraag om meerdere opties, evalueer ze, kies er één en verdiep die. Het is arbeidsintensief maar effectief voor incidentele complexe taken.

Hoeveel kandidaten per stap zijn optimaal?

In de praktijk drie tot vijf. Meer kandidaten verhogen de dekkingsgraad, maar ook de kosten lopen exponentieel op. Begin met drie en verhoog alleen als je systematisch goede paden mist.

Werkt ToT bij alle soorten problemen?

Nee. ToT werkt het beste bij problemen met een duidelijke, objectieve evaluatiefunctie, zoals: is dit correct, is dit haalbaar? Voor creatieve taken zonder objectieve criteria is de evaluatie subjectief en daardoor minder betrouwbaar.

Is ToT hetzelfde als multi-agent redenering?

Vergelijkbaar, maar niet identiek. Bij multi-agent systemen heeft elk agent een eigen rol en doel. ToT is een zoekmechanisme waarbij één model meerdere paden verkent en evalueert.

Heb ik ToT nog nodig met een reasoning-model?

Vaak minder. Moderne reasoning-modellen verkennen en evalueren intern al meerdere paden. Een expliciete ToT-aanpak blijft waardevol wanneer je controle, transparantie of een vergelijkbare beoordeling van alternatieven nodig hebt, bijvoorbeeld bij belangrijke beslissingen.

Tree-of-Thought is een krachtige techniek voor complexe redenering. Voor kritieke beslissingen, planningsproblemen en wiskundige uitdagingen levert het vaak betere en beter onderbouwde resultaten dan een enkel, lineair redeneerpad.