# Multimodale prompts voor tekst en beeld

[[TOC]]

## Wat zijn multimodale prompts?

Multimodale prompts combineren meerdere modaliteiten: tekst, afbeeldingen, audio of video. In de context van prompt engineering gaat het vrijwel altijd om de combinatie van tekst en afbeeldingen.

Moderne multimodale modellen kunnen afbeeldingen "zien" en combineren die visuele informatie met je tekstinstructie. Voorbeelden van toonaangevende modellen medio 2026 zijn Gemini 3.1 Pro (Google), Claude Opus 4.x (Anthropic) en de GPT-5-serie (OpenAI). Deze modellen verwerken naast tekst ook afbeeldingen, en sommige ook video, audio en PDF in hetzelfde gesprek.

Dit opent een breed scala aan toepassingen die puur tekstprompts niet aankunnen: afbeeldingen beschrijven, documenten analyseren, diagrammen interpreteren, UI-problemen diagnosticeren en visuele data vergelijken.

:::tip title="Werk je in Google Workspace?"
In de Gemini-app en in Gemini voor Workspace plak of upload je een afbeelding rechtstreeks in het promptveld en stel je je vraag eronder. Je hebt geen API-code nodig om multimodale prompts te gebruiken.
:::

## Wat kun je doen met multimodale prompts?

Afbeeldingsbeschrijving en -analyse: "Beschrijf wat er in deze foto te zien is" of "Identificeer alle objecten in dit beeld."

Documentanalyse: upload een screenshot van een factuur, contract of formulier en vraag het model de gegevens te extraheren of de inhoud samen te vatten.

Grafiek- en diagraminterpretatie: "Wat toont deze grafiek over de verkoopontwikkeling in Q3?" of "Leg dit stroomdiagram stap voor stap uit."

UI/UX-review: upload een screenshot van een interface en vraag om feedback op usability, designproblemen of toegankelijkheid.

Code uit screenshots halen: upload een screenshot van code en vraag het model de code te transcriberen of te analyseren.

Visuele vergelijking: upload twee versies van een design en vraag het model de verschillen te benoemen.

:::info title="Afbeeldingen kosten tokens"
Multimodale modellen verwerken afbeeldingen als tokens. Eén afbeelding telt, afhankelijk van resolutie en model, voor honderden tot enkele duizenden tokens. De exacte tarieven verschillen per provider en veranderen regelmatig, dus reken bij grote volumes met de actuele prijslijst van je provider.
:::

## Effectieve multimodale prompts schrijven

Wees specifiek over wat je wilt analyseren. "Analyseer de afbeelding" is te vaag. "Extraheer alle namen, datums en bedragen uit deze factuur en geef ze als JSON" is concreet.

Geef context over de afbeelding. Niet alle context is zichtbaar in het beeld. "Dit is een screenshot van onze interne CRM-applicatie" helpt het model de situatie te begrijpen.

Combineer met few-shot. Geef eerst een voorbeeldafbeelding met de gewenste uitvoer, gevolgd door de afbeelding die je echt wilt analyseren.

Stel gerichte vragen. In plaats van "wat zie je", vraag specifiek: "Is de plant in de linkerbovenhoek gezond? Beschrijf de bladkleur en eventuele zichtbare schade."

:::howto title="Zo schrijf je een sterke multimodale prompt"
1. **Specificeer de taak duidelijk.** Wat moet het model precies doen met de afbeelding?
2. **Geef afbeeldingscontext.** Beschrijf waar de afbeelding vandaan komt als dat relevant is.
3. **Vraag om gestructureerde output.** Bij extractietaken: vraag expliciet om JSON of een tabel.
4. **Test met randgevallen.** Probeer lage resolutie, slecht verlichte foto's en handgeschreven tekst.
5. **Controleer op hallucinaties.** Modellen kunnen details "zien" die er niet zijn, dus valideer kritieke informatie.
:::

## Documentanalyse met multimodale prompts

Een krachtige toepassing is het halen van gestructureerde data uit documenten. Zo verwerk je bijvoorbeeld een factuur:

```
Extraheer de volgende gegevens uit deze factuur en geef ze als JSON:
- leveranciersnaam
- factuurnummer
- factuurdatum (ISO 8601)
- subtotaal (zonder btw)
- btw-bedrag
- totaalbedrag
- betalingstermijn (in dagen)
```

Het model haalt dit direct uit een screenshot of foto van de factuur, zonder dat je per factuurformaat een aparte parser hoeft te bouwen. Voer altijd een steekproef uit voordat je dit op grote schaal vertrouwt, want layout-variaties kunnen tot fouten leiden.

## Beperkingen van multimodale modellen

Tekst in afbeeldingen. Modellen zijn hierin sterk verbeterd, maar maken nog fouten bij handgeschreven tekst, kleine fonts, slecht verlichte beelden of geroteerde tekst. Valideer altijd bij kritieke extractie.

Afmeting en positie. Modellen kunnen objecten herkennen, maar meten niet nauwkeurig. "Hoeveel millimeter is dit product?" levert onbetrouwbare antwoorden op.

Kleuronderscheid. Subtiele kleurverschillen worden soms verkeerd geïnterpreteerd, zeker bij afbeeldingen van lage kwaliteit.

Privacy. Wees voorzichtig met het uploaden van gevoelige afbeeldingen (paspoorten, medische beelden, klantfoto's) naar AI-diensten. Controleer eerst het privacy- en databeleid van de dienst en de afspraken binnen je organisatie.

:::warning title="Het model klinkt zeker, ook als het fout zit"
Multimodale modellen kunnen met grote stelligheid beschrijven wat ze denken te zien, zelfs als ze het mis hebben. Bij gebruik in kritieke processen (medisch, juridisch, financieel) is menselijke verificatie altijd verplicht.
:::

:::faq
### Welke afbeeldingsformaten worden ondersteund?
JPEG, PNG en WebP worden door alle grote providers ondersteund. GIF en PDF worden door een deel van de providers ondersteund. Controleer de actuele documentatie van je provider.

### Hoe stuur ik een afbeelding mee via de API?
Gebruik de multimodale berichtstructuur: voeg een image-object toe aan het user-bericht met base64-encoded data of een URL. De precieze opzet staat in de documentatie van Google, Anthropic of OpenAI.

### Kan ik meerdere afbeeldingen in één prompt sturen?
Ja. De meeste providers ondersteunen meerdere afbeeldingen per bericht. Gebruik dit voor vergelijkingen, voor-en-na-analyses of documenten van meerdere pagina's.

### Wat zijn de resolutievereisten?
Grotere afbeeldingen kosten meer tokens en worden niet altijd scherper geanalyseerd. Een resolutie van ongeveer 512 bij 512 tot 1024 bij 1024 pixels is doorgaans voldoende. Stuur niet onnodig hoge resoluties.

### Welk model kan ik het beste kiezen voor beeldtaken?
Dat hangt af van de taak. Voor lange documenten en OCR presteert Claude sterk, voor video en breed gemengde input is Gemini een goede standaardkeuze, en de GPT-serie is veelzijdig voor algemene beeldanalyse. Test met je eigen voorbeelden, want benchmarks veranderen snel.

### Verwerkt het model mijn afbeeldingen vertrouwelijk?
Dat verschilt per dienst en abonnement. Zakelijke en Workspace-abonnementen bieden meestal striktere databescherming dan gratis consumentenvarianten. Controleer de voorwaarden voordat je gevoelige beelden uploadt.
:::

Multimodale prompts openen een nieuw domein van AI-toepassingen. Van automatische documentverwerking tot visuele kwaliteitscontrole: de combinatie van tekst en beeld maakt taken mogelijk die puur tekstprompts nooit aankunnen.