Whisper lokaal gebruiken voor spraak-naar-tekst laat je audio omzetten in tekst zonder opnames te uploaden. Whisper is een gratis model van OpenAI dat verrassend nauwkeurig is, ook in het Nederlands, en volledig op je eigen apparaat kan draaien.
Wat is Whisper?
Whisper is een spraakherkenningsmodel dat getraind is op enorme hoeveelheden audio in tientallen talen. Je geeft het een geluidsfragment en het geeft de uitgesproken tekst terug, inclusief leestekens. Het werkt goed met achtergrondgeluid, accenten en meerdere talen door elkaar.
Lokaal en privé
Omdat Whisper lokaal draait, blijven je opnames op je eigen apparaat. Voor vertrouwelijke vergaderingen, interviews of medische gesprekken is dat een groot voordeel ten opzichte van online transcriptiediensten.
Welke versie kies je?
Er zijn twee populaire manieren om Whisper lokaal te draaien. De Python-versie van OpenAI is volledig en flexibel maar vraagt een Python-omgeving. whisper.cpp is een lichte herschrijving die snel draait op gewone hardware, ook zonder zware videokaart, en die op Apple Silicon erg goed presteert.
- whisper.cpp: een lichte, snelle versie zonder Python. Ideaal voor Macs en pc's zonder krachtige videokaart. Je compileert hem een keer en draait daarna transcripties met een enkel commando. Verbruikt weinig geheugen.
- Python Whisper: de officiële versie van OpenAI in Python. Flexibel en goed te integreren in scripts en pipelines. Vraagt een Python-omgeving en profiteert sterk van een NVIDIA-videokaart voor snelheid.
Voor de meeste mensen die af en toe een vergadering of interview willen uitschrijven, is whisper.cpp de eenvoudigste keuze.
Modelgroottes begrijpen
Whisper komt in verschillende formaten: tiny, base, small, medium en large. Kleinere modellen zijn sneller maar minder nauwkeurig, grotere modellen zijn nauwkeuriger maar trager. Voor Nederlands geeft het medium- of large-model duidelijk betere resultaten dan tiny.
Sinds eind 2024 is er ook large-v3-turbo, een uitgeklede versie van large-v3 (ongeveer 809 miljoen parameters) die bijna even nauwkeurig is maar veel sneller. Voor Nederlandse transcripties is dit vaak de beste verhouding tussen kwaliteit en snelheid. Let op: het turbo-model is niet getraind voor vertaling, dus als je gesproken Nederlands naar Engels wilt vertalen, gebruik je beter medium of large-v3.
| Model | Snelheid | Nauwkeurigheid | Geschikt voor |
|---|---|---|---|
| tiny / base | Heel snel | Laag | Snelle ruwe transcripties |
| small | Snel | Redelijk | Goede balans, lichte hardware |
| medium | Gemiddeld | Goed | Sterk voor Nederlands |
| large-v3 | Traag | Hoogste | Maximale kwaliteit |
| large-v3-turbo | Snel | Bijna large-v3 | Beste prijs-kwaliteit voor Nederlands |
Whisper installeren en gebruiken
De projectnaam en commando's van whisper.cpp zijn de afgelopen jaren veranderd. De build verloopt nu via CMake en de transcriptietool heet whisper-cli (vroeger main). Onderstaande stappen gaan uit van de huidige situatie in 2026.
Transcriberen met whisper.cpp
- Haal de code op met
git clone https://github.com/ggml-org/whisper.cpp. - Bouw het project met
cmake -B buildgevolgd doorcmake --build build -j --config Release. - Download een model, bijvoorbeeld
sh ./models/download-ggml-model.sh large-v3-turbovoor goede Nederlandse kwaliteit. - Zet je audio klaar als 16-bit WAV; converteer indien nodig naar 16 kHz mono.
- Start de transcriptie en lees daarna het resulterende tekstbestand uit.
Een typische aanroep ziet er zo uit:
./build/bin/whisper-cli -m models/ggml-large-v3-turbo.bin -l nl -f vergadering.wav
Met -l nl vertel je Whisper dat de audio Nederlands is, wat de nauwkeurigheid verhoogt. Wil je het resultaat als bestand, voeg dan een uitvoeroptie toe zoals -otxt voor een tekstbestand of -osrt voor ondertitels.
Combineer met een lokaal taalmodel
Heb je een opname met meerdere sprekers? Whisper zelf herkent geen sprekers, maar je kunt de transcriptie achteraf door een lokaal taalmodel laten structureren in een nette dialoog. Zo combineer je Whisper met Ollama tot een complete vergaderassistent.
Audio voorbereiden
Whisper werkt het beste met heldere audio. Ruis, echo en zachte opnames verlagen de nauwkeurigheid. Neem op met een fatsoenlijke microfoon en converteer je bestand naar een standaardformaat zoals 16-bit WAV met 16 kHz als je problemen hebt. Veel tools doen die conversie automatisch, en met ffmpeg kan het ook handmatig.
Lange opnames kosten tijd en geheugen
Lange opnames kosten veel tijd en geheugen, zeker met het large-model op een laptop zonder videokaart. Knip zeer lange opnames in stukken of kies een kleiner of turbo-model als je snel resultaat nodig hebt.
Transcripties verder verwerken
Een ruwe transcriptie is pas het begin. Je kunt de tekst door een lokaal taalmodel halen om een samenvatting te maken, actiepunten eruit te halen of de tekst te corrigeren. Zo bouw je een complete, privé vergaderassistent die opname, transcriptie en samenvatting combineert, allemaal op je eigen apparaat.
Werkt Whisper goed in het Nederlands?
Ja, vooral de medium-, large-v3- en large-v3-turbo-modellen geven goede Nederlandse transcripties. Stel de taal expliciet in op nl voor de beste resultaten.
Welk model kan ik het best kiezen voor Nederlands?
Voor de meeste mensen is large-v3-turbo de beste keuze: bijna de kwaliteit van large-v3, maar veel sneller. Heb je weinig rekenkracht, kies dan medium of small.
Heb ik een videokaart nodig?
Met whisper.cpp niet; het draait vlot op de processor en op Apple Silicon. De Python-versie wordt veel sneller met een NVIDIA-videokaart.
Kan Whisper sprekers herkennen?
Whisper zelf niet. Voor sprekerherkenning combineer je het met aanvullende tools, of je laat een taalmodel de tekst achteraf structureren.
Blijven mijn opnames privé?
Ja, Whisper draait volledig lokaal. Je audio en transcripties verlaten je apparaat niet, in tegenstelling tot online transcriptiediensten.
Welk audioformaat heb ik nodig?
De tool werkt met 16-bit WAV. Converteer andere formaten vooraf naar 16 kHz mono, bijvoorbeeld met ffmpeg, voor een betrouwbaar resultaat.
Met lokale Whisper transcribeer je gevoelige gesprekken veilig. Combineer het met de Ollama API voor automatische samenvattingen of lees over lokale AI op Apple Silicon.