Whisper lokaal gebruiken voor spraak-naar-tekst

Whisper is een gratis spraakherkenningsmodel van OpenAI dat je volledig lokaal draait om audio om te zetten in tekst, zonder je opnames te uploaden. Leer installeren, het juiste model kiezen en vergaderingen of interviews privé transcriberen.

schedule5 min lezen event1 Jun 2026 updateBijgewerkt 5 uur

open_in_new data_object

Whisper lokaal gebruiken voor spraak-naar-tekst laat je audio omzetten in tekst zonder opnames te uploaden. Whisper is een gratis model van OpenAI dat verrassend nauwkeurig is, ook in het Nederlands, en volledig op je eigen apparaat kan draaien.

Wat is Whisper?

Whisper is een spraakherkenningsmodel dat getraind is op enorme hoeveelheden audio in tientallen talen. Je geeft het een geluidsfragment en het geeft de uitgesproken tekst terug, inclusief leestekens. Het werkt goed met achtergrondgeluid, accenten en meerdere talen door elkaar.

info

Lokaal en privé

Omdat Whisper lokaal draait, blijven je opnames op je eigen apparaat. Voor vertrouwelijke vergaderingen, interviews of medische gesprekken is dat een groot voordeel ten opzichte van online transcriptiediensten.

Welke versie kies je?

Er zijn twee populaire manieren om Whisper lokaal te draaien. De Python-versie van OpenAI is volledig en flexibel maar vraagt een Python-omgeving. whisper.cpp is een lichte herschrijving die snel draait op gewone hardware, ook zonder zware videokaart, en die op Apple Silicon erg goed presteert.

whisper.cpp: een lichte, snelle versie zonder Python. Ideaal voor Macs en pc's zonder krachtige videokaart. Je compileert hem een keer en draait daarna transcripties met een enkel commando. Verbruikt weinig geheugen.
Python Whisper: de officiële versie van OpenAI in Python. Flexibel en goed te integreren in scripts en pipelines. Vraagt een Python-omgeving en profiteert sterk van een NVIDIA-videokaart voor snelheid.

Voor de meeste mensen die af en toe een vergadering of interview willen uitschrijven, is whisper.cpp de eenvoudigste keuze.

Modelgroottes begrijpen

Whisper komt in verschillende formaten: tiny, base, small, medium en large. Kleinere modellen zijn sneller maar minder nauwkeurig, grotere modellen zijn nauwkeuriger maar trager. Voor Nederlands geeft het medium- of large-model duidelijk betere resultaten dan tiny.

Sinds eind 2024 is er ook large-v3-turbo, een uitgeklede versie van large-v3 (ongeveer 809 miljoen parameters) die bijna even nauwkeurig is maar veel sneller. Voor Nederlandse transcripties is dit vaak de beste verhouding tussen kwaliteit en snelheid. Let op: het turbo-model is niet getraind voor vertaling, dus als je gesproken Nederlands naar Engels wilt vertalen, gebruik je beter medium of large-v3.

Model	Snelheid	Nauwkeurigheid	Geschikt voor
tiny / base	Heel snel	Laag	Snelle ruwe transcripties
small	Snel	Redelijk	Goede balans, lichte hardware
medium	Gemiddeld	Goed	Sterk voor Nederlands
large-v3	Traag	Hoogste	Maximale kwaliteit
large-v3-turbo	Snel	Bijna large-v3	Beste prijs-kwaliteit voor Nederlands

Whisper installeren en gebruiken

De projectnaam en commando's van whisper.cpp zijn de afgelopen jaren veranderd. De build verloopt nu via CMake en de transcriptietool heet whisper-cli (vroeger main). Onderstaande stappen gaan uit van de huidige situatie in 2026.

Transcriberen met whisper.cpp

Haal de code op met git clone https://github.com/ggml-org/whisper.cpp.
Bouw het project met cmake -B build gevolgd door cmake --build build -j --config Release.
Download een model, bijvoorbeeld sh ./models/download-ggml-model.sh large-v3-turbo voor goede Nederlandse kwaliteit.
Zet je audio klaar als 16-bit WAV; converteer indien nodig naar 16 kHz mono.
Start de transcriptie en lees daarna het resulterende tekstbestand uit.

Een typische aanroep ziet er zo uit:

./build/bin/whisper-cli -m models/ggml-large-v3-turbo.bin -l nl -f vergadering.wav

Met -l nl vertel je Whisper dat de audio Nederlands is, wat de nauwkeurigheid verhoogt. Wil je het resultaat als bestand, voeg dan een uitvoeroptie toe zoals -otxt voor een tekstbestand of -osrt voor ondertitels.

lightbulb

Combineer met een lokaal taalmodel

Heb je een opname met meerdere sprekers? Whisper zelf herkent geen sprekers, maar je kunt de transcriptie achteraf door een lokaal taalmodel laten structureren in een nette dialoog. Zo combineer je Whisper met Ollama tot een complete vergaderassistent.

Audio voorbereiden

Whisper werkt het beste met heldere audio. Ruis, echo en zachte opnames verlagen de nauwkeurigheid. Neem op met een fatsoenlijke microfoon en converteer je bestand naar een standaardformaat zoals 16-bit WAV met 16 kHz als je problemen hebt. Veel tools doen die conversie automatisch, en met ffmpeg kan het ook handmatig.

warning

Lange opnames kosten tijd en geheugen

Lange opnames kosten veel tijd en geheugen, zeker met het large-model op een laptop zonder videokaart. Knip zeer lange opnames in stukken of kies een kleiner of turbo-model als je snel resultaat nodig hebt.

Transcripties verder verwerken

Een ruwe transcriptie is pas het begin. Je kunt de tekst door een lokaal taalmodel halen om een samenvatting te maken, actiepunten eruit te halen of de tekst te corrigeren. Zo bouw je een complete, privé vergaderassistent die opname, transcriptie en samenvatting combineert, allemaal op je eigen apparaat.

Werkt Whisper goed in het Nederlands?

Ja, vooral de medium-, large-v3- en large-v3-turbo-modellen geven goede Nederlandse transcripties. Stel de taal expliciet in op nl voor de beste resultaten.

Welk model kan ik het best kiezen voor Nederlands?

Voor de meeste mensen is large-v3-turbo de beste keuze: bijna de kwaliteit van large-v3, maar veel sneller. Heb je weinig rekenkracht, kies dan medium of small.

Heb ik een videokaart nodig?

Met whisper.cpp niet; het draait vlot op de processor en op Apple Silicon. De Python-versie wordt veel sneller met een NVIDIA-videokaart.

Kan Whisper sprekers herkennen?

Whisper zelf niet. Voor sprekerherkenning combineer je het met aanvullende tools, of je laat een taalmodel de tekst achteraf structureren.

Blijven mijn opnames privé?

Ja, Whisper draait volledig lokaal. Je audio en transcripties verlaten je apparaat niet, in tegenstelling tot online transcriptiediensten.

Welk audioformaat heb ik nodig?

De tool werkt met 16-bit WAV. Converteer andere formaten vooraf naar 16 kHz mono, bijvoorbeeld met ffmpeg, voor een betrouwbaar resultaat.

Met lokale Whisper transcribeer je gevoelige gesprekken veilig. Combineer het met de Ollama API voor automatische samenvattingen of lees over lokale AI op Apple Silicon.

Wat is Whisper?

Welke versie kies je?

Modelgroottes begrijpen

Whisper installeren en gebruiken

Audio voorbereiden

Transcripties verder verwerken

Lokale AI versus cloud-AI: wanneer gebruik je wat?

Lokale AI en GDPR: compliant blijven met on-premise modellen

Lokale AI inzetten in je bedrijf: use cases en aanpak

Waarom lokale AI beter is voor privacy en gevoelige data

Documenten samenvatten met lokale AI