Welk Ollama-model kies je? Llama, Gemma, Mistral, Phi en Qwen vergeleken

Ollama biedt tientallen modellen en de keuze is verwarrend als je begint. We vergelijken de populairste families (Llama, Gemma, Mistral, Phi en Qwen) zodat je het juiste model kiest voor jouw hardware, taal en taak.

schedule5 min lezen event1 Jun 2026 updateBijgewerkt 5 uur

open_in_new data_object

Welk Ollama-model je kiest, hangt af van je hardware, de taal waarin je werkt en het soort taken dat je doet. Met tientallen modellen in de Ollama-bibliotheek is het lastig kiezen. Dit artikel helpt je de populairste families te begrijpen: Llama, Gemma, Mistral, Phi en het sterk opkomende Qwen.

De grote modelfamilies

Elk model is gemaakt door een ander bedrijf met andere uitgangspunten. Llama komt van Meta en is veelzijdig. Gemma komt van Google en deelt technologie met Gemini. Mistral komt uit Frankrijk en staat bekend om efficientie. Phi komt van Microsoft en is verrassend slim voor zijn formaat. Qwen komt van Alibaba en is in 2026 een favoriet geworden voor meertalig werk en code.

info

Wat betekent het getal achter een model?

Het getal zoals 7B of 70B staat voor het aantal parameters in miljarden. Meer parameters betekent meestal een slimmer model, maar ook meer geheugengebruik. Een 7B-model draait op de meeste laptops, een 70B-model vraagt serieuze hardware. Let op: nieuwere modellen zoals Llama 4 en Gemma 4 gebruiken een mixture-of-experts-opzet (MoE), waarbij maar een deel van de parameters tegelijk actief is. Het totale model is dan groot, maar het geheugen dat je nodig hebt is lager dan het totaalgetal doet vermoeden.

De families naast elkaar

Hieronder zie je de sterke punten van elke familie, met de varianten die in 2026 het meest gebruikt worden in Ollama.

Familie	Aanrader in 2026	Sterk in	Geschikt voor
Llama (Meta)	Llama 3.1 8B of Llama 3.3 70B; Llama 4 Scout voor MoE	Redeneren, code, allround	Wie een betrouwbare standaardkeuze wil
Gemma (Google)	Gemma 3 12B of 27B; Gemma 4 nieuwer	Meertaligheid (140+ talen), Nederlands, beeld	Europese talen en het Google-ecosysteem
Mistral	Mistral 7B; Mistral Small 3.2 (24B) zwaarder	Snelheid, zuinig geheugengebruik	Snelle taken op bescheiden hardware
Phi (Microsoft)	Phi-4 Mini; Phi-4 (14B) groter	Slim per gigabyte, redeneren	Oudere laptops en weinig geheugen
Qwen (Alibaba)	Qwen3 (diverse formaten)	Meertaligheid (100+ talen), code	Meertalig werk en programmeren

lightbulb

Test twee modellen naast elkaar

Twijfel je tussen kwaliteit en snelheid? Download twee modellen en stel beide dezelfde vraag. Met ollama run kun je ze direct naast elkaar testen en zelf voelen wat voor jouw werk genoeg is. Vaak is een kleiner model al ruim voldoende.

Welk model voor welke hardware?

De vuistregel is simpel: kies een model dat in je geheugen past. Een 7B-model heeft ongeveer 8 GB nodig, een 13B-model rond 16 GB en een 70B-model 48 GB of meer. Heb je een Mac met Apple Silicon, dan helpt het gedeelde geheugen je grotere modellen te draaien dan je zou verwachten. Quantization (zie hieronder) verlaagt deze getallen verder.

8 GB geheugen: Phi-4 Mini, Gemma 3 4B, of een 7B-model in q4-formaat.
16 GB geheugen: Gemma 3 12B, Mistral 7B, Qwen3 in een middenformaat.
32 GB of meer: Gemma 3 27B, Phi-4 (14B), Mistral Small 3.2.
48 GB of meer: Llama 3.3 70B of een zware MoE-variant.

Welk model voor welke taak?

Niet elk model is even goed in elke taak. Voor code zijn Qwen3 en Llama sterk, of een gespecialiseerd codemodel. Voor Nederlandse en andere Europese tekst kies je Gemma 3, dat 140-plus talen ondersteunt. Voor snelle samenvattingen op zwakke hardware pak je Phi-4 Mini of Mistral 7B.

Code schrijven: Qwen3 of Llama voor sterke programmeerhulp.
Nederlandse tekst: Gemma 3 (12B of 27B) voor de sterkste meertalige kwaliteit, met Qwen3 als alternatief.
Snel en licht: Mistral 7B of Phi-4 Mini voor snelheid op bescheiden hardware.
Zwaar redeneren: Llama 3.3 70B of Phi-4 als je hardware het aankan.

Modellen ophalen in Ollama

Een model ophalen doe je met een enkel commando:

ollama pull gemma3

Wil je een specifiek formaat, voeg dan een tag toe, bijvoorbeeld ollama pull gemma3:27b voor de grote variant. Met ollama list zie je daarna wat je hebt staan. De exacte beschikbare tags vind je altijd op ollama.com/library, want de bibliotheek verandert regelmatig.

warning

Let op je quantization-variant

Quantization-varianten zoals q4 of q8 verkleinen het model om geheugen te besparen. Een q4-versie is kleiner en sneller maar iets minder nauwkeurig. Voor de meeste gebruikers is q4 een prima compromis tussen snelheid en kwaliteit. Begin met q4 en stap pas over op q8 als je merkt dat de kwaliteit tekortschiet.

Welk Ollama-model is het beste voor Nederlands?

Gemma 3 van Google presteert doorgaans sterk in Nederlandse tekst dankzij de meertalige training (140-plus talen). Qwen3 is in 2026 een serieus alternatief geworden voor meertalig werk, en Llama is een prima derde keuze.

Welk model draait op een laptop met 8 GB geheugen?

Phi-4 Mini, Gemma 3 4B en sommige 7B-modellen in q4-formaat passen binnen 8 GB. Grotere modellen worden te zwaar en gaan dan traag draaien of helemaal niet.

Wat is het verschil tussen een 8B- en een 70B-model?

Het 70B-model is veel slimmer in complexe taken maar vraagt 48 GB geheugen of meer. Voor dagelijks werk is een 8B-model zoals Llama 3.1 vaak al ruim genoeg.

Moet ik q4 of q8 kiezen?

q4 is kleiner en sneller met een klein kwaliteitsverlies. q8 is nauwkeuriger maar zwaarder. Begin met q4 en stap over als je de kwaliteit te laag vindt.

Wat betekent een mixture-of-experts-model zoals Llama 4 of Gemma 4?

Bij een MoE-model is maar een deel van de parameters tegelijk actief. Het model is in totaal groot, maar verbruikt minder geheugen en rekenkracht per antwoord dan het totaalgetal suggereert. Daardoor krijg je veel kwaliteit voor relatief beperkte hardware.

Welk model is het snelste op een gewone laptop?

Mistral 7B en Phi-4 Mini zijn bekend om hun snelheid en lage geheugengebruik. In q4-formaat reageren ze vlot, zelfs op oudere hardware.

Nu je een model hebt gekozen, lees je verder over de juiste hardware of over een eigen model maken met een Modelfile.

De grote modelfamilies

De families naast elkaar

Welk model voor welke hardware?

Welk model voor welke taak?

Modellen ophalen in Ollama

Lokale AI op Apple Silicon: M1 tot M5 optimaal benutten

Een Ollama Modelfile aanmaken voor een aangepast model

Hardware kiezen voor lokale AI: GPU, RAM en opslag

De beste lokale AI-modellen van 2026 vergeleken

Open WebUI instellen voor een lokale AI-chatinterface