Welk Ollama-model je kiest, hangt af van je hardware, de taal waarin je werkt en het soort taken dat je doet. Met tientallen modellen in de Ollama-bibliotheek is het lastig kiezen. Dit artikel helpt je de populairste families te begrijpen: Llama, Gemma, Mistral, Phi en het sterk opkomende Qwen.
De grote modelfamilies
Elk model is gemaakt door een ander bedrijf met andere uitgangspunten. Llama komt van Meta en is veelzijdig. Gemma komt van Google en deelt technologie met Gemini. Mistral komt uit Frankrijk en staat bekend om efficientie. Phi komt van Microsoft en is verrassend slim voor zijn formaat. Qwen komt van Alibaba en is in 2026 een favoriet geworden voor meertalig werk en code.
Wat betekent het getal achter een model?
Het getal zoals 7B of 70B staat voor het aantal parameters in miljarden. Meer parameters betekent meestal een slimmer model, maar ook meer geheugengebruik. Een 7B-model draait op de meeste laptops, een 70B-model vraagt serieuze hardware. Let op: nieuwere modellen zoals Llama 4 en Gemma 4 gebruiken een mixture-of-experts-opzet (MoE), waarbij maar een deel van de parameters tegelijk actief is. Het totale model is dan groot, maar het geheugen dat je nodig hebt is lager dan het totaalgetal doet vermoeden.
De families naast elkaar
Hieronder zie je de sterke punten van elke familie, met de varianten die in 2026 het meest gebruikt worden in Ollama.
| Familie | Aanrader in 2026 | Sterk in | Geschikt voor |
|---|---|---|---|
| Llama (Meta) | Llama 3.1 8B of Llama 3.3 70B; Llama 4 Scout voor MoE | Redeneren, code, allround | Wie een betrouwbare standaardkeuze wil |
| Gemma (Google) | Gemma 3 12B of 27B; Gemma 4 nieuwer | Meertaligheid (140+ talen), Nederlands, beeld | Europese talen en het Google-ecosysteem |
| Mistral | Mistral 7B; Mistral Small 3.2 (24B) zwaarder | Snelheid, zuinig geheugengebruik | Snelle taken op bescheiden hardware |
| Phi (Microsoft) | Phi-4 Mini; Phi-4 (14B) groter | Slim per gigabyte, redeneren | Oudere laptops en weinig geheugen |
| Qwen (Alibaba) | Qwen3 (diverse formaten) | Meertaligheid (100+ talen), code | Meertalig werk en programmeren |
Test twee modellen naast elkaar
Twijfel je tussen kwaliteit en snelheid? Download twee modellen en stel beide dezelfde vraag. Met ollama run kun je ze direct naast elkaar testen en zelf voelen wat voor jouw werk genoeg is. Vaak is een kleiner model al ruim voldoende.
Welk model voor welke hardware?
De vuistregel is simpel: kies een model dat in je geheugen past. Een 7B-model heeft ongeveer 8 GB nodig, een 13B-model rond 16 GB en een 70B-model 48 GB of meer. Heb je een Mac met Apple Silicon, dan helpt het gedeelde geheugen je grotere modellen te draaien dan je zou verwachten. Quantization (zie hieronder) verlaagt deze getallen verder.
- 8 GB geheugen: Phi-4 Mini, Gemma 3 4B, of een 7B-model in q4-formaat.
- 16 GB geheugen: Gemma 3 12B, Mistral 7B, Qwen3 in een middenformaat.
- 32 GB of meer: Gemma 3 27B, Phi-4 (14B), Mistral Small 3.2.
- 48 GB of meer: Llama 3.3 70B of een zware MoE-variant.
Welk model voor welke taak?
Niet elk model is even goed in elke taak. Voor code zijn Qwen3 en Llama sterk, of een gespecialiseerd codemodel. Voor Nederlandse en andere Europese tekst kies je Gemma 3, dat 140-plus talen ondersteunt. Voor snelle samenvattingen op zwakke hardware pak je Phi-4 Mini of Mistral 7B.
- Code schrijven: Qwen3 of Llama voor sterke programmeerhulp.
- Nederlandse tekst: Gemma 3 (12B of 27B) voor de sterkste meertalige kwaliteit, met Qwen3 als alternatief.
- Snel en licht: Mistral 7B of Phi-4 Mini voor snelheid op bescheiden hardware.
- Zwaar redeneren: Llama 3.3 70B of Phi-4 als je hardware het aankan.
Modellen ophalen in Ollama
Een model ophalen doe je met een enkel commando:
ollama pull gemma3
Wil je een specifiek formaat, voeg dan een tag toe, bijvoorbeeld ollama pull gemma3:27b voor de grote variant. Met ollama list zie je daarna wat je hebt staan. De exacte beschikbare tags vind je altijd op ollama.com/library, want de bibliotheek verandert regelmatig.
Let op je quantization-variant
Quantization-varianten zoals q4 of q8 verkleinen het model om geheugen te besparen. Een q4-versie is kleiner en sneller maar iets minder nauwkeurig. Voor de meeste gebruikers is q4 een prima compromis tussen snelheid en kwaliteit. Begin met q4 en stap pas over op q8 als je merkt dat de kwaliteit tekortschiet.
Welk Ollama-model is het beste voor Nederlands?
Gemma 3 van Google presteert doorgaans sterk in Nederlandse tekst dankzij de meertalige training (140-plus talen). Qwen3 is in 2026 een serieus alternatief geworden voor meertalig werk, en Llama is een prima derde keuze.
Welk model draait op een laptop met 8 GB geheugen?
Phi-4 Mini, Gemma 3 4B en sommige 7B-modellen in q4-formaat passen binnen 8 GB. Grotere modellen worden te zwaar en gaan dan traag draaien of helemaal niet.
Wat is het verschil tussen een 8B- en een 70B-model?
Het 70B-model is veel slimmer in complexe taken maar vraagt 48 GB geheugen of meer. Voor dagelijks werk is een 8B-model zoals Llama 3.1 vaak al ruim genoeg.
Moet ik q4 of q8 kiezen?
q4 is kleiner en sneller met een klein kwaliteitsverlies. q8 is nauwkeuriger maar zwaarder. Begin met q4 en stap over als je de kwaliteit te laag vindt.
Wat betekent een mixture-of-experts-model zoals Llama 4 of Gemma 4?
Bij een MoE-model is maar een deel van de parameters tegelijk actief. Het model is in totaal groot, maar verbruikt minder geheugen en rekenkracht per antwoord dan het totaalgetal suggereert. Daardoor krijg je veel kwaliteit voor relatief beperkte hardware.
Welk model is het snelste op een gewone laptop?
Mistral 7B en Phi-4 Mini zijn bekend om hun snelheid en lage geheugengebruik. In q4-formaat reageren ze vlot, zelfs op oudere hardware.
Nu je een model hebt gekozen, lees je verder over de juiste hardware of over een eigen model maken met een Modelfile.