Lokale AI op Apple Silicon draait verrassend goed dankzij het unified memory van de M-chips. Een Mac met M1, M2, M3, M4 of de nieuwere M5 deelt het geheugen tussen processor en grafische chip, waardoor je grotere modellen kunt draaien dan op menige losse videokaart met hetzelfde geheugen.
Waarom Apple Silicon zo goed is voor AI
Bij een gewone pc met losse videokaart moet een AI-model in het beperkte videogeheugen van die kaart passen. Bij Apple Silicon delen de processor en de grafische chip hetzelfde geheugen, het zogeheten unified memory. Dat betekent dat al je geheugen beschikbaar is voor AI, niet alleen een klein apart deel. Bovendien hoeft het model niet eerst over een aparte bus naar de videokaart te worden gekopieerd, wat tijd en bandbreedte scheelt.
Unified memory is de sleutel
Een Mac met 64 GB unified memory kan modellen draaien die op een losse videokaart van 24 GB simpelweg niet passen. Dit maakt Apple Silicon ongewoon krachtig voor lokale AI in een compact apparaat.
De nieuwste chips uit de M5-generatie (M5, M5 Pro en M5 Max, verschenen begin 2026) hebben daarnaast versnellers in de grafische chip die speciaal helpen bij AI. Die zorgen voor een snellere eerste reactie en meer tokens per seconde, maar ook oudere chips zoals de M1 doen lokale AI prima.
Welk model bij hoeveel geheugen?
Het geheugen van je Mac bepaalt welke modellen je comfortabel draait. Houd altijd wat geheugen vrij voor macOS en je andere programma's, dus reken niet met je volledige geheugen. De B in 7B of 70B staat voor het aantal parameters in miljarden; meer parameters betekent doorgaans een slimmer maar zwaarder model.
| Unified memory | Wat je comfortabel draait |
|---|---|
| 8 GB | Kleine modellen tot ongeveer 3B, prima voor lichte taken |
| 16 GB | 7B- en 8B-modellen draaien comfortabel |
| 32 GB | 13B-modellen en groter worden bereikbaar |
| 64 GB en meer | Zware modellen tot 70B in gequantiseerde vorm |
Quantisatie verkleint een model door de getallen erin minder precies op te slaan. Een gequantiseerd 70B-model past zo in veel minder geheugen, met een meestal nauwelijks merkbaar kwaliteitsverlies.
Ollama op je Mac
Ollama benut de grafische chip van je Mac automatisch via Metal, de grafische technologie van Apple. Je hoeft niets in te stellen: download Ollama, start een model en het gebruikt je chip optimaal. De installatie verloopt net als op elke Mac.
Sinds begin 2026 draait Ollama op Apple Silicon bovendien op Apple's eigen MLX-framework. Dat benut het unified memory nog beter en levert merkbaar snellere antwoorden, zeker op de M5-chips met hun nieuwe AI-versnellers. Deze MLX-versnelling startte als preview, dus controleer of je een recente versie van Ollama hebt.
Zo zie je hoe snel je Mac is
Wil je weten hoe vlot je Mac is? Let bij het genereren op de tokens per seconde. Een M-chip haalt bij 7B-modellen snelheden die prettig aanvoelen tijdens het chatten, vergelijkbaar met online diensten.
MLX: Apple's eigen AI-framework
MLX is een framework van Apple, speciaal ontworpen voor de M-chips. Sinds Ollama er op Apple Silicon zelf op draait, krijgen de meeste gebruikers de voordelen van MLX automatisch. Wil je dieper gaan, dan kun je MLX ook rechtstreeks gebruiken, bijvoorbeeld om modellen te draaien of zelfs af te stellen. Dat vraagt iets meer technische kennis, maar geeft de meeste controle en efficientie.
Drie populaire manieren om lokale AI op je Mac te draaien:
- Ollama: de makkelijkste start. Werkt direct, benut Metal en MLX automatisch en heeft een grote modelbibliotheek. Voor de meeste gebruikers de beste keuze om mee te beginnen.
- MLX direct: Apple's framework rechtstreeks gebruiken. Sneller en zuiniger voor ondersteunde modellen en geschikt voor afstellen, maar vraagt meer technische kennis.
- LM Studio: een grafische app die op Apple Silicon zowel het MLX- als het standaard llama.cpp-formaat draait. Fijn voor wie liever klikt dan typt, met een nette interface bovenop dezelfde kracht.
Het geheugen in de gaten houden
Omdat geheugen gedeeld is, kan een groot model veel van je beschikbare geheugen opslokken. Draait er een zwaar model, dan merk je dat andere apps minder ruimte hebben. macOS beheert dit slim, maar bij krappe geheugens kan het systeem trager worden.
Laad nooit een model dat te groot is
Laad geen model dat groter is dan je vrije geheugen. macOS gaat dan swappen naar de schijf, wat de snelheid drastisch verlaagt en je SSD onnodig belast. Kies een modelformaat dat comfortabel binnen je geheugen past. De MLX-versnelling in Ollama vraagt overigens een Mac met meer dan 32 GB unified memory.
Stroomverbruik en warmte
Een fijn voordeel van Apple Silicon is de efficientie. Waar een pc met krachtige videokaart veel stroom verbruikt en warm wordt, blijft een MacBook relatief koel en stil tijdens AI-werk. Voor wie op een laptop werkt, is dat een groot pluspunt, al loopt de accu bij intensief gebruik wel sneller leeg.
Snel aan de slag met lokale AI op je Mac
- Download
Ollamavan de officiele site en sleep de app naar je map Programma's. - Open de Terminal en start een passend model bij je geheugen, bijvoorbeeld
ollama run llama3.1:8bop een Mac met 16 GB. - Stel je vraag in het venster en let op de tokens per seconde om de snelheid te peilen.
- Houd in Activiteitenweergave het geheugengebruik in de gaten en kies een kleiner model als het systeem traag wordt.
Welke Mac is het beste voor lokale AI?
Een Mac met zo veel mogelijk unified memory. Het type chip helpt voor snelheid, maar het geheugen bepaalt welke modellen je uberhaupt kunt draaien.
Werkt lokale AI op een M1 net zo goed als op een M5?
Een M5 is sneller en heeft extra AI-versnellers, maar ook een M1 draait lokale AI prima. Het beschikbare geheugen is belangrijker dan de generatie voor welke modellen passen.
Wat is MLX en heb ik het nodig?
MLX is Apple's AI-framework, geoptimaliseerd voor M-chips. Op Apple Silicon gebruikt Ollama het inmiddels zelf, dus de meeste mensen krijgen de voordelen automatisch. Rechtstreeks met MLX werken is interessant als je het maximale eruit wilt halen.
Hoeveel geheugen heb ik minimaal nodig?
Met 16 GB draai je comfortabel 7B-modellen. Voor grotere modellen kies je 32 GB of meer. Met 8 GB blijf je beperkt tot kleine modellen.
Wat betekent quantisatie?
Quantisatie slaat de getallen in een model minder precies op, waardoor het in minder geheugen past. Zo draai je een groot model toch op een Mac met beperkt geheugen, met meestal nauwelijks merkbaar kwaliteitsverlies.
Je Mac is een uitstekende machine voor lokale AI. Begin met Ollama installeren op macOS of vergelijk de beschikbare modellen om de juiste keuze voor jouw geheugen te maken.