Naar inhoud
lightbulb Welkom op de nieuwe kennisbank | We hebben de docs volledig vernieuwd met meer dan 160 features. Bekijk wat nieuw isarrow_forward

Hardware kiezen voor lokale AI: GPU, RAM en opslag

Leer welke rol je videokaart, werkgeheugen en opslag spelen bij lokale AI, hoeveel geheugen elk modelformaat vraagt en welke opzet past bij jouw budget.

Hardware kiezen voor lokale AI draait om drie dingen: je videokaart, je werkgeheugen en je opslag. Welke combinatie je nodig hebt, hangt af van hoe groot de modellen zijn die je wilt draaien. Dit artikel helpt je de juiste keuze maken zonder te veel of te weinig uit te geven.

Geheugen is de belangrijkste factor

De grootste bottleneck bij lokale AI is geheugen. Een model moet volledig in geheugen passen om vlot te kunnen draaien. Past het niet, dan weigert het of wordt het pijnlijk traag. Daarom bepaal je eerst welke modellen je wilt draaien en pas daarna hoeveel geheugen je nodig hebt.

info

Vuistregel voor geheugen

Reken ongeveer 1 GB per miljard parameters voor een gequantiseerd model (4-bits). Een 7B-model vraagt zo'n 8 GB, een 13B-model rond 16 GB en een 70B-model 48 GB of meer. Houd altijd wat marge aan voor je besturingssysteem en voor de context die je verwerkt.

VRAM versus werkgeheugen

Hier zit een belangrijk onderscheid. Bij een NVIDIA-systeem telt het videogeheugen (VRAM) op de kaart. Past het model in VRAM, dan draait het snel. Bij Apple Silicon is het geheugen gedeeld tussen processor en grafische chip, waardoor je grotere modellen kunt draaien dan met een losse videokaart van hetzelfde geheugen.

De drie opstellingen kort vergeleken:

Opstelling Hoe het werkt Praktijk
NVIDIA-videokaart Model moet in het VRAM passen voor topsnelheid Een kaart met 24 GB VRAM draait 13B-modellen comfortabel; past het model niet, dan valt het deels terug op traag systeemgeheugen
Apple Silicon Geheugen is gedeeld tussen processor en GPU Een Mac met 64 GB draait grote modellen die op een losse kaart niet passen; snel, al haalt het niet altijd het niveau van een topkaart van NVIDIA
Alleen processor Alles draait op de CPU met systeemgeheugen Werkt voor kleine modellen, maar is duidelijk trager; prima om mee te beginnen of voor lichte taken

Welke videokaart kies je?

Voor NVIDIA geldt: meer VRAM is voor lokale AI belangrijker dan rauwe rekensnelheid. Een kaart met veel geheugen kan grotere modellen aan. Consumentenkaarten met 12 tot 24 GB VRAM zijn een goede keuze voor thuisgebruik. Voor een professionele opzet met grote modellen kijk je naar kaarten met nog meer geheugen.

VRAM Geschikt voor
8 tot 12 GB 7B-modellen en lichte taken
16 tot 24 GB 13B-modellen comfortabel
48 GB en meer 70B-modellen en zwaar werk
Apple Silicon (gedeeld) Verrassend grote modellen dankzij het gedeelde geheugen

Opslag niet vergeten

Modellen zijn groot. Een enkel model neemt al snel 4 tot 40 GB in beslag, en wie meerdere modellen wil proberen, heeft snel honderden gigabytes nodig. Kies een snelle SSD, want modellen worden bij elke start ingelezen. Een trage harde schijf maakt het laden onnodig langzaam.

warning

Onderschat de opslagbehoefte niet

Een verzameling modellen vult moeiteloos een halve terabyte. Zorg voor ruime, snelle SSD-opslag en houd in de gaten welke modellen je echt gebruikt, zodat je oude modellen tijdig opruimt.

Keuzes per budget

Wat je koopt, hangt af van wat je wilt bereiken. Voor wie alleen wil proberen, volstaat bestaande hardware. Wie serieus aan de slag gaat, investeert gericht in geheugen.

  • Ik wil het alleen proberen. Begin op je huidige computer met kleine modellen, geen aankoop nodig.
  • Ik werk veel op een Mac. Een Apple Silicon-Mac met ruim gedeeld geheugen (32 GB of meer) is een aantrekkelijk vertrekpunt.
  • Ik wil het in mijn bedrijf draaien. Investeer in een NVIDIA-kaart met veel VRAM of een server, en denk aan beheer en beveiliging.
  • Ik wil grote modellen draaien. Mik op 48 GB VRAM of meer, of een Mac met zeer veel gedeeld geheugen.
lightbulb

Test eerst, koop daarna

Begin niet meteen met dure hardware. Test eerst met je huidige computer en kleine modellen. Merk je dat lokale AI waarde toevoegt en dat je tegen grenzen aanloopt, dan weet je precies waarin je moet investeren.

Heb ik per se een videokaart nodig?

Nee, kleine modellen draaien op de processor. Maar een videokaart of Apple Silicon versnelt grotere modellen aanzienlijk en maakt het pas echt werkbaar.

Hoeveel geheugen heb ik nodig voor een 7B-model?

Ongeveer 8 GB voor een gequantiseerde versie. Houd extra geheugen aan voor je besturingssysteem en andere programma's, en wat marge voor langere prompts.

Is een Mac of een pc met videokaart beter?

Beide werken. Een Mac met veel gedeeld geheugen draait grotere modellen makkelijk, terwijl een pc met een sterke NVIDIA-kaart vaak sneller is bij modellen die volledig in het VRAM passen.

Hoeveel opslag heb ik nodig?

Reken op tientallen gigabytes per serieus model. Wie meerdere modellen verzamelt, heeft al snel enkele honderden gigabytes snelle SSD nodig.

Wat betekent quantiseren en waarom is het belangrijk?

Quantiseren verkleint een model door de getallen met minder bits op te slaan, meestal 4-bits. Daardoor past het in veel minder geheugen, met in de praktijk nauwelijks zichtbaar kwaliteitsverlies. Vrijwel alle modellen die je lokaal draait, zijn gequantiseerd.

Kan ik een te groot model toch draaien?

Soms wel, door een deel naar het systeemgeheugen te verschuiven, maar dat wordt fors trager. Beter is een kleiner of sterker gequantiseerd model te kiezen dat netjes in je geheugen past.

Met de juiste hardware draait lokale AI soepel. Verdiep je in lokale AI op Apple Silicon of vergelijk eerst de beschikbare modellen om je geheugenbehoefte te bepalen.