Naar inhoud
lightbulb Welkom op de nieuwe kennisbank | We hebben de docs volledig vernieuwd met meer dan 160 features. Bekijk wat nieuw isarrow_forward

Het juiste lokale model kiezen: hardware, quantisatie en LM Studio

Begrijp hoe modelgrootte en quantisatie het geheugengebruik bepalen, en draai lokale modellen zonder terminal met de gratis grafische app LM Studio.

Wie lokale AI draait, loopt al snel tegen een vraag aan: welk model past op mijn computer en is goed genoeg voor mijn werk? Het antwoord hangt af van twee zaken: de grootte van het model en de mate van quantisatie. In dit artikel leggen we beide uit, en laten we zien hoe je met de gratis app LM Studio modellen kiest en draait zonder een terminal te gebruiken.

Modelgrootte: parameters

De grootte van een taalmodel wordt uitgedrukt in het aantal parameters, vaak in miljarden (B van billion). Je ziet dit terug in de naam, zoals een model van 7B of 70B. Globaal geldt:

  • Meer parameters betekent doorgaans betere kwaliteit en meer kennis, maar ook meer geheugen en een tragere snelheid.
  • Minder parameters draait vlotter op bescheiden hardware en is voor veel alledaagse taken al ruim voldoende.

De vuistregel is simpel: een model moet in je werkgeheugen passen. Op een computer met een aparte videokaart wordt het GPU-geheugen (VRAM) gebruikt; anders valt het terug op je gewone RAM. Past een model niet, dan start het niet of draait het erg traag.

Quantisatie: kleiner maken met behoud van kwaliteit

Modellen worden oorspronkelijk opgeslagen met hoge precisie (16-bit getallen). Quantisatie comprimeert die getallen naar minder bits per gewicht, bijvoorbeeld 8-bit of 4-bit. Het resultaat is een veel kleiner bestand dat minder geheugen vraagt, tegen een beperkt kwaliteitsverlies.

Je herkent quantisatie aan labels als Q8, Q5 of Q4 in de bestandsnaam. Hoe lager het getal, hoe kleiner en lichter het model, maar hoe meer kwaliteit je inlevert:

  • Hogere bits (bijvoorbeeld Q8): dicht bij de originele kwaliteit, maar groter.
  • Lagere bits (bijvoorbeeld Q4): fors kleiner, met meestal nog goede kwaliteit voor dagelijks gebruik.
  • Heel laag (bijvoorbeeld Q2): alleen als geheugen echt krap is; de kwaliteit kan merkbaar dalen.

Voor de meeste gebruikers is een 4-bit variant (vaak aangeduid als Q4_K_M) een goede balans tussen grootte en kwaliteit. Deze modellen worden meestal verspreid in het GGUF-bestandsformaat, dat door tools als LM Studio en Ollama wordt gebruikt.

Hoeveel geheugen heb ik nodig?

Een handige vuistregel voor 4-bit modellen: reken op ongeveer 0,6 tot 0,7 GB geheugen per miljard parameters, plus wat extra ruimte voor de context. Een paar voorbeelden om een gevoel te krijgen:

Model (4-bit) Geheugen bij benadering Geschikt voor
7B tot 8B 5 tot 6 GB Laptops, 8 GB RAM of meer
13B tot 14B 9 tot 11 GB Desktops, 16 GB RAM of een GPU met 12 GB VRAM
70B 40 GB of meer Krachtige workstations met veel VRAM

Behandel deze getallen als richtlijn, niet als exacte waarden: het werkelijke verbruik hangt ook af van de contextlengte en de gekozen quantisatie.

lightbulb

Begin met een 4-bit variant

Kies bij het downloaden bewust een quantisatie die past bij je geheugen. Begin met een 4-bit variant zoals Q4_K_M. Merk je dat de kwaliteit tekortschiet en heb je geheugen over, probeer dan een hogere variant zoals Q5 of Q8.

LM Studio: lokale AI zonder terminal

Niet iedereen werkt graag met commando's. LM Studio is een gratis grafische app (voor persoonlijk gebruik) waarmee je open modellen zoekt, downloadt en draait via een gewone interface. Het is beschikbaar voor Windows, macOS (Apple Silicon) en Linux, en draait modellen volledig lokaal; je prompts gaan niet naar een externe dienst.

LM Studio bundelt meerdere dingen in een app:

  • Een modelbrowser die direct verbindt met Hugging Face, zodat je GGUF-modellen kunt zoeken en downloaden.
  • Een ingebouwde chatinterface om met een geladen model te praten, met de mogelijkheid om documenten mee te geven.
  • Een lokale API-server die een OpenAI-compatibel eindpunt aanbiedt, voor je eigen toepassingen.

De basiswerkwijze ziet er zo uit:

Zo start je met LM Studio

  1. Download en installeer LM Studio vanaf lmstudio.ai.
  2. Zoek in de modelbrowser een model en download een quantisatie die bij je hardware past.
  3. Laad het model en stel je vraag in het chatvenster.
info

LM Studio herkent je hardware

LM Studio detecteert je hardware en kan een geschikte GPU automatisch benutten. Daardoor hoef je zelf geen technische instellingen te kiezen om snel te starten.

Een API-server starten

Wil je een lokaal model koppelen aan je eigen scripts of een ander programma, dan zet je in LM Studio de ingebouwde server aan via het ontwikkelaars- of servertabblad. Die stelt standaard een OpenAI-compatibel eindpunt beschikbaar op http://localhost:1234. Veel tools die met de OpenAI-API werken, kun je daar zonder aanpassingen op richten door enkel het basis-adres te wijzigen. Er is geen API-sleutel nodig en er gaat geen verkeer naar buiten.

warning

Download alleen van vertrouwde bronnen

Hugging Face host modellen van veel verschillende makers. Let op een herkenbare uitgever en vermijd obscure of slecht onderhouden modellen, net zoals je bij elke download op de bron let.

Samengevat

Kies een model dat in je geheugen past: stem de grootte (parameters) en quantisatie (zoals Q4) af op je hardware. Begin klein en schaal op naar behoefte. Wil je zonder terminal werken, dan biedt LM Studio een complete grafische omgeving om lokale modellen te zoeken, draaien en via een lokale API aan te sturen.

Wat betekent het getal achter B in een modelnaam?

Het getal staat voor het aantal parameters in miljarden, zoals 7B (7 miljard) of 70B (70 miljard). Meer parameters geven doorgaans betere kwaliteit, maar vragen meer geheugen en draaien trager.

Wat is het verschil tussen Q4 en Q8?

Dat zijn quantisatieniveaus. Q8 ligt dichter bij de originele kwaliteit maar is groter, terwijl Q4 fors kleiner is met meestal nog prima kwaliteit voor dagelijks gebruik. Q4_K_M is voor de meeste mensen een goede start.

Heb ik een aparte videokaart nodig voor lokale modellen?

Nee. Met een GPU is een model meestal sneller omdat het VRAM wordt gebruikt, maar zonder videokaart draait een model op je gewone RAM. Kleinere modellen van 7B of 8B werken prima op een laptop met voldoende RAM.

Wat is het GGUF-formaat?

GGUF is het bestandsformaat waarin de meeste gequantiseerde modellen worden verspreid. Tools als LM Studio en Ollama gebruiken dit formaat, dus je kunt hetzelfde gedownloade bestand vaak in meerdere apps gebruiken.

Gaan mijn prompts in LM Studio naar internet?

Nee. LM Studio draait modellen volledig lokaal op je eigen computer. Je prompts en antwoorden blijven op je apparaat en gaan niet naar een externe dienst.

Kan ik LM Studio koppelen aan mijn eigen code?

Ja. Zet de ingebouwde server aan, dan krijg je een OpenAI-compatibel eindpunt op http://localhost:1234. Veel bestaande OpenAI-clients werken door alleen het basis-adres aan te passen.