Naar inhoud
lightbulb Welkom op de nieuwe kennisbank | We hebben de docs volledig vernieuwd met meer dan 160 features. Bekijk wat nieuw isarrow_forward

Lokale AI als coding-assistent: Continue en Cursor

Gebruik lokale LLM-modellen als privacyvriendelijke coding-assistent via Continue (open source) of Cursor, met Ollama als backend en je code blijft op je eigen machine.

Waarom lokale AI voor coderen?

Cloudgebaseerde coding-assistenten zoals GitHub Copilot sturen je code naar externe servers. Voor propriëtaire code, gevoelige bedrijfslogica of strikte compliance-vereisten is dat onwenselijk. Lokale AI-modellen draaien volledig op je eigen hardware, zodat er geen code je computer verlaat.

Twee populaire opties:

  • Continue: een open-source VS Code-extensie die met elk lokaal of cloud-LLM werkt.
  • Cursor: een volledige AI-editor gebaseerd op VS Code met diepgaande model-integratie.
info

Hardware bepaalt je modelkeuze

Lokale modellen vragen voldoende geheugen. Voor codeertaken is een model van 7B tot 32B parameters geschikt. Een GPU met 8 tot 24 GB VRAM geeft de beste prestaties. Alleen op CPU werkt het ook, maar trager en bij voorkeur met kleinere modellen.

Ollama: lokale modellen draaien

Ollama is de eenvoudigste manier om lokale LLM-modellen te draaien. Het biedt een OpenAI-compatibele API die door Continue, Cursor en andere tools gebruikt kan worden.

Installatie

curl -fsSL https://ollama.com/install.sh | sh

Of download de macOS- of Windows-installer via ollama.com.

Codemodellen installeren

ollama pull qwen2.5-coder:7b
ollama pull qwen2.5-coder:1.5b
ollama pull deepseek-coder-v2:16b

Aanbevolen modellen voor codeertaken (medio 2026):

Model Grootte Sterkte
qwen2.5-coder:1.5b ~1 GB Snelle autocomplete, ook op CPU
qwen2.5-coder:7b ~4 GB Algemeen coderen, goede allrounder
deepseek-coder-v2:16b ~9 GB Sterke code-completions en refactoring
qwen2.5-coder:32b ~20 GB Beste kwaliteit, vereist een stevige GPU
qwen3-coder:30b ~19 GB Nieuwere generatie, 256K-contextvenster
lightbulb

Klein voor autocomplete, groot voor redeneren

Gebruik een klein model (1.5B tot 7B) voor snelle autocomplete en een groter model (16B tot 32B) voor chat, uitleg en refactoring over meerdere bestanden. De sprong naar 32B telt vooral bij taken die context over meerdere bestanden vragen.

Continue: open-source VS Code-extensie

Continue is een gratis, open-source VS Code-extensie voor AI-coding-assistentie. Je bepaalt zelf welke modellen worden gebruikt.

Installatie

Continue installeren

  1. Open VS Code en ga naar Extensies (Ctrl+Shift+X).
  2. Zoek op Continue en installeer de extensie.
  3. Open het Continue-paneel in de zijbalk.
  4. Klik op het instellingen-icoon en bewerk het configuratiebestand config.yaml in de map ~/.continue/.
warning

config.json is vervangen door config.yaml

Sinds Continue 1.0 is het oude config.json deprecated. De huidige configuratie gebruikt config.yaml met een roles-veld per model. Volg je een oudere handleiding met config.json, gebruik dan de YAML-migratiegids in de Continue-documentatie.

Configuratie voor Ollama

name: Lokale config
version: 0.0.1
schema: v1
models:
  - name: Qwen2.5 Coder (chat)
    provider: ollama
    model: qwen2.5-coder:7b
    apiBase: http://localhost:11434
    roles:
      - chat
      - edit
  - name: Qwen2.5 Coder (autocomplete)
    provider: ollama
    model: qwen2.5-coder:1.5b
    apiBase: http://localhost:11434
    roles:
      - autocomplete
context:
  - provider: diff
  - provider: open
  - provider: terminal
  - provider: codebase

De modelnaam in de configuratie moet exact overeenkomen met wat ollama list toont, en het model moet lokaal geïnstalleerd zijn.

Continue gebruiken

  • Chat: Ctrl+L opent de AI-chat om vragen over je code te stellen.
  • Autocomplete: Continue vult code aan terwijl je typt.
  • Edit: selecteer code en druk Ctrl+I voor inline bewerkingen.
  • Codebase-context: typ @codebase om de AI toegang te geven tot je hele project.

Cursor: de AI-first editor

Cursor is een fork van VS Code met ingebouwde AI-functies. Het biedt een diepere integratie dan een losse extensie, maar de ondersteuning voor lokale modellen kent enkele beperkingen.

Lokale modellen in Cursor

Cursor praat met lokale modellen via de OpenAI-compatibele API van Ollama. Je overschrijft daarvoor de OpenAI-base-URL in de instellingen.

Ollama koppelen aan Cursor

  1. Open Cursor en ga naar Settings, daarna Models.
  2. Open de OpenAI API-sectie en zet Override Base URL aan.
  3. Vul als base-URL http://localhost:11434/v1 in en als API-sleutel een willekeurige waarde, bijvoorbeeld ollama.
  4. Voeg de modelnaam toe (bijvoorbeeld qwen2.5-coder:7b) en klik op Verify.
warning

Beperkingen van lokale modellen in Cursor

De OpenAI-override werkt voornamelijk voor Chat en Cmd+K. Cursor Tab (de snelle inline-autocomplete) vraagt een latency onder de honderd milliseconden en werkt onbetrouwbaar met lokale modellen. Daarnaast verwacht Cursor in veel gevallen een publiek HTTPS-endpoint, waardoor een tunnel zoals Cloudflare Tunnel of ngrok nodig kan zijn. Lukt de verificatie niet, zet dan OLLAMA_ORIGINS="*" zodat Ollama verzoeken van Cursor accepteert.

Cursor Composer

Cursor Composer (Ctrl+I) is de krachtigste functie: een AI-agent die in meerdere stappen meerdere bestanden tegelijk kan aanpassen op basis van één instructie. Geschikt voor:

  • Het refactoren van een module.
  • Het toevoegen van een nieuwe feature met bijbehorende tests.
  • Het consistent doorvoeren van een naamgevingsconventie over de hele codebase.

Houd er rekening mee dat de zwaardere agent-functies in de praktijk het best presteren met grotere modellen of de cloudmodellen van Cursor zelf.

Wat als mijn computer niet krachtig genoeg is voor lokale modellen?

Kies een klein model zoals qwen2.5-coder:1.5b, dat ook op CPU draait. Het is minder capabel maar wel privacyveilig. Een alternatief is een zelfgehoste Ollama-instantie op een krachtigere server binnen je eigen netwerk.

Kan ik Continue ook met cloudmodellen gebruiken?

Ja. Continue ondersteunt onder andere Anthropic Claude, OpenAI en Google Gemini. Je configureert meerdere modellen naast elkaar en kiest per situatie welke je inzet.

Is Cursor echt lokaal als ik Ollama als backend gebruik?

De modelinferentie draait lokaal, maar Cursor zelf kan telemetrie versturen. Controleer de privacyinstellingen in Cursor als dat voor jou een bezwaar is.

Welk model is het beste voor Python of JavaScript?

Qwen2.5 Coder presteert in beide talen goed. Voor sterk gespecialiseerde taken, bijvoorbeeld in Rust of Go, kan een ander model soms beter uitpakken. Test op je eigen codebase voor je een keuze maakt.

Hoe update ik een model in Ollama?

Met ollama pull <modelnaam> haal je altijd de laatste versie van dat model op.

Waarom werkt mijn Continue-config niet meer?

Waarschijnlijk gebruik je nog config.json, dat sinds Continue 1.0 vervangen is door config.yaml. Zet je instellingen om naar het YAML-formaat met het roles-veld per model.