# Lokale AI als code-assistent instellen in VS Code

Lokale AI als code-assistent instellen in VS Code geeft je slimme codehulp zonder dat je broncode naar een externe dienst gaat. Voor ontwikkelaars die met vertrouwelijke of bedrijfskritische code werken, is dat een belangrijk voordeel ten opzichte van commerciele cloud-assistenten.

[[TOC]]

## Waarom een lokale code-assistent?

Commerciele code-assistenten sturen je code naar hun servers om suggesties te geven. Voor veel projecten is dat geen probleem, maar bij vertrouwelijke of gevoelige broncode wil je dat liever niet. Een lokale assistent draait op je eigen machine en houdt je code binnen. Bovendien werk je offline en betaal je geen abonnement.

:::info title="Je code blijft van jou"
Bij een lokale code-assistent verlaat geen enkele regel code je computer. Voor bedrijven met geheime algoritmes of klantcode is dat een doorslaggevend argument om lokaal te werken.
:::

## Wat je nodig hebt

Je hebt drie dingen nodig: VS Code, een draaiende Ollama-installatie met een codemodel, en een extensie die ze verbindt. De populairste extensie hiervoor is Continue, die zowel codecompletie als een chatvenster biedt en goed met Ollama samenwerkt.

:::howto title="Lokale code-assistent instellen"
1. Zorg dat Ollama draait en download een autocomplete-model met `ollama pull qwen2.5-coder:1.5b`.
2. Download daarnaast een groter model voor chat, bijvoorbeeld met `ollama pull qwen2.5-coder:7b`.
3. Open VS Code en installeer de **Continue**-extensie uit de marktplaats.
4. Open de instellingen van Continue en kies **Ollama** als aanbieder.
5. Wijs het kleine model toe aan autocomplete en het grotere model aan chat.
6. Test het door een vraag te stellen in het chatvenster of code te laten aanvullen.
:::

## Een codemodel kiezen

Algemene modellen kunnen code schrijven, maar gespecialiseerde codemodellen doen het beter. In 2026 zijn de Qwen-codemodellen een sterke standaardkeuze: `qwen2.5-coder` ondersteunt fill-in-the-middle en is daardoor uitstekend voor autocomplete, terwijl grotere varianten zoals `qwen3-coder` complexere chat- en refactortaken goed aankunnen. CodeLlama werkt nog steeds, maar de nieuwere Qwen-modellen presteren over het algemeen beter.

Voor codecompletie wil je een klein, snel model zodat suggesties direct verschijnen, en voor chat een groter model dat beter redeneert. Onderstaande tabel geeft een praktische verdeling.

| Taak | Wat je zoekt | Voorbeeldmodel |
| --- | --- | --- |
| Autocomplete | Klein en snel, met fill-in-the-middle | `qwen2.5-coder:1.5b` of `:3b` |
| Chat en uitleg | Meer kennis en redeneervermogen | `qwen2.5-coder:7b` of groter |
| Zwaar refactoren | Maximale kwaliteit, vraagt meer hardware | `qwen3-coder` (groot) |

:::tip title="Kies eerst klein, schaal daarna op"
Begin met een klein autocomplete-model en een middelgroot chatmodel. Voelt het traag, dan ga je kleiner of pak je een sterker gequantiseerde versie. Werkt alles vlot, dan probeer je een groter chatmodel voor scherpere antwoorden.
:::

## Codecompletie en chat

Met de extensie ingesteld krijg je twee dingen. Tijdens het typen verschijnen suggesties die je met een toets accepteert, vergelijkbaar met bekende assistenten. Daarnaast open je een chatvenster waarin je vragen stelt over je code, fouten laat verklaren of een nieuwe functie laat schrijven.

In de praktijk gebruik je de assistent zo:

- **Code typen**: suggesties verschijnen automatisch als ghost-text terwijl je werkt.
- **Selecteren en vragen**: markeer een stuk code en vraag om uitleg of verbetering.
- **Fouten oplossen**: plak een foutmelding in de chat en vraag om een oplossing.
- **Refactoren**: laat het model een nettere of snellere versie voorstellen.

:::tip title="Geef het model context"
Hoe meer relevante context, hoe beter de suggestie. Continue laat je eenvoudig stukken code of hele bestanden aan je vraag toevoegen, zodat het model jouw codebase begrijpt en scherper antwoordt.
:::

## Prestaties afstemmen

De snelheid hangt af van je hardware en je modelkeuze. Voelt autocomplete traag aan, kies dan een kleiner model of een sterker gequantiseerde versie. Op een [[lokale-ai-apple-silicon|Apple Silicon Mac]] of een pc met een goede videokaart draaien codemodellen vlot genoeg voor prettig werken. Een 1,5B-model voelt vrijwel direct, terwijl een 7B-model bij elke toetsaanslag iets meer vertraging kan geven.

:::warn title="Lokaal haalt niet altijd de cloudtop"
Een lokaal codemodel haalt niet altijd het niveau van de beste commerciele assistenten voor de meest complexe taken. Voor dagelijks werk en privacygevoelige projecten is het uitstekend, maar verwacht voor zeer geavanceerde suggesties soms iets minder dan de cloudtop.
:::

## Veilig en privé ontwikkelen

Het grote voordeel blijft privacy. Je code, je commentaar en je foutmeldingen blijven allemaal lokaal. Voor wie onder een geheimhoudingsplicht werkt of met gevoelige systemen bezig is, neemt dit een belangrijk risico weg dat bij cloud-assistenten altijd aanwezig is. Controleer wel even of de extensie geen telemetrie naar buiten stuurt, zodat je opzet echt volledig lokaal is.

:::faq
### Welke extensie gebruik ik voor een lokale code-assistent?
Continue is de populairste keuze die goed met Ollama werkt en zowel chat als autocomplete biedt. Er zijn ook andere extensies die Ollama ondersteunen, zoals Tabby.

### Welk model is het beste voor code?
Een gespecialiseerd codemodel zoals een Qwen-codevariant presteert in 2026 doorgaans beter dan een algemeen model. Kies een klein model met fill-in-the-middle voor autocomplete en een groter model voor chat.

### Is een lokale assistent net zo goed als een commerciele?
Voor dagelijks werk komt het dichtbij, en voor privacy wint het duidelijk. Voor de allercomplexste taken kan de cloudtop nog iets beter zijn.

### Blijft mijn code echt lokaal?
Ja, met Ollama en een lokale extensie verlaat je code je computer niet. Controleer wel dat de extensie geen telemetrie naar buiten stuurt.

### Hoeveel geheugen heb ik nodig?
Een klein autocomplete-model van rond de 1,5B draait al op bescheiden hardware. Voor een chatmodel van 7B of groter wil je meer RAM of videogeheugen, afhankelijk van de quantisatie.

### Kan ik twee modellen tegelijk gebruiken?
Ja, dat is juist de aanrader. Wijs in Continue een klein model toe aan autocomplete en een groter model aan chat, zodat snelheid en kwaliteit allebei goed zitten.
:::

Met een lokale code-assistent ontwikkel je privacyvriendelijk en offline. Zorg eerst dat [[ollama-installeren-macos|Ollama draait]] en kies een geschikt model uit de [[ollama-modellen-vergelijken|modelvergelijking]].