# Lokale AI draaien met Ollama: een taalmodel op je eigen computer

Lokale AI betekent dat een taalmodel (LLM) op je eigen computer draait in plaats van in de cloud. Je prompts en antwoorden verlaten je apparaat niet, je hebt geen abonnement nodig en je kunt zelfs zonder internet werken. **Ollama** is een van de eenvoudigste manieren om hiermee te beginnen: het is een gratis, open programma dat open taalmodellen downloadt en draait via een paar korte commando's.

## Wanneer is lokale AI interessant

- **Privacy en vertrouwelijkheid**: gevoelige documenten of klantgegevens blijven op je eigen machine.
- **Werken zonder internet**: zodra een model is gedownload, draait het volledig offline.
- **Experimenteren en bouwen**: je test prompts of bouwt een eigen toepassing zonder per token te betalen.

Houd er wel rekening mee dat een lokaal model de rekenkracht van je eigen computer gebruikt. Grotere modellen vragen meer geheugen en draaien sneller op een machine met een krachtige GPU of veel RAM.

## Ollama installeren

Ollama is beschikbaar voor **macOS**, **Windows** en **Linux**, en is er ook als Docker-image. Download het installatieprogramma vanaf [ollama.com](https://ollama.com) en volg de stappen voor jouw besturingssysteem. Na de installatie draait Ollama op de achtergrond als een lokale service.

:::info title="Eenmalig downloaden, daarna offline"
Ollama draait volledig op je eigen apparaat. Het downloaden van een model gebeurt eenmalig via internet. Daarna heb je geen verbinding meer nodig om dat model te gebruiken.
:::

## Je eerste model draaien

Open een terminal en start een model met het commando `ollama run`, gevolgd door de naam van het model. Bijvoorbeeld:

```
ollama run gemma3
```

De eerste keer downloadt Ollama het model automatisch, daarna start het direct. Je krijgt een prompt waarin je kunt typen, net als in een chat. Met de modelnaam kies je welk open model je gebruikt, zoals modellen uit de Gemma-, Llama- of Qwen-families. Op de modelpagina van Ollama vind je het actuele aanbod.

:::howto title="Zo draai je je eerste model"
1. Installeer Ollama vanaf [ollama.com](https://ollama.com) en wacht tot de service op de achtergrond draait.
2. Open een terminal en voer `ollama run gemma3` uit.
3. Wacht tot het model is gedownload. Bij de eerste keer kan dit even duren.
4. Typ je vraag bij de prompt en lees het antwoord.
5. Sluit de chat af met `/bye`.
:::

Veel modellen bestaan in meerdere groottes, die je achter de naam aangeeft met een dubbele punt. Zo is `gemma3:4b` een compactere variant en `gemma3:27b` een groter, zwaarder model. Begin in twijfel met de kleinere variant.

:::tip title="Begin klein"
Begin met een kleiner model. Een compacter model draait vlot op bescheiden hardware en is vaak al prima voor samenvatten, herschrijven of vraag-en-antwoord. Stap pas over op een groter model als je merkt dat je meer kwaliteit nodig hebt.
:::

## De belangrijkste commando's

Naast `ollama run` gebruik je in de praktijk een handvol commando's om modellen te beheren:

- `ollama pull gemma3` downloadt een model zonder het meteen te starten.
- `ollama list` toont de modellen die je lokaal hebt staan.
- `ollama ps` laat zien welke modellen op dit moment actief in het geheugen zijn.
- `ollama stop gemma3` stopt een draaiend model en geeft het geheugen vrij.
- `ollama rm gemma3` verwijdert een model van je schijf.

Let op dat modellen behoorlijk wat schijfruimte innemen. Ruim modellen die je niet meer gebruikt op met `ollama rm`.

## De ingebouwde API gebruiken

Ollama stelt een lokale REST API beschikbaar op `http://localhost:11434`. Daarmee koppel je een model aan je eigen scripts of toepassingen. Een chatverzoek stuur je naar het `/api/chat`-eindpunt:

```
curl http://localhost:11434/api/chat -d '{
  "model": "gemma3",
  "messages": [{ "role": "user", "content": "Waarom is de lucht blauw?" }],
  "stream": false
}'
```

Handig: Ollama biedt ook een OpenAI-compatibel eindpunt op `http://localhost:11434/v1/`. Veel bestaande tools en bibliotheken die met de OpenAI-API werken, kun je daardoor op je lokale model richten door alleen het basis-adres aan te passen. Stel in je OpenAI-client de `base_url` in op `http://localhost:11434/v1`, kies als model je lokale modelnaam, en de rest van je code blijft hetzelfde.

:::warn title="Houd de API lokaal"
De Ollama-API draait standaard alleen lokaal. Stel hem niet zomaar open op je netwerk of internet, want dan zou iedereen die het adres kent jouw model en rekenkracht kunnen gebruiken. Houd lokale AI ook echt lokaal, tenzij je bewust en beveiligd remote toegang inricht.
:::

## Samengevat

Met Ollama draai je in een paar minuten een taalmodel op je eigen computer: installeren, `ollama run` uitvoeren en chatten. Voor eigen toepassingen gebruik je de lokale API. Zo combineer je de mogelijkheden van moderne taalmodellen met de privacy en controle van je eigen machine.

:::faq
### Heb ik een dure GPU nodig om Ollama te gebruiken?
Nee. Kleinere modellen draaien prima op een gewone laptop met voldoende RAM. Een krachtige GPU maakt grotere modellen sneller, maar is geen voorwaarde om te beginnen.

### Werkt Ollama echt zonder internet?
Ja. Je hebt alleen internet nodig om een model eenmalig te downloaden. Daarna draait dat model volledig offline op je eigen apparaat.

### Welk model kan ik het beste kiezen?
Begin met een kleiner model uit een bekende familie, zoals gemma3 in een compacte variant. Dat is licht genoeg voor de meeste machines en goed voor samenvatten, herschrijven en vraag-en-antwoord. Op de modelpagina van Ollama vind je het actuele aanbod.

### Hoe verwijder ik een model dat ik niet meer gebruik?
Gebruik het commando `ollama rm`, gevolgd door de modelnaam, bijvoorbeeld `ollama rm gemma3`. Modellen nemen veel schijfruimte in, dus opruimen is verstandig.

### Kan ik Ollama koppelen aan bestaande OpenAI-code?
Ja. Ollama heeft een OpenAI-compatibel eindpunt op `http://localhost:11434/v1/`. Vaak hoef je alleen het basis-adres aan te passen om je bestaande code op je lokale model te richten.
:::