Naar inhoud
lightbulb Welkom op de nieuwe kennisbank | We hebben de docs volledig vernieuwd met meer dan 160 features. Bekijk wat nieuw isarrow_forward

Gemini API-modellen en versies

Vergelijk de Gemini-modellen (3.x, 2.5 en embeddings) op context, snelheid, kosten en sterktes, zodat je per use case de juiste keuze maakt.

De Gemini-modelfamilie

Google brengt Gemini-modellen uit in twee hoofdlijnen: Flash (geoptimaliseerd voor snelheid en kosten) en Pro (geoptimaliseerd voor de zwaarste redenering en complexe taken). Beide zijn multimodaal en verwerken tekst, afbeeldingen, audio en video. Daarnaast bestaat er een apart embeddingmodel voor semantisch zoeken.

In 2026 lopen meerdere generaties naast elkaar: de nieuwste Gemini 3-serie, de bewezen Gemini 2.5-familie en de oudere 1.5-modellen die nog draaien maar worden uitgefaseerd. Modelnamen, prijzen en limieten veranderen regelmatig, dus controleer de bedragen hieronder altijd tegen de officiele prijslijst van Google AI voor je een keuze vastlegt.

warning

Oude SDK is uitgefaseerd

De pakketten google.generativeai (Python) en de oude @google/generative-ai zijn vervangen door de uniforme Google Gen AI SDK (google-genai). De support op de oude Python-SDK is eind 2025 gestopt. Gebruik in nieuwe code from google import genai en de client-stijl uit de voorbeelden hieronder.

Overzicht actuele modellen

De tabel toont richtbedragen per 1 miljoen tokens. Pro-modellen rekenen vaak een hoger tarief boven een bepaalde contextgrootte, dus kijk altijd na hoeveel context je echt nodig hebt.

Model Context Input ($/1M) Output ($/1M) Sterktes
gemini-3.5-flash 1M tokens circa $1,50 circa $9,00 Sterk op agents en code, standaardkeuze
gemini-3.1-pro 1M tokens varieert varieert Zwaarste redenering, vaak nog preview
gemini-3.1-flash-lite 1M tokens laag laag Goedkoopste van de 3-serie
gemini-2.5-flash 1M tokens circa $0,30 circa $2,50 Goede prijs-prestatie, breed inzetbaar
gemini-2.5-pro 1M tokens circa $1,25 circa $10,00 Complexe analyse en lange documenten
gemini-2.5-flash-lite 1M tokens zeer laag zeer laag Goedkoopste, batch en eenvoudige taken
gemini-embedding-001 groot circa $0,15 n.v.t. Embeddings, 100+ talen

Voor gemini-2.5-pro geldt doorgaans een hoger tarief zodra je prompt boven ongeveer 200.000 tokens uitkomt. De goedkoopste opties (Flash-Lite en de Batch-modus) zijn ideaal voor grote, niet-urgente verwerkingen.

Haal het exacte, actuele overzicht altijd live op met de nieuwe SDK:

import os
from google import genai

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

for model in client.models.list():
    if "generateContent" in (model.supported_actions or []):
        print(f"Naam: {model.name}")
        print(f"  Display: {model.display_name}")
        print(f"  Input limit: {model.input_token_limit:,} tokens")
        print(f"  Output limit: {model.output_token_limit:,} tokens")
        print()

Model kiezen

Loop deze vragen van boven naar beneden door en kies de eerste regel die op jouw situatie past.

  • Standaardkeuze voor de meeste taken: gemini-3.5-flash of, als je strak op kosten zit, gemini-2.5-flash.
  • Allergoedkoopste verwerking of grote batches: gemini-2.5-flash-lite of gemini-3.1-flash-lite.
  • Zwaarste redenering, wiskunde of code-review: een Pro-model zoals gemini-3.1-pro of gemini-2.5-pro.
  • Zeer lange documenten waar je de volledige context in een keer wilt aanbieden: een Pro-model met de grootste context.
  • Semantisch zoeken of een RAG-pijplijn: gemini-embedding-001.
lightbulb

Begin goedkoop, schaal pas op bij bewijs

Start een nieuw project op een Flash-model. Meet of de kwaliteit voldoet aan je eisen. Pas als je merkt dat redenering of lange context tekortschiet, stap je over op een Pro-model. Zo betaal je niet onnodig voor capaciteit die je niet gebruikt.

Versies en aliassen begrijpen

Gemini-modellen hebben drie soorten namen:

  • Versied: gemini-2.5-flash-001 is een vaste versie die niet meer verandert.
  • Latest: gemini-2.5-flash-latest wijst altijd naar de nieuwste minor-versie.
  • Alias: gemini-2.5-flash is een stabiele alias, soms gelijk aan latest.

Voor productie gebruik je een versied modelnaam, zodat het gedrag van je applicatie niet ongemerkt verandert wanneer Google de alias bijwerkt:

response = client.models.generate_content(
    model="gemini-2.5-flash-001",
    contents="Vat dit document samen in drie zinnen.",
)
print(response.text)

Flash versus Pro in de praktijk

Flash presteert in 2026 verrassend sterk, ook op agent- en codetaken. Voor diepe redenering, lastige wiskunde en zeer lange documenten geeft een Pro-model doorgaans nauwkeurigere resultaten. Het verschil zie je vooral bij taken met meerdere redeneerstappen.

complexe_vraag = """
Analyseer de volgende redenering en benoem alle logische denkfouten:
Als alle Nederlanders fietsen, en Jan fietst, dan is Jan een Nederlander.
"""

flash = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=complexe_vraag,
)
pro = client.models.generate_content(
    model="gemini-2.5-pro",
    contents=complexe_vraag,
)

print("Flash:", flash.text)
print("Pro:", pro.text)

Embeddings genereren

Voor semantisch zoeken, clustering en RAG gebruik je het embeddingmodel. Dit levert een numerieke vector terug, geen tekstantwoord.

result = client.models.embed_content(
    model="gemini-embedding-001",
    contents="Hoe stel ik een Gemini API-sleutel veilig in?",
)
print(len(result.embeddings[0].values))

Het model levert standaard 3072 dimensies. Je kunt de uitvoer terugschalen naar bijvoorbeeld 1536 of 768 dimensies als je opslag of zoeksnelheid wilt optimaliseren.

Preview- en experimentele modellen

Google biedt regelmatig preview-modellen aan via Google AI Studio, vaak met een datum in de naam. Deze zijn handig om vroeg te testen, maar niet bedoeld voor productie.

warning

Gebruik preview-modellen niet in productie

Preview- en experimentele modellen kunnen zonder aankondiging veranderen, worden verwijderd of beperkt beschikbaar zijn. Test ermee, maar laat productieverkeer op een stabiel, versied model lopen.

Kosten beheersen

Naast de modelkeuze zijn er twee krachtige knoppen om je rekening te verlagen:

  • Batch-modus: voor verwerkingen die niet meteen klaar hoeven, geeft de batch-API doorgaans een flinke korting in ruil voor langere verwerkingstijd.
  • Context-caching: als je steeds dezelfde grote prompt of instructie hergebruikt, bespaart caching aanzienlijk op de inputkosten.
Welk model moet ik standaard kiezen?

Voor de meeste toepassingen is een Flash-model de beste start. In 2026 is gemini-3.5-flash de aanbevolen standaard; wil je nog goedkoper, dan is gemini-2.5-flash een prima alternatief. Stap pas over op een Pro-model als je merkt dat redenering of lange context tekortschiet.

Wat is het verschil tussen Flash, Pro en Flash-Lite?

Flash mikt op de beste balans tussen snelheid, kosten en kwaliteit. Pro is gericht op de zwaarste redenering en de grootste context. Flash-Lite is de goedkoopste optie, bedoeld voor eenvoudige taken en grote volumes.

Zijn alle modellen in alle regio's beschikbaar?

Niet altijd. Vooral preview-versies kunnen geografisch beperkt zijn. Raadpleeg de documentatie van Google AI Studio voor de actuele beschikbaarheid per regio.

Wat is Gemini Nano?

Gemini Nano is een on-device model dat lokaal op toestellen zoals Pixel en bepaalde Samsung-telefoons draait. Het werkt niet via de Gemini API, maar via de Android AI Edge SDK.

Hoe weet ik of een model wordt uitgefaseerd?

Google kondigt het uitfaseren van modellen ruim van tevoren aan via de changelog en de documentatie. Gebruik versied modelnamen en haal periodiek client.models.list() op, zodat je tijdig migreert naar een opvolger.

Welk embeddingmodel gebruik ik?

Gebruik gemini-embedding-001. Het ondersteunt meer dan honderd talen en levert standaard 3072 dimensies, die je naar wens kunt terugschalen.