article

Multimodal input and output

Work with images, audio, video, documents and generated images through the Gemini API.

Artikelen

6 artikelen, gerangschikt op populariteit.

Multimodale invoer met de Gemini API

Stuur tekst, afbeeldingen, audio, video en PDF tegelijk naar de Gemini API en verwerk gecombineerde multimodale prompts in je Python-applicatie.

schedule7 min · update15 wkn

Afbeeldingen analyseren met Gemini Vision

Gebruik Gemini Vision om afbeeldingen te beschrijven, objecten te detecteren, tekst te lezen (OCR) en visuele vragen te beantwoorden via de nieuwe google-genai SDK.

schedule6 min · update15 wkn

Audio verwerken met de Gemini API

Transcribeer spraak, analyseer toon en beantwoord vragen over audiofragmenten met de Gemini API en de Files API, in een enkele multimodale stap.

schedule6 min · update15 wkn

Video analyseren met de Gemini API

Analyseer videobestanden met de Gemini API: upload via de Files API of stuur een YouTube-URL mee, en vraag om samenvattingen, scènes met tijdstempels en moderatie.

schedule7 min · update15 wkn

Documenten analyseren met de Gemini API

Extraheer data uit PDF-bestanden, analyseer contracten, verwerk facturen en doorzoek documenten met de Gemini API en de nieuwe google-genai SDK.

schedule6 min · update15 wkn

Afbeeldingen genereren met Gemini Imagen

Met Imagen genereert Gemini afbeeldingen op basis van een tekstbeschrijving, van productvisuals tot illustraties. Leer effectieve beeldprompts schrijven en let op rechten en verantwoord gebruik.

schedule6 min · update17 wkn