Multimodal input and output
Work with images, audio, video, documents and generated images through the Gemini API.
Artikelen
6 artikelen, gerangschikt op populariteit.
Multimodale invoer met de Gemini API
Stuur tekst, afbeeldingen, audio, video en PDF tegelijk naar de Gemini API en verwerk gecombineerde multimodale prompts in je Python-applicatie.
Afbeeldingen analyseren met Gemini Vision
Gebruik Gemini Vision om afbeeldingen te beschrijven, objecten te detecteren, tekst te lezen (OCR) en visuele vragen te beantwoorden via de nieuwe google-genai SDK.
Audio verwerken met de Gemini API
Transcribeer spraak, analyseer toon en beantwoord vragen over audiofragmenten met de Gemini API en de Files API, in een enkele multimodale stap.
Video analyseren met de Gemini API
Analyseer videobestanden met de Gemini API: upload via de Files API of stuur een YouTube-URL mee, en vraag om samenvattingen, scènes met tijdstempels en moderatie.
Documenten analyseren met de Gemini API
Extraheer data uit PDF-bestanden, analyseer contracten, verwerk facturen en doorzoek documenten met de Gemini API en de nieuwe google-genai SDK.
Afbeeldingen genereren met Gemini Imagen
Met Imagen genereert Gemini afbeeldingen op basis van een tekstbeschrijving, van productvisuals tot illustraties. Leer effectieve beeldprompts schrijven en let op rechten en verantwoord gebruik.