Multimodaal

Artikelen met tag «Multimodaal»

6 artikelen gevonden.

Multimodale invoer met de Gemini API Stuur tekst, afbeeldingen, audio, video en PDF tegelijk naar de Gemini API en verwerk gecombineerde multimodale prompts in je Python-applicatie. Multimodale Invoer en Output · 7 min lezen · 5 uur
Gemini via Vertex AI gebruiken Leer hoe je de Gemini-modellen aanroept via Vertex AI, met de juiste rechten, regio, authenticatie en parameters voor productie. Basis & Introductie · 5 min lezen · 5 uur
Audio verwerken met de Gemini API Transcribeer spraak, analyseer toon en beantwoord vragen over audiofragmenten met de Gemini API en de Files API, in een enkele multimodale stap. Multimodale Invoer en Output · 6 min lezen · 5 uur
Afbeeldingen analyseren met Gemini Vision Gebruik Gemini Vision om afbeeldingen te beschrijven, objecten te detecteren, tekst te lezen (OCR) en visuele vragen te beantwoorden via de nieuwe google-genai SDK. Multimodale Invoer en Output · 6 min lezen · 5 uur
Multimodale prompts voor tekst en beeld Leer prompts schrijven die tekst en afbeeldingen combineren voor vision-AI-modellen zoals Gemini, Claude en GPT, met praktische voorbeelden voor documentanalyse en extractie. Prompts voor Specifieke Taken · 5 min lezen · 5 uur
Video analyseren met de Gemini API Analyseer videobestanden met de Gemini API: upload via de Files API of stuur een YouTube-URL mee, en vraag om samenvattingen, scènes met tijdstempels en moderatie. Multimodale Invoer en Output · 7 min lezen · 5 uur