Data Woordenboek

Multimodaal model

Wat is een multimodaal model?

Een multimodaal model is een AI-model dat meerdere types input tegelijk kan verwerken: tekst, afbeelding, audio, soms ook video. Sommige kunnen ook meerdere output-modaliteiten produceren. Een klassiek taalmodel leest en schrijft enkel tekst. Een multimodaal model bekijkt een foto, luistert naar een audiofragment en antwoordt daarop in tekst, of genereert zelf spraak.

Je kan het vergelijken met het verschil tussen iemand die alleen leest en iemand die ook kijkt en luistert. Veel context zit niet in woorden alleen. De vorm van een grafiek, de toon in een stem, het gezicht op een foto: een multimodaal model haalt die signalen binnen en gebruikt ze in zijn antwoord.

Welke modaliteiten zijn er?

De vier meest voorkomende modaliteiten:

Tekst
De basismodaliteit. Alles wat je in een chat typt of via een API stuurt.

Beeld
Foto's, screenshots, scans van documenten, grafieken, diagrammen. Modellen lezen niet alleen wat er op de afbeelding staat, maar interpreteren ook lay-out, kleur en context.

Audio
Gesproken tekst, omgevingsgeluid, muziek. In moderne multimodale modellen gebeurt de verwerking rechtstreeks, zonder eerst een tussenstap naar tekst via een aparte speech-to-text-engine. Dat bewaart nuances zoals toon en klemtoon.

Video
Combinatie van beeld en audio over de tijd. Nog de minst uitgerijpte modaliteit in commerciële modellen, maar komt snel op.

Technisch worden deze inputs door aparte encoders omgezet in een gedeelde vectorrepresentatie, waarop het model dezelfde redeneermechanismes toepast als op tekst. De details verschillen per architectuur, maar het kerngedacht is: alles wordt uiteindelijk dezelfde taal voor het model.

Bekende multimodale modellen

GPT-4o (OpenAI)
Gelanceerd op 13 mei 2024. Verwerkt en genereert tekst, beeld en audio. De belangrijkste sprong tegenover GPT-4 Turbo is native audio: waar oudere modellen spraak eerst via een apart speech-to-text-model moesten doorsluizen, werkt 4o direct op de audiostream.

Gemini (Google)
Google's multimodale lijn, vanaf het begin ontworpen voor tekst, beeld, audio en video in één model. Sterk vertegenwoordigd binnen Google Workspace en Vertex AI.

Claude (Anthropic)
Claude-modellen, waaronder Claude Opus 4.7, accepteren tekst en beeld als input en produceren tekst als output. Geen audio-output op dit moment. In de praktijk sterk voor documentanalyse en visuele redeneertaken.

Wanneer gebruik je een multimodaal model?

Documentanalyse als OCR-vervanging
Klassieke OCR haalt tekst uit een PDF, maar verliest de structuur. Een multimodaal model begrijpt een factuur, leest de tabellen, haalt bedragen eruit en koppelt ze aan de juiste leverancier in één keer.

Screenshot-ondersteuning
Power BI-dashboard dat raar doet? Stuur een screenshot plus je vraag. Het model ziet wat er op het scherm staat en kan redeneren over wat er fout loopt.

Spraakinterfaces
Telefoondiensten, voice-bots, toegankelijkheidstoepassingen. Native audio bespaart je de aparte transcriptielaag en houdt de latency laag genoeg voor realtime conversatie.

Visuele inspectie en QA
Productfoto's controleren op zichtbare fouten, webpagina's scannen op visuele bugs, medische beelden ondersteunen in een eerste triage (altijd onder menselijk toezicht).

Video-begrip
Meetings samenvatten, trainingsvideo's ondertitelen en samenvatten, beveiligingsbeelden scannen op afwijkingen.

Valkuilen

Hallucinaties over wat niet te zien is
Multimodale modellen blijven taalmodellen. Ze beschrijven overtuigend wat er niet op de afbeelding staat, zeker bij ongewone of slecht belichte input. Controleer kritische output altijd tegen het origineel.

Privacygevoelige input
Elke geüploade afbeelding of audio gaat standaard naar een externe API. Voor documenten met persoonsgegevens, medische beelden of financiële informatie is dat een GDPR-punt. Check welke provider welk dataretentiebeleid hanteert en overweeg een private of lokale deployment voor echt gevoelige data.

Kosten
Beeld- en audio-tokens tellen steviger dan tekst. Een model dat tekst voor een paar cent per duizend tokens verwerkt, rekent op beeld vaak vijf tot tien keer zoveel. Leg meters op je verbruik.

Consistentie over modaliteiten
Dezelfde vraag stellen als tekst of als spraak kan tot verschillende antwoorden leiden, omdat de voorbewerking anders loopt. Test met representatieve input, niet alleen met kale tekstprompts.

Laatst Bijgewerkt: April 23, 2026 Terug naar Woordenboek

Trefwoorden

multimodaal model multimodal gpt-4o gemini claude vision spraak beeld audio video ocr large language model generatieve ai tokens

Multimodaal model

Wat is een multimodaal model?

Welke modaliteiten zijn er?

Bekende multimodale modellen

Wanneer gebruik je een multimodaal model?

Valkuilen

Trefwoorden

Gerelateerde Termen

Agent memory

Agent skill

AI Builder

AI-agent

Artificiële Intelligentie (AI)

Uit onze blog.

Lakehouse of warehouse in Microsoft Fabric: welke kies je, en wanneer allebei?

Chatbot of AI-teksten op je site? Vanaf augustus moet je dat melden