AI-agent
Een AI-agent is een AI-systeem dat zelfstandig meerdere stappen plant en uitvoert om een doel te bereiken. Hij gebruikt een taalmodel als br...
Lees meerEen multimodaal model is een AI-model dat tekst, afbeeldingen, audio en soms video tegelijk kan verwerken, en die meerdere modaliteiten ook kan produceren. GPT-4o, Gemini en Claude zijn bekende voorbeelden.
Een multimodaal model is een AI-model dat meerdere types input tegelijk kan verwerken: tekst, afbeelding, audio, soms ook video. Sommige kunnen ook meerdere output-modaliteiten produceren. Een klassiek taalmodel leest en schrijft enkel tekst. Een multimodaal model bekijkt een foto, luistert naar een audiofragment en antwoordt daarop in tekst, of genereert zelf spraak.
Je kan het vergelijken met het verschil tussen iemand die alleen leest en iemand die ook kijkt en luistert. Veel context zit niet in woorden alleen. De vorm van een grafiek, de toon in een stem, het gezicht op een foto: een multimodaal model haalt die signalen binnen en gebruikt ze in zijn antwoord.
De vier meest voorkomende modaliteiten:
Tekst
De basismodaliteit. Alles wat je in een chat typt of via een API stuurt.
Beeld
Foto's, screenshots, scans van documenten, grafieken, diagrammen. Modellen lezen niet alleen wat er op de afbeelding staat, maar interpreteren ook lay-out, kleur en context.
Audio
Gesproken tekst, omgevingsgeluid, muziek. In moderne multimodale modellen gebeurt de verwerking rechtstreeks, zonder eerst een tussenstap naar tekst via een aparte speech-to-text-engine. Dat bewaart nuances zoals toon en klemtoon.
Video
Combinatie van beeld en audio over de tijd. Nog de minst uitgerijpte modaliteit in commerciële modellen, maar komt snel op.
Technisch worden deze inputs door aparte encoders omgezet in een gedeelde vectorrepresentatie, waarop het model dezelfde redeneermechanismes toepast als op tekst. De details verschillen per architectuur, maar het kerngedacht is: alles wordt uiteindelijk dezelfde taal voor het model.
GPT-4o (OpenAI)
Gelanceerd op 13 mei 2024. Verwerkt en genereert tekst, beeld en audio. De belangrijkste sprong tegenover GPT-4 Turbo is native audio: waar oudere modellen spraak eerst via een apart speech-to-text-model moesten doorsluizen, werkt 4o direct op de audiostream.
Gemini (Google)
Google's multimodale lijn, vanaf het begin ontworpen voor tekst, beeld, audio en video in één model. Sterk vertegenwoordigd binnen Google Workspace en Vertex AI.
Claude (Anthropic)
Claude-modellen, waaronder Claude Opus 4.7, accepteren tekst en beeld als input en produceren tekst als output. Geen audio-output op dit moment. In de praktijk sterk voor documentanalyse en visuele redeneertaken.
Documentanalyse als OCR-vervanging
Klassieke OCR haalt tekst uit een PDF, maar verliest de structuur. Een multimodaal model begrijpt een factuur, leest de tabellen, haalt bedragen eruit en koppelt ze aan de juiste leverancier in één keer.
Screenshot-ondersteuning
Power BI-dashboard dat raar doet? Stuur een screenshot plus je vraag. Het model ziet wat er op het scherm staat en kan redeneren over wat er fout loopt.
Spraakinterfaces
Telefoondiensten, voice-bots, toegankelijkheidstoepassingen. Native audio bespaart je de aparte transcriptielaag en houdt de latency laag genoeg voor realtime conversatie.
Visuele inspectie en QA
Productfoto's controleren op zichtbare fouten, webpagina's scannen op visuele bugs, medische beelden ondersteunen in een eerste triage (altijd onder menselijk toezicht).
Video-begrip
Meetings samenvatten, trainingsvideo's ondertitelen en samenvatten, beveiligingsbeelden scannen op afwijkingen.
Hallucinaties over wat niet te zien is
Multimodale modellen blijven taalmodellen. Ze beschrijven overtuigend wat er niet op de afbeelding staat, zeker bij ongewone of slecht belichte input. Controleer kritische output altijd tegen het origineel.
Privacygevoelige input
Elke geüploade afbeelding of audio gaat standaard naar een externe API. Voor documenten met persoonsgegevens, medische beelden of financiële informatie is dat een GDPR-punt. Check welke provider welk dataretentiebeleid hanteert en overweeg een private of lokale deployment voor echt gevoelige data.
Kosten
Beeld- en audio-tokens tellen steviger dan tekst. Een model dat tekst voor een paar cent per duizend tokens verwerkt, rekent op beeld vaak vijf tot tien keer zoveel. Leg meters op je verbruik.
Consistentie over modaliteiten
Dezelfde vraag stellen als tekst of als spraak kan tot verschillende antwoorden leiden, omdat de voorbewerking anders loopt. Test met representatieve input, niet alleen met kale tekstprompts.
Een AI-agent is een AI-systeem dat zelfstandig meerdere stappen plant en uitvoert om een doel te bereiken. Hij gebruikt een taalmodel als br...
Lees meerArtificiële intelligentie is technologie die computers leert denken en leren zoals mensen. Ze herkent patronen, trekt conclusies en neemt be...
Lees meerChain-of-thought prompting is één prompt-trick: vraag het model om eerst uit te leggen hoe het denkt, vóór het antwoordt. Voor berekeningen,...
Lees meerHet context window is de hoeveelheid tekst die een taalmodel in één keer kan zien en verwerken. Hij bepaalt hoeveel instructies, documenten ...
Lees meerChatGPT said: DAX is de formule-taal van Power BI en Excel Power Pivot. Je gebruikt ze om berekeningen te maken zoals totalen, marges of ...
Lees meer
Copilot in Power BI levert vooral waarde als je datamodel er klaar voor is. Wat werkt in 2026, wat werkt nog niet, en waarom IT en business ...
Collect&Go en Telenet Business testen in Leuven een autonoom elektrisch bezorgvoertuig, aangestuurd over 5G. Wat betekent dat voor logistiek...