embeddings
Wat zijn embeddings?
Embeddings zijn een manier om woorden, zinnen of beelden om te zetten in cijfers zodat een computer er betekenis in kan vinden. In plaats van gewone tekst, krijgt elk woord of stukje data een reeks getallen. Die getallen zorgen ervoor dat woorden met een gelijkaardige betekenis ook dichter bij elkaar liggen in de "getallenruimte" van het model.
Je kan het zien als een soort kaart van betekenissen. Woorden die vaak in dezelfde context voorkomen, liggen dicht bij elkaar. Zo begrijpt een computer dat “kat” en “hond” meer op elkaar lijken dan “kat” en “stoel”.
Hoe leert een computer embeddings?
Er is geen vaste formule om van een woord naar een embedding te gaan. Een model leert die betekenis door miljoenen zinnen te lezen en telkens te voorspellen welk woord logisch past in een zin.
Bijvoorbeeld:
"De kat zit op de ___" → het model leert dat “mat” waarschijnlijk is.
Het model krijgt bij het begin willekeurige getallen voor elk woord. Elke keer dat het een fout maakt, worden die getallen een beetje aangepast. Na veel herhaling leert het patroon te herkennen. Zo groeien de embeddings uit tot een systeem dat betekenis begrijpt op basis van gebruik.
Van woorden tot zinnen
Bij oudere modellen (zoals Word2Vec of GloVe) kreeg elk woord één vaste embedding. Dat werkte goed, maar gaf problemen bij woorden met meerdere betekenissen. “Bank” kon bijvoorbeeld zowel een zitbank als een financiële instelling zijn.
Nieuwere modellen (zoals BERT en GPT) pakken dat slimmer aan. Zij maken contextuele embeddings: hetzelfde woord krijgt verschillende getallen afhankelijk van de zin. Zo begrijpt de computer beter wat er bedoeld wordt.
Een zin zoals:
“De kat zit op de mat.”
“Op de mat zit een kat.”
krijgt dus bijna dezelfde betekenis, ook al is de volgorde anders. Dat komt doordat het model leert welke woorden belangrijk zijn voor elkaar en ze combineert tot een zinsembedding.
Hoe werkt dat technisch?
Het model gebruikt een neuraal netwerk dat in lagen werkt. De eerste laag zet woorden om in ruwe getallen (embeddings). De volgende lagen kijken naar verbanden tussen woorden en proberen te voorspellen welk woord past. Elke keer het fout zit, wordt het een beetje bijgestuurd. Dat proces heet backpropagation.
Na miljoenen voorbeelden weet het model dat:
“kat” en “hond” vaak in gelijkaardige contexten voorkomen
“stoel” zelden in dezelfde context voorkomt
Zo komt elk woord terecht op een specifieke plaats in een meer-dimensionale ruimte (bijvoorbeeld 384 of 768 dimensies). Woorden met gelijkaardige betekenis liggen dicht bij elkaar, andere staan ver weg.
Wat zijn de toepassingen van embeddings?
Embeddings zijn de basis van veel AI-toepassingen:
Zoeken: vind documenten met gelijkaardige betekenis, ook al gebruik je andere woorden.
Chatbots: begrijp wat iemand bedoelt, niet alleen wat er letterlijk staat.
Aanbevelingen: toon inhoud die inhoudelijk lijkt op wat iemand eerder interessant vond.
Beeldherkenning: koppel beelden of objecten die op elkaar lijken.
Alles draait rond het meten van gelijkenis tussen embeddings. Dat gebeurt meestal via cosine similarity: een berekening die bekijkt hoe dicht twee vectoren bij elkaar liggen. Hoe dichter, hoe sterker de overeenkomst in betekenis.
Embeddings zijn wat taalmodellen slim maakt. Ze zorgen ervoor dat computers niet enkel tekst lezen, maar ook betekenis begrijpen. Dankzij embeddings kunnen AI-modellen verbanden leggen, context begrijpen en logisch antwoorden formuleren. Ze vormen dus de brug tussen ruwe data en echt begrip. Zonder embeddings zou een taalmodel gewoon losse woorden zien, zonder enig gevoel voor inhoud of verband.
Gerelateerde Termen
Artificiële Intelligentie (AI)
Artificiële intelligentie is technologie die computers leert denken en leren zoa...
bias
Bias in AI is een vertekening die kan ontstaan door data, algoritmes of menselij...
Generatieve AI
Generatieve AI (GenAI) is een technologie die zelf nieuwe inhoud kan maken, zoal...
GPU
Een GPU is een krachtige chip die gemaakt is voor snel rekenwerk. Ze voert duize...
Human-in-the-Loop (HITL)
Human-in-the-loop (HITL) betekent dat mensen actief meebeslissen in processen di...
Microsoft opent drie datacenters in België en lanceert nieuwe Azure-regio
Microsoft heeft deze week zijn eerste Belgische cloudregio geopend.
Nov 20, 2025
Google Calendar naar Outlook Agenda migratie
In dit artikel bekijken we stap voor stap hoe je je agenda's van Google Calendar kan migreren naar O...
Oct 27, 2025