embeddings

Samenvatting: Embeddings zetten woorden om in cijfers die betekenis weerspiegelen. Ze worden geleerd door neurale netwerken op enorme hoeveelheden tekst. Daardoor kunnen AI-modellen verbanden leggen tussen woorden, zinnen of beelden en begrijpen wat iets betekent. Ze zijn de basis van moderne AI-systemen.

Wat zijn embeddings?

Embeddings zijn een manier om woorden, zinnen of beelden om te zetten in cijfers zodat een computer er betekenis in kan vinden. In plaats van gewone tekst, krijgt elk woord of stukje data een reeks getallen. Die getallen zorgen ervoor dat woorden met een gelijkaardige betekenis ook dichter bij elkaar liggen in de "getallenruimte" van het model.

Je kan het zien als een soort kaart van betekenissen. Woorden die vaak in dezelfde context voorkomen, liggen dicht bij elkaar. Zo begrijpt een computer dat “kat” en “hond” meer op elkaar lijken dan “kat” en “stoel”.

Hoe leert een computer embeddings?

Er is geen vaste formule om van een woord naar een embedding te gaan. Een model leert die betekenis door miljoenen zinnen te lezen en telkens te voorspellen welk woord logisch past in een zin.

Bijvoorbeeld:

"De kat zit op de ___" → het model leert dat “mat” waarschijnlijk is.

Het model krijgt bij het begin willekeurige getallen voor elk woord. Elke keer dat het een fout maakt, worden die getallen een beetje aangepast. Na veel herhaling leert het patroon te herkennen. Zo groeien de embeddings uit tot een systeem dat betekenis begrijpt op basis van gebruik.

Van woorden tot zinnen

Bij oudere modellen (zoals Word2Vec of GloVe) kreeg elk woord één vaste embedding. Dat werkte goed, maar gaf problemen bij woorden met meerdere betekenissen. “Bank” kon bijvoorbeeld zowel een zitbank als een financiële instelling zijn.

Nieuwere modellen (zoals BERT en GPT) pakken dat slimmer aan. Zij maken contextuele embeddings: hetzelfde woord krijgt verschillende getallen afhankelijk van de zin. Zo begrijpt de computer beter wat er bedoeld wordt.

Een zin zoals:

“De kat zit op de mat.”
“Op de mat zit een kat.”

krijgt dus bijna dezelfde betekenis, ook al is de volgorde anders. Dat komt doordat het model leert welke woorden belangrijk zijn voor elkaar en ze combineert tot een zinsembedding.

Hoe werkt dat technisch?

Het model gebruikt een neuraal netwerk dat in lagen werkt. De eerste laag zet woorden om in ruwe getallen (embeddings). De volgende lagen kijken naar verbanden tussen woorden en proberen te voorspellen welk woord past. Elke keer het fout zit, wordt het een beetje bijgestuurd. Dat proces heet backpropagation.

Na miljoenen voorbeelden weet het model dat:

  • “kat” en “hond” vaak in gelijkaardige contexten voorkomen

  • “stoel” zelden in dezelfde context voorkomt

Zo komt elk woord terecht op een specifieke plaats in een meer-dimensionale ruimte (bijvoorbeeld 384 of 768 dimensies). Woorden met gelijkaardige betekenis liggen dicht bij elkaar, andere staan ver weg.

Wat zijn de toepassingen van embeddings?

Embeddings zijn de basis van veel AI-toepassingen:

  • Zoeken: vind documenten met gelijkaardige betekenis, ook al gebruik je andere woorden.

  • Chatbots: begrijp wat iemand bedoelt, niet alleen wat er letterlijk staat.

  • Aanbevelingen: toon inhoud die inhoudelijk lijkt op wat iemand eerder interessant vond.

  • Beeldherkenning: koppel beelden of objecten die op elkaar lijken.

Alles draait rond het meten van gelijkenis tussen embeddings. Dat gebeurt meestal via cosine similarity: een berekening die bekijkt hoe dicht twee vectoren bij elkaar liggen. Hoe dichter, hoe sterker de overeenkomst in betekenis.

Embeddings zijn wat taalmodellen slim maakt. Ze zorgen ervoor dat computers niet enkel tekst lezen, maar ook betekenis begrijpen. Dankzij embeddings kunnen AI-modellen verbanden leggen, context begrijpen en logisch antwoorden formuleren. Ze vormen dus de brug tussen ruwe data en echt begrip. Zonder embeddings zou een taalmodel gewoon losse woorden zien, zonder enig gevoel voor inhoud of verband.

Laatst Bijgewerkt: October 24, 2025