transformer-architectuur

Samenvatting: De transformer-architectuur is het brein achter moderne AI. Ze verwerkt tekst, beeld en geluid door de verbanden tussen woorden en elementen te begrijpen in plaats van de individueel te zien.

Wat is de transformer-architectuur?

De transformer-architectuur is vandaag de ruggengraat van bijna alle moderne AI-modellen. Ze bepaalt hoe een model tekst, beeld of geluid begrijpt door te kijken naar de relaties tussen woorden of elementen in plaats van ze gewoon in volgorde te lezen.

Het idee klinkt eenvoudig: het model leert waar het wél en niet moet op letten. Dat maakt het veel beter in taalbegrip dan oudere systemen

Even terug in de tijd

De transformer werd in 2017 voorgesteld door onderzoekers van Google in het paper Attention Is All You Need. Tot dan werkte men vooral met zogenoemde recurrente netwerken, die één woord per keer verwerkten. Dat was traag en moeilijk bij lange teksten.

De transformer deed het anders. In plaats van stap voor stap te lezen, kijkt ze naar alle woorden tegelijk en beslist via “attention” welke woorden belangrijk zijn voor elkaar. Dat bleek een enorme sprong vooruit in snelheid en kwaliteit.

Kort daarna volgden bekende modellen zoals BERT van Google en GPT van OpenAI. Beide bouwden voort op hetzelfde idee, elk met een eigen focus: BERT op begrijpen, GPT op genereren.

Hoe werkt een transformer eigenlijk?

Een transformer is opgebouwd uit lagen van neurale netwerken die samenwerken om betekenis te begrijpen en nieuwe tekst te maken.

Het model werkt met een principe dat “attention” heet. Dit zorgt ervoor dat het niet elk woord even belangrijk behandelt, maar kijkt welke woorden samen betekenis vormen.

Zo kan het begrijpen dat in de zin “De hond die blafte, liep weg” het woord “die” naar “hond” verwijst, ook al staan er andere woorden tussen.

Of neem het woord “bank”. In “Ik zit op de bank” betekent het iets om op te zitten, maar in “Ik werk bij een bank” verwijst het naar een financiële instelling. De transformer leert via context welke betekenis klopt.

Om dat te doen, verloopt het proces in enkele stappen:

  1. Inlezen van woorden
    Elk woord wordt eerst omgezet naar een reeks getallen die de betekenis voorstellen.

  2. Positie toevoegen
    Omdat de transformer niet in volgorde leest, krijgt elk woord ook een positie zodat het weet wat eerst of laatst komt.

  3. Self-attention
    Hier beslist het model hoeveel aandacht elk woord aan de andere woorden geeft. Op die manier leert het verbanden leggen en context begrijpen.

  4. Lagen bouwen kennis op
    Elke laag kijkt opnieuw naar de verbanden en verfijnt het begrip. Zo groeit het model in context en nuance.

  5. Encoder en decoder
    De encoder begrijpt de input. De decoder gebruikt dat begrip om iets nieuws te maken, zoals een vertaling of een antwoord.

Hoe kan een transformer zo snel data verwerken?

De transformer werkt parallel in plaats van sequentieel. Dat wil zeggen dat ze alle woorden tegelijk verwerkt, niet één voor één. Daardoor kan ze veel beter gebruikmaken van moderne grafische kaarten en grote datasets.

Daarnaast gebruikt ze positionele codering om toch de volgorde te onthouden, en attention-berekeningen om context slim te verdelen over meerdere lagen. Dat maakt haar niet alleen sneller, maar ook robuuster in het herkennen van betekenis.

Evolutie van de transformer

Sinds 2017 is het ontwerp blijven evolueren. Enkele belangrijke stappen:

  • Beter met lange contexten: technieken zoals Rotary Positional Embeddings en FlashAttention maken het mogelijk om duizenden woorden tegelijk te verwerken.

  • Efficiëntere berekeningen: nieuwe vormen van attention verlagen de rekenkost, zoals Grouped-Query-Attention of Mamba-modellen.

  • Multimodaal gebruik: de transformer wordt nu ook toegepast op beeld, video en spraak. Denk aan Vision Transformers of multimodale modellen die tekst en beeld tegelijk begrijpen.

  • Snellere output: via speculative decoding kunnen modellen tekst genereren zonder te moeten wachten op elk volgend woord.

Nieuwe varianten zoals Mamba-2 en RWKV combineren de voordelen van transformers met lineaire rekenkracht, waardoor ze nog beter omgaan met lange reeksen en minder geheugen nodig hebben.

De focus verschuift van “groter is beter” naar “slimmer en efficiënter”. We zien modellen die even krachtig zijn, maar minder energie verbruiken en sneller trainen.

Laatst Bijgewerkt: October 26, 2025