AI Act (EU)
De AI Act is de Europese verordening die artificiële intelligentie reguleert. Ze deelt AI-systemen op volgens risico en legt verplichtingen ...
Lees meerEen token is de kleinste tekstenheid die een AI-model verwerkt, meestal een half woord of een leesteken. Tokens bepalen zowel de factuur van elke API-oproep als de limieten van wat een model in één keer aankan.
Een token is de kleinste tekstenheid waarmee een AI-model werkt. Voor het model bestaat taal niet uit woorden of letters, maar uit tokens. Een tokenizer zet elke input tekst eerst om in een rij van deze eenheden, en het model redeneert enkel op dat niveau. Alle antwoorden worden ook token per token gegenereerd.
In het Nederlands en Engels is een token ruwweg een halve tot een hele lettergreep. Het woord kat is één token, katten meestal twee, onwaarschijnlijkheid al snel vier of vijf. Leestekens, spaties en regeleindes zijn elk ook tokens. Bij Chinees, Arabisch of Japans vallen vaak één of twee tekens samen in één token.
Je kan je tokens voorstellen als de puzzelstukken waarin het model taal hakt. De stukken zijn niet willekeurig: de tokenizer is getraind om veel voorkomende woordcombinaties in één stuk te bewaren en zeldzame woorden fijner te knippen.
Een woordgebaseerde aanpak werkt niet goed voor modellen die meerdere talen moeten begrijpen, nieuwe termen moeten aankunnen en geheugenefficiënt willen werken. Een tokenizer lost dat op met drie eigenschappen:
Veelvoorkomende woorden blijven heel. Dagelijkse woorden zoals huis, bedrijf of the zijn elk één token.
Zeldzame of samengestelde woorden worden opgesplitst. Zo kan het model onbekende woorden nog steeds begrijpen door ze uit bekende stukjes op te bouwen.
Meertaligheid zit ingebakken. Een goed getrainde tokenizer kan Nederlands, Engels, code en emoji door elkaar aan zonder aparte woordenlijst.
De gangbare methodes heten Byte Pair Encoding (BPE), WordPiece en SentencePiece. OpenAI, Anthropic en Google gebruiken elk een variant, wat verklaart waarom dezelfde tekst bij elk model een iets ander token-aantal oplevert.
100 tokens is ongeveer 75 woorden Nederlands of Engels.
1.000 tokens past op één pagina A4 met normale letter.
1 miljoen tokens komt neer op ongeveer vijf boeken of een middelgrote codebase.
Voor exacte tellingen gebruik je de tokenizer van het model dat je aanspreekt. OpenAI biedt tiktoken, Anthropic heeft een tokenizer-endpoint, en de meeste SDK's tonen het token-aantal per antwoord. Tel altijd vooraf bij grote prompts, want verrassingen op de factuur zijn niet leuk.
Factuur
De meeste AI-API's rekenen per token. Input-tokens zijn meestal goedkoper dan output-tokens, maar beide tellen. Een chatbot die bij elke vraag 50.000 tokens context meestuurt, zit al snel aan een halve cent per oproep. Bij miljoenen oproepen per maand telt dat op.
Context window
Het LLM kan maar een beperkt aantal tokens tegelijk in zijn context window hebben. Alle instructies, opgehaalde documenten en gesprekshistoriek samen moeten daarin passen. Slim omspringen met tokens is dus evengoed een kwaliteits- als een kostenvraagstuk.
Latency
Elke output-token kost rekentijd. Een model dat 2.000 tokens antwoord genereert doet er ongeveer twintig keer langer over dan één dat 100 tokens antwoordt. Voor chat-ervaringen is dat merkbaar voor de gebruiker.
Kortere systeeminstructies. Lange rolbeschrijvingen met onnodige voorbeelden opslokken bij elke oproep hetzelfde budget. Sterk inkorten en testen heeft vaak geen impact op kwaliteit.
Selectief ophalen met RAG. Stuur enkel de relevante fragmenten mee in plaats van een heel document.
Prompt caching. Anthropic en OpenAI laten grote, stabiele delen van de prompt cachen, zodat je niet bij elke oproep opnieuw betaalt voor dezelfde systeeminstructie of kennisbasis.
Kleiner model waar het kan. Routinetaken naar een goedkoper model sturen (bijvoorbeeld een classifier of extractor) en enkel complexe taken naar het duurste model. Levert vaak halvering van de totale tokenkost op.
Gestructureerde output afdwingen. Een model dat JSON mag teruggeven hoeft geen inleidende zin of conclusie te produceren. Scheelt tokens én maakt downstream verwerking eenvoudiger.
Wanneer providers prijzen publiceren in miljoen tokens, is het nuttig dat te hertalen naar je eigen gebruik. Een klantenservice-chatbot met 3.000 conversaties per dag en een gemiddelde lengte van 1.500 tokens per conversatie verbruikt 4,5 miljoen tokens per dag of 135 miljoen per maand. Aan 3 euro per miljoen input-tokens is dat ruim 400 euro maandelijks enkel voor input. Met zulke getallen wordt tokenbudget snel een bewuste designkeuze in plaats van een technisch detail.
De AI Act is de Europese verordening die artificiële intelligentie reguleert. Ze deelt AI-systemen op volgens risico en legt verplichtingen ...
Lees meerEen AI-agent is een AI-systeem dat zelfstandig meerdere stappen plant en uitvoert om een doel te bereiken. Hij gebruikt een taalmodel als br...
Lees meerArtificiële intelligentie is technologie die computers leert denken en leren zoals mensen. Ze herkent patronen, trekt conclusies en neemt be...
Lees meerBias in AI is een vertekening die kan ontstaan door data, algoritmes of menselijke keuzes. Het is niet altijd slecht, maar moet bewust behee...
Lees meerBottleneck analysis zoekt de stap in een proces waar werk blijft wachten en die zo de hele doorlooptijd bepaalt. Je vindt die knelpunten doo...
Lees meer
Copilot in Power BI levert vooral waarde als je datamodel er klaar voor is. Wat werkt in 2026, wat werkt nog niet, en waarom IT en business ...
Collect&Go en Telenet Business testen in Leuven een autonoom elektrisch bezorgvoertuig, aangestuurd over 5G. Wat betekent dat voor logistiek...