Text-to-speech (TTS)
Wat is text-to-speech (TTS)?
Text-to-speech (TTS) is technologie die tekst omzet in spraak. Je hoort het in navigatie-apps, digitale assistenten, AI voice agents, callcenters, e-learning en audioboeken. De stemmen variëren van eenvoudige robotklanken tot bijna levensechte AI-stemmen die intonatie, emotie en tempo kunnen aanpassen.
De kern van TTS bestaat uit drie stappen:
tekst analyseren
uitspraak en ritme bepalen
spraak genereren
Moderne systemen gebruiken neurale modellen die veel natuurlijker klinken dan de vroege generaties.
Hoe werkt TTS?
1. Tekstanalyse
Het model leest de tekst, herkent zinnen, leestekens, cijfers en afkortingen. Sommige systemen begrijpen zelfs semantiek, zodat ze emoties of pauzes beter kunnen plaatsen.
2. Linguïstische omzetting
Het systeem bepaalt hoe woorden geklankt moeten worden. Denk aan klemtoon, intonatie, ritme en tempo.
3. Spraakgeneratie
De engine zet tekst om in audio. Er bestaan drie benaderingen:
Formant-synthese: volledig kunstmatige klankopbouw (oud, robotachtig)
Concatenatieve synthese: echte spraakfragmenten aan elkaar plakken (natuurlijker)
Neurale TTS: AI-modellen die spraak genereren op basis van golfvormen (zeer natuurlijk, flexibele emoties en tempo)
Historiek van TTS
De mechanische fase (18de – 19de eeuw)
In 1779 bouwde Wolfgang von Kempelen een mechanische spraakmachine die met balgen en rietjes klanken produceerde. Het was geen echte spraaksynthese, maar wel een mijlpaal in spraakmodeling.
De elektronische fase (1930 – 1960)
In 1939 stelde Bell Labs de Voder voor. Een operator bediende toetsen om klanken te maken. Dit was het eerste elektronische spraaksysteem.
Formant-modellen (1960 – 1980)
Onderzoekers modelleerden de resonantie van de menselijke mond. De klank was robotachtig, maar wel verstaanbaar. Dit leidde tot de eerste computergestuurde TTS-systemen.
DECtalk en de robotstemmen (1980 – 1990)
Het DECtalk-systeem werd iconisch. Stephen Hawking gebruikte een variant ervan. De spraak was mechanisch maar bruikbaar voor toegankelijkheid en callcenters.
Concatenatieve synthese (1990 – 2010)
TTS werd gebouwd op echte audiofragmenten. Veel natuurlijker, maar moeilijk aanpasbaar. Navigatie en telefonie gebruikten dit massaal.
De neurale revolutie (2016 – nu)
DeepMind introduceerde WaveNet, gevolgd door modellen zoals Tacotron, FastSpeech, Glow-TTS en VITS. Ze genereren vloeiende, realistische spraak en ondersteunen emoties, stijlen en context.
De rol van Vlaanderen in text-to-speech
Vlaanderen speelt al decennialang een opvallend grote rol in de wereld van spraaktechnologie. Terwijl text-to-speech (TTS) vandaag vooral gelinkt wordt aan artificiële intelligentie, virtuele assistenten en stemklonen, begon het verhaal hier lang voor de AI-hype. Met Lernout & Hauspie als stormram, KU Leuven als academische ruggengraat en een nieuwe generatie AI-bedrijven, blijft Vlaanderen een stille maar invloedrijke motor in deze nichemarkt.
Een vroege voorsprong: de erfenis van Lernout & Hauspie
Wie TTS in Vlaanderen zegt, botst onvermijdelijk op Lernout & Hauspie (L&H). Wat begon als een ambitieus bedrijf in Ieper groeide in de jaren 90 uit tot een wereldspeler in spraakherkenning en spraaksynthese. L&H bouwde commerciële TTS-stemmen op een moment dat de technologie nog hoofdzakelijk academisch was. Hun producten kwamen terecht in:
callcenters
voorleessoftware voor slechtzienden
medische dictatiesystemen
consumentenelektronica
vertaaltools
Daardoor werd Vlaanderen plots een herkenbare naam in de internationale taaltechnologiesector.
Flanders Language Valley
Onder impuls van L&H ontstond ook de Flanders Language Valley (FLV) in de Westhoek. Dit was een ecosysteem avant la lettre: een cluster van bedrijven, startups, taalexperts en ingenieurs die samen werkten aan spraaktechnologie. De Valley bracht expertise bijeen die anders nooit in Vlaanderen zou terechtgekomen zijn.
De spectaculaire val van L&H in 2001 maakte een abrupt einde aan die hoogdagen, maar de kennis verdween niet. Ze verspreidde zich naar nieuwe bedrijven, internationale spelers en onderzoeksinstellingen. De impact reikt nog altijd tot vandaag.
De academische motor: KU Leuven en imec
Parallel aan de industriële golf bouwde KU Leuven, vaak in samenwerking met imec, aan een sterke academische traditie. Hun onderzoeksgroepen specialiseerden zich in:
akoestische modellering van het Nederlands
prosodie: ritme, klemtoon en intonatie
robuuste uitspraakmodellen voor Vlaamse varianten
evaluatie van TTS-kwaliteit
vroeg onderzoek naar neurale spraaksynthese
Die academische basis werd cruciaal toen de markt evolueerde naar data-gedreven en AI-gestuurde systemen. Vlaanderen beschikte al over onderzoekers, datasets en expertise nog voor neurale TTS mainstream werd.
De Vlaamse stemmen die een generatie vormden
Wie in de jaren 90 en 2000 voorleessoftware gebruikte, herinnert zich ze nog: “Lieve” en “Jeroen”. Het waren de eerste breed gebruikte Vlaamse computergestuurde stemmen. Hun klank was beperkt door de technologie van die tijd, maar voor Vlaamse lezers en leerlingen met dyslexie waren ze een genadeloze vooruitgang. Ze vormden de brug tussen Engelstalige robotstemmen en latere, natuurlijkere varianten.
Die vroege stemmen vonden hun weg naar:
Daisy-spelers in bibliotheken
ondersteuningssoftware in scholen
toegankelijkheidsplatformen voor slechtzienden
callcenteroplossingen met Vlaams timbre
Ze maakten spraaktechnologie herkenbaar én bruikbaar in een regio met sterke taalidentiteit.
De stille periode en de heropleving
Na de val van L&H viel de aandacht voor Vlaamse spraaktechnologie grotendeels stil. Internationaal nam vooral het Amerikaanse Nuance de markt over. Toch bleef onder de radar heel wat innovatie bestaan. Vlaamse ingenieurs rolden door naar:
Nuance en Scansoft (die later onderdeel werden van Microsoft)
startups die taaldata verzamelden of verwerkingssoftware bouwden
onderzoeksprojecten binnen universiteiten en imec
Toen neurale modellen zoals WaveNet (2016) doorbraken, had Vlaanderen nog steeds een reservoir aan ervaring. Dat verklaart mee waarom de regio opnieuw snel mee was met de AI-versnelling.
De AI-golf: nieuwe bedrijven, nieuwe toepassingen
Vanaf 2020 veranderde de sector opnieuw van tempo. TTS werd plots:
natuurlijker
minder duur
realtime inzetbaar
geschikt voor stemklonen
toepasbaar in telefonie, klantenservice en media
Vlaanderen zat meteen mee in die golf. Startups en scale-ups focussen vandaag op:
AI voice agents voor callcenters
digitale merkstemmen voor bedrijven
data-annotatie en modellering voor Vlaamse varianten
spraakinterfaces voor sectoren zoals zorg, logistiek en onderwijs
vertaling + TTS voor internationale communicatie
Daarnaast experimenteren grote Vlaamse bedrijven met eigen stemmodellen voor interne processen of klantencontact.