Text-to-speech (TTS)

Samenvatting: Text-to-speech (TTS) zet tekst om in gesproken taal en evolueerde van mechanische apparaten tot moderne AI-stemmen die bijna menselijk klinken. Het wordt gebruikt in toegankelijkheid, automatisatie, AI voice agents en contentproductie.

Wat is text-to-speech (TTS)?

Text-to-speech (TTS) is technologie die tekst omzet in spraak. Je hoort het in navigatie-apps, digitale assistenten, AI voice agents, callcenters, e-learning en audioboeken. De stemmen variëren van eenvoudige robotklanken tot bijna levensechte AI-stemmen die intonatie, emotie en tempo kunnen aanpassen.

De kern van TTS bestaat uit drie stappen:

  1. tekst analyseren

  2. uitspraak en ritme bepalen

  3. spraak genereren

Moderne systemen gebruiken neurale modellen die veel natuurlijker klinken dan de vroege generaties.

Hoe werkt TTS?

1. Tekstanalyse

Het model leest de tekst, herkent zinnen, leestekens, cijfers en afkortingen. Sommige systemen begrijpen zelfs semantiek, zodat ze emoties of pauzes beter kunnen plaatsen.

2. Linguïstische omzetting

Het systeem bepaalt hoe woorden geklankt moeten worden. Denk aan klemtoon, intonatie, ritme en tempo.

3. Spraakgeneratie

De engine zet tekst om in audio. Er bestaan drie benaderingen:

  • Formant-synthese: volledig kunstmatige klankopbouw (oud, robotachtig)

  • Concatenatieve synthese: echte spraakfragmenten aan elkaar plakken (natuurlijker)

  • Neurale TTS: AI-modellen die spraak genereren op basis van golfvormen (zeer natuurlijk, flexibele emoties en tempo)

Historiek van TTS

De mechanische fase (18de – 19de eeuw)

In 1779 bouwde Wolfgang von Kempelen een mechanische spraakmachine die met balgen en rietjes klanken produceerde. Het was geen echte spraaksynthese, maar wel een mijlpaal in spraakmodeling.

De elektronische fase (1930 – 1960)

In 1939 stelde Bell Labs de Voder voor. Een operator bediende toetsen om klanken te maken. Dit was het eerste elektronische spraaksysteem.

Formant-modellen (1960 – 1980)

Onderzoekers modelleerden de resonantie van de menselijke mond. De klank was robotachtig, maar wel verstaanbaar. Dit leidde tot de eerste computergestuurde TTS-systemen.

DECtalk en de robotstemmen (1980 – 1990)

Het DECtalk-systeem werd iconisch. Stephen Hawking gebruikte een variant ervan. De spraak was mechanisch maar bruikbaar voor toegankelijkheid en callcenters.

Concatenatieve synthese (1990 – 2010)

TTS werd gebouwd op echte audiofragmenten. Veel natuurlijker, maar moeilijk aanpasbaar. Navigatie en telefonie gebruikten dit massaal.

De neurale revolutie (2016 – nu)

DeepMind introduceerde WaveNet, gevolgd door modellen zoals Tacotron, FastSpeech, Glow-TTS en VITS. Ze genereren vloeiende, realistische spraak en ondersteunen emoties, stijlen en context.

De rol van Vlaanderen in text-to-speech

Vlaanderen speelt al decennialang een opvallend grote rol in de wereld van spraaktechnologie. Terwijl text-to-speech (TTS) vandaag vooral gelinkt wordt aan artificiële intelligentie, virtuele assistenten en stemklonen, begon het verhaal hier lang voor de AI-hype. Met Lernout & Hauspie als stormram, KU Leuven als academische ruggengraat en een nieuwe generatie AI-bedrijven, blijft Vlaanderen een stille maar invloedrijke motor in deze nichemarkt.

Een vroege voorsprong: de erfenis van Lernout & Hauspie

Wie TTS in Vlaanderen zegt, botst onvermijdelijk op Lernout & Hauspie (L&H). Wat begon als een ambitieus bedrijf in Ieper groeide in de jaren 90 uit tot een wereldspeler in spraakherkenning en spraaksynthese. L&H bouwde commerciële TTS-stemmen op een moment dat de technologie nog hoofdzakelijk academisch was. Hun producten kwamen terecht in:

  • callcenters

  • voorleessoftware voor slechtzienden

  • medische dictatiesystemen

  • consumentenelektronica

  • vertaaltools

Daardoor werd Vlaanderen plots een herkenbare naam in de internationale taaltechnologiesector.

Flanders Language Valley

Onder impuls van L&H ontstond ook de Flanders Language Valley (FLV) in de Westhoek. Dit was een ecosysteem avant la lettre: een cluster van bedrijven, startups, taalexperts en ingenieurs die samen werkten aan spraaktechnologie. De Valley bracht expertise bijeen die anders nooit in Vlaanderen zou terechtgekomen zijn.

De spectaculaire val van L&H in 2001 maakte een abrupt einde aan die hoogdagen, maar de kennis verdween niet. Ze verspreidde zich naar nieuwe bedrijven, internationale spelers en onderzoeksinstellingen. De impact reikt nog altijd tot vandaag.

De academische motor: KU Leuven en imec

Parallel aan de industriële golf bouwde KU Leuven, vaak in samenwerking met imec, aan een sterke academische traditie. Hun onderzoeksgroepen specialiseerden zich in:

  • akoestische modellering van het Nederlands

  • prosodie: ritme, klemtoon en intonatie

  • robuuste uitspraakmodellen voor Vlaamse varianten

  • evaluatie van TTS-kwaliteit

  • vroeg onderzoek naar neurale spraaksynthese

Die academische basis werd cruciaal toen de markt evolueerde naar data-gedreven en AI-gestuurde systemen. Vlaanderen beschikte al over onderzoekers, datasets en expertise nog voor neurale TTS mainstream werd.

De Vlaamse stemmen die een generatie vormden

Wie in de jaren 90 en 2000 voorleessoftware gebruikte, herinnert zich ze nog: “Lieve” en “Jeroen”. Het waren de eerste breed gebruikte Vlaamse computergestuurde stemmen. Hun klank was beperkt door de technologie van die tijd, maar voor Vlaamse lezers en leerlingen met dyslexie waren ze een genadeloze vooruitgang. Ze vormden de brug tussen Engelstalige robotstemmen en latere, natuurlijkere varianten.

Die vroege stemmen vonden hun weg naar:

  • Daisy-spelers in bibliotheken

  • ondersteuningssoftware in scholen

  • toegankelijkheidsplatformen voor slechtzienden

  • callcenteroplossingen met Vlaams timbre

Ze maakten spraaktechnologie herkenbaar én bruikbaar in een regio met sterke taalidentiteit.

De stille periode en de heropleving

Na de val van L&H viel de aandacht voor Vlaamse spraaktechnologie grotendeels stil. Internationaal nam vooral het Amerikaanse Nuance de markt over. Toch bleef onder de radar heel wat innovatie bestaan. Vlaamse ingenieurs rolden door naar:

  • Nuance en Scansoft (die later onderdeel werden van Microsoft)

  • startups die taaldata verzamelden of verwerkingssoftware bouwden

  • onderzoeksprojecten binnen universiteiten en imec

Toen neurale modellen zoals WaveNet (2016) doorbraken, had Vlaanderen nog steeds een reservoir aan ervaring. Dat verklaart mee waarom de regio opnieuw snel mee was met de AI-versnelling.

De AI-golf: nieuwe bedrijven, nieuwe toepassingen

Vanaf 2020 veranderde de sector opnieuw van tempo. TTS werd plots:

  • natuurlijker

  • minder duur

  • realtime inzetbaar

  • geschikt voor stemklonen

  • toepasbaar in telefonie, klantenservice en media

Vlaanderen zat meteen mee in die golf. Startups en scale-ups focussen vandaag op:

  • AI voice agents voor callcenters

  • digitale merkstemmen voor bedrijven

  • data-annotatie en modellering voor Vlaamse varianten

  • spraakinterfaces voor sectoren zoals zorg, logistiek en onderwijs

  • vertaling + TTS voor internationale communicatie

Daarnaast experimenteren grote Vlaamse bedrijven met eigen stemmodellen voor interne processen of klantencontact.

Laatst Bijgewerkt: December 9, 2025