Het begin
In de late jaren '70 kwamen spraaksynthesesystemen in opkomst. Deze apparaten bleven decennialang erg kostbaar. Bovendien werden ze meestal ingezet voor communicatie, niet voor taalontwikkeling. Met als gevolg dat vooral volwassenen en tieners met voldoende ontwikkelde taalvaardigheid de apparatuur gebruikten. In eerste instantie waren er vrijwel alleen mannelijke, Amerikaanse stemmen beschikbaar. Die sloten niet aan bij de diverse gebruikersgroep van ondersteunde communicatie (OC). Vrouwelijke stemmen en variatie in accenten en talen kwamen pas later.
De ontwikkeling van betaalbare OC-oplossingen, zoals Proloquo2Go in 2009, luidde het einde in van de barrières om OC te gebruiken. Voorheen investeerde men liever niet in technologie als die niet bewezen effectief werd geacht voor bepaalde gebruikers. Denk bijvoorbeeld aan een kind dat nog onvoldoende taalvaardigheid had ontwikkeld om te communiceren. Maar nu was deze innovatieve technologie ook voor hen beschikbaar.
Meer dan de helft van de OC-gebruikers is jonger dan 12, maar deze groep profiteerde nog niet van de technologische vooruitgang. Zonder natuurlijke kinderstemmen moesten de jonge gebruikers het doen met volwassen stemmen of gesimuleerde, verhoogde stemmen, waardoor ze klonken alsof ze helium geïnhaleerd hadden. De meeste jonge OC-gebruikers moesten dus noodgedwongen spreken met een stem waarmee ze zich niet konden identificeren, en die onnatuurlijk of ongeloofwaardig overkwam op hun communicatiepartners.
We gingen de uitdaging aan
Op basis van de verzoeken van onze gebruikers en onze kennis van de wereld van OC, besloten we om ook onze jonge gebruikers de beste ervaring te bieden: met natuurlijke kinderstemmen. Omdat die tekst-naar-spraakstemmen nog niet bestonden, gingen we de uitdaging om ze te creëren aan met de Acapela Group, een van de koplopers op het gebied van tekst-naar-spraaktechnologie.
Zo werkt het
Tekst-naar-spraakstemmen zijn gebaseerd op studio-opnamen van een stemacteur of -actrice, die een lang script voorleest. Het zou veel te veel tijd kosten om alle woorden van een taal op te nemen, dus het script is zodanig geschreven dat het zoveel mogelijk klanken en klankcombinaties bevat. Omdat klanken per taal verschillen, is hier veel en lang onderzoek voor nodig. Vervolgens wordt de spraak gegenereerd door de tekst-naar-spraaksoftware: die bouwt woorden door klanken te combineren. Na de opnamen moeten de stemmen nog uitgebreid bewerkt en getest worden, zodat ze zo natuurlijk mogelijk klinken. Alles bij elkaar duurde het ongeveer een jaar voordat de Acapela Group en AssistiveWare de eerste twee kinderstemmen hadden ontwikkeld.