La genèse
Les appareils capables de simuler la parole existent depuis la fin des années 70. Pendant des décennies, ces appareils étaient trop coûteux et étaient principalement appliqués au domaine de la communication et non à celui du développement du langage. Par conséquent, ils étaient principalement utilisés par les adultes et les adolescents qui avaient déjà acquis le langage. A l’origine, la plupart des voix disponibles étaient des voix américaines masculines, ce qui n’était pas représentatif de la diversité des personnes concernées par la Communication Améliorée et Alternative. Les voix féminines, ainsi que d’autres langues et accents, ne sont apparus que bien plus tard.
Le développement de solutions de CAA à bas coût telle que Proloquo2Go en 2009 a permis de démocratiser l’utilisation d’applications de CAA. Cette technologie innovante est aujourd’hui accessible, par exemple, aux enfants en cours d’acquisition du langage, alors qu’auparavant il ne leur aurait pas été possible de bénéficier d’une telle technologie au regard de l’investissement et du risque financier que cela représentait.
Même avec la démocratisation de cette technologie, la moitié des utilisateurs de CAA âgés de moins de 12 ans n’étaient toujours pas concernés. Avant l’arrivée de voix de synthèse d’enfants, réalistes, les utilisateurs devaient se contenter de voix d’adultes ou de voix modifiées artificiellement avec des aigus qui donnaient l’impression d’avoir inhalé de l’hélium. En d’autres termes, cela signifie que les jeunes utilisateurs de solutions de CAA devaient parler avec une voix à laquelle ils ne pouvaient pas s’identifier et qui semblait anormale pour ne pas dire invraisemblable à leurs interlocuteurs.
Relever le défi
A partir des demandes des utilisateurs et de notre connaissance du domaine de la CAA, nous avons pris la décision de proposer à nos jeunes utilisateurs la meilleure expérience de CAA possible intégrant des voix d’enfants. Puisqu’il n’existait aucune solution équivalente sur le marché, nous nous sommes associés à Acapela Group, un leader de la synthèse vocale, afin de relever le challenge de la création des premières voix de synthèse d’enfants.
Comment ça marche ?
Les voix de synthèse sont réalisées en studio, à partir de l’enregistrement d’un long script lu par un acteur. L’enregistrement de tous les mots d’une langue prendrait beaucoup trop de temps. C’est la raison pour laquelle, les scripts sont conçus afin de contenir le plus de sons et combinaisons de sons possibles. Cela nécessite d’effectuer de nombreuses recherches car les sons diffèrent d’une langue à l’autre. Le discours est alors synthétisé par le logiciel de Synthèse vocale ce qui a pour effet de créer des mots en associant les sons entre eux. Une fois les enregistrements terminés, les voix nécessitent beaucoup de traitements et de tests pour qu’elle puissent paraître aussi naturelles que possible. En tout, le développement des deux premières voix d’enfants aura demandé une année de travail à Acapela Group et à AssistiveWare.