Témoignage Voxygen : Comment la voix de synthèse peut améliorer l’expérience utilisateur ?

illustration logo voxygen

Pour réaliser la synthèse vocale de ses callbots, dydu fait appel à des partenaires technologiques comme Voxygen. Vous souhaitez savoir comment fonctionne la création de voix de synthèse ? Comprendre les enjeux du marketing vocal ? Découvrez dans cet article le retour d’expérience de Christian Sassady, directeur commercial chez Voxygen.

Pouvez-vous décrire rapidement votre entreprise ?

Voxygen est un éditeur de solution de synthèse vocale basée sur de l’Intelligence Artificielle. Notre métier est de vendre nos solutions logicielles et de créer des voix personnalisées pour nos clients. Voxygen a démarré ses activités en 2011, en tant que spin-off du groupe Orange. Le siège est basé en Bretagne.

Pour quels cas d’usage vos clients font-ils appel à vos services, quels sont les secteurs d’activité les plus représentés parmi vos clients ?

La majorité de nos projets sont issus du domaine de la relation client, autour des problématiques des centres d’appels et SVI (serveurs vocaux interactifs). Les cas d’usage sont nombreux et larges. Ils peuvent concerner des messages ponctuels, des messages d’urgence ou des scénarios dynamiques de selfcare (SVI, callbot). Nous réalisons également de nombreux projets pour les entreprises du transport pour de l’information voyageur. Notre projet le plus connu est la digitalisation de la voix de Simone Hérault, célèbre voix de la SNCF depuis plus de 35 ans, qui a créé une véritable relation avec les utilisateurs par sa voix. La voix digitalisée permet une expérience usager omnicanale homogène.

De plus en plus de cas d’usages se développent sur les assistants vocaux, enceintes connectées et applications mobiles. On peut également parler des entreprises des secteurs de la santé et de l’automobile. Dans le véhicule de demain, il y aura des assistants vocaux directement installés dans le cockpit. C’est un service que tous les constructeurs développent et vont développer dans les années à venir. Pour la santé, il s’agit d’utiliser des voix de synthèse pour de la simulation médicale, de l’accompagnement et de la formation aux étudiants et médecins.

Pouvez-vous décrire l’offre de Voxygen ?

Nous proposons une solution logicielle de synthèse vocale permettant de convertir du texte en parole, mais aussi un service de création de voix spécifiques. En effet, nous avons des voix standards (catalogue), mais nous avons également la possibilité de créer des voix personnalisées pour les clients qui ont une forte identité vocale et qui veulent optimiser leur expérience client. Nous n’avons pas forcément vocation à créer un grand catalogue de voix digitalisées disponibles pour tous. En effet, nous sommes persuadés que tous les clients grands comptes auront à terme leur propre identité vocale, au même titre qu’ils ont un logo un slogan ou une charte graphique. Nous leur créerons donc des voix personnalisées. Cette identité vocale devra être utilisée sur l’ensemble des services vocaux pour optimiser l’expérience client pour l’utilisateur.

Nos voix sont développées en s’appuyant sur des solutions basées sur l’intelligence artificielle et les réseaux de neurones. Ces voix de synthèse sont ensuite utilisées par nos clients et partenaires à travers nos logiciels de Text-To-Speech. Le logiciel permet de transformer le texte en une parole expressive se rapprochant de la voix  d’un être humain.

La brique de synthèse vocale de Voxygen vient souvent s’interfacer dans un produit plus global. Cela permet une véritable interaction homme-machine. C’est le cas du projet callbot mené avec dydu pour l’assureur MACSF. C’est le logiciel de traitement du langage naturel de dydu qui va faire appel à l’API Voxygen pour générer la voix du callbot.

Comment parvenez-vous à créer des voix sur-mesure ?

Nous avons développé une méthodologie complète pour la création d’une voix digitale sur mesure pour nos clients. Nous pouvons distinguer plusieurs scénarios :  

  • Un client qui a déjà identifié un locuteur (autrement appelé un “voice talent”) pour son identité vocale. C’est le cas de la SNCF avec la voix de Simone qui avait déjà enregistré de très nombreux messages.
  • Un client qui part d’une feuille blanche. Il n’a pas de locuteur identifié et veut se faire accompagner sur l’ensemble du projet (depuis la définition de son besoin jusqu’à la création et la livraison de la voix digitale).

Dans le deuxième cas, nous réalisons des ateliers avec le client pour comprendre ses attentes. Quel est le style de voix recherché par rapport aux cas d’usage du client ? Quelle expressivité ? Quelles valeurs de la marque la voix digitale doit-elle véhiculer ? Nous récupérons le brief du client et nous travaillons avec des studios d’enregistrement pour la réalisation du casting de voix à présenter au client.

Une fois le locuteur identifié, nous devons l’enregistrer en studio pendant quelques journées grâce à un script de lecture (liste de phrases). Ce script est préparé en amont des enregistrements à partir du savoir-faire de Voxygen en matière de linguistique et d’acoustique, et des données métier du client. Plus on contextualise la voix, plus la voix est naturelle et fluide pour les usages du client. Ces enregistrements se font sous la supervision de nos ingénieurs. On crée en quelque sorte une bibliothèque de sons pour cette voix.

Il y a ensuite tout un processing des enregistrements audio pour créer la voix de synthèse à partir des technologies d’IA et de nos outils. Une fois la voix créée, elle est livrée avec la solution logicielle retenue par le client. Le client est ensuite totalement autonome sur l’usage de nos solutions. Lorsque des requêtes sont envoyées vers la solution, cette dernière restituera le message audio en temps réel même si ce n’est pas une phrase enregistrée telle quelle à la base. L’objectif d’une voix de synthèse est de pouvoir tout prononcer.

Quelle est votre proposition de valeur par rapport à des acteurs comme Google ?

Voxygen est une entreprise 100% française. C’est encore une PME, ce qui nous permet d’offrir des réponses réactives et flexibles à nos clients et partenaires. Les acteurs comme Google ne font que du cloud, nous faisons aussi du « on-premise » et même de l’embarqué pour les clients qui le demandent.

La plus grosse différence est le fait que l’on accompagne nos clients dans la création de voix personnalisées avec un véritable service de proximité sur mesure. Nous pensons également offrir une réelle valeur ajoutée sur la qualité de nos voix, et encore plus sur la création de voix personnalisées.

Quels sont vos prochains défis en termes de produit ?

Nos équipes travaillent toujours sur l’optimisation de la qualité des voix, en français mais aussi en langues étrangères. Nous les améliorons grâce à l’IA et à la technologie neuronale. Les clients sont de plus en plus exigeants sur la qualité des voix. Ils veulent un service haut de gamme totalement automatisé et flexible.

Demain, la synthèse vocale permettra de gérer des cas d’usage métier totalement automatisés et personnalisés avec des données propres à l’utilisateur. Certains de nos clients ont déjà déployé des solutions pour ces types d’usage. 

Quelles sont vos perspectives de marché ?

Nous travaillons principalement sur des projets de relation client. Mais de plus en plus de cas d’usages se développent sur des applications mobiles, enceintes connectées ou de la domotique par exemple. Les entreprises peuvent tout à fait déployer leur propre identité vocale sur l’ensemble de leurs canaux. Que ce soit de la téléphonie, un PC, un smartphone, ou une enceinte connectée comme Google Home ou Alexa. Pour renforcer leur identité de marque, les entreprises ont tout à gagner à utiliser la même voix afin d’offrir une expérience client réellement optimisée. Cela n’aurait pas de sens de proposer des voix différentes sur chaque canal.