Chatbot-software die op een geschreven zin als invoer een antwoord formuleert, leent zich uitstekend voor een AI-benadering. Echter, de meeste huidige chatbots gebruiken door mensen opgestelde regels om “iets” met de invoer te doen. Bijvoorbeeld als woord-X en woord-Y voorkomen dan…. Daar is niets mis mee en het kan uitstekend werken, maar het is niet een manier van processen die we tegenwoordig onder AI verstaan. Een echte AI-chatbot herschrijft eventueel de invoer (bijvoorbeeld alle meervouden naar enkelvouden of alle lidwoorden verwijderen) en gebruikt vervolgens die zin met het door mensen gegeven label om zichzelf te trainen en vervolgens aan nieuwe zinnen een juist label te geven.
Gesproken Chatbots
Naarmate de spraakherkenning beter wordt, wordt de vraag om volledig gesproken chatbots steeds groter. Je zou denken dat, als je eenmaal een tekstuele chatbot hebt, het eenvoudig moet zijn om hem voor spraak geschikt te maken. Het antwoord hierop is ja en nee. De structuur van de dialoog kan eenvoudig hergebruikt worden en de tekstuele invoer vervangen door de resultaten van de spraakherkenner. Het antwoord geef je dan middels Tekst-to-Speech en klaar is kees. Maar….. zo eenvoudig is het niet. Het is namelijk niet zeker dat het soort vragen dat je middels spraak stelt gelijk is aan de vragen die je middels tekst stelt.
In de regel spreken mensen meer dan noodzakelijk is om iets over te brengen. Deels komt dat doordat we nadenken over wat we willen zeggen en hoe we dat vervolgens willen formuleren. Menselijke luisteraars zijn daar, zeker in hun eigen taal, aan gewend en kunnen heel goed de minder relevante uitingen verwijderen (=vergeten) om vervolgens slechts de eigenlijke kern te “horen” en te processen.
Een gesproken dialoog verschilt dus significant van een chat in tekst. Er zal dus een nieuw aangepast dialoogontwerp voor voice moeten worden gemaakt, met b.v. kortere reacties.
De conversational dialoog
De conversational Speech API van Telecats kan gebruikt worden om via de telefoon een spraakgestuurde conversatie te voeren met een chatbot. De tekstuele invoer wordt vervangen door de resultaten van de spraakherkenner. Het antwoord geef je dan middels Tekst-to-Speech.
De spraakgestuurde interactie met de chatbot verloopt via de Speech API en bevat de volgende stappen:
- Bij een gesprek maakt de Speech API een sessie aan bij de chatbot.
- De Speech API is client, de chatbot is de server. Dat betekent dat de Speech API steeds vraagt wat de volgende stap is, en het antwoord van de chatbot moet een opdracht voor de Speech API bevatten.
De mogelijke opdrachten zijn bijvoorbeeld:
- PLAY tekst
- TRANSFER naar nummer
- QUESTION tekst
- HANGUP
Op deze manier kan de volledige dialoogstructuur van de spraakgestuurde chatbot zelf worden gebouwd in het conversational platform dat ook wordt gebruikt voor het ontwikkelen van conversational dialogen op de andere klantcontactkanalen.
Real-time conversatie
Een grote uitdaging is de reactie snelheid die we (mensen) verwachten in een dialoog. Langer dan 1 seconde wachten op een antwoord is lang. In die ene seconde moet de spraakherkenning de ingesproken vraag omzetten naar tekst, de tekst en data versturen naar de chatbot. Het conversational platform moet de vraag interpreteren en een antwoord zoeken, het antwoord in tekst versturen naar de spraakoplossing, waarna de spraakoplossing de tekst omzet naar spraak en het antwoord afspeelt aan de beller.
De Speech API maakt voor spraak-naar-tekst gebruik van dezelfde spraakherkenner als de oplossing voor spraakrouteren van Telecats met een speciale context ingericht voor de conversational Speech API. Voor de tekst-naar-spraak maken we gebruik van ReadSpeaker, een gevestigde naam voor het leveren van tekst-naar-spraak technologie en veelal bekend van de voorleeshulp op websites.