PGGM launching customer Spoken summary
Essentieel voor een goede klantcontacthistorie is het invoeren van een korte samenvatting van het gesprek in het CRM-systeem: dat draagt bij aan een goede opvolging. Wat was voor de beller de aanleiding om contact te zoeken, wat was de kern van het gesprek en wat zijn de gemaakte vervolgafspraken? Als je dit als medewerker niet zelf hoeft in te tikken maar geautomatiseerd kan laten wegschrijven in het CRM-systeem scheelt dat veel tijd.
Bij Telecats gebruiken we de spraakherkenning om een door de medewerker ingesproken samenvatting om te zetten naar tekst. Hetgeen resulteert in een goed leesbare geschreven samenvatting die automatisch wordt opgeslagen in het CRM-systeem.
Frank Rademakers (Manager Klantcontact & Support, PGGM): “Ongeveer twee jaar geleden werd binnen het Klantcontact-centrum van PGGM het idee geboren om een gespreks-samenvatting d.m.v. spraaktechnologie weg te schrijven naar CRM. Doelstelling daarbij was om de nawerktijd voor de medewerker te verkorten en tevens een meer uniforme manier van gespreksregistratie te realiseren.Het was voor PGGM een logische keuze om dit traject op te pakken met tech-partner Telecats, in samenwerking met onze eigen Innovatie-afdeling. Hiervoor hebben we vorig jaar een multidisciplinair team ingericht, waarin alle relevante rollen waren vertegenwoordigd met Telecats in de lead. Rond de jaarwisseling hadden we de keten ‘technisch werkend’ en viel er alleen nog verbetering te realiseren in het taalmodel. Dat was qua woordgebruik en jargon (pensioenen) best een uitdaging! Inmiddels zijn we volop bezig met de uitrol van deze nieuwe werkwijze met een speciaal voor PGGM getraind en goed werkend taalmodel.Ik kijk terug op een enerverend en leerzaam innovatietraject, met soms hobbels en valkuilen, maar bovenal met een mooi resultaat. En de voldoening was groot toen we de eerste begrijpelijke en goed leesbare gespreks-samenvattingen in onze CRM systemen terugzagen. Dan is het best gaaf om launching customer te zijn van een heel nieuwe toepassing en innovatie in klantcontact”.
Hoe werkt het
Nu spraakherkenning door toegenomen rekenkracht, beschikbare trainingsdata en slimme AI-algoritmes volwassen begint te worden, is de volgende uitdaging het begrijpen. Maar kan dat? Zijn de huidige algoritmes in staat om deze typisch menselijke eigenschap (te begrijpen wat er bedoeld wordt, ook al wordt het niet met zoveel woorden gezegd) te duiden? Dat is de grote uitdaging waar Telecats in samenwerking met kennisinstellingen, zoals de Universiteit Twente, aan werkt.
De spraaktechnologie is de afgelopen jaren sterk verbeterd door het gebruik van Deep- Neural-Nets of wel: kunstmatige intelligentie. We zien dat de spraakherkenning bij optimale condities bijna net zo goed spraak herkend als de mens (WER* 5 tot 10%). Optimaal is dan een Engelse nieuwslezer in een studio die tekst voorleest. Terwijl klantcontact vaak een conversatie is tussen 2 personen over de telefoon (8Khz) en we denken terwijl we praten en daardoor hebben onze uitgesproken zinnen niet altijd een logische opbouw. Toch zijn we in staat om ook deze gesprekken goed met spraakherkenning (WER* 20 tot 40%) te verwerken.
De Word Error Rate (WER*) is een maatstaf voor de prestaties van spraakherkenning. WER telt het aantal onjuiste woorden dat tijdens de herkenning wordt geïdentificeerd, deelt de som door het totale aantal woorden dat is opgegeven in de door mensen gelabelde transcriptie en vermenigvuldigt dat quotiënt vervolgens met 100 om het foutpercentage te berekenen als een percentage.
De spraakherkenning maakt doorgaans drie soorten fouten:
- Invoegingen: woorden die onjuist zijn toegevoegd in de transcriptie
- Verwijderingen: woorden die onterecht ontbreken in de transcriptie
- Vervangingen: woorden die zijn vervangen door andere woorden in de transcriptie
Omdat computers nog elke 2 jaar een keer zo slim worden en we als mensen dat tempo niet kunnen bijhouden wordt steeds vaker de vraag gesteld: worden mensen overbodig? Maar onze klantadviseurs zijn flexibel, creatief, hebben empathisch vermogen en zijn dus veel beter in staat om menselijk te communiceren. Wij denken daarom dat kunstmatige intelligentie de mens niet gaat vervangen maar juist zal ondersteunen.
Zoals bijvoorbeeld de oplossing Spoken Summary welke bestaat uit drie onderdelen:
Recording
Call recording is een waardevol middel binnen Contact centers voor het verbeteren van processen en het verhogen van de klanttevredenheid. Het wordt o.a. toegepast voor analyse, het waarborgen van de kwaliteit, compliance, het vastleggen van afspraken en coaching van medewerkers. De call recorder van Telecats neemt alle gesprekken in stereo op, waarbij medewerker en klant ieder een eigen opname hebben. De opnamen worden eerst in hoge kwaliteit audio opgeslagen, wat resulteert in betere en accurate verwerking van de opnamen van spraak naar tekst. Na verwerking kunnen de opnamen alsnog worden gecomprimeerd voor opslag.
Transcriptie (Speech-To-Text / STT)
Om de opgenomen gesprekken met een goede kwaliteit om te zetten van spraak naar tekst, zijn taalmodellen en de juiste context nodig. De spraakherkenning van Telecats biedt ondersteuning voor verschillende talen en kan sector- of klant-specifieke taalmodellen gebruiken. Daarnaast is het mogelijk om de spraakherkenning te trainen met handmatig uitgewerkte opnamen met specifiek taalgebruik van klanten en medewerkers. Dialecten en accenten worden meegenomen in het akoestische model van de spraakherkenner. We hebben verschillende “uitspraakwoordenboeken” om met verschillende dialecten en accenten om te gaan. Als de gesproken accenten te veel afwijken van de door ons gemodelleerde uitspraken, kunnen we het akoestisch model hierop aanpassen. Hierdoor is de kwaliteit van de Nederlandse spraakherkenning en gegenereerde transcripties door de Telecats spraakoplossingen altijd optimaal.
De Word Error Rate voor telefonie audio varieert tussen 20% en 40%, afhankelijk van de context en de geluidskwaliteit. Wanneer je vervolgens probeert om met een algoritme het compleet getranscribeerde gesprek automatisch samen te vatten is het resultaat niet goed bruikbaar.
Bij Telecats gebruiken we de spraakherkenning om de gesproken samenvatting om te zetten naar tekst en daar bereiken we een WER van onder de 20% met een goed leesbare samenvatting tot gevolg.
De gesproken samenvatting
Bij de oplossing Spoken Summary spreekt de medewerker de samenvatting in en wordt alleen dit gedeelte van het gesprek weggeschreven in het CRM-systeem. De samenvatting kan worden gestart met een API of afgesproken trigger woord. Het succes van deze (gedicteerde) gesproken samenvatting hangt mede af van duidelijke richtlijnen en het goed trainen van de medewerkers. Maar het samenvatten van gesprekken zit vaak al voor een groot deel ingebakken in de werkwijze van de medewerkers.