M
Eine gute Spracherkennung vergleicht nicht Worte aus einem Wörterbuch, um zu berechnen, mit welcher Wahrscheinlichkeit sie passen. Eine gute Spracherkennung vergleicht "phonetische Silben", also keine Wortsilben, sondern Klangwolken, Klangfetzen. Somit ist eine sehr sichere Erkennung (>85%), auch bei starken Hintergrundgeräuschen möglich (Produktions- oder Lagerhalle, Anruf aus dem offenen Cabrio, etc).
Wie der Autor schreibt, ist es sehr wichtig, auch die Stimmung in einem Gespräch zu erkennen. ZB ruft jemand beim Callcenter an und sagt "ich schmeiße Euch eine Bombe rein", dann ist das ein Buzzword. Lachen aber dann der Kunde und der Agent, dann ist klar, dass das Gespräch sehr gut läuft.
Auf diese Art kann man 100e und 1000e von Stunden Recording analysieren, um dann gezielt zu coachen (richtige Begrüßung, passende Wortwahl, Sprechpausen, weil der Agent Informationen sucht... bis hin zum indirekten Net Promoter Score).