Aktueller Channel Fokus:

Gaming & eSports

Sprachassistenten

Das Wesen des digitalen Sprachassistenten

| Autor / Redakteur: Robert C. Mendez * / Annika Lutz

Digitale Sprachassistenten durchdringen mittlerweile unseren Alltag – nun wird es Zeit, sie zu verstehen und zu nutzen.
Digitale Sprachassistenten durchdringen mittlerweile unseren Alltag – nun wird es Zeit, sie zu verstehen und zu nutzen. (Bild: gemeinfrei / CC0)

Digitale Sprachassistenten wie Amazon‘s Alexa oder Google‘s Assistant sind gekommen um zu bleiben. Nicht nur weil die größten der Großen Digitalkonzerne titanische Mengen an Ressourcen in die Entwicklung der Systeme stecken, sondern auch weil die Menschen es wollen. Wer hat sich noch nicht seinen eigenen „persönlichen Assistenten“ gewünscht?

Nun, er ist da! Auch wenn er noch viel lernen muss. Damit ist auch die Notwendigkeit an die Entwickler, Marken und Unternehmen geboren diese Technik und diesen Kanal zu verstehen und zu nutzen um auch in Zukunft den Nutzer und Kunden effizient zu erreichen.

„Ok Google, jetzt erzähl mal wer und was du bist!“

Wäre wirklich toll, wenn der Sprachassistent auf diese Anfrage auch eine Antwort hätte. In der Tat kann er aber aktuell nicht wirklich erklären, was er ist und was er bewirkt. Dies liegt zum einen in der Tatsache, dass die Systeme noch an Tag Eins ihrer Entwicklung sind, zum anderen auch daran, dass man eben die Antworten aber auch noch gar nicht wirklich kennt. Genau hier liegen Risiko und Chance für Unternehmen nah beieinander. Sollte ein Sprachassistent jemals sich selbst bewusst werden, dürfte die Antwort auf die Frage „Was bist du?“ vermutlich sehr interessant ausfallen.

Aktuell nehmen die Menschen den digitalen Sprachassistenten als „Sprachsteuerung“ oder als Werkzeug zur „Wissenssuche per Sprache“ wahr, ebenso wie als Unterhaltungsmaschine. In der Tat sind das auch aktuell die Eigenschaften der Systeme, die am besten funktionieren, aber eben auch nur ein kleiner Teil des Wesens mit dem der Sprachassistent angetreten ist – nämlich für jeden Menschen ein „persönlicher Assistent“ zu sein. Wer will das nicht?

Um ein persönlicher Assistent zu werden, braucht es eine barrierefreie Kommunikationsschnittstelle: die Sprache. Diese muss „natürlich“ sein, denn sonst haben wir die gleichen Nutzungsbarrieren wie bei Bildschirmmedien. Zugegeben, aktuell sind die Systeme noch nicht intelligent genug, um wirklich natürlich und frei Schnauze mit ihnen sprechen zu können. So bestehen die gut funktionierenden Anwendungsfälle für digitale Sprachassistenten momentan noch sehr häufig aus formalen, einfachen Sätzen im Kasernenhofton. Doch die Entwicklung ist rasant. Noch nie in der Menschheitsgeschichte hat eine Technologie eine so schnelle und große Akzeptanz erfahren wie digitale Sprachassistenten. Die Barrierefreiheit ist der wesentliche Grund dafür. Dies in Kombination mit der Gadget-Verrücktheit der Menschen und zahlreichen Schnittstellen zu allen möglichen Funktionen und Inhalten, garantiert den entwickelnden Unternehmen rosige Aussichten und einen Spielplatz für aufregende Entwicklungen.

„Alexa, was fang ich mit dir an?“

Eine Frage die ein jeder Nutzer für sich ohne Probleme beantworten könnte. Die Wunschliste der Dinge,die der persönliche Assistent seinem Nutzer abnehmen könnte, ist laaaaang. Selbst wenn es aktuell nur einfache Dinge sind, wie beispielsweise das Setzen einer Erinnerung oder dem Steuern der Heizung.

Stellt diese Frage jedoch eine Marke oder ein Unternehmen, so besteht die Antwortliste aktuell wohl eher noch aus Fragezeichen. Dabei ist es doch eigentlich offensichtlich, dass der Sprachassistent ein neuer und weiterer Kanal zum Bedarf der Kunden von Unternehmen ist. Dieser kann aber eben nicht einfach mal ebenso mit vorhandenen Mitteln bespielt werden, denn der digitale Sprachassistent bringt Eigenschaften mit, die erst verstanden werden wollen. Dies umfasst in erster Linie:

  • den „Voice First“ Gestaltungsansatz
  • den digitalen Sprachassistenten als persönlicher Assistent seines Nutzers
  • den digitalen Sprachassistenten als Gatekeeper des Nutzers
  • den Grad der Nutzbarkeit des digitalen Sprachassistenten
  • die Eigenschaften natürlich gesprochener Sprache

Erst wenn diese Hürden genommen sind, macht die Entwicklung eines „Smart Voice“-Projektes Sinn und wird dann auch schnell effizient.

Für den Entwickler beziehungsweise die Agentur, die ihren Unternehmenskunden Entwicklungen für Sprachassistenten anbietet, bedeutet es im ersten Schritt, dem Kunden den Sprachassistenten in seinem Wesen klarzustellen und die Anwendungsfälle zu analysieren, die das Unternehmen sich wünscht.

Diese Anwendungsfälle sind stets fundamentaler Bestandteil der Maßnahmen, die ein Unternehmen vornimmt, um seine Ziele zu erreichen. Dies setzt also voraus, dass ein Auftrag gebendes Unternehmen sich selbst gut genug kennt, um seine Ziele und die nötigen Maßnahmen zur Zielerreichung zu kennen.

Erst wenn dies der Fall ist, kann der Skill-(Alexa) / Action-(Google Assistant)-Programmierer oder die Spezialagentur den weiteren Weg mit dem Unternehmen gehen, die Anwendungsfälle ausarbeiten und dessen Inhalte gestalten.

„Voice First“ heißt nicht „Voice Only“

Nur zu schnell kommt man im Rahmen der Entwicklung von Sprachassistenten gerne auf den übereifernden Gedanken, dass nun die ganze Welt von Sprachassistenten überrollt wird und es nirgends wo mehr Bildschirme gibt. Das ist natürlich totaler Unsinn! Der Mensch hat Augen und die braucht er auch, weil es nun mal Informationen gibt, die sich per Stimme nicht effizient übertragen lassen. Schon einmal versucht, jemanden ein Bild oder ein Lied nur in Worten zu beschreiben? Oder im Club bei 100 Dezibel Technobass ein Getränk zu bestellen? Aha!

Eigentlich ist mit „Voice First“ eine Geräteklasse gemeint, welche außer der Bedienbarkeit per Stimme keine weiteren Nutzerschnittstellen hat. „Voice First“ als Gestaltungsrichtlinie bedeutet, dass eine Nutzerschnittstelle zu 100 Prozent per Stimme nutzbar sein muss. Es bedeutet aber auch, dass wenn eine Information zu komplex für eine Ausgabe per Stimme ist, diese Information dann auf einem anderen Medium, wie einen Bildschirm ausgegeben werden muss. Der Medienbruch ist dann ein „Muss“ und kein Fehler. Genau diesen Sattelpunkt zwischen „nur Stimme“ und mehr, gilt es in den jeweiligen Anwendungsfällen zu finden und zu gestalten. Wird dies nicht gemacht, so ist das Gerät oder die Funktion „kaputt“ und damit nicht für den Menschen nutzbar. Spätestens unsere Kinder werden nicht mehr verstehen, warum sich etwas nicht per Stimme steuern lässt.

Gesprochene Sprache ist sensibel und verzeiht nichts. Entsprechend braucht es eine feinfühlige Gestaltung der Sprache und des Sattelpunktes, an dem ein ergänzendes Medium und damit ein Medienbruch in die Nutzerführung (UX) gestaltet werden muss. Grundsätzlich gilt: Je komplexer die zu transportierende Information, umso wahrscheinlicher das ist es, dass „nur Stimme“ nicht ausreicht um sie an den Menschen zu kommunizieren. Das prinzipiell aller-aller-aller erste Gestaltungs- beziehungsweise Entscheidungskriterium ist dabei schlichtweg die Frage nach der Kommunikationsfähigkeit des Menschen selbst oder auch die Frage „Kann der Mensch im zu gestaltenden Anwendungsfall überhaupt sprechen?“. Klingt banal – ist es auch! Selbst wenn ein Mensch aus physischen Gründen keine Einschränkung in seiner Fähigkeit zu sprechen hat, so könnte diese Fähigkeit zu Sprechen trotzdem durch eine laut röhrende Maschine oder laute Musik schon bis auf Null eingeschränkt sein. Womit Voice First dann Voice Last wäre.

Ist Sprache im angedachten Anwendungsfall also überhaupt nutzbar? Wenn ja, dann ist die Komplexität der Informationen das nächste Kriterium, welches über den Grad der Nutzbarkeit der Stimme für die Kommunikation mit Maschinen entscheidet. Oder andersherum, was darüber entscheidet an welchen Stellen ein weiteres Medium wie der Bildschirm eingesetzt werden muss. Diese Entscheidung wird im Groben von folgenden Punkten beeinflusst:

  • 1. Die Kommunikationsfähigkeit ist wie bereits beschrieben, entscheidend über den Grad der Nutzbarkeit von „Voice First“. Doch selbst wenn eine hohe Kommunikationsfähigkeit per Sprache im Grunde möglich wäre. Dürfen/Sollten die entsprechenden Informationen wirklich „gesprochen“ werden? Es gibt nicht umsonst die Weisheit, dass manche Dinge vielleicht lieber unausgesprochen bleiben sollten.
  • 2. Die Form der Information ist zum Beispiel ein Ton, eine Farbe, Helligkeit, Muster aber auch beispielsweise ein Format. Wer einmal versucht hat, jemanden ein Bild oder Lied nur mit Worten zu beschreiben, dürfte grandios gescheitert sein. Ist eine Information nicht verbal darstellbar, braucht es weiteres Medium.
  • 3. Die Komplexität der Information. Jeder kennt die Situation im Restaurant, in der der Kellner die zehn angebotenen Desserts aufzählt und man bereits nach dem vierten nicht mehr weiß, was das Erste war. Ist eine Information zu komplex oder die Masse zu groß für die Stimme, so braucht es einen Medienbruch oder zumindest ein Dialogmodell, welches die Masse der Informationen in Häppchen serviert.

„James! Kaffee bitte!“

Wer wollte das nicht schon immer einmal zu seinem eigenen Assistenten sagen? Auch wenn das beim ersten Aussprechen seltsam klingt, so sind wir diesem Szenario doch näher als gedacht. Schon heute gibt es leistungsfähige Roboter, die in ihrer Umgebung gut zurechtkommen. Beeindruckende Entwicklungen dazu liefert zum Beispiel Boston Dynamics. Warum sollte man also einen digitalen Sprachassistenten nicht in so einen Roboter einbauen können?

Aktuell finden Alexa und Co. ihren Weg zum Menschen noch in Smartphones oder smarten Lautsprechern wie dem Google Home. Doch immer mehr Hersteller bauen die Systeme in ihre Geräte ein, sodass bald auch Kühlschränke, Autos, Drucker, Kaffeemaschinen und viele mehr mit einem digitalen Sprachassistenten unter der Haube mit dem Menschen sprechen können. Smarte Lautsprecher könnten dann eines Tages nur noch eine Randerscheinung sein.

Momentan werden alle erdenklichen Schnittstellen an die Sprachassistenten angedockt. Schon heute lassen sich viele Geräte und Dienste per Sprachassistent bedienen. Von der Steckdose, über den Kalender, bis hin zur Telefonie. Wir haben also schon heute einen persönlichen Assistenten, der mit uns sprechen kann. Bisher haben wir uns an diese Tatsache jedoch noch nicht gewöhnt. Dabei sind viele Anwendungsfälle im täglichen Leben und Arbeiten schon heute mit Sprachassistenten gut optimierbar, selbst wenn es nur das Setzen eines Timers per Stimme ist, wenn man in der Küche klebrige Finger vom Teig hat.

Die dabei interessanteste Funktion dabei ist definitiv die Gestaltung eigener Routinen /Abläufe, um die Funktionen des Sprachassistenten auf seine persönlichen Ansprüche zu optimieren. Die Funktionen, die in diese Abläufe eingebettet werden können, werden fast täglich leistungsfähiger und damit für den Menschen immer nützlicher. So sind schon heute digitale Sprachassistenten für viele stärker eingeschränkte Menschen (wie beispielsewise Behinderte) oft ein wahrer Segen.

Nimmt man die Tatsache hinzu, dass durch die persönliche Gestaltung der Funktionen der Sprachassistenten auch noch ein hoher Grad an Personalisierung entsteht, dürfte der digitale Sprachassistent definitiv das Medium sein, welches seinen Nutzer am besten kennt. Ein Alptraum für Datenschützer und ein feuchter Traum für das Marketing.

„Du kummst hier net rein!“

Der digitale Sprachassistent als persönlicher Assistent ist umso nützlicher, umso personalisierter er ist und umso besser er seinen Nutzer kennt. Dies geht sogar so weit, dass der Sprachassistent, einmal konfiguriert, dem Nutzer auch Entscheidungen abnimmt. Schon heute passiert dies häufig, zum Beispiel immer dann, wenn die Heizungsanlage sich selbst regelt oder wegen Dunkelheit von selbst das Licht einschaltet. Der digitale Sprachassistent hält sich natürlich an die „sichtbaren“ Grenzen, die sein Hersteller und sein Nutzer ihm mitgeben. Aber was ist mit den nicht sichtbaren? Wurde beispielsweise Alexa so konfiguriert, dass immer nur ein bestimmter Musikdienst und bestimmte Musik abgespielt wird, dann hat ein anderer Musikdienst keine Chance mehr, zum Nutzer durchzudringen. Einen Schritt weitergedacht, könnten Systembetreiber oder böse Buben genau diesen Umstand ausnutzen, um nur ihre Inhalte an den Nutzer auszuspielen. Schon heute serviert Amazons Alexa beim Einkauf per Alexa dem Nutzer primär „Amazons Choice“ als angebotenes Produkt.

Der Sprachassistent wird somit zum Gatekeeper und die Unternehmen und Inhalte-Anbieter haben das Problem, an diesem Türsteher vorbeikommen zu müssen, um ihre Information an den Nutzer ausliefern zu können. Die Faktoren,die beeinflussen, welche Information an den Nutzer fließen und welche nicht, sind bis heute entweder noch gar nicht existent oder nicht bekannt. Daher existiert so etwas wie eine Suchmaschinenoptimierung für „Smart Voice“ auch noch nicht – so sehr sich das manchen Agenturen auch herbeireden. Die aktuelle Gestaltungsrichtlinie von Google zum Klassifizieren von sprechbaren Inhalten oder auch das auf schema.org vorhandene Markup zum Markieren von sprechbaren Inhalten, sind nicht nur viel zu kurz gefasst, sondern fließen bisher auch nirgendwo als Rankingfaktor für die Ergebnisausgabe ein. Aktuell fährt Google lediglich einen Modellversuch in Teilen der USA.

Ob durch das System selbst oder durch den Nutzer konfiguriert, der digitale Sprachassistent ist für Unternehmen, die diesen qualitativ hochwertigen Kanal zum Nutzer nutzen wollen, Freund und Feind zugleich. Er ist Beschützer, Türsteher, Berater, Assistent und sogar Chef– und der Nutzer selbst nimmt dies bisher dankend an. Die rigide Vorfilterung von Inhalten ist nötig, um per Sprache ein Dialogmodell führen zu können, welches den Nutzer nicht überfordert. Dies ist vom Nutzer aber auch gewünscht, da die Masse der Informationen den Nutzer heute bereits massiv überfordert. Niemand braucht hundert Marmeladensorten oder hunderte Trump-Fake-News.

Jede Marke, jedes Unternehmen, jedes Produkt und auch jeder Inhalt, der sich qualitativ hochwertig an den echten Bedarf des Nutzers und den Filtern des Sprachassistenten in Form von natürlicher gesprochener Sprache orientiert, wird auch in einer Zukunft mit Smart Voice eine reelle Chance haben, als primäre Information beim Nutzer zu landen.

„Siri, mach dich mal nützlich!“

Die Grundfrage der Nutzbarkeit steht immer als erste Frage im Raum, sobald eine Neuigkeit das Licht der Welt erblickt. Die Nutzung von Sprache in Kombination mit Technik ist dabei eigentlich nichts Neues. Das Neue daran ist die Masse an Funktionen, die nun möglich und für jeden erschwinglich sind. In Kombination mit einer immer größer werdenden Intelligenz der Systeme, ergeben sich Nutzungsszenarien, an die vor wenigen Jahren noch niemand gedacht hat und maximal Teil eines Films waren. Entsprechend steht die Frage nach den Möglichkeiten, die die Sprachassistenten uns bieten, im Raum. Diese Möglichkeiten sind in erster Linie an die Spracherkennung gebunden, denn ohne eine hochgradig gut funktionierende Spracherkennung, sind alle weiteren Funktionen sinnlos.

In der Tat hat die Spracherkennung in den letzten Jahren einen großen Schritt getan. Besonders Google Assistant zeigt anderen Systemen hier die lange Nase. Gleiches gilt bei der Kontexterkennung. Denn für die Maschine ist ein aus Sprache generierter Text erst einmal nur ein Text. Sie weiß nicht, was dieser Text überhaupt meint beziehungsweise welchen Kontext er überhaupt hat. Und genau hier entscheidet sich die Nutzbarkeit der Sprachassistenten für den Menschen. Die nötige Intelligenz zur Kontexterkennung ist das A und O und bestimmt darüber, ob der Mensch mit der Maschine gut klarkommt oder nicht. Dieser Prozess wird „Natural Language Understanding“ genannt und ist für den Menschen die eigentliche Intelligenz hinter den Systemen.

Aktuell lässt sich diese Intelligenz in folgende Nutzungsstufen aufteilen:

  • 1. Frage / Antwort
  • 2. Steuerung
  • 3. Anleitung
  • 4. Dialog

Punkt 1. und 2. Können die Systeme bereits ganz gut. Klar, das Beantworten von Fragen ist ja quasi das Brot- und Buttergeschäft von Suchmaschinen jeglicher Färbung. Hierfür werden keine großen Dialogmodelle benötigt, da eine Unterhaltung mit der Technik ja nur kurz und einfach stattfindet. Gleiches gilt für Punkt 2. Hier kommen zwar sprachliche Rückfragen und Bestätigungen hinzu, aber auch diese sind in kurzen und wenig komplexen Dialogen gut zu überblicken.

Punkt 3, die Anleitung ist die Entwicklung die aktuell ihren Weg zum Nutzer nimmt. So hat zum Beispiel YouTube bereits angekündigt, eine große Masse an How-To-Anleitungsvideos herstellen zu wollen, die in Kombination mit dem Sprachassistenten dem Nutzer eine wertvolle Hilfe für die entsprechenden Anwendungsfälle liefern sollen. Vom leckeren Kochrezept bis hin zur Wartung einer Flugzeugturbine dürften derartige interaktive Anleitungen eine große dankbare Abnehmerschaft finden. Schon heute gibt es Skills/Actions die eine solches „Begleiten durch einen Prozess“ unterstützen. Die Intelligenz der Systeme muss dabei nicht nur Rückfragen und Bestätigungen unterstützen, sondern beispielsweise auch die Speicherung von Fortschritten oder die Handhabung von möglichen Problemen (beispielsweise beim Kochen: „Was mach ich wenn das Schnitzler angebrannt ist?").

Die Königsklasse ist dann Punkt 4, der Dialog. Hier wird der Sprachassistent zu einem virtuellen Lebewesen, welches sich mit seinem Nutzer über alles unterhalten kann. Sowohl die Spracherkennung als auch die Kontexterkennung und Intelligenz müssen technisch im höchst möglichen Grad entwickelt sein. Sogar über Empathie sollte die Maschine hier verfügen, um den Kontext des Dialogs zu treffen. Sonst könnte es den Nutzer verwirren, beispielsweise wenn dieser gerade gestresst ist und sein Sprachassistent ihn dann im fordernden Tonfall auch noch zur Erledigung der nächste Aufgaben auffordert. So hat Amazon in den USA Alexa die Möglichkeit beschert, zu erkennen, ob der Nutzer vielleicht krank ist. Auch Lügendetektoren nutzen den Stress in der Stimme als Basis ihrer Analysen. Wenn der Sprachassistent dann auch noch Augen bekommt, wie zum Beispiel im Ansatz für Google Assistant mit Google Lens schon möglich, dann wird der Nutzer komplett gläsern und kann je nach Erkennung auch empathisch reagieren.

„Tut mir leid, das habe ich leider nicht verstanden!“

Dies ist aktuell wohl die von Sprachassistenten am häufigsten ausgelieferte Information an den Nutzer. Entsprechend dürften in den Spracheingabeprotokollen der Nutzer derzeit noch viele Schimpfworte eine recht hohe Dichte haben. Für die Entwickler von Sprachassistenten heißt dies im Umkehrschluss: je weniger Schimpfworte beim Nutzer fallen, desto hochwertiger ist das VUI (Voice User Interface), also die verbale Schnittstelle zum Nutzer umgesetzt worden.

In den letzten Dekaden haben wir gelernt, mit Maus, Tastatur und Bildschirm umzugehen und diese effizient zu gestalten. Dies ändert jedoch nichts an der Tatsache, dass diese Form der Kommunikation mit Maschinen sehr formal ist, gelernt sein will, eine hohe Zugangsbarriere hat und oft auch nicht sehr effizient ist. Nun folgt ein Fortschritt durch einen Rückschritt, nämlich der Fortschritt in der Kommunikation durch Technik und die gleichzeitige Verwendung einer uralten Kommunikationsform: der Sprache.

Alleine bei der Eingabe ist die Stimme drei bis fünfmal schneller als jedes andere Medium. Ein Vorteil, den sich zum Beispiel Diktiersysteme schon lange zu eigen machen. Wer als erfahrener Gestalter von Nutzerschnittstellen nun also meint, auch „Smart Voice“ gestalten zu können, der irrt jedoch. Denn die gesprochene Sprache und die damit verbunden Sinnesorgane funktionieren gegensätzlich und die bisher gelernten Regeln für die Nutzerkommunikation per Bildschirm verlieren damit ihre Verwendbarkeit. Die Gestaltung eines VUI ist eine gänzlich andere Sache und hat auch mit Chatbots nur bedingt Überschneidungen.

Stellen wir die Eigenschaften von Auge und Ohr ein wenig gegenüber. Dies gilt natürlich nur wenn die primäre Schaltzentrale (Gehirn) entsprechend normal arbeitet:

Auge:

  • Schnelle, fast parallele Informationsaufnahme
  • Erkennt Farben, Formen, Muster, Aufteilungen, Geschwindigkeit
  • Mag Wiederholungen, Harmonie
  • Visuelle Emotionen
  • Eher unbewusste Wahrnehmung
  • 217 Grad Wahrnehmung im Raum horizontal maximal
  • Hat Ausdauer

Ohr:

  • Langsame, serielle Informationsaufnahme
  • Erkennt Lautstärke, Betonungen, Pausen, Geschwindigkeit
  • Mag Variation,
  • Akustische Emotionen
  • Eher bewusste Wahrnehmung
  • 360 Grad Wahrnehmung im Raum in alle Richtungen
  • Langweilt sich schnell

Betrachtet man nur diese wenigen Unterscheidungsmerkmale, wird schnell klar, dass die Gestaltung eines Bildschirminhaltes mit der Gestaltung für das Ohr nur wenig bis gar nichts miteinander zu tun haben. Dieser Umstand ist dann auch die goldene Stunde für Geschichtenerzähler, Sprecher und Linguisten. Noch gibt es den VUI-Designer nicht, doch so wie der GUI-Designer (Graphical User Interface) für den Bildschirm zu einem Beruf wurde, so werden auch die digitalen Sprachassistenten neue Berufsbilder hervorbringen.

Das wohl typischste Problem bei der Gestaltung hin zur Stimme, ist wohl die Tatsache, dass es so etwas wie eine Hierarchie, wie zum Beispiel bei einem typischen Auswahlmenü, in der gesprochenen Sprache nicht gibt. In der gesprochenen Sprache befinden sich alle Navigationselemente auf der obersten und einzigen Ebene. Und alles was an Navigationssprüngen passieren kann, wird auch passieren. Für den Nutzer ist es dabei schwierig, den Kontext nicht zu verlieren.

Auch wenn die Spracherkennung schon recht gut funktioniert und teilweise schon in Echtzeit zwischen verschiedenen Sprachen erkennen und sogar übersetzen kann, so steht den Systemen der Sprachassistenten noch eine große Anzahl an Sprachen (ca. 6.500) und dessen Dialekten gegenüber. Sie alle wollen gelernt werden, um auch alle Menschen so persönlich wie nur möglich zu erreichen.

Die Entwicklungen der nächsten Jahre in diesem Segment sind deshalb mehr als spannend. Vor allem die der Intelligenz und Kontexterkennung der Systeme ist dabei die größte Herausforderung. Eine Aufgabe, für deren Entwicklung auch nur die größten Konzerne überhaupt Ressourcen haben. Bleiben wir also auch weiterhin am Ohr der Zeit und freuen uns über Neues rund um die quatschenden virtuellen Geister in unseren Geräten.

Dieser Artikel erschien zuerst auf unserem Partnerportal Marconomy.

* Robert C. Mendez ist Experte für digitale Sprachassistenten bei Internet of Voice in Köln.

Kommentare werden geladen....

Sie wollen diesen Beitrag kommentieren? Schreiben Sie uns hier

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45833044 / Cloud)