Sprachsteuerung in der digitalen Welt

Die Präsenz von Geräten wie Amazons Alexa oder Googles Assistant in so vielen Haushalten auf der ganzen Welt zeigt eines deutlich: Das Zeitalter der VUIs ist angebrochen. VUI steht für Voice User Interface und bedeutet einfach, dass der Benutzer per Sprache mit einem Dienst interagiert. Nun könnte man denken, dass Sprachsteuerung nichts Neues ist. Sprachsteuerung gibt es an sich schon seit geraumer Zeit. Früher nutzte man diese, um das gesprochene Wort in Text umzusetzen (Speech-To-Text), oder um einfache Befehle an den Computer abzusetzen.

Wer erinnert sich an Naturally Speaking von Dragon? Damals mussten Benutzer bestimmte Befehle auswendig lernen, um richtig mit der Software arbeiten zu können. Der Mensch musste regelrecht lernen, wie er mit dem Programm zu sprechen hat. Die Spracherkennung war an die Funktionen eines Desktop-PCs gebunden. Es ließen sich Programme öffnen oder Texte in Word diktieren. Aber die Benutzung war voller Tücken. Füllwörter oder „Äh“ und „Öh“, Hintergrundgeräusche und bereits kleine Abweichungen vom vorgegebenen Befehlsschema sorgten für unerkannte Sätze oder falsche Ausführungen. Fast forward: Heute ist die Ära der künstlichen Intelligenz und cloudbasierter Dienste angebrochen, und die alte Spracherkennung hat sich zu intelligenten Sprachassistenten weiterentwickelt. Was können heutige Sprachassistenten besser als die alte Spracherkennung? Kurz gesagt ist es die Fähigkeit, eine intelligente Unterhaltung zu führen, die sich anfühlt, als würde ein Mensch mit einem sprechen.

Dialoge führen mit heutigen Sprach-Assistenten

Heutige VUI können Dialoge führen, anstatt nur simple Befehle entgegen zu nehmen. So wird bspw. bei fehlenden Informationen einfach eine Rückfrage an den Benutzer gerichtet, anstatt einfach gleich die ganze Anweisung zurückzuweisen. Heutige Assistenten kennen auch mehr Kontext. So werden bspw. aufeinander folgende Anweisungen auch aufeinander bezogen. Wenn sich der Benutzer zunächst eine Liste von verfügbaren Pizzabäcker in der Gegend aufsagen lässt, kann er im Anschluss sagen „bestell beim zweiten“, und das VUI weiß, welcher Pizzabäcker gemeint ist.

Ebenso bilden andere Dienste Informationsquellen. Wer seinen Online-Kalender mit dem VUI verbunden hat, könnte auch nach seinem „5-Uhr-Termin“ fragen, und das VUI würde Ort, Teilnehmer und Thema des Termins nennen können. Die Aufforderung, den Termin auf den nächsten Tag um 11:00 zu verschieben, setzt das VUI dann auch um. Das Internet of Everything und Webdienste machen’s möglich.

Künstliche Intelligenz ist die digitale Zukunft

Künstliche Intelligenz übernimmt heutzutage einen wichtigen Part bei der Erkennung des Benutzerwunsches. Füllwörter oder Dialekte machen nur noch wenige Umstände, und die Erkennung der Bedeutung eines Satzes auch bei unterschiedlicher Satzstellung und Sprechweise ist weitergekommen. Da VUIs auch Webdienste sind, und Entwickler inzwischen bspw. auf Amazons Alexa eigene „Skills“ entwickeln können, können VUIs einfach an den eigenen Webdienst angebunden werden. So wird die Pizza-Bestellung nach Aufgabe durch den Benutzer an das Backend des Pizzabäckers rausgeschickt.

VUIs und auch ihre stummen Verwandten, die Chatbots, werden inzwischen auch im Kundenservice eingesetzt. Die Kombination mit realer menschlicher Intelligenz kann hier einen echten Mehrwert schaffen. So nehmen Bots erste Anfragen entgegen und beantworten einfache Fragen. Wenn es zu kompliziert wird, übernimmt der Mensch. Durch ein Handover des bereits geführten Dialogs kann der menschliche Helfer schnell weiterhelfen, anstatt zunächst einmal alles neu erfragen zu müssen.

Lesen Sie im nächsten Teil, was Alexa in der Smart Factory leisten kann.