Auf den Smartphones und Computern, vor allem aber in den Wohnzimmern und Küchen ist ein Wettrennen der Sprachsysteme im Gange. Anstelle von Tastatur und Touchscreen werden wir – so die Hypothese – in Zukunft immer öfter unsere Stimme zur Kommunikation mit Geräten benutzen. Statt etwas zu googeln, eine Wetter-App zu öffnen oder einen Lichtschalter zu betätigen, werden wir sagen, was wir wollen. Die Antworten wiederum werden wir nicht auf einem Bildschirm lesen, wir werden sie hören.
Was nach einem banalen Unterschied oder einer Spielerei klingt (und längst nicht immer perfekt funktioniert), hat großes Potenzial. Voice, wie der Komplex Sprachsteuerung /Sprachverarbeitung genannt wird, könnte gemeinsam mit der sich gerade rapide entwickelnden sogenannten künstlichen Intelligenz (KI) das nächste große Ding der Digitalisierung werden. Nach dem Personal Computer, dem Browser-Internet und zuletzt den Smartphones. Kein Wunder also, dass bei diesem Wettrennen niemand von Rang und Namen fehlen will.
I. Der Startschuss
Warum die Dominanz bei Voice genau jetzt so umkämpft ist, hat einen einfachen Grund: Erst allmählich können die Rechner gesprochene Sprache gut genug verstehen. Und damit ist noch nicht einmal das Erfassen des Sinns gemeint, sondern das rein akustische Verstehen. Informatiker sprechen von „parsen“ und meinen damit die Umwandlung einer Eingabe in etwas, mit dem der Computer weiterarbeiten kann. 2012, Apple hatte kurz zuvor Siri vorgestellt, lag die Fehlerquote laut Experten noch bei rund einem Drittel. Sprachsteuerung galt deshalb lange als Gimmick: zu fehleranfällig für den Alltagsgebrauch.
„Sprache ist das, was den Menschen von allen anderen Lebewesen unterscheidet. Es ist eine verdammt harte Nuss“, sagt Xuedong Huang von Microsofts Forschungsabteilung für Spracherkennung. Er ist einer derjenigen, die daran arbeiten, die Fehlerquote auf inzwischen rund fünf Prozent zu drücken. „Damit ist Spracherkennung etwas Alltägliches geworden. Das war unsere ursprüngliche Vision“, sagt der Informatiker, der seit 1993 bei Microsoft arbeitet.
Nach dem akustischen Verstehen geht es um das Begreifen. Im selben Moment, in dem die Spracherkennung zuverlässig genug funktioniert, macht auch die künstliche Intelligenz große Fortschritte. Von einer starken KI (siehe brand eins 07/2016, „Der Golem und du“)*, die selbstständig Probleme löst, kann zwar nach wie vor keine Rede sein. Aber für einen brauchbaren Sprachassistenten reicht es ja erst mal, wenn er die Anweisung „verschiebe den Marketingtermin morgen um eine Stunde und benachrichtige Tom“ korrekt erfassen und seine Bedeutung entschlüsseln kann.
„Als wir vor fünf Jahren anfingen, über einen digitalen Assistenten nachzudenken, haben wir Menschen beobachtet und befragt, die selbst als Assistenten arbeiten“, erklärt Marcus Ash, Leiter von Microsofts Cortana-Team, dem laut eigenen Angaben mehrere Hundert Mitarbeiter angehören. „Dabei hat sich gezeigt, dass sie proaktiv sind und sich merken, was ihre Gesprächspartner schätzen. Sie machen sich dazu Notizen.“ Seine Gruppe feilt deshalb daran, dass Cortana auch Bezüge zum persönlichen Kalender herstellen oder ein Skype-Telefonat mit einem Kontakt aus dem Adressbuch mittels Sprachkommando initiieren kann.
Weiterlesen auf brandeins.de …
Text: Steffan Heuer & Christoph Koch