Wie Cortana, Siri und Google Now das Sprechen lernen

Unfassbar !15
Cortana Siri Google Now
Cortana Siri Google Now(© 2014 CURVED)

An Dialogsystemen tüfteln Computerlinguisten schon seit mehr als zwei Jahrzehnten. Mit Apples Siri ist Sprachassistenz alltagstauglich geworden. Mit Microsofts Cortana bekommt die Entwicklung nochmal neuen Schwung. Was die Anwender nicht sehen: In den digitalen Assistenten steckt eine gewaltige Forschungs- und Rechenleistung.

"Computer!" – Man muss kein ausgewiesener Trekkie sein, um zu wissen, dass auf dem Raumschiff Enterprise mit diesem Befehl eine Verbindung zu dem sprachgestützten Dialogsystem des Raumschiffes hergestellt wurde. In der Vision des Startrek-Schöpfers und Filmproduzenten Gene Roddenberry war es ganz normal, dass Computer in der Lage sind, nahezu sämtliche Fragen der Crew präzise und emotionslos zu beantworten.

Und wie sieht’s in unserem Alltag aus? Seit den 1990er Jahren hat sich die Technologie langsam in eine Richtung entwickelt, die es uns möglich macht, sprachbasiert mit Computern zu kommunizieren. Eine E-Mail verfassen, Termine ändern, Restaurants suchen oder die Helligkeit des Bildschirms anpassen lässt sich heute mit einem Fingertipp auf unseren Smartphones in die Wege leiten. Es folgen ein auffordernder Signalton und ein Bildschirmhinweis. Der Anwender spricht. Der digitale Assistent namens Siri, Cortana oder Google Now hört zu, antwortet und bearbeitet die Anfragen.

Voder und die frühen Jahre

Was so einfach und selbstverständlich klingt, hat eine lange Entwicklungsgeschichte hinter sich. Bereits 30 Jahre vor Star Trek und bevor Stanley Kubrick in „2001: Odyssee im Weltraum“ die dystopische Vision des redegewandten und eigensinnigen Computers HAL 9000 verfilmte, entwickelte der Ingenieur Homer Dudley eine Maschine zur künstlichen Erzeugung menschlicher Sprache – den sogenannten Voder. Die ersten Versuche, Sprache zu synthetisieren, reichen sogar noch weiter zurück. So wurde im Jahr 1840 eine Sprachmaschine in Wien vorgestellt, und bereits in der zweiten Hälfte des 18. Jahrhunderts war in Dänemark mit Orgelpfeifen experimentiert worden.

Ärzte beispielsweise nutzen seit Jahrzehnten Diktiersysteme zur Erstellung von Krankenakten, und maschinelle Gesprächspartner bei Telefon-Hotlines sind uns seit Langem bekannt. Gut funktionierende Dialogsysteme seien bereits vor Siri und Co. entwickelt worden, schreibt der Forscher und Ingenieur Roberto Pieraccini in seinem im Jahr 2012 erschienenen Buch „The Voice In The Machine. Building Computers That Understand Speech“.

Siri machte Sprachassistenz für alle zugängig

Ein technologischer Durchbruch ist Apple mit dem Kauf des Unternehmens Siri Inc. im Jahr 2010 – bereits kurz nachdem Siri als App vorgestellt wurde – und der Expertise des weltweit führenden Sprachtechnologie-Unternehmens Nuance demnach gar nicht gelungen – jedoch ein ökonomischer und sozialer: Digitale Sprachassistenz ist seither schick wie alltagstauglich und wird von einem großen Anwenderkreis begeistert genutzt. Dieses Interesse an der Technologie habe es in der Geschichte der Computerlinguistik bis dahin nicht gegeben, so Pieraccini.

Die Zeit war reif. Apple hatte den perfekten Zeitpunkt abgepasst. Die starke Zunahme von Mobilkommunikation, der Zuwachs an Rechenleistung, die Möglichkeiten der Cloud und der Fortschritt im Bereich künstliche Intelligenz boten die besten Voraussetzungen. So dauerte es auch nicht lange, bis andere große IT-Konzerne mit eigenen Dialogsystemen nachzogen.

Siri auf dem iPhone 5c

Apple integrierte Siri im Jahr 2011 in sein mobiles Betriebssystem iOS 5. Im Jahr darauf stellte Samsung seine geräteinterne Anwendung namens S Voice für die Smartphone-Reihe Galaxy vor und der Suchmaschinenriese Google präsentierte Google Now für Android. Aktuell setzt Microsoft mit Cortana neue Maßstäbe.

Das nach der künstlichen Intelligenz des Videospiels Halo benannte Dialogsystem Cortana arbeitet auf Grundlage der Suchmaschine Bing und Microsofts eigenem Wissensprozessor namens Satori. Die Sprachkompetenz des Dialogsystems stammt vom Unternehmen Tellme, das Microsoft 2007 für circa 800 Millionen US-Dollar erworben hat.

Cortana soll in den USA, Großbritannien und China offiziell Ende des Jahres und in Deutschland sowie weiteren Ländern dann 2015 für Smartphones mit Windows-Betriebssystem erhältlich sein. Im Gegensatz zu Siri ist Cortana als offenes System geplant, das Drittanbietern eine Integration der Sprachsteuerung in deren Anwendungen ermöglicht. Die Nutzer können Cortana laut Microsoft sowohl über Sprach- als auch über Texteingaben bedienen und manuell auf ihre individuellen Bedürfnisse einstellen.

Im sogenannten Notebook von Cortana lassen sich Einstellungen, wie Interessen, Erinnerungen, Ruhephasen, Orte oder Freunde verwalten. Anwendern ist es auf Wunsch auch möglich, Cortana „Einblick“ in die eigene schriftliche Kommunikation, beispielsweise E-Mails auf dem Smartphone zu geben. Das gesammelte Wissen könne die Software nutzen, um den Smartphone-Besitzer maßgeschneiderten Service zu bieten, erklärte Joe Belfiore während seiner Präsentation bei der Microsoft Build Developer Conference 2014.

Wort für Wort lernt Software das Sprechen

Zur Einführung von iOS 7 stattete Apple das Programm Siri mit weiteren Kompetenzen und zwei neuen Stimmen aus. Welcher Sprecher und welche Sprecherin sich dahinter verbergen, ist bislang nicht bekannt. Man weiß aber von der Düsseldorferin Heike Hagen, die den Programmen Siri für iOS 6 und Anna für OS X ihre Stimme geliehen hat, dass die Sprachaufnahmen sehr aufwendig sind. Hagen hatte über viele Wochen täglich mehrere Stunden Text eingesprochen.

Dabei ist es unmöglich, alle denkbaren Wortkombinationen oder Flexionen einer Sprache aufzunehmen. Das eingesprochene Material wird vielmehr in Einzelteile – sogenannte Phoneme – zerlegt, die dann bei der Sprachsynthese wieder zu Wörtern zusammengesetzt werden. Die Sprachassistenz wählt dazu im besten Fall genau die Silben und Laute aus, die der Intonation des Wortes am ehesten entsprechen.

Hallo, Cortana!

Doch bereits vor der Sprachsynthese, also bevor Cortana, Siri oder Google Now mit uns sprechen, laufen komplexe Prozesse ab. Dialogsysteme bestehen aus verschiedenen Modulen. Sie regeln die Spracherkennung, das Verstehen und das Generieren von Antworten sowie die Sprachsynthese. Die gesprochenen Eingaben können bislang nicht direkt im Smartphone verarbeitet werden. Es sind riesige Rechenzentren wie die Serverfarm von Apples iCloud in North Carolina oder von Google in Oregon notwendig, um so große Datenmengen und deren Aufbereitung und Berechnung zu bewältigen.

Das System mit Texten füttern

Allein das, was unsere Ohren und unser Gehirn praktisch nebenbei erledigen, ist für den jeweiligen digitalen Assistenten eine große Herausforderung. Alexander Koller, Professor für Theoretische Computerlinguistik, vergleicht den komplexen Prozess in seiner Kolumne im Culturmag mit einer Möbelmontage unter erschwerten Bedingungen: „Spracherkennung ist für einen Computer so, wie einen Ikea-Schrank zusammenzubauen – nur dass der Computer die Augen verbunden bekommt, die einzelnen Bauteile durch Ertasten erkennen soll und keine Bauanleitung lesen darf, sondern irgendwie erraten muss, was wo hingehört.“

Der Computer tut dies aber selbstverständlich nicht von selbst. Computerlinguisten trainieren die Maschine darauf. Dazu benötigen sie zunächst einmal sehr viele Texte. Hörbücher oder Filmsynchronisationen würden dafür intelligent genutzt, erklärt Reinhard Karger vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI).

Versteht auch Sprache: Google Now

Diese Quellen liegen idealerweise sowohl in gesprochener als auch geschriebener Sprache vor. Um dem Computer das Hören beizubringen, werden daraus einerseits akustische Muster gewonnen. Andererseits entwickeln Spezialisten aus den Texten Sprachmodelle, die vorhersagen, wie wahrscheinlich ein Wort auf das nächste folgt. Was für uns das Trommelfell ist, ist für den digitalen Assistenten ein verzweigtes Netz aus statistischen Berechnungen und Modellen.

Damit die Software die Stimmen der Anwender auch bei Straßenlärm oder im Auto bei Fahrgeräuschen optimal „versteht“, müssen die Forscher sogar noch einen Schritt weiter gehen. Sie müssten zusätzlich verschiedene Hintergrundgeräusche identifizieren, um sie anschließend von den Lautmustern der Spracherkennung zu subtrahieren, beschreibt Karger das Vorgehen.

Verstanden?

Sind all diese Aufgaben gemeistert, hat der digitale Assistent zunächst einmal aber nur zugehört und transkribiert, jedoch noch nichts kapiert. „Die gesprochenen Eingaben erscheinen als Text, der Computer versteht bis dahin exakt genauso viel oder wenig wie Word“, so Karger. Nun geht es daran, den Text zu analysieren, um zu verstehen, also den Sinn der Nutzeranfrage auszumachen.

Auch das ist gar nicht so einfach. Ein Problem sind dabei zum Beispiel sprachliche Mehrdeutigkeiten. Im Gegensatz zu Menschen können Computer nicht bereits an der Satzmelodie – also verschiedenartigen Betonungen und Pausen – die feinen Unterschiede erkennen. Sie müssen alle möglichen Lesarten des Textes berücksichtigen und abarbeiten.

Anhand von sogenannter Informations- oder Beziehungsextraktion ordnet der digitale Assistent dann die Mitteilung zu. Er tastet sich dabei über das Auffinden von Schlagworten und deren Verknüpfungen langsam heran, was der Nutzer gemeint haben könnte. Hat der digitale Assistent eine thematische Domäne und den konkreten Wunsch des Sprechers erkannt, muss eine adäquate Reaktion gefunden werden. Die Reaktion kann beispielsweise die Auswahl einer treffenden Antwort aus einer vordefinierten Liste sein oder die Ausführung eines bestimmten Befehls. Der digitale Assistent erzählt dann beispielsweise einen Witz oder führt eine maschinelle Informationsabfrage bei Wikipedia oder beim Wetterdienst aus, die er dann vorliest oder anzeigt.

Wir machen es Siri und Co. sehr leicht

„Man muss hierfür gar nicht das Hexenwerk von Morphologie, Syntax und Pragmatik auffahren“, erklärt Karger die Verstehensleistung des Computers. Viel wichtiger für einen digitalen Assistenten zum Alltagsgebrauch ist die Arbeit von Dialogdesignern. Linguisten und auch Psychologen testen in Experimenten sehr genau, was die Menschen eigentlich interessiert. Sie registrieren dabei, welche Anfragen und Aufgaben Nutzer hauptsächlich an die Sprachassistenz dirigieren, und richten das System entsprechend daran aus. Außerdem wird im Anschluss auch geprüft, welche Antworten bei den Nutzern besonders gut ankommen, prägnant und unterhaltend wirken.

Wenig überraschend ist die Einsicht: Wir machen es den Maschinen eigentlich ziemlich leicht, da wir letztlich mit einem überschaubaren Vokabular doch kaum mehr als über das Wetter plaudern. „Die Anfragen an Siri haben nicht die Variantenbreite, die man erwarten könnte – gegeben den Reichtum des menschlichen Sprachvermögens", resümiert  Karger das Nutzerverhalten. Gerade weil wir uns so verhalten, können Sprachassistenten auch ein breites Spektrum an Leistungen erbringen, ohne dass die Systeme wirklich gefordert wären.

„Sprache ist unsere finale Rache an der Maschine“

Dass digitale Smartphone-Assistenten hinter den technischen Möglichkeiten zurückbleiben, lässt Karger jedoch so nicht gelten. Er verweist darauf, dass die Systeme, wie wir sie in unserem Alltag nutzen, als Paket funktionieren müssen. Wir sollten dabei vor allem nicht vergessen, wie komplex menschliche Sprache eigentlich ist und wie leicht uns Hören, Verstehen und Sprechen fällt. Während uns beim Turnier gegen den Schachcomputer die Köpfe rauchten, gäben wir digitalen Assistenten wie selbstverständlich im Vorbeigehen neue Aufträge. Viele Menschen hätten zwar den Eindruck, Maschinen könnten immer alles viel besser. Aber „Sprache ist unsere finale Rache an der Maschine“, schmunzelt Karger. Menschen „haben eine geniale Begabung für Sprachproduktion und -verständnis, deren maschinelle Simulation Fortschritte macht, aber eben noch weit von unseren Möglichkeiten entfernt ist. Es muss noch viel geleistet werden, um die Erkenntnistiefe der menschlichen Sprachverarbeitung und Sprachproduktion zu erhöhen.“

Was bringt die Zukunft?

Die großen Player haben diese Herausforderung längst angenommen. Apple, Google und Microsoft arbeiten unter Hochdruck daran, die Leistungen ihrer Sprachassistenten zu verbessern oder auszuweiten. Mit der Übernahme der kleineren Firma Novauris, einem Spezialisten für Spracherkennung, könnte Apple nun einen Schritt in Richtung Offline-Siri gegangen sein. Das Unternehmen aus Cupertino will die Rechenleistung nicht mehr auf die externen Server auslagern, sondern die Verarbeitung der Befehle direkt auf dem iPhone erbringen. Wie das gelingen kann, ist abzuwarten. Vor dem Hintergrund der riesigen Rechenleistung, die Dialogsysteme erfordern, gleicht diese Unternehmung jedenfalls einer Herkulesaufgabe.

Außerdem arbeitet Apple an der weiteren Einbindung des Programms in den Alltag und veröffentlichte kürzlich einen Patentantrag für ein Smart Dock, das über Spracherkennung bedient werden kann. An die neuartige Dockingstation sollen sich verschiedene Geräte anschließen lassen. Während Siri auf dem Smartphone für jede neue Anfrage erst mit Knopfdruck aktiviert werden muss, soll das Smart Dock allein auf gesprochene Kommandos hören.

Google weitet Medienberichten zufolge die Assistenzfunktion von Google Now auf weitere Apps aus, sodass die Nutzer über Spracheingabe die Möglichkeit haben, nach Stichworten zu suchen oder den in einer E-Mail verabredeten Termin umgehend in den Kalender einzutragen.

Außerdem ist davon auszugehen, dass sich in den kommenden Jahren die biometrische Stimmerkennung etabliert. Das Sprachtechnologieunternehmen Nuance bieten seinen Kunden, etwa Kreditinstituten bereits gut funktionierende Lösungen zur Sprachauthentifizierung. So können Bankkunden ihren Kontostand unkompliziert und schnell telefonisch abfragen, ohne sich einen PIN-Code zu merken. Allein der unverwechselbare Klang unserer Stimmen ist dann der Schlüssel zum System. Die digitalen Assistenten reagieren in Zukunft vielleicht nur noch auf ihre individuellen Nutzer.

Obgleich die Entwicklung von Dialogsystemen darauf abzielt, Sprachassistenz so nah wie möglich an menschlicher Kommunikation auszurichten, verwechseln wir Siri und Co. bislang eher nicht mit menschlichen Gesprächspartnern. Wie sich die noch nüchterne Beziehung mit dem Fortschritt der Technologie verändern könnte, lässt sich aktuell zumindest im Kino erleben. Der Regisseur Spike Jonze zeichnet in seinem Film "Her" ein sehr inniges Verhältnis zwischen einem alleinstehenden Mann, gespielt von Joaquín Phoenix, und dessen Smartphone-Assistentin Samantha.


Weitere Artikel zum Thema
Onli­ne­zwang für "Super Mario Run": Darum soll es keinen Offli­ne­mo­dus geben
Marco Engelien1
"Super Mario Run" setzt eine aktive Internetverbindung voraus.
"Super Mario Run" unterwegs in der Bahn oder im Flugzeug zocken? Das wird wohl nichts. Das Spiel setzt brauchen eine aktive Internetverbindung voraus.
Samsung arbei­tet an zwei falt­ba­ren Smart­pho­nes – Release schon Anfang 2017?
Michael Keller1
Unfassbar !5So wie in Apples Patent könnte auch das faltbare Gerät von Samsung aussehen
Samsung soll an zwei faltbaren Smartphones arbeiten. Eines der Geräte könnte schon zu Beginn des kommenden Jahres vorgestellt werden.
"Galaxy on Fire 3 Manti­core" für iOS erschie­nen – kosten­los und ab iPhone 6
In Galaxy on Fire 3 übernehmt Ihr die Kontrolle über einen Kopfgeldjäger
"Galaxy on Fire 3 - Manticore" ist da: Der mittlerweile dritte Ableger des Weltraumshooters führt Euch zurück ins Cockpit eines Raumschiffes.