Spracheingabe ist die einfachste Mensch-Maschine-Schnittstelle. Das ergab der „Spitch-Report: Sprachsysteme“, den die Schweizer Spitch AG erarbeitet hat. Touchscreen, Computermaus und Tastatur folgen mit deutlichem Abstand. Die Sprachtechnologie hat sich in den letzten zwei bis drei Jahren erheblich verbessert.

Das Sprechen mit Computern ist die natürlichste Mensch-Maschine-Schnittstelle – so lautet eine Schlüsselerkenntnis der Studie „Spitch-Report: Sprachsysteme“, den die Schweizer Spitch AG vorgestellt hat. Dem Report liegt eine Umfrage unter 100 Computerexperten zugrunde. 65 Prozent davon stufen Sprache als die mit Abstand natürlichste Umgangsform mit modernen Computern ein.

37 Prozent (Mehrfachnennungen waren erlaubt) halten hingegen den Touchscreen, wie man ihn vom Smartphone kennt, für überlegen. 28 Prozent vertrauen fest auf die vor gut 35 Jahren erfundene Computermaus, 26 Prozent setzen eindeutig auf die Tastatur, deren Wurzeln bis in das 19. Jahrhundert zurückreichen.

Bernd Martin, verantwortlich für das Deutschlandgeschäft von Spitch, erklärt: „Es gibt einen guten Grund, warum wir Menschen meistens über Sprache miteinander kommunizieren – weil es am einfachsten ist. Dennoch schreiben wir uns auch häufig Nachrichten. Ähnlich hängt es bei der Mensch-Maschine-Schnittstelle vom jeweiligen Einsatzgebiet ab, was am besten ist. Auf einem Smartphone Screen kann man gut lesen, Bilder und Videos ansehen, aber für die Eingabe ist das Sprechen hundertmal komfortabler als das Tippen auf dem kleinen Schirm, selbst für flinke Finger. Auch die PC-Tastatur lässt sich leicht durch eine gute Spracherkennung ersetzen; hierbei spielt eher die Gewohnheit eine große Rolle.“

Bei vielen Anwendungen arbeiten Sprachsysteme schon zufriedenstellend

Entscheidend für die Akzeptanz der Spracheingaben ist – wenig überraschend – die Spracherkennung. So geben sich 85 Prozent der von Spitch befragten Experten zuversichtlich, dass die Schwierigkeiten der korrekten Erkennung der Sprache auch bei schwierigen Sprechern allmählich durch die Weiterentwicklung der Technologie gelöst werden. Immerhin 55 Prozent der Fachleute sind fest überzeugt, dass es den Systemen künftig ebenso möglich sein wird, die Zusammenhänge im Dialog immer besser zu verstehen und dementsprechend zu reagieren.

Bernd Martin erklärt: „Wir Menschen fangen Sätze an, brechen ab, beenden sie gar nicht oder völlig anders. Wir reden in Halbsätzen, Stichworten und beziehen uns in der Regel direkt oder indirekt auf bereits Gesagtes. Die Herausforderung besteht darin, dass die Maschine selbst aus mehr oder minder gestammelten Halbsätzen Sinnzusammenhänge erkennt und sie richtig einordnen kann oder mit passenden Rückfragen herausfinden kann, was gemeint und damit was zu tun ist. Es wird noch Jahre dauern, bis man sich mit Computersystemen so zwanglos wie mit einem Menschen unterhalten kann. Aber bis dahin gibt es eine Vielzahl von Einsatzgebieten, in denen Sprachsysteme heute schon mit einer sehr hohen Zufriedenheitsrate funktionieren kann.“

Erkennungsrate wird immer besser

Mittlerweile liegt die Erkennungsrate der Wörter in Deutsch als auch in der englischen Sprache bei über 90 Prozent. Dies bedeutet, dass im Grundsatz über 90 Prozent der eingesprochenen Worte erkannt werden. Technologie bestimmt hier somit weiterhin den Weg der Spracherkennung. Je schneller die Technologie verbessert, optimiert und angepasst wird an die Menschen, desto schneller kann man auch mit fortgeschritteneren Applikationen rechnen. Wann mit einer 100 prozentigen Erkennungsrate gerechnet werden kann, ist aber noch unklar.

Der Touchscreen, wie man ihn heute nicht nur in jedem Smartphone, sondern auch in immer mehr Autos, Automaten und industriellen Steuerungssystemen findet, erhält in der Spitch-Umfrage eine zweigeteilte Bewertung. 48 Prozent meinen, dass der berührungsempfindliche Bildschirm durchaus eine gute Mensch-Maschine-Schnittstelle darstellt. Aber nur 37 Prozent stufen ihn als ebenso natürlich wie die gesprochene Sprache ein, die bei 65 Prozent Zustimmung findet.

Alternativen: Touchscreens, AR-Brillen und Eye Tracking

Neben der Spracherkennung gibt es zum Touchscreen noch weitere Alternativen im HMI-Bereich (HMI = Human-Machine-Interface). Soll beispielsweise die Position genauer ausgewertet werden, kommen Kameras zum Einsatz, die zum Beispiel den Händen des Bedieners folgen. Die Perfektion in Auflösung der Position bieten die Steuergeräte für AR/VR Brillen, die im System eine feinfühlige Steuerung erlauben.

Einen anderen Ansatz verfolgt das „Eye Tracking“. Nach einer kurzen Lernphase ist das System in der Lage, die Pupillen des Bedieners mit Hilfe von Kameras zu verfolgen. Der „Mausklick“ erfolgt durch Blinzeln. Nach einer Eingewöhnung kann der Bediener ohne den Einsatz der Hände das System bedienen. Anwendungen sind überall dort, wo die Hände gerade nicht frei sind oder steril bleiben müssen. „DeformWear“ nennt Prof. Dr. Jürgen Steimle, der an der Universität des Saarlandes im Bereich Mensch-Maschine-Interaktion forscht, dieses Konzept.

DeformWear: Verformbare Sensoren als HMI

Doch nicht nur Lagerarbeiter und Maschinenführer könnten die Eingabeschnittstellen verwenden, die wie ein Pflaster auf der Haut angebracht sind. „Bei Mobilgeräten wie etwa der Smartwatch sind die interaktiven Bildschirme so klein, dass man mit der einzelnen Berührung nur wenige Steuerungsbefehle auslösen kann“, erklärt Steimle.

Der Wissenschaftler ist überzeugt: „Wenn für die Eingaben nur ein winziger Sensor verformt werden muss, können Geräte an Körperstellen getragen werden, über die eine schnelle und unauffällige Bedienung möglich ist. Dies wird der Industrie dabei helfen, noch kleinere Steuergeräte auf den Markt zu bringen.“

Autor: Jürgen Schreier

(c)2020
Vogel Communications Group

Bitte beachten Sie

Die Beiträge in der Rubrik "Trends und Innovationen" sind Inhalte unseres Medienpartners Vogel Communications Group GmbH & Co. KG. Sie spiegeln nicht unbedingt die Meinung von DATEV wider.

Vogel Communications Group