Flüstererkennung

Microsoft hat ein Patent unter dem Arbeitstitel „Silent Voice Input“ angemeldet. Worum es geht? Sprachsteuerungen haben das Problem, dass sich z. B. Leute im gleichen Raum gestört fühlen könnten. Die neue „Nichtspracherkennung“ versteht daher geflüsterte Befehle. Außerdem praktisch: Das Mithören wird erschwert.

Heimautomation mit Spracherkennung wie Siri, Cortana, Alexa & Co. verbreiten sich langsam aber stetig. Wie aller Fortschritt, kommt auch Sprachsteuerung mit der einen oder anderen Nebenwirkung daher. Die beiden Hauptaspekte sind die Störung unfreiwilliger Zuhörer und außerdem, dass andere Leute in Hörweite nolens volens überhaupt mitbekommen, was da für Befehle gegeben werden. Was zuhause vielleicht noch hingenommen wird, kann in öffentlicheren Situationen, am Arbeitsplatz und vielen anderen Anwendungsszenarien ernsthafte Probleme machen.

Silent Voice Input

Das Patent von Microsoft beschreibt nun ein Verfahren, indem eine Art spezielles Mikrofon direkt vor den Mund gehalten wird. Der Witz daran ist, dass diese Art der Spracherkennung eigentlich eine Flüstererkennung ist. Flüstert man die Befehle, so fühlt sich laut Microsoft niemand mehr gestört und die Privatsphäre bleibt zudem gewahrt. Genau genommen geht es nicht um normales Flüstern, sondern um eine Art „ingressiver Stimme“. Man flüstert hier beim Einatmen. Dadurch soll kein Umstehender etwas hören können.

Im Video einer Präsentation dieser Technik kann man sehen, dass eine Spracherkennung stattfindet, ohne dass man etwas hören kann. Vor- und nachher wird mit normaler Stimme gesprochen. Laut Microsoft verhindert das ingressive Sprechen eine Verzerrung der Stimme. Damit das funktioniert, muss man das Mikrofon sehr nahe am Mund halten. Es geht um einen Abstand von ein bis zwei Millimetern.

YouTube-Video: Demonstration der Spracherkennung beim ingressiven Sprechen.

Der geringe Abstand soll zudem den abgestrahlten Schall weiter reduzieren. Anwendungen wären z. B. intelligente Uhren, Telefone, Smartphones, Headset-Mikrofone und TV-Fernbedienung.

Brauchbar?

Alles schön und gut, aber ist diese Technik wirklich praktikabel? Würden Anwender es nicht unbequem finden, ihre Smartwatch oder ihr Smartphone so nahe an den Mund zu führen statt einfach frei in den Raum zu sprechen. Und ist es den Menschen wirklich zuzumuten, das ingressive Sprechen zu trainieren und anzuwenden? Probieren Sie es einmal – das fühlt sich zumindest ungewohnt an. Prinzipiell ist es sicher ein Fortschritt, wenn eine Spracherkennung auch leises Flüstern verdaut, aber eben auch, und nicht das Setzen auf eine spezielle Sprechtechnik.

Diesen Artikel bewerten

★ ★ ★ ★ ★