#bldwin: Voice Interaction Design

Meg Niman (Senior UX Designer Bing) und Jay Waltmunson (Senior PM Microsoft) sind in ihrem Vortrag auf die Interaktionsmöglichkeiten mittels Sprache eingegangen, die Bing bietet.

Zuerst haben sie sich mit der Frage beschäftigt “Wann ist Sprachinteraktion sinnvoll?”. Dies hängt – wie alles bei der Gestaltung von User Interfaces – stark vom Kontext ab. Sinnvoll ist es beispielsweise, in Situationen, wenn beide Hände in Gebrauch sind oder wenn Sprechen einfacher bzw. schneller ist als Touchen bzw. Tastatureingaben.

Auf der anderen Seite ist Sprachinteraktion nicht sinnvoll, wenn präzise Kontrolle notwendig ist, die Aussprache von bestimmten Worten nicht eindeutig klar ist, die Umgebung für Spracheingaben nicht geeignet ist bzw. der Anwender aus Gründen der Privatsphäre nicht laut mit dem Phone sprechen möchte.

Für die Gestaltung von Sprachinteraktionen haben sie ein Speech Interaction Framework vorgestellt. Dieses hilft z.B. bei der Identifikation der notwendigen Schritte einer Sprachinteraktion oder bei der Auswahl der richtigen Gestaltung einer Sprachinteraktion.

WP_20130627_037

Darüberhinaus haben sie einige Beispiele für Apps mit Sprachinteraktionen gezeigt und ein paar Überlegungen zur Konzeption und Entwicklung von Sprachinteraktionen angesprochen:

  • Sprachinteraktionen sind fehleranfälliger als andere Eingabeformen. Bei der Gestaltung von Sprachinteraktionen ist es daher besonders wichtig die zahlreichen Fehlersituationen zu berücksichtigen, die auftreten können.
  • Sprache ist noch keine etablierte Interaktionsform. Anwender müssen in der App explizit darauf hingewiesen und herangeführt werden.
  • Sprachinteraktionen sind auch in den passenden Kontexten nicht für alle Use Cases geeignet. Beispielsweise macht es wenig Sinn mittels Sprache aus Listen mit mehreren tausend Einträgen auswählen zu wollen.
  • Außerdem:

WP_20130627_038

Nebenbei haben sie einen mir bis dato unbekannten Namen für die Situation verwendet, wenn eine Sprachinteraktion fehlschlägt und der Anwender zu einer anderen Interaktionsform wechseln muss. Sie nennen diese Situation “voice cliff”.

Ich muss sagen, es ist schon sehr beeindruckend, in welcher Qualität mittlerweile Spracheingaben und -ausgaben möglich sind. Allerdings sind die Spracheingabe-Systeme, die ich bisher probiert habe, noch nicht so fehlertolerant, dass ich sie in den angeführten Situationen einer Touchinteraktion vorziehe.

War dieser Artikel hilfreich für Dich?

Nach oben scrollen