Ein Voice User Interface (VUI) ist eine Schnittstelle, bei der Nutzer per gesprochener Sprache mit einem System interagieren. Statt Buttons zu tippen oder Menüs zu durchklicken, formulieren sie ihre Absicht in einem Satz. Bekannte Beispiele sind Siri, Alexa, Google Assistant, aber auch Voice-Bots im Kundenservice oder Sprachsteuerungen im Auto.
Ein VUI besteht technisch aus mehreren Schichten. Die Spracherkennung (Speech-to-Text) wandelt Audio in Text um. Das Natural Language Understanding interpretiert Absicht und Kontext. Die Dialog-Logik wählt die passende Reaktion. Eine Sprachsynthese (Text-to-Speech) gibt die Antwort als Audio zurück. Moderne VUIs nutzen große Sprachmodelle, um auch unscharfe oder umgangssprachliche Eingaben zuverlässig zu verstehen.
Gutes VUI-Design folgt eigenen Regeln. Antworten müssen kurz sein, weil der Nutzer keinen Bildschirm-Skim hat. Fehlerwege brauchen klare Fallbacks („Das habe ich nicht verstanden, sag bitte…"). Visuelles Feedback ergänzt sinnvoll, wenn ein Display vorhanden ist. Wer ein VUI baut, sollte früh mit echten Nutzern testen, weil Sprache stark von der erwarteten Stimmung des Produkts und vom Kontext der Nutzung abhängt.