Multimodal, Contextual Dialog Management for Natural Speech in Car Environments

Autor:
Scheja, Christian; Ablassmeier, Markus; McGlaun, Gregor and Gerhard Rigoll
Aufsatztitel:
Multimodal, Contextual Dialog Management for Natural Speech in Car Environments

Jahrgang:
29
Heft:
02 (2005)
Seiten:
87-106
Abstract:
This paper focuses on an efficient and robust approach to multimodal dialog management which is implemented in a framework for the automotive environment. A dedicated dialog manager for driver’s interaction with infotainment and communication systems as well as driver assistance systems has been developed and tested. The dialog manager facilitates multimodal interaction, i.e. it allows for an efficient integration and combination of natural speech and classical tactile input. The main aim of the dialog manager is to provide flexible and user-centered speech dialogs and to support different interfaces, like buttons or turning knobs. For the dialog control, a frame-based approach is used. The dialog description is realized in XML which allows for a simple overview over the dialog structure. For speech output, a synthetic text-to-speech engine is used. Visual output is displayed on several screens in the car. The usability evaluation shows an improvement of effectiveness, a higher joy of use through the possibility of submitting several pieces of information in only one dialog step with natural speech comparing to a menu-based spoken dialog. The test persons rated this way of frame-based interaction as comfortable and important.

Dieser Beitrag stellt einen effizienten und robusten Ansatz des multimodalen Dialogmanagements im automobilen Umfeld vor. Es wurde ein Dialogmanager entwickelt und evaluiert, der sowohl für Informations- und Kommunikationssysteme als auch für Fahrerassistenzsysteme genutzt werden kann. Dieser ermöglicht multimodale Bedienung auf Intentionsebene. In der aktuellen Version werden natürliche Sprache und taktile
Eingaben genutzt. Der Dialogmanager wird genutzt, um ein bestehendes Framework um flexible und
nutzer-zentrierte, kontextadaptive, natürlichsprachliche Dialoge zu erweitern. Zur Dialogkontrolle wurde der Frame-basierte Ansatz gewählt. Die Dialogdefinition erfolgt in XML in einem auf die Automobildomäne zugeschnittenen Format. Sprachausgaben wurden von einem TTS-Server synthetisiert. Es wurden
daneben mehrere im Auto verbaute Displays angesteuert. In einer Usability-Studie zeigte sich bei den Teilnehmern eine erhöhte Effektivität und Bedienfreude durch die im Frame-basierten Ansatz gegebene Möglichkeit, eine beliebige Anzahl von Informationen in einem Bedienschritt einzugeben. Dies wurde als sehr komfortabel und wichtig bewertet.

Zurück