Please use this identifier to cite or link to this item: http://dx.doi.org/10.25673/34419
Title: Accessing the interlocutor : recognition of interaction-related interlocutor states in multiple modalities
Author(s): Egorow, Olga
Referee(s): Wendemuth, Andreas
Diedrich, Christian
Issue Date: 2020
Extent: I, xv, 143 Seiten
Type: HochschulschriftLook up in the Integrated Authority File of the German National Library
Type: PhDThesis
Exam Date: 2020
Language: English
URN: urn:nbn:de:gbv:ma9:1-1981185920-346153
Subjects: Technik in Beziehung zu anderen Gebieten
Abstract: The research in the field of human-computer interaction aims at enabling technical systems to interact with humans in the same way that humans do among themselves. One aspect of natural human interaction is implicitly communicating the internal state, such as the current emotions, using voice, gestures and facial expressions. Gaining access to this information is one of the central topics addressed in affective computing. This thesis focuses on the automatic recognition of three internal interlocutor states highly relevant for the domain of human-computer interaction – namely trouble, satisfaction and cooperativeness – using different interlocutor signals, such as speech or acoustic signals, physiological signals and spatial upper-body movements. Three existing corpora of interaction data provide the empirical base for the investigations. The aim of the thesis is to enhance the understanding of interaction-related interlocutor states by developing approaches for their automatic recognition. Furthermore, this thesis contributes to the current state of the art by discussing three methodological challenges: finding appropriate data and developing general data requirements, selecting appropriate modalities and features, and implementing appropriate classification and performance evaluation methods. As a main objective, three recognition tasks were accomplished: the recognition of trouble, satisfaction, and cooperativeness. For these tasks, existing machine learning techniques were applied: random forests, support vector machines and naïve Bayes classification. All three tasks were performed as binary classification tasks. The evaluation of all three classification approaches was done in a subject-independent way to ensure the generalisation ability of the classifiers. The conducted research leads to the conclusion that the three investigated interlocutor states can be accessed using features obtained from the considered behavioural signals. Depending on data and setting, the recognition accuracy varies between 64% and 87% f-measure. The physiological signals provided the best recognition results, but it can be argued that for certain applications, especially when other signals are not available, speech enables sufficient recognition performance to create systems adapting to their users’ current states. In order to further improve the ability of technical systems to access these states, it is necessary to expand the current understanding of both, the expression of human interaction behaviour and its processing.
Die Forschung auf dem Gebiet der Mensch-Computer-Interaktion hat das Ziel, Systeme zu entwickeln, die mit Menschen auf die gleiche Art interagieren können, wie Menschen es untereinander tun. Ein Aspekt von natürlicher menschlichen Interaktion ist die implizite Vermittlung des inneren Zustandes, beispielsweise der Emotionen, mit Hilfe von Stimme, Gestik, Mimik, etc. Der Zugang zu diesen Informationen ist eines der zentralen Themen von Affective Computing. Diese Arbeit konzentriert sich auf die automatische Erkennung von drei Gesprächspartner-Zuständen, die für die Mensch-Computer-Interaktion von großer Bedeutung sind – nämlich Anstrengung, Zufriedenheit und Kooperativität. Dabei werden unterschiedliche Gesprächspartner-Signale benutzt, wie Sprache oder akustische Signale, physiologische Signale und Bewegungen des Oberkörpers. Drei bestehende Korpora liefern die empirische Grundlage für diese Untersuchungen. Das Ziel der Arbeit ist es, das Verständnis von interaktionsrelevanten Gesprächspartner-Zuständen durch Entwicklung von Ansätzen zu ihrer automatischen Erkennung zu verbessern. Weiterhin trägt diese Arbeit zum aktuellen Stand der Wissenschaft in drei methodischen Herausforderungen bei: die Suche nach geeigneten Daten und die Entwicklung von allgemeinen Datenanforderungen, die Auswahl von geeigneten Modalitäten und Merkmalen und die Implementierung von geeigneten Klassifikations- und Evaluationsmethoden. Zur Erreichung des Ziels wurden drei Erkennungsaufgaben bewerkstelligt: die Erkennung von Anstrengung, Zufriedenheit und Kooperativität. Dabei wurden existierende Methoden des maschinellen Lernens angewandt: Random Forests, Support Vector Machines und Naïve Bayes Klassifikation. Alle drei Aufgaben wurden als binäre Klassifikationsaufgaben aufgefasst. Die Evaluierung aller drei Klassifikationsansätze erfolgte personenunabhängig, um die Generalisierungsfähigkeit der Klassifikatoren zu garantieren. Die durchgeführte Forschungsarbeit lässt den Schluss zu, dass die untersuchten Gesprächspartner-Zustände mit Hilfe der aus den betrachteten Verhaltenssignalen extrahierten Merkmale erkannt werden können. Dabei variiert die Erkennungsgenauigkeit in Abhängigkeit von Daten und Setting zwischen 64% und 87% F-Measure. Die physiologischen Signale liefern die besten Erkennungsergebnisse, jedoch kann argumentiert werden, dass für bestimmte Anwendungen, insbesondere bei Nichtverfügbarkeit von anderen Signalen, Sprache eine ausreichende Erkennungsleistung ermöglicht, um Systeme zu entwickeln, die sich auf den aktuellen Nutzerzustand einstellen können. Um die Fähigkeit von technischen Systemen zu verbessern, diesen Zustand zu erfassen, ist es notwendig, das derzeitige Verständnis sowohl von Ausdruck menschlichen Verhaltens als auch von dessen Verarbeitung auszubauen.
URI: https://opendata.uni-halle.de//handle/1981185920/34615
http://dx.doi.org/10.25673/34419
Open Access: Open access publication
License: (CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0(CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0
Appears in Collections:Fakultät für Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
Egorow_Olga_Dissertation_2020.pdfDissertation2.46 MBAdobe PDFThumbnail
View/Open