Please use this identifier to cite or link to this item:
http://dx.doi.org/10.25673/34419
Title: | Accessing the interlocutor : recognition of interaction-related interlocutor states in multiple modalities |
Author(s): | Egorow, Olga |
Referee(s): | Wendemuth, Andreas Diedrich, Christian |
Issue Date: | 2020 |
Extent: | I, xv, 143 Seiten |
Type: | Hochschulschrift |
Type: | PhDThesis |
Exam Date: | 2020 |
Language: | English |
URN: | urn:nbn:de:gbv:ma9:1-1981185920-346153 |
Subjects: | Technik in Beziehung zu anderen Gebieten |
Abstract: | The research in the field of human-computer interaction aims at enabling technical
systems to interact with humans in the same way that humans do among
themselves. One aspect of natural human interaction is implicitly communicating
the internal state, such as the current emotions, using voice, gestures
and facial expressions. Gaining access to this information is one of the central
topics addressed in affective computing.
This thesis focuses on the automatic recognition of three internal interlocutor
states highly relevant for the domain of human-computer interaction – namely
trouble, satisfaction and cooperativeness – using different interlocutor signals,
such as speech or acoustic signals, physiological signals and spatial upper-body
movements. Three existing corpora of interaction data provide the empirical
base for the investigations.
The aim of the thesis is to enhance the understanding of interaction-related
interlocutor states by developing approaches for their automatic recognition.
Furthermore, this thesis contributes to the current state of the art by discussing
three methodological challenges: finding appropriate data and developing
general data requirements, selecting appropriate modalities and features, and
implementing appropriate classification and performance evaluation methods.
As a main objective, three recognition tasks were accomplished: the recognition
of trouble, satisfaction, and cooperativeness. For these tasks, existing
machine learning techniques were applied: random forests, support vector machines
and naïve Bayes classification. All three tasks were performed as binary
classification tasks. The evaluation of all three classification approaches was
done in a subject-independent way to ensure the generalisation ability of the
classifiers.
The conducted research leads to the conclusion that the three investigated interlocutor
states can be accessed using features obtained from the considered
behavioural signals. Depending on data and setting, the recognition accuracy
varies between 64% and 87% f-measure. The physiological signals provided
the best recognition results, but it can be argued that for certain applications,
especially when other signals are not available, speech enables sufficient recognition
performance to create systems adapting to their users’ current states. In
order to further improve the ability of technical systems to access these states,
it is necessary to expand the current understanding of both, the expression of
human interaction behaviour and its processing. Die Forschung auf dem Gebiet der Mensch-Computer-Interaktion hat das Ziel, Systeme zu entwickeln, die mit Menschen auf die gleiche Art interagieren können, wie Menschen es untereinander tun. Ein Aspekt von natürlicher menschlichen Interaktion ist die implizite Vermittlung des inneren Zustandes, beispielsweise der Emotionen, mit Hilfe von Stimme, Gestik, Mimik, etc. Der Zugang zu diesen Informationen ist eines der zentralen Themen von Affective Computing. Diese Arbeit konzentriert sich auf die automatische Erkennung von drei Gesprächspartner-Zuständen, die für die Mensch-Computer-Interaktion von großer Bedeutung sind – nämlich Anstrengung, Zufriedenheit und Kooperativität. Dabei werden unterschiedliche Gesprächspartner-Signale benutzt, wie Sprache oder akustische Signale, physiologische Signale und Bewegungen des Oberkörpers. Drei bestehende Korpora liefern die empirische Grundlage für diese Untersuchungen. Das Ziel der Arbeit ist es, das Verständnis von interaktionsrelevanten Gesprächspartner-Zuständen durch Entwicklung von Ansätzen zu ihrer automatischen Erkennung zu verbessern. Weiterhin trägt diese Arbeit zum aktuellen Stand der Wissenschaft in drei methodischen Herausforderungen bei: die Suche nach geeigneten Daten und die Entwicklung von allgemeinen Datenanforderungen, die Auswahl von geeigneten Modalitäten und Merkmalen und die Implementierung von geeigneten Klassifikations- und Evaluationsmethoden. Zur Erreichung des Ziels wurden drei Erkennungsaufgaben bewerkstelligt: die Erkennung von Anstrengung, Zufriedenheit und Kooperativität. Dabei wurden existierende Methoden des maschinellen Lernens angewandt: Random Forests, Support Vector Machines und Naïve Bayes Klassifikation. Alle drei Aufgaben wurden als binäre Klassifikationsaufgaben aufgefasst. Die Evaluierung aller drei Klassifikationsansätze erfolgte personenunabhängig, um die Generalisierungsfähigkeit der Klassifikatoren zu garantieren. Die durchgeführte Forschungsarbeit lässt den Schluss zu, dass die untersuchten Gesprächspartner-Zustände mit Hilfe der aus den betrachteten Verhaltenssignalen extrahierten Merkmale erkannt werden können. Dabei variiert die Erkennungsgenauigkeit in Abhängigkeit von Daten und Setting zwischen 64% und 87% F-Measure. Die physiologischen Signale liefern die besten Erkennungsergebnisse, jedoch kann argumentiert werden, dass für bestimmte Anwendungen, insbesondere bei Nichtverfügbarkeit von anderen Signalen, Sprache eine ausreichende Erkennungsleistung ermöglicht, um Systeme zu entwickeln, die sich auf den aktuellen Nutzerzustand einstellen können. Um die Fähigkeit von technischen Systemen zu verbessern, diesen Zustand zu erfassen, ist es notwendig, das derzeitige Verständnis sowohl von Ausdruck menschlichen Verhaltens als auch von dessen Verarbeitung auszubauen. |
URI: | https://opendata.uni-halle.de//handle/1981185920/34615 http://dx.doi.org/10.25673/34419 |
Open Access: | Open access publication |
License: | (CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0 |
Appears in Collections: | Fakultät für Elektrotechnik und Informationstechnik |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Egorow_Olga_Dissertation_2020.pdf | Dissertation | 2.46 MB | Adobe PDF | View/Open |