Please use this identifier to cite or link to this item:
http://dx.doi.org/10.25673/108824
Title: | Driver affect recognition from real-world speech data in in-vehicle driving environments |
Author(s): | Requardt, Alicia Flores |
Referee(s): | Wendemuth, Andreas Jumar, Ulrich |
Granting Institution: | Otto-von-Guericke-Universität Magdeburg, Fakultät für Elektrotechnik und Informationstechnik |
Issue Date: | 2022 |
Extent: | xxiii, 296 Seiten |
Type: | Hochschulschrift |
Type: | PhDThesis |
Exam Date: | 2022 |
Language: | English |
URN: | urn:nbn:de:gbv:ma9:1-1981185920-1107799 |
Subjects: | Sprachverarbeitung Autonomy in vehicles Digitale Signalverarbeitung |
Abstract: | In der heutigen Zeit der zunehmenden Autonomie im Straßenverkehr, gewinnen Systeme
zur Erkennung des Fahrerzustandes immer mehr an Bedeutung. Über die
Anaylse des Lenkverhaltens und des Blickverhaltens des Fahrers können einige Zustände
bereits zum Stand der Technik in der Automobilindustrie gezählt werden.
Der tatsächliche intrinsische Zustand des Fahrers, der z.B. durch Feedbacksignale
aus Sprache, Mimik oder Gestik wiedergegeben werden kann, wird momentan noch
vollständig außer Acht gelassen.
Ziel dieser Arbeit ist es, diese Forschungslücke weiter zu schließen, indem die Emotionalität
des Fahrers anhand seiner Sprache erkannt und systemseitig berücksichtigt
werden kann. Um dieses Ziel zu erreichen, muss die vollständige Prozesskette von
der Datenerhebung, über die Datenvoranalyse und ggf. die Durchführung digitaler
Signalverarbeitungs-Schritte, bis hin zur Datenklassifizierung und schlussendlich
der Bewertung der erhaltenen Ergebnisse im Vergleich zu anderen Forschungsergebnissen
aus diesem Bereich, berücksichtigt werden. Die Gesamtheit jedes einzelnen
Prozessschrittes muss hierzu dem Leser nähergebracht werden. Dies begründet auch
den Umfang der vorliegenden Arbeit.
Zu Beginn der Arbeit werden dem Leser folgende drei Forschungshypothesen vorgestellt,
die im Laufe der Arbeit wiederholt aufgegriffen werden:
1. Hypothese: Es ist möglich dem Fahrer während der Fahrt naturalistische Emotionen
zu induzieren.
2. Hypothese: Es ist möglich Störungen des Sprachsignales zu kompensieren.
3. Hypothese: Falls Hypothese 1 und 2 bestätigt werden, ist es möglich automatisch
den emotionalen Zustand des Fahrers anhand prosodischer Sprachmerkmale
zu erkennen.
Durch die sehr geringe Datenlage in diesem Forschungsgebiet wurden zwei Datenaufnahmen
durchgeführt (simuliert und real). Anhand erster simulierter emotionaler
Sprachdaten im Fahrzeug konnten erste Erkenntnisse über die Beschaffenheit der
Daten und das Potential zur Erkennung des emotionalen Zustandes, erlangt werden.
Anhand einer weiteren Datenaufnahme, induzierter Emotionen unter realen Fahrbedingungen,
konnten Detailinformationen zur Erkennung von vier Fahrerzuständen
ermittelt werden (neutral, positiv, verärgert und ängstlich). Die aufgenommenen Daten
wurden, anhand der Selbsteinschätzung des Fahrers (unter Verwendung des Geneva
Emotional Wheel und den Self-Assessment Manikins) und einer Auswertung
ihrer bio-physiologischen Daten, auf ihre emotionalen Inhalte und ihre Verwendbarkeit
validiert. Da realitätsnahe verrauschte Sprachdaten sehr zeitaufwändig in ihrer Generierung
sind und zu Beginn der Arbeit noch nicht vorlagen, wurden erste Untersuchungen
anhand komprimierter Sprachdaten durchgeführt. Anhand dieser Daten wurde
der Effekt digitaler Signalverarbeitungs-Algorithmen auf das Sprachsignal, die
Sprach- und Signalqualität und die Erkennung der Emotionen analysiert. Es konnte
festgestellt werden, dass die angewendeten Audio-Codecs je nach ihrem designierten
Einsatzgebiet unterschiedliche Einflüsse auf die Sprach- und Signalqualität
und die Erkennungsleistung der Emotionen haben. Vor allem Codecs, die für die
Komprimierung von Musik entwickelt wurden, haben einen geringeren Einfluss auf
die Emotionserkennung als Codecs, die für die Telekommunikation entwickelt wurden.
Im Fall der Anwendung von Musik-Codecs konnte sogar eine Verbesserung
der Erkennungsleistung im Vergleich zu unkomprimierten Sprachdaten erzielt werden.
Ähnliche Untersuchungen wurden anhand der simulierten emotionalen Sprache
im Fahrzeug durchgeführt, indem die im Original unverrauschten Sprachdaten mit
ihren künstlich verrauschten Versionen verglichen wurden. Diese Untersuchung zeigte,
dass die Natürlichkeit der Emotionen in der Sprache und die Natürlichkeit der
Datenaufnahmen selbst, den Effekt der Fahrgeräusche auf die Signalqualität beeinflusst.
Des Weiteren konnte ein eindeutiger Rückgang der Erkennungsleistung im
Zusammenhang mit der Abnahme der Signalqualität erkannt werden.
Zur weiteren Nutzung der Datenaufnahmen im realen Fahrzeugumfeld wurde eine
Annotation der Daten durchgeführt. Dies beinhaltete eine dimensionale und kategoriale
Bewertung, die in sich eine hohe Übereinstimmung aufwiesen. Die Ergebnisse
zeigen, dass die Emotionen des Fahrers auch in seiner Sprache widergespiegelt wurden
und somit als Datenbasis für die automatische Erkennung natürlicher Emotionen
im Fahrzeugumfeld genutzt werden können.
Aus der (automatischen) Sprachverarbeitung ist bekannt, dass die Anwendung von
Sprachverbesserungs-Verfahren (engl. speech enhancement) zu einer bemerkenswerten
Erhöhung der Erkennungsraten und des Sprachverständnisses führen kann. Um
zu untersuchen, ob dieser Effekt auch einen Einfluss auf die Erkennungsrate der
Emotionen hat, wurden Untersuchungen zur Anwendbarkeit dieser Algorithmen auf
verrauschter emotionaler Sprache durchgeführt. Es konnte festgestellt werden, dass
die Anwendung dieser Verfahren zu einer starken Manipulation des Merkmalsraums
führt, die im Vergleich zu verrauschter Sprache jedoch keine Verbesserung der Erkennungsleistung
mit sich bringt. Um die Manipulation des Merkmalsraum nicht
als zusätzlichen Freiheitsgrad in die Prozesskette mit einfließen zu lassen, wird die
Anwendung eines solchen Verfahrens nicht empfohlen.
Unter Berücksichtigung der vorangegangenen Ergebnisse wurden schlussendlich zwei
unterschiedliche Klassifikationsverfahren angewandt (Support Vector Machines und
Random Forests), um die Emotion des Fahrers anhand realer Fahrzeugdaten zu
erkennen. Die Klassifizierer wurden dazu in einem leave one speaker out Kreuzvalidierungsverfahren trainiert, optimiert und getestet. Die Optimierung erfolgte
dabei durch die Anwendung eines random search-Verfahrens zur Hyper-Parameter-
Optimierung, einer wrapper basierten Feature Auswahl und einer gezielten Reduzierung/
Auswahl der verwendeten Sprachdaten aus dem Datensatz. Unter Berücksichtigung
all dieser Aspekte, konnte als bester Klassifizierer ein Random Forest
entworfen werden, der dazu in der Lage ist, den emotionalen Zustand des Fahrers,
im vorliegenden 4-Klassenproblem, mit einer precision von über 52% und einem
recall von über 35% zu erkennen. With an increase of autonomy in vehicles, also the importance of driver state detection systems is becoming more relevant. By analyzing the driver’s steering behaviour and her/ his gaze direction, the modern automotive industry is able to detect a limited number of driver states (e.g. tiredness or attention). The true intrinsic state of the driver, which is, for example, communicated through feedback signals in her/ his speech, facial expressions or gestures, is still being neglected. The goal of this Thesis is to close this research gap by considering the driver’s speech data to detect her/ his emotional state. This does not only include the design of a classifier, but the whole process chain of performing a suitable data collection, pre-processing of said data, implementation of relevant signal processing steps (e.g. speech enhancement) and finally also validating the designed classifier. This broad field of research also reasons the size of the Thesis. At the beginning of the Thesis the following three research hypotheses are introduced to the reader and will accompany her/ him throughout the Thesis: 1. Hypothesis: It is possible to induce naturalistic emotions in the driver, while driving in a real vehicle. 2. Hypothesis: It is possible to compensate effects of speech distortion. 3. Hypothesis: Under the assumption that hypotheses 1 and 2 apply, it is possible to automatically detect the emotional state of the driver by only considering the speech signal of the driver and its prosodic features. Because of the relatively low amount of freely available emotional speech data in in-vehicle environments, two data collections focusing on this noise environment (simulated and real-world) were performed. The simulated data was used to receive first insights on the noisy speech characteristics and its potential to be used to detect the driver’s emotional state. A second real-world data collection was performed afterwards, and used to gain detailed information on the four most relevant emotional states occurring while driving (neutral, positive, angry and anxious). By using the drivers’ self-reports (obtained by utilizing the Geneva Emotional Wheel and the Self-Assessment Manikins) and the recordings of their bio-physiological parameters, it was possible to validate the emotion inducement method and the usability of the collected real-world data. The just mentioned data collections are highly time consuming to conduct and were not available at the start of the Thesis. Therefore, the first investigation presented in this Thesis, was performed on compressed speech data. This degraded data was used to analyze the effects signal-processing can have on the speech signal itself, the signal quality and the ability to correctly classify the emotional state of a speaker. It was identified that, especially for speech emotion recognition, codecs developed for music compression are more suitable than codecs developed for speech compression. In some cases it was even possible to increase the recognition performance by applying music compression algorithms, compared to the recognition performance on uncompressed speech. Similar investigations on noisy speech were performed on the simulated in-vehicle speech data. By comparing the original emotional speech samples with their degraded noisy counter parts, it was possible to identify that the naturalness of the original speech samples plays a decisive role on the effect invehicle noises have on the signal quality. Furthermore, with decreasing signal quality also the recognition performance of the classifier decreased. To verify the usability of the real-world driving data, a further annotation of the speech samples considering their emotional content was needed. This annotation was done utilizing a dimensional (valence vs. arousal) and a categorial (4 considered emotional states) labeling approach. In this process both approaches showed a high consistency in their results. These results show that the emotional state of the driver is also mirrored in the speech signal and that the recorded data is suitable for automatic speech emotion recognition in a real-world driving environment. In case of noisy speech data and (automatic) speech recognition, it is known that by applying speech enhancement algorithms, significant increases in recognition rate and speech understanding can be achieved. To identify if these effects also occur in case of speech emotion recognition, suitable speech enhancement algorithms were applied to the simulated in-vehicle data. It was identified that by applying this method of signal processing steps to the noisy speech samples, the features used for the speech emotion recognition task were altered significantly but the recognition performance was not improved. To prevent this additional factor from influencing the emotion recognition task, it was decided to not apply speech enhancement in the further scope of the Thesis. Finally, by considering and utilizing the above findings, two classification approaches (Support Vector Machines and Random Forest) were used to identify the driver’s emotional state in a real-world driving scenario. By utilizing a leave one speaker out cross-validation scheme the classifiers were trained, optimized and tested. The optimization step included a hyper-parameter optimization using random search, a wrapper based feature selection and an adjusted of the data set, by reducing the data set to a tailored selection of speech samples. With regard to this approach, as best performing classifier for the present four class classification task, a random forest with a precision of over 52% and a recall of over 35% was designed. |
URI: | https://opendata.uni-halle.de//handle/1981185920/110779 http://dx.doi.org/10.25673/108824 |
Open Access: | Open access publication |
License: | (CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0 |
Appears in Collections: | Fakultät für Elektrotechnik und Informationstechnik |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Requardt_Alicia Flores_Dissertation_2022.pdf | Dissertation | 8.08 MB | Adobe PDF | View/Open |