Please use this identifier to cite or link to this item:
http://dx.doi.org/10.25673/103828
Title: | Subword-based Neural Machine Translation for low-resource fusion languages |
Author(s): | Gezmu, Andargachew Mekonnen |
Referee(s): | Nürnberger, Andreas De Luca, Ernesto William |
Granting Institution: | Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik |
Issue Date: | 2023 |
Extent: | viii, 118 Seiten |
Type: | Hochschulschrift |
Type: | PhDThesis |
Exam Date: | 2023 |
Language: | English |
URN: | urn:nbn:de:gbv:ma9:1-1981185920-1057830 |
Subjects: | Sprachverarbeitung Übersetzungswissenschaft Künstliche Intelligenz Neural Machine Translation |
Abstract: | Neural approaches, which are currently state-of-the-art in many areas, have contributed
significantly to the exciting advancements in machine translation. However,
Neural Machine Translation (NMT) requires a substantial quantity and good
quality training data or parallel corpus to train the best models. A large amount
of training data, in turn, increases the underlying vocabulary exponentially. Therefore,
several proposed methods have been devised for relatively limited vocabulary
due to constraints of computing resources such as system memory. Encoding words
as sequences of subword units for so-called open-vocabulary translation is an effective
strategy for solving this problem. However, the conventional methods for
splitting words into subwords focus on statistics-based approaches that mainly cater
to agglutinative languages. In these languages, the morphemes have relatively clean
boundaries. These methods still need to be thoroughly investigated for their applicability
to fusion languages, which is the main focus of this dissertation. Phonological
and orthographic processes alter the borders of constituent morphemes of a
word in fusion languages. Therefore, it makes it difficult to distinguish the actual
morphemes that carry syntactic or semantic information from the word’s surface
form, the form of the word as it appears in the text. We, thus, resorted to a word
segmentation method that segments words by restoring the altered morphemes. Additionally,
in order to meet the enormous data demands of NMT, we created a new
dataset for a low-resource language. Moreover, we optimized the hyperparameters
of an NMT system to train optimally performing models in low-data conditions.
We also compared conventional and morpheme-based NMT subword models. We
could prove that morpheme-based models outperform conventional subword models
on benchmark datasets. Neuronale Ansätze, die derzeit in vielen Bereichen den Stand der Technik darstellen, haben wesentlich zu den spannenden Fortschritten in der maschinellen Übersetzung beigetragen. Die Neuronale Maschinelle Übersetzung (NMÜ) erfordern jedoch eine große Menge und qualitativ hochwertige Trainingsdaten oder einen parallelen Korpus, um die besten Modelle zu trainieren. Eine große Menge an Trainingsdaten wiederum vergrößert den zugrunde liegenden Wortschatz exponentiell. Daher wurden mehrere Methoden aufgrund begrenzter Computerresourcen — wie z.B. Systemspeicher — für ein relativ begrenztes Vokabular entwickelt. Die Kodierung von Wörtern als Sequenzen von Teilworteinheiten für die so genannte Übersetzung mit offenem Vokabular ist eine effektive Strategie zur Lösung dieses Problems. Die herkömmlichen Methoden zur Aufteilung von Wörtern in Teilwörter konzentrieren sich jedoch auf statistikbasierte Ansätze, die hauptsächlich für agglutinierende Sprachen geeignet sind. In diesen Sprachen haben die Morpheme relativ klare Grenzen. Diese Methoden müssen noch gründlich auf ihre Anwendbarkeit in Fusionssprachen untersucht werden, die im Mittelpunkt dieser Dissertation stehen. Phonologische und orthographische Prozesse verändern die Grenzen der konstituierenden Morpheme eines Wortes in Fusionssprachen. Daher ist es schwierig, die eigentlichen Morpheme, die syntaktische oder semantische Informationen tragen, von der Oberflächenform des Wortes, d. h. der Form des Wortes, wie es im Text vorkommt, zu unterscheiden. Wir haben daher auf eine Wortsegmentierungsmethode zurückgegriffen, die Wörter durch Wiederherstellung der veränderten Morpheme segmentiert. Um den enormen Datenanforderungen der NMÜ gerecht zu werden, haben wir außerdem einen neuen Datensatz für eine Sprache mit geringen Ressourcen erstellt. Darüber hinaus optimierten wir die Hyperparameter eines NMÜ-Systems, um unter datenarmen Bedingungen optimal funktionierende Modelle zu trainieren. Des Weiterem verglichen wir konventionelle und Morphembasierte NMÜ-Unterwortmodelle. Wir konnten nachweisen, dass Morphem basierte Modelle die konventionellen Teilwortmodelle in Benchmark Datensätzen übertreffen. |
URI: | https://opendata.uni-halle.de//handle/1981185920/105783 http://dx.doi.org/10.25673/103828 |
Open Access: | Open access publication |
License: | (CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0 |
Appears in Collections: | Fakultät für Informatik |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Gezmu_Andargachew_Mekonnen_Dissertation_2023.pdf | Dissertation | 1.92 MB | Adobe PDF | View/Open |