Please use this identifier to cite or link to this item:
http://dx.doi.org/10.25673/34014
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.referee | Kruse, Rudolf | - |
dc.contributor.author | Dockhorn, Alexander | - |
dc.date.accessioned | 2020-07-30T08:58:48Z | - |
dc.date.available | 2020-07-30T08:58:48Z | - |
dc.date.issued | 2020 | - |
dc.date.submitted | 2019 | - |
dc.identifier.uri | https://opendata.uni-halle.de//handle/1981185920/34209 | - |
dc.identifier.uri | http://dx.doi.org/10.25673/34014 | - |
dc.description.abstract | Simulation-based search algorithms have been widely applied in the context of autonomous game-playing. Their flexibility allows for the rapid development of agents that are able to achieve satisfying performance in many problem domains. However, these algorithms share two requirements, namely, access to a forward model and full knowledge of the environment’s state. In this thesis, simulationbased search algorithms will be adapted to tasks in which either the forward model or the state of the environment is unknown. To play a game without a forward model, methods for learning the environment’s model from recent interactions between the agent and the environment are proposed. These forward model learning techniques allow the agent to predict the outcome of its actions, and therefore, enable a prediction-based search process. An analysis of environment models shows how they can be represented and learned in the form of an end-to-end forward model. Based on this general approach, three methods are proposed which reduce the number of possible models and, thus, the training time required. The proposed forward model learning techniques are evaluated according to their applicability to general game-learning tasks and validated based on a wide variety of games. The results show the applicability of prediction-based search agents for games where the forward model is not accessible. In case the environment’s state cannot be fully observed by the agent and the number of possible states is low, state determinisation methods, which uniformly sample possible states have shown to perform well. However, if the number of states is high, the uniform state sampling approach performs worse than nondeterminising search methods due to the search process spending too much time on unlikely states. In this thesis, two methods for predictive state determinisation are proposed. These sample probable states based on the agent’s partial observation of the current state and a database of previously played games, which allows the agent to focus its search process on likely states. Proposed algorithms are evaluated in terms of their prediction accuracy and game-playing performance in the context of the collectible card game Hearthstone. Results show that the implemented agent outperforms other state-of-the-art agents in case the replay database is representative for the state distribution. | eng |
dc.description.abstract | Simulationsbasierte Suchalgorithmen sind im Rahmen autonom spielender Agenten weit verbreitet. Ihre Flexibilität ermöglicht die schnelle Entwicklung von Agenten, welche in der Lage sind, in vielen Problembereichen eine zufriedenstellende Leistung zu erzielen. Allerdings teilen diese Algorithmen zwei Anforderungen: den Zugang zu einem forward model, welches die Zustandsveränderungen der Umgebung bezüglich der Aktionen des Agenten beschreibt, und die vollständige Kenntnis des Umgebungszustands. In dieser Arbeit werden prädikionsbasierte Suchalgorithmen entwickelt, welche ohne die Kenntnis eines forward models oder den Zustand der Umgebung verwendet werden können. Um Spiele ohne die Kenntnis eines forward models zu spielen, werden Methoden zum Erlernen des Modells aus den bisherigen Interaktionen zwischen dem Agenten und der Umgebung entwickelt. Diese forward model learning Methoden ermöglichen es dem Agenten einen prädiktionsbasierten Suchprozess durchzuführen. Eine Analyse dieser Modelle zeigt, wie sie in Form eines End-to-End-Forward-Modells dargestellt und erlernt werden können. Basierend auf diesem allgemeinen Ansatz werden drei weitere Methoden vorgeschlagen, die die Anzahl der möglichen Modelle und damit die benötigte Trainingszeit reduzieren. Im folgenden, werden diese Lernmodelle hinsichtlich ihrer Anwendbarkeit auf general game-learning Probleme bewertet und auf der Grundlage einer Vielzahl von Spielen validiert. Die Ergebnisse zeigen die Anwendbarkeit der prädiktionsbasierten Suche für Spiele, bei denen das forward model nicht zugänglich ist. Falls der Agent den Zustand seiner Umgebung nicht vollständig beobachten kann und die Anzahl der möglichen Zustände gering ist, haben sich Zustandsdeterminierungsverfahren bewährt. Mit Hilfe dieser, werden statt eines einzigen Zustands mehrerere mögliche Zustände betrachtet und darauf basierend eine geeignete Aktion gewählt. Ist die Anzahl der Zustände jedoch hoch, schneiden existierende Zustandsdeterminierungsverfahren schlechter ab als nicht-determinierende Suchmethoden, da erstere unwahrscheinlichen Zuständen zu viel Gewicht beimessen. In dieser Arbeit werden zwei Methoden zur prädiktiven Zustandsbestimmung vorgeschlagen. Diese prognostizieren den aktuellen Zustand basierend auf dem bisherigen Spielverlauf und einer Datenbank früherer Spielverläufe. Dies ermöglicht es dem Agenten, seinen Suchprozess auf wahrscheinliche Zustände zu konzentrieren. Die vorgeschlagenen Algorithmen werden im Rahmen des Sammelkartenspiels Hearthstone hinsichtlich ihrer Vorhersagegenauigkeit und Spielleistung bewertet. Die Ergebnisse zeigen, dass der implementierte Agent andere State-ofthe- Art-Methoden übertrifft, falls die verwendete Datenbank repräsentativ für die tatsächliche Wahrscheinlichkeitsverteilung auftretender Zustände ist. | ger |
dc.format.extent | viii, 222 Seiten | - |
dc.language.iso | eng | - |
dc.rights.uri | https://creativecommons.org/licenses/by-sa/4.0/ | - |
dc.subject | Künstliche Intelligenz | ger |
dc.subject.ddc | 006.31 | - |
dc.title | Prediction-based search for autonomous game-playing | eng |
dcterms.dateAccepted | 2020 | - |
dcterms.type | Hochschulschrift | - |
dc.type | PhDThesis | - |
dc.identifier.urn | urn:nbn:de:gbv:ma9:1-1981185920-342090 | - |
local.versionType | acceptedVersion | - |
local.publisher.universityOrInstitution | Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik | - |
local.openaccess | true | - |
dc.identifier.ppn | 1725925834 | - |
local.publication.country | XA-DE-ST | - |
cbs.sru.importDate | 2020-07-30T08:54:14Z | - |
local.accessrights.dnb | free | - |
local.accessrights.dnb | free | - |
Appears in Collections: | Fakultät für Informatik |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Dockhorn_Alexander_Dissertation_2020.pdf | Dissertation | 5.04 MB | Adobe PDF | View/Open |