Please use this identifier to cite or link to this item: http://dx.doi.org/10.25673/116502
Title: Entity-centric machine learning : leveraging entity neighbourhoods for personalised predictors
Author(s): Unnikrishnan, Vishnu Mazhuvancherry
Referee(s): Spiliopoulou, Myra
Granting Institution: Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik
Issue Date: 2024
Extent: XVII, 148 Seiten
Type: HochschulschriftLook up in the Integrated Authority File of the German National Library
Type: PhDThesis
Exam Date: 2024
Language: English
URN: urn:nbn:de:gbv:ma9:1-1981185920-1184574
Subjects: Künstliche Intelligenz
Angewandte Informatik
Entity-centric
Abstract: Recent times have seen an increase in both the rates at which data are generated, as well as the technology developed to process datasets generated at an ever increasing pace. However, most machine learning methods still apply a one-size-fits-all approach, with the models being tailored to be applied out-of-the-box on the entire dataset, and model complexity focusing on generalising optimally to the patterns without overfitting. Additionally, it is also worth noting that datasets are not monolithic - they are often comprised of repeated observations of a smaller set of objects or ‘entities’ over time. These entities have ‘static’ unchanging properties, and act as data generators to create the ‘dynamic’ data that is observed over time. Many current methods, however, train models over the dynamic data alone, and do not adequately exploit the static data for learning. In this work, we study ways in which machine learning methods can be ‘personalised’ so that the data of each ‘entity’ gets its own model, which incorporates the similarity of the ‘static’ and ‘dynamic’ parts of the entity. The benefits of personalisation are obvious for some fields like medicine and user generated content, and our solutions are designed for the medical domain where some of the disadvantages of entity-centred datasets express most strongly - each entity has too little data available for learning, each entity’s data arrives irregularly, and each entity’s data is generated at a different time than the others. Our approach towards personalisation is that each entity in the dataset gets it’s own model, and we combat the sparsity of the data (each individual entity has too little data!) by augmenting the data of each entity with the data of other entities that are deemed ‘similar’. In our work, we explore three main approaches to training personalised models for medical datasets. The first part of this work explores the various ways for dealing with data sparsity, irregularity, and dealing with timestamps during training of personalised models. We explore augmenting the dynamic data of of each entity with the dynamic data of its neighbours as defined by the static data. We investigate the various ways to train the neighbourhood-augmented model, deal with timestamps, and the effect of the neighbourhood size. Our findings show that training a model on the combined dynamic data of a small number of neighbours and preserving timestamps yields the best results. We extended this method to allow the similarity to be guided using expert knowledge, and found that grouping users based on medical intuition improves the quality of the resultant models for several subgroups. A baseline that selects the neighbourhood of an entity randomly was found to be very competitive, suggesting that even though the entity-centred models exceeded the global model’s performance with less data, the neighbourhood computation can be improved. Our second approaches investigate the degree to which the dynamic data from the entities can be used to train personalised predictors. Towards this end, we test two types of approaches, one that summarises the time series so that a similarity function may be applied that can discover other similar entities, and another that groups users based on the length of their dynamic data sequences. We saw that summaries of the dynamic data helped achieve competitive performance to the global model while exploiting <10% of the users, and that predictions can be made and personalised towards users with very short sequences on the basis of other users whose sequences are longer. Since the notion of similarity is difficult to define, we also propose an iterative neighbourhood similarity method that discovers the ideal set of users to learn a personalised model for users with short sequences. Drawing inspiration from this result, the third part of our work focuses on discovering the optimal neighbourhood for each entity in a supervised way using validation error of the personalised models. We propose one method that searches for the optimal neighbourhood greedily in decreasing order of similarity, and found that the global model is beaten by ≈ 13% − 15% by a personalised model with our discovered neighbourhood. An analysis of the neighbourhoods themselves show that there are ‘celebrity’ users whose data is used by almost all others, and ‘ostracised’ users whose data contributes negatively to other users. Our second proposed method that removes the effect of sorting the users by similarity, however, discovers much smaller neighbourhoods, and also performs worse than the first (although better than the global model). A full comparison of the neighbourhoods and their relative quality, however, needs the help of a clinical expert. We consider the entity-neighbourhoods a part of our output, since it enables further investigations, especially in cases where the underlying similarity function is not known.
In jüngster Vergangenheit ist ein bemerkenswerter Anstieg sowohl in der Häufigkeit der Datenproduktion als auch in der Entwicklung von Technologien zur Verarbeitung von Datensätzen zu verzeichnen. Trotz dieser Fortschritte verfolgen jedoch die meisten Methoden des maschinellen Lernens nach wie vor einen konservativen Ansatz, der darauf abzielt, ein Modell auf dem gesamten Datensatz zu trainieren und anzuwenden. Hier ist der Schwerpunkt, allgemeine Muster zu identifizieren und Overfitting zu vermeiden. Es ist jedoch wichtig anzumerken, dass Datensätze keine homogenen Gebilde darstellen; vielmehr bestehen sie oft aus Beobachtungen, welche von einer begrenzten Anzahl an Entitäten produziert werden. Diese Entitäten verfügen oft über statische, unveränderliche Eigenschaften und fungieren als Datenquellen für die Generierung der im Zeitverlauf beobachteten “dynamischen” Daten. Viele ak- tuelle Methoden zur Vorhersage von dynamischen Daten ignorieren jedoch statische Eigenschaften der Entitäten beim Training der Modelle. In dieser Studie untersuchen wir daher Ansätze, wie Methoden des maschinellen Lernens “personalisiert” werden können, sodass die Daten jeder “Entität” ihr eigenes Modell erhalten. Dabei wird die Ähnlichkeit der “statischen” und “dynamischen” Teile der Entität berücksichtigt. Die Vorteile der Personalisierung sind insbesondere in Bereichen wie der Medizin und für Anwendungen mit nutzererstellten Inhalten offensichtlich. Unsere Lösungen sind speziell für den medizinischen Bereich konzipiert, in dem einige der Heraus- forderungen an entitätszentriertes Lernen am deutlichsten zum Ausdruck kommen. Beispielsweise verfügen viele Entitäten über zu wenige Beobachtungen zum Lernen; die Daten jeder Entität treffen unregelmäßig ein; und die Daten jeder Entität werden im Vergleich zu den anderen zu asynchronen Zeitpunkten generiert. Unser Ansatz zur Personalisierung sieht vor, dass jede Entität im Datensatz ihr eigenes Modell erhält. Wir adressieren die potenzielle Datenknappheit von Entitäten, indem wir deren Daten mit den Beobachtungen “ähnlicher” Entitäten ergänzen. In dieser Arbeit untersuchen wir drei Hauptansätze zum Training personalisierter Modelle für medizinische Datensätze. Der erste Teil der Arbeit befasst sich mit verschiedenen Möglichkeiten zur Bewälti- gung von Datenknappheit und zeitlichen Aspekten beim Training von personalisierten Modellen. Wir untersuchen die Erweiterung der dynamischen Daten jeder Entität mit den dynamischen Daten ihrer nächsten Nachbarn, die durch statische Daten definiert sind. Wir untersuchen die verschiedenen Möglichkeiten zum Trainieren des nach- barschaftserweiterten Modells, den Umgang mit Zeitstempeln und die Auswirkungen der Nachbarschaftsgröße. Unsere Ergebnisse zeigen, dass das Training eines Modells auf den kombinierten dynamischen Daten einer kleinen Anzahl von Nachbarn und unter Beibehaltung von Zeitstempeln die besten Ergebnisse liefert. Wir haben diese Methode so erweitert, dass die Ähnlichkeit mit Hilfe von Expertenwissen gesteuert werden kann, und haben festgestellt, dass die Gruppierung von Nutzern auf der Grundlage medizinischer Intuition die Qualität der resultierenden Modelle für mehrere Untergruppen verbessert. Eine Vergleichsmethode, welche die Nachbarschaft einer Entität zufällig auswählt, erwies sich als sehr konkurrenzfähig. Obwohl die entitätszentrierten Modelle die Leistung des globalen Modells mit weniger Daten übertreffen, deutet dieser Umstand darauf hin, dass die Berechnung der Nachbarschaft verbessert werden kann. Der zweite Teil untersucht, inwieweit die dynamischen Daten der Entitäten zum Training personalisierter Prädiktoren verwendet werden können. Zu diesem Zweck testen wir zwei Arten von Ansätzen. Einen, der die Zeitreihen zusammenfasst, sodass eine Ähnlichkeitsfunktion zur Identifikation ähnlicher Entitäten angewendet werden kann, und einen anderen, der Nutzer auf der Grundlage der Länge ihrer dynamischen Datenfolgen gruppiert. Es wurde deutlich, dass die Zusammenfassungen der dynamischen Daten dazu beigetragen haben, eine mit dem globalen Modell vergleichbare Leistung zu erzielen, wobei <10% der Nutzer verwendet wurden. Des Weiteren hat sich gezeigt, dass Vorhersagen für Nutzer mit sehr kurzen Sequenzen auf der Grundlage anderer Nutzer mit längeren Sequenzen gemacht und personalisiert werden können. Da der Begriff der Ähnlichkeit schwer zu definieren ist, schlagen wir auch eine iterative Methode der Nachbarschaftsähnlichkeit vor, welche die ideale Menge von Nutzern entdeckt, um ein personalisiertes Modell für Nutzer mit kurzen Sequenzen zu lernen. Ausgehend von diesem Ergebnis konzentriert sich der dritte Teil dieser Arbeit auf die Entdeckung der optimalen Nachbarschaft für jede Entität auf überwachte Weise unter Verwendung des Validierungsfehlers der personalisierten Modelle. Wir schlagen eine Methode vor, die ‘greedy’ nach der optimalen Nachbarschaft in abnehmender Reihenfolge der Ähnlichkeit sucht, und haben festgestellt, dass das globale Modell von einem personalisierten Modell mit der von uns entdeckten Nachbarschaft um ≈ 13% − 15% geschlagen wird. Eine Analyse der Nachbarschaften selbst zeigt, dass es “prominente” Nutzer gibt, deren Daten von fast allen anderen genutzt werden, und “diskriminierte” Nutzer, deren Daten einen negativen Beitrag für andere Nutzer leisten. Unsere zweite vorgeschlagene Methode, die den Effekt der Sortierung der Nutzer nach Ähnlichkeit beseitigt, entdeckt jedoch viel kleinere Nachbarschaften und schneidet auch schlechter ab als die erste (wenn auch besser als das globale Modell). Für einen vollständigen Vergleich der Nachbarschaften und ihrer relativen Qualität ist jedoch die Hilfe eines klinischen Experten erforderlich. Wir betrachten die Nachbarschaften einer Entität als Teil unseres Ergebnisses, da sie weitere Untersuchungen ermöglichen, insbesondere in Fällen, in denen die zugrunde liegende Ähnlichkeitsfunktion nicht bekannt ist.
URI: https://opendata.uni-halle.de//handle/1981185920/118457
http://dx.doi.org/10.25673/116502
Open Access: Open access publication
License: (CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0(CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0
Appears in Collections:Fakultät für Informatik

Files in This Item:
File Description SizeFormat 
Unnikrishnan_Vishnu_Dissertation_2024.pdfDissertation8.65 MBAdobe PDFThumbnail
View/Open