Please use this identifier to cite or link to this item:
http://dx.doi.org/10.25673/35204
Title: | Towards efficient and effective entity resolution for high-volume and variable data |
Author(s): | Chen, Xiao |
Referee(s): | Saake, Gunter |
Granting Institution: | Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik |
Issue Date: | 2020 |
Extent: | xviii, 148 Seiten |
Type: | Hochschulschrift |
Type: | PhDThesis |
Exam Date: | 2020 |
Language: | English |
URN: | urn:nbn:de:gbv:ma9:1-1981185920-354140 |
Subjects: | Datenbanken |
Abstract: | Entity Resolution (ER), as a process to identify records that refer to the same realworld
entity, faces challenges that big data has brought to it. On the one hand,
high-volume data forces ER to use blocking and parallel computation to improve ef-
ficiency and scalability. In this scenario, we identify three limitations: First, facing
abundant research on parallel ER, a thorough survey to overview the current state
and expose research gaps is missing. Second, efficiency impacts by choosing di erent
implementation options from big data processing frameworks are unknown. Last, an
in-depth analysis and comparison of the state-of-the-art block-splitting-based load
balancing strategies are not provided. Therefore, correspondingly, we first conducted
a systematic literature review on parallel ER and report our findings. Then we explore
three Spark implementations of two scenarios of a conventional ER process and
expose their respective efficiency and speed-up. Last, we theoretically analyze and
compare two state-of-the-art block-splitting-based load balancing strategies, propose
two improved strategies, and then empirically evaluate them to conclude the
important factors for a block-splitting-based load balancing strategy. On the other
hand, facing variable data, we identify two shortcomings. First, confronting variable
data with di erent types of attributes, word-embedding-based similarity calculation
can provide uniform solutions, but the e ectiveness may be lowered for attributes
without semantics. Second, facing variable data from broad domains, training data
required for learning-based classification may not be available leading to expensive
human labeling costs. Existing committee-based active learning approaches
for ER to reduce human labeling costs cannot provide balanced and informative
initial training data and compromise the accuracy of their committees to provide
di erent classification voting results. Therefore, correspondingly, we first propose
a hybrid similarity calculation approach by choosing traditional syntactic-based or
word-embedding-based similarity measures based on the properties of attributes to
achieve higher e ectiveness. Then we propose HeALER to overcome the aforementioned
drawbacks of committee-based active learning ER approaches. We empirically
demonstrate the improvements of our proposed approaches on both real and
synthetic datasets. Die Entitätsauflösung als ein Prozess zur Identifizierung von Datensätzen, die sich auf dieselbe reale Entität beziehen, steht vor Herausforderungen, die Big Data mit sich gebracht hat. Einerseits zwingt die großvolumige Data die Entitätsauflösung dazu, blockbasierte und parallele Berechnung zu verwenden, um die Effizienz und Skalierbarkeit zu verbessern. In diesem Szenario werden drei Einschränkungen fest-gestellt: Erstens, angesichts der umfangreichen Forschung zur paralleler Entität-sauflösung fehlt eine gründliche Umfrage, um den aktuellen Forschungsstand zu erhalten und Forschungslücken aufzudecken. Zweitens sind Auswirkungen auf die Effizienz den verschiedenen Implementierungsoptionen aus Big-Data-Verarbeitungs-Frameworks nicht bekannt. Schließlich wird der eingehende Vergleich der block-aufteilungsbasierte Lastausgleichsstrategien nicht bereitgestellt. Dementsprechend führten wir zunächst eine systematische Literaturrecherche zur parallelen Entität-sauflösung durch. Anschließend untersuchen wir drei Spark Implementierungen von zwei Szenarien eines herkömmlichen Entitätsauflösungsprozesses, um deren jeweilige Effizienz zu bewerten. Zuletzt analysieren und vergleichen wir theoretisch zwei typische blockaufteilungbasierte Lastausgleichsstrategien, schlagen zwei verbesserte Strategien vor und bewerten sie umfassend, um die wichtigen Faktoren für eine blockaufteilungbasierte Lastausgleichsstrategie zu ermitteln. Auf der anderen Seite stellen wir angesichts variabler Daten zwei Mängel fest. Erstens kann die worteinbet-tungsbasierte ähnlichkeitsberechnung einheitliche Lösungen liefern, wenn vielfaltige Daten mit unterschiedlichen Attributtypen konfrontiert werden. Die Effektivität kann jedoch für Attribute ohne Semantik verringert sein. Zweitens sind angesichts vielfältiger Daten aus weiten Bereichen möglicherweise keine Trainingsdaten ver-fügbar, die für den lernbasierten Klassifizierungsschritt erforderlich sind, was zu teuren Kennzeichungskosten führt. Bestehende komitee-basierte Aktiveslernensan-sätze für die Entitätsauflösung zur Reduzierung der Kennzeichungskosten können keine ausgewogenen und informativen Daten für die erste Trainingsdaten liefern und die Wirksamkeit ihrer Komitee für unterschiedliche Abstimmungsergebnisse der Klassifizierung kompromittieren. Dementsprechend schlagen wir daher zunächst einen hybriden ähnlichkeitsberechnung vor, indem wir traditionelle syntaktische oder worteinbettungsbasierte ähnlichkeitsmaße basierend auf den Eigenschaften von Attributen auswählen, um eine höhere Effektivität zu erzielen. Dann schlagen wir auf heterogenen Komitees basierenden Ansatz für aktives Lernen (HeALER) vor, um die oben genannten Nachteile zu. Wir demonstrieren empirisch die Verbesserungen unserer vorgeschlagenen Ansätze sowohl für reale als auch für synthetische Daten-sätze. |
URI: | https://opendata.uni-halle.de//handle/1981185920/35414 http://dx.doi.org/10.25673/35204 |
Open Access: | Open access publication |
License: | (CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0 |
Appears in Collections: | Fakultät für Informatik |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Chen_ Xiao_Dissertation_2020.pdf | Dissertation | 4.89 MB | Adobe PDF | View/Open |