Generierung synthetischer arabischer Handschrift zur Unterstützung von automatischer Erkennung handschriftlicher Texte

Dinges, Laslo

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.25673/32468

Langanzeige der Metadaten

DC Element	Wert	Sprache
dc.contributor.referee	Hamadi, Ayoub	-
dc.contributor.referee	Omar, Abbas	-
dc.contributor.author	Dinges, Laslo	-
dc.date.accessioned	2020-02-12T13:13:14Z	-
dc.date.available	2020-02-12T13:13:14Z	-
dc.date.issued	2019	-
dc.date.submitted	2019	-
dc.identifier.uri	https://opendata.uni-halle.de//handle/1981185920/32647	-
dc.identifier.uri	http://dx.doi.org/10.25673/32468	-
dc.description.abstract	Digitaler Text bietet viele Vorteile. Er ist kompakt, lässt sich ohne Aufwand vervielfältigen und zudem automatisiert analysieren und bearbeiten. Dennoch liegen auch heutzutage viele Dokumente in physischer Form vor. Zwar existieren robuste Lösungen zur automatischen Erkennung von Druckschrift, doch insbesondere die Erkennung arabischer Handschrift ist immer noch problematisch. Dies gilt insbesondere für zusammenhängende Texte, wie sie etwa in historischen Sammlungen vorkommen. Sowohl zur experimentellen Evaluierung als auch zum Trainieren von entsprechenden automatischen Lösungen zur Handschrifterkennung sind geeignete, umfangreiche Datenbanken von hoher Bedeutung. Aufgrund des mit deren Erstellung verbundenen Aufwandes weisen bestehende Datenbanken jedoch stets Einschränkungen des Umfangs, des verwendeten Vokabulars und des Detailgrades der beigefügten Grundwahrheiten auf. Eine Strategie, diesem Umstand zu begegnen, liegt darin, synthetische Proben zu erzeugen. In dieser Arbeit wird ein neuartiger Ansatz zur Synthese arabischer Handschrift vorgestellt, welcher einen wesentlichen Beitrag zum Stand der Forschung darstellt. Bestehende Ansätze verknüpfen lediglich Bildausschnitte arabischer Buchstaben (was nur wenige unterschiedliche Synthesen ermöglicht) oder erzeugen keine vollständigen Handschriften. Dagegen ermöglicht es der hier vorgestellte Ansatz, eine Vielzahl unterschiedlicher Synthesen zu beliebigen arabischen Wörtern, Sätzen oder einspaltiger Textseiten zu erzeugen. Der Ansatz umfasst sowohl die Generierung neuer Buchstaben für jede Synthese, als auch Modifikationen des kompletten Schriftzuges, z.B. durch Änderung der Schriftneigung.Weiterhin werden zur Simulation von materialabhängigen Pigmentierungsschwankungen entwickelte Methoden vorgestellt. Das Synthesesystem wird erfolgreich genutzt, um die IESK-arDB – eine während der Promotion entstandene, frei verfügbare Datenbank – zu ergänzen. Darüber hinaus werden in dieser Arbeit segmentierungsbasierte Verfahren zur automatischen Erkennung arabischer Handschrift anhand realer und synthetischer Proben evaluiert und weiterentwickelt. Insbesondere die Klassifizierung von Buchstaben – durch optimierte Merkmale und einen auf Active-Shape-Models basierenden Klassifikator sowie eine kontextbasierte Fehlererkennung und -korrektur – stellt diesbezüglich einen zweiten wesentlichen Forschungsbeitrag dieser Dissertation dar. Außerdem wird ein verbesserter Ansatz zur Zeilensegmentierung mittels lokaler Gruppen vorgestellt, welcher auch die Detektion gekrümmter Textzeilen ermöglicht.	ger
dc.description.abstract	Digital text provides a lot of advantages. It is compact and can automatically be duplicated, processed or analyzed. Nevertheless, even today many documents are given in physical form. Although there are robust solutions for recognizing machine printed text, the automatic recognition of handwritings is still challenging. This is especially true in case cohesive texts of historical collections. For both, the experimental evaluation and training of automatic solutions for handwriting recognition, comprehensive and suitable databases are crucial. Due to the accompanied costs, existing databases are limited in size, vocabulary and level of details of the added ground truth. One strategy to face this problem is to generate synthetic samples. In this work, a novel approach of synthesizing Arabic handwritings is proposed, which is a major contribution to the state of the art.Existing approaches just concatenate images of Arabic characters (which just enables few different syntheses) or do not create complete handwritings. In contrast, the proposed approach enables to synthesize many variations of any Arabic words, sentences or one column text pages. The approach covers generation of new characters for each synthesis as well as modifications of the complete writing, as changing slant or skew. Furthermore, methods to simulate material depending variations in pigmentation are developed. The synthesis system is successfully used to augment the IESK-arDB, a database created during the PhD. Additionally, segmentation based procedures of automatic recognition of Arabic handwritings are refined and evaluated on real and synthetic data. Especially the classification of characters using optimized features and an approach based on Active Shape Modells as well as error detection and correction is a second major contribution of this thesis. Moreover, an improved approach of line segmentation using locale groups is proposed, which enables detection of curved text lines.	eng
dc.format.extent	xxii, 229 Seiten	ger
dc.language.iso	ger	ger
dc.rights.uri	https://creativecommons.org/licenses/by-sa/4.0/	eng
dc.subject	Maschinelles Sehen	ger
dc.subject.ddc	006.425	eng
dc.title	Generierung synthetischer arabischer Handschrift zur Unterstützung von automatischer Erkennung handschriftlicher Texte	ger
dcterms.dateAccepted	2019	-
dcterms.type	Hochschulschrift	ger
dc.type	PhDThesis	-
dc.identifier.urn	urn:nbn:de:gbv:ma9:1-1981185920-326475	-
local.versionType	acceptedVersion	eng
local.publisher.universityOrInstitution	Otto-von-Guericke-Universität Magdeburg, Fakultät für Elektrotechnik und Informationstechnik	ger
local.openaccess	true	eng
dc.identifier.ppn	1689893192	-
local.publication.country	XA-DE-ST	-
cbs.sru.importDate	2020-02-12T13:09:15Z	-
local.accessrights.dnb	free	-
Enthalten in den Sammlungen:	Fakultät für Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Dinges_Laslo_Dissertation_2019.pdf	Dissertation	40.88 MB	Adobe PDF	Öffnen/Anzeigen

Zur Kurzanzeige BibTeX EndNote