Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen:
http://dx.doi.org/10.25673/117262
Titel: | Fine-grained open-world recognition identifying retail products in supermarkets |
Autor(en): | Filax, Marco |
Gutachter: | Ortmeier, Frank Leich, Thomas |
Körperschaft: | Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik |
Erscheinungsdatum: | 2024 |
Umfang: | vi, 183 Seiten |
Typ: | Hochschulschrift |
Art: | Dissertation |
Tag der Verteidigung: | 2024 |
Sprache: | Englisch |
URN: | urn:nbn:de:gbv:ma9:1-1981185920-1192215 |
Schlagwörter: | Maschinelles Sehen Fine-grained open-world recognition retail |
Zusammenfassung: | Computer-aided visual perception refers to the recognition of objects in images.
It is one of the fundamental problems in computer vision research, where an
algorithm must predict the label of objects in images. Relevant studies have
often aimed to predict the likeliest predefined labels, which have already been
determined during the dataset’s acquisition. More research needs to be conducted
with open datasets without obligating the closed dataset requirement (i.e., having
a complete set of labels during the implementation).
Decades of research were required to predict the likeliest label of an object in an
image with sufficient accuracy for everyday use. Although the currently available
and often data-driven approaches work reasonably well, their ability to predict
labels of objects is similar to that of a three-year-old child. These labels have
a broad complexity, such as differentiating mammals (e.g., dogs or cats). More
fine-grained objects (e.g., different dog breeds) pose new challenges to existing
approaches because minute differences separate one object label from another.
The combination of both problems, namely the fine-grained recognition of objects
in images and recognition without the assumption of a predefined set of labels, is
called a fine-grained open-world recognition problem. This dissertation investigates
the current state of the art in fine-grained open-world recognition (i.e., retail
product recognition) and aims to improve its accuracy. We propose approaches
for overcoming the shortage of fine-labeled datasets by exploiting metaknowledge
of the environment and demonstrate how these approaches can be applied to
acquire datasets at a significant scale. Furthermore, we evaluate the current state
of the art in class-agnostic detection approaches for densely crowded scenes and
propose extensions that increase their accuracy. We also propose approaches for
recognizing the identifier of fine-grained retail products in real-world scenarios
and extend our approach by reducing manually required annotations. Finally,
we examine the orchestration of the newly proposed approaches and compare
their performance with similar approaches proposed during the journey of this
dissertation.
Our fine-grained open-world recognition results demonstrate that the proposed
orchestration, which we call Figaro, improves the accuracy in different datasets.
We significantly increase the mean average precision and mean average recall in
most evaluated datasets, with none containing previously known but fine-grained
objects. Furthermore, we demonstrate that our approach is significantly more
efficient than related works. Our results indicate that Figaro is more than 60 times
faster than the approach it is compared with. Overall, our results demonstrate
that exploiting metaknowledge helps to solve different problems individually,
including data acquisition, object detection, and object recognition. Computergestützte visuelle Wahrnehmung umfasst die Erkennung von Objekten auf Bildern. Es beschreibt eines der fundamentalsten Probleme der Forschung im Bereich der Computervisualistik, wobei die Bezeichnung eines Objektes in einem Bild durch einen Algorithmus vorhergesagt werden muss. Relevante Studien legen dabei besonderen Wert auf die Bestimmung des wahrscheinlichsten Bezeichners aus der Menge der vordefinierten Bezeichner, die bereits häufig bei der Zusammen- stellung des zugrunde liegenden Datensatzes festgelegt wird. Es bedarf weiterer Forschung mit offenen Datensätzen, welcher nicht dieser Einschränkung bei der Erstellung des Datensatz unterlagen. Es bedurfte jahrzehntelanger Forschung, um den wahrscheinlichsten Bezeichner von Objekten in Bildern mit hinreichender Genauigkeit vorhersagen zu können. Zwar sagen bisherige, häufig datengetriebene Algorithmen vorbestimmte Beze- ichner gut voraus, jedoch häufig nur ähnlich wie Kleinkinder. Dabei haben die Bezeichner eher eine grobauflösende Komplexität, wie beispielweise die Unter- scheidung unterschiedlicher Säugetiere (zum Beispiel Hunde und Katzen). Die feingranulare Unterscheidung von Objekten, wie beispielsweise die Bestimmung unterschiedlicher Hunderassen, ist dabei häufig nicht möglich da sehr feine visuelle Unterschiede zwei Bezeichner voneinander abgrenzen. Wir bezeichnen in dieser Arbeit diese beiden Probleme, die Unterscheidung von feingranularen Objekten in Bildern und die Erkennung von vorher unbekannten Objekten, als feingranulare, offene Objekterkennung. Diese Dissertation unter- sucht den aktuellen Stand der Wissenschaft hinsichtlich der feingranularen, offenen Erkennung von Produkten und fokussiert auf die Verbesserung der Genauigkeit. Wir entwickeln neue Methoden, um effizient große Datensätze erheben zu können, wobei wir uns Metawissen über die Umgebung zu Nutze machen. Außerdem un- tersuchen wir den aktuellen Stand der Wissenschaft zur Detektion von Objekten in überfüllten Szenen und entwickeln Erweiterungen, um deren Genauigkeit zu erhöhen. Wir beschreiben von uns entwickelte Methoden zur effizienten Erken- nung feingranularer Produkte auf Bildern. Wir entwickeln diese außerdem weiter, sodass sie mit deutlich weniger manuellen Annotationen trainiert werden kön- nen. Schließlich untersuchen wir das Zusammenspiel dieser Einzellösungen und evaluieren diese im Vergleich zu einem ähnlichen Algorithmus, der im Verlauf dieser Dissertation vorgeschlagen worden ist. Unsere Ergebnisse zeigen, dass wir die Genauigkeit auf unterschiedlichen Daten- sätzen durch das Zusammenspiel der von uns vorgeschlagenen Algorithmen deutlich verbessern konnten. Wir zeigen, dass wir die Genauigkeit und die Sensitivität deutlich auf den getesteten, offenen Datensätzen verbessern konnten, ohne un- seren Algorithmus auf diese abzustimmen. Außerdem zeigen wir die 60-fache Verbesserung der Effizienz mit der von uns vorgeschlagenen Methoden. Insgesamt demonstrieren wir in dieser Dissertation, dass die Ausnutzung von Metawissen über die Umgebung positive Effekte auf die einzelnen Teilprobleme haben kann. |
URI: | https://opendata.uni-halle.de//handle/1981185920/119221 http://dx.doi.org/10.25673/117262 |
Open-Access: | Open-Access-Publikation |
Nutzungslizenz: | (CC BY-SA 4.0) Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International |
Enthalten in den Sammlungen: | Fakultät für Informatik |
Dateien zu dieser Ressource:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
Filax_Marco_Dissertation_2024.pdf | Dissertation | 17.69 MB | Adobe PDF | Öffnen/Anzeigen |