Please use this identifier to cite or link to this item: http://dx.doi.org/10.25673/117262
Title: Fine-grained open-world recognition identifying retail products in supermarkets
Author(s): Filax, Marco
Referee(s): Ortmeier, Frank
Leich, Thomas
Granting Institution: Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik
Issue Date: 2024
Extent: vi, 183 Seiten
Type: HochschulschriftLook up in the Integrated Authority File of the German National Library
Type: PhDThesis
Exam Date: 2024
Language: English
URN: urn:nbn:de:gbv:ma9:1-1981185920-1192215
Subjects: Maschinelles Sehen
Fine-grained
open-world recognition
retail
Abstract: Computer-aided visual perception refers to the recognition of objects in images. It is one of the fundamental problems in computer vision research, where an algorithm must predict the label of objects in images. Relevant studies have often aimed to predict the likeliest predefined labels, which have already been determined during the dataset’s acquisition. More research needs to be conducted with open datasets without obligating the closed dataset requirement (i.e., having a complete set of labels during the implementation). Decades of research were required to predict the likeliest label of an object in an image with sufficient accuracy for everyday use. Although the currently available and often data-driven approaches work reasonably well, their ability to predict labels of objects is similar to that of a three-year-old child. These labels have a broad complexity, such as differentiating mammals (e.g., dogs or cats). More fine-grained objects (e.g., different dog breeds) pose new challenges to existing approaches because minute differences separate one object label from another. The combination of both problems, namely the fine-grained recognition of objects in images and recognition without the assumption of a predefined set of labels, is called a fine-grained open-world recognition problem. This dissertation investigates the current state of the art in fine-grained open-world recognition (i.e., retail product recognition) and aims to improve its accuracy. We propose approaches for overcoming the shortage of fine-labeled datasets by exploiting metaknowledge of the environment and demonstrate how these approaches can be applied to acquire datasets at a significant scale. Furthermore, we evaluate the current state of the art in class-agnostic detection approaches for densely crowded scenes and propose extensions that increase their accuracy. We also propose approaches for recognizing the identifier of fine-grained retail products in real-world scenarios and extend our approach by reducing manually required annotations. Finally, we examine the orchestration of the newly proposed approaches and compare their performance with similar approaches proposed during the journey of this dissertation. Our fine-grained open-world recognition results demonstrate that the proposed orchestration, which we call Figaro, improves the accuracy in different datasets. We significantly increase the mean average precision and mean average recall in most evaluated datasets, with none containing previously known but fine-grained objects. Furthermore, we demonstrate that our approach is significantly more efficient than related works. Our results indicate that Figaro is more than 60 times faster than the approach it is compared with. Overall, our results demonstrate that exploiting metaknowledge helps to solve different problems individually, including data acquisition, object detection, and object recognition.
Computergestützte visuelle Wahrnehmung umfasst die Erkennung von Objekten auf Bildern. Es beschreibt eines der fundamentalsten Probleme der Forschung im Bereich der Computervisualistik, wobei die Bezeichnung eines Objektes in einem Bild durch einen Algorithmus vorhergesagt werden muss. Relevante Studien legen dabei besonderen Wert auf die Bestimmung des wahrscheinlichsten Bezeichners aus der Menge der vordefinierten Bezeichner, die bereits häufig bei der Zusammen- stellung des zugrunde liegenden Datensatzes festgelegt wird. Es bedarf weiterer Forschung mit offenen Datensätzen, welcher nicht dieser Einschränkung bei der Erstellung des Datensatz unterlagen. Es bedurfte jahrzehntelanger Forschung, um den wahrscheinlichsten Bezeichner von Objekten in Bildern mit hinreichender Genauigkeit vorhersagen zu können. Zwar sagen bisherige, häufig datengetriebene Algorithmen vorbestimmte Beze- ichner gut voraus, jedoch häufig nur ähnlich wie Kleinkinder. Dabei haben die Bezeichner eher eine grobauflösende Komplexität, wie beispielweise die Unter- scheidung unterschiedlicher Säugetiere (zum Beispiel Hunde und Katzen). Die feingranulare Unterscheidung von Objekten, wie beispielsweise die Bestimmung unterschiedlicher Hunderassen, ist dabei häufig nicht möglich da sehr feine visuelle Unterschiede zwei Bezeichner voneinander abgrenzen. Wir bezeichnen in dieser Arbeit diese beiden Probleme, die Unterscheidung von feingranularen Objekten in Bildern und die Erkennung von vorher unbekannten Objekten, als feingranulare, offene Objekterkennung. Diese Dissertation unter- sucht den aktuellen Stand der Wissenschaft hinsichtlich der feingranularen, offenen Erkennung von Produkten und fokussiert auf die Verbesserung der Genauigkeit. Wir entwickeln neue Methoden, um effizient große Datensätze erheben zu können, wobei wir uns Metawissen über die Umgebung zu Nutze machen. Außerdem un- tersuchen wir den aktuellen Stand der Wissenschaft zur Detektion von Objekten in überfüllten Szenen und entwickeln Erweiterungen, um deren Genauigkeit zu erhöhen. Wir beschreiben von uns entwickelte Methoden zur effizienten Erken- nung feingranularer Produkte auf Bildern. Wir entwickeln diese außerdem weiter, sodass sie mit deutlich weniger manuellen Annotationen trainiert werden kön- nen. Schließlich untersuchen wir das Zusammenspiel dieser Einzellösungen und evaluieren diese im Vergleich zu einem ähnlichen Algorithmus, der im Verlauf dieser Dissertation vorgeschlagen worden ist. Unsere Ergebnisse zeigen, dass wir die Genauigkeit auf unterschiedlichen Daten- sätzen durch das Zusammenspiel der von uns vorgeschlagenen Algorithmen deutlich verbessern konnten. Wir zeigen, dass wir die Genauigkeit und die Sensitivität deutlich auf den getesteten, offenen Datensätzen verbessern konnten, ohne un- seren Algorithmus auf diese abzustimmen. Außerdem zeigen wir die 60-fache Verbesserung der Effizienz mit der von uns vorgeschlagenen Methoden. Insgesamt demonstrieren wir in dieser Dissertation, dass die Ausnutzung von Metawissen über die Umgebung positive Effekte auf die einzelnen Teilprobleme haben kann.
URI: https://opendata.uni-halle.de//handle/1981185920/119221
http://dx.doi.org/10.25673/117262
Open Access: Open access publication
License: (CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0(CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0
Appears in Collections:Fakultät für Informatik

Files in This Item:
File Description SizeFormat 
Filax_Marco_Dissertation_2024.pdfDissertation17.69 MBAdobe PDFThumbnail
View/Open