Topic Models for Image Retrieval on Large-Scale Databases

  • With the explosion of the number of images in personal and on-line collections, efficient techniques for navigating, indexing, labeling and searching images become more and more important. In this work we will rely on the image content as the main source of information to retrieve images. We study the representation of images by topic models in its various aspects and extend the current models. Starting from a bag-of-visual-words image description based on local image features, images representations are learned in an unsupervised fashion and each image is modeled as a mixture of topics/object parts depicted in the image. Thus topic models allow us to automatically extract high-level image content descriptions which in turn can be used to find similar images. Further, the typically low-dimensional topic-model-based representation enables efficient and fast search, especially in very large databases. In this thesis we present a complete image retrieval system based on topic models andWith the explosion of the number of images in personal and on-line collections, efficient techniques for navigating, indexing, labeling and searching images become more and more important. In this work we will rely on the image content as the main source of information to retrieve images. We study the representation of images by topic models in its various aspects and extend the current models. Starting from a bag-of-visual-words image description based on local image features, images representations are learned in an unsupervised fashion and each image is modeled as a mixture of topics/object parts depicted in the image. Thus topic models allow us to automatically extract high-level image content descriptions which in turn can be used to find similar images. Further, the typically low-dimensional topic-model-based representation enables efficient and fast search, especially in very large databases. In this thesis we present a complete image retrieval system based on topic models and evaluate the suitability of different types of topic models for the task of large-scale retrieval on real-world databases. Different similarity measure are evaluated in a retrieval-by-example task. Next, we focus on the incorporation of different types of local image features in the topic models. For this, we first evaluate which types of feature detectors and descriptors are appropriate to model the images, then we propose and explore models that fuse multiple types of local features. All basic topic models require the quantization of the otherwise high-dimensional continuous local feature vectors into a finite, discrete vocabulary to enable the bag-of-words image representation the topic models are built on. As it is not clear how to optimally quantize the high-dimensional features, we introduce different extensions to a basic topic model which model the visual vocabulary continuously, making the quantization step obsolete. On-line image repositories of the Web 2.0 often store additional information about the images besides their pixel values, called metadata, such as associated tags, date of creation, ownership and camera parameters. In this work we also investigate how to include such cues in our retrieval system. We present work in progress on (hierarchical) models which fuse features from multiple modalities. Finally, we present an approach to find the most relevant images, i.e., very representative images, in a large web-scale collection given a query term. Our unsupervised approach ranks highest the image whose image content and its various metadata types gives us the highest probability according to the model we automatically build for this tag. Throughout this thesis, the suitability of all proposed models and approaches is demonstrated by user studies on a real-world, large-scale database in the context of image retrieval tasks. We use databases consisting of more than 240,000 images which have been downloaded from the public Flickr repository.show moreshow less
  • Durch die Digitalfotographie erhöht sich die Anzahl der Bilder in öffentlichen und persönlichen Bilddatenbanken stetig. Dieses Wachstum macht eine Entwicklung geeigneter Verfahren zur Indizierung, Navigation, Annotation und Bildsuche notwendig. In dieser Arbeit wird der Bildinhalt als Hauptinformationsquelle für die Suche von Bildern herangezogen und die Repräsentation der Bilder durch Themenmodelle untersucht. Hierbei werden, ausgehend von einer wortmengenbasierten Bildbeschreibung auf Grundlage von lokalen Bildmerkmalen, Bildrepräsentationen unüberwacht gelernt. Diese modellieren jedes Bild als eine Mischung aus Themen bzw. Objektteilen, die im Bild dargestellt sind. Folglich ermöglichen Themenmodelle eine automatische Extrahierung von Bildinhaltsbeschreibungen, die wiederum zum Auffinden ähnlicher Bilder in einer Datenbank verwendet werden können. Weiterhin ermöglicht die typischerweise niedrigdimensionale themenmodellbasierte Repräsentation eine effiziente und schnelle Suche inDurch die Digitalfotographie erhöht sich die Anzahl der Bilder in öffentlichen und persönlichen Bilddatenbanken stetig. Dieses Wachstum macht eine Entwicklung geeigneter Verfahren zur Indizierung, Navigation, Annotation und Bildsuche notwendig. In dieser Arbeit wird der Bildinhalt als Hauptinformationsquelle für die Suche von Bildern herangezogen und die Repräsentation der Bilder durch Themenmodelle untersucht. Hierbei werden, ausgehend von einer wortmengenbasierten Bildbeschreibung auf Grundlage von lokalen Bildmerkmalen, Bildrepräsentationen unüberwacht gelernt. Diese modellieren jedes Bild als eine Mischung aus Themen bzw. Objektteilen, die im Bild dargestellt sind. Folglich ermöglichen Themenmodelle eine automatische Extrahierung von Bildinhaltsbeschreibungen, die wiederum zum Auffinden ähnlicher Bilder in einer Datenbank verwendet werden können. Weiterhin ermöglicht die typischerweise niedrigdimensionale themenmodellbasierte Repräsentation eine effiziente und schnelle Suche in sehr großen Datenbanken. In dieser Dissertation wird ein komplettes Bildsuchsystem basierend auf Themenmodellen vorgestellt und die Eignung verschiedener existierender Themenmodelle für die Bildsuche in sehr großen Datenbanken untersucht. Außerdem wird der Einfluss unterschiedlicher Ähnlichkeitsmaße auf das Ergebnis der Suche mittels Beispielbild evaluiert. Ein weiterer Fokus der Arbeit liegt auf der Einbindung verschiedener Typen von lokalen Bildmerkmalen in die Themenmodelle. Hierfür wird zunächst ein Vergleich unterschiedlicher lokaler Beschreibungen im Hinblick auf ihre Eignung für die Bildsuche vorgenommen. Weiterhin werden Themenmodelle zur Fusionierung mehrerer Typen von lokalen Merkmalen untersucht. Um die Erstellung der Wortmengenmodelle zu ermöglichen, erfordern alle bisherigen Themenmodelle eine Quantisierung der hochdimensionalen kontinuierlichen lokalen Merkmalsvektoren in ein diskretes, endliches Vokabular. Allerdings ist es nicht offensichtlich, wie diese Quantisierung optimaler Weise durchgeführt werden soll. In dieser Arbeit werden verschiedene Erweiterungen der ursprünglichen Themenmodelle vorgestellt, die das visuelle Vokabular kontinuierlich modellieren und somit eine Quantisierung überflüssig machen. Öffentliche Bilddatenbanken des Web 2.0 speichern häufig Zusatzinformationen zu den Bildern, die sogenannten Metadaten, die einen Hinweis auf den Bildinhalt enthalten können. Hierzu zählen beispielsweise von Benutzern erstellte Annotationen, sowie Kameraparameter oder der Ort der Aufnahme. Im Rahmen dieser Arbeit werden die Möglichkeiten zur Einbindung solcher zusätzlichen Hinweise in das Suchsystem untersucht und geeignete (hierarchische) Modelle vorgestellt, die Merkmale von mehreren Modalitäten fusionieren. Schließlich wird ein Ansatz zum Auffinden der relevantesten Bilder, d.h. sehr repräsentativer Bilder, zu einem Suchbegriff in einer sehr großen Bildsammlung vorgestellt. Dieser Ansatz lernt unüberwacht für jeden Term ein Modell und ordnet dann demjenigen Bild den höchsten Rang zu, dessen Bildinhalt und Metadaten die höchste Wahrscheinlichkeit bezüglich des Modells erhält. Die Eignung aller vorgestellten Ansätze für die Bildsuche wird mittels Benutzerstudien auf einer realen, sehr großen Datenbank demonstriert. Hierfür wird eine Datenbank bestehend aus über 240.000 Bildern herangezogen. Alle Bilder wurden aus der öffentlichen Flickr-Datenbank heruntergeladen.show moreshow less

Download full text files

Export metadata

Statistics

Number of document requests

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Eva HörsterGND
URN:urn:nbn:de:bvb:384-opus-14279
Frontdoor URLhttps://opus.bibliothek.uni-augsburg.de/opus4/1329
Title Additional (German):Bildsuche auf sehr großen Datenbanken mittels Themenmodellen
Advisor:Rainer Lienhart
Type:Doctoral Thesis
Language:English
Publishing Institution:Universität Augsburg
Granting Institution:Universität Augsburg, Fakultät für Angewandte Informatik
Date of final exam:2009/07/14
Release Date:2009/11/06
Tag:Bildsuche; große Datenbanken
content based image retrieval; topic models
GND-Keyword:Bildverarbeitung; Bildersuchmaschine; Mustererkennung; Automatische Inhaltsanalyse; Statistisches Modell
Institutes:Fakultät für Angewandte Informatik
Fakultät für Angewandte Informatik / Institut für Informatik
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
Licence (German):Deutsches Urheberrecht