Contributions pour la Recherche d'Images par Composantes Visuelles - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2003

Contributions to Image Retrieval by their Visual Components

Contributions pour la Recherche d'Images par Composantes Visuelles

Résumé

In the context of information retrieval by visual content, when the user formulates a visual query, his/her query target is rarely represented by a whole image as assumed in the usual paradigm of query by image example. An image should not be considered as an atomic entity since it is generally formed of a composite set of visual parts which express certain semantics.

A visual information retrieval system should allow the user to explicitly point out the visual target using the various image components. In our work the goal was to investigate methods to define visual search keys which allow the user to express this visual target and to design and efficiently implement these methods.

The original contributions proposed in this thesis are new approaches which allow the retrieval of images from their various visual components using two distinct query paradigms.

The first paradigm is the query by region example. It consists in retrieving images containing an image part similar to a query visual part. For this paradigm we have designed an approach of coarse segmentation into regions followed by a fine description of these regions. Coarse regions, extracted by our new unsupervised segmentation algorithm from images in the database, represent visually salient components in each image. This decomposition allows the user to separately point out a region of interest for his/her query. Query by similar regions in the image database relies on a new region descriptor (ADCS). It provides a fine, compact and adaptive characterization of region photometric appearance, in order to take into account the specificity of a database of region descriptors. In this new approach, segmentation is fast and extracted regions are intuitive for the user. Fine description improves the similarity of retrieved regions compared to existing descriptors, thanks to the increased accuracy of region content description.

Our second contribution concerns the development of a new image query paradigm by logical composition of region categories. This paradigm has the advantage of providing a solution to the "page zero" problem. It allows the user to attain images, if they exist in the database, which are close to the mental representation of the user visual target. No image nor region example is necessary to formulate the query. This paradigm relies on the unsupervised generation of a region photometric thesaurus constituted by the visual summary of regions in the database. To formulate a query the user can access this summary directly by means of logical composition operators on these different visual parts. Note that a visual item in this summary is a representative of a photometric class of regions. Logical queries on image content relate to those in text retrieval. The originality of this paradigm opens rich perspectives for future work in visual information retrieval.
Dans le contexte de la recherche d'information par le contenu visuel, lorsque l'utilisateur formule une requête visuelle, sa cible de recherche est rarement représentée par une image entière comme le suppose le paradigme classique de recherche par une image exemple. L'image ne doit pas être traitée comme une unité atomique, car elle est généralement constituée d'un ensemble composite de zones visuelles exprimant une certaine sémantique.

Un système de recherche d'information visuelle doit permettre à l'utilisateur de désigner d'une manière explicite la cible visuelle qu'il recherche se rapportant aux différentes composantes de l'image. Notre objectif au cours de ce travail a été de réfléchir à comment définir des clés de recherche visuelle permettant à l'utilisateur d'exprimer cette cible visuelle, de concevoir et d'implémenter efficacement les méthodes correspondantes.

Les contributions originales de cette thèse portent sur de nouvelles approches permettant de retrouver des images à partir de leurs différentes composantes visuelles selon deux paradigmes de recherche distincts.

Le premier paradigme est celui de la recherche par région exemple. Il consiste à retrouver les images comportant une partie d'image similaire à une partie visuelle requête. Pour ce paradigme, nous avons mis au point une approche de segmentation grossière en régions et de description fine de ces régions ensuite. Les régions grossières des images de la base, extraites par notre nouvel algorithme de segmentation non supervisée, représentent les composantes visuellement saillantes de chaque image. Cette décomposition permet à l'utilisateur de désigner séparément une région d'intérêt pour sa requête. La recherche de régions similaires dans les images de la base repose sur un nouveau descripteur de régions (ADCS). Il offre une caractérisation fine, compacte et adaptative de l'apparence photométrique des régions, afin de tenir compte de la spécificité d'une base de descripteurs de régions. Dans cette nouvelle approche, la segmentation est rapide et les régions extraites sont intuitives pour l'utilisateur. La finesse de description des régions améliore la similarité des régions retournées par rapport aux descripteurs existants, compte tenu de la fidélité accrue au contenu des régions.

Notre seconde contribution porte sur l'élaboration d'un nouveau paradigme de recherche d'images par composition logique de catégories de régions. Ce paradigme présente l'avantage d'apporter une solution au problème de la page zéro. Il permet d'atteindre les images, quand elles existent dans la base, qui se rapprochent de la représentation mentale de la cible visuelle de l'utilisateur. Ainsi aucune image ou région exemple n'est nécessaire au moment de la formulation de la requête. Ce paradigme repose sur la génération non-supervisée d'un thésaurus photométrique constitué par le résumé visuel des régions de la base. Pour formuler sa requête, l'utilisateur accède directement à ce résumé en disposant d'opérateurs de composition logique de ces différentes parties visuelles. Il est à noter qu'un item visuel dans ce résumé est un représentant d'une classe photométrique de régions. Les requêtes logiques sur le contenu des images s'apparentent à celles en recherche de texte. L'originalité de ce paradigme ouvre des perspectives riches pour de futurs travaux en recherche d'information visuelle.
Fichier principal
Vignette du fichier
tel-00007090.pdf (4.53 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00007090 , version 1 (12-10-2004)

Identifiants

  • HAL Id : tel-00007090 , version 1

Citer

Julien Fauqueur. Contributions pour la Recherche d'Images par Composantes Visuelles. Interface homme-machine [cs.HC]. Université de Versailles-Saint Quentin en Yvelines, 2003. Français. ⟨NNT : ⟩. ⟨tel-00007090⟩

Collections

INRIA INRIA2
281 Consultations
417 Téléchargements

Partager

Gmail Facebook X LinkedIn More