Learning an Adaptation Function to Assess Image Visual Similarities - Laboratoire d'Informatique PAris DEscartes - EA 2517 Accéder directement au contenu
Communication Dans Un Congrès Année : 2021

Learning an Adaptation Function to Assess Image Visual Similarities

Fonction d'adaptation pour similarité visuelle

Résumé

Human perception is routinely assessing the similarity between images, both for decision making and creative thinking. But the underlying cognitive process is not really well understood yet, hence difficult to be mimicked by computer vision systems. State-of-the-art approaches using deep architectures are often based on the comparison of images described as feature vectors learned for image categorization task. As a consequence, such features are powerful to compare semantically related images but not really efficient to compare images visually similar but semantically unrelated. Inspired by previous works on neural features adaptation to psycho-cognitive representations, we focus here on the specific task of learning visual image similarities when analogy matters. We propose to compare different supervised, semi-supervised and self-supervised networks, pre-trained on distinct scales and contents datasets (such as ImageNet-21k, ImageNet-1K or VGGFace2) to conclude which model may be the best to approximate the visual cortex and learn only an adaptation function corresponding to the approximation of the the primate IT cortex through the metric learning framework. Our experiments conducted on the Totally Looks Like image dataset highlight the interest of our method, by increasing the retrieval scores of the best model @1 by 2.25×. This research work was recently accepted for publication at the ICIP 2021 international conference [1]. In this new article, we expand on this previous work by using and comparing new pre-trained feature extractors on other datasets.
La perception humaine évalue régulièrement la similarité entre les images pour la prise de décision ainsi que la pensée créative. Mais le fonctionnement du système cognitif sous-jacent n’est pas encore réellement compris, il reste donc difficile à imiter. Les approches de l’état de l’art utilisant des architectures profondes sont souvent basées sur la comparaison des images décrites comme des vecteurs de caractéristiques appris pour la reconnaissance d’image. Ces caractéristiques sont importantes dans la comparaison sémantique des images mais ne sont pas réellement efficaces pour la comparaison des images visuellement similaires sans aucun lien sémantique. Inspiré par les précédentes recherches sur l’adaptation des caractéristiques neuronales aux représentations psycho-cognitives, nous nous focalisons ici sur l’apprentissage des similarités visuelles des images lorsque l’analogie joue un rôle considérable. Nous proposons d’utiliser différentes couches d’un CNN basé sur la classification (pré-entraîné sur ImageNet) ainsi que de comparer différents réseaux supervisés, semi-supervisés et self-supervisés pré-entraînés sur des bases de données différentes par leur quantité et contenu des données) (ImageNet-21k, ImageNet-1K ou VGGFace2) pour arriver à une meilleure approximation du cortex visuel et apprendre uniquement une fonction d’adaptation correspondante au cortex inférieur temporel primate à traversl’apprentissage de métriques. Les expériences menées sur le jeu de données Totally Looks Like mettent en évidence l’intérêt de notre méthode, en augmentant de 2,25× les scores de récupération du meilleur modèle @1. Ce travail de recherche a récemment été accepté pour publication à la conférence internationale ICIP 2021 [1]. Dans ce nouvel article, nous développons ce travail précédent en utilisant et en comparant de nouveaux extracteurs de caractéristiques pré-entraînés sur d’autres ensembles de données.
Fichier principal
Vignette du fichier
ORASIS21.pdf (4.03 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03339731 , version 1 (09-09-2021)
hal-03339731 , version 2 (02-06-2022)

Identifiants

Citer

Olivier Risser-Maroix, Amine Marzouki, Hala Djeghim, Camille Kurtz, Nicolas Lomenie. Learning an Adaptation Function to Assess Image Visual Similarities. ORASIS 2021, Centre National de la Recherche Scientifique [CNRS], Sep 2021, Saint Ferréol, France. ⟨hal-03339731v2⟩

Collections

LIPADE UP-SCIENCES
309 Consultations
127 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More