Comparaison d'images invariantes affines - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2020

Affine invariant image comparison

Comparaison d'images invariantes affines

Résumé

Image comparison, which consists in deciding whether or not several images represent some common or similar objects, is a problem recognized as difficult, especially because of the viewpoint changes between images. The apparent deformations of objects caused by changes of the camera position can be locally approximated by affine maps. This has motivated the quest for affine invariant local descriptors in the last 15 years. Unfortunately, existing descriptors cannot handle angle viewpoint differences larger than 45 degrees, and fail completely beyond 60 degrees. In this thesis, we address several strategies to resolve this limitation, and we show at the end that they complete each other.Three main branches to obtain affine invariance are actively being investigated by the scientific community:- Through affine simulations followed by (less invariant) matching of many simulated image pairs;- Through a description that is already independent from the viewpoint;- Through local affine patch normalization.In this thesis we explore all three approaches. We start by presenting a distance between affine maps that measures viewpoint deformation. This distance is used to generate optimal (minimal) sets of affine transformations, to be used by Image Matching by Affine Simulation (IMAS) methods. The goal is to reduce the number of affine simulations while keeping the same performance level in the matching process. We use these optimal sets of affine maps and other computational improvements to boost the well established ASIFT method. We also propose a new method, Optimal ARootSIFT whose performance and speed significantly improve on those of ASIFT. As a side quest and direct application of the IMAS methodology, we propose two descriptors suitable to track repeated objects based on the Number of False Alarms (NFA), test their viewpoint tolerance and generate accordingly proper sets of affine simulations. In that way we end up with two IMAS methods able to handle repetitive structures under strong viewpoint differences.Our search for improvement focuses then on local descriptors, which once were manually-designed, but are currently being learned from data with the promise of a better performance. This motivates our proposition of an affine invariant descriptor (called AID) based on a convolutional neural network trained with optical affine simulated data. Even if not trained for occlusion nor noise, the performance of AIDs on real images is surprisingly good. This performance confirms that it might be possible to attain a straightaway common description of a scene regardless of viewpoint.Finally, recent advances in affine patch normalization (e.g. Affnet) help circumvent the lack of affine invariance of state-of-the-art descriptors. As usual with affine normalization, patches are normalized to a single representation and then described. We instead propose to rely not on the precision nor on the existence of a single affine normalizing map, by presenting an Adaptive IMAS method that computes a small set of possible normalizing representations. This method aggregates the Affnet information to attain a good compromise between speed and performance. At the end of the day, our inquiries lead to a method that fuses normalization and simulation ideas to get a still faster and more complete affine invariant image matcher.All in all, affine invariance is a way to remove the viewpoint information from patches and focus on what the scene really describes. However, clues on how geometry is transformed can be useful when matching two images, e.g., recovering the global transformation, the proposal of new tentative matches, among others. With that in mind, we propose a LOCal Affine Transform Estimator (LOCATE) which is proved to be valuable for affine guided matching and homography estimation. These two applications of LOCATE provide complementary tools that improve still more the affine invariant image matchers presented above.
La mise en correspondance d'images, qui consiste à décider si plusieurs images représentent ou non des objets communs ou similaires, est un problème reconnu comme difficile, notamment en raison des changements de point de vue entre les images. Les déformations apparentes des objets causées par les changements de position de la caméra peuvent être approximées localement par des transformations affines. Cette propriété a motivé la recherche de descripteurs locaux invariants affines depuis une quinzaine d'années. Malheureusement, les descripteurs existants ne permettent pas de traiter des différences de point de vue d'angle supérieures à 45 degrés, et échouent complètement au-delà de 60 degrés. Dans cette thèse, nous abordons plusieurs stratégies pour résoudre cette limitation, et nous montrons qu'elles se complètent.Trois directions principales pour obtenir l'invariance affine sont activement étudiées par la communauté scientifique :- Par des simulations affines suivies d'un appariement (moins invariant) de nombreux couples d'images simulées ;- Par une description indépendante du point de vue ;- Grâce à une normalisation affine locale de patchs.Dans cette thèse, nous explorons les trois approches. Nous commençons par présenter une distance entre les transformations affines qui mesure la déformation du point de vue. Cette distance est utilisée pour générer des ensembles optimaux (minimaux) de transformations affines, qui sont utilisés par les méthodes de mise en correspondance d'images par simulation affine (IMAS). L'objectif est de réduire le nombre de simulations affines à simuler tout en conservant le même niveau de performance dans le processus d'appariement. Nous utilisons ces ensembles optimaux de transformations affines et d'autres améliorations informatiques pour renforcer la méthode ASIFT. Nous proposons également une nouvelle méthode, Optimal ARootSIFT, dont les performances et la vitesse sont nettement supérieures à celles d'ASIFT. Dans une application directe de la méthodologie IMAS pour un problème connexe, nous proposons deux descripteurs permettant de suivre des objets répétés en mesurant un nombre de fausses alarmes (NFA), de tester leur tolérance au changement de point de vue, et de générer en conséquence des ensembles appropriés de simulations affines. De cette façon, nous obtenons deux méthodes IMAS capables de traiter des structures répétitives avec de fortes différences de points de vue.Notre recherche d'amélioration se concentre ensuite sur les descripteurs locaux, qui étaient autrefois conçus heuristiquement, mais qui sont actuellement appris à partir de données massives, avec la promesse d'une meilleure performance. Nous proposons un descripteur invariant affine (appelé AID) appris par un réseau neuronal convolutionnel entraîné avec des données simulées. Même si ce réseau n'est pas entraîné pour les occlusions ou le bruit, la performance des descripteurs AIDs sur des images réelles est étonnamment bonne. Cette performance confirme qu'il est possible d'obtenir immédiatement une description commune d'une scène, quel que soit le point de vue.Enfin, les progrès récents dans la normalisation affine des patchs (par exemple Affnet) permettent de contourner l'absence d'invariance affine des descripteurs de l'état de l'art. Comme d'habitude avec la normalisation affine, les patchs sont normalisés en une représentation unique, qui est transformée en descripteur. Nous préférons ne pas nous fier à la précision ni à l'existence d'une seule normalisation affine, et présentons une méthode IMAS adaptative qui calcule un petit ensemble de représentations normalisantes possibles. Cette méthode agrège les informations d'Affnet pour obtenir un bon compromis entre vitesse et performance. En fin de compte, nos recherches aboutissent à une méthode qui fusionne les idées de normalisation et de simulation pour obtenir une mise en correspondance d'images invariante affine encore plus rapide et plus complète.
Fichier principal
Vignette du fichier
81413_RODRIGUEZ_2020_archivage.pdf (84.68 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02954027 , version 1 (30-09-2020)
tel-02954027 , version 2 (06-11-2020)

Identifiants

  • HAL Id : tel-02954027 , version 2

Citer

Mariano Rodriguez. Comparaison d'images invariantes affines. Mathématiques générales [math.GM]. Université Paris-Saclay, 2020. Français. ⟨NNT : 2020UPASN022⟩. ⟨tel-02954027v2⟩
282 Consultations
17 Téléchargements

Partager

Gmail Facebook X LinkedIn More