Learnable factored image representation for visual discovery - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2019

Learnable factored image representation for visual discovery

Apprentissage de représentation factorisée d'image pour découverte visuelle

Résumé

This thesis proposes an approach for analyzing unpaired visual data annotated with time stamps by generating how images would have looked like if they were from different times. To isolate and transfer time dependent appearance variations, we introduce a new trainable bilinear factor separation module. We analyze its relation to classical factored representations and concatenation-based auto-encoders. We demonstrate this new module has clear advantages compared to standard concatenation when used in a bottleneck encoder-decoder convolutional neural network architecture. We also show that it can be inserted in a recent adversarial image translation architecture, enabling the image transformation to multiple different target time periods using a single network.
L'objectif de cette thèse est de développer des outils pour analyser les collections d'images temporelles afin d'identifier et de mettre en évidence les tendances visuelles à travers le temps. Cette thèse propose une approche pour l'analyse de données visuelles non appariées annotées avec le temps en générant à quoi auraient ressemblé les images si elles avaient été d'époques différentes. Pour isoler et transférer les variations d'apparence dépendantes du temps, nous introduisons un nouveau module bilinéaire de séparation de facteurs qui peut être entraîné. Nous analysons sa relation avec les représentations factorisées classiques et les auto-encodeurs basés sur la concaténation. Nous montrons que ce nouveau module présente des avantages par rapport à un module standard de concaténation lorsqu'il est utilisé dans une architecture de réseau de neurones convolutionnel encodeur-décodeur à goulot. Nous montrons également qu'il peut être inséré dans une architecture récente de traduction d'images à adversaire, permettant la transformation d'images à différentes périodes de temps cibles en utilisant un seul réseau.
Fichier principal
Vignette du fichier
Dalens-2019-These.pdf (23.81 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02931611 , version 1 (07-09-2020)

Identifiants

  • HAL Id : tel-02931611 , version 1

Citer

Théophile Dalens. Learnable factored image representation for visual discovery. Computer Vision and Pattern Recognition [cs.CV]. Université Paris sciences et lettres, 2019. English. ⟨NNT : 2019PSLEE036⟩. ⟨tel-02931611⟩
153 Consultations
43 Téléchargements

Partager

Gmail Facebook X LinkedIn More