Learnable factored image representation for visual discovery

Théophile Dalens

Thèse Année : 2019

Learnable factored image representation for visual discovery

Apprentissage de représentation factorisée d'image pour découverte visuelle

(1)

Théophile Dalens

Fonction : Auteur

Département d'informatique - ENS Paris

Résumé

This thesis proposes an approach for analyzing unpaired visual data annotated with time stamps by generating how images would have looked like if they were from different times. To isolate and transfer time dependent appearance variations, we introduce a new trainable bilinear factor separation module. We analyze its relation to classical factored representations and concatenation-based auto-encoders. We demonstrate this new module has clear advantages compared to standard concatenation when used in a bottleneck encoder-decoder convolutional neural network architecture. We also show that it can be inserted in a recent adversarial image translation architecture, enabling the image transformation to multiple different target time periods using a single network.

L'objectif de cette thèse est de développer des outils pour analyser les collections d'images temporelles afin d'identifier et de mettre en évidence les tendances visuelles à travers le temps. Cette thèse propose une approche pour l'analyse de données visuelles non appariées annotées avec le temps en générant à quoi auraient ressemblé les images si elles avaient été d'époques différentes. Pour isoler et transférer les variations d'apparence dépendantes du temps, nous introduisons un nouveau module bilinéaire de séparation de facteurs qui peut être entraîné. Nous analysons sa relation avec les représentations factorisées classiques et les auto-encodeurs basés sur la concaténation. Nous montrons que ce nouveau module présente des avantages par rapport à un module standard de concaténation lorsqu'il est utilisé dans une architecture de réseau de neurones convolutionnel encodeur-décodeur à goulot. Nous montrons également qu'il peut être inséré dans une architecture récente de traduction d'images à adversaire, permettant la transformation d'images à différentes périodes de temps cibles en utilisant un seul réseau.

Mots clés

Machine learning Computer vision Visual discovery

Apprentissage Vision par ordinateur Découverte visuelle

Domaines

Vision par ordinateur et reconnaissance de formes [cs.CV] Apprentissage [cs.LG]

Fichier principal

Dalens-2019-These.pdf (23.81 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-02931611

Soumis le : lundi 7 septembre 2020-09:48:16

Dernière modification le : vendredi 19 avril 2024-16:18:56

Archivage à long terme le : mercredi 2 décembre 2020-21:16:06

Dates et versions

tel-02931611 , version 1 (07-09-2020)

Identifiants

HAL Id : tel-02931611 , version 1

Citer

Théophile Dalens. Learnable factored image representation for visual discovery. Computer Vision and Pattern Recognition [cs.CV]. Université Paris sciences et lettres, 2019. English. ⟨NNT : 2019PSLEE036⟩. ⟨tel-02931611⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENS-PARIS CNRS INRIA STAR THESES-ENS PSL

153 Consultations

43 Téléchargements

Learnable factored image representation for visual discovery

Apprentissage de représentation factorisée d'image pour découverte visuelle

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager