Weakly Supervised Learning for Visual Recognition

Thibaut Durand 1
1 MLIA - Machine Learning and Information Access
LIP6 - Laboratoire d'Informatique de Paris 6
Résumé : Cette thèse s'intéresse au problème de la classification d'images, où l'objectif est de prédire si une catégorie sémantique est présente dans l'image, à partir de son contenu visuel. Pour analyser des images de scènes complexes, il est important d'apprendre des représentations localisées. Pour limiter le coût d’annotation pendant l'apprentissage, nous nous sommes intéressé aux modèles d'apprentissage faiblement supervisé. Dans cette thèse, nous proposons des modèles qui simultanément classifient et localisent les objets, en utilisant uniquement des labels globaux pendant l'apprentissage. L'apprentissage faiblement supervisé permet de réduire le cout d'annotation, mais en contrepartie l'apprentissage est plus difficile. Le problème principal est comment agréger les informations locales (e.g. régions) en une information globale (e.g. image). La contribution principale de cette thèse est la conception de nouvelles fonctions de pooling (agrégation) pour l'apprentissage faiblement supervisé. En particulier, nous proposons une fonction de pooling "max+min", qui unifie de nombreuses fonctions de pooling. Nous décrivons comment utiliser ce pooling dans le framework Latent Structured SVM ainsi que dans un réseau de neurones convolutifs. Pour résoudre les problèmes d’optimisation, nous présentons plusieurs solveurs, dont certains qui permettent d’optimiser une métrique d'ordonnancement (ranking) comme l'Average Precision. Expérimentalement, nous montrons l'intérêt nos modèles par rapport aux méthodes de l'état de l'art, sur dix bases de données standard de classification d'images, incluant ImageNet.
Type de document :
Thèse
Computer Vision and Pattern Recognition [cs.CV]. Université Pierre et Marie Curie, 2017. English
Liste complète des métadonnées

Littérature citée [199 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/tel-01667325
Contributeur : Thibaut Durand <>
Soumis le : mardi 19 décembre 2017 - 11:48:33
Dernière modification le : jeudi 22 novembre 2018 - 14:05:19

Fichier

thesis.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01667325, version 1

Collections

Citation

Thibaut Durand. Weakly Supervised Learning for Visual Recognition. Computer Vision and Pattern Recognition [cs.CV]. Université Pierre et Marie Curie, 2017. English. 〈tel-01667325〉

Partager

Métriques

Consultations de la notice

307

Téléchargements de fichiers

178