Deep semantic-visual embedding with localization

Résumé : Nous proposons dans ce papier un réseau de neurones profond pour apprendre un alignement entre des images et leurs descriptions textuelles. Notre architecture est ba-sée sur un réseau à deux branches, l'une visuelle, béné-ficiant des mécanismes d'agrégation (pooling) récents, et l'autre encodant l'information textuelle. L'ensemble du ré-seau est appris de bout en bout dans un schéma supervisé par des paires (image,légende textuelle), fournissant alors une représentation sémantique exploitable dans différents contextes. Notre système obtient des résultats état-de-l'art sur une tâche importante de recherche d'information croi-sée image-texte. Nous montrons également sa capacité à découvrir la position des concepts de l'espace sémantique dans les images, permettant ainsi d'ancrer des phrases sur des parties d'images. Mots Clef Alignement multimodal, Recherche d'information multi-modale, Localisation d'information visuelle. Abstract In this paper, we introduce a deep network to learn a cross-modal mapping between images and texts. It is based on two-path neural network combining a visual path that leverages recent space-aware pooling mechanisms with a tex-tual path. Jointly trained from scratch, our semantic-visual embedding offers a versatile model. Once trained under the supervision of captioned images, it yields new state-of-the-art performance on cross-modal retrieval. It also allows the localization of new concepts from the embedding space into any input image, delivering state-of-the-art result on the visual grounding of phrases.
Complete list of metadatas

Cited literature [43 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-02171880
Contributor : Martin Engilberge <>
Submitted on : Wednesday, July 3, 2019 - 11:33:50 AM
Last modification on : Wednesday, July 10, 2019 - 1:35:55 AM

File

rfiap2018.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-02171880, version 1

Citation

Martin Engilberge, Louis Chevallier, Patrick Pérez, Matthieu Cord. Deep semantic-visual embedding with localization. RFIAP 2018 - Congrès Reconnaissance des Formes, Image, Apprentissage et Perception, Jun 2018, Marne-la-Vallée, France. ⟨hal-02171880⟩

Share

Metrics

Record views

53

Files downloads

48