Apprentissage multimodal de représentation de mots à l'aide de contexte visuel

Eloi Zablocki; Benjamin Piwowarski; Laure Soulier; Patrick Gallinari

Communication Dans Un Congrès Année : 2018

Apprentissage multimodal de représentation de mots à l'aide de contexte visuel

(1) , (2) , (1) , (1)

1
2

Eloi Zablocki

Fonction : Auteur
PersonId : 1034688

Machine Learning and Information Access

Benjamin Piwowarski

Fonction : Auteur
PersonId : 9362
IdHAL : benjamin-piwowarski
ORCID : 0000-0001-6792-3262
IdRef : 226846601

Bases de Données

Laure Soulier

Fonction : Auteur
PersonId : 8070
IdHAL : soulierl
ORCID : 0000-0001-9827-7400
IdRef : 189293683

Machine Learning and Information Access

Patrick Gallinari

Fonction : Auteur
PersonId : 751615
IdHAL : patrick-gallinari
ORCID : 0000-0001-9060-9001
IdRef : 070709076

Machine Learning and Information Access

Résumé

Représenter la sémantique d'un mot est un défi ma-jeur pour pouvoir traiter automatiquement le langage. Jusqu'à présent, une grande partie des méthodes déter-minent le sens d'un mot via ses contextes dans un corpus de texte. Plus récemment, certains auteurs se sont intéressés à l'apparence visuelle d'un objet pour amé-liorer la représentation sémantique du mot correspon-dant. Cependant, ces travaux ignorent l'environnement et le contexte visuel dans lequel l'objet apparaît. Dans cet article, nous proposons d'apprendre la représenta-tion des mots en bénéficiant de la complémentarité des modalités texte et image par la prise en compte simul-tanée des contextes textuels et visuels des mots. Nous explorons plusieurs choix de modélisation de contexte visuel, et présentons une méthode jointe qui intègre le contexte visuel dans un modèle skip-gram multimodal. Enfin, l'apport de ces représentations dans des tâches d'analyse sémantiques est évaluée sur plusieurs jeux de données. Cet article est une traduction de [ZPSG18].

Domaines

Informatique [cs] Intelligence artificielle [cs.AI] Réseau de neurones [cs.NE] Traitement du texte et du document Apprentissage [cs.LG]

Fichier principal

Apprentissage_multimodal_de_repr_sentation_de_mots___l_aide_de_contexte_visuel.pdf (1.12 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

eloi zablocki : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01842358

Soumis le : mercredi 18 juillet 2018-11:02:03

Dernière modification le : samedi 7 octobre 2023-21:36:22

Archivage à long terme le : vendredi 19 octobre 2018-20:25:14

Dates et versions

hal-01842358 , version 1 (18-07-2018)

Identifiants

HAL Id : hal-01842358 , version 1

Citer

Eloi Zablocki, Benjamin Piwowarski, Laure Soulier, Patrick Gallinari. Apprentissage multimodal de représentation de mots à l'aide de contexte visuel. Conférence sur l'Apprentissage Automatique, Jun 2018, Rouen, France. ⟨hal-01842358⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS LIP6 SORBONNE-UNIVERSITE SU-SCIENCES

213 Consultations

204 Téléchargements

Apprentissage multimodal de représentation de mots à l'aide de contexte visuel

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager