Apprentissage de représentations de documents et leur exploitation en recherche d'information

Afin de calculer la similarité document-requête, la majorité des modèles en recherche d'information (RI) représentent les documents et les requêtes sous forme de « sacs de mots » (bag of words) pondérés ou un sac de concepts, issus d'une ontologie linguistique ou construits automatiquement par des techniques de type LSI ou LDA, pour combler l'écart entre le vocabulaire utilisé par la requête et celui présenté dans les documents. D'autres approches dites word2vec proposent de modéliser les termes sous forme de vecteurs. Les approches word2vec permettent de capturer des relations au-delà de la co-occurrence, nous permettant ainsi de modéliser des relations sémantiques entre les termes. Dans cet article, nous présenterons l'état de l'art sur l'usage de ce type d'approches ainsi que notre contribution à l'exploitation de ce type d'approches dans les modèles de la RI.

Mots clés

Apprentissage profond Word2vec Recherche d’information Représentations sémantiques

Domaines

Recherche d'information [cs.IR]

Fichier principal

Belkacem_22268.pdf (248.42 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Open Archive Toulouse Archive Ouverte (OATAO) : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02559775

Soumis le : jeudi 30 avril 2020-17:35:53

Dernière modification le : mercredi 17 janvier 2024-16:18:10

Dates et versions

hal-02559775 , version 1 (30-04-2020)

Identifiants

HAL Id : hal-02559775 , version 1
OATAO : 22268

Citer

Thiziri Belkacem, Taoufiq Dkaki, Jose G. Moreno, Mohand Boughanem. Apprentissage de représentations de documents et leur exploitation en recherche d'information. 14e Conference francophone en Recherche d'Information et Applications (CORIA 2017), Mar 2017, Marseille, France. pp.1-10. ⟨hal-02559775⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-TLSE2 CNRS SMS UT1-CAPITOLE IRIT IRIT-IRIS IRIT-GD TOULOUSE-INP UNIV-UT3 UT3-TOULOUSEINP

73 Consultations

51 Téléchargements