Agrégation de sac-de-sacs-de-mots pour la recherche d'information par modèles vectoriels

Vincent Claveau 1
1 TEXMEX - Multimedia content-based indexing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : Cet article étudie l'intérêt de représenter les documents textuels non plus comme des sacs-de-mots, mais comme des sacs-de-sacs-de-mots. Au cœur de l'utilisation de cette représentation, le calcul de similarité entre deux objets nécessite alors d'agréger toutes les similarités entre sacs de chacun des objets. Nous évaluons cette représentation dans un cadre de recherche d'information, et étudions les propriétés attendues de ces fonctions d'agrégation. Les expériences rapportées montrent l'intérêt de cette représentation lorsque les opérateurs d'agrégation respectent certaines propriétés, avec des gains très importants par rapport aux représentations standard.
Document type :
Conference papers
Complete list of metadatas

Cited literature [10 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-01027719
Contributor : Vincent Claveau <>
Submitted on : Tuesday, July 22, 2014 - 12:04:15 PM
Last modification on : Friday, November 16, 2018 - 1:26:09 AM
Long-term archiving on : Tuesday, November 25, 2014 - 10:49:36 AM

File

Claveau_BoBow_EGC14.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01027719, version 1

Citation

Vincent Claveau. Agrégation de sac-de-sacs-de-mots pour la recherche d'information par modèles vectoriels. 14 ème conférence Extraction et Gestion des Connaissances, EGC 2014, Jan 2014, Rennes, France. 6 p. ⟨hal-01027719⟩

Share

Metrics

Record views

247

Files downloads

696