Quantification et identification des concepts implicites d'une requête

Résumé : 2 LSIS-Aix-Marseille Université patrice.bellot@lsis.org RÉSUMÉ. Nous proposons dans cet article une méthode non supervisée pour l'identification et la modélisation de concepts associés à une recherche d'information. Nous utilisons l'alloca-tion de Dirichlet latente (LDA), un modèle génératif probabiliste, pour détecter les concepts implicites de la requête en utilisant les documents obtenus par un processus de retour de perti-nence simulé (ou documents de feedback). Notre approche estime automatiquement le nombre de concepts ainsi que le nombre de documents de feedback sans aucun apprentissage préalable ni paramétrage. Les concepts implicites sont pondérés afin de refléter leur importance relative par rapport à la requête et sont utilisés pour modifier l'ordre des documents renvoyés à l'utili-sateur. Nous utilisons quatre sources d'information générales de natures différentes (web, jour-nalistique, encyclopédique) à partir desquelles les documents de feedback sont extraits. Nous comparons différentes approches état-de-l'art sur deux collections ad-hoc de TREC, et les ré-sultats montrent que l'utilisation de concepts implicites identifiés par notre méthode améliore significativement les performances de recherche documentaire. ABSTRACT. In this paper we introduce an unsupervised method for mining and modeling latent search concepts. We use Latent Dirichlet Allocation (LDA), a generative probabilistic topic model, to exhibit highly-specific query-related topics from pseudo-relevant feedback documents. Our approach automatically estimates the number of latent concepts as well as the needed amount of feedback documents, without any prior training step. Latent concepts are then weighted to reflect their relative adequacy and are further used to automatically reformu-late the initial user query. We also explore the use of different types of sources of information for modeling the latent concepts. For this purpose, we use four general sources of information of various nature (web, news, encyclopedic) from which the feedback documents are extracted. We evaluate our approach over two large ad-hoc TREC collections, and results show that it significantly improves document retrieval effectiveness while best results are achieved by combining latent concepts modeled from all available sources. MOTS-CLÉS : Recherche contextuelle, modélisation thématique, retour de pertinence
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01314936
Contributor : Bibliothèque Universitaire Déposants Hal-Avignon <>
Submitted on : Thursday, May 12, 2016 - 1:44:33 PM
Last modification on : Tuesday, April 2, 2019 - 2:03:40 AM

Identifiers

  • HAL Id : hal-01314936, version 1

Citation

Romain Deveaud, Ludovic Bonnefoy, Patrice Bellot. Quantification et identification des concepts implicites d'une requête. Coria 2013, Apr 2013, Neuchâtel, Suisse. ⟨hal-01314936⟩

Share

Metrics

Record views

277