Correction de césures et enrichissement de requêtes par Wikipédia appliqués à la recherche de livres - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2011

Correction de césures et enrichissement de requêtes par Wikipédia appliqués à la recherche de livres

Romain Deveaud
Florian Boudin
Eric Sanjuan
Patrice Bellot

Résumé

RÉSUMÉ. Les livres numérisés accessibles sur Internet constituent une importante source d'in-formation. Néanmoins, la Reconnaissance Optique des Caractères (ROC) introduit parfois des erreurs qui peuvent pénaliser la Recherche d'Information. Dans cet article nous proposons une méthode de correction des césures et nous en analysons l'impact sur une tâche de recherche de livres. Nous décrivons également une série d'expériences sur l'enrichissement de requêtes à partir de mots extraits de Wikipédia. Les résultats obtenus montrent qu'utiliser un grand nombre de mots ainsi qu'une répartition adéquate des poids entre la requête initiale et l'enrichissement apporte une amélioration significative par rapport à l'état de l'art. ABSTRACT. Digitized books are now a common source of information on the Web, however OCR sometimes introduces errors that can penalize Information Retrieval. In this paper we propose a method for correcting hyphenations and we analyse its impact on a standard book retrieval task. We also experiment query expansion with words extracted from the Wikipedia page related to the query. We show that there is a significant improvement over the state-of-the-art when using a large weighted list of words. MOTS-CLÉS : Livres numérisés, césures, enrichissement de requête, Wikipédia.
Fichier non déposé

Dates et versions

hal-01314943 , version 1 (12-05-2016)

Identifiants

  • HAL Id : hal-01314943 , version 1

Citer

Romain Deveaud, Florian Boudin, Eric Sanjuan, Patrice Bellot. Correction de césures et enrichissement de requêtes par Wikipédia appliqués à la recherche de livres. CORIA 2011, Mar 2011, Avignon, France. ⟨hal-01314943⟩

Collections

UNIV-AVIGNON LIA
112 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More