Correction de césures et enrichissement de requêtes par Wikipédia appliqués à la recherche de livres

Résumé : RÉSUMÉ. Les livres numérisés accessibles sur Internet constituent une importante source d'in-formation. Néanmoins, la Reconnaissance Optique des Caractères (ROC) introduit parfois des erreurs qui peuvent pénaliser la Recherche d'Information. Dans cet article nous proposons une méthode de correction des césures et nous en analysons l'impact sur une tâche de recherche de livres. Nous décrivons également une série d'expériences sur l'enrichissement de requêtes à partir de mots extraits de Wikipédia. Les résultats obtenus montrent qu'utiliser un grand nombre de mots ainsi qu'une répartition adéquate des poids entre la requête initiale et l'enrichissement apporte une amélioration significative par rapport à l'état de l'art. ABSTRACT. Digitized books are now a common source of information on the Web, however OCR sometimes introduces errors that can penalize Information Retrieval. In this paper we propose a method for correcting hyphenations and we analyse its impact on a standard book retrieval task. We also experiment query expansion with words extracted from the Wikipedia page related to the query. We show that there is a significant improvement over the state-of-the-art when using a large weighted list of words. MOTS-CLÉS : Livres numérisés, césures, enrichissement de requête, Wikipédia.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01314943
Contributor : Bibliothèque Universitaire Déposants Hal-Avignon <>
Submitted on : Thursday, May 12, 2016 - 1:59:51 PM
Last modification on : Saturday, March 23, 2019 - 1:22:05 AM

Identifiers

  • HAL Id : hal-01314943, version 1

Collections

Citation

Romain Deveaud, Florian Boudin, Eric Sanjuan, Patrice Bellot. Correction de césures et enrichissement de requêtes par Wikipédia appliqués à la recherche de livres. CORIA 2011, Mar 2011, Avignon, France. ⟨hal-01314943⟩

Share

Metrics

Record views

41