Recherche de documents similaires sur le web par segmentations hiérarchiques et extraction de mots-clés - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2013

Recherche de documents similaires sur le web par segmentations hiérarchiques et extraction de mots-clés

Alain Simac-Lejeune
  • Fonction : Auteur
  • PersonId : 864296

Résumé

La recherche de documents similaires est un processus qui consiste à trouver les documents présentant des similitudes, comme la copie ou la reformu- lation, sur des bases documentaires ou sur internet. Elle est utilisée notamment pour protéger la propriété intellectuelle de productions issues de l'enseignement, de la recherche ou de l'industrie. Dans cet article, nous définissons une approche automatique pour permettant d'extraire des mots-clés d'un document en effec- tuant un bouclage sur une succession de découpage de plus en plus petit. Cette approche permet d'obtenir des mots-clés impossibles à obtenir par une approche globale notamment quand la thématique, le style ou le contenu d'un document varient dans le document. L'objectif est de permettre la détection des documents présentant des similitudes en utilisant uniquement des mots-clés.
Fichier principal
Vignette du fichier
article.pdf (84.1 Ko) Télécharger le fichier
Loading...

Dates et versions

hal-01059031 , version 1 (29-08-2014)

Identifiants

  • HAL Id : hal-01059031 , version 1

Citer

Alain Simac-Lejeune. Recherche de documents similaires sur le web par segmentations hiérarchiques et extraction de mots-clés. 13e Conférence Internationale Francophone sur l'Extraction et la Gestion des Connaissances, Jan 2013, Toulouse, France. pp.401-406. ⟨hal-01059031⟩
78 Consultations
227 Téléchargements

Partager

Gmail Facebook X LinkedIn More