Evaluation de descripteurs statistiques et linguistiques pour la détection de dérivation de texte - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Document numérique - Revue des sciences et technologies de l'information. Série Document numérique Année : 2010

Evaluation de descripteurs statistiques et linguistiques pour la détection de dérivation de texte

Résumé

Dans cet article, nous traitons du problème de la détection de relations de dérivation et de codérivation entre des paires d'articles de presse en français. Nous reprenons le cadre des approches par signature largement utilisé dans la littérature et nous expérimentons plusieurs types de descripteurs sélectionnés pour leur singularité : trigrammes hapax, entités nommées, composés nominaux et connecteurs discursifs. Nous évaluons ces différentes approches en termes de coût de mise en oeuvre ainsi que de capacité à prédire ces types de relations sur le corpus PIITHIE. Nous montrons qu'il est ainsi possible de conserver un niveau de performance comparable à l'approche état de l'art tout en réduisant fortement la taille de la modélisation des documents et donc du coût de mise en oeuvre.
Fichier non déposé

Dates et versions

hal-00554351 , version 1 (10-01-2011)

Identifiants

  • HAL Id : hal-00554351 , version 1

Citer

Fabien Poulard, Nicolas Hernandez, Stergos D. Afantenos, Béatrice Daille. Evaluation de descripteurs statistiques et linguistiques pour la détection de dérivation de texte. Document numérique - Revue des sciences et technologies de l'information. Série Document numérique, 2010, 13 (3/2010), pp.69-93. ⟨hal-00554351⟩
58 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More