835 articles – 1515 references  [version française]
HAL: hal-00554351, version 1

Detailed view  Export this paper
Document numérique 13, 3/2010 (2010) 69-93
Evaluation de descripteurs statistiques et linguistiques pour la détection de dérivation de texte
Fabien Poulard 1, Nicolas Hernandez ( ) 1, Stergos D. Afantenos 1, Béatrice Daille 1
(2010-03-31)

Dans cet article, nous traitons du problème de la détection de relations de dérivation et de codérivation entre des paires d'articles de presse en français. Nous reprenons le cadre des approches par signature largement utilisé dans la littérature et nous expérimentons plusieurs types de descripteurs sélectionnés pour leur singularité : trigrammes hapax, entités nommées, composés nominaux et connecteurs discursifs. Nous évaluons ces différentes approches en termes de coût de mise en oeuvre ainsi que de capacité à prédire ces types de relations sur le corpus PIITHIE. Nous montrons qu'il est ainsi possible de conserver un niveau de performance comparable à l'approche état de l'art tout en réduisant fortement la taille de la modélisation des documents et donc du coût de mise en oeuvre.
1:  Laboratoire d'Informatique de Nantes Atlantique (LINA)
CNRS : UMR6241 – Université de Nantes – École Nationale Supérieure des Mines - Nantes
Computer Science/Document and Text Processing
dérivation – codérivation – descripteurs linguistiques – approche par signatures – réutilisation de texte