| HAL: hal-00554351, version 1 |
| Detailed view | Export this paper |
|
|
| Document numérique 13, 3/2010 (2010) 69-93 |
|
|
|
|
| Evaluation de descripteurs statistiques et linguistiques pour la détection de dérivation de texte |
|
|
Fabien Poulard 1Nicolas Hernandez 1 |
|
|
| (2010-03-31) |
|
|
| Dans cet article, nous traitons du problème de la détection de relations de dérivation et de codérivation entre des paires d'articles de presse en français. Nous reprenons le cadre des approches par signature largement utilisé dans la littérature et nous expérimentons plusieurs types de descripteurs sélectionnés pour leur singularité : trigrammes hapax, entités nommées, composés nominaux et connecteurs discursifs. Nous évaluons ces différentes approches en termes de coût de mise en oeuvre ainsi que de capacité à prédire ces types de relations sur le corpus PIITHIE. Nous montrons qu'il est ainsi possible de conserver un niveau de performance comparable à l'approche état de l'art tout en réduisant fortement la taille de la modélisation des documents et donc du coût de mise en oeuvre. |
|
|
|
|
|
|
|
|
|
|
| 1: | Laboratoire d'Informatique de Nantes Atlantique (LINA) |
| CNRS : UMR6241 – Université de Nantes – École Nationale Supérieure des Mines - Nantes | |
|
|
|
|
|
|
|
|
| Subject | : | Computer Science/Document and Text Processing |
|
|
| dérivation – codérivation – descripteurs linguistiques – approche par signatures – réutilisation de texte |
| hal-00554351, version 1 | |
| http://hal.archives-ouvertes.fr/hal-00554351 | |
| oai:hal.archives-ouvertes.fr:hal-00554351 | |
| From: Fabien Poulard | |
| Submitted on: Monday, 10 January 2011 16:12:59 | |
| Updated on: Thursday, 13 January 2011 14:52:06 | |