| HAL : hal-00401072, version 1 |
| Fiche détaillée | Récupérer au format |
|
|
| Conférence sur le Traitement Automatique des Langues Naturelles, Senlis : France (2009) |
|
|
|
|
| Nouvelles considérations pour la détection de réutilisation de texte |
|
|
| Fabien Poulard 1Stergos D. Afantenos 1 |
|
|
| (23/06/2009) |
|
|
| Dans cet article nous nous intéressons au problème de la détection de réutilisation de texte. Plus particulièrement, étant donné un document original et un ensemble de documents candidats — thématiquement similaires au premier — nous cherchons à classer ceux qui sont dérivés du document original et ceux qui ne le sont pas. Nous abordons le problème selon deux approches : dans la première, nous nous intéressons aux similarités discursives entre les documents, dans la seconde au recouvrement de n-grams hapax. Nous présentons le résultat d'expérimentations menées sur un corpus de presse francophone construit dans le cadre du projet ANR PIITHIE. |
|
|
|
|
|
|
|
|
|
|
| 1 : | Laboratoire d'Informatique de Nantes Atlantique (LINA) |
| CNRS : UMR6241 – Université de Nantes – Ecole des Mines de Nantes | |
|
|
|
|
|
|
|
|
| Domaine | : | Informatique/Traitement du texte et du document |
|
|
| Liste des fichiers attachés à ce document : | |||||
|
|
|
| hal-00401072, version 1 | |
| http://hal.archives-ouvertes.fr/hal-00401072 | |
| oai:hal.archives-ouvertes.fr:hal-00401072 | |
| Contributeur : Fabien Poulard | |
| Soumis le : Jeudi 2 Juillet 2009, 13:58:33 | |
| Dernière modification le : Jeudi 2 Juillet 2009, 14:07:55 | |