Nouvelles considérations pour la détection de réutilisation de texte

Résumé : Dans cet article nous nous intéressons au problème de la détection de réutilisation de texte. Plus particulièrement, étant donné un document original et un ensemble de documents candidats — thématiquement similaires au premier — nous cherchons à classer ceux qui sont dérivés du document original et ceux qui ne le sont pas. Nous abordons le problème selon deux approches : dans la première, nous nous intéressons aux similarités discursives entre les documents, dans la seconde au recouvrement de n-grams hapax. Nous présentons le résultat d'expérimentations menées sur un corpus de presse francophone construit dans le cadre du projet ANR PIITHIE.
Type de document :
Communication dans un congrès
Conférence sur le Traitement Automatique des Langues Naturelles, Jun 2009, Senlis, France. pp.67, 2009
Liste complète des métadonnées


https://hal.archives-ouvertes.fr/hal-00401072
Contributeur : Fabien Poulard <>
Soumis le : jeudi 2 juillet 2009 - 13:58:33
Dernière modification le : mercredi 24 juin 2015 - 10:58:06
Document(s) archivé(s) le : lundi 15 octobre 2012 - 15:01:25

Fichier

article-taln-2009.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00401072, version 1

Collections

Citation

Fabien Poulard, Stergos D. Afantenos, Nicolas Hernandez. Nouvelles considérations pour la détection de réutilisation de texte. Conférence sur le Traitement Automatique des Langues Naturelles, Jun 2009, Senlis, France. pp.67, 2009. <hal-00401072>

Partager

Métriques

Consultations de
la notice

173

Téléchargements du document

80