Nouvelles considérations pour la détection de réutilisation de texte

Fabien Poulard; Stergos D. Afantenos; Nicolas Hernandez

Communication Dans Un Congrès Année : 2009

Nouvelles considérations pour la détection de réutilisation de texte

(1) , (1) , (1)

Fabien Poulard

Fonction : Auteur
PersonId : 861706

Laboratoire d'Informatique de Nantes Atlantique

Stergos D. Afantenos

Fonction : Auteur
PersonId : 742223
IdHAL : stergos
IdRef : 195298128

Laboratoire d'Informatique de Nantes Atlantique

Nicolas Hernandez

Fonction : Auteur
PersonId : 177781
IdHAL : nicolas-hernandez

Laboratoire d'Informatique de Nantes Atlantique

Résumé

Dans cet article nous nous intéressons au problème de la détection de réutilisation de texte. Plus particulièrement, étant donné un document original et un ensemble de documents candidats — thématiquement similaires au premier — nous cherchons à classer ceux qui sont dérivés du document original et ceux qui ne le sont pas. Nous abordons le problème selon deux approches : dans la première, nous nous intéressons aux similarités discursives entre les documents, dans la seconde au recouvrement de n-grams hapax. Nous présentons le résultat d'expérimentations menées sur un corpus de presse francophone construit dans le cadre du projet ANR PIITHIE.

Domaines

Traitement du texte et du document

Fichier principal

article-taln-2009.pdf (77.39 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Fabien Poulard : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00401072

Soumis le : jeudi 2 juillet 2009-13:58:33

Dernière modification le : vendredi 5 janvier 2024-03:23:36

Archivage à long terme le : lundi 15 octobre 2012-15:01:25

Dates et versions

hal-00401072 , version 1 (02-07-2009)

Identifiants

HAL Id : hal-00401072 , version 1

Citer

Fabien Poulard, Stergos D. Afantenos, Nicolas Hernandez. Nouvelles considérations pour la détection de réutilisation de texte. Conférence sur le Traitement Automatique des Langues Naturelles, Jun 2009, Senlis, France. pp.67. ⟨hal-00401072⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-NANTES CNRS LINA LINA-TALN LS2N NANTES-UNIVERSITE

104 Consultations

72 Téléchargements

Nouvelles considérations pour la détection de réutilisation de texte

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager