Un corpus pour optimiser l'identification automatique des chaînes de référence - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Les cahiers de praxématique Année : 2013

Un corpus pour optimiser l'identification automatique des chaînes de référence

Laurence Longo

Résumé

Nous présentons l'étude d'un corpus multi-genres constitué pour identifier de manière automatique les chaînes de référence (CR). Les CR sont des marqueurs linguistiques permettant d'identifier des ruptures ou des continuations thématiques dans le discours. Cette étude s'inscrit dans un projet visant le développement d'un outil de détection automatique de thèmes pour optimiser l'indexation des documents dans un moteur de recherche. Le moteur de recherche utilise l'indexation thématique et prend en compte le genre du document pour fournir à l'utilisateur les documents pertinents liés à sa requête. Dans notre perspective de traitement automatique des langues, nous utilisons un corpus composé de cinq genres textuels (articles journalistiques, éditoriaux, romans, lois européennes, rapports publics) pour étudier les CR. L'étude a révélé des différences quant au matériau linguistique présent dans les CR suivant le genre textuel. Nous utilisons ces propriétés dans notre calcul des CR, pour paramétrer notre outil suivant le genre. Nous discutons les résultats obtenus.
Fichier non déposé

Dates et versions

hal-00866093 , version 1 (25-09-2013)

Identifiants

  • HAL Id : hal-00866093 , version 1

Citer

Laurence Longo. Un corpus pour optimiser l'identification automatique des chaînes de référence. Les cahiers de praxématique, 2013, Corpus, données, modèles (54-55), pp.249-262. ⟨hal-00866093⟩

Collections

SITE-ALSACE PULM
51 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More