Un corpus pour optimiser l'identification automatique des chaînes de référence

Laurence Longo

Article Dans Une Revue Les cahiers de praxématique Année : 2013

Un corpus pour optimiser l'identification automatique des chaînes de référence

(1)

Laurence Longo

Fonction : Auteur
PersonId : 1743
IdHAL : laurence-longo
IdRef : 181788446

Linguistique, Langues et Parole

Résumé

Nous présentons l'étude d'un corpus multi-genres constitué pour identifier de manière automatique les chaînes de référence (CR). Les CR sont des marqueurs linguistiques permettant d'identifier des ruptures ou des continuations thématiques dans le discours. Cette étude s'inscrit dans un projet visant le développement d'un outil de détection automatique de thèmes pour optimiser l'indexation des documents dans un moteur de recherche. Le moteur de recherche utilise l'indexation thématique et prend en compte le genre du document pour fournir à l'utilisateur les documents pertinents liés à sa requête. Dans notre perspective de traitement automatique des langues, nous utilisons un corpus composé de cinq genres textuels (articles journalistiques, éditoriaux, romans, lois européennes, rapports publics) pour étudier les CR. L'étude a révélé des différences quant au matériau linguistique présent dans les CR suivant le genre textuel. Nous utilisons ces propriétés dans notre calcul des CR, pour paramétrer notre outil suivant le genre. Nous discutons les résultats obtenus.

Mots clés

corpus multi-genres chaînes de référence traitement automatique des langues détection automatique de thèmes classification de documents

Domaines

Linguistique

Laurence Longo : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00866093

Soumis le : mercredi 25 septembre 2013-22:10:34

Dernière modification le : lundi 13 mars 2023-11:12:17

Dates et versions

hal-00866093 , version 1 (25-09-2013)

Identifiants

HAL Id : hal-00866093 , version 1

Citer

Laurence Longo. Un corpus pour optimiser l'identification automatique des chaînes de référence. Les cahiers de praxématique, 2013, Corpus, données, modèles (54-55), pp.249-262. ⟨hal-00866093⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

SITE-ALSACE PULM

51 Consultations

0 Téléchargements

Un corpus pour optimiser l'identification automatique des chaînes de référence

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager