Discours, corpus, traitements automatiques - Archive ouverte HAL Accéder directement au contenu
Chapitre D'ouvrage Année : 2005

Discours, corpus, traitements automatiques

Résumé

This chapter concerns the application of the methodological principles and methods of corpus linguistics to the study of text/discourse organisation. On the basis of the literature and the author's own research, it examines the specific corpus requirements and analytical difficulties for the discourse level. Discourse studies tend to be too analyst-dependent and small-scale, which makes them difficult to reproduce, their results difficult to generalise. The chapter goes on to look at connections between discourse studies, corpus analysis and language technology via applications such as automatic text summarization and aids to textual navigation. The quantitative techniques used in such systems deserve to be further explored in linguistic studies of text/discourse organisation. Another important direction for discourse research is the development of sharable resources, in particular corpora annotated with discourse structures and relations.
Ce chapitre traite de l'application des principes et des méthodes des linguistiques de corpus à l'étude de l'organisation du texte/discours. A partir de la littérature du domaine et des travaux de l'auteur, il pose la question des exigences spécifiques en termes de corpus, et des difficultés d'analyse propres au niveau discursif. Les études sur le discours se caractérisent actuellement par une approche qualitative, sur des données de faible volume, avec des méthodes manuelles et donc subjectives, ce qui fait obstacle à leur reproductibilité – et partant à leur validation –, et à la généralisation de leurs résultats. Les interactions entre discours, traitement automatique des langues et analyses de corpus sont examinées à travers des applications comme le résumé automatique et l'aide à la navigation. Les questions posées par ces applications recoupent en de nombreux points celles qui motivent les études linguistiques du discours. Les techniques numériques auxquelles elles font appel mériteraient d'être explorées pour leur apport potentiel à l'étude linguistique de l'organisation du discours. Un dernier aspect particulièrement positif des linguistiques de corpus est l'accent mis sur la constitution de ressources collectives, en particulier de corpus enrichis d'annotations discursives (structures, relations de discours).

Domaines

Linguistique
Fichier principal
Vignette du fichier
Chapitre_5_format-auteur.pdf (233.3 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00438316 , version 1 (07-04-2010)

Identifiants

  • HAL Id : hal-00438316 , version 1

Citer

Marie-Paule Péry-Woodley. Discours, corpus, traitements automatiques. Anne Condamines. Sémantique et Corpus, Hermès, pp.177-210, 2005, Cognition et traitement de l'information. ⟨hal-00438316⟩
453 Consultations
822 Téléchargements

Partager

Gmail Facebook X LinkedIn More