Les linguistiques de corpus - Archive ouverte HAL Accéder directement au contenu
Ouvrages Année : 1997

Les linguistiques de corpus

Résumé

Depuis les années 60, le développement de l'informatique a permis aux linguistes d'archiver des quantités impressionnantes de textes (politiques, littéraires, scientifiques et techniques...), et surtout d'y avoir accès par des procédures automatisées. On peut ainsi faire la liste du vocabulaire d'un texte, ou comparer dans plusieurs textes les différentes réalisations d'une même structure syntaxique. Mais, en sciences du langage comme ailleurs, une nouvelle ressource technique amène souvent avec elle des problèmes inédits. Comment exploiter ces textes ? Quelles précautions méthodologiques prendre pour procéder à un traitement automatique sans introduire des biais trop nombreux ? Comment comparer des textes qui peuvent avoir été archivés selon des procédures ou des terminologies différentes ?... Dans une perspective à la fois didactique et critique, ce livre fait l'état des lieux des problèmes posés et des solutions existantes. Les auteurs présentent les différents types de corpus électroniques qui existent actuellement, en distinguant deux types de corpus. D'une part les corpus étiquetés : dans l'ordinateur, une " étiquette " donne les caractéristiques morpho-syntaxiques de chaque mot, ainsi que, pour certains " étiqueteurs " expérimentaux, certaines de ses caractéristiques sémantiques. D'autre part les corpus arborés : ce n'est plus le mot qui est annoté mais la phrase, à laquelle est associée une représentation syntaxique sous forme d'arbre. Pour chaque type de corpus, les auteurs expliquent ce qu'on peut attendre du texte ainsi annoté, et exposent les différentes méthodes d'archivage et d'exploitation des textes. Du fait des termes techniques que le sujet lui-même requiert, ce livre s'adresse à un public déjà initié à la question du traitement automatique du langage naturel.
Fichier non déposé

Dates et versions

hal-00619268 , version 1 (06-09-2011)

Identifiants

  • HAL Id : hal-00619268 , version 1

Citer

Adeline Nazarenko, Benoit Habert, André Salem. Les linguistiques de corpus. Armand Colin, pp.240, 1997. ⟨hal-00619268⟩
559 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More