Skip to Main content Skip to Navigation
Books

Les linguistiques de corpus

Résumé : Depuis les années 60, le développement de l'informatique a permis aux linguistes d'archiver des quantités impressionnantes de textes (politiques, littéraires, scientifiques et techniques...), et surtout d'y avoir accès par des procédures automatisées. On peut ainsi faire la liste du vocabulaire d'un texte, ou comparer dans plusieurs textes les différentes réalisations d'une même structure syntaxique. Mais, en sciences du langage comme ailleurs, une nouvelle ressource technique amène souvent avec elle des problèmes inédits. Comment exploiter ces textes ? Quelles précautions méthodologiques prendre pour procéder à un traitement automatique sans introduire des biais trop nombreux ? Comment comparer des textes qui peuvent avoir été archivés selon des procédures ou des terminologies différentes ?... Dans une perspective à la fois didactique et critique, ce livre fait l'état des lieux des problèmes posés et des solutions existantes. Les auteurs présentent les différents types de corpus électroniques qui existent actuellement, en distinguant deux types de corpus. D'une part les corpus étiquetés : dans l'ordinateur, une " étiquette " donne les caractéristiques morpho-syntaxiques de chaque mot, ainsi que, pour certains " étiqueteurs " expérimentaux, certaines de ses caractéristiques sémantiques. D'autre part les corpus arborés : ce n'est plus le mot qui est annoté mais la phrase, à laquelle est associée une représentation syntaxique sous forme d'arbre. Pour chaque type de corpus, les auteurs expliquent ce qu'on peut attendre du texte ainsi annoté, et exposent les différentes méthodes d'archivage et d'exploitation des textes. Du fait des termes techniques que le sujet lui-même requiert, ce livre s'adresse à un public déjà initié à la question du traitement automatique du langage naturel.
Complete list of metadata

https://hal.archives-ouvertes.fr/hal-00619268
Contributor : Adeline Nazarenko <>
Submitted on : Tuesday, September 6, 2011 - 2:06:20 AM
Last modification on : Tuesday, August 18, 2020 - 2:48:06 PM

Identifiers

  • HAL Id : hal-00619268, version 1

Citation

Adeline Nazarenko, Benoit Habert, André Salem. Les linguistiques de corpus. Armand Colin, pp.240, 1997. ⟨hal-00619268⟩

Share

Metrics

Record views

676