Quand les textes sont lemmatisés... - Archive ouverte HAL Accéder directement au contenu
Chapitre D'ouvrage Année : 2002

Quand les textes sont lemmatisés...

Résumé

Le débat sur la lemmatisation a commencé il y a trente ans, à l'époque où Gunnel Engwall entreprenait sa grande enquête sur le « Vocabulaire du roman français (1962–1968) » et où les chercheurs de Saint Cloud contestaient les recommandations de Charles Muller. La querelle est à ce jour apaisée et la guerre de trente ans ne sera pas une guerre de cent ans. Aussi bien des travaux estimables ont été publiés qui suivent l'une ou l'autre option (et parfois les deux). Ceux qui s'en tiennent à la graphie sont sans doute les plus nombreux, non seulement parce que la préparation et le traitement y sont plus aisés, mais aussi parce que les résultats permettent plus facilement la comparaison, l'intervention humaine dans les données étant réduite au minimum. Ceux qui veulent traiter un produit raffiné et s'attachent au lemme (Dominique Labbé est le chef de file de cette cohorte héroïque qui a compté Gunnel Engwall dans ses rangs) s'échelonnent sur le long chemin qui va du réel à l'idéal. Deux obstacles principaux se dressent sur leur chemin, dont l'un tient aux traitements des expressions ou mots composés, l'autre aux homographes.
Fichier principal
Vignette du fichier
gunnel2.pdf (846.36 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01571423 , version 1 (02-08-2017)

Identifiants

  • HAL Id : hal-01571423 , version 1

Citer

Étienne Brunet. Quand les textes sont lemmatisés.... Inge Bartning. Mélanges publiés en hommage à Gunnel Engwall, Almqvist& Wiksell, pp.105-116, 2002, 91-22-01982-0. ⟨hal-01571423⟩
140 Consultations
99 Téléchargements

Partager

Gmail Facebook X LinkedIn More