Annotation linguistique de corpus : vers l’exhaustivité par la convivialité - Archive ouverte HAL Accéder directement au contenu
Chapitre D'ouvrage Année : 2008

Annotation linguistique de corpus : vers l’exhaustivité par la convivialité

Résumé

It is a long time now that linguistic annotations (e.g. lemmatisation and others) have not been contradictory to preservation of the surfacing graphic forms. The matter is no longer “Should we lemmatise?” but rather, “How to enrich textual resources with lexical, morphological and syntactical information?” Some textometrical operations following the urn principles can be safely led with automatical annotation and its processing of residual ambiguities based on probabilist printings. Yet, TAD (Textual Analysis of Discourses) - among others disciplines resorting to textual materiality, demands a cautious and optimal control of the choices made and registered. This is made necessary given the need to go back to the text by a statistically assisted digitized exploration. In the numerical scriptorium perspective, DiaTag is an annotation environment alternating between automatic and dialogue stages, whose ergonomics are improved for the skilled operator facing textual bases of billions of words. The experiment described here was carried out on a significant sample of written French press. The aim was to start from the paper material and to process it in order to enable a full-text exploitation and a skilled research. The experiment shows that tagging cases unworkable for robots under human control become realistic, allowing us to reach deep and elaborated levels of the linguistic structure.
L’annotation linguistique (lemmatisation et autres) n’est depuis longtemps plus contradictoire avec la préservation des formes graphiques de surface. Le problème n’est plus « devons-nous lemmatiser ? » mais « comment enrichir les ressources textuelles d’informations lexicales, morphologiques et syntaxiques ? ». Or, même si certaines opérations textométriques (reposant sur le schéma d’urne) se satisfont de l’annotation automatique où l’ambiguïté résiduelle est traitée selon des scripts, l’Analyse Textuelle des Discours (parmi d’autres carrefours disciplinaires recourant aux matérialités textuelles) exige un contrôle raisonné et optimal des choix effectués et enregistrés. Cela est nécessaire au regard des nécessités d’un « retour au texte » ou plus exactement de l’exploration numérisée et assistée statistiquement. Dans l’optique du scriptorium numérique, DiaTag est un environnement d’annotation entièrement constitué d’alternances automates/dialogues, où ces derniers sont ergonomisés pour l’opérateur expert confronté à des bases de millions de mots. L’expérience décrite ici, menée sur un gros échantillon de presse française saisie à la source papier, qu’il faut amener à l’exploitation en mode plein-texte et recherche experte, montre qu’il devient réaliste d’annoter sous contrôle humain l’ensemble des cas rebelles aux automates tout en allant jusqu’à des niveaux relativement profonds et élaborés de la structuration linguistique.
Fichier principal
Vignette du fichier
Viprey_Lethier_JADT_2008.pdf (351.92 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-02316813 , version 1 (17-10-2019)

Identifiants

  • HAL Id : hal-02316813 , version 1

Citer

Jean-Marie Viprey, Virginie Lethier. Annotation linguistique de corpus : vers l’exhaustivité par la convivialité. JADT 2008 : 9es Journées internationales d’Analyse statistique des Données Textuelles, Presses Universitaires de Lyon, pp.1151-1161, 2008. ⟨hal-02316813⟩
63 Consultations
58 Téléchargements

Partager

Gmail Facebook X LinkedIn More