Annotation linguistique de corpus : vers l’exhaustivité par la convivialité

Jean-Marie Viprey; Virginie Lethier

Chapitre D'ouvrage Année : 2008

Annotation linguistique de corpus : vers l’exhaustivité par la convivialité

(1) , (1)

Jean-Marie Viprey

Fonction : Auteur
PersonId : 871764

Centre Jacques-Petit - Archives, Textes et Science des Textes

Virginie Lethier

Fonction : Auteur
PersonId : 170392
IdHAL : virginie-lethier
ORCID : 0000-0002-7558-2389
IdRef : 124926959

Centre Jacques-Petit - Archives, Textes et Science des Textes

Résumé

It is a long time now that linguistic annotations (e.g. lemmatisation and others) have not been contradictory to preservation of the surfacing graphic forms. The matter is no longer “Should we lemmatise?” but rather, “How to enrich textual resources with lexical, morphological and syntactical information?” Some textometrical operations following the urn principles can be safely led with automatical annotation and its processing of residual ambiguities based on probabilist printings. Yet, TAD (Textual Analysis of Discourses) - among others disciplines resorting to textual materiality, demands a cautious and optimal control of the choices made and registered. This is made necessary given the need to go back to the text by a statistically assisted digitized exploration. In the numerical scriptorium perspective, DiaTag is an annotation environment alternating between automatic and dialogue stages, whose ergonomics are improved for the skilled operator facing textual bases of billions of words. The experiment described here was carried out on a significant sample of written French press. The aim was to start from the paper material and to process it in order to enable a full-text exploitation and a skilled research. The experiment shows that tagging cases unworkable for robots under human control become realistic, allowing us to reach deep and elaborated levels of the linguistic structure.

L’annotation linguistique (lemmatisation et autres) n’est depuis longtemps plus contradictoire avec la préservation des formes graphiques de surface. Le problème n’est plus « devons-nous lemmatiser ? » mais « comment enrichir les ressources textuelles d’informations lexicales, morphologiques et syntaxiques ? ». Or, même si certaines opérations textométriques (reposant sur le schéma d’urne) se satisfont de l’annotation automatique où l’ambiguïté résiduelle est traitée selon des scripts, l’Analyse Textuelle des Discours (parmi d’autres carrefours disciplinaires recourant aux matérialités textuelles) exige un contrôle raisonné et optimal des choix effectués et enregistrés. Cela est nécessaire au regard des nécessités d’un « retour au texte » ou plus exactement de l’exploration numérisée et assistée statistiquement. Dans l’optique du scriptorium numérique, DiaTag est un environnement d’annotation entièrement constitué d’alternances automates/dialogues, où ces derniers sont ergonomisés pour l’opérateur expert confronté à des bases de millions de mots. L’expérience décrite ici, menée sur un gros échantillon de presse française saisie à la source papier, qu’il faut amener à l’exploitation en mode plein-texte et recherche experte, montre qu’il devient réaliste d’annoter sous contrôle humain l’ensemble des cas rebelles aux automates tout en allant jusqu’à des niveaux relativement profonds et élaborés de la structuration linguistique.

Mots clés

analyse textuelle des discours lemmatisation annotation logométrie TEI TreeTagger Cordial NooJ DiaTag

Domaines

Sciences de l'Homme et Société Linguistique

Fichier principal

Viprey_Lethier_JADT_2008.pdf (351.92 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Virginie Lethier : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02316813

Soumis le : jeudi 17 octobre 2019-15:40:30

Dernière modification le : jeudi 13 avril 2023-09:26:12

Archivage à long terme le : samedi 18 janvier 2020-12:57:17

Dates et versions

hal-02316813 , version 1 (17-10-2019)

Identifiants

HAL Id : hal-02316813 , version 1

Citer

Jean-Marie Viprey, Virginie Lethier. Annotation linguistique de corpus : vers l’exhaustivité par la convivialité. JADT 2008 : 9^es Journées internationales d’Analyse statistique des Données Textuelles, Presses Universitaires de Lyon, pp.1151-1161, 2008. ⟨hal-02316813⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-FCOMTE ELLIADD

63 Consultations

58 Téléchargements

Annotation linguistique de corpus : vers l’exhaustivité par la convivialité

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager