Une approche holiste et unifiée de l'alignement et de la mesure d'accord inter-annotateurs - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2011

Une approche holiste et unifiée de l'alignement et de la mesure d'accord inter-annotateurs

Yann Mathet

Résumé

Building reference corpora makes it necessary to align annotations and to measure agreement among annotators, in order to test the reliability of the annotated ressources. In this paper, we argue that alignment and agreement measure are interrelated : agreement measure applies to pre-aligned data and alignment assumes a prior agreement measure. We describe here a formal and computational framework which takes this interrelation into account, and relies on the notion of disorder of annotation sets available for a text. In this framework, the best alignment is the one which has the minimal disorder, and this disorder reflects an agreement measure of these data. This approach is said to be holistic insofar as alignment and measure depend on the system as a whole and cannot be locally determined. This holism introduces a computational cost which has been reduced by a heuristic strategy, implemented within the Glozz annotation platform.
L'alignement et la mesure d'accord sur des textes multi-annotés sont des enjeux majeurs pour la constitution de corpus de référence. Nous défendons dans cet article l'idée que ces deux tâches sont par essence interdépendantes, la mesure d'accord nécessitant de s'appuyer sur des annotations alignées, tandis que les choix d'alignements ne peuvent se faire qu'à l'aune de la mesure qu'ils induisent. Nous proposons des principes formels relevant cette gageure, qui s'appuient notamment sur la notion de désordre du système constitué par l'ensemble des jeux d'annotations d'un texte. Nous posons que le meilleur alignement est celui qui minimise ce désordre, et que la valeur de désordre obtenue rend compte simultanément du taux d'accord. Cette approche, qualifiée d'holiste car prenant en compte l'intégralité du système pour opérer, est algorithmiquement lourde, mais nous sommes parvenus à produire une implémentation d'une version légèrement dégradée de cette dernière, et l'avons intégrée à la plate-forme d'annotation Glozz.
Fichier principal
Vignette du fichier
ACTN-MATHET-2011-1.pdf (425.86 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01070879 , version 1 (02-10-2014)

Identifiants

  • HAL Id : hal-01070879 , version 1

Citer

Yann Mathet, Antoine Widlöcher. Une approche holiste et unifiée de l'alignement et de la mesure d'accord inter-annotateurs. Actes de la 18e Conférence Traitement Automatique des Langues Naturelles (TALN'11), Jun 2011, Montpellier, France. pp.247--258. ⟨hal-01070879⟩
245 Consultations
164 Téléchargements

Partager

Gmail Facebook X LinkedIn More