Seshat: A tool for managing and verifying annotation campaigns of audio data - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Seshat: A tool for managing and verifying annotation campaigns of audio data

Résumé

We introduce Seshat, a new, simple and open-source software to efficiently manage annotations of speech corpora. The Seshat software allows users to easily customise and manage annotations of large audio corpora while ensuring compliance with the formatting and naming conventions of the annotated output files. In addition, it includes procedures for checking the content of annotations following specific rules that can be implemented in personalised parsers. Finally, we propose a double-annotation mode, for which Seshat computes automatically an associated inter-annotator agreement with the γ measure taking into account the categorisation and segmentation discrepancies.
Nous introduisons Seshat, un nouveau logiciel libre permettant d'efficacement gérer l'annotation de corpora de parole. Le logiciel Seshat permet aux utilisateurs de facilement spécifier et gérer l'annotation de corpora d'audio conséquents, tout en s'assurant que les fichiers des annotations respectent des conventions de formattage et de nommage prédéfinies. En outre, des procédures de vérification du contenu des annotations sont livrées dans Seshat, avec la possibilité d'inclure des parsers externes. Finalement, nous proposons un mode dit de "double annotation", dans lequel Seshat calcule automatiquement une mesure de la concordance inter-annotateur avec la mesure γ, qui prend en compte les différences de catégorisation et de segmentation.
Fichier principal
Vignette du fichier
Seshat_2020_LREC_2020_Paper_Titeux_et_al__Final.pdf (560.54 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-02496041 , version 1 (03-03-2020)
hal-02496041 , version 2 (16-02-2021)

Identifiants

Citer

Hadrien Titeux, Rachid Riad, Xuan-Nga Cao, Nicolas Hamilakis, Kris Madden, et al.. Seshat: A tool for managing and verifying annotation campaigns of audio data. LREC 2020 - 12th Language Resources and Evaluation Conference, May 2020, Marseille, France. pp.6976-6982. ⟨hal-02496041v2⟩
225 Consultations
297 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More