Extraction de données orales multi-annotées

Brigitte Bigi; Tatsuya Watanabe

Communication Dans Un Congrès Année : 2014

Extraction de données orales multi-annotées

(1) , (1)

Brigitte Bigi

Fonction : Auteur
PersonId : 7990
IdHAL : brigittebigi
ORCID : 0000-0003-1834-6918
IdRef : 079410790

Laboratoire Parole et Langage

Tatsuya Watanabe

Fonction : Auteur

Laboratoire Parole et Langage

Résumé

This paper addresses the problem of extracting multimodal annotated data in the linguistic field ranging from general linguistic to domain specific information. Our proposal can be considered as a solution or a least an intermediary solution that can link together requesting systems and expert data from various annotation tools. The system is partly based on the Allen algebra and consists in creating filters based on two functions : a boolean function and a relation function. The main advantage of this approach lies in its genericity : it will work identically with annotations from Praat, Transcriber, Elan or from any other annotation software. Furthermore, two levels of usage have been developed : a graphical user interface graph that not requires any skill or knowledge, and a query form in Python. This system is included in the software SPPAS and is distributed under the terms of the GPL license.

Cet article aborde le problème de l'extraction de données orales multi-annotées : nous proposons une solution intermédiaire, entre d'une part les systèmes de requêtages très évolués mais qui nécessitent des données structurées, d'autre part les données (multi-)annotées des utilisateurs qui sont hétérogènes. Notre proposition s'appuie sur 2 fonctions principales : une fonction booléenne pour filtrer sur le contenu, et une fonction de relation qui implémente l'algèbre de Allen. Le principal avantage de cette approche réside dans sa généricité : le fonctionnement sera identique que les annotations proviennent de Praat, Transcriber, Elan ou tout autre logiciel d'annotation. De plus, deux niveaux d'utilisation ont été développés : une interface graphique qui ne nécessite aucune compétence ou connaissance spécifique de la part de l'utilisateur, et un interrogation par scripts en langage Python. L'approche a été implémentée dans le logiciel SPPAS, distribué sous licence GPL.

Mots clés

multimodality corpus extraction

multimodalité

Domaines

Sciences de l'information et de la communication Linguistique

Gilles Pouchoulin : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01500722

Soumis le : lundi 3 avril 2017-15:55:47

Dernière modification le : vendredi 24 mars 2023-14:53:04

Dates et versions

hal-01500722 , version 1 (03-04-2017)

Identifiants

HAL Id : hal-01500722 , version 1

Citer

Brigitte Bigi, Tatsuya Watanabe. Extraction de données orales multi-annotées. Traitement Automatique du Langage Naturel 21, Jul 2014, Marseille, France. pp.556-561. ⟨hal-01500722⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS UNIV-AMU LPL-AIX ANR

53 Consultations

0 Téléchargements

Extraction de données orales multi-annotées

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager