Mutualisation et uniformisation de ressources de français parlé - Archive ouverte HAL Access content directly
Journal Articles Les cahiers de praxématique Year : 2013

Mutualisation et uniformisation de ressources de français parlé

Abstract

According to the cost of speech transcription, it is very important to pool data to obtain a big size corpus to describe French. Our work consisted to pool six spoken French corpora, each with a specific goal (sociolinguistics, phonology, syntax), to format them for automatic exploitations. Indeed the next step will be to use NLP corpus tools (tagger, parser, concordancer). This experience showed that it is very important to specify recommendations for transcription conventions to make easier sharing and pooling data.
La constitution de corpus oraux étant très coûteuse, il apparaît à l'heure actuelle incontournable de mettre des ressources en commun afin d'obtenir un corpus significatif pour la description du français. Notre expérience a consisté à réunir six corpus de français parlé, chacun étant transcrit et annoté en fonction d'un objectif particulier (sociolinguistique, phonologique, syntaxique). Nous présentons dans cet article la méthodologie adoptée pour obtenir des données unifiées et mises en forme dans une optique d'utilisation de logiciels d'enrichissement/exploitation de corpus. En effet, l'étape suivante sera de recourir à des outils de traitement automatique de corpus (analyseurs morpho-syntaxiques) ainsi que des outils de requêtes (concordanciers). Cette expérience nous a montré à quel point il est primordial de définir des recommandations pour les conventions de transcription, afin de faciliter l'échange et la mise en commun des données.
Fichier principal
Vignette du fichier
Benzitoun_cahiers_praxematique_2013.pdf (489.94 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

hal-00931850 , version 1 (16-01-2014)

Identifiers

  • HAL Id : hal-00931850 , version 1

Cite

Christophe Benzitoun, Lolita Bérard. Mutualisation et uniformisation de ressources de français parlé. Les cahiers de praxématique, 2013, Corpus, données, modèles, 54-55 (54-55), pp.175-188. ⟨hal-00931850⟩
155 View
134 Download

Share

Gmail Facebook X LinkedIn More