Mutualisation et uniformisation de ressources de français parlé - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Les cahiers de praxématique Année : 2013

Mutualisation et uniformisation de ressources de français parlé

Résumé

According to the cost of speech transcription, it is very important to pool data to obtain a big size corpus to describe French. Our work consisted to pool six spoken French corpora, each with a specific goal (sociolinguistics, phonology, syntax), to format them for automatic exploitations. Indeed the next step will be to use NLP corpus tools (tagger, parser, concordancer). This experience showed that it is very important to specify recommendations for transcription conventions to make easier sharing and pooling data.
La constitution de corpus oraux étant très coûteuse, il apparaît à l'heure actuelle incontournable de mettre des ressources en commun afin d'obtenir un corpus significatif pour la description du français. Notre expérience a consisté à réunir six corpus de français parlé, chacun étant transcrit et annoté en fonction d'un objectif particulier (sociolinguistique, phonologique, syntaxique). Nous présentons dans cet article la méthodologie adoptée pour obtenir des données unifiées et mises en forme dans une optique d'utilisation de logiciels d'enrichissement/exploitation de corpus. En effet, l'étape suivante sera de recourir à des outils de traitement automatique de corpus (analyseurs morpho-syntaxiques) ainsi que des outils de requêtes (concordanciers). Cette expérience nous a montré à quel point il est primordial de définir des recommandations pour les conventions de transcription, afin de faciliter l'échange et la mise en commun des données.
Fichier principal
Vignette du fichier
Benzitoun_cahiers_praxematique_2013.pdf (489.94 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00931850 , version 1 (16-01-2014)

Identifiants

  • HAL Id : hal-00931850 , version 1

Citer

Christophe Benzitoun, Lolita Bérard. Mutualisation et uniformisation de ressources de français parlé. Les cahiers de praxématique, 2013, Corpus, données, modèles, 54-55 (54-55), pp.175-188. ⟨hal-00931850⟩
155 Consultations
133 Téléchargements

Partager

Gmail Facebook X LinkedIn More