Mutualisation et uniformisation de ressources de français parlé

Christophe Benzitoun; Lolita Bérard

Article Dans Une Revue Les cahiers de praxématique Année : 2013

Mutualisation et uniformisation de ressources de français parlé

(1) , (1)

Christophe Benzitoun

Fonction : Auteur
PersonId : 949400
IdHAL : cbenzitoun
ORCID : 0000-0002-5835-9978
IdRef : 113309333

Analyse et Traitement Informatique de la Langue Française

Lolita Bérard

Fonction : Auteur
PersonId : 963083

Analyse et Traitement Informatique de la Langue Française

Résumé

According to the cost of speech transcription, it is very important to pool data to obtain a big size corpus to describe French. Our work consisted to pool six spoken French corpora, each with a specific goal (sociolinguistics, phonology, syntax), to format them for automatic exploitations. Indeed the next step will be to use NLP corpus tools (tagger, parser, concordancer). This experience showed that it is very important to specify recommendations for transcription conventions to make easier sharing and pooling data.

La constitution de corpus oraux étant très coûteuse, il apparaît à l'heure actuelle incontournable de mettre des ressources en commun afin d'obtenir un corpus significatif pour la description du français. Notre expérience a consisté à réunir six corpus de français parlé, chacun étant transcrit et annoté en fonction d'un objectif particulier (sociolinguistique, phonologique, syntaxique). Nous présentons dans cet article la méthodologie adoptée pour obtenir des données unifiées et mises en forme dans une optique d'utilisation de logiciels d'enrichissement/exploitation de corpus. En effet, l'étape suivante sera de recourir à des outils de traitement automatique de corpus (analyseurs morpho-syntaxiques) ainsi que des outils de requêtes (concordanciers). Cette expérience nous a montré à quel point il est primordial de définir des recommandations pour les conventions de transcription, afin de faciliter l'échange et la mise en commun des données.

Mots clés

speech corpora pooling computation

corpus oraux mutualisation transcription informatisation

Domaines

Linguistique Linguistique

Fichier principal

Benzitoun_cahiers_praxematique_2013.pdf (489.94 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Christophe Benzitoun : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00931850

Soumis le : jeudi 16 janvier 2014-11:26:37

Dernière modification le : lundi 11 septembre 2023-18:22:03

Archivage à long terme le : jeudi 17 avril 2014-01:06:39

Dates et versions

hal-00931850 , version 1 (16-01-2014)

Identifiants

HAL Id : hal-00931850 , version 1

Citer

Christophe Benzitoun, Lolita Bérard. Mutualisation et uniformisation de ressources de français parlé. Les cahiers de praxématique, 2013, Corpus, données, modèles, 54-55 (54-55), pp.175-188. ⟨hal-00931850⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS ATILF UNIV-LORRAINE PULM

155 Consultations

133 Téléchargements

Mutualisation et uniformisation de ressources de français parlé

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager