Vers un outillage informatique optimisé pour corpus langagiers oraux en vue d'une exploitation textométrique : le cas des interrogatives partielles dans ESLO - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Corpus Année : 2021

Vers un outillage informatique optimisé pour corpus langagiers oraux en vue d'une exploitation textométrique : le cas des interrogatives partielles dans ESLO

Résumé

To answer the increasing trend of corpora sharing and data format heterogeneity, we present a method for converting spoken language corpora to several tool formats in order to facilitate linguistic analysis. For this research, we take as an example the ESLO corpus for several reasons: its open-source licence, its standard format used for its construction, its size, and its sociolinguistic and micro-diacronic characteristics. Our study is based on a compilation of the ESLO corpus in order to make it compatible with the textometric tool TXM. We operate a set of operations to use all the possibilities the tool offers. Finally, we present a fine-grained and multidimensional analysis of the interrogatives utterances used in the ESLO corpus.
Pour répondre aux problématiques engendrées par la diffusion de plus en plus massive des corpus linguistiques et à l'hétérogénéité de leurs formats, nous proposons une méthode permettant de prendre en main des corpus langagiers oraux et de les convertir dans un format permettant leur exploitation outillée. Pour cette recherche, le corpus ESLO nous sert d'exemple par sa licence de diffusion, son format, son volume et ses atouts sociolinguistiques et diachroniques. Notre travail se fonde sur la compilation de ce corpus pour le rendre compatible avec l'outil de textométrie TXM. Nous opérons un ensemble de transformations des données pour l'utiliser au mieux. Enfin, pour illustrer les apports de ces avancées méthodologiques, nous proposons une analyse fine et multidimensionnelle de l'usage des interrogatives dans le corpus ESLO.
Fichier principal
Vignette du fichier
revue_corpus_Badin_Thiberge_Liégeois_Parisse.pdf (487.18 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

halshs-03133017 , version 1 (05-02-2021)

Identifiants

Citer

Flora Badin, Loïc Liégeois, Gabriel Thiberge, Christophe Parisse. Vers un outillage informatique optimisé pour corpus langagiers oraux en vue d'une exploitation textométrique : le cas des interrogatives partielles dans ESLO. Corpus, 2021, 22, ⟨10.4000/corpus.5752⟩. ⟨halshs-03133017⟩
337 Consultations
144 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More