De la collecte à l’analyse d’un corpus de SMS authentiques : une démarche pluridisciplinaire - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Histoire Epistémologie Langage Année : 2016

De la collecte à l’analyse d’un corpus de SMS authentiques : une démarche pluridisciplinaire

Rachel Panckhurst
  • Fonction : Auteur
  • PersonId : 846670
Cédric Lopez
Bertrand Verine
Catherine Détrie
  • Fonction : Auteur
  • PersonId : 846128

Résumé

This article highlights an approach based on authentic data, by focusing on recent research related to collection, processing and analysis of a large French text-message corpus, enti- tled 88milSMS (http://88milsms.huma-num. fr/, Panckhurst, Détrie, Lopez, Moïse, Roche, Verine, 2014), including a sociolinguistic questionnaire submitted to donors (with their answers). The authors, using a pluridisci- plinary approach (linguistics/language sci- ences, computer science, Natural Language Processing), explain why they chose to give the scienti c community and the general public access to the SMS corpus.
Nous présentons notre approche fondée sur les données authentiques, en nous concentrant sur des recherches récentes, portant sur le recueil, le traitement et l’analyse d’un grand corpus de SMS en français, intitulé 88milSMS (http://88milsms.huma-num.fr/, Panckhurst, Détrie, Lopez, Moïse, Roche, Verine, 2014), incluant un questionnaire sociolinguistique soumis aux donateurs au moment de la collecte ainsi que leurs réponses. Puis nous expliquons pourquoi, dans une démarche pluridisciplinaire (située entre sciences du langage, informatique et traitement automatique du langage naturel), nous avons décidé de fournir à la communauté scienti que et au grand public le corpus de SMS.
Fichier non déposé

Dates et versions

hal-01485577 , version 1 (09-03-2017)

Identifiants

Citer

Rachel Panckhurst, Mathieu Roche, Cédric Lopez, Bertrand Verine, Catherine Détrie, et al.. De la collecte à l’analyse d’un corpus de SMS authentiques : une démarche pluridisciplinaire. Histoire Epistémologie Langage, 2016, Constitution de corpus linguistiques et pérennisation des données, 38 (2), pp.63-82. ⟨10.1051/hel/2016380206⟩. ⟨hal-01485577⟩
336 Consultations
0 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More