Un corpus de presse francophone pour l'étude de l'impact d'Internet sur les pratiques langagières

Résumé : La naissance et la diffusion d'Internet ont créé des nouvelles formes de médias comme les blogs, les wikis, les forums, les plateformes d'information ou la presse citoyenne, pour n'en nommer que quelques unes. De nos jours, ces médias alternatifs et innovateurs sont aussi populaires que les médias de masse 'traditionnels', tels que la radio, la télévision ou encore la presse imprimée. L'apparition de ces nouvelles formes de média de masse a engendré de nouvelles pratiques communicationnelles ainsi que des changements dans l'usage langagier. Nos recherches visent à mesurer l'impact linguistique des nouvelles structures et pratiques de travail générées par le développement des médias en ligne. Concrètement, nous proposons d'appliquer des méthodes de linguistique de corpus pour éprouver l'hypothèse d'une variation entre différents médias de presse en ligne en termes de type de texte (descriptif, narratif, argumentatif, etc.), de degré d'implication de l'auteur et d'expression de la subjectivité. A cette fin, nous avons créé un large corpus (8 000 000 de mots) composé d'articles publiés dans trois médias de masse francophones différents. Le premier sous-corpus se compose d'articles publiés dans un journal quotidien belge édité en format papier et sur le web (lesoir.be). Le second sous-corpus est constitué d'articles publiés sur le site web d'un projet français de journalisme indépendant (rue89.com). Le troisième sous-corpus regroupe des articles d'une plateforme française de presse citoyenne en ligne (agoravox.fr). Après une introduction de nos questions de recherche et nos hypothèses d'analyse, nous concentrons notre communication sur la constitution du corpus : de la justification de notre choix pour les médias retenus aux méthodes de traitement utilisées en détaillant les différentes étapes de constitution. Les trois médias sont décrits selon leurs divergences et leurs points communs concernant les structures et les pratiques de travail, les philosophies et les lignes de conduite qui guident la rédaction des articles. Nous incluons également un questionnement autour de certains biais ou risques liés au choix de média (p.ex. deux variétés de français, manque d'informations sur les auteurs et leurs pratiques d'écriture individuelles). Ensuite, nous exposons les étapes majeures de la construction du corpus : (1) le recueil des données par l'extraction d'articles de différentes archives journalistiques en ligne, (2) la normalisation du corpus par conversion semi-automatique de différents modèles html vers un modèle xml standardisé selon la TEI-P5, (3) les traitements automatiques effectués pour annoter les données pour notre étude. Nous terminerons cette présentation par un bref exposé des méthodes d'investigation choisies pour mesurer les variations entre sous-corpus : analyses quantitatives, mesures statistiques et analyses qualitatives via des outils de gestion de base de données et des interfaces d'annotation.
Type de document :
Communication dans un congrès
CJC Praxiling : Corpus, données, modèles : approches qualitatives et quantitatives, May 2011, Montpellier, France
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-00983456
Contributeur : Lydia-Mai Ho-Dac <>
Soumis le : vendredi 25 avril 2014 - 12:05:08
Dernière modification le : jeudi 29 septembre 2016 - 01:11:55

Identifiants

  • HAL Id : hal-00983456, version 1

Collections

Citation

Anne Küppers, Lydia-Mai Ho-Dac. Un corpus de presse francophone pour l'étude de l'impact d'Internet sur les pratiques langagières. CJC Praxiling : Corpus, données, modèles : approches qualitatives et quantitatives, May 2011, Montpellier, France. 〈hal-00983456〉

Partager

Métriques

Consultations de la notice

316