Corpus spécialisés issus de sites web : réflexions et propositions méthodologiques et épistémologiques - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2023

Corpus spécialisés issus de sites web : réflexions et propositions méthodologiques et épistémologiques

Résumé

Les pratiques en linguistique de corpus et en sciences des données font des corpus des outils de recherche quasi-incontournables pour étudier les discours spécialisés. Notre étude porte sur le discours numérique de l’accès aux droits, qui est principalement disponible sur les sites web officiels des administrations gouvernementales. La création d’un corpus spécialisé issu de ces sites nécessite une réflexion méthodologique et technique afin d’obtenir un objet de recherche exploitable. Les différentes modalités de constitution de corpus comme la taille, la représentativité, les critères de sélection et la standardisation des données ont fait l’objet de plusieurs études (Handford, 2010 ; Biber, 1993 ; Habert, 2000). La question des modalités de constitution de corpus issus de données numériques est également de plus en plus présente avec l’apparition des sites web comme objet d’étude (Fairon, 1998) et le développement de l’analyse des discours numériques (Paveau, 2015). Dans cette communication, nous aborderons les difficultés méthodologiques que pose le site web lorsqu’il constitue un terrain de recherche pour analyser un discours spécialisé. Nous commencerons la présentation par des considérations théoriques (délimitation, définition de l’objet étudié), avant de poursuivre avec des questionnements pratiques (code source, protocole de récupération, nettoyage des fichiers). Pour conclure, nous présenterons des éléments de réponses concrets aux problèmes rencontrés lors de la collecte d’un corpus issu de sites web afin de donner des pistes aux jeunes chercheurs désirant étudier les discours spécialisés des sites web. Cette communication souhaite ainsi contribuer à la linguistique de corpus en tant que discipline avec la mise à disposition de méthodes et de techniques adaptées à l’analyse des discours numériques.
Fichier non déposé

Dates et versions

hal-04064551 , version 1 (11-04-2023)

Identifiants

  • HAL Id : hal-04064551 , version 1

Citer

Marie Bouchet. Corpus spécialisés issus de sites web : réflexions et propositions méthodologiques et épistémologiques. Rencontres doctorales monique mémet – 44e colloque du geras, Mar 2023, Paris, France. ⟨hal-04064551⟩
37 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More