Wikiconflits, un corpus extrait de Wikipédia : principe et méthode d'élaboration - Archive ouverte HAL Accéder directement au contenu
Rapport (Rapport Technique) Année : 2014

Wikiconflits, un corpus extrait de Wikipédia : principe et méthode d'élaboration

Résumé

Le groupe CoMeRe-nouvelles-acquisitions-Wikipédia a constitué un corpus de pages Wikipédia, le corpus Wikiconflits (https://repository.ortolang.fr/api/content/comere/v2/cmr-wikiconflits.html) qui a été adjoint au corpus CoMeRe afin d’améliorer sa représentativité. Son choix s’est porté autour de l'observation de pages ayant suscité des discussions conflictuelles autour de controverses dans les champs des sciences et des techniques. Dans une première partie, le groupe explique sa méthode de sélection des discussions conflictuelles. Dans les parties suivantes, le groupe CoMeRe-LRL expose la méthode de constitution du corpus en fonction des critères précédemment retenus et la façon de les transformer en TEI. Ce rapport se termine par la présentation de l'outil WikiTool développé lors des traitements. Mis à disposition sous licence libre il permet d'extraire des pages dans les fichiers de type Dump de Wikipedia.

Mots clés

Fichier principal
Vignette du fichier
cmr-wikiconflits-tei-v4-manuel.pdf (1.93 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01288038 , version 1 (14-03-2016)

Identifiants

  • HAL Id : hal-01288038 , version 1

Citer

Céline Poudat, Jin Kun, Thierry Chanier. Wikiconflits, un corpus extrait de Wikipédia : principe et méthode d'élaboration. [Rapport Technique] LRL, Clermont Ferrand, BCL, Nice. 2014. ⟨hal-01288038⟩
189 Consultations
447 Téléchargements

Partager

Gmail Facebook X LinkedIn More