Wikiconflits, un corpus extrait de Wikipédia : principe et méthode d'élaboration

Résumé : Le groupe CoMeRe-nouvelles-acquisitions-Wikipédia a constitué un corpus de pages Wikipédia, le corpus Wikiconflits (https://repository.ortolang.fr/api/content/comere/v2/cmr-wikiconflits.html) qui a été adjoint au corpus CoMeRe afin d’améliorer sa représentativité. Son choix s’est porté autour de l'observation de pages ayant suscité des discussions conflictuelles autour de controverses dans les champs des sciences et des techniques. Dans une première partie, le groupe explique sa méthode de sélection des discussions conflictuelles. Dans les parties suivantes, le groupe CoMeRe-LRL expose la méthode de constitution du corpus en fonction des critères précédemment retenus et la façon de les transformer en TEI. Ce rapport se termine par la présentation de l'outil WikiTool développé lors des traitements. Mis à disposition sous licence libre il permet d'extraire des pages dans les fichiers de type Dump de Wikipedia.
Keywords : Corpuses
Liste complète des métadonnées

Cited literature [17 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-01288038
Contributor : Céline Poudat <>
Submitted on : Monday, March 14, 2016 - 3:05:04 PM
Last modification on : Thursday, February 7, 2019 - 4:49:34 PM
Document(s) archivé(s) le : Wednesday, June 15, 2016 - 2:01:49 PM

File

cmr-wikiconflits-tei-v4-manuel...
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01288038, version 1

Collections

Citation

Céline Poudat, Jin Kun, Thierry Chanier. Wikiconflits, un corpus extrait de Wikipédia : principe et méthode d'élaboration. [Rapport Technique] LRL, Clermont Ferrand, BCL, Nice. 2014. ⟨hal-01288038⟩

Share

Metrics

Record views

241

Files downloads

359