Skip to Main content Skip to Navigation
Journal articles

Le corpus "Droits de l'Homme" du LLI

Résumé : Nous avons entrepris la construction d'un corpus électronique de textes juridiques des Droits de l'Homme. Celui-ci est actuellement constitué de 28 Conventions internationales en deux ou trois langues 'et comprend quelques 250 000 mots (version 1.0, mars 2005). Il peut être téléchargé à l'adresse suivante : http://www-lli.univ-paris13.fr/ressources 1. Configuration informatique du corpus Destiné à devenir une ressource de référence en matière d'information juridique électronique, ce corpus se veut exemplaire quant à sa composition, sa structuration et son codage. Le choix des textes a été fait en lien avec Jean-Bernard MARIE 1. Le standard international pour la diffusion de corpus (TEI) a été appliqué non sans avoir consulté la communauté scientifique sur l'expérience acquise en matière de codage de corpus juridiques (questions soumises sur la liste électronique CORPORA, contacts pris avec des éditeurs spécialisés). Les fichiers ont été collectés sur internet en veillant à la qualité des sources (cf. infra) puis normalisés au format XML et enfin édités sous la forme d'un corpus structuré au format TEI. Il n'a jamais été développé de codage spécialement adapté à la nature particulière de ces textes. Aussi avons nous défini une DTD (Document Type Definition) permettant de rendre compte au plus près de la structure des conventions (préambule, sections, articles, dispositions finales etc…) tout en étant automatiquement transposable dans les structures plus générales prévues par la TEI. Le corpus existe ainsi en deux versions : une version TEI pour la diffusion (la TEI représente une quasi norme et propose une large gamme de balises) et une version selon la DTD spécifique pour l'archivage qui assure un meilleur contrôle de la structure des textes (articulation de parties de différentes natures : Préambule, articles, dispositions finales…) Notre objectif à terme est de créer un ensemble de DTD suffisamment précise et souple pour pouvoir représenter des textes juridiques qui ne seraient pas limités aux conventions ni au domaine des droits de l'homme. La réalisation de l'entête TEI a également donné lieu à une documentation soignée du balisage (partie ), d'une importance cruciale pour une juste interprétation des traitements
Document type :
Journal articles
Complete list of metadata

https://hal.archives-ouvertes.fr/hal-01915796
Contributor : Fabrice Issac <>
Submitted on : Thursday, November 8, 2018 - 12:00:04 PM
Last modification on : Friday, March 27, 2020 - 4:00:44 AM
Long-term archiving on: : Saturday, February 9, 2019 - 1:35:17 PM

File

corpus-dh.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01915796, version 1

Citation

Christine Chodkiewicz, Fabrice Issac, Bénédicte Pincemin. Le corpus "Droits de l'Homme" du LLI. Texto ! Textes et Cultures, Institut Ferdinand de Saussure, 2005, 10 (2). ⟨hal-01915796⟩

Share

Metrics

Record views

64

Files downloads

120