Skip to Main content Skip to Navigation
Conference papers

Les données de l’archéologie au prisme des humanités numériques : thésaurus et interopérabilité sémantique

Résumé : Dans le contexte de la science ouverte, avec l’ouverture et le partage des données de la recherche, les humanités numériques incitent à expérimenter de nouvelles méthodes et de nouveaux outils pour construire, documenter et publier, selon les principes FAIR, des données scientifiques faciles à trouver, accessibles, interopérables et réutilisables. L’enjeu de la normalisation des données - pour être manipulables par des machines - doit aussi préserver la créativité et la pluralité des points de vue des chercheurs. À ces fins, le projet HyperThesau, financé par le Labex Intelligence des mondes urbains de l'Université de Lyon et porté par le laboratoire Archéorient (UMR 5133), propose une approche originale du problème de l’hétérogénéité structurelle et sémantique des données archéologiques. Cette approche repose sur la création d’une architecture issue de l’informatique décisionnelle et des big data — le « lac de données » — pour préserver la variété des données produites par les archéologues. Cet espace de stockage intégré des données sans schéma prédéfini suppose un système de métadonnées efficace pour permettre l'indexation, l'interrogation et l'exploitation des jeux de données qui y sont déposés. Le thésaurus qui va être utilisé dans le système de gestion des métadonnées apparaît comme un moyen pour mettre en œuvre l’interopérabilité sémantique des données archéologiques, en harmonisant le vocabulaire scientifique et technique de cette discipline. En l’absence de liste de termes préétablie, deux méthodes ont été combinées pour recueillir le vocabulaire de ce thésaurus. La première est la méthode synthétique : on recherche des termes pertinents dans des sources de référence qui contiennent des listes lexicales : index, tables de matière, manuels, bases de données, documents administratifs, guides de bonnes pratiques, fiches d’inventaire, etc. La seconde est la méthode analytique, qui consiste à recueillir les mots significatifs du langage naturel à partir de sources textuelles, et pour laquelle ont été expérimentés des outils de fouille de texte et d’analyse de données textuelles. Le thésaurus du projet HyperThésau est construit comme un outil de médiation entre des vocabulaires « locaux » ou « maison » et des vocabulaires documentaires plus généraux. Sur le modèle de la roue et de l’essieu (hub and spoke), l’idée est d’aligner le vocabulaire archéologique hétérogène sur un référentiel externe qui procure au concept un identifiant unique et prenne, indépendant des termes utilisés dans lesjeux de données. Ce thésaurus joue ainsi un rôle de pivot pour l’interopérabilité des données archéologiques en ménageant des liens avec les grands référentiels publiés dans le web de données par la communauté des bibliothèques, notamment ceux de la Bibliothèque nationale de France (data.bnf.fr) de l’Agence bibliographique de l’enseignement supérieur (IdRef) et de la bibliothèque américaine du Congrès (Library of Congress Subject Heading). À terme, l’alignement sur les systèmes d’information internationaux permet l’interconnexion avec d’autres jeux de données par les vocabulaires, et ainsi de consolider les données et de produire des connaissances originales. C’est là qu’émergent des besoins nouveaux liés au développement des humanités numériques. Pour les domaines de recherche spécialisés, le vocabulaire est parfois absent des grands référentiels documentaires. L’ouverture et le partage des données de la recherche engagent à mettre en place de nouvelles formes de collaboration entre les institutions productrices de vocabulaires contrôlés et les laboratoires de recherche, pour partager et enrichir un vocabulaire commun.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-02865148
Contributor : Emmanuelle Perrin <>
Submitted on : Thursday, June 11, 2020 - 3:19:57 PM
Last modification on : Wednesday, July 8, 2020 - 12:37:55 PM

Identifiers

  • HAL Id : hal-02865148, version 1

Collections

Citation

Emmanuelle Perrin. Les données de l’archéologie au prisme des humanités numériques : thésaurus et interopérabilité sémantique. Colloque Humanistica 2020, Association francophone des humanités numériques, May 2020, Bordeaux, France. ⟨hal-02865148⟩

Share

Metrics

Record views

74