Systèmes d'Information Scientifique : des modèles conceptuels aux annotations sémantiques Application au domaine de l'archéologie et des sciences du vivant

Résumé : Les Systèmes d'Information Scientifique (SIS) sont des Systèmes d'Information (SI) dont le but est de produire de la connaissance et non pas de gérer ou contrôler une activité de production de biens ou de services comme les SI d'entreprise. Les SIS se caractérisent par des domaines de recherche fortement collaboratifs impliquant des équipes pluridisciplinaires et le plus souvent géographiquement éloignées, ils manipulent des données aux structures très variables dans le temps qui vont au-delà de la simple hétérogénéité : nuages de points issus de scanner 3D, modèles numériques de terrain, cartographie, publications, données issues de spectromètre de masse ou de technique de thermoluminescence, données attributaires en très grand volume, etc. Ainsi, contrairement aux bases de données d'entreprise qui sont modélisées avec des structures établies par l'activité qu'elles supportent, les données scientifiques ne peuvent pas se contenter de schémas de données pré-definis puisque la structure des données évolue rapidement de concert avec l'évolution de la connaissance. La gestion de données scientifiques nécessite une architecture de SIS ayant un niveau d'extensibilité plus élevé que dans un SI d'entreprise. Afin de supporter l'extensibilité tout en contrôlant la qualité des données mais aussi l'interopérabilité, nous proposons une architecture de SIS reposant sur : - des données référentielles fortement structurées, identifiables lors de la phase d'analyse et amenées à évoluer rarement ; - des données complémentaires multi-modèles (matricielles, cartographiques, nuages de points 3D, documentaires, etc.). Pour établir les liens entre les données complémentaires et les données référentielles, nous avons utilisé un unique paradigme, l'annotation sémantique. Nous avons proposé un modèle formel d'annotation à base ontologique pour construire des annotations sémantiques dont la cohérence et la consistance peuvent être contrôlées par une ontologie et des règles. Dans ce cadre, les annotations offrent ainsi une contextualisation des données qui permet de vérifier leur cohérence, par rapport à la connaissance du domaine. Nous avons dressé les grandes lignes d'une sémantique du processus d'annotation par analogie avec la sémantique des langages de programmation. Nous avons validé notre proposition, à travers deux collaborations pluridisciplinaires : - le projet ANR CARE (Corpus Architecturae Religiosae Europeae - IV-X saec. ANR-07- CORP-011) dans le domaine de l'archéologie. Son objectif était de développer un corpus numérique de documents multimédia sur l'évolution des monuments religieux du IVe au XIe siècle (http://care.tge-adonis.fr). Un assistant d'annotation a été développé pour assurer la qualité des annotations par rapport à la connaissance représentée dans l'ontologie. Ce projet a donné lieu au développement d'une extension sémantique pour MediaWiki ; - le projet eClims dans le domaine de la protéomique clinique. eClims est un composant clinique d'un LIMS (Laboratory Information Management System) développé pour la plate-forme de protéomique CLIPP. eClims met en oeuvre un outil d'intégration basé sur le couplage entre des modèles représentant les sources et le système protéomique, et des ontologies utilisées comme médiatrices entre ces derniers. Les différents contrôles que nous mettons en place garantissent la validité des domaines de valeurs, la complétude, la consistance des données et leur cohérence. Le stockage des annotations est assuré par une Base de Données orientées colonnes associée à une Base de Données relationnelles.
Type de document :
HDR
Base de données [cs.DB]. Université de Bourgogne, 2013
Liste complète des métadonnées


https://tel.archives-ouvertes.fr/tel-00917782
Contributeur : Marinette Savonnet <>
Soumis le : jeudi 12 décembre 2013 - 13:58:53
Dernière modification le : vendredi 13 décembre 2013 - 15:58:21
Document(s) archivé(s) le : vendredi 14 mars 2014 - 11:15:25

Identifiants

  • HAL Id : tel-00917782, version 1

Collections

Citation

Marinette Savonnet. Systèmes d'Information Scientifique : des modèles conceptuels aux annotations sémantiques Application au domaine de l'archéologie et des sciences du vivant. Base de données [cs.DB]. Université de Bourgogne, 2013. <tel-00917782>

Partager

Métriques

Consultations de
la notice

346

Téléchargements du document

1585