Integrating Heterogeneous Data Sources in the Web of Data

Résumé : Le succès du Web de Données repose largement sur notre capacité à atteindre les données stockées dans des silos invisibles du web. Dans les 15 dernières années, des travaux ont entrepris d’exposer divers types de données structurées au format RDF. Dans le même temps, le marché des bases de données (BdD) est devenu très hétérogène avec le succès massif des BdD NoSQL. Celles-ci sont potentiellement d’importants fournisseurs de données liées. Aussi, l’objectif de cette thèse est de permettre l’intégration en RDF de sources de données hétérogènes, et notamment d'alimenter le Web de Données avec les données isses des BdD NoSQL. Nous proposons un langage générique, xR2RML, pour décrire le mapping de sources hétérogènes vers une représentation RDF arbitraire. Ce langage étend des travaux précédents sur la traduction de sources relationnelles, CSV/TSV et XML en RDF. Sur cette base, nous proposons soit de matérialiser les données RDF, soit d'évaluer dynamiquement des requêtes SPARQL sur la base native. Dans ce dernier cas, nous proposons une approche en deux étapes : (i) traduction d’une requête SPARQL en une requête pivot, abstraite, en se basant sur le mapping xR2RML ; (ii) traduction de la requête abstraite en une requête concrète, prenant en compte les spécificités du langage de requête de la BdD cible. Un souci particulier est apporté à l'optimisation des requêtes, aux niveaux abstrait et concret. Nous démontrons l’applicabilité de notre approche via un prototype pour la populaire base MongoDB. Nous avons validé la méthode dans un cas d’utilisation réel issu du domaine des humanités numériques.
Type de document :
Thèse
Databases [cs.DB]. Université Côte d'Azur, 2017. English
Liste complète des métadonnées

Littérature citée [177 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/tel-01508602
Contributeur : Franck Michel <>
Soumis le : vendredi 14 avril 2017 - 12:44:20
Dernière modification le : mercredi 19 avril 2017 - 01:09:44
Document(s) archivé(s) le : samedi 15 juillet 2017 - 15:33:31

Licence


Distributed under a Creative Commons Paternité - Partage selon les Conditions Initiales 4.0 International License

Identifiants

  • HAL Id : tel-01508602, version 1

Collections

Citation

Franck Michel. Integrating Heterogeneous Data Sources in the Web of Data. Databases [cs.DB]. Université Côte d'Azur, 2017. English. 〈tel-01508602〉

Partager

Métriques

Consultations de
la notice

185

Téléchargements du document

2157