Systèmes de métadonnées dans les lacs de données : modélisation et fonctionnalités - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2019

Systèmes de métadonnées dans les lacs de données : modélisation et fonctionnalités

Résumé

Over the past decade, the data lake concept has emerged as an alternative to data warehouses for storing and analyzing big data. A data lake allows storing data without any predefined schema. Therefore, data querying and analysis depends on a metadata system that must be efficient and comprehensive. However, metadata management in data lakes remains a current issue and the criteria for evaluating its effectiveness are more or less inexistent. In this article, we propose MEDAL, a generic model for metadata management in data lakes. We adopt a graph-based model for MEDAL. We also propose evaluation criteria for data lake metadata systems through a list of expected features. Eventually, we show that our approach is more comprehensive than existing metadata systems.
Au cours de la dernière décennie, le concept de lac de données a émergé comme une alternative aux entrepôts de données pour le stockage et l'analyse des mégadonnées. Le lac de données propose un stockage des données sans schéma prédéfini. En l'absence de schéma, l’interrogation et l’analyse des données dépendent alors d'un système de métadonnées qui se doit d’être efficace et complet. Cependant, la gestion des métadonnées dans les lacs de données demeure une problématique d’actualité et les critères d’évaluation de son efficacité sont peu ou prou inexistants. Dans cet article, nous proposons MEDAL, un modèle générique pour la gestion des métadonnées d’un lac de données. MEDAL adopte une modélisation du système de métadonnées à base de graphes. Nous proposons aussi des critères d’évaluation du système de métadonnées d’un lac de données à travers une liste de fonctionnalités attendues et montrons que notre approche est plus complète que les systèmes de métadonnées existants.
Fichier principal
Vignette du fichier
main-eda2019.pdf (185.86 Ko) Télécharger le fichier
inter.PNG (13.5 Ko) Télécharger le fichier
intra.PNG (21.47 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02889457 , version 1 (03-07-2020)

Licence

Paternité

Identifiants

  • HAL Id : hal-02889457 , version 1

Citer

Etienne Scholly, Pegdwendé Nicolas Sawadogo, Cécile Favre, Eric Ferey, Sabine Loudcher, et al.. Systèmes de métadonnées dans les lacs de données : modélisation et fonctionnalités. 15e journées EDA Business Intelligence & Big Data (EDA 2019), Oct 2019, Montpellier, France. pp.77-92. ⟨hal-02889457⟩
74 Consultations
446 Téléchargements

Partager

Gmail Facebook X LinkedIn More