Modélisation des métadonnées d'un data lake en data vault - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2018

Modélisation des métadonnées d'un data lake en data vault

Iuri Nogueira
  • Fonction : Auteur
  • PersonId : 1025027
Maram Romdhane
  • Fonction : Auteur
  • PersonId : 1025028

Résumé

With the rise of big data, business intelligence had to find solutions for managing even greater data volume and variety than in data warehouses, which proved ill-adapted. Data lakes answer these needs from a storage point of view, but require managing adequate metadata to guarantee an efficient access to data. Starting from a multidimensional metadata model designed for an industrial heritage data lake presenting a lack of schema evolutivity, we propose in this paper to use ensemble modeling, and more precisely a data vault, to address this issue. To illustrate the feasibility of this approach, we instantiate our metadata conceptual model into relational and document oriented logical and physical models, respectively. We also compare the physical models in terms of metadata storage and query response time.
Avec l'avènement des mégadonnées (\textit{big data}), l'informatique décisionnelle a dû trouver des solutions pour gérer des volumes et une variété de données plus grands encore que dans les entrepôts de données, qui se sont révélés mal adaptés. Les lacs de données (\textit{data lakes}) répondent à ces besoins du point du vue du stockage, mais nécessitent la gestion de métadonnées adéquates pour garantir un accès efficace aux données. Sur la base d'un modèle multidimensionnel de métadonnées conçu pour un lac de données patrimoniales présentant un défaut d'évolutivité de schéma, nous proposons dans cet article l'utilisation de la modélisation ensembliste, et plus particulièrement d'un \textit{data vault}, pour traiter ce problème. Pour montrer la faisabilité de cette approche, nous instancions notre modèle conceptuel de métadonnées en modèles logiques et physiques relationnel et orienté document, respectivement. Nous comparons également les modèles physiques en termes de stockage et de temps de réponse aux requêtes sur les métadonnées.
Fichier principal
Vignette du fichier
vaultlake-oa.pdf (330 Ko) Télécharger le fichier
rnti.bst (31.05 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01665547 , version 1 (12-02-2018)

Licence

Paternité

Identifiants

  • HAL Id : hal-01665547 , version 1

Citer

Iuri Nogueira, Maram Romdhane, Jérôme Darmont. Modélisation des métadonnées d'un data lake en data vault. 18e conférence sur l'Extraction et la Gestion de Connaissances (EGC 2018), Jan 2018, Paris, France. pp.257-262. ⟨hal-01665547⟩
457 Consultations
2854 Téléchargements

Partager

Gmail Facebook X LinkedIn More