Skip to Main content Skip to Navigation
Conference papers

Inférence de Schémas pour Données JSON Massives

Résumé : Ces dernières années ont connu une large adoption de JSON en tant que format de représentation de données massives. Les données JSON sont généralement dépourvues de schémas puisqu'elles sont produites et gérées de manière flexible. Malgré cet avantage, l'absence de schéma présente de nombreux inconvénients : la correction des requêtes et des programmes ne peut être vérifiée de manière statique comme c'est la cas traditionnellement, les utilisateurs ne disposent d'aucun moyen le permettant de découvrir la structure des données sous-jacentes et, de manière plus générale, les techniques d'optimisations basées sur les schémas ne peuvent être appliquées.Dans ce travail nous nous intéressons à l'inférence de schémas pour des données JSON massives. Notre première contribution consiste à proposer un langage de types pour JSON permettant de représenter la structure complexe des données analysées. Notre seconde contribution concerne le développement d'un algorithme d'inférence distribué et de son implantation dans Spark afin de garantir une exécution efficace sur des données volumineuses. Les résultats obtenus suite à une première étude expérimentale permettent de conclure que notre approche est satisfaisant en terme de temps d'exécution et de concision de schémas inférés.
Complete list of metadatas

Cited literature [2 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-01502373
Contributor : Mohamed-Amine Baazizi <>
Submitted on : Wednesday, April 5, 2017 - 2:26:19 PM
Last modification on : Monday, August 3, 2020 - 3:37:10 AM
Document(s) archivé(s) le : Thursday, July 6, 2017 - 1:11:18 PM

File

Post-proc.pdf
Publisher files allowed on an open archive

Identifiers

  • HAL Id : hal-01502373, version 1

Citation

Mohamed-Amine Baazizi, Houssem Ben Lahmar, Dario Colazzo, Giorgio Ghelli, Carlo Sartiani. Inférence de Schémas pour Données JSON Massives. 32ème Conférence sur la "Gestion de Données — Principes, Technologies et Applications" (BDA 2016), Nov 2016, Poitiers, France. ⟨hal-01502373⟩

Share

Metrics

Record views

409

Files downloads

165