Inférence de Schémas pour Données JSON Massives

Résumé : Ces dernières années ont connu une large adoption de JSON en tant que format de représentation de données massives. Les données JSON sont généralement dépourvues de schémas puisqu'elles sont produites et gérées de manière flexible. Malgré cet avantage, l'absence de schéma présente de nombreux inconvénients : la correction des requêtes et des programmes ne peut être vérifiée de manière statique comme c'est la cas traditionnellement, les utilisateurs ne disposent d'aucun moyen le permettant de découvrir la structure des données sous-jacentes et, de manière plus générale, les techniques d'optimisations basées sur les schémas ne peuvent être appliquées.Dans ce travail nous nous intéressons à l'inférence de schémas pour des données JSON massives. Notre première contribution consiste à proposer un langage de types pour JSON permettant de représenter la structure complexe des données analysées. Notre seconde contribution concerne le développement d'un algorithme d'inférence distribué et de son implantation dans Spark afin de garantir une exécution efficace sur des données volumineuses. Les résultats obtenus suite à une première étude expérimentale permettent de conclure que notre approche est satisfaisant en terme de temps d'exécution et de concision de schémas inférés.
Type de document :
Communication dans un congrès
32ème Conférence sur la "Gestion de Données — Principes, Technologies et Applications" (BDA 2016), Nov 2016, Poitiers, France. Proceedings of the BDA 2016 Conference, 〈https://bda2016.ensma.fr/〉
Liste complète des métadonnées

Littérature citée [2 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01502373
Contributeur : Mohamed-Amine Baazizi <>
Soumis le : mercredi 5 avril 2017 - 14:26:19
Dernière modification le : vendredi 31 août 2018 - 09:25:56
Document(s) archivé(s) le : jeudi 6 juillet 2017 - 13:11:18

Fichier

Post-proc.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : hal-01502373, version 1

Collections

UPMC | LIP6 | PSL

Citation

Mohamed-Amine Baazizi, Houssem Ben Lahmar, Dario Colazzo, Giorgio Ghelli, Carlo Sartiani. Inférence de Schémas pour Données JSON Massives. 32ème Conférence sur la "Gestion de Données — Principes, Technologies et Applications" (BDA 2016), Nov 2016, Poitiers, France. Proceedings of the BDA 2016 Conference, 〈https://bda2016.ensma.fr/〉. 〈hal-01502373〉

Partager

Métriques

Consultations de la notice

247

Téléchargements de fichiers

87