Traitement des requêtes d’agrégation sur un serveur SPARQL préemptif - 31es Journées francophones d'Ingénierie des Connaissances Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Traitement des requêtes d’agrégation sur un serveur SPARQL préemptif

Résumé

En suivant les principes du web des données, les fournisseurs de données ont publié des milliards de triples en format RDF (Bizer et al., 2009; Schmachtenberg et al., 2014). Il est possible de calculer des statistiques sur ces données en exécutant des requêtes SPARQL d’agrégation ; par exemple le nombre de propriétés par classe (Hasnain et al., 2016), ou en- core la durée de vie moyenne de scientifiques célèbres par pays. Cependant, le traitement des requêtes d’agrégation sur les serveurs SPARQL public reste difficile. En effet, la durée d’exécution des requêtes d’agrégation dépasse généralement les limites de temps autorisées par les serveurs SPARQL. On obtient alors des résultats partiels inutilisables dans le cadre de requêtes d’agrégation. (Polleres et al., 2018; Soulet & Suchanek, 2019; Hasnain et al., 2016). Pour surmonter les limitations de quotas, les fournisseurs de données fournissent, en plus des serveurs SPARQL en ligne, des fichiers de sauvegarde contenant l’ensemble des données. Cependant, la ré-ingestion de milliards de faits RDF sur des ressources locales est extrême- ment coûteuse et pose des problèmes de fraîcheur des données. Récemment, des travaux de recherche ont été menés afin de construire des serveurs SPARQL fonctionnant sans limite de temps comme TPF (Verborgh et al., 2016) ou SaGe (Mi- nier et al., 2019). Cependant, dans ces approches, les données à agréger sont d’abord trans- férées du serveur de données à un client intelligent qui effectue le calcul d’agrégation. La requête d’agrégation termine, mais le transfert de données est prohibitif. Dans (Grall et al., 2020), nous montrons comment il est possible d’étendre un serveur SPARQL préemptif avec un opérateur d’agrégation. Ce résultat est basé sur les propriétés de décomposition des fonctions d’agrégation. Dans notre approche, le serveur SPARQL préemp- tif est capable de calculer des agrégats partiels côté serveur pendant que le client intelligent combine ces agrégats partiels de manière incrémentale pour calculer les résultats finaux. Cette stratégie permet de réduire considérablement le trafic réseau lors des calculs d’agrégation.
Fichier principal
Vignette du fichier
extendedAbstract.pdf (267.37 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02888207 , version 1 (08-07-2020)

Identifiants

  • HAL Id : hal-02888207 , version 1

Citer

Arnaud Grall, Thomas Minier, Hala Skaf-Molli, Pascal Molli. Traitement des requêtes d’agrégation sur un serveur SPARQL préemptif. 31es Journées francophones d'Ingénierie des Connaissances, Sébastien Ferré, Jun 2020, Angers, France. ⟨hal-02888207⟩
88 Consultations
114 Téléchargements

Partager

Gmail Facebook X LinkedIn More