Traitement des requêtes d’agrégation sur un serveur SPARQL préemptif

En suivant les principes du web des données, les fournisseurs de données ont publié des milliards de triples en format RDF (Bizer et al., 2009; Schmachtenberg et al., 2014). Il est possible de calculer des statistiques sur ces données en exécutant des requêtes SPARQL d’agrégation ; par exemple le nombre de propriétés par classe (Hasnain et al., 2016), ou en- core la durée de vie moyenne de scientifiques célèbres par pays. Cependant, le traitement des requêtes d’agrégation sur les serveurs SPARQL public reste difficile. En effet, la durée d’exécution des requêtes d’agrégation dépasse généralement les limites de temps autorisées par les serveurs SPARQL. On obtient alors des résultats partiels inutilisables dans le cadre de requêtes d’agrégation. (Polleres et al., 2018; Soulet & Suchanek, 2019; Hasnain et al., 2016). Pour surmonter les limitations de quotas, les fournisseurs de données fournissent, en plus des serveurs SPARQL en ligne, des fichiers de sauvegarde contenant l’ensemble des données. Cependant, la ré-ingestion de milliards de faits RDF sur des ressources locales est extrême- ment coûteuse et pose des problèmes de fraîcheur des données. Récemment, des travaux de recherche ont été menés afin de construire des serveurs SPARQL fonctionnant sans limite de temps comme TPF (Verborgh et al., 2016) ou SaGe (Mi- nier et al., 2019). Cependant, dans ces approches, les données à agréger sont d’abord trans- férées du serveur de données à un client intelligent qui effectue le calcul d’agrégation. La requête d’agrégation termine, mais le transfert de données est prohibitif. Dans (Grall et al., 2020), nous montrons comment il est possible d’étendre un serveur SPARQL préemptif avec un opérateur d’agrégation. Ce résultat est basé sur les propriétés de décomposition des fonctions d’agrégation. Dans notre approche, le serveur SPARQL préemp- tif est capable de calculer des agrégats partiels côté serveur pendant que le client intelligent combine ces agrégats partiels de manière incrémentale pour calculer les résultats finaux. Cette stratégie permet de réduire considérablement le trafic réseau lors des calculs d’agrégation.

Mots clés

Ontologies Apprentissage actif inférence grammaticale

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

extendedAbstract.pdf (267.37 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Sébastien Ferré : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02888207

Soumis le : mercredi 8 juillet 2020-10:07:26

Dernière modification le : vendredi 24 mars 2023-14:53:18

Archivage à long terme le : lundi 30 novembre 2020-13:47:11

Dates et versions

hal-02888207 , version 1 (08-07-2020)

Identifiants

HAL Id : hal-02888207 , version 1

Citer

Arnaud Grall, Thomas Minier, Hala Skaf-Molli, Pascal Molli. Traitement des requêtes d’agrégation sur un serveur SPARQL préemptif. 31es Journées francophones d'Ingénierie des Connaissances, Sébastien Ferré, Jun 2020, Angers, France. ⟨hal-02888207⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-NANTES INSTITUT-TELECOM CNRS EC-NANTES IC UNAM LS2N LS2N-GDD IC_2020 ANR NANTES-UNIVERSITE

88 Consultations

114 Téléchargements