%0 Thesis %T Optimisation de la performance des entrepôts de données XML par fragmentation et répartition %+ Entrepôts, Représentation et Ingénierie des Connaissances (ERIC) %A Mahboubi, Hadj %I Université Lumière - Lyon II %Y Jérôme Darmont(jerome.darmont@univ-lyon2.fr) %Z - M. Lotfi Lakhal Université de la Méditerranée (Aix-Marseille II) (rapporteur) %Z - M. Franck Ravat Université de Toulouse 1 (rapporteur) %Z - Mlle Angela Bonifati Consiglio Nazionale delle Ricerche (Icar-CNR) (examinatrice) %Z - Mme Maryvonne Miquel INSA Lyon (examinatrice) %Z - M. Abdelkader Zighed Université Lumière Lyon 2 (examinateur) %Z - M. Jérôme Darmont Université Lumière Lyon 2 (directeur de thèse) %8 2008-12-08 %D 2008 %K Données complexes %K entrepôts de données XML %K fragmentation %K grille de données %K performance %K répartition %K SGBD natifs XML %K XQuery. %K XQuery %K Complex data %K data distribution %K data grid %K XML data warehouses %K XML-native DBMSs %Z Computer Science [cs]Theses %X XML data warehouses form an interesting basis for decision-support applications that exploit heterogeneous data from multiple sources. However, XML-native database systems currently suffer from limited performances, both in terms of manageable data volume and response time for complex analytical queries. It is therefore necessary to design methods to optimize performances.

In this thesis, we propose to address both these issues by fragmenting and distributing XML data warehouses on grids. To the best of our knowledge, we propose the first fragmentation methods for XML data warehouses. These methods exploit an XQuery workload and output a derived horizontal fragmentation schema.

We first adapted the most efficient fragmentation methods from the relational context to XML, and then proposed an original k-means-based fragmentation method that allows mastering the number of fragments. We finally propose an approach aimed at distributing XML data warehouses on grid architectures.

Our proposals exploit a unified XML warehouse reference model that we propose to synthesize and enhance related work from the literature.

Finally, we experimentally validate our proposal and compare our fragmentation and distribution methods. For this purpose, we designed and developed an XML data warehouse benchmark: XWeB. Our results show that our methods help overcome the data volume and
query execution time limitations. They also show that our k-means-based fragmentation method outperforms classical derived horizontal fragmentation methods, both in terms of performance gain and overhead. %X Les entrepôts de données XML forment une base intéressante pour les applications décisionnelles qui exploitent des données hétérogènes et provenant de sources multiples. Cependant, les Systèmes de Gestion de Bases de Données (SGBD) natifs XML actuels présentent des limites en termes de volume de données gérable, d'une part, et de performance des requêtes d'interrogation complexes, d'autre part. Il apparaît donc nécessaire de concevoir des méthodes pour optimiser ces performances.

Pour atteindre cet objectif, nous proposons dans ce mémoire de pallier conjointement ces limitations par fragmentation puis par répartition sur une grille de données. Pour cela, nous nous sommes intéressés dans un premier temps à la fragmentation des entrepôts des données XML et nous avons proposé des méthodes qui sont à notre connaissance les premières contributions dans ce domaine. Ces méthodes exploitent une charge de requêtes XQuery pour déduire un schéma de fragmentation horizontale dérivée.

Nous avons tout d'abord proposé l'adaptation des techniques les plus efficaces du domaine relationnel aux entrepôts de données XML, puis une méthode de fragmentation originale basée sur la technique de classification k-means. Cette dernière nous a permis de contrôler le nombre de fragments. Nous avons finalement proposé une approche de répartition d'un entrepôt de données XML sur une grille. Ces propositions nous ont amené à proposer un modèle de référence pour les entrepôts de données XML qui unifie et étend les modèles existants dans la littérature.

Nous avons finalement choisi de valider nos méthodes de manière expérimentale. Pour cela, nous avons conçu et développé un banc d'essais pour les entrepôts de données XML : XWeB. Les résultats expérimentaux que nous avons obtenus montrent que nous avons atteint notre objectif de maîtriser le volume de données XML et le temps de traitement de requêtes décisionnelles complexes. Ils montrent également que notre méthode de fragmentation basée sur les k-means fournit un gain de performance plus élevé que celui obtenu par les méthodes de fragmentation horizontale dérivée classiques, à la fois en terme de gain de performance et de surcharge des algorithmes. %G French %2 https://theses.hal.science/tel-00350301/document %2 https://theses.hal.science/tel-00350301/file/These_Mahboubi_Hadj.pdf %L tel-00350301 %U https://theses.hal.science/tel-00350301 %~ UNIV-LYON1 %~ UNIV-LYON2 %~ ERIC %~ THESES-LYON-2 %~ UDL %~ UNIV-LYON