Optimisation et évaluation de performance pour l'aide à la conception et à l'administration des entrepôts de données complexes - Archive ouverte HAL Accéder directement au contenu
Hdr Année : 2006

Performance optimization and evaluation for designing and managing complex data warehouses

Optimisation et évaluation de performance pour l'aide à la conception et à l'administration des entrepôts de données complexes

Résumé

Data warehouses form the basis of decision-support systems. They help integrating the production data of companies or organizations and support multidimensional on-line analysis (OLAP) or data mining. Complex data are now more and more casually exploited within decision-support processes, hence new data warehousing approaches are developed, some of which exploit the XML language. In this context, data warehouse performance remains as much as ever a crucial issue.

In this thesis, we aim at proposing novel solutions for optimizing and evaluating data warehouse performance. We have indeed designed a generic approach whose objective is to automatically propose solutions to data warehouse administrators for optimizing data access times. The principle of this approach is to apply data mining techniques on a workload (set of queries) that is representative of data warehouse usage in order to deduce a quasi-optimal configuration of indices and/or materialized views. Then, cost models help selecting among these data structures those that are the most efficient in terms of performance gain/overhead ratio.

Besides, performance evaluation may help supporting data warehouse design. Thus, in order to experimentally validate our approach, we have also designed several generic benchmarks. Their main design principle is adaptability. In order to compare the efficiency of different performance optimization techniques, it is indeed necessary to test them in various environments, on different database and workload configurations, etc. The ability to assess the impact of different architecture choices is also a valuable help in data warehouse design. Our benchmarks thus allow the generation of various data warehouse configurations, as well as associated decision-support workloads.

Eventually, our performance optimization and evaluation solutions have been implemented in both the contexts of relational and XML data warehouses.
Les entrepôts de données forment le socle des systèmes décisionnels. Ils permettent d'intégrer les données de production d'une entreprise ou d'un organisme et sont le support de l'analyse multidimensionnelle en ligne (OLAP) ou de la fouille de données. Avec l'exploitation de plus en plus courante de données complexes dans le cadre des processus décisionnels, de nouvelles approches d'entreposage, qui exploitent notamment le langage XML, sont développées. Dans ce contexte, le problème de la performance des entrepôts de données demeure plus que jamais un enjeu crucial.

Le travail présenté dans ce mémoire vise à proposer des solutions innovantes au niveau de l'optimisation et de l'évaluation des performances des entrepôts de données. Nous avons en effet conçu une approche générique dont l'objectif est de proposer automatiquement à l'administrateur d'un entrepôt des solutions permettant d'optimiser les temps d'accès aux données. Le principe de cette approche est d'appliquer des techniques de fouille de données sur une charge (ensemble de requêtes) représentative de l'utilisation de l'entrepôt de données afin de déduire une configuration quasi-optimale d'index et/ou de vues matérialisées. Des modèles de coût permettent ensuite de sélectionner parmi ces structures de données les plus efficaces en terme de rapport gain de performance/surcharge.

Par ailleurs, l'évaluation de performance peut venir en appui de la conception des entrepôts de données. Ainsi, afin de valider notre approche de manière expérimentale, nous avons également conçu plusieurs bancs d'essais génériques. Le principe directeur qui a présidé à leur élaboration est l'adaptabilité. En effet, pour comparer l'efficacité de différentes techniques d'optimisation des performances, il est nécessaire de les tester dans différents environnements, sur différentes configurations de bases de données et de charges, etc. La possibilité d'évaluer l'impact de différents choix d'architecture est aussi une aide appréciable dans la conception des entrepôts de données. Nos bancs d'essais permettent donc de générer diverses configurations d'entrepôts de données, ainsi que des charges décisionnelles qui s'y appliquent.

Finalement, nos solutions d'optimisation et d'évaluation des performances ont été mises en oeuvre dans les contextes des entrepôts de données relationnels et XML.
Fichier principal
Vignette du fichier
hdr-darmont-06.pdf (757.5 Ko) Télécharger le fichier

Dates et versions

tel-00143361 , version 1 (25-04-2007)

Licence

Paternité

Identifiants

  • HAL Id : tel-00143361 , version 1

Citer

Jérôme Darmont. Optimisation et évaluation de performance pour l'aide à la conception et à l'administration des entrepôts de données complexes. Base de données [cs.DB]. Université Lumière Lyon 2, 2006. ⟨tel-00143361⟩
777 Consultations
2055 Téléchargements

Partager

Gmail Facebook X LinkedIn More