Contribution au cadre des bases de données inductives : Formalisation et évaluation de scénarios d'extraction de connaissances

Résumé : Le succès des techniques de bases de données permet de collecter une quantité toujours plus grande d'informations dans différents domaines. L'ECD (Extraction de Connaissance dans les Données) se donne pour but d'aller plus loin dans le processus d'interrogation des données pour y découvrir, sous forme de motifs, de la connaissance cachée. La notion de base de données inductive (BDI) généralise le concept de base de données en intégrant données et motifs dans un cadre commun. Un processus d'ECD peut alors être vu comme un processus d'interrogation étendu sur une BDI. Cette thèse s'intéresse `a la formalisation et `a l'évaluation des scénarios d'extraction dans le cadre des BDI. Nous montrons d'abord comment utiliser un langage abstrait pour les BDI pour décrire de manière formelle des processus d'extraction réalisables par l'utilisateur. Nous obtenons ainsi un scénario prototypique, i. E. Un objet théorique composé d'une séquence de requêtes inductives, sur lequel il est possible de raisonner. Un tel scénario sert avant tout `a formaliser des traitements pour le transfert d'expertise entre utilisateurs et spécialistes en ECD. Une autre application du concept de scénario est l'évaluation sur une base commune de différentes implémentations de BDI, dans la lignée des benchmarks existants pour les bases de données. Un scénario d'évaluation a le même aspect qu'un scénario prototypique, mais on s'intéresse ici aux problèmes algorithmiques et d'optimisation de séquences de requêtes inductives. Lors du calcul du plan d'exécution d'un tel scénario, le système devra analyser les propriétés des requêtes qui le composent, en découvrant des dépendances entre celles-ci ou des conjonctions de contraintes pour lesquelles nous souhaitons disposer d'outils d'extraction efficaces. Enfin, nous présentons un scénario d'évaluation en bioinformatique et nous montrons comment le résoudre en utilisant des techniques préexistantes dans l'équipe ou développées pour les besoins de ce scénario.
Type de document :
Pré-publication, Document de travail
4235; T. 2005
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01455277
Contributeur : Équipe Gestionnaire Des Publications Si Liris <>
Soumis le : vendredi 3 février 2017 - 14:19:02
Dernière modification le : mercredi 8 février 2017 - 14:28:32

Identifiants

  • HAL Id : hal-01455277, version 1

Collections

Citation

Cyrille Masson. Contribution au cadre des bases de données inductives : Formalisation et évaluation de scénarios d'extraction de connaissances. 4235; T. 2005. <hal-01455277>

Partager

Métriques

Consultations de la notice

71