Algorithms for Data Mining and Bio-informatics - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2013

Algorithms for Data Mining and Bio-informatics

Algorithmes pour la Fouille de Données et la Bioinformatique

Résumé

Pattern extraction is one of the major topics in the Knowledge Discovery from Data (KDD) and Background Knowledge Integration (BKI) research domains. Extracting patterns from databases, data warehouses and other kinds of data repositories is one of the most unyielding tasks. Extensively, it is subsumed as a part of the data mining task. Out of numerous data mining techniques, association rule mining and bi-clustering are two major complementary data mining tasks for relevant knowledge extraction and integration. These tasks gained much importance in many research domains in recent years. However, to the best of our knowledge, no approach was proposed to perform these two tasks in one process. In this thesis work, we propose an original approach for extracting different categories of knowledge patterns while using minimum number of resources. These patterns, based on frequent closed sets and supporting object lists, are used to construct conceptual minimal representations of association rules, bi-clusters and classification rules. They extend the classical frameworks of association and classification rules, and of bi-clusters, by providing the user with more information using the object lists associated with these patterns. These patterns are generated from the sets of generators, or key-patterns, the sets of closed patterns and the hierarchical conceptual structure induced from generators, closed patterns and supporting object lists. The proposed approach, named FIST for Frequent Itemset mining using Suffix-Trees, is based on a new suffix-tree data structure that enables the efficient storage of data and computation of relevant patterns in primary memory. The strategy used by FIST is based on the closure of the Galois Connection of a finite binary relation theory used in the Formal Concept Analysis framework. FIST is an integrated approach based on the Galois closure framework, combining the searches for generators, frequent closed itemsets, association rules, conceptual bi-clusters and classification patterns, and extending the generated patterns for conceptual analysis. Experimental results and analyses show the performances of the different versions of FIST and compare them to others state-of-the-art algorithms for association rule mining, closed pattern mining and bi-clustering. To the best of our knowledge, no algorithm in the literature produces the same output patterns as are generated by FIST. The FIST application was applied for the analysis of a real life dataset of protein-protein interactions (PPI) between HIV-1 and Human proteins. In order to improve and extend knowledge patterns extracted from original HIV-1 and Human PPI data, we constructed three new datasets integrating the most recent biological and bibliographic annotations on proteins with PPI data. Successive experimental results for these PPI datasets, and new information discovered using the FIST approach on these datasets, are presented in this report. As proof of correctness, we have also shown that FIST successfully found the currently known information in the PPI literature. The experiments on these PPI datasets were performed by extracting with FIST the conceptual hierarchical bi-clusters and the conceptual minimal covers of association rules containing both interaction and annotation information on proteins.
Dans cette thèse, nous proposons une approche originale pour l’extraction de modèles de connaissances de ces deux catégories en minimisant l’utilisation des ressources. Les modèles extraits, basés sur la théories des itemsets fermés fréquents et des listes d’objets support, sont utilisés pour construire des représentations conceptuelles minimales de règles d’association et de classification, et de bi-clusters. Ils étendent les modèles classiques de règles d’association et classification, ainsi que de bi-clusters, en fournissant à l’utilisateur davantage d’informations découlant des listes d’objets supportant chaque modèle. Ces modèles sont générés à partir des ensembles de générateurs, ou itemsets-clé, d’itemsets fermés fréquents et de la structure hiérarchique conceptuelle induite par les générateurs, les fermés fréquents et les listes d’objets support. L’approche proposée, nommée FIST pour Frequent Itemset mining using Suffix-Trees, utilise une nouvelle structure de données basée sur les arbres suffixés qui permet le stockage efficace des données et l’extraction de modèles de connaissance pertinents en mémoire primaire. La stratégie utilisée par FIST est basée sur la fermeture de la connexion de Galois d’une relation binaire finie qui sert également de fondement théorique en analyse de concepts formels (FCA). FIST est une approche intégrée qui combine l’extraction de générateurs, motifs fermés fréquents, règles d’association, de classification, et bi-clusters conceptuels, étendant ainsi les modèles classiques de connaissance pour une analyse conceptuelle. Aucun autre algorithme publié dans la littérature ne permet de générer les mêmes motifs que ceux générés par FIST à notre connaissance. Trois implémentations des deux différentes versions algorithmiques de FIST ont été implémentées en langage Java, choisi pour la portabilité. Ces trois implémentations ont été comparées expérimentalement sur diverses configurations matérielles afin d’évaluer avec précision les gains obtenus par les améliorations successives de l’algorithme et l’utilisation des collections de l’API Java Trove. L’approche FIST, développée pour répondre à certaines de ces problématiques, a été appliquées à l’analyse d’interactions protéomiques (PPI) entre les protéines du virus VIH-1 et de l’organisme humain. L’analyse d’interactions protéomiques est un domaine récent et complexe d’une importance majeure en bioinformatique. Les résultats obtenus ont permi de démontrer son rôle capital pour la découverte de nouveaux traitements et la prévention de diverses types de maladies. Afin de démontrer la validité de l’approche, les connaissances déjà reportées dans la littérature du domaine qui ont été extraites avec FIST sont également présentées. Les modèles extraits par FIST pour ces données sont constitutées des bi-clusters hiérarchiques conceptuels et des couvertures minimales conceptuelles de règles d’association contenant à la fois des informations d’interactions et d’annotations biologiques conernant les protéines.
Fichier principal
Vignette du fichier
Thesis.pdf (12.78 Mo) Télécharger le fichier

Dates et versions

tel-01330152 , version 1 (10-06-2016)

Identifiants

  • HAL Id : tel-01330152 , version 1

Citer

Kartick Chandra Mondal. Algorithms for Data Mining and Bio-informatics. Data Structures and Algorithms [cs.DS]. Université Nice Sophia Antipolis, 2013. English. ⟨NNT : 2013NICE4049⟩. ⟨tel-01330152⟩
459 Consultations
448 Téléchargements

Partager

Gmail Facebook X LinkedIn More