Algorithms for Data Mining and Bio-informatics

Kartick Chandra Mondal 1
1 Laboratoire d'Informatique, Signaux, et Systèmes de Sophia-Antipolis (I3S) / Equipe KEIA
SPARKS - Scalable and Pervasive softwARe and Knowledge Systems
Résumé : Dans cette thèse, nous proposons une approche originale pour l’extraction de modèles de connaissances de ces deux catégories en minimisant l’utilisation des ressources. Les modèles extraits, basés sur la théories des itemsets fermés fréquents et des listes d’objets support, sont utilisés pour construire des représentations conceptuelles minimales de règles d’association et de classification, et de bi-clusters. Ils étendent les modèles classiques de règles d’association et classification, ainsi que de bi-clusters, en fournissant à l’utilisateur davantage d’informations découlant des listes d’objets supportant chaque modèle. Ces modèles sont générés à partir des ensembles de générateurs, ou itemsets-clé, d’itemsets fermés fréquents et de la structure hiérarchique conceptuelle induite par les générateurs, les fermés fréquents et les listes d’objets support. L’approche proposée, nommée FIST pour Frequent Itemset mining using Suffix-Trees, utilise une nouvelle structure de données basée sur les arbres suffixés qui permet le stockage efficace des données et l’extraction de modèles de connaissance pertinents en mémoire primaire. La stratégie utilisée par FIST est basée sur la fermeture de la connexion de Galois d’une relation binaire finie qui sert également de fondement théorique en analyse de concepts formels (FCA). FIST est une approche intégrée qui combine l’extraction de générateurs, motifs fermés fréquents, règles d’association, de classification, et bi-clusters conceptuels, étendant ainsi les modèles classiques de connaissance pour une analyse conceptuelle. Aucun autre algorithme publié dans la littérature ne permet de générer les mêmes motifs que ceux générés par FIST à notre connaissance. Trois implémentations des deux différentes versions algorithmiques de FIST ont été implémentées en langage Java, choisi pour la portabilité. Ces trois implémentations ont été comparées expérimentalement sur diverses configurations matérielles afin d’évaluer avec précision les gains obtenus par les améliorations successives de l’algorithme et l’utilisation des collections de l’API Java Trove. L’approche FIST, développée pour répondre à certaines de ces problématiques, a été appliquées à l’analyse d’interactions protéomiques (PPI) entre les protéines du virus VIH-1 et de l’organisme humain. L’analyse d’interactions protéomiques est un domaine récent et complexe d’une importance majeure en bioinformatique. Les résultats obtenus ont permi de démontrer son rôle capital pour la découverte de nouveaux traitements et la prévention de diverses types de maladies. Afin de démontrer la validité de l’approche, les connaissances déjà reportées dans la littérature du domaine qui ont été extraites avec FIST sont également présentées. Les modèles extraits par FIST pour ces données sont constitutées des bi-clusters hiérarchiques conceptuels et des couvertures minimales conceptuelles de règles d’association contenant à la fois des informations d’interactions et d’annotations biologiques conernant les protéines.
Type de document :
Thèse
Data Structures and Algorithms [cs.DS]. Université Nice Sophia Antipolis, 2013. English. 〈NNT : 2013NICE4049〉
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/tel-01330152
Contributeur : Nicolas Pasquier <>
Soumis le : vendredi 10 juin 2016 - 10:01:37
Dernière modification le : mardi 12 décembre 2017 - 16:08:09

Fichier

Identifiants

  • HAL Id : tel-01330152, version 1

Collections

Citation

Kartick Chandra Mondal. Algorithms for Data Mining and Bio-informatics. Data Structures and Algorithms [cs.DS]. Université Nice Sophia Antipolis, 2013. English. 〈NNT : 2013NICE4049〉. 〈tel-01330152〉

Partager

Métriques

Consultations de la notice

179

Téléchargements de fichiers

333