Un Cadre générique pour la co-classification sous contraintes : application à l'analyse du transcriptome

Ruggero Gaetano Pensa 1
1 DM2L - Data Mining and Machine Learning
LIRIS - Laboratoire d'InfoRmatique en Image et Systèmes d'information
Résumé : La recherche de groupements intéressants dans les données booléennes (ensembles d'objets décrits par un ensemble de propriétés) a motivé la conception de méthodes d'extractions de motifs globaux (partitions) et de motifs locaux (ensembles fréquents, règles d'association et concepts formels). Cette thèse concerne la co-classification c'est-à-dire le calcul de bi-partitions (couplage de partitions sur les deux dimensions). Les algorithmes de co-classification disponibles ne permettent aux analystes d'exploiter leur connaissance du domaine qu'à travers un nombre réduit de paramètres. D'autre part, les techniques d'extraction de motifs locaux produisent d'énormes collections qui sont difficilement exploitables et interprétables. Nous avons développé une nouvelle méthode de co-classification qui calcule des bi-partitions à partir de motifs capturant des associations localement fortes (e. G. , des concepts formels, une forme de motif tolérant aux exceptions appelé delta-bi-ensemble). Le principe consiste à exploiter l'information contenue dans la collection des motifs locaux en la propageant au niveau global pour faciliter l'optimisation de la fonction objectif. Il devient alors possible de propager un certain nombre de contraintes depuis l'extraction des motifs locaux jusqu'à la construction de la bi-partition (e. G. , pour imposer des formes particulières aux groupes calculés). Il s'agit donc d'une contribution au domaine très récent de la classification sous contraintes. Une approche duale consiste à utiliser des motifs locaux pour faciliter l'interprétation de bi-partitions déjà calculées. Pour ce faire, nous proposons une méthode de caractérisation des bi-clusters au moyen de motifs locaux auxquels sont associés des mesures d'intérêt. L'application de nos méthodes à l'analyse de données d'expression de gènes a montré la pertinence de nos propositions pour expliciter des hypothèses biologiques plausibles.
Type de document :
Pré-publication, Document de travail
3301; T. 2006
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01455537
Contributeur : Équipe Gestionnaire Des Publications Si Liris <>
Soumis le : vendredi 3 février 2017 - 16:01:04
Dernière modification le : mercredi 8 février 2017 - 14:26:10

Identifiants

  • HAL Id : hal-01455537, version 1

Collections

Citation

Ruggero Gaetano Pensa. Un Cadre générique pour la co-classification sous contraintes : application à l'analyse du transcriptome. 3301; T. 2006. <hal-01455537>

Partager

Métriques

Consultations de la notice

62