Subspace Clustering on Static Datasets and Dynamic Data Streams Using Bio­-Inspired Algorithms

Sergio Peignier 1, 2
2 BEAGLE - Artificial Evolution and Computational Biology
LIRIS - Laboratoire d'InfoRmatique en Image et Systèmes d'information, Inria Grenoble - Rhône-Alpes, LBBE - Laboratoire de Biométrie et Biologie Evolutive, CarMeN - Laboratoire de recherche en cardiovasculaire, métabolisme, diabétologie et nutrition
Résumé : Les récents progrès techniques ont facilité l'acquisition massive de données décrites par un grand nombre de propriétés mesurables (jeu de données à forte dimensionnalité). De plus, le développement de nouvelles technologies a permis l'acquisition continue des données, fournissant aux utilisateurs des flux de données potentiellement infinis. Dans ces deux cas, les algorithmes traditionnels de clustering s'avèrent souvent insuffisants. En effet, les mesures de similarité, couramment utilisées par les techniques de clustering, rencontrent des limites lorsqu'elles sont utilisées dans des espaces à forte dimensionnalité. Ce phénomène conduit à une dégradation de la qualité du modèle de clustering obtenu. D'autre part, les grands volumes des flux de données ne permettent pas d'utiliser des techniques qui nécessitent l'exécution de plusieurs passes sur le jeu de données. Pour surmonter ces problèmes, de nouvelles approches ont été proposées dans la littérature. Une tâche importante qui a été étudiée dans le contexte de données à forte dimensionnalité est la tâche connue sous le nom de subspace clustering. Le subspace clustering est généralement reconnu comme étant plus compliqué que le clustering standard, étant donné que cette tâche vise à détecter des groupes d'objets similaires entre eux (clusters), et qu'en même temps elle vise à trouver les sous-espaces où apparaissent ces similitudes. Le subspace clustering, ainsi que le clustering traditionnel ont été récemment étendus au traitement de flux de données en mettant à jour les modèles de clustering de façon incrémentale. Les différents algorithmes qui ont été proposés dans la littérature, reposent sur des bases algorithmiques très différentes. Parmi ces approches, les algorithmes évolutifs ont été sous-explorés, même si ces techniques se sont avérées très utiles pour traiter d'autres problèmes NP-difficiles. L'objectif de cette thèse a été de tirer parti des nouvelles connaissances issues de l'évolution afin de concevoir des algorithmes évolutifs qui traitent le problème du subspace clustering sur des jeux de données statiques ainsi que sur des flux de données dynamiques. Chameleoclust, le premier algorithme développé au cours de ce projet, tire partie du grand degré de liberté fourni par des éléments bio-inspirés tels qu'un génome de longueur variable, l'existence d'éléments fonctionnels et non fonctionnels et des opérateurs de mutation incluant des réarrangements chromosomiques. KymeroClust, le deuxième algorithme conçu dans cette thèse, est un algorithme de k-medianes qui repose sur un mécanisme évolutif important: la duplication et la divergence des gènes. SubMorphoStream, le dernier algorithme développé ici, aborde le problème du subspace clustering sur des flux de données dynamiques. Cet algorithme repose sur deux mécanismes qui jouent un rôle clef dans l'adaptation rapide des bactéries à des environnements changeants: l'amplification de gènes et l'absorption de matériel génétique externe. Ces algorithmes ont été comparés aux principales techniques de l'état de l'art, et ont obtenu des résultats compétitifs. En outre, deux applications appelées EvoWave et EvoMove ont été développés pour évaluer la capacité de ces algorithmes à résoudre des problèmes réels. EvoWave est une application d'analyse de signaux Wi-Fi pour détecter des contextes différents. EvoMove est un compagnon musical artificiel qui produit des sons basés sur le clustering des mouvements d'un danseur, décrits par des données provenant de capteurs de déplacements.
Type de document :
Thèse
Data Structures and Algorithms [cs.DS]. Université de Lyon; INSA Lyon, 2017. English. 〈NNT : 2017LYSEI071〉
Liste complète des métadonnées

Littérature citée [246 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/tel-01697499
Contributeur : Christophe Rigotti <>
Soumis le : mercredi 31 janvier 2018 - 12:15:42
Dernière modification le : jeudi 22 février 2018 - 13:06:07

Fichier

thesis_2017_Peignier.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01697499, version 1

Citation

Sergio Peignier. Subspace Clustering on Static Datasets and Dynamic Data Streams Using Bio­-Inspired Algorithms. Data Structures and Algorithms [cs.DS]. Université de Lyon; INSA Lyon, 2017. English. 〈NNT : 2017LYSEI071〉. 〈tel-01697499〉

Partager

Métriques

Consultations de la notice

90

Téléchargements de fichiers

25