Constrained clustering by constraint programming

Résumé : La classification non supervisée, souvent appelée par le terme anglais de clustering, est une tâche importante en Fouille de Données. Depuis une dizaine d'années, la classification non supervisée a été étendue pour intégrer des contraintes utilisateur permettant de modéliser des connaissances préalables dans le processus de clustering. Différents types de contraintes utilisateur peuvent être considérés, des contraintes pouvant porter soit sur les clusters, soit sur les instances. Dans cette thèse, nous étudions le cadre de la Programmation par Contraintes (PPC) pour modéliser les tâches de clustering sous contraintes utilisateur. Utiliser la PPC a deux avantages principaux : la déclarativité, qui permet d'intégrer aisément des contraintes utilisateur et la capacité de trouver une solution optimale qui satisfait toutes les contraintes (s'il en existe). Nous proposons deux modèles basés sur la PPC pour le clustering sous contraintes utilisateur. Les modèles sont généraux et flexibles, ils permettent d'intégrer des contraintes d'instances must-link et cannot-link et différents types de contraintes sur les clusters. Ils offrent également à l'utilisateur le choix entre différents critères d'optimisation. Afin d'améliorer l'efficacité, divers aspects sont étudiés. Les expérimentations sur des bases de données classiques et variées montrent qu'ils sont compétitifs par rapport aux approches exactes existantes. Nous montrons que nos modèles peuvent être intégrés dans une procédure plus générale et nous l'illustrons par la recherche de la frontière de Pareto dans un problème de clustering bi-critère sous contraintes utilisateur.
Type de document :
Thèse
Computers and Society [cs.CY]. Université d'Orléans, 2014. English. 〈NNT : 2014ORLE2049〉
Liste complète des métadonnées

Littérature citée [46 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01202674
Contributeur : Abes Star <>
Soumis le : lundi 21 septembre 2015 - 15:22:06
Dernière modification le : jeudi 17 janvier 2019 - 15:10:02
Document(s) archivé(s) le : mardi 29 décembre 2015 - 09:01:25

Fichier

khanhchuong-duong_3694.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01202674, version 1

Citation

Khanh-Chuong Duong. Constrained clustering by constraint programming. Computers and Society [cs.CY]. Université d'Orléans, 2014. English. 〈NNT : 2014ORLE2049〉. 〈tel-01202674〉

Partager

Métriques

Consultations de la notice

357

Téléchargements de fichiers

479