Clustering avec la minimisation de la somme des carrés par la programmation par contraintes
Résumé
Le clustering sous contraintes utilisateur a connu un essor important en fouille de données. Dans les dix dernières années, beaucoup de travaux se sont attachés à étendre les algorithmes classiques pour prendre en compte des contraintes utilisateur, mais ils sont en général limités à un seul type de contraintes. Dans de précédents travaux, nous avons proposé un cadre générique et déclaratif, fondé sur la programmation par contraintes, qui permet de modéliser différentes tâches de clustering sous contraintes. L'utilisateur peut spécifier un parmi plusieurs critères d'optimisation et combiner différents types de contraintes. Dans ce papier nous étendons le modèle pour traiter le critère le plus connu de clustering, qui est la minimisation de la somme des distances au carré des objets au centre de leur cluster.
C'est un problème difficile et à notre connaissance, il existe une seule méthode exacte permettant d'intégrer des contraintes utilisateurs ; elle est fondée sur la programmation linéaire sur les entiers et la génération de colonnes. Nous développons un algorithme de filtrage pour la nouvelle contrainte spécifiant ce critère. Des expérimentations sur des bases de données classiques montrent que notre modèle obtient une meilleure performance que la méthode exacte fondée sur la programmation linéaire.