Sélection de modèle pour la classification non supervisée. Choix du nombre de classes. - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2009

Model Selection for Clustering. Choosing the Number of Classes.

Sélection de modèle pour la classification non supervisée. Choix du nombre de classes.

Jean-Patrick Baudry
  • Fonction : Auteur
  • PersonId : 853690

Résumé

The reported works take place in the statistical framework of model-based clustering. We particularly focus on choosing the number of classes and on the ICL model selection criterion. A fruitful approach for theoretically studying it consists of considering a contrast related to the clustering purpose. This entails the definition and study of a new estimator and new model selection criteria. Practical solutions are provided to compute them, which can also be applied to the computation of the usual maximum likelihood estimator within mixture models. The slope heuristics is applied to the calibration of the considered penalized criteria. Thus its theoretical bases are recalled in details and two approaches for its application are studied. Another approach for model-based clustering is considered: each class itself may be modeled by a Gaussian mixture. A methodology is proposed, notably to tackle the question of which components have to be merged. Finally a criterion is proposed, which enables to choose a number of components --when identified to the number of classes-- related to a known external classification.
Le cadre principal de cette thèse est la classification non supervisée, traitée par une approche statistique dans le cadre des modèles de mélange. Plus particulièrement, nous nous intéressons au choix du nombre de classes et au critère de sélection de modèle ICL. Une approche fructueuse de son étude théorique consiste à considérer un contraste adapté à la classification non supervisée : ce faisant, un nouvel estimateur ainsi que de nouveaux critères de sélection de modèle sont proposés et étudiés. Des solutions pratiques pour leur calcul s'accompagnent de retombées positives pour le calcul du maximum de vraisemblance dans les modèles de mélange. La méthode de l'heuristique de pente est appliquée pour la calibration des critères pénalisés considérés. Aussi les bases théoriques en sont-elles rappelées en détails, et deux approches pour son application sont étudiées. Une autre approche de la classification non supervisée est considérée : chaque classe peut être modélisée elle-même par un mélange. Une méthode est proposée pour répondre notamment à la question du choix des composantes à regrouper. Enfin, un critère est proposé pour permettre de lier le choix du nombre de composantes, lorsqu'il est identifié au nombre de classes, à une éventuelle classification externe connue a priori.
Fichier principal
Vignette du fichier
Manuscrit_Baudry.pdf (4.92 Mo) Télécharger le fichier
Slides_Baudry.pdf (677.33 Ko) Télécharger le fichier
Format : Autre

Dates et versions

tel-00461550 , version 1 (04-03-2010)

Identifiants

  • HAL Id : tel-00461550 , version 1

Citer

Jean-Patrick Baudry. Sélection de modèle pour la classification non supervisée. Choix du nombre de classes.. Mathématiques [math]. Université Paris Sud - Paris XI, 2009. Français. ⟨NNT : ⟩. ⟨tel-00461550⟩
1225 Consultations
788 Téléchargements

Partager

Gmail Facebook X LinkedIn More