Découverte de sous-groupes avec les arbres de recherche de Monte Carlo

Guillaume Bosc 1 Jean-François Boulicaut 1 Chedy Raïssi 2 Mehdi Kaytoue 1
1 DM2L - Data Mining and Machine Learning
LIRIS - Laboratoire d'InfoRmatique en Image et Systèmes d'information
2 ORPAILLEUR - Knowledge representation, reasonning
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : Découvrir des règles qui distinguent clairement une classe d'une autre reste un problème difficile. De tels motifs permettent de suggérer des hypothèses pouvant expliquer une classe. La découverte de sous-groupes (Subgroup Discovery , SD), un cadre qui définit formellement cette tâche d'extraction de motifs, est toujours confrontée à deux problèmes majeurs: (i) définir des mesures de qualité appropriées qui caractérisent la singularité d'un motif et (ii) choisir une heuristique d'exploration de l'espace de recherche correcte lorsqu'une énuméra-tion complète est irréalisable. À ce jour, les algorithmes de SD les plus efficaces sont basés sur une recherche en faisceau (Beam Search, BS). La collection de motifs extraits manque cependant de diversité en raison de la nature gloutonne de l'exploration. Nous proposons ici d'utiliser une technique d'exploration récente, la recherche arborescente de Monte Carlo (Monte Carlo Tree Search, MCTS). Le compromis entre l'exploitation et l'exploration ainsi que la puissance de la recherche aléatoire permettent d'obtenir une solution disponible à tout moment et de surpasser généralement les approches de type BS. Notre étude empirique, avec plusieurs mesures de qualité, sur divers jeux de données de référence et du monde réel démontre la qualité de notre approche.
Type de document :
Communication dans un congrès
Extraction et Gestion de Connaissances EGC 2017, Jan 2017, Grenoble, France. Extraction et Gestion de Connaissances EGC 2017, 2017
Liste complète des métadonnées


https://hal.archives-ouvertes.fr/hal-01433054
Contributeur : Guillaume Bosc <>
Soumis le : jeudi 12 janvier 2017 - 14:11:36
Dernière modification le : jeudi 15 juin 2017 - 09:08:47
Document(s) archivé(s) le : vendredi 14 avril 2017 - 12:45:31

Fichier

egc17.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01433054, version 1

Citation

Guillaume Bosc, Jean-François Boulicaut, Chedy Raïssi, Mehdi Kaytoue. Découverte de sous-groupes avec les arbres de recherche de Monte Carlo. Extraction et Gestion de Connaissances EGC 2017, Jan 2017, Grenoble, France. Extraction et Gestion de Connaissances EGC 2017, 2017. <hal-01433054>

Partager

Métriques

Consultations de
la notice

271

Téléchargements du document

134