Découverte de sous-groupes avec les arbres de recherche de Monte Carlo

Guillaume Bosc 1 Jean-François Boulicaut 1 Chedy Raïssi 2 Mehdi Kaytoue 1
1 DM2L - Data Mining and Machine Learning
LIRIS - Laboratoire d'InfoRmatique en Image et Systèmes d'information
2 ORPAILLEUR - Knowledge representation, reasonning
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : Découvrir des règles qui distinguent clairement une classe d'une autre reste un problème difficile. De tels motifs permettent de suggérer des hypothèses pouvant expliquer une classe. La découverte de sous-groupes (Subgroup Discovery , SD), un cadre qui définit formellement cette tâche d'extraction de motifs, est toujours confrontée à deux problèmes majeurs: (i) définir des mesures de qualité appropriées qui caractérisent la singularité d'un motif et (ii) choisir une heuristique d'exploration de l'espace de recherche correcte lorsqu'une énuméra-tion complète est irréalisable. À ce jour, les algorithmes de SD les plus efficaces sont basés sur une recherche en faisceau (Beam Search, BS). La collection de motifs extraits manque cependant de diversité en raison de la nature gloutonne de l'exploration. Nous proposons ici d'utiliser une technique d'exploration récente, la recherche arborescente de Monte Carlo (Monte Carlo Tree Search, MCTS). Le compromis entre l'exploitation et l'exploration ainsi que la puissance de la recherche aléatoire permettent d'obtenir une solution disponible à tout moment et de surpasser généralement les approches de type BS. Notre étude empirique, avec plusieurs mesures de qualité, sur divers jeux de données de référence et du monde réel démontre la qualité de notre approche.
Document type :
Conference papers
Complete list of metadatas

Cited literature [19 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-01433054
Contributor : Guillaume Bosc <>
Submitted on : Thursday, January 12, 2017 - 2:11:36 PM
Last modification on : Thursday, February 7, 2019 - 2:32:46 PM
Long-term archiving on : Friday, April 14, 2017 - 12:45:31 PM

File

egc17.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01433054, version 1

Citation

Guillaume Bosc, Jean-François Boulicaut, Chedy Raïssi, Mehdi Kaytoue. Découverte de sous-groupes avec les arbres de recherche de Monte Carlo. Extraction et Gestion de Connaissances EGC 2017, Jan 2017, Grenoble, France. ⟨hal-01433054⟩

Share

Metrics

Record views

465

Files downloads

479