Solving multiple-instance and multiple-part learning problems with decision trees and decision rules. Application to the mutagenesis problem

Jean-Daniel Zucker; Yann Chevaleyre

Rapport (Rapport De Recherche) Année : 2000

Solving multiple-instance and multiple-part learning problems with decision trees and decision rules. Application to the mutagenesis problem

Comprendre et résoudre les problèmes multi-instances et multi-parties avec des arbres et des listes de décision. Application a la prédiction de mutagénécité

(1) , (1)

Jean-Daniel Zucker

Fonction : Auteur
PersonId : 9387
IdHAL : jean-daniel-zucker
ORCID : 0000-0002-5597-7922
IdRef : 070019495

Apprentissage et Acquisition des connaissances

Yann Chevaleyre

Fonction : Auteur
PersonId : 1210270
IdHAL : yann-chevaleyre
ORCID : 0000-0002-6609-5562
IdRef : 069711380

Apprentissage et Acquisition des connaissances

Résumé

In recent work, Dietterich et al. (1997) have presented the problem of supervised multiple-instance learning and how to solve it by building axis-parallel rectangles. This problem is encountered in contexts where an object may have different possible alternative configurations, each of which is described by a vector. This paper introduces the multiple-part problem, which is more general than the multiple-instance problem, and shows how it can be solved using the multiple-instance algorithms. These two so-called "multiple" problems could play a key role both in the development of efficient algorithms for learning the relations between the activity of a structured object and its structural properties and in inductive logic programming. This paper analyzes and tries to clarify multiple-problem solving. It goes on to propose multiple-instance extensions of classical learning algorithms to solve multiple-problems by learning multiple-decision trees (ID3-M, C4.5-M) and multiple-decision rules (AQ-M, CN2-M,Ripper-M). In particular, it suggests a new multiple-instance entropy function and a multiple-instance coverage function. Finally, it successfully applies the multiple-part framework on the well-known mutagenesis prediction problem.

Récemment, Dietterich et al. (1997) ont introduit un nouveau problème d'apprentissage : l'induction à partir de données multi-instances. Ils ont de plus proposé une solution sous la forme d'un algorithme générant des hyper-rectangles parallèles aux axes. Typiquement, ce problème apparaît lorsqu'un objet possède différentes configurations, et que chacune d'entres elles peut être représentée par un vecteur attribut-valeurs. Cet article présente le problème multi-parties, qui est plus général que le problème multi-instances, et montre comment le résoudre à l'aide d'algorithmes d'apprentissage multi-instances. Ces deux problèmes "multi" pourraient jouer un rôle crucial dans l'élaboration d'algorithmes efficaces pour l'apprentissage de relations "structure-activité", notamment dans le domaine de la chimie, ainsi que pour la programmation logique inductive. Cet article analyse et tente de clarifier la résolution des problèmes multi. Il montre ensuite comment étendre des algorithmes d'apprentissage propositionnels classiques afin qu'il puissent gérer les données multi. En particulier, il présente une version multi-instances de la mesure d'entropie ainsi que de la mesure de couverture. Enfin, l'un des algorithmes multi présentés est utilisé avec succès pour résoudre le problème de la prédiction de mutagénécité.

Mots clés

Apprentissage supervisé apprentissage multi-instances arbre de décision liste de décision mutagénèse problème multi-parties entropie biais de langage programmation logique inductive

Supervised learning multiple-instance learning decision tree decision rules mutagenesis problem multiple-part problem entropy language biais inductive logic programming ILP

Domaines

Informatique [cs]

Fichier principal

lip6.2000.018.pdf (159.06 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Lip6 Publications : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02545010

Soumis le : jeudi 16 avril 2020-17:00:31

Dernière modification le : mardi 11 avril 2023-15:16:28

Dates et versions

hal-02545010 , version 1 (16-04-2020)

Identifiants

HAL Id : hal-02545010 , version 1

Citer

Jean-Daniel Zucker, Yann Chevaleyre. Solving multiple-instance and multiple-part learning problems with decision trees and decision rules. Application to the mutagenesis problem. [Research Report] lip6.2000.018, LIP6. 2000. ⟨hal-02545010⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UPMC CNRS LIP6 LARA SORBONNE-UNIVERSITE SU-SCIENCES LIP6-REPORT

71 Consultations

29 Téléchargements

Solving multiple-instance and multiple-part learning problems with decision trees and decision rules. Application to the mutagenesis problem

Comprendre et résoudre les problèmes multi-instances et multi-parties avec des arbres et des listes de décision. Application a la prédiction de mutagénécité

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager