Modèles de classification en classes empiétantes, cas des modèles arborés

Célia Châtel

Résumé

Traditionally, classification models (such as partitions and hierarchies) aim at separating without ambiguities and produce non-overlapping clusters (i.e two clusters are either disjoint or one is included in the other). However, this non ambiguity may lead to mask information such as in the case of hybrid plants in biology or of texts which belong to two (or more) different genres in textual analysis for instance. General models like hypergraphs or lattices allow to take into account overlapping clusters. This work focuses on closed under intersection totally balanced hypergraphs and their equivalents. These hypergraphs are defined as hypergraphs with no special cycles (also called alpha-cycle) and are a generalization of trees. They are equivalent to dismantlable lattices (i.e lattices such that there recursively exists a doubly irreducible element) and have structural and algorithmic properties which allow them to fit many fields such that phylogenetics and deal with different data types such as dissimilarities, individuals/attributes matrices or graphs. In machine learning, decision trees are a widely used model as they are simple to use and understand. A part of this work focuses on the development of similar methods which allow overlapping clusters in order to give a more complete representation of data. Hence, the aimed models are strongly interpretable and can be used for classic machine learning tasks such as class prediction. This thesis presents two methods : - K-Means decision trees, a classification method which builds the model on the structure of the data and gives practical results equivalent to decision trees; - gravity decision lattices, which proposes a first approach to non-overlapping classification models. Regarding decision trees, usage requires that the trees are binary. We thus define binary hypergraphs in order to keep the simplicity specific to decision trees. We propose a characterization of binary hypergraphs by a sequence of mixed trees (similar to the characterization of totally balanced hypergraphs given by Lehel in 1985) and prove the equivalence between binarizable hypergraphs (i.e such that they can be embedded into a binary hypergraph) and totally balanced hypergraphs which makes of these hypergraphs a perfect candidate for classification inspired from decision trees. We also propose a binarization algorithm for dismantlable lattices which can be used in formal concept analysis. This work also presents a metric angle : we define totally balanced dissimilarities (dissimilarities which are associated with a totally balanced system) and give a recognition algorithm, an approximation algorithm for these dissimilarities and an algorithm which computes the clusters associated with a totally balanced dissimilarity.

Le but des modèles traditionnels en classification (comme les partitions et les hiérarchies de parties) est de permettre de discriminer sans ambiguïté et donc de produire des classes non empiétantes (i.e. l’intersection de deux classes est vide ou une classe est incluse dans l'autre). Cependant, cette exigence de non ambiguïté peut conduire à occulter de l’information. Dans le cas des plantes hybrides en biologie par exemple ou encore de textes appartenant à plusieurs genres en analyse textuelle. Les modèles généraux comme les hypergraphes ou les treillis permettent de prendre en compte l’empiétance entre les classes. Ce travail porte sur les hypergraphes totalement équilibrés clos par intersection et leurs équivalents. Ces hypergraphes sont définis comme étant des hypergraphes sans cycle (cycle spécial, aussi appelés alpha-cycle) et constituent une généralisation des arbres. Ils sont équivalents aux treillis démontables (i.e. treillis tels qu'il existe récursivement un élément doublement irréductible) et présentent des propriétés structurelles et algorithmiques qui leur permettent de bien se prêter à de nombreux domaines comme la phylogénie et de traiter différents types de données comme les dissimilarités, les matrices individus/attributs ou encore les graphes. En apprentissage automatique, les arbres de décision sont un modèle très utilisé pour leur simplicité d'utilisation et de compréhension. Une partie de ce travail porte sur le développement de méthodes similaires aux arbres de décision mais s'appuyant principalement sur la structure des données et permettant l’empiétance des classes afin de fournir une représentation plus complète des données. Les modèles visés sont donc fortement interprétables et peuvent également être utilisés pour les tâches classiques d'apprentissage automatique comme la prédiction de classe. Cette thèse présente deux méthodes : - les arbres de décision K-Means, une méthode d'apprentissage automatique utilisant la structure des données plutôt que les sorties attendues et présentant des résultats en classification équivalents aux arbres de décision classiques; - les treillis de centre de gravité, proposant une première approche pour un modèle en classes empiétantes. Dans le cas des arbres de décision, l'usage veut que les arbres utilisés soient binaires. Nous définissons donc les hypergraphes binaires afin de conserver la simplicité propre aux arbres de décision. Nous proposons une caractérisation des hypergraphes binaires par une séquence d'arbres (similaire à celle donnée par Lehel en 1985 pour les hypergraphes totalement équilibrés) et prouvons l'équivalence entre les hypergraphes binarisables (i.e. tels qu'ils peuvent être plongés dans un hypergraphe binaire) et les hypergraphes totalement équilibrés, faisant de ces hypergraphes particuliers un bon candidat à la classification inspirée des arbres de décision. Nous proposons également une binarisation des treillis démontables pouvant être appliquée dans le cadre de l'analyse de concepts formels. Ce travail présente de plus un aspect métrique en définissant les dissimilarités totalement équilibrées (les dissimilarités associées à un système totalement équilibré) et en donnant un algorithme de reconnaissance de dissimilarités totalement équilibrées, un algorithme d'approximation et enfin un algorithme permettant de calculer le système de classes associé à une dissimilarité totalement équilibrée de manière polynomiale.

Classification with class impingement, tree models

Modèles de classification en classes empiétantes, cas des modèles arborés

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager