Distributionally robust, skeptical inferences in supervised classification using imprecise probabilities - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2020

Distributionally robust, skeptical inferences in supervised classification using imprecise probabilities

La prise de décisions prudentes et robustes pour les problèmes de classification supervisée en utilisant des probabilités imprécises

Résumé

Decision makers are often faced with making single hard decisions, without having any knowledge of the amount of uncertainties contained in them, and taking the risk of making damaging, if not dramatic, mistakes. In such situations, where the uncertainty is higher due to imperfect information, it may be useful to provide set-valued but more reliable decisions. This works thus focuses on making distributionally robust, skeptical inferences (or decisions) in supervised classification problems using imprecise probabilities. By distributionally robust, we mean that we consider a set of possible probability distributions, i.e. imprecise probabilities, and by skeptical we understand that we consider as valid only those inferences that are true for every distribution within this set. Specifically, we focus on extending the Gaussian discriminant analysis and multilabel classification approaches to the imprecise probabilistic setting. Regarding to Gaussian discriminant analysis, we extend it by proposing a new imprecise classifier, considering the imprecision as part of its basic axioms, based on robust Bayesian analysis and near-ignorance priors. By including an imprecise component in the model, our proposal highlights those hard instances on which the precise model makes mistakes in order to provide cautious decisions in the form of set-valued class, instead. Regarding to multi-label classification, we first focus on reducing the time complexity of making a cautious decision over its output space of exponential size by providing theoretical justifications and efficient algorithms applied to the Hamming loss. Relaxing the assumption of independence on labels, we obtain partial decisions, i.e. not classifying at all over some labels, which generalize the binary relevance approach by using imprecise marginal distributions. Secondly, we extend the classifierchains approach by proposing two different strategies to handle imprecise probabilityestimates, and a new dynamic, context-dependent label ordering which dynamically selects the labels with low uncertainty as the chain moves forwards.
Les décideurs sont souvent confrontés au défi de prendre des décisions précises, sans avoir aucune connaissance de la quantité d’incertitudes que celles-ci peuvent contenir, et en prenant le risque de commettre des erreurs dommageables, voire dramatiques. Dans de telles situations, où l’incertitude est plus élevée due à des informations imparfaites, il peut être plutôt utile de fournir des décisions prudentes, sous la forme d’un ensemble de solutions possibles, plus fiables. Ce travail se concentre donc sur la prise de décisions (ou inférences) sceptiques (ou prudentes) et robustes dans des problèmes de classification supervisée en utilisant des probabilités imprécises. Par robuste, nous voulons dire que nous considérons un ensemble des distributions de probabilités possibles, c'est-à-dire des probabilités imprécises, et par sceptique, nous voulons dire que nous ne considérons comme valides que les décisions étant vraies pour chaque distribution dans cet ensemble. Plus précisément, nous nous concentrons sur l'extension d’approches basée sur l'analyse discriminante gaussienne et la classification multi-étiquettes au cadre probabiliste imprécis. Concernant l'analyse discriminante gaussienne, nous proposons un nouveau classifieur imprécis qui généralise celui-ci et qui est basé sur l’inférence bayésienne robuste et un ensemble des lois de probabilités a priori. L’inclusion d’un composant imprécis dans notre approche met en évidence les décisions difficiles à prendre (c.-à-d. les observations difficiles à classifier), sur lesquelles les modèles précis font des erreurs, et permet de fournir à la place des décisions prudentes. Concernant la classification multi-étiquettes, nous nous concentrons d’abord sur la réduction de la complexité calculatoire de prendre une décision prudente sur son espace de sortie combinatoire. Pour cela, nous fournissons des justifications théoriques et des algorithmes efficaces appliqués à la fonction de coût Hamming. En outre, en relâchant l’hypothèse d’indépendance sur les étiquettes, on obtient de décisions partielles (c.-à-d. ne pas décider sur certaines étiquettes), qui généralisent l’approche classique précise (nommé « binary relevance ») en utilisant des distributions marginales imprécises. D’autre part, nous proposons aussi d’étendre le chaînage multi-étiquette classique au cadre probabiliste imprécis en fournissant deux stratégies différentes pour gérer les estimations imprécises sous la forme d’intervalles, et une nouvelle procédure d’ordre des étiquettes qui dépend des incertitudes associées aux étiquettes sélectionnées au fur et à mesure que la chaîne avance.
Fichier principal
Vignette du fichier
These_UTC_Yonatan_Carlos_Carranza_Alarcon.pdf (3.77 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03226617 , version 1 (14-05-2021)

Identifiants

  • HAL Id : tel-03226617 , version 1

Citer

Yonatan Carlos Carranza Alarcón. Distributionally robust, skeptical inferences in supervised classification using imprecise probabilities. Probability [math.PR]. Université de Technologie de Compiègne, 2020. English. ⟨NNT : 2020COMP2567⟩. ⟨tel-03226617⟩
172 Consultations
126 Téléchargements

Partager

Gmail Facebook X LinkedIn More