MLFP: Un algorithme d'apprentissage de métrique pour la classification de données déséquilibrées - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

MLFP: Un algorithme d'apprentissage de métrique pour la classification de données déséquilibrées

Rémi Viola
  • Fonction : Auteur
  • PersonId : 184811
  • IdHAL : remiviola
Rémi Emonet
Amaury Habrard
Guillaume Metzler
Marc Sebban

Résumé

Apprendreà partir de données déséquilibrées reste une tâche complexe en apprentissage, tant sur le plan théorique que pratique. Dans cet article, nous abor-dons cette problématique en utilisant une stratégie basée sur l'apprentissage de métrique. Contrairement aux méthodes se basant sur la même approche, notre algorithme apprend une nouvelle métrique qui ne sera utilisée que lorsqu'une (nouvelle) donnée est comparéè a un exemple d'apprentissage de la classe minoritaire (ou classe positive). D'un point de vue géométrique, cela revientà rapprocher artificiellement des exemples positifs de cette (nouvelle) donnée sans modifier les ca-ractéristiques de la classe majoritaire. La stratégie mise en oeuvre permet d'étendre les frontières de décisions autour des données positives. En terme de performance , cela se traduit par une meilleure F-mesure, critère de performance très souvent employé dans ce contexte, par rapport aux algorithmes de l'état de l'art. Au-delà de cette contribution algorithmique, notre article présente uneétude théorique basée sur la sta-bilité uniforme. Cetteétude nous donne des garan-ties de généralisation sur les taux de faux positifs et de faux négatifs. Les expériences, effectuées sur plu-sieurs ensembles de données déséquilibrées, montrent l'efficacité de notre méthode par rapport aux algo-rithmes d'apprentissage de métrique existants. Avec la méthode proposée, nous sommes en mesures de rivali-ser voire d'obtenir de meilleures performances qu'avec des algorithmes spécifiquement dédiés au traitement de données déséquilibrées.
Fichier non déposé

Dates et versions

hal-02868502 , version 1 (15-06-2020)

Identifiants

  • HAL Id : hal-02868502 , version 1

Citer

Rémi Viola, Rémi Emonet, Amaury Habrard, Guillaume Metzler, Marc Sebban. MLFP: Un algorithme d'apprentissage de métrique pour la classification de données déséquilibrées. Conférence sur l'Apprentissage automatique (CAp 2020), Jun 2020, Vannes, France. ⟨hal-02868502⟩
153 Consultations
2 Téléchargements

Partager

Gmail Facebook X LinkedIn More