Skip to Main content Skip to Navigation
Conference papers

MLFP: Un algorithme d'apprentissage de métrique pour la classification de données déséquilibrées

Résumé : Apprendreà partir de données déséquilibrées reste une tâche complexe en apprentissage, tant sur le plan théorique que pratique. Dans cet article, nous abor-dons cette problématique en utilisant une stratégie basée sur l'apprentissage de métrique. Contrairement aux méthodes se basant sur la même approche, notre algorithme apprend une nouvelle métrique qui ne sera utilisée que lorsqu'une (nouvelle) donnée est comparéè a un exemple d'apprentissage de la classe minoritaire (ou classe positive). D'un point de vue géométrique, cela revientà rapprocher artificiellement des exemples positifs de cette (nouvelle) donnée sans modifier les ca-ractéristiques de la classe majoritaire. La stratégie mise en oeuvre permet d'étendre les frontières de décisions autour des données positives. En terme de performance , cela se traduit par une meilleure F-mesure, critère de performance très souvent employé dans ce contexte, par rapport aux algorithmes de l'état de l'art. Au-delà de cette contribution algorithmique, notre article présente uneétude théorique basée sur la sta-bilité uniforme. Cetteétude nous donne des garan-ties de généralisation sur les taux de faux positifs et de faux négatifs. Les expériences, effectuées sur plu-sieurs ensembles de données déséquilibrées, montrent l'efficacité de notre méthode par rapport aux algo-rithmes d'apprentissage de métrique existants. Avec la méthode proposée, nous sommes en mesures de rivali-ser voire d'obtenir de meilleures performances qu'avec des algorithmes spécifiquement dédiés au traitement de données déséquilibrées.
Document type :
Conference papers
Complete list of metadata

https://hal.archives-ouvertes.fr/hal-02868502
Contributor : Rémi Viola Connect in order to contact the contributor
Submitted on : Monday, June 15, 2020 - 2:40:43 PM
Last modification on : Monday, November 30, 2020 - 3:24:49 AM

Identifiers

  • HAL Id : hal-02868502, version 1

Collections

Citation

Rémi Viola, Rémi Emonet, Amaury Habrard, Guillaume Metzler, Marc Sebban. MLFP: Un algorithme d'apprentissage de métrique pour la classification de données déséquilibrées. Conférence sur l'Apprentissage automatique (CAp 2020), Jun 2020, Vannes, France. ⟨hal-02868502⟩

Share

Metrics

Record views

104