Credit scoring, statistique et apprentissage - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2006

Credit scoring, statistique et apprentissage

Résumé

Basel 2 regulations brought new interest in supervised classification methodologies for predicting default probability for loans. An important feature of consumer credit is that predictors are generally categorical. Logistic regression and linear discriminant analysis are the most frequently used techniques but are often unduly opposed. Vapnik's statistical learning theory explains why a prior dimension reduction (eg by means of multiple correspondence analysis) improves the robustness of the score function. Ridge regression, linear SVM, PLS regression are also valuable competitors. Predictive capability is measured by AUC or Gini's index which are related to the well known non-parametric Wilcoxon-Mann-Whitney test. Among methodological problems, reject inference is an important one, since most samples are subject to a selection bias. There are many methods, none being satisfactory. Distinguish between good and bad customers is not enough, especially for long-term loans. The question is then not only “if”, but “when” the customers default. Survival analysis provides new types of scores.biais. La prise en compte des dossiers refusés (reject inference) donne lieu cependant à une abondante littérature, sans guère de résultats convaincants. La discrimination entre défaillants et non-défaillants n’est plus le seul objectif, surtout pour des prêts à long terme : le « quand » devient aussi important que le « si ». De nombreux travaux s’orientent actuellement vers l’utilisation de modèles de survie pour données censurées dont nous donnerons un aperçu.
Les accords dits « Bâle 2 » sur la solvabilité des banques ont remis au goût du jour les techniques de scoring en imposant aux banques de calculer des probabilités de défaut et le montant des pertes en cas de défaut. Nous présentons dans cet exposé les principales techniques utilisées et les problèmes actuels. Le terme credit scoring désigne un ensemble d’outils d’aide à la décision utilisés par les organismes financiers pour évaluer le risque de non remboursement des prêts. Un score est une note de risque, ou une probabilité de défaut. Le problème semble simple en apparence, puisqu’il s’agit d’une classification supervisée en deux groupes, les « bons payeurs » et les « mauvais payeurs ». Les classifieurs linéaires sont les plus classiques et souvent les seuls utilisables en raison de contraintes légales : on doit pouvoir expliquer la décision de refus Ces classifieurs doivent être adaptés au cas de prédicteurs qualitatifs, que l’on rencontre le plus souvent en crédit à la consommation. On rappellera que l’usage de variables qualitatives remonte à des travaux très anciens de Fisher. La régression logistique est devenue un standard dans la profession, que l’on oppose souvent à tort à l’analyse discriminante. La théorie de l’apprentissage statistique apporte alors des justifications à l’usage de techniques de réduction de dimension (méthode Disqual de discrimination sur composantes factorielles, régression PLS) et de régularisation (régression ridge). La régression PLS se révèle équivalente à une technique méconnue : l’analyse discriminante barycentrique qui est le pendant additif du classifieur naïf de Bayes qui est multiplicatif. Le choix entre méthodes ou algorithmes ne peut reposer sur des critères statistiques de type vraisemblance, inadapté à des problèmes de décision mais sur des mesures de performance en généralisation. La courbe ROC et les indices associés (AUC, Gini, Ki) sont les plus utilisés. Un des problèmes épineux est celui du biais de sélection : en effet l’ensemble d’apprentissage ne contient que des individus dont la demande de prêt a été accordée. On sait que si les variables d’acceptation sont différentes des variables disponibles, on ne peut trouver de solution sans biais. La prise en compte des dossiers refusés (reject inference) donne lieu cependant à une abondante littérature, sans guère de résultats convaincants. La discrimination entre défaillants et non-défaillants n’est plus le seul objectif, surtout pour des prêts à long terme : le « quand » devient aussi important que le « si ». De nombreux travaux s’orientent actuellement vers l’utilisation de modèles de survie pour données censurées dont nous donnerons un aperçu.
EGC06.pdf (1.56 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01125151 , version 1 (13-12-2020)

Identifiants

  • HAL Id : hal-01125151 , version 1

Citer

Gilbert Saporta. Credit scoring, statistique et apprentissage. EGC'06, Jan 2006, Lille, France. ⟨hal-01125151⟩

Collections

CNAM CEDRIC-CNAM
625 Consultations
140 Téléchargements

Partager

Gmail Facebook X LinkedIn More