ETUDE INTERNE
AUTEUR : MERWAN CHELOUAH
Prédire le défaut d’un emprunteur, le caractère frauduleux d’une transaction ou l’attrition d’un client à partir d’observations du phénomène revient à résoudre un problème de classification supervisé.
Bien souvent, les données disponibles pour résoudre ce problème présentent un déséquilibre : la modalité cible – par exemple, le défaut de l’emprunteur – est sous-représentée dans l’échantillon.
Un tel déséquilibre peut affecter le pouvoir prédictif de notre modèle d’apprentissage car il sera biaisé vers la population majoritaire et produira des prédictions potentiellement moins robustes qu’en l’absence de déséquilibre. Après une revue des principales méthodes de rééquilibrage de classes, nous comparons les performances de ces dernières sur différentes bases de données et pour différents algorithmes de classification.