2. Sommaire
❖ Problèmes et Enjeux
❖ Bref aperçu de l’auto-encodeur
❖ Principe de la détection de fraude avec Auto-encodeur
❖ Implémentation
❖ Résultats
3. Problèmes et Enjeux
➢ La détection de fraude est un sujet courant dans plusieurs domaines (banque,
assurance, santé, judiciaire, telecom, etc..).
✓
➢ La fraude quant à elle se definit comme etant une action destinée à tromper, en
contrevenant à une réglementation prédéfinie.
✓
➢ La détection de fraude sera donc l’ensemble des actions mise en oeuvre afin
d’identifier une fraude dans un système.
✓
➢ La fraude présente de lourdes conséquences, tant pour les institutions concernées
que pour les clients.
4. Problèmes et Enjeux
➢ Pour les clients, la fraude crée des trous dans leur budget et un sentiment
d'insécurité vis-à-vis l’institution à laquelle il est affilié.
✓
➢ Pour l’institution, la fraude créer un manque de crédibilité et la perte de plusieurs
clients.
✓
➢ En Europe, le volume des transactions frauduleuses s’élève à plus de 439 millions
d’euro en 2017.
✓
➢ Face à cette situation, il incombe de mettre sur pieds des stratégies pour détecter
la fraude.
5. A suivre...
➢ La détection de fraude en milieu
bancaire.
➢ Mise sur pieds d’un
Auto-encodeur pour la détection
de fraude avec Keras.
7. L’Auto-encodeur
➢ C’est un algorithme de deep learning qui permet de faire l’apprentissage non
supervisé.
✓
➢ Il est constitué d’un encodeur et d’un décodeur.
✓
➢ L’encodeur est fait de couches de neurones qui traitent des données afin d'obtenir
une nouvelle représentation.
✓
➢ Le décodeur analyse les données encodées pour essayer de reconstruire les
données d’origine.
8. L’Auto-encodeur
➢ La différence entre les données d’origines et celles reconstruites par le décodeur
permet d'évaluer l’erreur de reconstruction.
✓
➢ L'entraînement de l’auto-encodeur consistera alors à trouver des paramètres qui
minimisent l’erreur de reconstruction.
✓
➢ Les applications des auto-encodeurs sont nombreuses, allant de la réduction de
dimensions à la traduction automatique et bien d’autres.
✓
➢ Il est important de noter que les techniques de l’auto-encodeur montrent leur
avantages lorsque les données sont de nature complexes et non linéaires.
11. Principe
➢ Utiliser les transactions normales afin d’apprendre à l’auto-encodeur le
comportement des transactions légitimes.
✓
➢ L’auto-encodeur va réduire la dimension des transactions d’entrées dans un espace
de dimension plus petite.
✓
➢ Le décodeur va se charger de reconstruire la transaction initiale. Ensuite on calcule
l’erreur de reconstruction en moyennant l’erreur des transactions normales.
✓
➢ Si l’erreur de reconstruction est supérieur au seuil fixé en fonction de la moyenne
des erreurs de reconstruction, alors la transaction est considérée comme un
candidat à la fraude.
13. 1
Le DataSet ici est celui
des cartes de crédit
fourni Kaggle.
2
Il contient les transactions par
cartes de crédit effectuées en
septembre 2013 (Europe).
3
Soit 284807 transactions.
492 d’entre elles sont
frauduleuses.
4
Les caractéristiques V1 à V28 ont été
obtenus avec PCA. Seul les attributs
Time et Amount sont authentiques.
5
Time représente le nombre de
secondes entre une transaction
et la première transaction sur le
jeu de données.
14. Prétraitement
DataSet de 284k
+ 494
transactions
normales et
frauduleuses
extraction des transactions normales
extraction des transactions frauduleuses ajout
de
20%
des
transactions
normales
Test
284k transactions
normales Training set
Validation set
Test de
l’auto-encodeur
17. Implémentation
➢ Le nombre de transactions
frauduleuses est très faible par
rapport aux transactions
normales.
✓
➢ La fraude est un phénomène
rare.
21. Implémentation
➢ Il n’existe pas de technique fixe
pour trouver un bon compromis
entre Précision et Rappel
➢ Le choix du seuil est souvent fixé
de manière arbitraire ou en se
référant à des règles métier.
22. Implémentation
➢ Le seuil dans notre cas à été fixé
à 8, car cette valeur offre un bon
compromis entre faux-positifs et
faux-négatifs.
23. Résultats
➢ Plus de 80% des transactions
frauduleuses ont été
détectées.
➢ Moins de 5% des transactions
normales sont classées
comme frauduleuses.
➢ Tout compte fait, le résultat
serait mieux apprécié en
fonction de l’objectif métier.
24. Remerciements
❖ Joel KANG
❖ Prosper AKWO
Ressources
❖ https://www.kaggle.com/mlg-ulb/creditcardfraud
❖ https://github.com/dimedrik/fraudDetection.git