Xavier Milaud - Techniques d'arbres de classification et de régression
Présentation Françoise Soulié Fogelman
1. Utiliser les Big Data: Défis & Opportunités
Françoise Soulié Fogelman
Institut des Actuaires
Conférence Big Data
Paris, 13 mai 2014
2. 2F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Mon parcours professionnel
Business &
Decision
KXEN
Innovation
KDD_US
Atos
3. 3F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Agenda
• Qu’est ce que le Big Data
• Qu’est ce que le Data Mining
• Impact sur le métier des actuaires
5. 5F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Une définition classique
Introduite par Gartner en 2001
Nombre de
variables
Nombre
d’événements
/seconde
Nombre d’observations
x Nombre de variables
Largeur
Profondeur
6. 6F. Soulié Fogelman. Utiliser les big data: défis & opportunités
La valeur des Big Data
• À l’origine (Gartner, 2001) les Big Data sont considérées comme
un risque de faire exploser les architectures
• Puis on se rend compte que les Big Data
sont source de valeur
– Le Data Mining (ou Machine Learning ou Predictive Analytics) est la clé
majeure de la source de valeur, en produisant de meilleurs modèles
“Invariably, simple models and a lot of data trump more elaborate
models based on less data”
• MAIS il faut pour cela des techniques adaptées
– Acceptant de grands volumes (!)
– Avec des variables corrélées (variété)
– Sans over-fitting
7. 7F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Big Data pour la Finance & l’Assurance
Facilité à capturer la valeur des Big Data & index de la valeur potentielle
Mc Kinsey, Big Data. 2011
Finance &
Assurance
9. 9F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Data Mining & Big Data
• Neural Network,
Data Mining &
Big Data
– 1980 – 2008
– 2004 – 2014 http://www.google.com/trends
https://books.google.com/ngrams
10. 10F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Qu’est ce que le Data Mining
• Situation où
– On ne connait pas de modèle mathématique
• Sciences
– On a des données
• Beaucoup
• On recherche
– Une fonction solution
• Dans une classe YYYY
– Pas une distribution
• « Modèle »
– (YYYY, algo. d’apprentissage)
11. 11F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts importants en Data Mining
• Expliquer / Prévoir
– Précision / Robustesse
– Apprendre / Généraliser
– Erreur en apprentissage / Erreur en généralisation
“It wasn’t too long ago that calling someone a data miner was a very bad
thing. You could start a fistfight at a convention of statisticians with this
kind of talk. It meant that you were finding the analytical equivalent of the
bunnies in the clouds, poring over data until you found something.
Everyone knew that if you did enough poring, you were bound to find
that bunny sooner or later, but it was no more real than the one that
blows over the horizon.”
David J. Leinweber, Stupid data miner tricks (2000)
12. 12F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts importants en Data Mining
Construire un modèle pour expliquer l’index S&P 500
• Avec 1 seule variable: l’année
– Période 1983-92 : modèle polynomial à 1 variable de degré 9
• .25*1016-.26*1013x+.12*1010x2-320000.x3+56.x4-.0064x5 +.49*10-6x6 -.24*10-10x7+.69*10-15x8-.88*10-20x9
– Période 1983-93 : modèle polynomial à 1 variable de degré 10
• .77*1017-.88*1014x+.45*1011x2-.14*108x3+2700.x4 -.37x5 +.000035x6- .23*10 -8x7+.99*10-13x8-.25*10-17x9 + .28*10-22x10
– Les modèles obtenus sont absolument « parfaits » : 100%
Leinweber
83 92 83 93
13. 13F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts importants en Data Mining
• Construire un modèle
– L’ensemble d’apprentissage : le modèle apprend (précision)
– L’ensemble de validation : le modèle généralise (robustesse)
14. 14F. Soulié Fogelman. Utiliser les big data: défis & opportunités
La Théorie de l’apprentissage statistique de Vapnik
Un résumé très court !!
: VC dimension de YYYY
( )
( )
n
nl
h
n
h
nnl
hn
η
ε −
+
=
21
,
( ) ( ) ( )h,nRR empGen εθθ +≤
1971 1982 1995 1998
Over-fitting
15. 15F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts (moins) importants en Data Mining
• Le choix de l’algorithme
– Régression
– Arbres de décision
– Forêts d’arbres
– K-ppv
– Naïve Bayes
– Réseau de neurones
– Support vector machine (SVM)
– …
“Invariably, simple models and a lot of data trump more
elaborate models based on less data”
16. 16F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• La vente en ligne augmente très rapidement
• La fraude aussi
Difficultés
• Taux de fraude très faible
– <<1%
• Taux d’alerte très faible
– <<1%
• Volumes très grands
• La fraude change très vite
Banque de France. Rapport annuel OSCP, 2012
M€%
17. 17F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Modèle de base (uniquement les variables de transaction)
– Très insuffisant
Précision : 70%
Rappel: 30 %
( ) F
VPsappelR =
( ) A
VPsrecP =
Rappel Précision
Nb de Cartes en Alerte / Jour
18. 18F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Méthode 1 : créer des variables additionnelles (Variété ↑↑↑↑)
– 37 997 ( ~1500 avec scores cartes & marchands+ Agrégats)
• Variables Sociales
Marchand
Marchand
Marchand
Marchand
Carte
Carte
Carte
Carte
Carte Marchand
19. 19F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Méthode 2 : segmenter les cartes
• Il y a beaucoup de types de fraude
– Faire une segmentation cartes, avec les agrégats cartes
– Chaque segment est homogène pour un type de fraude
→ 19 segments
– Différents types de
fraude
20. 20F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• 19 segments (sur le score carte)
Segment 1 Segment 2
Segment 15 Segment 15
21. 21F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Résultats
• Importance des variables
– Variables Initiales
– Agrégats Marchand
– Agrégats Carte
– Variables Sociales
• Carte Marchand
Model Recall Precision
Baseline 1,40% 8,18%
Baseline + Agg 9,13% 19,00%
Baseline + Agg + Social 9,09% 40,58%
Seg 19 5,09% 28,21%
Seg 19 + Ag. 7,38% 28,82%
Seg 19 + Agg + Social 16,46% 60,89%
22. 22F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple : Risque (Carte de Crédit)
• Données granulaires
– Nombreuses sources (transaction, appels, …)
– On peut créer de la valeur SI on agrège bein
– Le nombre d’attributs augmente très vite (23 000 +)
• La question
– Comment choisir les meilleures variables ?
• Approches
1. Utiliser toujours les mêmes variables
2. Demander aux experts de choisir 500 variables
• Il faut 10 jours de travail pour 10 variables
3. Utiliser toutes les variables & laisser les données choisir les
meilleures
• Il faut construire un modèle
24. 24F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Assurance
• Fraude, Connaissance clients, Risque…
– Fraude à l’assurance automobile ~ 10% des pertes (~ Md $13.3 en
2011 aux US)
• Comment procéder en approche Big Data
– Collecter des données
Facile Difficile
“ Precise detection comes from bringing together multiple characteristics to
create an overall picture of the probability of fraud ” (Verisk, 2013)
– Les données ne sont pas produites pour les besoins de l’analyste
• Problèmes de représentativité
25. 25F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Impacts
L’approche Big Data donne un score individuel
• Le score individuel est obtenu par application d’un
« modèle »
– Ce modèle peut être rafraichi automatiquement aussi souvent que
nécessaire
• On peut segmenter la population
– Obtenir un modèle par segment
– Établir une politique de prix / segment
• Questions ouvertes
– Comment intégrer les approches
• actuarielle orientée « modèle » et Big Data orientée « données » ?
26. 26F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Conclusion
• Quels impacts sur le métier / la formation ?
– Les écoles du GENES ouvrent des formations
• L'Ensae ParisTech ouvre en octobre 2013 une nouvelle filière de 3ème année de son
cycle ingénieur : la voie Data Science. Cette filière permettra, entre autres, d’acquérir les
compétences attendues pour les postes de Data Scientist et Chief Data Officer qui
émergent avec le développement des Big Data.
• À l’Ensai, la filière Statistique et ingénierie des données officialise aujourd’hui son
passage à l’échelle du Big Data. La filière forme les ingénieurs de l’Ensai au métier de
Data Scientist.
– Les écoles du GENES sont partenaires de la plateforme Teralab pour
le Big Data:
• Enseignement
• Projets de R&D