Présentation Françoise Soulié Fogelman

Utiliser les Big Data: Défis & Opportunités
Françoise Soulié Fogelman
Institut des Actuaires
Conférence Big Data
Paris, 13 mai 2014

2F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Mon parcours professionnel
Business &
Decision
KXEN
Innovation
KDD_US
Atos

Agenda
• Qu’est ce que le Big Data
• Qu’est ce que le Data Mining
• Impact sur le métier des actuaires

Une définition classique
Introduite par Gartner en 2001
Nombre de
variables
Nombre
d’événements
/seconde
Nombre d’observations
x Nombre de variables
Largeur
Profondeur

La valeur des Big Data
• À l’origine (Gartner, 2001) les Big Data sont considérées comme
un risque de faire exploser les architectures
• Puis on se rend compte que les Big Data
sont source de valeur
– Le Data Mining (ou Machine Learning ou Predictive Analytics) est la clé
majeure de la source de valeur, en produisant de meilleurs modèles
“Invariably, simple models and a lot of data trump more elaborate
models based on less data”
• MAIS il faut pour cela des techniques adaptées
– Acceptant de grands volumes (!)
– Avec des variables corrélées (variété)
– Sans over-fitting

Big Data pour la Finance & l’Assurance
Facilité à capturer la valeur des Big Data & index de la valeur potentielle
Mc Kinsey, Big Data. 2011
Finance &
Assurance

Qu’est ce que le Data
Mining?

Data Mining & Big Data
• Neural Network,
Data Mining &
Big Data
– 1980 – 2008
– 2004 – 2014 http://www.google.com/trends
https://books.google.com/ngrams

Qu’est ce que le Data Mining
• Situation où
– On ne connait pas de modèle mathématique
• Sciences
– On a des données
• Beaucoup
• On recherche
– Une fonction solution
• Dans une classe YYYY
– Pas une distribution
• « Modèle »
– (YYYY, algo. d’apprentissage)

Concepts importants en Data Mining
• Expliquer / Prévoir
– Précision / Robustesse
– Apprendre / Généraliser
– Erreur en apprentissage / Erreur en généralisation
“It wasn’t too long ago that calling someone a data miner was a very bad
thing. You could start a fistfight at a convention of statisticians with this
kind of talk. It meant that you were finding the analytical equivalent of the
bunnies in the clouds, poring over data until you found something.
Everyone knew that if you did enough poring, you were bound to find
that bunny sooner or later, but it was no more real than the one that
blows over the horizon.”
David J. Leinweber, Stupid data miner tricks (2000)

Construire un modèle pour expliquer l’index S&P 500
• Avec 1 seule variable: l’année
– Période 1983-92 : modèle polynomial à 1 variable de degré 9
• .25*1016-.26*1013x+.12*1010x2-320000.x3+56.x4-.0064x5 +.49*10-6x6 -.24*10-10x7+.69*10-15x8-.88*10-20x9
– Période 1983-93 : modèle polynomial à 1 variable de degré 10
• .77*1017-.88*1014x+.45*1011x2-.14*108x3+2700.x4 -.37x5 +.000035x6- .23*10 -8x7+.99*10-13x8-.25*10-17x9 + .28*10-22x10
– Les modèles obtenus sont absolument « parfaits » : 100%
Leinweber
83 92 83 93

• Construire un modèle
– L’ensemble d’apprentissage : le modèle apprend (précision)
– L’ensemble de validation : le modèle généralise (robustesse)

La Théorie de l’apprentissage statistique de Vapnik
Un résumé très court !!
: VC dimension de YYYY
( )
( )
n
nl
h
n
h
nnl
hn
η
ε −
+
=
21
,
( ) ( ) ( )h,nRR empGen εθθ +≤
1971 1982 1995 1998
Over-fitting

Concepts (moins) importants en Data Mining
• Le choix de l’algorithme
– Régression
– Arbres de décision
– Forêts d’arbres
– K-ppv
– Naïve Bayes
– Réseau de neurones
– Support vector machine (SVM)
– …
“Invariably, simple models and a lot of data trump more
elaborate models based on less data”

Exemple: la fraude à la carte bancaire sur Internet
• La vente en ligne augmente très rapidement
• La fraude aussi
Difficultés
• Taux de fraude très faible
– <<1%
• Taux d’alerte très faible
– <<1%
• Volumes très grands
• La fraude change très vite
Banque de France. Rapport annuel OSCP, 2012
M€%

• Modèle de base (uniquement les variables de transaction)
– Très insuffisant
Précision : 70%
Rappel: 30 %
( ) F
VPsappelR =
( ) A
VPsrecP =
Rappel Précision
Nb de Cartes en Alerte / Jour

• Méthode 1 : créer des variables additionnelles (Variété ↑↑↑↑)
– 37 997 ( ~1500 avec scores cartes & marchands+ Agrégats)
• Variables Sociales
Marchand
Marchand
Marchand
Marchand
Carte
Carte
Carte
Carte
Carte Marchand

• Méthode 2 : segmenter les cartes
• Il y a beaucoup de types de fraude
– Faire une segmentation cartes, avec les agrégats cartes
– Chaque segment est homogène pour un type de fraude
→ 19 segments
– Différents types de
fraude

• 19 segments (sur le score carte)
Segment 1 Segment 2
Segment 15 Segment 15

• Résultats
• Importance des variables
– Variables Initiales
– Agrégats Marchand
– Agrégats Carte
– Variables Sociales
• Carte Marchand
Model Recall Precision
Baseline 1,40% 8,18%
Baseline + Agg 9,13% 19,00%
Baseline + Agg + Social 9,09% 40,58%
Seg 19 5,09% 28,21%
Seg 19 + Ag. 7,38% 28,82%
Seg 19 + Agg + Social 16,46% 60,89%

Exemple : Risque (Carte de Crédit)
• Données granulaires
– Nombreuses sources (transaction, appels, …)
– On peut créer de la valeur SI on agrège bein
– Le nombre d’attributs augmente très vite (23 000 +)
• La question
– Comment choisir les meilleures variables ?
• Approches
1. Utiliser toujours les mêmes variables
2. Demander aux experts de choisir 500 variables
• Il faut 10 jours de travail pour 10 variables
3. Utiliser toutes les variables & laisser les données choisir les
meilleures
• Il faut construire un modèle

Impact sur le métier des
actuaires

Assurance
• Fraude, Connaissance clients, Risque…
– Fraude à l’assurance automobile ~ 10% des pertes (~ Md $13.3 en
2011 aux US)
• Comment procéder en approche Big Data
– Collecter des données
Facile Difficile
“ Precise detection comes from bringing together multiple characteristics to
create an overall picture of the probability of fraud ” (Verisk, 2013)
– Les données ne sont pas produites pour les besoins de l’analyste
• Problèmes de représentativité

Impacts
L’approche Big Data donne un score individuel
• Le score individuel est obtenu par application d’un
« modèle »
– Ce modèle peut être rafraichi automatiquement aussi souvent que
nécessaire
• On peut segmenter la population
– Obtenir un modèle par segment
– Établir une politique de prix / segment
• Questions ouvertes
– Comment intégrer les approches
• actuarielle orientée « modèle » et Big Data orientée « données » ?

Conclusion
• Quels impacts sur le métier / la formation ?
– Les écoles du GENES ouvrent des formations
• L'Ensae ParisTech ouvre en octobre 2013 une nouvelle filière de 3ème année de son
cycle ingénieur : la voie Data Science. Cette filière permettra, entre autres, d’acquérir les
compétences attendues pour les postes de Data Scientist et Chief Data Officer qui
émergent avec le développement des Big Data.
• À l’Ensai, la filière Statistique et ingénierie des données officialise aujourd’hui son
passage à l’échelle du Big Data. La filière forme les ingénieurs de l’Ensai au métier de
Data Scientist.
– Les écoles du GENES sont partenaires de la plateforme Teralab pour
le Big Data:
• Enseignement
• Projets de R&D

Présentation Françoise Soulié Fogelman

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Similaire à Présentation Françoise Soulié Fogelman

Similaire à Présentation Françoise Soulié Fogelman (20)

Plus de Kezhan SHI

Plus de Kezhan SHI (14)

Présentation Françoise Soulié Fogelman