Utiliser les Big Data: Défis & Opportunités
Françoise Soulié Fogelman
Institut des Actuaires
Conférence Big Data
Paris, 13...
2F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Mon parcours professionnel
Business &
Decision
KXEN
Innov...
3F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Agenda
• Qu’est ce que le Big Data
• Qu’est ce que le Dat...
Qu’est ce que le Big
Data ?
5F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Une définition classique
Introduite par Gartner en 2001
N...
6F. Soulié Fogelman. Utiliser les big data: défis & opportunités
La valeur des Big Data
• À l’origine (Gartner, 2001) les ...
7F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Big Data pour la Finance & l’Assurance
Facilité à capture...
Qu’est ce que le Data
Mining?
9F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Data Mining & Big Data
• Neural Network,
Data Mining &
Bi...
10F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Qu’est ce que le Data Mining
• Situation où
– On ne conn...
11F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts importants en Data Mining
• Expliquer / Prévoir...
12F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts importants en Data Mining
Construire un modèle ...
13F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts importants en Data Mining
• Construire un modèl...
14F. Soulié Fogelman. Utiliser les big data: défis & opportunités
La Théorie de l’apprentissage statistique de Vapnik
Un r...
15F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts (moins) importants en Data Mining
• Le choix de...
16F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• La...
17F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Mo...
18F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Mé...
19F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Mé...
20F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• 19...
21F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Ré...
22F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple : Risque (Carte de Crédit)
• Données granulaires...
Impact sur le métier des
actuaires
24F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Assurance
• Fraude, Connaissance clients, Risque…
– Frau...
25F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Impacts
L’approche Big Data donne un score individuel
• ...
26F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Conclusion
• Quels impacts sur le métier / la formation ...
Questions ?
Prochain SlideShare
Chargement dans…5
×

Présentation Françoise Soulié Fogelman

2 185 vues

Publié le

Publié dans : Données & analyses
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
2 185
Sur SlideShare
0
Issues des intégrations
0
Intégrations
895
Actions
Partages
0
Téléchargements
44
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Présentation Françoise Soulié Fogelman

  1. 1. Utiliser les Big Data: Défis & Opportunités Françoise Soulié Fogelman Institut des Actuaires Conférence Big Data Paris, 13 mai 2014
  2. 2. 2F. Soulié Fogelman. Utiliser les big data: défis & opportunités Mon parcours professionnel Business & Decision KXEN Innovation KDD_US Atos
  3. 3. 3F. Soulié Fogelman. Utiliser les big data: défis & opportunités Agenda • Qu’est ce que le Big Data • Qu’est ce que le Data Mining • Impact sur le métier des actuaires
  4. 4. Qu’est ce que le Big Data ?
  5. 5. 5F. Soulié Fogelman. Utiliser les big data: défis & opportunités Une définition classique Introduite par Gartner en 2001 Nombre de variables Nombre d’événements /seconde Nombre d’observations x Nombre de variables Largeur Profondeur
  6. 6. 6F. Soulié Fogelman. Utiliser les big data: défis & opportunités La valeur des Big Data • À l’origine (Gartner, 2001) les Big Data sont considérées comme un risque de faire exploser les architectures • Puis on se rend compte que les Big Data sont source de valeur – Le Data Mining (ou Machine Learning ou Predictive Analytics) est la clé majeure de la source de valeur, en produisant de meilleurs modèles “Invariably, simple models and a lot of data trump more elaborate models based on less data” • MAIS il faut pour cela des techniques adaptées – Acceptant de grands volumes (!) – Avec des variables corrélées (variété) – Sans over-fitting
  7. 7. 7F. Soulié Fogelman. Utiliser les big data: défis & opportunités Big Data pour la Finance & l’Assurance Facilité à capturer la valeur des Big Data & index de la valeur potentielle Mc Kinsey, Big Data. 2011 Finance & Assurance
  8. 8. Qu’est ce que le Data Mining?
  9. 9. 9F. Soulié Fogelman. Utiliser les big data: défis & opportunités Data Mining & Big Data • Neural Network, Data Mining & Big Data – 1980 – 2008 – 2004 – 2014 http://www.google.com/trends https://books.google.com/ngrams
  10. 10. 10F. Soulié Fogelman. Utiliser les big data: défis & opportunités Qu’est ce que le Data Mining • Situation où – On ne connait pas de modèle mathématique • Sciences – On a des données • Beaucoup • On recherche – Une fonction solution • Dans une classe YYYY – Pas une distribution • « Modèle » – (YYYY, algo. d’apprentissage)
  11. 11. 11F. Soulié Fogelman. Utiliser les big data: défis & opportunités Concepts importants en Data Mining • Expliquer / Prévoir – Précision / Robustesse – Apprendre / Généraliser – Erreur en apprentissage / Erreur en généralisation “It wasn’t too long ago that calling someone a data miner was a very bad thing. You could start a fistfight at a convention of statisticians with this kind of talk. It meant that you were finding the analytical equivalent of the bunnies in the clouds, poring over data until you found something. Everyone knew that if you did enough poring, you were bound to find that bunny sooner or later, but it was no more real than the one that blows over the horizon.” David J. Leinweber, Stupid data miner tricks (2000)
  12. 12. 12F. Soulié Fogelman. Utiliser les big data: défis & opportunités Concepts importants en Data Mining Construire un modèle pour expliquer l’index S&P 500 • Avec 1 seule variable: l’année – Période 1983-92 : modèle polynomial à 1 variable de degré 9 • .25*1016-.26*1013x+.12*1010x2-320000.x3+56.x4-.0064x5 +.49*10-6x6 -.24*10-10x7+.69*10-15x8-.88*10-20x9 – Période 1983-93 : modèle polynomial à 1 variable de degré 10 • .77*1017-.88*1014x+.45*1011x2-.14*108x3+2700.x4 -.37x5 +.000035x6- .23*10 -8x7+.99*10-13x8-.25*10-17x9 + .28*10-22x10 – Les modèles obtenus sont absolument « parfaits » : 100% Leinweber 83 92 83 93
  13. 13. 13F. Soulié Fogelman. Utiliser les big data: défis & opportunités Concepts importants en Data Mining • Construire un modèle – L’ensemble d’apprentissage : le modèle apprend (précision) – L’ensemble de validation : le modèle généralise (robustesse)
  14. 14. 14F. Soulié Fogelman. Utiliser les big data: défis & opportunités La Théorie de l’apprentissage statistique de Vapnik Un résumé très court !! : VC dimension de YYYY ( ) ( ) n nl h n h nnl hn η ε − + = 21 , ( ) ( ) ( )h,nRR empGen εθθ +≤ 1971 1982 1995 1998 Over-fitting
  15. 15. 15F. Soulié Fogelman. Utiliser les big data: défis & opportunités Concepts (moins) importants en Data Mining • Le choix de l’algorithme – Régression – Arbres de décision – Forêts d’arbres – K-ppv – Naïve Bayes – Réseau de neurones – Support vector machine (SVM) – … “Invariably, simple models and a lot of data trump more elaborate models based on less data”
  16. 16. 16F. Soulié Fogelman. Utiliser les big data: défis & opportunités Exemple: la fraude à la carte bancaire sur Internet • La vente en ligne augmente très rapidement • La fraude aussi Difficultés • Taux de fraude très faible – <<1% • Taux d’alerte très faible – <<1% • Volumes très grands • La fraude change très vite Banque de France. Rapport annuel OSCP, 2012 M€%
  17. 17. 17F. Soulié Fogelman. Utiliser les big data: défis & opportunités Exemple: la fraude à la carte bancaire sur Internet • Modèle de base (uniquement les variables de transaction) – Très insuffisant Précision : 70% Rappel: 30 % ( ) F VPsappelR = ( ) A VPsrecP = Rappel Précision Nb de Cartes en Alerte / Jour
  18. 18. 18F. Soulié Fogelman. Utiliser les big data: défis & opportunités Exemple: la fraude à la carte bancaire sur Internet • Méthode 1 : créer des variables additionnelles (Variété ↑↑↑↑) – 37 997 ( ~1500 avec scores cartes & marchands+ Agrégats) • Variables Sociales Marchand Marchand Marchand Marchand Carte Carte Carte Carte Carte Marchand
  19. 19. 19F. Soulié Fogelman. Utiliser les big data: défis & opportunités Exemple: la fraude à la carte bancaire sur Internet • Méthode 2 : segmenter les cartes • Il y a beaucoup de types de fraude – Faire une segmentation cartes, avec les agrégats cartes – Chaque segment est homogène pour un type de fraude → 19 segments – Différents types de fraude
  20. 20. 20F. Soulié Fogelman. Utiliser les big data: défis & opportunités Exemple: la fraude à la carte bancaire sur Internet • 19 segments (sur le score carte) Segment 1 Segment 2 Segment 15 Segment 15
  21. 21. 21F. Soulié Fogelman. Utiliser les big data: défis & opportunités Exemple: la fraude à la carte bancaire sur Internet • Résultats • Importance des variables – Variables Initiales – Agrégats Marchand – Agrégats Carte – Variables Sociales • Carte Marchand Model Recall Precision Baseline 1,40% 8,18% Baseline + Agg 9,13% 19,00% Baseline + Agg + Social 9,09% 40,58% Seg 19 5,09% 28,21% Seg 19 + Ag. 7,38% 28,82% Seg 19 + Agg + Social 16,46% 60,89%
  22. 22. 22F. Soulié Fogelman. Utiliser les big data: défis & opportunités Exemple : Risque (Carte de Crédit) • Données granulaires – Nombreuses sources (transaction, appels, …) – On peut créer de la valeur SI on agrège bein – Le nombre d’attributs augmente très vite (23 000 +) • La question – Comment choisir les meilleures variables ? • Approches 1. Utiliser toujours les mêmes variables 2. Demander aux experts de choisir 500 variables • Il faut 10 jours de travail pour 10 variables 3. Utiliser toutes les variables & laisser les données choisir les meilleures • Il faut construire un modèle
  23. 23. Impact sur le métier des actuaires
  24. 24. 24F. Soulié Fogelman. Utiliser les big data: défis & opportunités Assurance • Fraude, Connaissance clients, Risque… – Fraude à l’assurance automobile ~ 10% des pertes (~ Md $13.3 en 2011 aux US) • Comment procéder en approche Big Data – Collecter des données Facile Difficile “ Precise detection comes from bringing together multiple characteristics to create an overall picture of the probability of fraud ” (Verisk, 2013) – Les données ne sont pas produites pour les besoins de l’analyste • Problèmes de représentativité
  25. 25. 25F. Soulié Fogelman. Utiliser les big data: défis & opportunités Impacts L’approche Big Data donne un score individuel • Le score individuel est obtenu par application d’un « modèle » – Ce modèle peut être rafraichi automatiquement aussi souvent que nécessaire • On peut segmenter la population – Obtenir un modèle par segment – Établir une politique de prix / segment • Questions ouvertes – Comment intégrer les approches • actuarielle orientée « modèle » et Big Data orientée « données » ?
  26. 26. 26F. Soulié Fogelman. Utiliser les big data: défis & opportunités Conclusion • Quels impacts sur le métier / la formation ? – Les écoles du GENES ouvrent des formations • L'Ensae ParisTech ouvre en octobre 2013 une nouvelle filière de 3ème année de son cycle ingénieur : la voie Data Science. Cette filière permettra, entre autres, d’acquérir les compétences attendues pour les postes de Data Scientist et Chief Data Officer qui émergent avec le développement des Big Data. • À l’Ensai, la filière Statistique et ingénierie des données officialise aujourd’hui son passage à l’échelle du Big Data. La filière forme les ingénieurs de l’Ensai au métier de Data Scientist. – Les écoles du GENES sont partenaires de la plateforme Teralab pour le Big Data: • Enseignement • Projets de R&D
  27. 27. Questions ?

×