SlideShare une entreprise Scribd logo
1  sur  27
Télécharger pour lire hors ligne
Utiliser les Big Data: Défis & Opportunités
Françoise Soulié Fogelman
Institut des Actuaires
Conférence Big Data
Paris, 13 mai 2014
2F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Mon parcours professionnel
Business &
Decision
KXEN
Innovation
KDD_US
Atos
3F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Agenda
• Qu’est ce que le Big Data
• Qu’est ce que le Data Mining
• Impact sur le métier des actuaires
Qu’est ce que le Big
Data ?
5F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Une définition classique
Introduite par Gartner en 2001
Nombre de
variables
Nombre
d’événements
/seconde
Nombre d’observations
x Nombre de variables
Largeur
Profondeur
6F. Soulié Fogelman. Utiliser les big data: défis & opportunités
La valeur des Big Data
• À l’origine (Gartner, 2001) les Big Data sont considérées comme
un risque de faire exploser les architectures
• Puis on se rend compte que les Big Data
sont source de valeur
– Le Data Mining (ou Machine Learning ou Predictive Analytics) est la clé
majeure de la source de valeur, en produisant de meilleurs modèles
“Invariably, simple models and a lot of data trump more elaborate
models based on less data”
• MAIS il faut pour cela des techniques adaptées
– Acceptant de grands volumes (!)
– Avec des variables corrélées (variété)
– Sans over-fitting
7F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Big Data pour la Finance & l’Assurance
Facilité à capturer la valeur des Big Data & index de la valeur potentielle
Mc Kinsey, Big Data. 2011
Finance &
Assurance
Qu’est ce que le Data
Mining?
9F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Data Mining & Big Data
• Neural Network,
Data Mining &
Big Data
– 1980 – 2008
– 2004 – 2014 http://www.google.com/trends
https://books.google.com/ngrams
10F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Qu’est ce que le Data Mining
• Situation où
– On ne connait pas de modèle mathématique
• Sciences
– On a des données
• Beaucoup
• On recherche
– Une fonction solution
• Dans une classe YYYY
– Pas une distribution
• « Modèle »
– (YYYY, algo. d’apprentissage)
11F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts importants en Data Mining
• Expliquer / Prévoir
– Précision / Robustesse
– Apprendre / Généraliser
– Erreur en apprentissage / Erreur en généralisation
“It wasn’t too long ago that calling someone a data miner was a very bad
thing. You could start a fistfight at a convention of statisticians with this
kind of talk. It meant that you were finding the analytical equivalent of the
bunnies in the clouds, poring over data until you found something.
Everyone knew that if you did enough poring, you were bound to find
that bunny sooner or later, but it was no more real than the one that
blows over the horizon.”
David J. Leinweber, Stupid data miner tricks (2000)
12F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts importants en Data Mining
Construire un modèle pour expliquer l’index S&P 500
• Avec 1 seule variable: l’année
– Période 1983-92 : modèle polynomial à 1 variable de degré 9
• .25*1016-.26*1013x+.12*1010x2-320000.x3+56.x4-.0064x5 +.49*10-6x6 -.24*10-10x7+.69*10-15x8-.88*10-20x9
– Période 1983-93 : modèle polynomial à 1 variable de degré 10
• .77*1017-.88*1014x+.45*1011x2-.14*108x3+2700.x4 -.37x5 +.000035x6- .23*10 -8x7+.99*10-13x8-.25*10-17x9 + .28*10-22x10
– Les modèles obtenus sont absolument « parfaits » : 100%
Leinweber
83 92 83 93
13F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts importants en Data Mining
• Construire un modèle
– L’ensemble d’apprentissage : le modèle apprend (précision)
– L’ensemble de validation : le modèle généralise (robustesse)
14F. Soulié Fogelman. Utiliser les big data: défis & opportunités
La Théorie de l’apprentissage statistique de Vapnik
Un résumé très court !!
: VC dimension de YYYY
( )
( )
n
nl
h
n
h
nnl
hn
η
ε −
+
=
21
,
( ) ( ) ( )h,nRR empGen εθθ +≤
1971 1982 1995 1998
Over-fitting
15F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts (moins) importants en Data Mining
• Le choix de l’algorithme
– Régression
– Arbres de décision
– Forêts d’arbres
– K-ppv
– Naïve Bayes
– Réseau de neurones
– Support vector machine (SVM)
– …
“Invariably, simple models and a lot of data trump more
elaborate models based on less data”
16F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• La vente en ligne augmente très rapidement
• La fraude aussi
Difficultés
• Taux de fraude très faible
– <<1%
• Taux d’alerte très faible
– <<1%
• Volumes très grands
• La fraude change très vite
Banque de France. Rapport annuel OSCP, 2012
M€%
17F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Modèle de base (uniquement les variables de transaction)
– Très insuffisant
Précision : 70%
Rappel: 30 %
( ) F
VPsappelR =
( ) A
VPsrecP =
Rappel Précision
Nb de Cartes en Alerte / Jour
18F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Méthode 1 : créer des variables additionnelles (Variété ↑↑↑↑)
– 37 997 ( ~1500 avec scores cartes & marchands+ Agrégats)
• Variables Sociales
Marchand
Marchand
Marchand
Marchand
Carte
Carte
Carte
Carte
Carte Marchand
19F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Méthode 2 : segmenter les cartes
• Il y a beaucoup de types de fraude
– Faire une segmentation cartes, avec les agrégats cartes
– Chaque segment est homogène pour un type de fraude
→ 19 segments
– Différents types de
fraude
20F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• 19 segments (sur le score carte)
Segment 1 Segment 2
Segment 15 Segment 15
21F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Résultats
• Importance des variables
– Variables Initiales
– Agrégats Marchand
– Agrégats Carte
– Variables Sociales
• Carte Marchand
Model Recall Precision
Baseline 1,40% 8,18%
Baseline + Agg 9,13% 19,00%
Baseline + Agg + Social 9,09% 40,58%
Seg 19 5,09% 28,21%
Seg 19 + Ag. 7,38% 28,82%
Seg 19 + Agg + Social 16,46% 60,89%
22F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple : Risque (Carte de Crédit)
• Données granulaires
– Nombreuses sources (transaction, appels, …)
– On peut créer de la valeur SI on agrège bein
– Le nombre d’attributs augmente très vite (23 000 +)
• La question
– Comment choisir les meilleures variables ?
• Approches
1. Utiliser toujours les mêmes variables
2. Demander aux experts de choisir 500 variables
• Il faut 10 jours de travail pour 10 variables
3. Utiliser toutes les variables & laisser les données choisir les
meilleures
• Il faut construire un modèle
Impact sur le métier des
actuaires
24F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Assurance
• Fraude, Connaissance clients, Risque…
– Fraude à l’assurance automobile ~ 10% des pertes (~ Md $13.3 en
2011 aux US)
• Comment procéder en approche Big Data
– Collecter des données
Facile Difficile
“ Precise detection comes from bringing together multiple characteristics to
create an overall picture of the probability of fraud ” (Verisk, 2013)
– Les données ne sont pas produites pour les besoins de l’analyste
• Problèmes de représentativité
25F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Impacts
L’approche Big Data donne un score individuel
• Le score individuel est obtenu par application d’un
« modèle »
– Ce modèle peut être rafraichi automatiquement aussi souvent que
nécessaire
• On peut segmenter la population
– Obtenir un modèle par segment
– Établir une politique de prix / segment
• Questions ouvertes
– Comment intégrer les approches
• actuarielle orientée « modèle » et Big Data orientée « données » ?
26F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Conclusion
• Quels impacts sur le métier / la formation ?
– Les écoles du GENES ouvrent des formations
• L'Ensae ParisTech ouvre en octobre 2013 une nouvelle filière de 3ème année de son
cycle ingénieur : la voie Data Science. Cette filière permettra, entre autres, d’acquérir les
compétences attendues pour les postes de Data Scientist et Chief Data Officer qui
émergent avec le développement des Big Data.
• À l’Ensai, la filière Statistique et ingénierie des données officialise aujourd’hui son
passage à l’échelle du Big Data. La filière forme les ingénieurs de l’Ensai au métier de
Data Scientist.
– Les écoles du GENES sont partenaires de la plateforme Teralab pour
le Big Data:
• Enseignement
• Projets de R&D
Questions ?

Contenu connexe

En vedette

Eurocroissance arnaud cohen
Eurocroissance arnaud cohenEurocroissance arnaud cohen
Eurocroissance arnaud cohenKezhan SHI
 
Norme IFRS - Pierre Thérond - Université d'été de l'Institut des Actuaires
Norme IFRS - Pierre Thérond - Université d'été de l'Institut des ActuairesNorme IFRS - Pierre Thérond - Université d'été de l'Institut des Actuaires
Norme IFRS - Pierre Thérond - Université d'été de l'Institut des ActuairesKezhan SHI
 
Arbres de régression et modèles de durée
Arbres de régression et modèles de duréeArbres de régression et modèles de durée
Arbres de régression et modèles de duréeKezhan SHI
 
Loi hamon sébastien bachellier
Loi hamon sébastien bachellierLoi hamon sébastien bachellier
Loi hamon sébastien bachellierKezhan SHI
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayetKezhan SHI
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Insurance fraud through collusion - Pierre Picard
Insurance fraud through collusion - Pierre PicardInsurance fraud through collusion - Pierre Picard
Insurance fraud through collusion - Pierre PicardKezhan SHI
 
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...Kezhan SHI
 
Détection de profils, application en santé et en économétrie geissler
Détection de profils, application en santé et en économétrie   geisslerDétection de profils, application en santé et en économétrie   geissler
Détection de profils, application en santé et en économétrie geisslerKezhan SHI
 
Les enjeux de la dépendance – laure de montesquieu, scor
Les enjeux de la dépendance – laure de montesquieu, scorLes enjeux de la dépendance – laure de montesquieu, scor
Les enjeux de la dépendance – laure de montesquieu, scorKezhan SHI
 
Optimal discretization of hedging strategies rosenbaum
Optimal discretization of hedging strategies   rosenbaumOptimal discretization of hedging strategies   rosenbaum
Optimal discretization of hedging strategies rosenbaumKezhan SHI
 
From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...Kezhan SHI
 
RCN 2014 Moyens de paiement - Présentation CANTON-Consulting
RCN 2014 Moyens de paiement - Présentation CANTON-ConsultingRCN 2014 Moyens de paiement - Présentation CANTON-Consulting
RCN 2014 Moyens de paiement - Présentation CANTON-ConsultingCANTON-Consulting
 
Présentation de Paymentwall
Présentation de PaymentwallPrésentation de Paymentwall
Présentation de PaymentwallPaymentwall
 
Haute Disponibilité et Tolérance de Panne
Haute Disponibilité et Tolérance de PanneHaute Disponibilité et Tolérance de Panne
Haute Disponibilité et Tolérance de PanneElior Boukhobza
 
Tableaux de bord et pilotage de la DSI [Cri ouest juin 2010]
Tableaux de bord et pilotage de la DSI [Cri ouest  juin 2010]Tableaux de bord et pilotage de la DSI [Cri ouest  juin 2010]
Tableaux de bord et pilotage de la DSI [Cri ouest juin 2010]Luc Davalle
 
Sécurité des systèmes d'information
Sécurité des systèmes d'informationSécurité des systèmes d'information
Sécurité des systèmes d'informationFranck Franchin
 
Les Schémas Directeurs SI par la pratique - IAE Paris - 10 septembre 2013
Les Schémas Directeurs SI par la pratique -  IAE Paris - 10 septembre 2013Les Schémas Directeurs SI par la pratique -  IAE Paris - 10 septembre 2013
Les Schémas Directeurs SI par la pratique - IAE Paris - 10 septembre 2013ArielleMeffre
 
Historia del arte_ EstefaníaBarbosa
Historia del arte_ EstefaníaBarbosaHistoria del arte_ EstefaníaBarbosa
Historia del arte_ EstefaníaBarbosaStephaniia Barboosa
 
Barnehageassistent
BarnehageassistentBarnehageassistent
BarnehageassistentIselinHLH
 

En vedette (20)

Eurocroissance arnaud cohen
Eurocroissance arnaud cohenEurocroissance arnaud cohen
Eurocroissance arnaud cohen
 
Norme IFRS - Pierre Thérond - Université d'été de l'Institut des Actuaires
Norme IFRS - Pierre Thérond - Université d'été de l'Institut des ActuairesNorme IFRS - Pierre Thérond - Université d'été de l'Institut des Actuaires
Norme IFRS - Pierre Thérond - Université d'été de l'Institut des Actuaires
 
Arbres de régression et modèles de durée
Arbres de régression et modèles de duréeArbres de régression et modèles de durée
Arbres de régression et modèles de durée
 
Loi hamon sébastien bachellier
Loi hamon sébastien bachellierLoi hamon sébastien bachellier
Loi hamon sébastien bachellier
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayet
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Insurance fraud through collusion - Pierre Picard
Insurance fraud through collusion - Pierre PicardInsurance fraud through collusion - Pierre Picard
Insurance fraud through collusion - Pierre Picard
 
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
 
Détection de profils, application en santé et en économétrie geissler
Détection de profils, application en santé et en économétrie   geisslerDétection de profils, application en santé et en économétrie   geissler
Détection de profils, application en santé et en économétrie geissler
 
Les enjeux de la dépendance – laure de montesquieu, scor
Les enjeux de la dépendance – laure de montesquieu, scorLes enjeux de la dépendance – laure de montesquieu, scor
Les enjeux de la dépendance – laure de montesquieu, scor
 
Optimal discretization of hedging strategies rosenbaum
Optimal discretization of hedging strategies   rosenbaumOptimal discretization of hedging strategies   rosenbaum
Optimal discretization of hedging strategies rosenbaum
 
From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...
 
RCN 2014 Moyens de paiement - Présentation CANTON-Consulting
RCN 2014 Moyens de paiement - Présentation CANTON-ConsultingRCN 2014 Moyens de paiement - Présentation CANTON-Consulting
RCN 2014 Moyens de paiement - Présentation CANTON-Consulting
 
Présentation de Paymentwall
Présentation de PaymentwallPrésentation de Paymentwall
Présentation de Paymentwall
 
Haute Disponibilité et Tolérance de Panne
Haute Disponibilité et Tolérance de PanneHaute Disponibilité et Tolérance de Panne
Haute Disponibilité et Tolérance de Panne
 
Tableaux de bord et pilotage de la DSI [Cri ouest juin 2010]
Tableaux de bord et pilotage de la DSI [Cri ouest  juin 2010]Tableaux de bord et pilotage de la DSI [Cri ouest  juin 2010]
Tableaux de bord et pilotage de la DSI [Cri ouest juin 2010]
 
Sécurité des systèmes d'information
Sécurité des systèmes d'informationSécurité des systèmes d'information
Sécurité des systèmes d'information
 
Les Schémas Directeurs SI par la pratique - IAE Paris - 10 septembre 2013
Les Schémas Directeurs SI par la pratique -  IAE Paris - 10 septembre 2013Les Schémas Directeurs SI par la pratique -  IAE Paris - 10 septembre 2013
Les Schémas Directeurs SI par la pratique - IAE Paris - 10 septembre 2013
 
Historia del arte_ EstefaníaBarbosa
Historia del arte_ EstefaníaBarbosaHistoria del arte_ EstefaníaBarbosa
Historia del arte_ EstefaníaBarbosa
 
Barnehageassistent
BarnehageassistentBarnehageassistent
Barnehageassistent
 

Similaire à Présentation Françoise Soulié Fogelman

uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfNajlaAllouche
 
Six sigma & Big data
Six sigma & Big dataSix sigma & Big data
Six sigma & Big dataXL Groupe
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
 
Quelle gouvernance pour le numérique?
Quelle gouvernance pour le numérique?Quelle gouvernance pour le numérique?
Quelle gouvernance pour le numérique?Antoine Vigneron
 
Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Micropole Group
 
La protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATALa protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATAISACA Chapitre de Québec
 
Intro au Big Data & Machine Learning
Intro au Big Data & Machine LearningIntro au Big Data & Machine Learning
Intro au Big Data & Machine LearningEric Daoud
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataData2B
 
Forêts uniformément aléatoires - Saïp CISS
Forêts uniformément aléatoires - Saïp CISSForêts uniformément aléatoires - Saïp CISS
Forêts uniformément aléatoires - Saïp CISSKezhan SHI
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
 
Enjeux de la donnee 21 novembre18
Enjeux de la donnee 21 novembre18Enjeux de la donnee 21 novembre18
Enjeux de la donnee 21 novembre18Laetitia Lycke
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGMargarita Zlatkova
 
Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfamarasidibeavm
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
Dossier presse chaire-big-data-market-insights
Dossier presse chaire-big-data-market-insightsDossier presse chaire-big-data-market-insights
Dossier presse chaire-big-data-market-insightsTélécom Paris
 
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelmanslides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelmanshuai wang
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationORSYS
 

Similaire à Présentation Françoise Soulié Fogelman (20)

uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
 
Six sigma & Big data
Six sigma & Big dataSix sigma & Big data
Six sigma & Big data
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
Quelle gouvernance pour le numérique?
Quelle gouvernance pour le numérique?Quelle gouvernance pour le numérique?
Quelle gouvernance pour le numérique?
 
Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)
 
Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017
 
La protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATALa protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATA
 
Intro au Big Data & Machine Learning
Intro au Big Data & Machine LearningIntro au Big Data & Machine Learning
Intro au Big Data & Machine Learning
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big data
 
Forêts uniformément aléatoires - Saïp CISS
Forêts uniformément aléatoires - Saïp CISSForêts uniformément aléatoires - Saïp CISS
Forêts uniformément aléatoires - Saïp CISS
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
 
Enjeux de la donnee 21 novembre18
Enjeux de la donnee 21 novembre18Enjeux de la donnee 21 novembre18
Enjeux de la donnee 21 novembre18
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBG
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
2012 07-05-spn-sgi-v1-lite
2012 07-05-spn-sgi-v1-lite2012 07-05-spn-sgi-v1-lite
2012 07-05-spn-sgi-v1-lite
 
Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdf
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Dossier presse chaire-big-data-market-insights
Dossier presse chaire-big-data-market-insightsDossier presse chaire-big-data-market-insights
Dossier presse chaire-big-data-market-insights
 
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelmanslides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
 

Plus de Kezhan SHI

Big data fiche data science 15 09 14
Big data fiche data science 15 09 14Big data fiche data science 15 09 14
Big data fiche data science 15 09 14Kezhan SHI
 
Big data ads gouvernance ads v2[
Big data ads   gouvernance ads v2[Big data ads   gouvernance ads v2[
Big data ads gouvernance ads v2[Kezhan SHI
 
B -technical_specification_for_the_preparatory_phase__part_ii_
B  -technical_specification_for_the_preparatory_phase__part_ii_B  -technical_specification_for_the_preparatory_phase__part_ii_
B -technical_specification_for_the_preparatory_phase__part_ii_Kezhan SHI
 
A -technical_specification_for_the_preparatory_phase__part_i_
A  -technical_specification_for_the_preparatory_phase__part_i_A  -technical_specification_for_the_preparatory_phase__part_i_
A -technical_specification_for_the_preparatory_phase__part_i_Kezhan SHI
 
20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standardKezhan SHI
 
20140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-201420140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-2014Kezhan SHI
 
20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilanKezhan SHI
 
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_Kezhan SHI
 
Qis5 technical specifications-20100706
Qis5 technical specifications-20100706Qis5 technical specifications-20100706
Qis5 technical specifications-20100706Kezhan SHI
 
Directive solvabilité 2
Directive solvabilité 2Directive solvabilité 2
Directive solvabilité 2Kezhan SHI
 
Directive omnibus 2
Directive omnibus 2Directive omnibus 2
Directive omnibus 2Kezhan SHI
 
Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2Kezhan SHI
 
Rapport d'activité 2013 - CNIL
Rapport d'activité 2013 - CNILRapport d'activité 2013 - CNIL
Rapport d'activité 2013 - CNILKezhan SHI
 
Xavier Milaud - Techniques d'arbres de classification et de régression
Xavier Milaud - Techniques d'arbres de classification et de régressionXavier Milaud - Techniques d'arbres de classification et de régression
Xavier Milaud - Techniques d'arbres de classification et de régressionKezhan SHI
 

Plus de Kezhan SHI (14)

Big data fiche data science 15 09 14
Big data fiche data science 15 09 14Big data fiche data science 15 09 14
Big data fiche data science 15 09 14
 
Big data ads gouvernance ads v2[
Big data ads   gouvernance ads v2[Big data ads   gouvernance ads v2[
Big data ads gouvernance ads v2[
 
B -technical_specification_for_the_preparatory_phase__part_ii_
B  -technical_specification_for_the_preparatory_phase__part_ii_B  -technical_specification_for_the_preparatory_phase__part_ii_
B -technical_specification_for_the_preparatory_phase__part_ii_
 
A -technical_specification_for_the_preparatory_phase__part_i_
A  -technical_specification_for_the_preparatory_phase__part_i_A  -technical_specification_for_the_preparatory_phase__part_i_
A -technical_specification_for_the_preparatory_phase__part_i_
 
20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard
 
20140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-201420140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-2014
 
20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan
 
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
 
Qis5 technical specifications-20100706
Qis5 technical specifications-20100706Qis5 technical specifications-20100706
Qis5 technical specifications-20100706
 
Directive solvabilité 2
Directive solvabilité 2Directive solvabilité 2
Directive solvabilité 2
 
Directive omnibus 2
Directive omnibus 2Directive omnibus 2
Directive omnibus 2
 
Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2
 
Rapport d'activité 2013 - CNIL
Rapport d'activité 2013 - CNILRapport d'activité 2013 - CNIL
Rapport d'activité 2013 - CNIL
 
Xavier Milaud - Techniques d'arbres de classification et de régression
Xavier Milaud - Techniques d'arbres de classification et de régressionXavier Milaud - Techniques d'arbres de classification et de régression
Xavier Milaud - Techniques d'arbres de classification et de régression
 

Présentation Françoise Soulié Fogelman

  • 1. Utiliser les Big Data: Défis & Opportunités Françoise Soulié Fogelman Institut des Actuaires Conférence Big Data Paris, 13 mai 2014
  • 2. 2F. Soulié Fogelman. Utiliser les big data: défis & opportunités Mon parcours professionnel Business & Decision KXEN Innovation KDD_US Atos
  • 3. 3F. Soulié Fogelman. Utiliser les big data: défis & opportunités Agenda • Qu’est ce que le Big Data • Qu’est ce que le Data Mining • Impact sur le métier des actuaires
  • 4. Qu’est ce que le Big Data ?
  • 5. 5F. Soulié Fogelman. Utiliser les big data: défis & opportunités Une définition classique Introduite par Gartner en 2001 Nombre de variables Nombre d’événements /seconde Nombre d’observations x Nombre de variables Largeur Profondeur
  • 6. 6F. Soulié Fogelman. Utiliser les big data: défis & opportunités La valeur des Big Data • À l’origine (Gartner, 2001) les Big Data sont considérées comme un risque de faire exploser les architectures • Puis on se rend compte que les Big Data sont source de valeur – Le Data Mining (ou Machine Learning ou Predictive Analytics) est la clé majeure de la source de valeur, en produisant de meilleurs modèles “Invariably, simple models and a lot of data trump more elaborate models based on less data” • MAIS il faut pour cela des techniques adaptées – Acceptant de grands volumes (!) – Avec des variables corrélées (variété) – Sans over-fitting
  • 7. 7F. Soulié Fogelman. Utiliser les big data: défis & opportunités Big Data pour la Finance & l’Assurance Facilité à capturer la valeur des Big Data & index de la valeur potentielle Mc Kinsey, Big Data. 2011 Finance & Assurance
  • 8. Qu’est ce que le Data Mining?
  • 9. 9F. Soulié Fogelman. Utiliser les big data: défis & opportunités Data Mining & Big Data • Neural Network, Data Mining & Big Data – 1980 – 2008 – 2004 – 2014 http://www.google.com/trends https://books.google.com/ngrams
  • 10. 10F. Soulié Fogelman. Utiliser les big data: défis & opportunités Qu’est ce que le Data Mining • Situation où – On ne connait pas de modèle mathématique • Sciences – On a des données • Beaucoup • On recherche – Une fonction solution • Dans une classe YYYY – Pas une distribution • « Modèle » – (YYYY, algo. d’apprentissage)
  • 11. 11F. Soulié Fogelman. Utiliser les big data: défis & opportunités Concepts importants en Data Mining • Expliquer / Prévoir – Précision / Robustesse – Apprendre / Généraliser – Erreur en apprentissage / Erreur en généralisation “It wasn’t too long ago that calling someone a data miner was a very bad thing. You could start a fistfight at a convention of statisticians with this kind of talk. It meant that you were finding the analytical equivalent of the bunnies in the clouds, poring over data until you found something. Everyone knew that if you did enough poring, you were bound to find that bunny sooner or later, but it was no more real than the one that blows over the horizon.” David J. Leinweber, Stupid data miner tricks (2000)
  • 12. 12F. Soulié Fogelman. Utiliser les big data: défis & opportunités Concepts importants en Data Mining Construire un modèle pour expliquer l’index S&P 500 • Avec 1 seule variable: l’année – Période 1983-92 : modèle polynomial à 1 variable de degré 9 • .25*1016-.26*1013x+.12*1010x2-320000.x3+56.x4-.0064x5 +.49*10-6x6 -.24*10-10x7+.69*10-15x8-.88*10-20x9 – Période 1983-93 : modèle polynomial à 1 variable de degré 10 • .77*1017-.88*1014x+.45*1011x2-.14*108x3+2700.x4 -.37x5 +.000035x6- .23*10 -8x7+.99*10-13x8-.25*10-17x9 + .28*10-22x10 – Les modèles obtenus sont absolument « parfaits » : 100% Leinweber 83 92 83 93
  • 13. 13F. Soulié Fogelman. Utiliser les big data: défis & opportunités Concepts importants en Data Mining • Construire un modèle – L’ensemble d’apprentissage : le modèle apprend (précision) – L’ensemble de validation : le modèle généralise (robustesse)
  • 14. 14F. Soulié Fogelman. Utiliser les big data: défis & opportunités La Théorie de l’apprentissage statistique de Vapnik Un résumé très court !! : VC dimension de YYYY ( ) ( ) n nl h n h nnl hn η ε − + = 21 , ( ) ( ) ( )h,nRR empGen εθθ +≤ 1971 1982 1995 1998 Over-fitting
  • 15. 15F. Soulié Fogelman. Utiliser les big data: défis & opportunités Concepts (moins) importants en Data Mining • Le choix de l’algorithme – Régression – Arbres de décision – Forêts d’arbres – K-ppv – Naïve Bayes – Réseau de neurones – Support vector machine (SVM) – … “Invariably, simple models and a lot of data trump more elaborate models based on less data”
  • 16. 16F. Soulié Fogelman. Utiliser les big data: défis & opportunités Exemple: la fraude à la carte bancaire sur Internet • La vente en ligne augmente très rapidement • La fraude aussi Difficultés • Taux de fraude très faible – <<1% • Taux d’alerte très faible – <<1% • Volumes très grands • La fraude change très vite Banque de France. Rapport annuel OSCP, 2012 M€%
  • 17. 17F. Soulié Fogelman. Utiliser les big data: défis & opportunités Exemple: la fraude à la carte bancaire sur Internet • Modèle de base (uniquement les variables de transaction) – Très insuffisant Précision : 70% Rappel: 30 % ( ) F VPsappelR = ( ) A VPsrecP = Rappel Précision Nb de Cartes en Alerte / Jour
  • 18. 18F. Soulié Fogelman. Utiliser les big data: défis & opportunités Exemple: la fraude à la carte bancaire sur Internet • Méthode 1 : créer des variables additionnelles (Variété ↑↑↑↑) – 37 997 ( ~1500 avec scores cartes & marchands+ Agrégats) • Variables Sociales Marchand Marchand Marchand Marchand Carte Carte Carte Carte Carte Marchand
  • 19. 19F. Soulié Fogelman. Utiliser les big data: défis & opportunités Exemple: la fraude à la carte bancaire sur Internet • Méthode 2 : segmenter les cartes • Il y a beaucoup de types de fraude – Faire une segmentation cartes, avec les agrégats cartes – Chaque segment est homogène pour un type de fraude → 19 segments – Différents types de fraude
  • 20. 20F. Soulié Fogelman. Utiliser les big data: défis & opportunités Exemple: la fraude à la carte bancaire sur Internet • 19 segments (sur le score carte) Segment 1 Segment 2 Segment 15 Segment 15
  • 21. 21F. Soulié Fogelman. Utiliser les big data: défis & opportunités Exemple: la fraude à la carte bancaire sur Internet • Résultats • Importance des variables – Variables Initiales – Agrégats Marchand – Agrégats Carte – Variables Sociales • Carte Marchand Model Recall Precision Baseline 1,40% 8,18% Baseline + Agg 9,13% 19,00% Baseline + Agg + Social 9,09% 40,58% Seg 19 5,09% 28,21% Seg 19 + Ag. 7,38% 28,82% Seg 19 + Agg + Social 16,46% 60,89%
  • 22. 22F. Soulié Fogelman. Utiliser les big data: défis & opportunités Exemple : Risque (Carte de Crédit) • Données granulaires – Nombreuses sources (transaction, appels, …) – On peut créer de la valeur SI on agrège bein – Le nombre d’attributs augmente très vite (23 000 +) • La question – Comment choisir les meilleures variables ? • Approches 1. Utiliser toujours les mêmes variables 2. Demander aux experts de choisir 500 variables • Il faut 10 jours de travail pour 10 variables 3. Utiliser toutes les variables & laisser les données choisir les meilleures • Il faut construire un modèle
  • 23. Impact sur le métier des actuaires
  • 24. 24F. Soulié Fogelman. Utiliser les big data: défis & opportunités Assurance • Fraude, Connaissance clients, Risque… – Fraude à l’assurance automobile ~ 10% des pertes (~ Md $13.3 en 2011 aux US) • Comment procéder en approche Big Data – Collecter des données Facile Difficile “ Precise detection comes from bringing together multiple characteristics to create an overall picture of the probability of fraud ” (Verisk, 2013) – Les données ne sont pas produites pour les besoins de l’analyste • Problèmes de représentativité
  • 25. 25F. Soulié Fogelman. Utiliser les big data: défis & opportunités Impacts L’approche Big Data donne un score individuel • Le score individuel est obtenu par application d’un « modèle » – Ce modèle peut être rafraichi automatiquement aussi souvent que nécessaire • On peut segmenter la population – Obtenir un modèle par segment – Établir une politique de prix / segment • Questions ouvertes – Comment intégrer les approches • actuarielle orientée « modèle » et Big Data orientée « données » ?
  • 26. 26F. Soulié Fogelman. Utiliser les big data: défis & opportunités Conclusion • Quels impacts sur le métier / la formation ? – Les écoles du GENES ouvrent des formations • L'Ensae ParisTech ouvre en octobre 2013 une nouvelle filière de 3ème année de son cycle ingénieur : la voie Data Science. Cette filière permettra, entre autres, d’acquérir les compétences attendues pour les postes de Data Scientist et Chief Data Officer qui émergent avec le développement des Big Data. • À l’Ensai, la filière Statistique et ingénierie des données officialise aujourd’hui son passage à l’échelle du Big Data. La filière forme les ingénieurs de l’Ensai au métier de Data Scientist. – Les écoles du GENES sont partenaires de la plateforme Teralab pour le Big Data: • Enseignement • Projets de R&D