Data Sciences pour l'Actuariat
Françoise Soulié Fogelman
Formation Actuaire Data Scientist
Leçon inaugurale
Paris, 16 mars 2015
2F. Soulié Fogelman. Data Sciences pour l'Actuariat
Agenda
• Big Data & Assurance
• Le process du projet Big Data
• Data Science pour les actuaires
Big Data & Assurance
4F. Soulié Fogelman. Data Sciences pour l'Actuariat
Une définition classique
Introduite par Gartner en 2001
Nombre de
variables
Nombre
d’événements /
seconde
Nombre d’observations
x Nombre de variables
Largeur
Profondeur
5F. Soulié Fogelman. Data Sciences pour l'Actuariat
Les sources de données – Volume & Variété
http://vesselhead.com/hadoop-is-a-very-disruptive-technology
6F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le Big Data est possible aujourd’hui
1. Grâce aux améliorations exponentielles du hardware …
L’avènement du Big Data
http://radar.oreilly.com/2011/08/building-data-startups.html
7F. Soulié Fogelman. Data Sciences pour l'Actuariat
L’avènement du Big Data
2. … et un marché d’outils logiciels Big Data très complet
http://www.slideshare.net/mjft01/big-data-
big-deal-a-big-data-101-presentation
8F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le Big Data dans l’Assurance
• Un potentiel de valeur
– Important & accessible
• McKinsey 2011
• … grâce à un métier basé sur l
– Des données
– & des compétences
– adaptées
• … mais nécessitant des évolutions significatives
– Ex: P&C
• Deloitte 2015
http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation
http://www2.deloitte.com/us/en/pages/financial-services/articles/2015-property-and-casualty-insurance-outlook.html
9F. Soulié Fogelman. Data Sciences pour l'Actuariat
Quelques exemples d’applications dans l’assurance
• Améliorer le ciblage des campagnes marketing
– Développer les marchés de niche
• Produire de meilleurs modèles
– Prévision de sinistralité, de pricing, de détection de la fraude
• Développer les nouvelles plateformes de distribution
– Améliorer l’interaction client (NBA, temps réel)
• Concevoir de nouveaux produits
– Usage-based-insurance
• Connected xx (car, health, home)
– Risques climatiques
http://www.data-business.fr/opportunites-applications-big-
data-assurance/ http://www.lesechos.fr/idees-debats/sciences-prospective/0204190147952-pourquoi-les-
objets-connectes-font-rever-les-compagnies-dassurances-1098284.php
Le process du projet
Big Data
11F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le process du projet Big Data
• Les étapes sont familières aux actuaires
• Mais avec quelques grosses différences
– La génération de features (variables)
– L’approche Machine Learning
– La construction du modèle
– L’utilisation d’infrastructures différentes (Hadoop, Spark)
– La programmation en plus des statistiques
Collecte de
données
Préparation
des données
Feature
engineering
Construction
du modèle
Evaluation Déploiement
12F. Soulié Fogelman. Data Sciences pour l'Actuariat
La génération de features
• Augmenter la variété
– Calculer, à partir des variables existantes, de nouvelles variables
• Significatives pour le métier mais difficiles à apprendre par un modèle
– Difficile : coûteux en données, temps de calcul, complexité du modèle
• Exemples : ratios, agrégats sur fenêtres glissantes temporelles,
géographiques…
– Obtenir des variables supplémentaires de sources externes
• Open data, partenaires, data providers
– La variété augmente (et donc le volume)
• Plus les sources sont différentes, mieux c’est
• Différentes en sémantique/type (texte, réseau…)
• C’est le facteur de succès le plus important
– Cela permet de produire des modèles plus simples & plus performants
Domingos: http://www.centurion.link/w/_media/programming/a_few_useful_things_to_know_about_machine_learning.pdf
13F. Soulié Fogelman. Data Sciences pour l'Actuariat
La génération de features
• Attention: quand le nombre de features augmente
– Le nombre d’observations nécessaires pour apprendre le modèle
augmente
– Le temps de calcul augmente aussi
Bottou : http://bigdata2013.sciencesconf.org/conference/bigdata2013/pages/bottou.pdf
14F. Soulié Fogelman. Data Sciences pour l'Actuariat
L’approche Machine Learning
• Construire un modèle
– L’ensemble d’apprentissage: le modèle apprend (précision)
– L’ensemble de validation : le modèle généralise (robustesse)
• Le modèle doit être simple
Facile
Difficile
15F. Soulié Fogelman. Data Sciences pour l'Actuariat
La construction du modèle
• Il existe de très nombreux algorithmes de Machine Learning
– Il vaut toujours mieux choisir un algorithme simple
• “Invariably, simple models and a lot of data trump more elaborate models
based on less data”
• Il vaut mieux passer du temps sur la génération de variables
• Note : les variables générées sont toujours corrélées
– L’algorithme choisi doit dont être insensible aux corrélations
• Questions importantes
– Scalabilité, Explicabilité, Performance
– Résistance au bruit / données manquantes (sparsité) / données
corrélées
– Temps de calcul : Apprentissage / Scoring (généralisation)
– Le plus important : les données
• Les données ne sont pas produites pour les besoins de l’analyste
– Problèmes de représentativité
16F. Soulié Fogelman. Data Sciences pour l'Actuariat
L’utilisation d’infrastructures différentes
• La plate-forme Big Data
– Couche Analyses
• Librairies open-source Scikit-learn; MLlib
– Couche données : bases NoSQL
– Infrastructure
• Serveur In-memory
• Cluster hadoop/Spark
• Importance de la
sécurité / privacy /
protection des
données personnelles
17F. Soulié Fogelman. Data Sciences pour l'Actuariat
La programmation
• La programmation est très massivement nécessaire
pour les étapes de préparation des données (80% du
temps passé dans un projet)
– La collecte des données
– Le nettoyage des données
– L’alignement des référentiels
– Le feature engineering
• Souvent en R ou en Python
“First-timers are often surprised by how little time in a machine
learning project is spent actually doing machine learning”
Domingos: http://www.centurion.link/w/_media/programming/a_few_useful_things_to_know_about_machine_learning.pdf
Data Science pour les
actuaires
19F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le data scientist
• Ces compétences sont très demandées
20F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le data scientist
• Les compétences requises
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
21F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le data scientist
• Le but de cette formation
– Appui sur l’expertise métier
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
22F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le data scientist
“People rarely succeed
unless they have fun in what they are doing”
Dale Carnegie
&
à soulie-francoise@orange.fr

15 03 16_data sciences pour l'actuariat_f. soulie fogelman

  • 1.
    Data Sciences pourl'Actuariat Françoise Soulié Fogelman Formation Actuaire Data Scientist Leçon inaugurale Paris, 16 mars 2015
  • 2.
    2F. Soulié Fogelman.Data Sciences pour l'Actuariat Agenda • Big Data & Assurance • Le process du projet Big Data • Data Science pour les actuaires
  • 3.
    Big Data &Assurance
  • 4.
    4F. Soulié Fogelman.Data Sciences pour l'Actuariat Une définition classique Introduite par Gartner en 2001 Nombre de variables Nombre d’événements / seconde Nombre d’observations x Nombre de variables Largeur Profondeur
  • 5.
    5F. Soulié Fogelman.Data Sciences pour l'Actuariat Les sources de données – Volume & Variété http://vesselhead.com/hadoop-is-a-very-disruptive-technology
  • 6.
    6F. Soulié Fogelman.Data Sciences pour l'Actuariat Le Big Data est possible aujourd’hui 1. Grâce aux améliorations exponentielles du hardware … L’avènement du Big Data http://radar.oreilly.com/2011/08/building-data-startups.html
  • 7.
    7F. Soulié Fogelman.Data Sciences pour l'Actuariat L’avènement du Big Data 2. … et un marché d’outils logiciels Big Data très complet http://www.slideshare.net/mjft01/big-data- big-deal-a-big-data-101-presentation
  • 8.
    8F. Soulié Fogelman.Data Sciences pour l'Actuariat Le Big Data dans l’Assurance • Un potentiel de valeur – Important & accessible • McKinsey 2011 • … grâce à un métier basé sur l – Des données – & des compétences – adaptées • … mais nécessitant des évolutions significatives – Ex: P&C • Deloitte 2015 http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation http://www2.deloitte.com/us/en/pages/financial-services/articles/2015-property-and-casualty-insurance-outlook.html
  • 9.
    9F. Soulié Fogelman.Data Sciences pour l'Actuariat Quelques exemples d’applications dans l’assurance • Améliorer le ciblage des campagnes marketing – Développer les marchés de niche • Produire de meilleurs modèles – Prévision de sinistralité, de pricing, de détection de la fraude • Développer les nouvelles plateformes de distribution – Améliorer l’interaction client (NBA, temps réel) • Concevoir de nouveaux produits – Usage-based-insurance • Connected xx (car, health, home) – Risques climatiques http://www.data-business.fr/opportunites-applications-big- data-assurance/ http://www.lesechos.fr/idees-debats/sciences-prospective/0204190147952-pourquoi-les- objets-connectes-font-rever-les-compagnies-dassurances-1098284.php
  • 10.
    Le process duprojet Big Data
  • 11.
    11F. Soulié Fogelman.Data Sciences pour l'Actuariat Le process du projet Big Data • Les étapes sont familières aux actuaires • Mais avec quelques grosses différences – La génération de features (variables) – L’approche Machine Learning – La construction du modèle – L’utilisation d’infrastructures différentes (Hadoop, Spark) – La programmation en plus des statistiques Collecte de données Préparation des données Feature engineering Construction du modèle Evaluation Déploiement
  • 12.
    12F. Soulié Fogelman.Data Sciences pour l'Actuariat La génération de features • Augmenter la variété – Calculer, à partir des variables existantes, de nouvelles variables • Significatives pour le métier mais difficiles à apprendre par un modèle – Difficile : coûteux en données, temps de calcul, complexité du modèle • Exemples : ratios, agrégats sur fenêtres glissantes temporelles, géographiques… – Obtenir des variables supplémentaires de sources externes • Open data, partenaires, data providers – La variété augmente (et donc le volume) • Plus les sources sont différentes, mieux c’est • Différentes en sémantique/type (texte, réseau…) • C’est le facteur de succès le plus important – Cela permet de produire des modèles plus simples & plus performants Domingos: http://www.centurion.link/w/_media/programming/a_few_useful_things_to_know_about_machine_learning.pdf
  • 13.
    13F. Soulié Fogelman.Data Sciences pour l'Actuariat La génération de features • Attention: quand le nombre de features augmente – Le nombre d’observations nécessaires pour apprendre le modèle augmente – Le temps de calcul augmente aussi Bottou : http://bigdata2013.sciencesconf.org/conference/bigdata2013/pages/bottou.pdf
  • 14.
    14F. Soulié Fogelman.Data Sciences pour l'Actuariat L’approche Machine Learning • Construire un modèle – L’ensemble d’apprentissage: le modèle apprend (précision) – L’ensemble de validation : le modèle généralise (robustesse) • Le modèle doit être simple Facile Difficile
  • 15.
    15F. Soulié Fogelman.Data Sciences pour l'Actuariat La construction du modèle • Il existe de très nombreux algorithmes de Machine Learning – Il vaut toujours mieux choisir un algorithme simple • “Invariably, simple models and a lot of data trump more elaborate models based on less data” • Il vaut mieux passer du temps sur la génération de variables • Note : les variables générées sont toujours corrélées – L’algorithme choisi doit dont être insensible aux corrélations • Questions importantes – Scalabilité, Explicabilité, Performance – Résistance au bruit / données manquantes (sparsité) / données corrélées – Temps de calcul : Apprentissage / Scoring (généralisation) – Le plus important : les données • Les données ne sont pas produites pour les besoins de l’analyste – Problèmes de représentativité
  • 16.
    16F. Soulié Fogelman.Data Sciences pour l'Actuariat L’utilisation d’infrastructures différentes • La plate-forme Big Data – Couche Analyses • Librairies open-source Scikit-learn; MLlib – Couche données : bases NoSQL – Infrastructure • Serveur In-memory • Cluster hadoop/Spark • Importance de la sécurité / privacy / protection des données personnelles
  • 17.
    17F. Soulié Fogelman.Data Sciences pour l'Actuariat La programmation • La programmation est très massivement nécessaire pour les étapes de préparation des données (80% du temps passé dans un projet) – La collecte des données – Le nettoyage des données – L’alignement des référentiels – Le feature engineering • Souvent en R ou en Python “First-timers are often surprised by how little time in a machine learning project is spent actually doing machine learning” Domingos: http://www.centurion.link/w/_media/programming/a_few_useful_things_to_know_about_machine_learning.pdf
  • 18.
    Data Science pourles actuaires
  • 19.
    19F. Soulié Fogelman.Data Sciences pour l'Actuariat Le data scientist • Ces compétences sont très demandées
  • 20.
    20F. Soulié Fogelman.Data Sciences pour l'Actuariat Le data scientist • Les compétences requises http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
  • 21.
    21F. Soulié Fogelman.Data Sciences pour l'Actuariat Le data scientist • Le but de cette formation – Appui sur l’expertise métier http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
  • 22.
    22F. Soulié Fogelman.Data Sciences pour l'Actuariat Le data scientist “People rarely succeed unless they have fun in what they are doing” Dale Carnegie & à soulie-francoise@orange.fr