4. 4F. Soulié Fogelman. Data Sciences pour l'Actuariat
Une définition classique
Introduite par Gartner en 2001
Nombre de
variables
Nombre
d’événements /
seconde
Nombre d’observations
x Nombre de variables
Largeur
Profondeur
5. 5F. Soulié Fogelman. Data Sciences pour l'Actuariat
Les sources de données – Volume & Variété
http://vesselhead.com/hadoop-is-a-very-disruptive-technology
6. 6F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le Big Data est possible aujourd’hui
1. Grâce aux améliorations exponentielles du hardware …
L’avènement du Big Data
http://radar.oreilly.com/2011/08/building-data-startups.html
7. 7F. Soulié Fogelman. Data Sciences pour l'Actuariat
L’avènement du Big Data
2. … et un marché d’outils logiciels Big Data très complet
http://www.slideshare.net/mjft01/big-data-
big-deal-a-big-data-101-presentation
8. 8F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le Big Data dans l’Assurance
• Un potentiel de valeur
– Important & accessible
• McKinsey 2011
• … grâce à un métier basé sur l
– Des données
– & des compétences
– adaptées
• … mais nécessitant des évolutions significatives
– Ex: P&C
• Deloitte 2015
http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation
http://www2.deloitte.com/us/en/pages/financial-services/articles/2015-property-and-casualty-insurance-outlook.html
9. 9F. Soulié Fogelman. Data Sciences pour l'Actuariat
Quelques exemples d’applications dans l’assurance
• Améliorer le ciblage des campagnes marketing
– Développer les marchés de niche
• Produire de meilleurs modèles
– Prévision de sinistralité, de pricing, de détection de la fraude
• Développer les nouvelles plateformes de distribution
– Améliorer l’interaction client (NBA, temps réel)
• Concevoir de nouveaux produits
– Usage-based-insurance
• Connected xx (car, health, home)
– Risques climatiques
http://www.data-business.fr/opportunites-applications-big-
data-assurance/ http://www.lesechos.fr/idees-debats/sciences-prospective/0204190147952-pourquoi-les-
objets-connectes-font-rever-les-compagnies-dassurances-1098284.php
11. 11F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le process du projet Big Data
• Les étapes sont familières aux actuaires
• Mais avec quelques grosses différences
– La génération de features (variables)
– L’approche Machine Learning
– La construction du modèle
– L’utilisation d’infrastructures différentes (Hadoop, Spark)
– La programmation en plus des statistiques
Collecte de
données
Préparation
des données
Feature
engineering
Construction
du modèle
Evaluation Déploiement
12. 12F. Soulié Fogelman. Data Sciences pour l'Actuariat
La génération de features
• Augmenter la variété
– Calculer, à partir des variables existantes, de nouvelles variables
• Significatives pour le métier mais difficiles à apprendre par un modèle
– Difficile : coûteux en données, temps de calcul, complexité du modèle
• Exemples : ratios, agrégats sur fenêtres glissantes temporelles,
géographiques…
– Obtenir des variables supplémentaires de sources externes
• Open data, partenaires, data providers
– La variété augmente (et donc le volume)
• Plus les sources sont différentes, mieux c’est
• Différentes en sémantique/type (texte, réseau…)
• C’est le facteur de succès le plus important
– Cela permet de produire des modèles plus simples & plus performants
Domingos: http://www.centurion.link/w/_media/programming/a_few_useful_things_to_know_about_machine_learning.pdf
13. 13F. Soulié Fogelman. Data Sciences pour l'Actuariat
La génération de features
• Attention: quand le nombre de features augmente
– Le nombre d’observations nécessaires pour apprendre le modèle
augmente
– Le temps de calcul augmente aussi
Bottou : http://bigdata2013.sciencesconf.org/conference/bigdata2013/pages/bottou.pdf
14. 14F. Soulié Fogelman. Data Sciences pour l'Actuariat
L’approche Machine Learning
• Construire un modèle
– L’ensemble d’apprentissage: le modèle apprend (précision)
– L’ensemble de validation : le modèle généralise (robustesse)
• Le modèle doit être simple
Facile
Difficile
15. 15F. Soulié Fogelman. Data Sciences pour l'Actuariat
La construction du modèle
• Il existe de très nombreux algorithmes de Machine Learning
– Il vaut toujours mieux choisir un algorithme simple
• “Invariably, simple models and a lot of data trump more elaborate models
based on less data”
• Il vaut mieux passer du temps sur la génération de variables
• Note : les variables générées sont toujours corrélées
– L’algorithme choisi doit dont être insensible aux corrélations
• Questions importantes
– Scalabilité, Explicabilité, Performance
– Résistance au bruit / données manquantes (sparsité) / données
corrélées
– Temps de calcul : Apprentissage / Scoring (généralisation)
– Le plus important : les données
• Les données ne sont pas produites pour les besoins de l’analyste
– Problèmes de représentativité
16. 16F. Soulié Fogelman. Data Sciences pour l'Actuariat
L’utilisation d’infrastructures différentes
• La plate-forme Big Data
– Couche Analyses
• Librairies open-source Scikit-learn; MLlib
– Couche données : bases NoSQL
– Infrastructure
• Serveur In-memory
• Cluster hadoop/Spark
• Importance de la
sécurité / privacy /
protection des
données personnelles
17. 17F. Soulié Fogelman. Data Sciences pour l'Actuariat
La programmation
• La programmation est très massivement nécessaire
pour les étapes de préparation des données (80% du
temps passé dans un projet)
– La collecte des données
– Le nettoyage des données
– L’alignement des référentiels
– Le feature engineering
• Souvent en R ou en Python
“First-timers are often surprised by how little time in a machine
learning project is spent actually doing machine learning”
Domingos: http://www.centurion.link/w/_media/programming/a_few_useful_things_to_know_about_machine_learning.pdf
19. 19F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le data scientist
• Ces compétences sont très demandées
20. 20F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le data scientist
• Les compétences requises
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
21. 21F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le data scientist
• Le but de cette formation
– Appui sur l’expertise métier
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
22. 22F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le data scientist
“People rarely succeed
unless they have fun in what they are doing”
Dale Carnegie
&
à soulie-francoise@orange.fr