Data Sciences pour l'Actuariat
Françoise Soulié Fogelman
Formation Actuaire Data Scientist
Leçon inaugurale
Paris, 16 mars...
2F. Soulié Fogelman. Data Sciences pour l'Actuariat
Agenda
• Big Data & Assurance
• Le process du projet Big Data
• Data S...
Big Data & Assurance
4F. Soulié Fogelman. Data Sciences pour l'Actuariat
Une définition classique
Introduite par Gartner en 2001
Nombre de
vari...
5F. Soulié Fogelman. Data Sciences pour l'Actuariat
Les sources de données – Volume & Variété
http://vesselhead.com/hadoop...
6F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le Big Data est possible aujourd’hui
1. Grâce aux améliorations expone...
7F. Soulié Fogelman. Data Sciences pour l'Actuariat
L’avènement du Big Data
2. … et un marché d’outils logiciels Big Data ...
8F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le Big Data dans l’Assurance
• Un potentiel de valeur
– Important & ac...
9F. Soulié Fogelman. Data Sciences pour l'Actuariat
Quelques exemples d’applications dans l’assurance
• Améliorer le cibla...
Le process du projet
Big Data
11F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le process du projet Big Data
• Les étapes sont familières aux actuai...
12F. Soulié Fogelman. Data Sciences pour l'Actuariat
La génération de features
• Augmenter la variété
– Calculer, à partir...
13F. Soulié Fogelman. Data Sciences pour l'Actuariat
La génération de features
• Attention: quand le nombre de features au...
14F. Soulié Fogelman. Data Sciences pour l'Actuariat
L’approche Machine Learning
• Construire un modèle
– L’ensemble d’app...
15F. Soulié Fogelman. Data Sciences pour l'Actuariat
La construction du modèle
• Il existe de très nombreux algorithmes de...
16F. Soulié Fogelman. Data Sciences pour l'Actuariat
L’utilisation d’infrastructures différentes
• La plate-forme Big Data...
17F. Soulié Fogelman. Data Sciences pour l'Actuariat
La programmation
• La programmation est très massivement nécessaire
p...
Data Science pour les
actuaires
19F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le data scientist
• Ces compétences sont très demandées
20F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le data scientist
• Les compétences requises
http://drewconway.com/zi...
21F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le data scientist
• Le but de cette formation
– Appui sur l’expertise...
22F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le data scientist
“People rarely succeed
unless they have fun in what...
Prochain SlideShare
Chargement dans…5
×

15 03 16_data sciences pour l'actuariat_f. soulie fogelman

12 030 vues

Publié le

Publié dans : Données & analyses
0 commentaire
4 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
12 030
Sur SlideShare
0
Issues des intégrations
0
Intégrations
10 407
Actions
Partages
0
Téléchargements
48
Commentaires
0
J’aime
4
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

15 03 16_data sciences pour l'actuariat_f. soulie fogelman

  1. 1. Data Sciences pour l'Actuariat Françoise Soulié Fogelman Formation Actuaire Data Scientist Leçon inaugurale Paris, 16 mars 2015
  2. 2. 2F. Soulié Fogelman. Data Sciences pour l'Actuariat Agenda • Big Data & Assurance • Le process du projet Big Data • Data Science pour les actuaires
  3. 3. Big Data & Assurance
  4. 4. 4F. Soulié Fogelman. Data Sciences pour l'Actuariat Une définition classique Introduite par Gartner en 2001 Nombre de variables Nombre d’événements / seconde Nombre d’observations x Nombre de variables Largeur Profondeur
  5. 5. 5F. Soulié Fogelman. Data Sciences pour l'Actuariat Les sources de données – Volume & Variété http://vesselhead.com/hadoop-is-a-very-disruptive-technology
  6. 6. 6F. Soulié Fogelman. Data Sciences pour l'Actuariat Le Big Data est possible aujourd’hui 1. Grâce aux améliorations exponentielles du hardware … L’avènement du Big Data http://radar.oreilly.com/2011/08/building-data-startups.html
  7. 7. 7F. Soulié Fogelman. Data Sciences pour l'Actuariat L’avènement du Big Data 2. … et un marché d’outils logiciels Big Data très complet http://www.slideshare.net/mjft01/big-data- big-deal-a-big-data-101-presentation
  8. 8. 8F. Soulié Fogelman. Data Sciences pour l'Actuariat Le Big Data dans l’Assurance • Un potentiel de valeur – Important & accessible • McKinsey 2011 • … grâce à un métier basé sur l – Des données – & des compétences – adaptées • … mais nécessitant des évolutions significatives – Ex: P&C • Deloitte 2015 http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation http://www2.deloitte.com/us/en/pages/financial-services/articles/2015-property-and-casualty-insurance-outlook.html
  9. 9. 9F. Soulié Fogelman. Data Sciences pour l'Actuariat Quelques exemples d’applications dans l’assurance • Améliorer le ciblage des campagnes marketing – Développer les marchés de niche • Produire de meilleurs modèles – Prévision de sinistralité, de pricing, de détection de la fraude • Développer les nouvelles plateformes de distribution – Améliorer l’interaction client (NBA, temps réel) • Concevoir de nouveaux produits – Usage-based-insurance • Connected xx (car, health, home) – Risques climatiques http://www.data-business.fr/opportunites-applications-big- data-assurance/ http://www.lesechos.fr/idees-debats/sciences-prospective/0204190147952-pourquoi-les- objets-connectes-font-rever-les-compagnies-dassurances-1098284.php
  10. 10. Le process du projet Big Data
  11. 11. 11F. Soulié Fogelman. Data Sciences pour l'Actuariat Le process du projet Big Data • Les étapes sont familières aux actuaires • Mais avec quelques grosses différences – La génération de features (variables) – L’approche Machine Learning – La construction du modèle – L’utilisation d’infrastructures différentes (Hadoop, Spark) – La programmation en plus des statistiques Collecte de données Préparation des données Feature engineering Construction du modèle Evaluation Déploiement
  12. 12. 12F. Soulié Fogelman. Data Sciences pour l'Actuariat La génération de features • Augmenter la variété – Calculer, à partir des variables existantes, de nouvelles variables • Significatives pour le métier mais difficiles à apprendre par un modèle – Difficile : coûteux en données, temps de calcul, complexité du modèle • Exemples : ratios, agrégats sur fenêtres glissantes temporelles, géographiques… – Obtenir des variables supplémentaires de sources externes • Open data, partenaires, data providers – La variété augmente (et donc le volume) • Plus les sources sont différentes, mieux c’est • Différentes en sémantique/type (texte, réseau…) • C’est le facteur de succès le plus important – Cela permet de produire des modèles plus simples & plus performants Domingos: http://www.centurion.link/w/_media/programming/a_few_useful_things_to_know_about_machine_learning.pdf
  13. 13. 13F. Soulié Fogelman. Data Sciences pour l'Actuariat La génération de features • Attention: quand le nombre de features augmente – Le nombre d’observations nécessaires pour apprendre le modèle augmente – Le temps de calcul augmente aussi Bottou : http://bigdata2013.sciencesconf.org/conference/bigdata2013/pages/bottou.pdf
  14. 14. 14F. Soulié Fogelman. Data Sciences pour l'Actuariat L’approche Machine Learning • Construire un modèle – L’ensemble d’apprentissage: le modèle apprend (précision) – L’ensemble de validation : le modèle généralise (robustesse) • Le modèle doit être simple Facile Difficile
  15. 15. 15F. Soulié Fogelman. Data Sciences pour l'Actuariat La construction du modèle • Il existe de très nombreux algorithmes de Machine Learning – Il vaut toujours mieux choisir un algorithme simple • “Invariably, simple models and a lot of data trump more elaborate models based on less data” • Il vaut mieux passer du temps sur la génération de variables • Note : les variables générées sont toujours corrélées – L’algorithme choisi doit dont être insensible aux corrélations • Questions importantes – Scalabilité, Explicabilité, Performance – Résistance au bruit / données manquantes (sparsité) / données corrélées – Temps de calcul : Apprentissage / Scoring (généralisation) – Le plus important : les données • Les données ne sont pas produites pour les besoins de l’analyste – Problèmes de représentativité
  16. 16. 16F. Soulié Fogelman. Data Sciences pour l'Actuariat L’utilisation d’infrastructures différentes • La plate-forme Big Data – Couche Analyses • Librairies open-source Scikit-learn; MLlib – Couche données : bases NoSQL – Infrastructure • Serveur In-memory • Cluster hadoop/Spark • Importance de la sécurité / privacy / protection des données personnelles
  17. 17. 17F. Soulié Fogelman. Data Sciences pour l'Actuariat La programmation • La programmation est très massivement nécessaire pour les étapes de préparation des données (80% du temps passé dans un projet) – La collecte des données – Le nettoyage des données – L’alignement des référentiels – Le feature engineering • Souvent en R ou en Python “First-timers are often surprised by how little time in a machine learning project is spent actually doing machine learning” Domingos: http://www.centurion.link/w/_media/programming/a_few_useful_things_to_know_about_machine_learning.pdf
  18. 18. Data Science pour les actuaires
  19. 19. 19F. Soulié Fogelman. Data Sciences pour l'Actuariat Le data scientist • Ces compétences sont très demandées
  20. 20. 20F. Soulié Fogelman. Data Sciences pour l'Actuariat Le data scientist • Les compétences requises http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
  21. 21. 21F. Soulié Fogelman. Data Sciences pour l'Actuariat Le data scientist • Le but de cette formation – Appui sur l’expertise métier http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
  22. 22. 22F. Soulié Fogelman. Data Sciences pour l'Actuariat Le data scientist “People rarely succeed unless they have fun in what they are doing” Dale Carnegie & à soulie-francoise@orange.fr

×