Big data f prez formation_datascience_14-sept

Formation
Actuaire Data-Scientist
PROGRAMME
15 Septembre 2014
Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz

Programme
1
4
9
1
2
Séance inaugurale:
révolution numérique;
besoins des entreprises;
cadre réglementaire;
éthique et normes.
3 blocs pédagogiques:
cours et TD
approfondissements et applications aux métiers de l’assurance
réalisation d’un projet individuel sur un sujet actuariel
Rythme: 2 jours par mois comportant à la fois cours et cas pratiques
début du projet à mi-parcours

Programme
A) Éléments logiciels et programmation Python ~ 18h
B) Datamining et programmation R ~ 18h
C) Algorithmique en Machine Learning et mise en situation ~ 24h
D) Fondements théoriques de l’apprentissage statistique ~ 24h
E) Machine Learning distribué et applications ~ 12h
F) Extraction, utilisation et visualisation des données ~ 18h
Approfondissements et études de cas pratiques ~ 40h
* nombre d'heures à titre indicatif
COURS ET TD
APPLICATIONS AUX MÉTIERS DE L ’ASSURANCE

Programme
A) Éléments logiciels et programmation Python ~ 18h
Objectif : Introduction au langage Python et sensibilisation aux
grandeurs informatiques pertinentes.
Eléments de programme :
Initiation à la programmation Python
Programmation objet, classes, héritage
Bibliothèque des méthodes statistiques usuelles
Eléments logiciels pour grandes bases de donnée
Hardware, performance machine et gestion de mémoire
Efficacité d'un algorithme
Complexité, accès mémoire, ordres de grandeur

Programme
B) Datamining et programmation R ~ 18h
Objectif : Présenter les outils classiques d'exploration de données, sous
un angle essentiellement descriptif. Ces cours permettra une remise à
niveau en R, en rappelant, durant les premières heures, les bases de la
programmation en R.
Manipuler des données sous R: données continues, facteurs
(recodification), dates, heures
Bases de la programmation avancée en R
Méthodes non-supervisées
Analyse factorielle et détection de clusters

Programme
C) Algorithmique en machine learning et mise en situation ~ 24h
Objectif : Approche par mise en situation via la participation à un
concours type Kaggle. Présentation des différentes phases : exploration,
sélection/transformation des données, algorithmes d’apprentissage,
visualisation
Etude de cas
Exploration/ Sélection / Transformation / Nettoyage des données
Principaux algorithmes de Machine Learning (contexte de Classification)
K-NN, Régression Logistique, SVM
Forêts aléatoires, Réseaux de Neurones
Boosting, Bagging
Procédures de validation / sélection de modèle
Visualisation
Retour d’expérience et analyse des résultats

Programme
D) Fondements théoriques de l’apprentissage statistique ~ 24h
Objectif : Présenter les fondements mathématiques des principales
méthodes de Machine learning
Théorie de la décision, Perte, risque, risque empirique
Modèle statistique pour la classification binaire, Approches génératives
vs. discriminantes
Machine Learning, Méthodes paramétriques, perceptron, partitionnement
Algorithmes de classification de données massives, Convexification du
risque, boosting et SVM
Méthodes ascendantes et descendantes, Critères AIC et BIC
Régression linéaire: limites et améliorations : Parcimonie. Régression pas
à pas Approche par pénalisation: ridge, lasso... Modèles linéaires
généralisés, Méthodes de régression alternatives, Approche non linéaire:
polynômes locaux, ondelettes Régression PLS et CART

Programme
E) Machine Learning distribué et applications ~ 12h
Objectif : Pour passer à l’échelle, les algorithmes de Machine Learning
vus dans les cours précédents doivent être repensés. Un cadre efficace
est celui des algorithmes distribués où on utilise plusieurs entités de
calculs pour mener à bien l’objectif initial. L’objectif de ce cours sera de
présenter différents exemples d’algorithmes de Machine Learning
distribués
Algorithmes distribués : généralités
Le cas de Map-Reduce
Applications en Machine Learning

Programme
F) Extraction, utilisation et visualisation des données ~ 18h
Objectif : Description des enjeux économiques et sociétaux de la
révolution numérique du Big Data. Présentation des architectures de
bases ou entrepôts de données, ainsi que des techniques d'exploration
associées pour la récolte des données. Sensibilisation aux questions
éthiques sous-jacentes, aux contraintes juridiques européennes et au
rôle de la CNIL. Présentation des principales méthodes de visualisation
des données complexes.
Ecosystème des données massives
SQL vs NoSQL
Anonymisation de données, Protection des données personnelles, enjeux
économiques
Visualisation des données

Programme
APPLICATIONS AUX MÉTIERS DE L’ASSURANCE
Approfondissements et études de cas ~ 40h
Objectif : Présentations de sujets « métier » et mises en situation via des
interventions courtes, et techniques, (2 à 4 h) sur des thématiques
précises.
Exemple :
Cartographie et GPS
Géolocalisation et anonymisation
Traitement de données textuelles
Health monitoring
Détection de fraude
Applications en Génomique
Investissement séquentiel en gestion de portefeuille
...

Programme
APPLICATIONS AUX MÉTIERS DE L’ASSURANCE
Approfondissements et études de cas ~ 40h
Objectif : Présentations de sujets « métier » et mises en situation via des
interventions courtes, et techniques, (2 à 4 h) sur des thématiques
précises.
Exemples :
...
Enchère web
Réseaux de neurone & e-commerce
Calcul du capital économique en grande dimension
Vente d’assurance en ligne
Visualisation de données et réseaux sociaux
Biosécurité
Parallélisation massive pour la simulation Monte Carlo

Programme
* calendrier donné à titre purement indicatif

Réalisation d’un projet
Les participants à la formation réaliseront un projet visant à exhiber
l'apport de ces nouvelles méthodologies statistiques et informatiques
pour la modélisation d'un phénomène actuariel
Projet réalisé sous le tutorat d’un membre du corps enseignant de la
formation
Projet réalisé sur la deuxième moitié de la formation
Rédaction d’un rapport et soutenance devant un jury de membres du
corps enseignant ainsi que l’ensemble de la promotion (sauf conflit trop
important pour cause de confidentialité).

Validation de la formation
Plusieurs examens ou QCMs au cours de la
formation, pour valider l’acquisition de blocs précis
de compétences en data science
Réalisation et soutenance d’un projet mettant en
application les compétences acquises à des
problématiques actuarielles
Obtention du diplôme Actuaire Data Scientist de
l’Institut du Risk Management

Big data f prez formation_datascience_14-sept

Contenu connexe

En vedette

Similaire à Big data f prez formation_datascience_14-sept

Plus de Kezhan SHI

Dernier

Big data f prez formation_datascience_14-sept