From data and information to knowledge : the web of tomorrow - Serge abitboul...
Nouveaux modèles de mutualisation (Olivier Lopez) - SGT2 BigData - Institut des Actuaires
1. BIG DATA SGT2
NOUVEAUX MOD `ELES DE MUTUALISATION
Olivier Lopez
Ensae Paris-Tech & Crest-Ensae, Laboratoire de Finance et d’Assurance,
Centre d’Etudes Actuarielles
Maison des actuaires, 11 mars 2014
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 1 / 18
2. INTRODUCTION
Mod`ele ´economique de l’assurance : repose sur la mutualisation,
la solidarit´e.
La population ´etant constitu´ee de profils de risques h´et´erog`enes,
les mod`eles de tarification reposent sur un ´equilibre entre une
pr´evision la plus fine possible du risque individuel, et une
exp´erience collective du risque.
Cette pr´ediction du risque est effectu´ee `a partir de
caract´eristiques mesur´ees sur l’individu (sinistres pass´es, ˆage,
cat´egorie socio-professionnelle...)
Big Data : opportunit´e d’acc´eder `a un nombre gigantesque de
variables qui permettraient d’acc´eder `a une meilleure
connaissance du risque.
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 2 / 18
3. OBSTACLES, QUESTIONS POS ´EES
Cette utopie (connaissance ”parfaite” du risque de chaque
individu) est-elle r´ealisable, et si oui, en quelle mesure, de quelle
mani`ere ?
Le mod`ele sur lequel elle d´eboucherait est-il viable ?
Le principe de mutualisation sera-t-il toujours respect´e ?
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 3 / 18
4. R´EPONSE DIFF ´ERENCI ´EE
Le ”Big Data” recouvre des situations vari´ees et ces
probl´ematiques peuvent trouver des r´eponses diff´erentes suivant
les diff´erents contextes.
Diff´erents contextes auxquels on peut penser (liste non
exhaustive) :
Assurance auto (”pay as you drive”)
Assurance sant´e (”pay as you live”)
Assurance habitation (”pay as you own”)
Souscription en ligne (fronti`ere avec le marketing ?)
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 4 / 18
5. PLAN DE LA PR ´ESENTATION
1 DIFFICULT ´ES M ´ETHODOLOGIQUES ET NOUVEAUX OUTILS
2 VIABILIT ´E DU SYST `EME
3 D´ERIVES ´EVENTUELLES
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 5 / 18
6. DIFFICULT ´ES M ´ETHODOLOGIQUES ET NOUVEAUX OUTILS
PLAN DE LA PR ´ESENTATION
1 DIFFICULT ´ES M ´ETHODOLOGIQUES ET NOUVEAUX OUTILS
2 VIABILIT ´E DU SYST `EME
3 D´ERIVES ´EVENTUELLES
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 6 / 18
7. DIFFICULT ´ES M ´ETHODOLOGIQUES ET NOUVEAUX OUTILS
DONN ´EES DE GRANDE DIMENSION
Incorporer plus de variables permet d’avoir un mod`ele en th´eorie
plus proche de la r´ealit´e.
Mais si le nombre de param`etres est trop important, leur
estimation sera tr`es mauvaise et l’approche se trouvera
contre-productive.
N´ecessit´e de prendre en compte des m´ethodes statistiques
r´ecentes bas´ees sur la r´eduction de dimension, la parcimonie etc.
M´ethodes de machine learning: permettre d’envisager des
mod`eles moins lin´eaires que les mod`eles classiques.
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 7 / 18
8. DIFFICULT ´ES M ´ETHODOLOGIQUES ET NOUVEAUX OUTILS
PLUSIEURS FAC¸ONS D’ˆETRE ”BIG”
Formalisation math´ematique sommaire :
Y = ce qu’on veut pr´edire (g´en´eralement coˆut de l’assur´e)
X = caract´eristiques d’un individu (contient toute l’information
disponible), X ∈ Rd
.
But : estimer E[Y|X] (i.e. pr´ediction de la valeur de Y `a partir de
l’information donn´ee par X.
Pour l’estimer on dispose d’observations (Y1, X1, ..., Yn, Xn).
Big data version 1 : n est raisonnable, d est ´enorme.
Big data version 2 : n est ´egalement ´enorme.
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 8 / 18
9. DIFFICULT ´ES M ´ETHODOLOGIQUES ET NOUVEAUX OUTILS
DIFF ´ERENCES DE PROBL ´EMATIQUES (EXEMPLES)
Premier cas : (n raisonnable, d >> 1) les donn´ees proviennent
d’un portefeuille d’assur´es comportant n individus, sur lesquels on
a r´ecup´er´e des caract´eristiques diverses et nombreuses.
Dans ce cas, la quantit´e d’information disponible sur un individu
est ”sup´erieure” `a la quantit´e d’information dont on dispose pour
calibrer et/ou valider le mod`ele.
N´ecessit´e de faire le tri entre information pertinente et moins
pertinente.
Deuxi`eme cas : (n >> 1, d >> 1) on peut s’autoriser des
mod`eles plus compliqu´es, car on dispose de plus d’observations
pour les valider. Mais on peut buter sur des probl´ematiques de
temps de calcul.
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 9 / 18
10. DIFFICULT ´ES M ´ETHODOLOGIQUES ET NOUVEAUX OUTILS
DIFF ´ERENCES DE PROBL ´EMATIQUES (EXEMPLES)
Premier cas : (n raisonnable, d >> 1) les donn´ees proviennent
d’un portefeuille d’assur´es comportant n individus, sur lesquels on
a r´ecup´er´e des caract´eristiques diverses et nombreuses.
Dans ce cas, la quantit´e d’information disponible sur un individu
est ”sup´erieure” `a la quantit´e d’information dont on dispose pour
calibrer et/ou valider le mod`ele.
N´ecessit´e de faire le tri entre information pertinente et moins
pertinente.
Deuxi`eme cas : (n >> 1, d >> 1) on peut s’autoriser des
mod`eles plus compliqu´es, car on dispose de plus d’observations
pour les valider. Mais on peut buter sur des probl´ematiques de
temps de calcul.
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 9 / 18
11. DIFFICULT ´ES M ´ETHODOLOGIQUES ET NOUVEAUX OUTILS
DIFF ´ERENCES DE PROBL ´EMATIQUES (EXEMPLES)
Premier cas : (n raisonnable, d >> 1) les donn´ees proviennent
d’un portefeuille d’assur´es comportant n individus, sur lesquels on
a r´ecup´er´e des caract´eristiques diverses et nombreuses.
Dans ce cas, la quantit´e d’information disponible sur un individu
est ”sup´erieure” `a la quantit´e d’information dont on dispose pour
calibrer et/ou valider le mod`ele.
N´ecessit´e de faire le tri entre information pertinente et moins
pertinente.
Deuxi`eme cas : (n >> 1, d >> 1) on peut s’autoriser des
mod`eles plus compliqu´es, car on dispose de plus d’observations
pour les valider. Mais on peut buter sur des probl´ematiques de
temps de calcul.
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 9 / 18
12. DIFFICULT ´ES M ´ETHODOLOGIQUES ET NOUVEAUX OUTILS
MANIPULATION DES MOD `ELES OBTENUS
Le contexte Big Data offre la possibilit´e de produire des mod`eles
avec un grand degr´e de complexit´e.
Ad´equation des mod`eles ?
Comment trouver un compromis entre cette volont´e de produire
un mod`ele suffisamment proche d’une r´ealit´e complexe, et
suffisamment proche pour permettre un pilotage, une analyse etc.
Attitude des souscripteurs ? (hors question de la souscription en
ligne)
Une piste : construction d’indicateurs synth´etiques et
compr´ehensibles `a partir de donn´ees riches.
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 10 / 18
13. VIABILIT ´E DU SYST `EME
PLAN DE LA PR ´ESENTATION
1 DIFFICULT ´ES M ´ETHODOLOGIQUES ET NOUVEAUX OUTILS
2 VIABILIT ´E DU SYST `EME
3 D´ERIVES ´EVENTUELLES
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 11 / 18
14. VIABILIT ´E DU SYST `EME
EFFET HIRSHLEIFER
Dans un monde o`u la connaissance du risque de chaque individu
est parfaite, les bons risques quittent le navire (d´epart vers une
concurrence qui aurait une longueur d’avance).
Asym´etrie d’information : on peut imaginer que seul l’assureur
poss`ede la connaissance du risque, l’assur´e n’ayant qu’une vision
plus vague de son propre risque.
Risque de d´es´equilibre : l’assur´e va vite apprendre `a connaˆıtre
son propre risque en utilisant les mˆemes outils que l’assureur
(quitte `a passer par un interm´ediaire).
Dans un tel contexte, la recherche d’une meilleure connaissance
du risque individuel aboutit `a une position plus dangereuse de
l’assureur en d´et´eriorant son r´esultat suite au d´epart des bons
risques.
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 12 / 18
15. VIABILIT ´E DU SYST `EME
PERTINENCE DES MOD `ELES
Comment ”backtester” la pertinence des variables retenues pour
pr´edire le risque ?
Sant´e : l’utilisation d’objet connect´es permet de mesurer des
constantes que les m´edecins peuvent interpr´eter.
Pay as you drive : on peut sans doute trouver un lien entre les
variables rendant compte du comportement du conducteur et le
risque qu’il ait un accident.
Souscription en ligne : sans doute plus probl´ematique car
1 les variables collect´ees sur l’assur´e ´eclairent-elles le risque ?
2 probl`eme d’un risque qui peut se produire sur un temps long,
´evalu´e `a partir de variables qui peuvent ´evoluer en un temps court.
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 13 / 18
16. VIABILIT ´E DU SYST `EME
ASSURANCE PARAM ´ETRIQUE
Principe : l’assurance porte sur un param`etre dont on estime qu’il
a un lien avec un ´el´ement contre lequel l’assur´e souhaite se
prot´eger.
Exemple : si la quantit´e de pluie tombant dans une zone d´epasse
un certain seuil, on verse un capital `a une collectivit´e locale pour
indemniser les ´eventuels sinistres.
Dans l’exemple pr´ec´edent, l’indemnisation ne tient pas compte
des d´egˆats r´eels li´es `a un ´episode de pluies torrentielles.
Avantage : l’assureur maˆıtrise mieux son risque, puisqu’il peut le
faire porter sur un param`etre sur lequel il a une meilleure maˆıtrise.
Inconv´enient : sous quelles conditions l’assur´e est-il prˆet `a jouer
le jeu ? Que se passe-t-il si le param`etre est trop loin des
pr´eoccupations de l’assur´e ?
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 14 / 18
17. D´ERIVES ´EVENTUELLES
PLAN DE LA PR ´ESENTATION
1 DIFFICULT ´ES M ´ETHODOLOGIQUES ET NOUVEAUX OUTILS
2 VIABILIT ´E DU SYST `EME
3 D´ERIVES ´EVENTUELLES
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 15 / 18
18. D´ERIVES ´EVENTUELLES
UTILISATION DU BIG DATA POUR CONTOURNER LA
L ´EGISLATION
Le l´egislateur interdit l’utilisation de certaines variables
discriminantes.
Une tentation est d’essayer de reconstruire, via l’information
disponible sur l’individu, des caract´eristiques auxquelles on n’a
pas le droit d’acc´eder, pour ensuite ˆetre `a mˆeme de les utiliser.
Peut porter atteinte au principe de mutualisation et de solidarit´e
en excluant des cat´egories de population de l’assurance, ou en
majorant leur prime sur des crit`eres qui ne sont pas souhaitables.
Attitude face `a de telles pratiques ? D´etection de tels
comportements ? Cons´equences pour l’ensemble du march´e ?
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 16 / 18
19. D´ERIVES ´EVENTUELLES
EXC `ES DE CONFIANCE
Aussi pr´ecise que peuvent ˆetre les m´ethodes utilis´ees, la
survenance d’un sinistre reste un ´el´ement al´eatoire.
La variabilit´e du r´esultat est d’autant plus grandes que les classes
de risque obtenues sont petites.
On peut imaginer que les r´esultats dans chacune de ces poches
finissent par se compenser, mais ceci est loin d’ˆetre ´evident
(notamment si on imagine des classes de risques petites o`u les
entr´ees-sorties peuvent ˆetre importantes vis-`a-vis de l’effectif
g´en´eral).
Si l’assureur poss`ede une confiance excessive en ses mod`eles du
fait de la quantit´e d’information qu’il aura utilis´ee pour les
construire, il ne se couvrira pas suffisamment contre des mauvais
r´esultats.
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 17 / 18
20. D´ERIVES ´EVENTUELLES
OBJECTIFS DU SGT2
Identifier les outils pertinents pour :
1 saisir l’opportunit´e du Big Data et am´eliorer la connaissance et le
suivi de son risque par l’assureur;
2 tenir compte des contraintes qui permettent d’aboutir `a un syst`eme
de mutualisation viable.
Formaliser scientifiquement aussi pr´ecis´ement que possible les
attentes des acteurs de l’assurance face au Big Data pour
proposer des pistes de r´esolution de leurs probl´ematiques.
Anticiper l’impact des ´evolutions techniques sur le march´e et
r´eciproquement.
O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 18 / 18