Page 1 De 1
Mémoire présenté le :
pour l’obtention du Diplôme Universitaire d’actuariat de l’ISFA
et l’admission à l’Insti...
Résumé
Dans cette étude, nous nous intéressons à la tarification des garanties frais de santé
du portefeuille santé expatri...
Abstract
In this study, we focus on the pricing of expatriates health portfolio of AXA Solutions
Collectives administrated...
Remerciements
Mes premiers remerciements vont à la DTMC 7
dirigée par Lucie Taleyson et à mon
directeur de mémoire Françoi...
Table des matières
Introduction 7
1 Le contexte 9
1.1 L’organisation . . . . . . . . . . . . . . . . . . . . . . . . . . ....
TABLE DES MATIÈRES TABLE DES MATIÈRES
3.3.1 La probabilité de consommer dans l’année . . . . . . . . . . . . . . 35
3.3.2 ...
TABLE DES MATIÈRES TABLE DES MATIÈRES
5.4.1 Estimation des probabilités de consommation : Peu d’impact de la
corrélation ....
Introduction
Dès les années 1960, les assureurs commencent à s’intéresser au marché de la pro-
tection sociale des expatri...
INTRODUCTION
tefeuille MSH 11
. Ces données sont alors à intégrer dans la tarification pour mieux rendre
compte de la réali...
Chapitre 1
Le contexte
1.1 L’organisation
Selon le classement Interbrand 2013, AXA est la première marque mondiale d’assu-...
1.2. L’o re santé expatriés d’AXA Solutions collectives
1.2 L’o re santé expatriés d’AXA Solutions collec-
tives
La gestio...
1.4. Revue bibliographique
relatif à cette méthode augmente cependant avec le temps car l’exposition peut changer
et les c...
1.4. Revue bibliographique
1.4.2 Les mémoires d’actuaire
Nous citons deux mémoires dans lesquelles ont été abordées 2 méth...
1.4. Revue bibliographique
une modélisation temporelle des données de sinistralité, ce qui permet l’implémentation
de modè...
Chapitre 2
Le portefeuille MSH
Dans ce chapitre, nous décrivons le portefeuille MSH 1
qui est l’un des courtier-
gestionna...
2.1. Les données
Au delà des erreurs humaines possibles lors de la saisie de certaines informations, l’un
des principaux d...
2.1. Les données
et par dimension chronologique l’évolution de ces données dans le temps. Les données en
forme de panel so...
2.2. Statistiques descriptives
entreprise à une police mère. Les adhérents ont des ayant droits que l’on retrouve
dans la ...
2.2. Statistiques descriptives
Evolution des e ectifs
Figure 2.2 – Evolution des e ectifs du portefeuille MSH de 2006 à 20...
2.2. Statistiques descriptives
et près de 43% des bénéficiaires du portefeuille sont adhérents (les autres étant leurs ayan...
2.2. Statistiques descriptives
Figure 2.5 – Ages moyens des bénéficiaire du portefeuille MSH
Figure 2.6 – Principaux pays d...
2.2. Statistiques descriptives
Figure 2.7 – Nationalités des expatriés du portefeuille MSH
2.2.2 La consommation médicale ...
2.2. Statistiques descriptives
• Autres remboursements : Il s’agit des remboursements e ectués par des orga-
nismes autre ...
2.2. Statistiques descriptives
Figure 2.10 – La sinistralité extrême dans les 10 premiers pays d’expatriation
Les statisti...
2.3. Dérive de la consommation médicale du portefeuille MSH
2.3 Dérive de la consommation médicale du porte-
feuille MSH
D...
2.3. Dérive de la consommation médicale du portefeuille MSH
• f constante : Cela reviendrais à prendre an = bn = 0 pout to...
2.3. Dérive de la consommation médicale du portefeuille MSH
f(x + 1) = (1 + r) ◊ f(x) …
f(x + 1)
f(x)
= (1 + r) = Cte
, x ...
2.3. Dérive de la consommation médicale du portefeuille MSH
La figure 2.11a représente l’évolution de la dérive de la conso...
2.3. Dérive de la consommation médicale du portefeuille MSH
(a) Dérive globale (b) Dérive par catégorie
Figure 2.12 – Déri...
2.3. Dérive de la consommation médicale du portefeuille MSH
Evolution de l’exposition
Les estimations de dérive que nous e...
2.3. Dérive de la consommation médicale du portefeuille MSH
souscription. Ils sont ensuite révisés chaque année au regard ...
Chapitre 3
La démarche de tarification
Dans ce chapitre, nous nous intéressons à la démarche adoptée pour parvenir à
l’étab...
3.1. Les variables tarifaires
Table 3.2 – Listes des potentielles variables explicatives
Variables Description
sexe Sexe d...
3.2. Une première approche de tarification possible : Fréquence ◊ Coût moyen
En intégrant un e et d’interaction sexe ◊ pays...
3.3. Une seconde approche de tarification possible : Probabilité de consommer ◊ Charge
de consommation
3.2.3 La prime pure
...
3.3. Une seconde approche de tarification possible : Probabilité de consommer ◊ Charge
de consommation
modélisation de la p...
3.4. Comment tenir compte des franchises et plafonds contractuels dans la tarification ?
E[C] = E
Ë
IND ◊ C+
È
= Pr(IND = 1...
3.4. Comment tenir compte des franchises et plafonds contractuels dans la tarification ?
dans la tarification. L’une privilé...
3.4. Comment tenir compte des franchises et plafonds contractuels dans la tarification ?
L’espérance mathématique de ce ris...
Chapitre 4
Les modèles linéaires généralisés
pour la tarification
Dans ce chapitre, nous présentons queques éléments théori...
4.1. Le modèle linéaire gaussien : Un modèle souvent peu adapté aux problématiques
assurantielles
• X =
Q
c
c
c
c
a
1 xt
1...
4.1. Le modèle linéaire gaussien : Un modèle souvent peu adapté aux problématiques
assurantielles
Les équations normales p...
4.2. Le choix des modèles linéaires généralisés
Un test de significativité
Pour tester la significativité de la jeme
variabl...
4.2. Le choix des modèles linéaires généralisés
Les résultats des deux méthodes d’estimation sont repris dans la figure 4.1...
4.2. Le choix des modèles linéaires généralisés
Cette section s’appuie sur le chapitre 9 de [Denuit & Charpentier(2005)], ...
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE
Prochain SlideShare
Chargement dans…5
×

Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE

87 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
87
Sur SlideShare
0
Issues des intégrations
0
Intégrations
23
Actions
Partages
0
Téléchargements
6
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Memoire_Actuaire_Ahmed_Tidiane_DIOMANDE

  1. 1. Page 1 De 1 Mémoire présenté le : pour l’obtention du Diplôme Universitaire d’actuariat de l’ISFA et l’admission à l’Institut des Actuaires Par : Ahmed Tidiane DIOMANDE Titre : Tarification de garanties santé liées à un portefeuille d'expatriés Confidentialité : NON OUI (Durée : 1 an 2 ans) Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus. Membres présents du jury de l’IA Signature Entreprise Nom : AXA France Signature : Membres présents du jury de l’ISFA Directeur de mémoire en entreprise Nom : M. François BERGER Signature : Invité Nom : Signature : Autorisation de publication et de mise en ligne sur un site de diffusion de documents actuariels (après expiration de l’éventuel délai de confidentialité) Signature du responsable entreprise Secrétariat : Signature du candidat Mme Christine DRIGUZZI Bibliothèque : Mme Patricia BARTOLO
  2. 2. Résumé Dans cette étude, nous nous intéressons à la tarification des garanties frais de santé du portefeuille santé expatriés d’AXA Solutions Collectives géré par MSH 1 . Une précé- dente étude datant de 2006 avait permis d’établir des normes de tarification par applica- tion de la méthode Fréquence ◊ Coût moyen déterministe. Les normes tarifaires ont été ensuite mises à jour d’une année de souscription à une autre par intégration de taux de dérive de la consommation médicale appliqués aux tarifs de 2006. Le biais relatif à cette approche augmentant avec le temps, nous proposons dans ce mémoire une méthode de tarification basée sur la théorie des modèles linéaires généralisés (GLM 2 ). La stabilité de ces modèles sur les échantillons restreints et la souplesse qu’ils o rent en terme de prédic- tion ont été préférées aux perspectives o ertes par le modèle de tarification déterministe. Le modèle implémenté est le modèle Probabilité de consommation ◊ Charge annuelle de consommation. La probabilité de consommer dans une année de souscription est estimée à l’aide de régressions logistiques et la charge annuelle moyenne de consommation par des régressions log-gamma. En appliquant la théorie liée aux GLM, nous illustrons l’intégra- tion de franchises et de plafonds de garanties contractuels dans la tarification par le calcul d’espérances tronquées. En outre, les données sur lesquelles l’étude a été e ectuée sont relatives aux années de survenance allant de 2006 à 2012. Nous sommes donc en présence de données répétées associées à la consommation d’individus présents dans le portefeuille pendant plus d’une année. Une comparaison des résultats des GLM supposant l’indépen- dance entre les réalisations temporelles associées à ces individus et les méthodes GEE 3 tenant compte de la corrélation qui peut exister est e ectuée. Enfin, ne disposant pas toujours de données su santes pour la tarification dans certains pays d’expatriation, une classification par k-moyennes est e ectuée afin de pouvoir associer ces pays à des zones que nous savons tarifer. Mots-clés : Expatriés, Santé, Dérive de la consommation médicale, Modèles linéaires gé- néralisés, Régression logistique, Régression log-gamma, Loi gamma, Espérance tronquée, Equations d’estimation généralisées, Classification k-moyennes. 1. Mobility Saint Honoré 2. Generalized Linear Models 3. Generalized Estimating Equations 1
  3. 3. Abstract In this study, we focus on the pricing of expatriates health portfolio of AXA Solutions Collectives administrated by MSH 4 . In a previous study from 2006, Frequency ◊ Average cost deterministic method was implemented for the pricing of health benefits related to this portfolio. To update the 2006 prices from an underwriting year to another, a medical inflation was applied on the 2006 basis prices. However, the bias related to this method increases with the time. In this paper a pricing method based on Generalized Linear Models (GLM 5 ) theory is presented. The stability of theses models on small samples and the flexibility they o er in terms of prediction have been preferred to the possibilities o ered by the deterministic pricing model. In the implemented model we estimate a probability to have a claim during an underwriting year and the average annual cost per insured. The probability is estimated by logistic regressions and the average annual cost by log-gamma regressions. With the theory related to GLM, we show how to take into account proportional deductible and limits included in some contracts by computing expected values on truncated gamma distributions. In addition, the data on which the study was conducted go from occurrence year 2006 to 2012. In other words we deal with repeated data related to individuals being insured during more than a year. A comparison of the results of GLM assuming the independence between the annual claim history of these individuals and GEE 6 methods taking into account the correlation that may exist is performed. Finally, since we don’t always have large sample set of data for pricing in some expatriates countries, a k-means clustering is performed in order to link these countries to cluster for which we know how to price. Keywords : Expatriates, Health insurance, Medical Inflation, Generalized Linear Models, logistic regression, log-gamma regression, truncated gamma distribution, Generalized es- timating equations, k-means clustering. 4. Mobility Saint Honoré 5. Generalized Linear Models 6. Generalized Estimating Equations 2
  4. 4. Remerciements Mes premiers remerciements vont à la DTMC 7 dirigée par Lucie Taleyson et à mon directeur de mémoire François Berger pour son encadrement et sa disponibilité. Merci à Maryam Salehi et à son équipe au sein de laquelle cette étude a été réalisée. Je tiens à remercier Solène Durieux pour son implication et ses nombreuses relectures. Je remercie également mon tuteur académique Pierre Thérond pour ses conseils avisés. Merci à Pierre Ottenwaelter et à Ludovic Proust pour leur suivi et leur disponibilité. Merci enfin à Philippe François pour son soutien et sa confiance. 7. Direction Technique et Marketing Collectives, AXA France 3
  5. 5. Table des matières Introduction 7 1 Le contexte 9 1.1 L’organisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.2 L’o re santé expatriés d’AXA Solutions collectives . . . . . . . . . . . . . . 10 1.3 La problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3.1 L’outil de tarification existant . . . . . . . . . . . . . . . . . . . . . 10 1.3.2 L’objet du mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4 Revue bibliographique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4.1 Les références internes . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4.2 Les mémoires d’actuaire . . . . . . . . . . . . . . . . . . . . . . . . 12 1.4.3 Les ouvrages et articles . . . . . . . . . . . . . . . . . . . . . . . . . 13 2 Le portefeuille MSH 14 2.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.1.1 Traitement des données et hypothèses . . . . . . . . . . . . . . . . . 14 2.1.2 Les bases exploitables . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2 Statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2.1 Les assurés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2.2 La consommation médicale et les niveaux de remboursement . . . . 21 2.3 Dérive de la consommation médicale du portefeuille MSH . . . . . . . . . . 24 2.3.1 Modèle de régression exponentiel pour l’estimation de la dérive . . . 24 2.3.2 Résultats obtenus sur le portefeuille globale . . . . . . . . . . . . . 26 2.3.3 Zoom sur Singapour . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.3.4 Le suivi de la sinistralité et de la rentabilité portefeuille . . . . . . . 29 3 La démarche de tarification 31 3.1 Les variables tarifaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.1.1 Les variables d’intérêt et les variables explicatives . . . . . . . . . . 31 3.1.2 L’année de soin comme variable explicative et la corrélation tempo- relle des observations . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.1.3 Les interactions entre variables explicatives . . . . . . . . . . . . . . 32 3.2 Une première approche de tarification possible : Fréquence ◊ Coût moyen . 33 3.2.1 La fréquence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2.2 Le coût moyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2.3 La prime pure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.2.4 Limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.3 Une seconde approche de tarification possible : Probabilité de consommer ◊ Charge de consommation . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4
  6. 6. TABLE DES MATIÈRES TABLE DES MATIÈRES 3.3.1 La probabilité de consommer dans l’année . . . . . . . . . . . . . . 35 3.3.2 La charge annuelle de consommation dans l’année . . . . . . . . . . 35 3.3.3 La prime pure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.3.4 Le choix de cette approche . . . . . . . . . . . . . . . . . . . . . . . 36 3.4 Comment tenir compte des franchises et plafonds contractuels dans la ta- rification ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.4.1 2 méthodes possibles : Arbitrage entre biais et volatilité . . . . . . . 36 3.4.2 La méthode retenue . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.4.3 La prime pure en présence de plafond et franchise contractuels . . . 37 4 Les modèles linéaires généralisés pour la tarification 39 4.1 Le modèle linéaire gaussien : Un modèle souvent peu adapté aux problé- matiques assurantielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 4.1.1 La formalisation du modèle . . . . . . . . . . . . . . . . . . . . . . 39 4.1.2 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . 40 4.1.3 Validation du modèle et inférence statistique . . . . . . . . . . . . . 41 4.2 Le choix des modèles linéaires généralisés . . . . . . . . . . . . . . . . . . . 42 4.2.1 Pourquoi un GLM ? . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.2.2 La première généralisation du modèle linéaire classique : les lois de la famille exponentielle comme loi pour la variable réponse . . . . . 44 4.2.3 La deuxième généralisation du modèle linéaire classique : la fonction de lien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.2.4 La formalisation du modèle . . . . . . . . . . . . . . . . . . . . . . 47 4.2.5 Equations de vraisemblance et estimation des paramètres . . . . . . 48 4.2.6 La validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . 49 4.2.7 Inférence statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.3 La modélisation de la probabilité de consommer dans l’année . . . . . . . . 52 4.3.1 Intuition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.3.2 Introduction d’une variable latente pour la modélisation . . . . . . 53 4.3.3 Choix de la régression logistique . . . . . . . . . . . . . . . . . . . . 53 4.4 La modélisation de la charge annuelle de consommation . . . . . . . . . . . 55 4.4.1 Le choix de la loi gamma . . . . . . . . . . . . . . . . . . . . . . . . 55 4.4.2 Choix du lien log . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.4.3 La régression log-gamma . . . . . . . . . . . . . . . . . . . . . . . . 56 5 Applications 58 5.1 La tarification d’un acte classique : La pharmacie . . . . . . . . . . . . . . 58 5.1.1 Modélisation de la probabilité de consommer . . . . . . . . . . . . . 58 5.1.2 Modélisation de la charge annuelle . . . . . . . . . . . . . . . . . . 60 5.1.3 Les tarifs projetés . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.2 Zonage et tarification : Les verres optiques . . . . . . . . . . . . . . . . . . 64 5.2.1 Le zonage des pays d’expatriation . . . . . . . . . . . . . . . . . . . 64 5.2.2 Modélisation de la probabilité de consommer . . . . . . . . . . . . . 65 5.2.3 Modélisation de la charge annuelle . . . . . . . . . . . . . . . . . . 67 5.2.4 Les tarifs projetés . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.3 L’intégration des plafonds et des franchises en pratique . . . . . . . . . . . 71 5.3.1 Formalisation mathématique et intuition . . . . . . . . . . . . . . . 71 5.3.2 Loi gamma et espérance tronquée pour la tarification . . . . . . . . 71 5.4 Les équations d’estimation généralisées et la prise en compte de la corrélation 73 Ahmed Tidiane DIOMANDE 5/96
  7. 7. TABLE DES MATIÈRES TABLE DES MATIÈRES 5.4.1 Estimation des probabilités de consommation : Peu d’impact de la corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 5.4.2 Choix du modèle avec corrélation pour l’estimation des charges de consommation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 Conclusion 78 A Classification non supervisée 80 A.1 La notion de distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 A.2 La classification ascendante hiérarchique CAH . . . . . . . . . . . . . . . . 81 A.3 Un algorithme de partitionnement : la méthode k-means . . . . . . . . . . 82 B La méthode GEE pour la prise en compte de la dimension chronologique des données de panel 83 B.1 Rappel du contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 B.2 Prise en compte de la dépendance . . . . . . . . . . . . . . . . . . . . . . . 83 B.2.1 Les équations d’estimation généralisées . . . . . . . . . . . . . . . . 83 B.2.2 Les structures de corrélation . . . . . . . . . . . . . . . . . . . . . . 85 B.2.3 Choix de la meilleure structure de corrélation . . . . . . . . . . . . 86 C Backtesting et régression logistique 88 C.1 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 C.2 Courbe ROC et indice AUC . . . . . . . . . . . . . . . . . . . . . . . . . . 89 D Tables annexes 90 D.1 Croisement des âges et des sexes . . . . . . . . . . . . . . . . . . . . . . . . 90 D.2 Comparaison GEE - GLM : Les matrices de corrélation estimées sur l’acte de pharmacie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 Bibliographie 92 Table des figures 94 Liste des tableaux 96 Ahmed Tidiane DIOMANDE 6/96
  8. 8. Introduction Dès les années 1960, les assureurs commencent à s’intéresser au marché de la pro- tection sociale des expatriés. Il s’agit dans un premier temps de répondre aux besoins des multinationales, des ONG ou encore des ambassades, désireuses d’o rir des couvertures à leurs salariés en mobilité internationale. Le phénomène a connu un véritable essor dans les années 1980 avec la mondialisation. Le marché des expatriés est depuis en constante évolution, tant au niveau des besoins de couverture que des acteurs investissant cette niche. Au départ il était principalement question d’expatriation mais aujourd’hui les sa- lariés travaillant à l’international peuvent être classés en 3 catégories : • les expatriés : Salariés français en poste fixe dans un pays étranger qui ne relèvent plus du régime obligatoire de la Sécurité Sociale, • les TCN 8 : Salariés étrangers d’une entreprise française, expatriés dans un pays autre que leur pays d’origine, • les détachés : Salariés à l’étranger pour une durée limitée restant a liés au régime général de la sécurité sociale. Les salariés des deux premières catégories ne sont pas a liés au régime général de la Sé- curité Sociale et peuvent adhérer à la CFE 9 afin d’avoir une couverture identique à celle du régime de base français. Les compagnies d’assurance proposent ensuite des contrats en complément des régimes de base ou des contrats dits au premier euro afin d’optimiser la couverture des salariés en mobilité. Le groupe AXA est leader sur le marché de la protection sociale des expatriés français. La gestion de l’o re "santé expatriés" d’AXA Solutions collectives, entité opérationnelle d’AXA France, est déléguée majoritairement à des courtiers gestionnaires. En 2006 la DTMC 10 a mené une étude basée sur des données issues d’extractions e ectuées par ces délégataires. Il s’agissait de données d’exposition et de consommation médicale relatives la période [2003, 2005]. Une grille tarifaire a ainsi pu être établie en utilisation l’approche de tarification Fréquence ◊ Coût moyen déterministe pour l’année de souscription 2006 ([AXA(2006)]). Pour les souscriptions d’a aires nouvelles postérieures à 2006, des taux de dérive ont été intégrés dans la tarification afin de prendre en compte l’inflation médicale. Le biais relatif à cette approche augmente cependant avec le temps et l’évolution des caractéristiques de la population assurée. En juillet 2013, la DTMC a reçu les données relatives à la période [2006, 2012] du por- 8. Third Country National 9. Caisse des Français de l’Etranger 10. Direction Technique et Marketing Collective anciennement Direction Technique Collective d’AXA France Solutions 7
  9. 9. INTRODUCTION tefeuille MSH 11 . Ces données sont alors à intégrer dans la tarification pour mieux rendre compte de la réalité récente du portefeuille en termes d’exposition et de sinistralité. Dans ce mémoire, nous proposons une démarche de tarification reposant sur la modélisation d’une probabilité et d’une charge annuelle de consommation médicale par assuré. Nous utilisons la théorie des modèles linéaires généralisés (GLM 12 ) pour mesurer la sinistralité moyenne en fonction de di érentes caractéristiques de la population assurée. Ces modèles permettent d’e ectuer des projections et ont l’avantage d’être stables sur les échantillons restreints. Nous e ectuerons dans un premier temps une brève présentation de l’organisation du groupe AXA et de l’o re "santé expatriés" d’AXA Solutions Collectives. Le portefeuille MSH sera ensuite décrit par le biais de statistiques descriptives et de la modélisation de la dérive de la consommation médicale associée. Puis la démarche de tarification et la théo- rie des modèles linéaires généralisés seront présentées. L’application de cette théorie sera illustrée avec des exemples de tarification de quelques postes médicaux. Cette illustration pratique incluera : • La modélisation des probabilités et charges annuelles de consommation pour la tarification selon le pays d’expatriation, • Un zonage des pays d’expatriation selon les coûts et la dérive de la consommation médicale par la méthode de classification des k-moyennes, • La prise en compte des franchises et des plafonds associés à certains contrats par l’intermédiaire du calcul d’espérances tronquées de lois gamma, • La comparaison du modèle utilisée avec l’une de ses extensions qui intégre la corrélation relative à l’utilisation de plusieurs années d’observation. 11. Mobility Saint Honoré - Il s’agit de l’un des courtiers a qui le groupe a délégué la gestion de son o re 12. Generalized Linear Models, Modèles linéaires généralisés Ahmed Tidiane DIOMANDE 8/96
  10. 10. Chapitre 1 Le contexte 1.1 L’organisation Selon le classement Interbrand 2013, AXA est la première marque mondiale d’assu- rance pour la 5eme année consécutive. Le groupe compte près de 160, 000 collaborateurs dans 57 pays répondant aux besoins de 102 millions de clients à travers le monde. Leader de l’assurance en France, AXA France est l’entité historique du groupe AXA avec 33, 000 collaborateurs au service de 9 millions de clients. Cette entreprise regroupe 3 en- tités opérationnelles parmi lesquelles figure AXA Solutions Collectives, dernière-née des entités d’AXA France en 2011. Issue des activités "Entreprises" et dédiée à la distribution en grande partie par les courtiers spécialistes, AXA Solutions Collectives est une entité qui propose des solutions d’Epargne salariale, Retraite, Santé, Prévoyance, Dépendance à destination des grandes sociétés. Pour accompagner les entreprises à l’international, AXA Solutions Collectives se posi- tionne sur le marché de la Santé et Prévoyance des expatriés et des salariés locaux. L’en- tité propose par ailleurs aux entreprises internationales, des solutions financières globales ainsi que des solutions multi-locales en Santé et Prévoyance via son réseau MAXIS Global benefits Networks. Dans le cadre de son o re santé expatriés, les a aires sont tarifées par les équipes de souscription de la direction International Employee Benefits (IEB). Il s’agit essentiellement de tarifications faites "sur mesure" en tenant compte des caractéristiques du portefeuille étudié. Les équipes de souscription utilisent pour ce faire un logiciel de tarification développé par la Direction Technique et Marketing Collectives (DTMC), di- rection au sein de laquelle à été menée la présente étude. La DTMC est en charge : • de l’établissement des normes de tarification et du développement d’outils associés, • de la réalisation d’études actuarielles pour assurer le suivi technique et la renta- bilité des produits en liaison avec les équipes opérationnelles, • de la mise en place de nouveaux produits en relation avec les directions d’activité comme la direction IEB, • de la mise en place, du suivi et de la gestion de la réassurance et de la coassurance avec di érentes compagnies, • de la tarification d’a aires hors normes ou de produits sur mesure sortant du cadre commun de souscription, • du développement du marketing stratégique et opérationnel en relation avec les directions d’activités. 9
  11. 11. 1.2. L’o re santé expatriés d’AXA Solutions collectives 1.2 L’o re santé expatriés d’AXA Solutions collec- tives La gestion de l’o re santé expatriés d’AXA Solutions Collectives est déléguée princi- palement à deux courtier-gestionnaires : MSH et HENNER. Cette o re permet d’assurer dans le monde entier des collèges de collaborateurs expatriés ou détachés de di érentes entreprises, françaises principalement. Ces collaborateurs peuvent être détachés, avec un maintien du contrat de travail français, et donc relever toujours de la Sécurité Sociale française, ou expatriés / TCN 1 ne relevant plus de la sécurité sociale, avec un besoin d’assurance au premier euro ou en complément de la Caisse des Français de l’Etranger (CFE). Le remboursement dit "au premier euro" correspond à un remboursement dès les premiers frais engagés par l’assuré. Il n’y a généralement pas de franchise en revanche des plafonds peuvent exister comme nous le verront un peu plus loin. La couverture "en complément de la CFE" correspond à une intervention d’AXA en complément des remboursements ef- fectués par la CFE, qui est le régime facultatif de sécurité sociale des expatriés. En santé ce régime possède en général les mêmes bases de remboursement que la Sécurité Sociale et prend aussi en charge des séjours temporaires en France. Adhérer à la CFE permet de garder le lien avec le régime général de la sécurité sociale, on parle alors de "coordination". Cette adhésion permet d’une part de ne pas avoir de délai de carence au départ du salarié en mobilité qui pourra aussi être directement réintégrer au régime général à son retour en France. Elle permet d’autre part un suivi de sa retraite, la CFE reversant régulièrement les cotisations perçues à la CNAV 2 qui met à jour le compte individuel de l’assuré. A l’heure actuelle, les cotisations sont calculées en fonction du profil des collaborateurs de l’entreprise et du pays d’expatriation. L’objet de ce mémoire est de mettre à jour et d’af- finer les tarifs associés à cette o re en e ectuant une étude approfondie de la sinistralité et de l’exposition du portefeuille d’expatriés géré par MSH. 1.3 La problématique 1.3.1 L’outil de tarification existant Courant 2006 une étude à été menée afin d’établir une grille de tarification de l’o re santé expatriés. Le périmètre de l’étude comprenait les données HENNER et MSH sur la période allant de 2003 à 2006. Lors de cette étude, des fréquences et coûts moyens ont été calculés de façon déterministe en ramenant les frais réels au nombre d’actes (coût moyen) et les nombres d’actes à l’exposition (fréquence) par poste médicaux et par sexe. Des correctifs on ensuite été calculés pour proposer des tarifs par zone/pays d’expatriation, par tranche d’âge et pour intégrer des plafonds et franchises dans la tarification. Les résultats de cette étude ont été intégrés dans un logiciel de tarification qui est mis à jour pour les souscriptions postérieures à 2006 par l’intermédiaire du calcul de taux de dérive de la consommation médicale en gardant les bases de tarification de 2006. Le biais 1. Third Country Nationals 2. Caisse Nationale d’Assurance Vieillesse Ahmed Tidiane DIOMANDE 10/96
  12. 12. 1.4. Revue bibliographique relatif à cette méthode augmente cependant avec le temps car l’exposition peut changer et les comportements aussi. Il est pour cela nécessaire de mener de nouvelles études selon la disponibilité de nouvelles données. 1.3.2 L’objet du mémoire La réalisation d’une étude complète avec des données de sinistralité et d’exposition récentes s’avère indispensable pour s’assurer du fait que les tarifs soient en ligne avec la réalité du portefeuille et assurer son suivi. Une extraction annuelle des bases de données de gestion est cependant coûteuse en temps et il se pose donc un problème de disponibilité des données devant servir à la revue régulière des normes tarifaires. La DTMC a reçu en Juillet 2013 les données relatives à la sinistralité et à l’exposition du portefeuille MSH sur la période [2006, 2012]. L’objet de ce mémoire est de mettre à jour et d’a ner la grille tarifaire courante en proposant une méthode de tarification des garanties associées à l’o re santé expatriés d’AXA Solutions Collectives. Avant de commencer l’analyse technique, il est intéressant de dresser un panorama des études existantes liées au sujet étudié, et des références bibliographiques ayant aidé à la rédaction de ce mémoire. 1.4 Revue bibliographique 1.4.1 Les références internes Dans son étude, [Laouni(2007)] s’intéresse à la tarification du portefeuille HENNER en complément de la Caisse des Français de l’Etranger (CFE). L’étude porte sur la si- nistralité et l’exposition de 2004 à 2006. L’approche de tarification mise en oeuvre est l’approche fréquence ◊ coût moyen déterministe. En fonction d’éléments de segmentation comme le poste médical, l’âge, le sexe, la prime pure au premier euro est obtenue comme suit : Primepure = NombredÕ actes Exposition ◊ Fraisréels NombredÕactes = Fréquence ◊ Coûtmoyen (1.1) La tarification en complément de la CFE consiste ensuite à multiplier la fréquence par le coût moyen des frais réels auquel on soustrait le montant de remboursement moyen de la CFE. Une fois les primes pures obtenues par âge, une interpolation de Lagrange est utilisée en des âges choisis afin de lisser les primes obtenues par âge. Au delà des informations relatives à l’utilisation du logiciel de tarification existant, [AXA(2006)] reprend les éléments de l’étude de[Laouni(2007)] et d’une étude similaire sur le portefeuille MSH sur la période allant de 2003 à 2005. Les primes pures par poste y sont notamment reprises et permettent une comparaison des sinistralités moyennes antérieure et postérieure à 2006. Ahmed Tidiane DIOMANDE 11/96
  13. 13. 1.4. Revue bibliographique 1.4.2 Les mémoires d’actuaire Nous citons deux mémoires dans lesquelles ont été abordées 2 méthodes classiques de tarification en santé que sont l’approche fréquence ◊ Coût moyen et l’approche Pro- babilité ◊ Charge. Dans son mémoire, [Nguyen(2009)] se concentre sur la tarification et le provisionnement du portefeuille d’expatriés de Welcare 3 en se basant sur des données de sinistralité et d’exposition relatives à l’année 2007. Les garanties santé y sont tarifées en multipliant la probabilité de consommation médicale par la charge annuelle de consommation. La probabilité de consommer pour un poste médical y est évaluée par un modèle de régres- sion logistique avec comme variables explicatives le sexe et l’âge. La loi gamma y est choisie comme loi des frais réels. Le tarif d’une garantie santé est alors le produit de la probabilité de consommer pour une classes âge ◊ sexe donnée par la charge annuelle de consommation modélisée pour un poste médical. La charge annuelle des consommants n’est pas modélisée en fonction des caractéristiques de la population dans cette étude. Dans le présent mémoire, nous modéliserons cette charge en fonction des caractéristiques de la population par l’intermédiaire de régressions log-gamma. [Vautrin(2009)] s’intéresse dans son mémoire à l’élaboration d’une méthode de tarification pour des contrats complémentaires santé collectifs. L’année d’observation est l’année 2008 et l’approche de tarification choisie est l’approche fréquence ◊ Coût moyen. La fréquence est modélisée par une régression binomiale négative en raison de la surdispersion souvent constatée de certaines variables de comptage, et les coûts par une régression log-gamma. Une segmentation régionale est appliquée au portefeuille étudié en plus de la segmenta- tion induite par les variables tarifaires classiques telles que le sexe et l’âge des assurés. [Vautrin(2009)] a des informations exploitables sur le régime, le niveau de garantie et les modes d’adhésion au contrat. Un bon niveau de garantie augmente souvent l’aléa moral et les contrats dont le mode d’adhésion est facultatif sont plus exposés au risque d’anti selection que ceux à adhésion obligatoire. Ces deux variables ont donc leur importance dans la modélisation des coûts lorsqu’elles sont disponibles et exploitables. Dans notre étude ces conditions ne sont pas remplies et nous n’incluons donc pas ces variables dans les modèles implémentés. Les deux mémoires précités et les études similaires sont souvent liées à la tarification et à la sinistralité relatives à une unique année d’observation. Dans ce mémoire nous étudions la consommation médicale sur 7 années d’observations. Cela nous permet d’augmenter le volume de données, mais aussi de ne pas accorder trop d’importance à une année d’ob- servation particulière qui peut être exceptionnelle. Travailler sur plusieurs années pose cependant le problème de la corrélation des observations liées à la consommation d’un même individu présent dans le portefeuille pendant plus d’une année par exemple. Sup- poser l’indépendance entre les observations en implémentant des GLM "classiques" n’a asymptotiquement pas d’impact sur les estimations. Cela dépend toutefois du degrés de corrélation entre les réalisations liées aux années d’observations. Nous illustrerons la prise en compte de la corrélation avec les méthodes GEE 4 avant d’en comparer les résultats avec ceux des GLM. Avoir des données sur plusieurs années d’observation permet en outre 3. Entreprise orientée vers la protection sociale internationale - Distribution, assurance et gestion de produits destinés aux expatriés 4. Generalized Estimating Equations Ahmed Tidiane DIOMANDE 12/96
  14. 14. 1.4. Revue bibliographique une modélisation temporelle des données de sinistralité, ce qui permet l’implémentation de modèles de dérive de la consommation médicale et des projections tarifaires par pays d’expatriation, sexe, âges... 1.4.3 Les ouvrages et articles Dans ce mémoire, les GLM sont utilisés comme outil de tarification. La théorie liée à ces modèles y est donc abordée avant d’en illustrer des applications. Sur la tarifica- tion à priori, le lecteur pourra consulter le chapitre 9 de [Denuit & Charpentier(2005)] qui reprend l’ensemble des éléments théoriques associés à cette approche de tarification y compris les modèles linéaires généralisés avec des applications pratiques. Les modèles linéaires généralisés sont aussi présentés de façon pédagogique et souvent pratique dans [Mc Cullagh & Nelder(1989)] , [Droesbeke et al.(2005)Droesbeke, Lejeune, & Saporta] ou encore dans [Ohlson & Johansson(2010)]. Les données relatives à plusieurs années d’observations sont souvent présentées dans le formalisme des données de panel. La modélisation sur ce type de données doit idéalement tenir comte de la corrélation qui existe entre des observations associées à un même in- dividu présent plusieurs années même si les estimations supposant l’indépendance sont convergentes. Pour la modélisation sur données de panel et la prise en compte de la di- mension chronologique de ces données, le lecteur pourra consulter [Liang & Zeger(1986)] et [Hardin & Hilbe(2003)] sur les GEE 5 qui sont des méthodes permettant l’inclusion de la corrélation dans l’estimation des paramètres via la résolution d’équations de vraisem- blance généralisées. Enfin, pour des raisons pratiques, l’on est souvent amené à e ectuer des regroupements de modalités d’une variables explicative jugées "proches" au sens d’une distance mathé- matique donnée. Sur l’essentiel des méthodes de classification, le lecteur pourra se référer à [Nakache & Confais(2004)]. Le contexte de l’étude et la problématique ont été présentés dans ce chapitre. La grille de tarification actuelle du portefeuille "santé expatriés" d’AXA Solutions Collectives est basée sur une étude qui a été menée en 2006. Ayant les données récentes relatives à la consommation et à l’exposition du portefeuille géré par MSH, l’objet du mémoire est de mettre à jour la grille tarifaire courante. Nous nous intéressons dans le chapitre qui suit à la description du portefeuille MSH. Les données disponibles pour l’étude sont présen- tées dans un premier temps. Le portefeuille est ensuite décrit par le biais de statistiques descriptives. Enfin la dérive de la consommation médicale du portefeuille et le modèle d’estimation utilsé sont présentés. 5. Generalized Estimating Equations Ahmed Tidiane DIOMANDE 13/96
  15. 15. Chapitre 2 Le portefeuille MSH Dans ce chapitre, nous décrivons le portefeuille MSH 1 qui est l’un des courtier- gestionnaires à qui AXA France a délégué la gestion de son portefeuille expatriés. Plusieurs bases de données ont été fournies pour la revue des normes tarifaires de la direction IEB 2 . Les fichiers reçus se présentaient sous di érents formats (Excel, txt, csv...) que nous avons chargé sous SAS. Il s’agissaient de fichiers relatifs à la sinistralité et à l’exposition sur la période [2006, 2012] et d’autres fichiers en complément des deux précédents apportant plus de lisibilité au contenu des bases principales. 2.1 Les données Dans cette section, nous commençons par décrire brièvement le traitement des dif- férentes données reçues avant de nous étendre sur le contenu des bases exploitables en sortie de ces traitements. 2.1.1 Traitement des données et hypothèses Les bases de données de gestion présentent certains désavantages. Les principaux points d’attention sont l’occurrence possible d’erreurs humaines lors de la saisie d’infor- mation par le gestionnaire, les données manquantes et la possible perte d’information liée à des mises à jours ou non d’informations propres aux assurés. La fiabilisation des données Il n’y a pas de règle quant à la fiabilisation de bases de données de gestion du fait de la pluralité des sources d’anomalie. Lors d’une étude préalable, une attention particulière a été portée : • au paramétrage des modalités manquantes, • au paramétrage des traitements réalisés ligne à ligne permettant ainsi d’en garder une traçabilité, • à la validation des hypothèses par le gestionnaire avant les modifications quand cela en valait la peine (certaines modifications/erreurs étaient évidentes et n’ont pas nécessité d’échange), 1. Mobility Saint Honoré 2. International Employee Benefits 14
  16. 16. 2.1. Les données Au delà des erreurs humaines possibles lors de la saisie de certaines informations, l’un des principaux désavantages des bases de données de gestion est la perte d’information relative à di érentes mises à jour ou à l’absence de mise à jour de la part de la gestion. Nous avons alors e ectué quelques hypothèses après consultation des gestionnaires afin de pouvoir réaliser notre étude. Limites et hypothèses envisagées pour la réalisation de l’étude Lors d’un changement de situation de l’assuré, la mise à jour e ectuée écrase la don- née courante. En d’autres termes, il n’y a pas d’historique totalement crédible concernant la situation d’un assuré à un instant passé et la donnée que l’on a correspond à la situa- tion de l’assuré en date d’extraction. Prenons l’exemple d’un travailleur français expatrié aux USA qui change de pays d’expatriation et part à Singapour. Une simple saisie de "Singapour" en lieu et place de "USA" (écrasement de la donnée "USA") au niveau de la variable "pays_expat" n’est pas adaptée. En e et, au niveau de la gestion, la vision du portefeuille en date d’observation est correcte du fait que l’expatrié soit bien à Singapour à la date courante. Cependant, du point de vue de l’assureur ou plutôt de l’actuaire en charge de la tarification du portefeuille, il existe un véritable biais. La vision courante du portefeuille n’est en e et pas su sante pour la tarification, surtout lorsque l’étude porte sur plusieurs années. La sinistralité et l’exposition correspondant à une modalité ayant changée peut donc être biaisée par celles de la modalité qu’elle remplace et inversement. Notre période d’observation part de 2006 à 2012 et les expatriés du portefeuille ne sont présents en moyenne que 1,65 ans sur cette période (durée moyenne des contrats). Nous avons donc considéré pour l’étude que les données étant susceptibles de changer n’avaient pas beaucoup évoluées. Nous décrivons dans la section qui suit le contenu des bases fiabilisées. 2.1.2 Les bases exploitables L’information a été synthétisée autour des bases suivantes : • panel_ass : Cette table reprend les caractéristiques de l’ensemble des assurés du portefeuille MSH ayant été présents sur la période [2006, 2012] et ayant consommé ou non. Au travers de cette table, il est donc possible de récupérer toute l’expo- sition du portefeuille. • panel_* 3 : 38 actes ont pu être identifiés au travers des données reçues. Ces tables reprennent chacune la consommation relative à l’acte * sur la période [2006, 2012] et sont donc relatives à la sinistralité associée au portefeuille MSH. Notons que l’utilisation du préfixe "panel" dans la dénomination de la majorité des bases précitées n’est pas fortuite. En e et les informations que nous avons présentent une di- mension spatiale et une dimension chronologique. Nous entendons par dimension spatiale les informations relatives aux assurés et à la sinistralité en elle même, le temps étant figé, 3. * Représente le nom d’un acte médicale (Généraliste, pharmacie...) Ahmed Tidiane DIOMANDE 15/96
  17. 17. 2.1. Les données et par dimension chronologique l’évolution de ces données dans le temps. Les données en forme de panel sont alors adaptées à une modélisation tenant compte de l’ensemble de ces paramètres. Le lecteur pourra consulter [Roux(2009)] pour un aperçu de la modélistion sur données de panel. Modèle entité-associations Le diagramme 2.1 présente les grandes articulations qu’il y a entre les di érentes tables qui ont été créées après le traitement des données. Figure 2.1 – Diagramme entité-association données MSH Ce schéma se lit comme suit : • A une convention on associe plusieurs polices d’assurance mais pas l’inverse. A une police d’assurance, on associe en e et une unique convention au travers de laquelle on a connaissance des garanties associées à la police. • A une convention on associe plusieurs garanties et de façon réciproque, une ga- rantie peut appartenir à plusieurs conventions. • Une entreprise ("Souscripteur") souscrit à plusieurs polices regroupées dans une police mère pour ces employés expatriés ("Adhérent"). • Les adhérents sont des salariés expatriés appartenant à une entreprise ("Souscrip- teur"). Ils ont chacun une police d’assurance résultant de la souscription de leur Ahmed Tidiane DIOMANDE 16/96
  18. 18. 2.2. Statistiques descriptives entreprise à une police mère. Les adhérents ont des ayant droits que l’on retrouve dans la classe des bénéficiaires. Notons au passage que les adhérents sont biensûr eux-mêmes bénéficiaires. • Un bénéficiaire bénéficie de la police d’assurance souscrite par l’adhérent qui lui est associé. Il appartient à une famille et une famille est composée d’au moins un bénéficiaire (l’adhérent à minima). • L’entité "panel_ass" contient l’exposition totale sur la période [2006,2012]. Un "ident_personne" et une "annee" identifient de façon unique dans cette table les caractéristiques du bénéficiaire identifié par "ident_personne" dans l’année "an- nee". On retrouve notamment parmi ces caractéristiques la présence du bénéficiaire dans l’année (1 pour 1 an et 0.5 pour 6 mois par exemple), son sexe, son âge, le pays d’expatriation correspondant à l’année "annee" ou encore les garanties aux- quelles il a souscrit en année "annee". La variable "liste_actes" représente une liste de 38 actes (ou garantie) que nous avons pu identifiés. Dans la table "panel_ass" il y a 38 colonnes libellées par les noms de ces 38 actes. Un codage binaire (0 ou 1) a été choisie pour à chaque ligne, indexant un bénéficiaire "ident_personne" en année "annee", identifier si une garantie "acte" a été souscrite (acte = 1) ou non (acte = 0). Une ligne de cette table fait nécessairement référence à un bénéficiaire. A l’inverse, à un bénéficiaire peuvent correspondre de 1 à 7 ligne en référence à ses années de présence (observations de 2006 à 2012). • Nous avons généré 38 tables avec le typage "panel_acte" où "acte" représente le nom de l’un des 38 actes répertoriés. Ces tables font référence à la consommation des assurés sur la période d’observation. Un "ident_personne" et une "annee" identifient de manière unique dans ces tables la consommation du bénéficiaire identifié par "ident_personne" dans l’année "an- nee". On reprend dans cette table sa présence dans l’annee "annee" (variable "pre- sence"), sa consommation totale durant son temps de présence dans l’année "an- nee" (variable "somme_frais") et le nombre d’actes associés à cette consommation totale (variable "somme_quantite"). A une ligne de la table "panel_ass" identifiée par un "ident_personne" et une "annee" on associe entre 0 (pas de consommation dans l’année "annee" pour le bénéficiaire "ident_personne") et 7 lignes (nombre d’années d’observation de 2006 à 2012 où un bénéficiaire "ident_personne" peut avoir consommé) de la table "panel_acte" pour un acte fixé. 2.2 Statistiques descriptives Cette section décrit de façon synthétique le portefeuille MSH suivant plusieurs axes. 2.2.1 Les assurés Il s’agit de l’ensemble des personnes ayant été présentes au moins pendant une fraction d’année durant la période [2006, 2012]. Ahmed Tidiane DIOMANDE 17/96
  19. 19. 2.2. Statistiques descriptives Evolution des e ectifs Figure 2.2 – Evolution des e ectifs du portefeuille MSH de 2006 à 2012 La figure 2.2 représente l’évolution des e ectifs du portefeuille MSH de 2006 à 2012. Il faut entendre par e ectif la somme des présences associées à chaque bénéficiaire au cours des années d’observations : un assuré présent 6 mois dans une année par exemple comptera pour 0.5 dans le décompte relatif à l’année en question. Nous pouvons noter une baisse de l’activité en 2011 suivie d’une reprise importante en 2012 (Environs 80, 000 tête-année 4 en 2012). Les données ont été reçues courant 2013. Les statistiques relatives à cette année n’ont donc pas été représentées, l’exposition et la sinistralité associées étant partielles du fait de la censure due à la date d’extraction. Répartition par sexe et par type d’assuré (a) Répartition par sexe (b) Répartition par type d’assuré Figure 2.3 – Répartition par sexe et par type d’assuré La figure 2.3 représente la répartition des bénéficiaires selon leur sexe (figure 2.3a) et leur type (figure 2.4b). La répartition hommes - femmes est équilibrée dans le portefeuille, 4. Equivaut au nombre d’assurés présents durant une année entière Ahmed Tidiane DIOMANDE 18/96
  20. 20. 2.2. Statistiques descriptives et près de 43% des bénéficiaires du portefeuille sont adhérents (les autres étant leurs ayant- droits). Répartition des adhérents par cellule familiale et par situation matrimoniale (a) Cellule familiale (b) Situation matrimoniale Figure 2.4 – Répartition par cellule familiale et par situation matrimoniale des adhérents La figure 2.4a représente la répartition des adhérents par cellule familiale et la fi- gure 2.4b leur répartition par situation matrimoniale. 44% des adhérents sont expatriés seuls c’est à dire sans conjoint, enfant ou parent et 47% d’entre eux sont célibataires. Ces pourcentages élevés sont en partie dû aux polices individuelles du portefeuille. Un certain nombre de ces polices sont souscrites par des jeunes salariés ou stagiaires qui partent à l’étranger en début de carrière. Les âges des bénéficiaires Les expatriés adultes du portefeuille MSH ont en moyenne 40 ans, cette moyenne étant calculée sur la période [2006,2013]. L’âge moyen des femmes adultes s’élève à 39 ans quand celui des hommes adultes s’élève à 41 ans. Les âges moyens sont repris dans la figure 2.5 pour di érentes catégories. Les pays d’expatriation Les principaux pays d’expatriation sont représentés dans la figure 2.6. La population expatriée en France est composée d’expatriés français rentrant en France et qui continuent à bénéficier d’une couverture pendant un certain temps et de salariés impatriés. Cependant, lors des enregistrements des données en gestion, il peut arriver que le pays d’expatriation ne soit pas connus. La France est souvent entrée comme valeur par défaut dans ces cas de figure. Aussi, l’Australie apparaît comme étant le 5ème pays d’ex- patriation du portefeuille en partie du fait des nombreuses polices individuelles souscrites par des jeunes en début de carrière s’expatriant dans ce pays. Ahmed Tidiane DIOMANDE 19/96
  21. 21. 2.2. Statistiques descriptives Figure 2.5 – Ages moyens des bénéficiaire du portefeuille MSH Figure 2.6 – Principaux pays d’expatriation Les nationalités des expatriés La figure 2.7 reprend la répartition des expatriés par zone de nationalité. La moitié des expatriés du portefeuilles est française. La deuxième zone de nationa- lité est l’Asie suivie par les pays d’Europe de l’ouest et d’Amérique. Nous nous intéressons dans la suite à la sinistralité globale du portefeuille MSH. Ahmed Tidiane DIOMANDE 20/96
  22. 22. 2.2. Statistiques descriptives Figure 2.7 – Nationalités des expatriés du portefeuille MSH 2.2.2 La consommation médicale et les niveaux de rembourse- ment Dans cette partie nous nous intéressons à la sinistralité associée au portefeuille MSH durant la période [2006,2012]. Les frais réels et les remboursements Figure 2.8 – Frais réels et remboursement par année La figure 2.8 reprend la somme des frais réels et les 3 types de remboursement sui- vants : • Remboursement AXA : Remboursement e ectué par AXA, • Remboursement CFE 5 : Remboursement e ectué par la CFE qui est l’équivalent de la sécurité sociale pour les expatriés qui, du fait de leur statut, n’en bénéficie pas systématiquement, 5. Caisse des Français de l’Etranger Ahmed Tidiane DIOMANDE 21/96
  23. 23. 2.2. Statistiques descriptives • Autres remboursements : Il s’agit des remboursements e ectués par des orga- nismes autre que la CFE et AXA. Il s’agit souvent d’organismes de sécurité sociale rattaché au pays d’expatriation. Cette figure laisse transparaître une baisse de la consommation en 2011 associée naturel- lement à la baisse d’exposition constatée un peu plus haut. La répartition des frais réels par postes médicaux La figure 2.9 représente la répartition des frais engagés par les assurés par postes médicaux. Figure 2.9 – Répartition des frais réels par postes médicaux Les hospitalisations de jour et de nuit représentent 27% des frais engagés par les assurés. Ensuite vient la médecine ambulatoire avec la pharmacie, les actes de consultation chez des généralistes ou des spécialistes... La sinistralité de pointe La figure 2.10 représente la part de la sinistralité annuellle de pointe dans la consom- mation médicale globale pour les 10 premiers pays d’expatriation du portefeuille MSH. Les histogrammes rouges représentent le pourcentage des charges annuelles consi- dérées comme étant exceptionnelles par rapport à la distribution observée des charges annuelles dans un pays donné. Ces charges exceptionnelles sont déterminées comme celles étant supérieures aux montants indexés par la courbes vertes qui représente les quantiles empirique à 95% des réalisations de charges annuelles des consommants. Les histogrammes bleus représentent le poids de la sinistralité exceptionnelle quant à la charge totale ob- servées par pays. Ainsi on peu lire qu’aux USA, la charge annuelle de consommation des 3% d’assurés les plus consommants représente environs 50% de la charge totale observée dans ce pays. Ahmed Tidiane DIOMANDE 22/96
  24. 24. 2.2. Statistiques descriptives Figure 2.10 – La sinistralité extrême dans les 10 premiers pays d’expatriation Les statistiques descriptives précédentes nous permettent d’avoir une vue globale des caractéristiques des assurés du portefeuille en terme d’exposition et de sinistralité. Une des caractéristiques importantes dans le pilotage d’un portefeuille d’assurance santé est la dérive de la consommation médicale permettant d’e ectuer des projections de sinistralité. Ahmed Tidiane DIOMANDE 23/96
  25. 25. 2.3. Dérive de la consommation médicale du portefeuille MSH 2.3 Dérive de la consommation médicale du porte- feuille MSH Dans cette section, nous nous intéressons à la dérive de la consommation médicale du portefeuille MSH. Il s’agit du taux d’accroissement de la consommation moyenne par assuré de ce portefeuille. Cette estimation a été dans un premier temps réalisée pour faire des projections du ratio combiné 6 de la direction IEB et ensuite mettre à jour le logiciel de tarification courant de la direction. 2.3.1 Modèle de régression exponentiel pour l’estimation de la dérive Pourquoi la régression exponentielle Déterminons l’ensemble des fonctions f œ C1 (R+, Rú +) vérifiant la relation suivante : f(x + 1) f(x) = Cte 0 (2.1) Par dérivation il vient : f(x + 1) f(x) = Cte 0 … fÕ (x + 1) f(x + 1) = fÕ (x) f(x) (2.2) Ainsi, les fonctions f vérifiant 2.1 sont telles que : x ‘≠æ fÕ (x) f(x) est 1-périodique et peuvent donc être décomposées en série de Fourier. Il existe donc pour de telles fonctions des suites (an)nØ0 et (bn)nØ1 telles que (Consulter [Kammler(2007)] pour plus de théorie sur l’analyse de Fourier) : fÕ (x) f(x) = a0 2 + Œÿ k=1 {akcos(2fikx) + bksin(2fikx)} … d dx ln f(x) = a0 2 + Œÿ k=1 {akcos(2fikx) + bksin(2fikx)} … f(x) = exp ⁄ x Cte 1 a0 2 + Œÿ k=1 {akcos(2fiku) + bksin(2fiku)}du … f(x) = exp (˜ax + ˜b + Œÿ k=1 { ˜akcos(2fikx) + ˜bksin(2fikx)}) (2.3) L’équation 2.3 reprend l’ensemble des solutions pour le problème posé en 2.1. Les solutions les plus simples au problème que l’on s’est posé sont les suivantes : 6. Le ratio combiné correspond à la somme des sinistres et des frais de gestion et d’acquisition rappoortée aux primes Ahmed Tidiane DIOMANDE 24/96
  26. 26. 2.3. Dérive de la consommation médicale du portefeuille MSH • f constante : Cela reviendrais à prendre an = bn = 0 pout tout n. Cette solution est inadaptée car nous voulons mesurer un taux d’accroissement de la fonction f avec le temps. Dans un tel modèle nous ferions l’hypothèse d’un taux d’accrois- sement nul ce qui va à l’encontre de l’objet de notre modélisation. Cette solution triviale est en fait un cas particulier de la solution qui suit, • f(x) = beax (modèle exponentiel) : Cela reviendrait à prendre an = bn = 0 pour n Ø 1 (fÕ(x) f(x) constant). Nous choisissons comme modèle le modèle exponentiel qui permet de mesurer un tendance non nulle. Ce modèle est le modèle réaliste le plus simple à mettre en oeuvre du point de vue de l’implémentation. Consommation moyenne et régression exponentielle Nous considérons ici les données relatives à la consommation des assurés du porte- feuille MSH sur la période allant de 2006 à 2012. Nous disposons notamment des infor- mations suivantes pour chaque assuré : • Pays d’expatriation (variable pays_expat), • Catégorie d’assuré : Adhérent, conjoint, enfant ou ascendant (variable type_assure), • Sexe (variable sexe), • Années de survenance (variable annee_soin), • Présence de l’assuré pendant l’année de soin (variable presence), • Consommation de l’assurée pendant l’année de soin (variable frais_euro). Nous nous intéressons au calcul du taux d’accroissement moyen de la consommation d’un individu en fonction de paramètres comme son pays d’expatriation, sons sexe et sa caté- gorie (adulte homme, adulte femme, enfant). Nous fixons dans un premier temps le pays d’expatriation et la catégorie d’assuré. A l’aide de procédures SAS et de requêtes SQL, nous récupérons par pays d’expatriation et par année de soin, la présence et la consomma- tion totales des assurés pendant l’année de soin. Le rapport de ces deux variables donne la consommation moyenne par assuré. En d’autres termes en fixant le pays d’expatriation et la catégorie de l’assuré nous avons pour une année de soin x œ {2006, 2012} la fonction consommation moyenne f suivante : f(x) = qn(x) i=1 Ci(x) qn(x) i=1 Pi(x) , f : {2006, . . . , 2012} ≠æ Rú + x ‘≠æ f(x) (2.4) Avec : • n(x) : Nombre d’assurés ayant une présence non nulle durant l’année de soin x, • Pi(x) œ ]0, 1] : Présence de l’assuré i durant l’année de soin x. Pour un assuré présent 6 mois dans une année de couverture par exemple, cette fonction vaudra 0.5, • Ci(x) : Consommation médicale de l’assuré i durant l’année de soin x. Nous définissons le taux de dérive r de la consommation moyenne par assuré comme suit : Ahmed Tidiane DIOMANDE 25/96
  27. 27. 2.3. Dérive de la consommation médicale du portefeuille MSH f(x + 1) = (1 + r) ◊ f(x) … f(x + 1) f(x) = (1 + r) = Cte , x œ {2006, . . . , 2012} (2.5) Nous considérons alors le modèle de régression exponentiel suivant : f(x) = beax (2.6) Ce modèle satisfait la relation 2.5 et présente l’avantage comme nous l’avons vu dans la section précédente d’être réaliste, simple du point de vue de l’implémentation et de la mesure de la dérive. Notons tout de même que nous considérons ici la restriction de la fonction f vue dans la précédente section à l’ensemble {2006, . . . , 2012} ou plus largement (par extrapolation) à l’ensemble Z des entiers relatifs. Sur un tel ensemble, les fonctions 1-périodiques sont constantes et donc les modèles exponentiel et constant (cas particulier du modèle exponentiel) sont les seules solutions au problème posé en 2.3. Nous estimons maintenant le taux de dérive dans le cadre que nous nous sommes fixé. En remplaçant l’expression 2.6 dans 2.5 il vient : ˆbeˆa(x+1) ˆbeˆax = 1 + ˆr … ˆr = eˆa ≠ 1 (2.7) Notons ici que nous e ectuons une régression sur seulement 7 points ({2006, . . . , 2012}). Dans notre exercice, nous jugeons la pertinence de nos estimations en observant la valeur prise par le coe cient de détermination associé aux di érentes régressions mais aussi en ayant un regard critique sur la forme des courbes que nous avons été amenées à tracer. La définition du coe cient de détermination est fournie dans la partie 4.1.3 (On e ectue ici une régression linéaire sur le logarithme de la variable réponse). 2.3.2 Résultats obtenus sur le portefeuille globale Nous présentons dans cette section l’analyse de la dérive de la consommation médi- cale des expatriés de l’ensemble du portefeuille MSH sur la période [2006, 2012]. (a) Dérive globale (b) Dérive par catégorie Figure 2.11 – Dérive de la consommation médicale de l’ensemble du portefeuille expatriés MSH de 2006 à 2012 Ahmed Tidiane DIOMANDE 26/96
  28. 28. 2.3. Dérive de la consommation médicale du portefeuille MSH La figure 2.11a représente l’évolution de la dérive de la consommation médicale de l’ensemble des expatriés du portefeuille MSH. Nous constatons sur cette figure une hausse assez régulière de la consommation médicale de 2006 à 2010 puis une baisse ponctuelle en 2011. La baisse d’exposition constatée un peu plus haut est donc associée à une sortie de "gros consommants" . La ligne rouge tracée sur cette figure représente la courbe associée à la régression exponentielle que nous e ectuons pour l’estimation de la dérive. Nous pou- vons mesurer graphiquement la qualité de l’ajustement et notre observation est confortée par la valeur du coe cient de détermination R2 à 0, 94. Comme indiqué précédemment, il est important d’avoir un regard critique passant par une analyse graphique pour la mesure de la qualité de nos ajustements. Nous obtenons alors les résultats suivants : Paramètre Estimation Valeur ajustée ˆa a1 Dérive d1 R2 0, 94 Table 2.1 – Dérive globale portefeuille MSH La figure 2.11b reprend l’évolution de la consommation médicale par catégorie d’as- surés (Adulte Homme, Adulte Femme, Enfant). Les femmes adultes consomment en gé- néral plus que les hommes adultes notamment en raison des soins liés à la maternité et les hommes adultes plus que les enfants. Nous observons bien ces écarts sur le graphique tracé. La baisse de consommation constatée au niveau global en 2011 s’observe au niveau des 3 catégories d’assurés énoncées. Nous obtenons les résultats suivants pour chaque catégorie d’assurés : Paramètre Enfants Femmes Hommes Valeur ajustée ˆa a2 a3 a4 Dérive d2 d3 d4 R2 0, 94 0, 93 0, 90 Table 2.2 – Dérive portefeuille MSH par catégorie Les estimations que nous e ectuons semblent d’assez bonne qualité au vu des gra- phiques tracés et des coe cients de détermination calculés. 2.3.3 Zoom sur Singapour Dérive Nous présentons dans cette section l’analyse de la consommation médicale des ex- patriés à Singapour sur la période [2006, 2012]. La figure 2.12a représente l’évolution de la dérive de la consommation médicale de l’en- semble des expatriés à Singapour. Nous constatons sur cette figure une baisse de la consom- mation moyenne en 2007 puis une hausse assez régulière de 2007 à 2012. La ligne rouge tracée sur cette figure représente là encore la courbe associée à la régression exponentielle Ahmed Tidiane DIOMANDE 27/96
  29. 29. 2.3. Dérive de la consommation médicale du portefeuille MSH (a) Dérive globale (b) Dérive par catégorie Figure 2.12 – Dérive de la consommation médicale à Singapour de 2006 à 2012 que nous e ectuons pour l’estimation de la dérive. Au delà du coe cient de détermination R2 à 0, 96 nous pouvons mesurer graphiquement la qualité de notre ajustement. Nous obtenons alors les résultats suivants : Paramètre Estimation Valeur ajustée ˆa a5 Dérive d5 R2 0, 96 Table 2.3 – Dérive globale Singapour La figure 2.12b reprend l’évolution de la consommation médicale à Singapour par catégorie d’assurés (Adulte Homme, Adulte Femme, Enfant). La baisse de consommation constatée au niveau globale en 2007 s’observe chez les hommes et les enfants mais pas chez les femmes. Après 2007 nous observons une augmentation régulière de la consommation pour chacune des 3 catégories d’assurés mise à part une baisse de la consommation en 2009 chez les femmes. Nous obtenons les résultats suivant pour chaque catégorie d’assurés : Paramètre Enfants Femmes Hommes Valeur ajustée ˆa a6 a7 a8 Dérive d6 d7 d8 R2 0, 67 0, 95 0, 93 Table 2.4 – Dérive Singapour par catégorie Là encore, les estimations que nous e ectuons semblent d’assez bonne qualité au vu des graphiques tracés et des coe cients de détermination calculés. Celui associé à la catégorie d’assuré que sont les enfants n’est pas très satisfaisant (0, 67) mais nous pouvons considérer la dérive calculée, la tendance étant globalement assez bien représentée par la courbe exponentielle ajustée (voir figure 2.12b). Ahmed Tidiane DIOMANDE 28/96
  30. 30. 2.3. Dérive de la consommation médicale du portefeuille MSH Evolution de l’exposition Les estimations de dérive que nous e ectuons ont du sens si et seulement si les caractéristiques des assurés restent relativement stables au fil du temps. Pour mesurer la crédibilité de l’estimation que nous faisons de la dérive à Singapour par exemple nous nous intéressons à l’évolution de l’exposition dans ce pays. (a) Evolution de l’exposition par âge (b) Boîtes à moustache Figure 2.13 – Evolution de l’exposition à Singapour de 2006 à 2013 La figure 2.13a représente l’évolution de l’exposition par âge des expatriés à Singapour de 2006 à 2013. Nous sommons ici les présences des assurés par année de présence et par âge. Sur un tel schéma, un assuré ayant été présent sur toute la période considérée pourrait être représenté par une diagonale sur le plan age◊annee. Nous observons sur cette figure une stabilité au niveau de la présence des expatriés à Singapour. La figure 2.13b reprend l’évolution des âges des assurés de 2006 à 2013 par l’intermédiaire de tracés de boîtes à moustache. Les boîtes à moustache sont des éléments statistiques représentant les moyennes, quartiles, minimum et maximum d’une variable donnée. Le tracé de ces boîtes à moustache suivant les années de présence de nos assurés nous permet d’observer l’évolution de l’âge des expatriés à Singapour. Là encore, nous pouvons noter la stabilité de cette caractéristique essentielle en terme de consommation, ce qui vient conforter la crédibilité de la mesure de dérive que nous e ectuons. Avant de parler de la démarche de tarification en elle même, nous décrivons brièvement la méthode de suivi de la sinistralité et de la rentabilité du portefeuille. 2.3.4 Le suivi de la sinistralité et de la rentabilité portefeuille La dérive de la consommation médicale d’une année à une autre est un critère fondamental devant être pris en compte lors de la tarification d’a aires nouvelles 7 . Ce paramètre peut être mesuré grâce au modèle décrit plus haut. Une fois un appel d’o re remporté, il convient de s’assurer de la cohérence des tarifs proposés avec la sinistralité propre à la consommation de la population assurée. Pour un client donné, les tarifs proposés à la souscription sont valables durant une année de 7. Appel d’o re / Demande de cotation pour des clients qui ne sont pas dans le portefeuille d’AXA Solutions Collectives Ahmed Tidiane DIOMANDE 29/96
  31. 31. 2.3. Dérive de la consommation médicale du portefeuille MSH souscription. Ils sont ensuite révisés chaque année au regard de la rentabilité annuelle du compte étudié. Le processus de redressement est le suivant : • On estime la charge sinistre ultime Ultn relative à l’année de souscritption écoulée n en intégrant des IBNR 8 notamment, • Cette charge ultime est inflatée de la dérive de la consommation médicale d% afin de projeter l’attérissage de la sinistralité pour l’année de souscription n + 1, • On décharge la prime commerciale de l’ensemble des frais qu’elle contient pour obtenir une prime nette de tout frais PrimeNetten, • La prime nette est ensuite majorée de x% de façon à ce que le ratio suivant soit inférieur ou égal à 100% : S/P = Ultn ú (1 + d%) PrimeNetten ú (1 + x%) . (2.8) Dans ce chapitre, nous avons décrit le portefeuille géré par MSH. Nous rappelons qu’il s’agit de données récentes devant servir à la mise à jours des tarifs du portefeuille "santé expatriés" d’AXA Solutions Collectives. L’exposition et la consommation médicale ont été décrites après avoir présenté la structure des données nettoyées. La dérive de la consomma- tion médicale du portefeuille a été estimée à l’aide d’un modèle de régression exponentielle et la méthode de suivi du portefeuille présentée. Nous allons dans le chapitre qui suit nous intéresser à la démarche actuarielle envisagée pour parvenir à la tarification des garanties associées à l’o re étudiée. Plusieurs approches de tarification peuvent en e et être envi- sagées et certains éléments tels que la segmentation de la population, les franchises et les plafonds associés aux garanties doivent être pris en compte de façon adéquate. 8. Incurred But Not Reported Ahmed Tidiane DIOMANDE 30/96
  32. 32. Chapitre 3 La démarche de tarification Dans ce chapitre, nous nous intéressons à la démarche adoptée pour parvenir à l’établissement d’une grille tarifaire flexible et appropriée aux données à disposition pour la réalisation de notre étude. Nous nous intéressons dans un premier temps aux variables tarifaires. 3.1 Les variables tarifaires 3.1.1 Les variables d’intérêt et les variables explicatives Parmi les variables tarifaires auxquelles nous nous sommes intéressés, il faut distin- guer les variables d’intérêt des variables explicatives. Les variables d’intérêt sont les variables réponses à expliquer. Elles sont répertoriées dans la table 3.1. Table 3.1 – Liste des variables d’intérêt Variables Description somme_frais Charge annuelle de consommation médicale somme_quantite Nombre de sinistres dans l’année cout_acte Coût d’un acte (coût moyen d’un sinistre dans l’année) var_bern Variable binaire associée à l’occurrence d’un sinistre Ensuite, le choix des paramètres de segmentation de la population a une importance capitale. Nous nous sommes attelé à avoir un niveau de détails important par le biais de croisement de di érentes tables afin d’être le plus précis possible dans la tarification pro- posée. La table 3.2 reprend les variables explicatives potentielles que nous pourrons retenir dans l’explication des variables d’intérêt. De cette liste de variables, nous ne retiendrons que celles qui seront significatives dans l’explication des variables d’intérêt lors de nos di érentes analyses. 31
  33. 33. 3.1. Les variables tarifaires Table 3.2 – Listes des potentielles variables explicatives Variables Description sexe Sexe de l’assuré age Age de l’assuré categorie Croisement des variables sexe et âge type_assure Type de l’assuré (Adhérent, conjoint, enfant ou parent) situation Situation matrimoniale de l’assuré pays_expat Pays d’expatriation de l’assuré zone Zone d’expatriation de l’assuré annee Année de soin presence Présence de l’assuré dans l’année ln_presence Logarithme de la variable présence (o set) 3.1.2 L’année de soin comme variable explicative et la corréla- tion temporelle des observations Travailler avec des données relatives à plusieurs années d’observation et considérer l’année de soin comme variable explicative permet de mesurer des coûts et des incidences par année. Une analyse annuelle est en e et indispensable pour pouvoir estimer les dérives de la consommation médicale et e ectuer des projections à divers horizons. La prise en compte de plusieurs années d’observation induit cependant une dépendance temporelle. En e et, nous avons à notre disposition des données relatives à des individus ayant été présents plusieurs années. Les réalisations de consommation annuelle de ces individus sont à priori corrélées. Cela pose un problème d’un point de vue théorique car les estimations du modèle implémenté (GLM) se font par la méthode du maximum de vraisemblance qui est basée sur l’hypothèse d’indépendance entre les observations. Avec un portefeuille de grande taille, l’estimateur ˆ— des paramètres du modèle supposant l’indépendance sérielle est convergent. La dépendance sérielle a peu d’impact asymptoti- quement sur la moyenne. La variance est quant à elle impactée par cette dépendance. Les méthodes GEE 1 présentées en annexe B permettent d’améliorer la variance asymptotique de ˆ—. Nous supposerons l’indépendance pour e ectuer nos estimations pour bénéficier des élé- ments d’analyse et de validation des modèles linéaires généralisés. Une comparaison des résultats des 2 méthodes sera e ectuée à l’aide de quelques exemples dans la partie 5.4. 3.1.3 Les interactions entre variables explicatives Dans la modélisation, certains e ets croisés seront intégrés en vue de prendre en compte les interactions entre variables explicatives. Sans e et d’interaction, le modèle im- plémenté estime l’influence de chacune des variables explicatives de façon indépendante. Il peut cependant être utile de mesurer les e ets liés à di érents croisements. Par exemple, dans un modèle de tarification en fonction du sexe et du pays d’expatriation, la di érence relative entre le tarif des femmes et celui des hommes sera la même d’un pays à un autre. 1. Generalized Estimating Equation Ahmed Tidiane DIOMANDE 32/96
  34. 34. 3.2. Une première approche de tarification possible : Fréquence ◊ Coût moyen En intégrant un e et d’interaction sexe ◊ pays d’expatriation, la spécificité des croise- ments est prise en compte et les écarts relatifs ne sont plus les mêmes. Nous croisons dans l’étude l’âge et le sexe des assurés au travers de la variable cate- gorie. Selon les postes médicaux, nous intégrerons aussi un e et année de soin ◊ pays d’expatriation en vue de mesurer l’inflation des coûts non pas au global mais par pays d’expatriation. Une fois les variables explicatives sélectionnées, plusieurs approches de tarification peuvent être envisagées. Nous présentons dans la suite l’approche fréquence ◊ Coût moyen et l’ap- proche probabilité ◊ Charge, qui peuvent être abordées d’un point de vue déterministe ou par l’intermédiaire des modèles linéaires généralisés. La robustesse de l’approche dé- terministe diminue avec l’ajout de variables explicatives, car la taille des échantillons est réduite dans les cellules tarifaires formées par les nombreux croisements de modalités des variables. Nous lui préférons donc la modélisation des variables d’intérêt via la théorie des modèles linéaires généralisés. 3.2 Une première approche de tarification possible : Fréquence ◊ Coût moyen L’approche Fréquence ◊ Coût moyen est largement utilisée pour la tarification en santé. [Vautrin(2009)] implémente par exemple, des modèles linéaires généralisés pour estimer fréquences et coûts moyens afin de tarifer des contrats complémentaires santé collectifs. 3.2.1 La fréquence Il s’agit de la fréquence annuelle de sinistre. En santé, un sinistre se traduit par un ou plusieurs actes de soins. La fréquence est déterminée de façon déterministe en rapportant le nombre d’actes médicaux à l’exposition. Elle peut aussi être obtenue via un modèle linéaire généralisé en implémentant une régression de Poisson ou plutôt une régression binomiale négative si la variable d’intérêt est surdispersée (Chapitre 9 de [Denuit & Charpentier(2005)] pour aller plus loin). Les réalisations yi de la variable d’in- térêt sont alors le nombre d’actes par individu et par année que l’on annualise en divisant cette quantité par l’exposition dans l’année (1 pour 1 ans et 0.5 pour 6 mois...). 3.2.2 Le coût moyen Il s’agit du coût moyen d’un acte de soin durant l’année considérée. Il peut être es- timé de façon déterministe en ramenant la charge annuelle de consommation médicale (les frais réels) au nombre d’actes de soin dans l’année. Une régression gamma ou lognormale peut aussi être envisagée. Les réalisations yi de la variable réponse sont alors les coûts moyens par individu et par année. Ahmed Tidiane DIOMANDE 33/96
  35. 35. 3.3. Une seconde approche de tarification possible : Probabilité de consommer ◊ Charge de consommation 3.2.3 La prime pure La prime pure est obtenue en multipliant fréquences et coûts moyens par cellule tarifaire. En e et, d’un point de vue actuariel le risque que l’on considère dans l’approche Fréquence ◊ Coût moyen est la charge annuelle de sinistre. Celle-ci peut s’écrire sous la forme de la variable aléatoire suivante : C = Y __] __[ Nÿ k=1 Ck si N > 0 0 si N = 0 Avec : • C : Charge sinistre annuelle d’un individu ayant certaines caractéristiques maté- rialisées par les variables explicatives, • N : Variable aléatoire représentant le nombre de sinistres dans l’année, • Ck : Coût du keme sinistre . La prime pure que l’on veut déterminer est l’espérance mathématique de la charge sinistre C. En supposant les (Ck)kØ1 iid 2 et indépendants de la variable N, on a : E[C] = ÿ kØ1 Pr(N = k) E C kÿ i=1 Ci D = Q a ÿ kØ1 Pr(N = k)k R b ◊ E[Ck] E[C] = E[N] ◊ E[Ck] … Prime Pure = Frequence ◊ Cout moyen 3.2.4 Limites Les hypothèses de l’approche Fréquence ◊ Coût moyen sont l’indépendance entre la variable aléatoire N représentant le nombre de sinistres et le processus des coûts (Ck)kØ0 d’une part et le caractère iid des variables (Ck)kØ0 du processus de coûts d’autre part. Il s’agit de 2 hypothèses fortes qui ne sont pas toujours vérifiées en pratique et qui constituent donc les principales limites de cette approche. 3.3 Une seconde approche de tarification possible : Probabilité de consommer ◊ Charge de consom- mation C’est l’approche retenue par [Nguyen(2009)] dans le cadre de la tarification du por- tefeuille de Welcare. Elle implémente dans son étude une régression logistique pour la 2. indépendants et identiquement distribués Ahmed Tidiane DIOMANDE 34/96
  36. 36. 3.3. Une seconde approche de tarification possible : Probabilité de consommer ◊ Charge de consommation modélisation de la probabilité de consommation et e ectue une étude globale de la loi des frais réels par poste médicaux pour la modélisation de la charge annuelle de consomma- tion. 3.3.1 La probabilité de consommer dans l’année Il s’agit de la probabilité de consommer au moins une fois dans l’année. Elle corres- pond, à l’exposition près, à la proportion de consommants parmi les bénéficiaires. Pour modéliser cette probabilité, nous implémentons un modèle de régression binomial dont les caractéristiques sont présentés dans le chapitre 4. L’idée est de considérer les réalisations de consommation comme des réalisations d’une variable binomiale et d’estimer la proba- bilité de consommer par la probabilité associée à cette variable. De façon plus formelle, cette probabilité peut être considérée comme l’espérance ma- thématique de la variable aléatoire suivante : IND = 1{N>0} = I 1 si N > 0, N nombre de sinistres dans l’année, 0 si N = 0 3.3.2 La charge annuelle de consommation dans l’année Il s’agit de la charge totale par année et par individu. Nous modéliserons cette variable par une régression gamma. Les réalisations sur lesquelles on s’appuie pour la mo- délisation sont des quantités strictement positives. Nous considérons en e et la consom- mation annuelle des assurés ayant consommé au moins une fois. C’est la stricte positivité des observations qui justifie l’usage d’une loi comme la loi gamma dans la modélisation. 3.3.3 La prime pure La prime pure est obtenue en multipliant classe par classe la probabilité de consom- mation par la charge totale annuelle que l’on aura calculée. En e et, d’un point de vue actuariel le risque que l’on considère dans l’approche probabilité de consommer ◊ Charge de consommation est le suivant : C = IND ◊ C+ , C+ ayant même loi que C|N > 0 Avec : • IND : variable aléatoire binaire représentant le fait de consommer ou non, • C+ : variable aléatoire représentant la charge annuelle de consommation sachant qu’il y a eu consommation. La prime pure est alors l’espérance mathématique de ce risque et s’écrit : Ahmed Tidiane DIOMANDE 35/96
  37. 37. 3.4. Comment tenir compte des franchises et plafonds contractuels dans la tarification ? E[C] = E Ë IND ◊ C+ È = Pr(IND = 1) ◊ E[C+ |IND = 1] + Pr(IND = 0) ◊ E[C+ |IND = 0] = Pr(N > 0) ◊ E[C+ |N > 0] + Pr(N = 0) ◊ E[C+ |N = 0] = Pr(N > 0) ◊ E[C+ |N > 0] … Prime Pure = Probabilité de consommer ◊ Charge de consommation 3.3.4 Le choix de cette approche Au delà des limites de l’approche Fréquence ◊ Coût moyen du fait du caractère dé- pendant des variables d’intérêt associées à ce modèle, l’approche Probabilité de consom- mer ◊ Charge de consommation a été préférée en raison de la fiabilité de la variable représentant le nombre d’actes (ou sinistres) dans nos bases de données. En e et, le dé- nombrement du nombre d’actes peut varier selon le poste médical et selon le pays. Il peut s’agir du nombre de jours d’hospitalisation, du nombre de visites pour les actes de consultation chez le généraliste ou le spécialiste, ou encore du coe cient multiplicateur de de la Sécurité Sociale (50 pour une prothèse dentaire dont la nomenclature est SPR50)... Au vu du nombre d’interprétations possibles du nombre d’actes, nous décidons de nous a ranchir de cette variable dans la tarification en modélisant d’une part la probabilité de consommer au moins une fois dans l’année et d’autre part la charge annuelle moyenne de consommation médicale sachant qu’il y a eu consommation. Une fois les primes pures déterminées, il faut évaluer l’impact de l’inclusion de plafonds et franchises sur les tarifs. La prochaine section est dédiée à l’analyse de cet axe. 3.4 Comment tenir compte des franchises et plafonds contractuels dans la tarification ? Les franchises sont les frais restant à la charge de l’assuré en cas de survenance d’un sinistre. Das le cadre de l’o re santé expatriés étudiée, elles sont calculées en pourcentage des frais réels et permettent entre autres de diminuer l’aléa moral, l’assuré devant payer une partie des frais en cas de sinistre. Les plafonds, en général annuels, servent à limiter l’exposition de l’assureur à la sinis- tralité extrême. Ils peuvent être spécifiés au niveau d’une formule entière regroupant plusieurs garanties ou par actes médicaux. Nous allons voir comment intégrer ces deux éléments contractuels lors de la tarification. 3.4.1 2 méthodes possibles : Arbitrage entre biais et volatilité Les comportements des assurés peuvent changer en fonction de la présence ou non de franchises et plafonds dans les termes des garanties qu’ils souscrivent. Deux approches peuvent être considérées pour la prise en compte de ces caractéristiques contractuelles Ahmed Tidiane DIOMANDE 36/96
  38. 38. 3.4. Comment tenir compte des franchises et plafonds contractuels dans la tarification ? dans la tarification. L’une privilégie la diminution du biais associé aux estimations avec une augmentation de la volatilité et l’autre l’inverse. Considérer les plafonds et franchises comme des variables explicatives La première approche repose sur la disponibilité de données exploitables sur les caractéristiques relatives à chaque contrat (franchises, plafonds...). Il s’agirait alors d’in- tégrer les caractéristiques des contrats aux variables explicatives. Cette approche a le double avantage de permettre de s’a ranchir de l’aléa qui repose sur le changement de comportement des assurés dans leur consommation en présence de plafonds et de fran- chises d’une part. D’autre part, elle donne la possibilité de faire des prévisions tarifaires intégrant directement des tarifs et franchises de di érents niveaux. Nous ne retenons pas cette approche de tarification en raison du manque de données exhaustives sur les caractéristiques des contrats. En retenant cette approche, l’on per- drait plus de la moitié des données à disposition, ce qui en ferait une approche possédant peu de biais mais une volatilité accrue. Tenir compte des plafonds et franchises à postériori La deuxième approche consiste à négliger l’impact de la présence de franchises et de plafonds sur la consommation médicale des assurés. Cette approche est bien entendue biaisée par le fait que la consommation associée à des contrats sans plafond par exemple est souvent supérieure à la consommation associée à des contrats avec plafond. Un double e et peut alors exister en négligeant le changement de comportement induit par ces limites. On viendrait en e et modéliser une consommation moyenne plafonnée ou franchisée sur des données de consommation qui le sont implicitement du fait de l’aléa moral qui se trouve réduit par ces limites. 3.4.2 La méthode retenue L’impact du biais relatif à la non considération du changement potentiel de com- portement des assurés diminue naturellement lorsque les plafonds augmentent ou que les franchises diminuent. Nous retenons la deuxième approche, les franchises associées aux garanties de l’o re étudiée étant de l’ordre de 10% des frais réels et les plafonds en général assez hauts. Les garanties proposées aux expatriés sont en e et relativement confortables en terme de couverture. 3.4.3 La prime pure en présence de plafond et franchise contrac- tuels En notant ◊ le taux de remboursement (franchise = 1 - ◊) et Ê le plafond de rem- boursement, la charge annuelle de consommation plafonnée et franchisée s’écrit comme suit ([Nguyen(2009)]) : C+ (◊, Ê) = ◊C+ 1{◊C+ < Ê} + Ê1{◊C+ Ø Ê} = I ◊C+ si ◊C+ < Ê Ê si ◊C+ Ø Ê Ahmed Tidiane DIOMANDE 37/96
  39. 39. 3.4. Comment tenir compte des franchises et plafonds contractuels dans la tarification ? L’espérance mathématique de ce risque s’écrit : E[C+ (◊, Ê)] = E[C+ (◊, Ê)|◊C+ < Ê]Pr(◊C+ < Ê) + E[C+ (◊, Ê)|◊C+ Ø Ê]Pr(◊C+ Ø Ê) = ◊E 5 C+ |C+ < Ê ◊ 6 Pr(◊C+ < Ê) + ÊPr(◊C+ Ø Ê) E[C+ (◊, Ê)] = ◊E 5 C+ |C+ < Ê ◊ 6 FC+ 3 Ê ◊ 4 + Ê 3 1 ≠ FC+ 3 Ê ◊ 44 Et la prime pure devient : E[C(◊, Ê)] = Pr(N > 0) ◊ 5 ◊E 5 C+ |C+ < Ê ◊ 6 FC+ 3 Ê ◊ 4 + Ê 3 1 ≠ FC+ 3 Ê ◊ 446 Nous avons explicité dans ce chapitre notre démarche de tarification. L’approche de tari- fication Fréquence ◊ Cout Moyen n’a pas été retenue en raison de la fiabilité des données disponibles pour l’estimation de la fréquence notamment. Nous lui préférons l’approche Probabilité ◊ Charge annuelle de consommation nous permettant de nous a ranchir de la modélisation des fréquences de consommation. Les franchises et plafonds contractuels sont pris en compte à postériori de la modélisation. En d’autres termes, les probabili- tés et charges annuelles sont dans un premier temps modélisées sans tenir compte de leurs possibles influences sur les comportements. Leur impact est ensuite intégré aux lois modélisés. Les di érentes quantité d’intérêts sont modélisées à l’aide de la théorie des modèles linéaires généralisés. Dans le chapitre suivant, nous en présentons les fondements théoriques. Ahmed Tidiane DIOMANDE 38/96
  40. 40. Chapitre 4 Les modèles linéaires généralisés pour la tarification Dans ce chapitre, nous présentons queques éléments théoriques liés aux GLM 1 après une présentation succincte du modèle linéaire "classique". 4.1 Le modèle linéaire gaussien : Un modèle souvent peu adapté aux problématiques assurantielles Le modèle linéaire gaussien est le modèle de régression linéaire classique. C’est l’un des modèles les plus utilisés en statistiques du fait de sa simplicité. Nous verrons après sa présentation théorique que cette simplicité est souvent inapropriée dans le contexte assurantiel. Cette section s’appuie sur le chapitre 9 de [Denuit & Charpentier(2005)]. 4.1.1 La formalisation du modèle Il s’agit du modèle de régression suivant : Yi = —0 + pÿ j=1 —jxij + ‘i, ‘i ≥ Nor(0, ‡2 ), i œ {1, . . . , n} (4.1) Qui s’écrit sous forme matricielle comme suit : Y = X— + ‘ (4.2) Avec : • n : Nombre d’observations, • p : Nombre de variables explicatives, • Y = (Y1, . . . , Yn)t : Variables réponses à expliquer supposée indépendantes et non identiquement distribuées, • Xj = (x1j, . . . , xnj)t , j œ {1, . . . , p} : jème variable explicative, 1. Generalized Linear Models, Modèles linéaires généralisés 39
  41. 41. 4.1. Le modèle linéaire gaussien : Un modèle souvent peu adapté aux problématiques assurantielles • X = Q c c c c a 1 xt 1 1 xt 2 ... ... 1 xt n R d d d d b = Q c c c c a 1 x11 x12 · · · x1p 1 x21 x22 · · · x2p ... ... ... ... ... 1 xn1 xn2 · · · xnp R d d d d b : Matrice reprenant les variables expli- catives, • — = (—0, . . . , —p)t : Paramètres du modèle à estimer, • ‘ = (‘1, . . . , ‘n)t : Bruit blanc d’écart type ‡, ‘i ≥ Nor(0, ‡2 ) ∆ Yi ≥ Nor(—0 + qp j=1 —jxij, ‡2 ). 4.1.2 Estimation des paramètres Dans le modèle défini dans la section précédente on suppose que les yi observés sont des réalisations de variables Yi ≥ Nor(—0 + qp j=1 —jxij, ‡2 ). Les paramètres —j peuvent alors être estimés par maximum de vraisemblance. La vraisemblance associée au modèle s’écrit comme suit : L(—, ‡|y) = ( 1 ‡ Ô 2fi )n nŸ i=1 exp(≠ 1 2‡2 (yi ≠ xi t —)2 ) = ( 1 ‡ Ô 2fi )n exp(≠ 1 2‡2 (y ≠ X—)(y ≠ X—)t ) (4.3) On montre (voir chapitre 9 de [Denuit & Charpentier(2005)] pour les détails) que l’estimateur de maximum de vraisemblance du vecteur — est solution des équations dites normales : Xt X ˆ— ≠ Xt Y = 0 … ˆ— = (Xt X)≠1 Xt Y (4.4) Un premier estimateur de ‡ s’écrit : ˆ‡2 = ˆ‘ˆ‘t n (4.5) Mais ce dernier est biaisé, on lui préfèrera : ˆ‡2 = ˆ‘ˆ‘t n ≠ p ≠ 1 (4.6) La valeur ajustée de la variable réponse Y s’écrit : ˆY = X ˆ— = X(Xt X)≠1 Xt Y (4.7) La matrice H = X(Xt X)≠1 Xt est alors appelée matrice de prédiction. Il s’agit de la matrice de projection du vecteur d’observation Y sur l’hyperplan des variables explica- tives. ˆY , valeur ajustée de Y est la projection de Y sur l’espace des variables explicatives. Intuitivement, c’est la meilleur approximation que l’on peut faire de Y au vu des infor- mations disponibles via les variables explicatives. Le vecteur des résidus est estimé par ˆ‘ = Y ≠ ˆY = (I ≠ H)Y . Ahmed Tidiane DIOMANDE 40/96
  42. 42. 4.1. Le modèle linéaire gaussien : Un modèle souvent peu adapté aux problématiques assurantielles Les équations normales peuvent encore s’écrire : nÿ i=1 Xt i (yi ≠ —t xi) = 0, i œ {1, . . . , n} (4.8) Ecrites sous cette forme, les équations normales ont une interprétation intuitive. Les résidus associés au modèle s’écrivent ˆ‘i = yi ≠ —t xi. L’équation 4.8 correspond en e et à l’orthogonalité entre le vecteur des résidus du modèle et le plan des variables explicatives. La projection du vecteur des résidus sur l’hyperplan des variables explicatives est nulle, ce qui signifie intuitivement "qu’il n’y a plus rien" dans les variables explicatives pouvant apporter de l’information sur les résidus. 4.1.3 Validation du modèle et inférence statistique La justesse de l’estimation peut être mesurée par le coe cient de détermination : R2 = 1 ≠ qn i=1(ˆyi ≠ yi)2 qn i=1(yi ≠ ¯y)2 = qn i=1(ˆyi ≠ ¯y)2 qn i=1(yi ≠ ¯y)2 , R2 œ [0, 1] (4.9) Un R2 proche de 1 indique que l’ajustement est de bonne qualité. En e et ce co- e cient est le rapport de la somme des carrés expliquée à la somme des carrés totale. Un R2 proche de 1 équivaut donc à une somme des carrés expliquée proche de la somme des carrés totale et témoigne ainsi d’une perte minime d’information dans la modélisation. Cet estimateur a cependant le défaut de tendre systématiquement vers 1 avec l’ajout de variables explicatives, on lui préférera donc le coe cient de détermination ajusté suivant, pénalisé par le nombre p de variables explicatives du modèle : R2 = 1 ≠ n ≠ 1 n ≠ p ≠ 1 qn i=1(ˆyi ≠ yi)2 qn i=1(yi ≠ ¯y)2 (4.10) Un peu d’inférence statistique Les principales hypothèses du modèle linéaire gaussien sont les suivantes : • Y = X— + ‘ • ‘ ≥ Nn(0, ‡2 In) • X déterministe • Rang(X) = p + 1 < n Sous ces hypothèses, on montre que ˆ— ≥ Np+1(—, ‡2 (Xt X)≠1 ). Ce résultat permet d’avoir des intervalles de confiance et d’e ectuer des test d’hypothèse sur les paramètres estimés. Sous ces hypothèses, on a en e et ˆ—j ≥ Np+1(—j, ‡2 (Xt X)≠1 jj ) et donc : ˆ—j ≠ —j S(XtX)≠1 jj ≥ tn≠p≠1 (4.11) Où tn≠p≠1 loi de student à n ≠ p ≠ 1 degrés de liberté et S2 = ˆ‘ˆ‘t n ≠ p ≠ 1 estimateur sans biais de ‡2 . Ahmed Tidiane DIOMANDE 41/96
  43. 43. 4.2. Le choix des modèles linéaires généralisés Un test de significativité Pour tester la significativité de la jeme variable explicative et décider de l’intégrer ou non au modèle de régression, on peut e ectuer le test suivant : H0 : —j = 0 contre H1 : —j ”= 0 L’hypothèse nulle H0 est alors rejetée au seuil – si | ˆ—j S Ò (XtX)≠1 jj | > t1≠ – 2 ;n≠p≠1 avec t1≠ – 2 ;n≠p≠1 quantile d’ordre 1 ≠ – 2 d’une loi de student à n ≠ p ≠ 1 degrés de liberté. Intervalle de confiance autour des paramètres Dans certains cas, il peut être intéressant d’avoir un intervalle de confiance autour des paramètres estimés pour mesurer le risque asscocié aux estimations. Comme ˆ—j ≥ Np+1(—j, ‡2 (Xt X)≠1 jj ), un intervalle de confiance au seuil – autour de ˆ—j est alors : —j œ [ ˆ—j ≠ t1≠ – 2 ;n≠p≠1S Ò (XtX)≠1 jj ; ˆ—j + t1≠ – 2 ;n≠p≠1S Ò (XtX)≠1 jj ] (4.12) Le lecteur désireux d’avoir plus de résultats sur l’inférence dans le modèle linéaire gaus- saient pourra se référer au chapitre 9 de [Denuit & Charpentier(2005)]. Le modèle linéaire gaussien a longtemps été utilisé pour quantifier l’impact de variables explicatives sur des variables d’intérêt. Mais ce modèle n’est souvent pas adapté à la mo- délisation en assurance. Nous présentons dans la section qui suit la théorie des modèles linéaires généralisés qui o rent plus de possibilité en terme de modélisation et sont plus adaptés aux problématiques assurantielles. 4.2 Le choix des modèles linéaires généralisés 4.2.1 Pourquoi un GLM ? Illustration de la stabilité des GLM sur des échantillons restreints L’approche la plus naturelle lorsque l’on veut par exemple estimer la probabilité de succès d’un évènement donné consiste à diviser le nombre de succès par segment de population ou par cellule tarifaire par le nombre total d’essais e ectué. Cette approche déterministe est exploitable lorsque les échantillons de données dans chaque cellule tari- faire sont su samment fournis pour e ectuer des estimations robustes. Lorsque le plan explicatif est constitué de plusieurs variables explicatives, l’on se retrouve en présence d’échantillons restreints par cellule tarifaire et l’estimation déterministe est alors très volatile. Les GLM permettent d’estimer des e ets associés à chacune des variables ex- plicatives de façon individuelle. L’estimation relative à une cellule tarifaire est alors une fonction de l’ensemble de ces e ets estimés sur la base d’échantillons plus large que ceux obtenus par croisement, ce qui mène à plus de stabilité. Considérons par exemple l’esti- mation de la probabilité d’aller chez le dentiste en fonction de l’age, du sexe et des années d’observation pour des expatriés français aux USA. Ahmed Tidiane DIOMANDE 42/96
  44. 44. 4.2. Le choix des modèles linéaires généralisés Les résultats des deux méthodes d’estimation sont repris dans la figure 4.1 : (a) Estimation déterministe (b) Estimation avec GLM Figure 4.1 – Comparaison méthode déterministe et GLM : Probabilité d’aller chez le dentiste pour des expatriés Français aux USA Comme nous pouvons le constater, avec 5 variables explicatives, certaines cellules ex- plicatives contiennent très peu de données et conduisent à des estimations aberrantes avec la méthode déterministe. Avec les GLM, des e ets sont mesurés individuellement pour chacune des 5 variables explicatives et les estimations par cellule, fonction des e ets individuels de chaque variable, sont donc plus stables. Limites du modèle linéaire gaussien et généralisation Le modèle linéaire gaussien n’est souvent pas adapté aux problématiques d’assu- rance. Il présente par exemple les insu sances suivantes : • La loi normale n’est souvent pas adaptée à la modélisation des variables d’intérêt. En e et il s’agit d’une loi continue et à valeur dans R. Or en assurance on s’inté- resse la plupart du temps au nombre de sinistres à valeurs dans N, au coût d’un sinistre à valeurs dans R+ ou à la probabilité d’avoir un sinistre à valeurs dans [0,1]. Il est parfois possible d’appliquer de bonnes transformations à la variable ré- ponse afin de se ramener à une modélisation par le modèle linéaire gaussien avant d’e ectuer les transformations inverses pour avoir les ajustements souhaités, mais cela induit d’autres biais. • La relation linéaire entre la variable réponse et les variables explicatives n’est pas nécessairement adaptée à toutes les modélisations et impose d’importantes limitations. • L’homoscédasticité supposée dans le modèle linéaire gaussien impose aussi cer- taines limites et ne traduit pas nécessairement la réalité des variables dont on souhaite étudié le "comportement". Les modèles linéaires généralisés sont une double généralisation du modèle linéaire clas- sique et pallient aux importantes limitations qu’il impose. Nous noterons dans la suite ÷ = X— le score du modèle et µ = E(Y ) l’espérance de la variable d’intérêt Y . Ahmed Tidiane DIOMANDE 43/96
  45. 45. 4.2. Le choix des modèles linéaires généralisés Cette section s’appuie sur le chapitre 9 de [Denuit & Charpentier(2005)], le chapitre 2 de [Mc Cullagh & Nelder(1989)] et le chapitre 9 de [Droesbeke et al.(2005)Droesbeke, Lejeune, & Saporta]. 4.2.2 La première généralisation du modèle linéaire classique : les lois de la famille exponentielle comme loi pour la va- riable réponse Le modèle linéaire classique est souvent inadapté quant à la loi qu’il associe aux variables d’intérêt. Grâce aux GLM il est possible de leur associer d’autres lois que la loi normale. Ces lois font partie de la famille exponentielle qui o re un cadre commun d’estimation et de modélisation. La famille exponentielle Une variable Y a une loi faisant partie de la famille exponentielle si sa densité peut se mettre sous la forme : f(y|◊, „) = exp A y◊ ≠ b(◊) „ + c(y, „) B , y œ S (4.13) Avec : • ◊ : Paramètre naturel, aussi appelé paramètre canonique ou encore paramètre de la moyenne. • „ : Paramètre de dispersion. Il n’existe pas pour certaines lois de la famille expo- nentielle, notamment lorsque la loi de Y ne dépend que d’un seul paramètre (on pose dans ces cas „ = 1). Sinon il s’agit d’un paramètre de nuisance qu’il faut estimer. Comme son nom l’indique, ce paramètre est lié à la variance de la loi. C’est aussi un paramètre très important dans la mesure où il contrôle la variance et donc le risque. Dans certains cas une pondération est nécessaire pour accor- der des importances relatives aux di érentes observations et le paramètre „ est remplacé par „ Ê , Ê étant un poids connu à priori. • S : Support de la loi, sous-ensemble de R ou N • La fonction b(.) (resp. c(.)) est une fonction de ◊ (reps. de ◊ et y œ S). La fonction b(.) doit être 2 fois dérivable. Les densité des lois normale, de Poisson, binomiale et Gamma peuvent se mettre sous la forme 4.13 (voir table 4.1) et font ainsi partie de la famille exponentielle. Loi S ◊ „ b(◊) c(y, ◊) N(µ, ‡2 ) R µ ‡2 ◊2 2 ≠ 1 2 A y2 ‡2 + ln(2fi‡2 ) B Gamma(‹, µ) R+ ≠ 1 µ 1 ‹ ≠ln(≠◊) ‹ln(‹y) ≠ ln(y) ≠ ln( (‹)) Bin(n, p) N ln( p 1 ≠ p ) 1 nln(1 + exp(◊)) ln A n y B Pois(⁄) N ln(y) 1 exp(◊) ≠ln(y!) Table 4.1 – Quelques lois de la famille exponentielle Ahmed Tidiane DIOMANDE 44/96

×