la régression de poisson slide..........

La Régression de poisson
Exemple1:
-Exemple relatif à l’étude d’un portefeuille d’assurance automobile: on se
dispose d’un échantillon de 54 conducteurs pour qui on observe les variables
suivantes:
 genre: 1=femme, 2=homme;
 région: 1=rurale, 2=autre, 3=urbaine;
 type de la voiture: 1=petite, 2= moyenne, 3= grande;
 emploi: 1=fonctionnaire/autres…, 2=entre-deux, 3=dynamique
 npol: nombre total d’assurés dans cette cellule;
 n: nombre total de sinistres observés durant l’année précédente.

Le nombre de sinistres et les facteurs de risque: pour un individu ayant la
combinaison (genre=1, région=3, type=1 et emploi=1), aura en moyenne exp(-
2.8401+0.2742)*100=7.68% plus de sinistres qu’un individu ayant la meilleure
combinaison (genre=1, region=1, type =1 et emploi=1)

Exemple2:

Exemple3:
 The number of awards earned by students at one high school. Predictors of the
number of awards earned include the type of program in which the student was
enrolled (e.g., vocational, general or academic) and the score on their final exam
in math.
 num_awards is the outcome variable and indicates the number of awards
earned by students at a high school in a year,
 math is a continuous predictor variable and represents students’ scores on their
math final exam
 prog is a categorical predictor variable with three levels indicating the type of
program in which the students were enrolled. It is coded as 1 = “General”, 2 =
“Academic” and 3 = “Vocational”.

Régression de Poisson: Modèle de comptage

La Régression de poisson:
Ajustement par variable de décalage (offset)

Loi de Poisson avec offset: biodiversité des
fourmis
 Le but de l’étude est d’étudier la biodiversité des fourmis en forêt tropicale
dans différents milieux, en comparant leur richesse.
 Quatre type de milieux sont étudiés: la forêt de plateau (GPWT), la forêt
de liane (FLWT), la forêt de transition (FTWT) et la forêt D’Inselberg
(INWT)
 Une observation est la donnée du nombre d’espèces de fournis présentes
dans 1 m2 de litière récolté dans un milieu donné.
 Les échantillons de litière récoltés sont pesés (variable Poids exprimé
en kilogramme) et le poids est considéré comme un proxy (un
indicateur) de l’épaisseur de la litière. 50 points d’échantillonnage distants
d’au moins 10m ont été choisis dans chaque milieu, sauf pour la forêt
d’Inselberg, pour laquelle seuls 20 points d’échantillonnage ont été
sélectionnés en raison de sa relative petite taille.

Loi de Poisson avec offset: biodiversité des fourmis
Les graphiques illustrent la variabilité des poids de litière récoltés en fonction
du site, ainsi que la variabilité du nombre d’espèces de fourmis présentes dans
chaque échantillon pour chacun des sites.

 La variable Y que l’on cherche à expliquer est un nombre d’espèces de fourmis présentes dans
1m2 de litière sur un site donné.
En supposant que les différentes espèces de fourmis se répartissent au hasard et de façon homogène
dans la litière, il est naturel de modéliser le nombre d’espèces de fourmis présentes par une loi de
Poisson. Le paramètre de la loi de Poisson représente le nombre moyen d’espèces de fourmis attendu
pour chaque observation.
Pour que les différents prélèvements soient comparables, il faudrait que les volumes de litière prélevés
soient identiques, lambdai désignerait alors un nombre d’espèces de fourmis moyen par unité de
volume, c’est-à-dire une densité. Puisque ce n’est pas le cas dans l’expérience, il est nécessaire de
prendre en compte la différence de volume des observations.

- En utilisant la fonction de lien naturel de la loi de Poisson, le modèle final est donné par:
- Vij désignant le volume de litière prélevé pour l’observation j sur le site i. cette information
n’étant pas disponible, le poids de litière va être utilisé comme indicateur de ce volume.
-Wij désignant le poids de litière prélevée pour l’observation j sur le site i. lambdai désigne
donc le nombre d’espèces de fourmis par unité de poids.

-En appliquant l’algorithme de Newton-Raphson, on obtient les estimations pour les paramètres du
modèle.
- Les valeurs prédites pour 1 kg de litère sont donc lambda(FLWT)=31,0; lambda(FTWT)=21,0;
lambda(GPWT)=26,9; lambda(INWT)=27,8.

 Pour étudier les différences de richesse entre les différents sites, on est
amené à tester l’effet Site.
La table donne les déviances du modèle nul (sous l’hypothèse H0) et du
modèle complet, ainsi que la valeur critique du test de rapport de
vraisemblance.
 La déviance diminue de 432.2 à 389.3 avec l’introduction de l’effet site et la
valeur critique du test du rapport de vraisemblance est très faible: le milieu
a un effet significatif sur la richesse spécifique.

 Pour comparer les richesses de deux sites (l’égalité des densités
moyennes des deux sites ou l’égalité de leur logarithme):
-la table donne pour chaque paire de sites la valeur critique du test d’égalité
des richesses spécifiques.
- Les différences de richesse spécifique sont donc significatives pour chaque
paire de sites au risque de 5%.

Régression de Poisson: Qualité d’ajustement

Adéquation du modèle estimé

Régression de Poisson: Inférence statistique

Régression de Poisson: Interprétation des coefficients

Régression de Poisson: Sélection des variables

Régression de Poisson: Etudes des résidus

Régression de Poisson: Points Levier

Régression de Poisson: Surdispersion

La sur-dispersion

La sur-dispersion: Exemple

Modèles à inflation de zéros

La régression Binomiale négative

Poisson tronquée en 0: portées d’agneaux
 On s’intéresse à l’influence du génotype sur la taille des portées chez la
brebis. Pour n=161 brebis qui ont mis bas, on a noté la taille de leur portée
ainsi que leur génotype: BC, BG et CG pour 4 générations de croisements
BG.
Cette table donne les nombres des
portées de tailles allant de 1 à 5 petits
pour chaque génotype.
Cette table donne pour chaque
génotype et pour tous génotypes
confondus: le nombre de portées,
le nombre total de petits et le
nombre moyen de petits par
portée.
L’examen de cette table montre qu’il semble y avoir une différence de taille
des portées selon le génotype, la question est de savoir si elle est
significative.

 la variable Y que l’on cherche à expliquer est le nombre de petits qu'il est naturel
de modéliser par une distribution de Poisson. Cependant, ici on ne retient que la
taille des portées des brebis qui ont mis bas, et la valeur 0 ne sera jamais
observée.
 Pour prendre en compte cette information dans la modélisation, on va supposer
que le nombre de petits est distribué selon une loi de Poisson tronquée en 0.
 La loi de Poisson tronquée est donc un cas de sous-dispersion.

Effet du génotype (rapport de vraisemblance)
Comparaison des génotypes
-la table donne les estimations des paramètres du maximum de vraisemblance
obtenues par l’algorithme de Newton-Raphson. On en déduit
-omega1= mu+alpah1= 0.191, omega2=mu+alpha2=0.975
omega3=mu+alpha3=0.894,
-d’où lambda1=1.21, lambda2=2.65 et lambda3=2.44

Comparaison des génotypes

Loi Gamma: roulements à billes, durées de vie
Contexte général
La variable réponse est la durée de vie en heures. On soupçonne que 3 facteurs,
notés A, B et C, peuvent avoir un effet sur la fiabilité. Un plan factoriel complet 2
puissance 3 a été mis en place, et on a obtenu les résultats de la table:
Un modèle usuel pour ce type de données est la loi de probabilité gamma de densité.
Cette loi pour des données positives (comme les durées de vie) permet de prendre en
compte une forte dissymétrie fréquente pour ces données. La fonction de lien
canonique est la fonction inverse 1/mu qui représente le nombre de pannes à l’heure.

Loi Gamma: roulements à billes, durées de vie
Contexte général
Le modèle additif avec les facteurs A et B
suffit pour prédire correctement la durée
de vie. Le facteur et les interactions ne
sont pas significatives.
Pour augmenter la durée de vie (diminuer le nombre de pannes à la minute), il
faut mettre les facteurs A et B au niveau haut. Si on utlise un lien linéaire, l’effet C
et l’interaction AB sont significatives.

-Présenter des analyses de régression appropriées lorsque la variable
dépendante prend uniquement des valeurs entières non négatives (0,1, 2,…)
et que les grandes valeurs représentent des événements rares.
-Analyse de régression:
 Régression de Poisson;
 Régression de Poisson ajustée pour la sur dispersion;
 Régression binomiale négative.
- Ces modèles font parties des modèles linéaires généralisés (procédure glm
de R pour l’estimation de ce type de modèle).

-La variable à modéliser est un nombre d’événements.
-Exemple:
 Nombre d’actes violents;
Nombre de sinistre;
Nombre de clients servis aujourd’hui;
Nombre d’infections de l’oreille de jeunes nageurs;
Nombre d’appels téléphonique.
-Plusieurs solutions:
 Catégoriser la variable dépendante (ex: 0 et 1, 2 à 7, 8 et plus) ou même
dichotomiser afin d’utiliser la régression logistique;
 Utiliser la régression linéaire multiple;
 Transformer la variable dépendante et modéliser la variable
transformée.

-Plusieurs désavantages:
 Désavanatges de la catégorisation: La perte d’information, les résultats
sont affectés par le choix des points de césure.
 Désavantages de la régression linéaire multiple: Les postulats de la
régression linéaire multiple ne seront pas respectés (normalité des
résidus), les valeurs estimées par le modèle ne seront pas
nécessairement des valeurs entières et positives.
 Désavanatges de la transformation logarithme: la VD pouvant prendre
la valeur 0, pour calculer son logarithme, il faut ajouter une constante
y_tran= ln (y+1)

La loi de Poisson décrit la distribution d’événements (rares) survenant dans un
intervalle de temps de façon aléatoire et indépendante.

 beta0 représente le logarithme népérien de l’espérance de la variable
dépendante Y lorsque les p variables exogènes prennent simultanément la valeur
0: beta0= ln( mui).
 si on augmente xij d’une unité et que l’on maintient constante la valeur des
autres exogènes, alors la valeur moyenne de Yi est multipliée par exp(betaj).
 Betaj représente le facteur selon lequel le nombre moyen mui de Yi augmente ou
diminue selon le signe de betaj, lorsque xij augmente d’une unité toute en
laissant les autres valeurs explicatives inchangées.

la régression de poisson slide..........

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

la régression de poisson slide..........