SlideShare une entreprise Scribd logo
1  sur  34
Télécharger pour lire hors ligne
Modèles mixtes appliqués
aux Sciences Humaines
avec SPSS
23/02/2010
Préparation : Céline Bugli, Nathalie Lefèvre, Mathieu Pigeon, Erik Doffagne
Date : 26 février et 4 mars 2010
2
Documentation
SUPPORT
Transparents disponibles sur le site du SMCS
LIENS UTILES
Site du SMCS (Support en Méthodologie et Calcul Statistique) : http://www.uclouvain.be/SMCS
Documentation Stat + SPSS :
SAS and SPShttp://faculty.chass.ncsu.edu/garson/PA765/multilevel.htm
http://www.ats.ucla.edu/stat/spss/
SAS and SPSS MIXED Syntax Guides, Hoffman, 2009
(psych.unl.edu/psycrs/944/SAS_SPSS_Mixed.pdf)
Help de SPSS et SAS
LIVRES UTILES
Introduction to Mixed Modelling: Beyond Regression and Analysis of Variance. N.A. Galwey
SAS for Mixed Models, Second Edition, Littell R. and al., Cary, NC: SAS Institute Inc. (2007)
Bressoux, P. (2008). Modélisation statistique appliquée aux sciences sociales. Bruxelles : De Boeck
Applied mixed models in medicine, Brown H. and Prescott R., Wiley, New York (1999)
…
3
Objectifs de la formation
Résumés succincts des modèles GLM
Limites des GLM
Introduction aux modèles mixtes
Application sur des données de l’ARC
Au terme de la formation, vous serez capable de :
Décider quand utiliser un modèle mixte
Déterminer quel modèle utiliser (parmi les modèles simples)
Savoir comment l’utiliser
Interpréter les résultats
Rapporter les résultats
4
Plan
Demi-journée 1 :
Etude de cas
Résumé et limites des GLM
Théorie sur les modèles mixtes
Premières Applications
Demi-journée 2 :
Exercices
Modèles plus complexes
5
Etude de cas
Impact of the processing of specific information
on decision making – Raffaella Di Schiena
6
Etude de cas
Déroulement de l’expérience
20 minutes de training
10 situations différentes (5 positives et 5 négatives)
Ruminations à voix haute
Abstract thinking
Concret thinking
10 dilemmes liés au matériel de training
Choix parmi 2 options
Mesures
TR (en ms)
Difficulté – de 1 (pas difficile du tout de décider) à 7 (très difficile)
Inconfort – de 1 (pas d’inconfort du tout en décidant) à 7 (beaucoup)
Mesures autres
Score de dépression au BDI
Niveau d’alexithymie mesuré par le TAS
Niveau de rumination dispositionnelle mesuré par le RSS
7
Etude de cas
Training abstrait
… Prenez le temps de vous concentrer sur chaque situation, sur votre
action et de penser de façon très abstraite à la situation. Ne vous
concentrez-pas sur les détails…
La description fournit un résumé de ce qui s’est passé et c’est tout ce qu’il
vous faut. En vous basant sur la description, pensez en terme de mots
pour quelles raisons la situation s’est déroulée de cette manière, ainsi que
les significations, les implications et les conséquences qui sont associées
à cette situation selon vous. Envisagez ce qui a causé la situation et jugez
ce que cela signifie pour vous.
Vous disposerez de deux minutes et demie pour verbaliser ce qui vous
passe par la tête…Vos verbalisations seront enregistrées de façon
complètement anonyme.
8
Etude de cas
Exemple de Training abstrait
ACCIDENT DE VOITURE
Imaginez que vous avez survécu à un accident de voiture sur
l’autoroute. Vous avez un accident de voiture. Sur l’autoroute,
un camion entre en collision avec votre voiture. Votre voiture
est bonne pour la casse. Vous n’êtes pas sérieusement
blessé(e), mais avez néanmoins une jambe cassée.
Que pensez-vous du conducteur du camion?
Quelle a été la cause de l’accident?
Quelle influence votre jambe cassée aura-t-elle sur votre vie?
9
Etude de cas
Training concret
… Prenez le temps de vous concentrer sur chaque situation, de vous
imaginer dans chaque situation et d’imaginer de façon très vivante ce qui
peut se passer.
Imaginez la scène, comme si vous étiez réellement là– imaginez de
manière aussi vivante que possible ce que vous pouvez voir, entendre,
sentir, toucher et expérimenter dans la situation. Soyez attentif à noter ce
qui se passe tout autour de vous, instant après instant– en vous
représentant ce qui se passe avant, pendant et après les événements
centraux de la situation.
Vous disposerez de deux minutes et demie pour verbaliser ce qui vous
passe par la tête…Vos verbalisations seront enregistrées de façon
complètement anonyme.
10
Etude de cas
Exemple de Training concret
ACCIDENT DE VOITURE
Imaginez que vous avez survécu à un accident de voiture sur
l’autoroute.
Quand réalisez-vous pour la première fois que le camion était sur le
point de vous percuter ?
De quelle direction venait le camion ?
Laquelle de vos jambes a été cassée ?
11
Etude de cas
Exemple de Dilemme
ACCIDENT DE VOITURE
Comment vas-tu demander de l’aide ?
12
Etude de cas
Individus
71 participants
Variables
ID VI Variable
expérimentale
Variables
« Contrôles »
VD
Sujet Condition
Valence
Dilemme Score de dépression (BDI)
Niveau d’alexithymie (TAS)
Niveau de rumination (RSS)
TL_Base (variable simulée)
TR
Difficulté
Inconfort
13
Introduction : Vocabulaire
Un facteur = manipulation expérimentale ou
caractéristique des individus
Ex : Condition, Valence
Un niveau = traitement ou caractéristique
spécifique
Ex : Abstrait/Concret, Positif/Negatif
Chaque niveau a un effet : le fait d’être dans
une condition expérimentale a un effet sur la
moyenne des TR
14
Expliquer les TR (dilemme2) par la difficulté à
prendre une décision? (Imaginons la difficulté comme continue)
Modèle avec 1 variable continue (comme VI)
Prerequis : General Linear Model
1er exemple :
Régression linéaire simple
15
Régression linéaire simple
Permet de (tester s’il est possible de) prédire
une variable continue sur base d’une autre
variable continue
Y = VD, TR X = VI, difficulté
16
Les TR (dilemme2) sont-ils affectés par la
difficulté à prendre une décision?
Modèle vide : Yi =β0 + εi
Modèle avec 1 prédicteur :
Yi=β0+β1X+εi
β0 et β1 sont des paramètres du modèle
Constante = estimée par la moyenne des Y
Pente liée à X : indique de combien Y
change quand X change d’une unité
Erreur propre à chaque individu i
Constante ou intercept :
estimé par la moyenne des Y si X=0
17
Imaginons 2 Situations (données fictives)
18
Construire un modèle vide consiste à prédire
Y sur base de sa moyenne : Yi =β0 + εi
b0 =11500
19
Dans une des situations, introduire un lien
à X va aider à prédire Y: Yi =β0 +β1X+ εi
Yi=b0+b1X1≈12015-151.51Xi
Yi=b0+b1X1≈6333+939.39Xi
20
Comment détermine-t-on la droite?
Par le critère des moindres carrés : Trouver la
droite qui minimise la somme des carrés des
écarts entre Yi et Yi (minimiser )
X
Y
0
1000
2000
3000
4000
5000
6000
7000
8000
0 4 8 12 16 20
Yi
Yi
Résidu : ei=Yi-b0-b1Xi
Yi=b0+b1Xi
21
1
2
10 )(
X
XY
n
i
ii
S
S
bXbbY =⇔−−∑=
21
Comment teste-t-on un paramètre du modèle?
Par une décomposition et un rapport de variance
Variance totale de Y = variance de Y expliquée par X + erreur :
Variance des TR = variance des TR expliquée par la difficulté + erreur
Sum of SquaresTotal = SSRegression + SSResidual
Pour tenir compte du N et de la complexité du modèle (MS=SS/dl):
Mean Squares Total = MSRegression + MSResidual
Test : H0 : β1=0 => Yi =β0 +β1X+ εi =β0 +εi
H1 : β1≠0 => Yi =β0 +β1X+ εi
Test : Rapport entre ce qu’explique le modèle et ce qui reste inexpliqué:
MSRegression/ MSResidual ~ F(n1,n2) sous H0
R²=1-((SSResidual - SSRegression)/ SSRegression) = SSRegression/SSTotal
22
Décomposition de la variance
sidualgressionTotal SSSSSS ReRe +=
Nombredemots
0
1000
2000
3000
4000
5000
6000
7000
8000
0 2 4 6 8 10 12 14 16 18 20
Y
YYi −
YYi −ˆ
iii YYe ˆ−=
Yi : Résultat du ième individu
Y : Résultat moyen observé
: Résultat prédit par le modèle
ei : Fluctuation aléatoire due aux différences entre individus
Yi
23
Ex: Les TR (dilemme2) sont-ils affectés par
la difficulté à prendre une décision?
SPSS : Analyze → Regression → Linear
24
Comment juger si le modèle est bon?
En regardant la p-valeur et le coefficient R2
2
1
)ˆ( YY
n
i
i −∑=
2
1
)ˆ(∑=
−
n
i
ii YY
Somme des carrés
expliquée par le modèle
Somme des carrés
résiduelle
p-valeur indiquant si le
modèle Y= β0+β1X+ε
est meilleur qu’un
modèle ayant
seulement une
constante Y= β0+ε
Pourcentage de
variabilité de la réponse
expliquée par le modèle
Pourcentage de variabilité de la réponse expliquée
par le modèle pondérée par le nombre de variables
du modèle et le nombre d’observations
Ecart-type
des résidus
25
X
Y
0
1000
2000
3000
4000
5000
6000
7000
8000
0 4 8 12 16 20
Comment juger si le modèle est valide?
En analysant les résidus et les points influents
Les hypothèses suivantes doivent être vérifiées
Permet de s’assurer qu’un bon modèle est bien valide
Permet parfois de comprendre pourquoi un modèle
n’est pas bon
Termes d’erreur
Modèle linéaire
εεεεi ~ iN(0,σσσσ²)
Indépendance
des observations
Normalité de
la distribution
Homogénéité
des variances
iii XY εββ ++= 10
26
Ex: Analyse graphique des résidus du modèle
SPSS : Analyze → Regression → Linear (Plots - Save)
Variance ± constante ?
± 95% des ri entre -2 et 2 ?
1 point très extrême…
(Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot) (Save: Prédi unstand. & Leverage
Scatter/Dot: X=Prédi unstd.
Y=Leverage)
Résidus Normaux ?
Non!
Risque de force de levier si
leverage > 2p/n
27
Des problèmes peuvent être détectés via
une simple analyse descriptive
Histogramme des TR
Un outlier
Une distribution
dissymétrique
Nécessité de transformer
Log_TR
28
Expliquer les LOG_TR (dilemme2) par la
difficulté à prendre une décision?
(imaginons la difficulté comme continue)
Modèle avec 1 variable continue (comme VI)
2ème exemple :
Régression linéaire simple sur
données transformées
29
Même analyse avec la VD transformée
SPSS : Analyze → Regression → Linear
Comment juger si le modèle est bon ?
30
Comment juger si le modèle est valide ?
SPSS : Analyze → Regression → Linear (Plots - Save)
Variance ± constante ?
± 95% des ri entre -2 et 2 ?
1 point très extrême…
(Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot) (Save: Prédi unstand. & Leverage
Scatter/Dot: X=Prédi unstd.
Y=Leverage)
Résidus Normaux ?
Oui!
Risque de force de levier si
leverage > 2p/n
31
Estimations des
paramètres β0+β1
p-valeurs associées aux tests
dont l’hypothèse H0 est la nullité
du paramètre
Comment rapporter le modèle estimé ?
Sous forme d’une équation
Log_TR = 9.12+0.083*Difficulté
32
Régression linéaire multiple
A noter: Absence de colinéarité comme
condition supplémentaire d’application
Un lien trop important entre VI entrées dans le
modèle est source d’instabilité et d’erreur (des
effets peuvent s’inverser par ex.)
Comme vérification : VIF <5 voire 10
33
Prerequis : General Linear Model
Régression simple, multiple…
ANOVA à 1 critère, à 2 critère…
ANCOVA …
Oui MAIS les GLM ne répondent pas à tout
34
Limites des GLM
Ex: Analyse des TR en fonction de la condition,
mais en tenant compte des différents Dilemmes
Que faire? Solutions erronées :
Ne pas tenir compte du fait qu’on a plusieurs Dilemmes, faire
comme si chaque observation est un nouvel individu
Les Dilemmes introduisent une variabilité du fait de leur longueur
et induisent donc du bruit qu’il y aurait moyen d’extraire
Tenir compte des Dilemmes comme d’un facteur between
On considère comme indépendantes des données qui sont liées.
Il existe une structure de corrélation dont on ne tient pas compte
35
Limites des GLM
Ex: Analyse des TR en fonction de la condition,
mais en tenant compte des différents Dilemmes
Que faire? Solutions non optimales voire risquées
Utiliser une ANOVA avec Dilemme comme facteur répété
On n’est pas vraiment intéressé par tester cette variable
Utiliser un score moyen pour résumer les dilemmes
Attention à l’utilisation de la moyenne selon les distributions
Cela peut cacher un effet ou montrer un effet artefact
36
Modèles mixtes
La solution se trouve dans les modèles
mixtes
Permet de définir une structure de corrélation
Tire un maximum d’informations en cas de
valeurs manquantes
Corrige les problèmes liés à des groupes
disproportionnés en nombre (shrinkage)
…
37
Expliquer les TR (LOG_TR_1) par l’inconfort
ressenti durant la décision – Plusieurs
données par individu? (imaginons l’inconfort comme continu)
Comparaison entre un Modèle réalisé sur les
moyennes avec 1 variable continue et un Modèle
avec 1 variable continue et 1 facteur aléatoire
3ème exemple (simulé) :
Régression ou modèle mixte ?
38
Exemple simulé - GLM
Calcul d’un temps (en log) et d’un
inconfort moyen à travers les dilemmes.
Régression afin de prédire le temps
moyen en fonction de l’inconfort moyen
39
Ex: Régression afin de prédire le temps moyen
en fonction de l’inconfort moyen
Semble montrer un temps
qui augmente avec l’inconfort
Et pourtant…
40
Exemple simulé – Modèle mixte
Ex: Modèle mixte avec l’ID en facteur aléatoire
Montre un temps qui diminue avec l’inconfort !!!
41
Pourquoi ?
En prenant un temps moyen par
participant, cela crée l’illusion que le
temps augmente avec l’inconfort…
En analysant ce qui se
passe par participant,
c’est la tendance
inverse qui se dessine
…
42
Approche classique
- Insuffisante du fait de la non indépendance des observations
- Limitée : elle ne peut prendre en compte l’ensemble de la variabilité
des phénomènes
Approche multiniveau
- Vise à mesurer et analyser la variance à chaque niveau
- Les facteurs de niveau élevé ne sont plus uniquement considérés
comme des facteurs de nuisance (ex: en éducation – effet classe)
Le modèle linéaire multiniveau est l’instrument de base
permettant
- La prise en compte des effets de milieu dans l’analyse de la variabilité
des comportements individuels
- L’analyse de l’association entre caractéristiques individuelles et
facteurs de niveau plus élevé
- Le traitement des données corrélées
43
Structurer les données sur différents niveaux permet la
décomposition en effets fixes et aléatoires
Dans un modèle statistique, il y a toujours une part
d’inobservé, une partie de la réalité qui n’est pas
explicitée
En dissociant dans un modèle les caractéristiques à
différents niveaux d’observation, on peut percevoir de
manière plus fine cette ≪hétérogénéité non observée≫:
on obtient une mesure de la variance par niveau
44
Différents types de modèles mixtes
Modèles mixtes = Modèles multiniveaux
Modèle à
effets aléatoires
Modèles à
coefficients aléatoires
Modèle à
Pattern de covariance
Effets aléatoires
associés à des variables
catégorielles (individus,
items,…)
Effets aléatoires
associés à des variables
continues (état de
dépression, TL_Base…)
Modélisation directe du
pattern de corrélation
(mesures répétées)
45
Partons du modèle le plus simple
Considérons une expérience dans laquelle intervient une
condition expérimentale à 2 niveaux (Abstrait/Concret) qui
est supposée avoir un impact sur les TR
= moyenne des TR pour les sujets en condition Abstrait
= moyenne des TR pour les sujets en condition Concret
Le modèle le plus simple est :
Interprétation : Un TR ( ) observé chez un individu donné
dans la condition A équivaut à la moyenne de la condition
Abstrait ( ) plus une variation aléatoire appelée erreur ( )
provenant de ce qui est particulier à l’individu concerné et qui
ne provient pas de la condition Abstrait
C
µ
A
µ
Y e
A A
µ= +
Y
A
A
µ e
46
Données
Sujet Dilemme Valence Condition TL_Base LOG_TR
1 1 1 a 9.00 9.04
1 2 2 a 7.20 8.55
1 3 1 a 20.12 10.25
1 4 2 a 9.02 9.32
2 1 1 a 8.00 8.98
2 2 2 a 8.50 9.02
2 3 1 a 9.00 9.26
2 4 2 a 8.90 9.75
3 1 1 c 9.50 9.88
3 2 2 c 9.56 10.01
3 3 1 c 9.02 9.14
3 4 2 c 8.30 8.99
47
4ème exemple :
Modèle à effet fixe
Expliquer les TR par la condition
Modèle avec 1 facteur fixe
48
Comment évaluer l’effet
de la condition?
Means model: Y e
A A
µ= +
Un TR en condition « Abstrait »
Moyenne des observations dans
la condition « Abstrait »
Terme d’erreur
A
µ
Abstrait Concret
C
µ
Y
A
e
Y e
C C
µ= +Et de façon analogue pour la condition « Concret »:
49
• ANOVA: c e
A A
µ µ= + +
Effet de la condition « Abstrait »
Terme d’erreur
Y c e
A A
µ= + +
Moyenne des observations dans
la condition « Abstrait »
Y c e
C C
µ= + +
Et de façon analogue:
0 1
* j ij
Y condition e
ij
β β= + +
Pour le sujet i dans la condition j
Abstrait Concret
µ
Y
A
e
A
µ
C
µ
Ac
50
Modèle à effet fixe tenant compte
de la condition
2~ (0, )e N
ij
σ
Y condition e
ij j ij
µ= + +
Y c e
A A
µ= + +
Y c e
C C
µ= + +
avec
Pour le sujet i dans la condition j
51
0
2
4
6
8
10
12
14
16
Abstract Concrete
c
A
Abstrait Concret
Y
A
e
c
C
µ
A
µ
C
µ
2σ
2σ
52
5ème exemple :
Modèle à effets fixes
Expliquer les TR par la condition et la valence
Modèle avec 2 facteurs fixes
53
Modèle à effet fixe tenant compte
de la condition et de la valence
2~ (0, )e N
ij
σ
k
Y valence condition e
ijk j ij
µ= + + +
avec
Pour le sujet i dans la condition j et la valence k
µ
µNegative
µj
VΝeg
Yij
τj
εij
µPositive
VPos
CConc
CΑbs
CConc
CΑbs
54
0
5
10
15
20
Positive Negative
Abstract
Concrete
55
6ème exemple :
Modèle à effet aléatoire
Expliquer les TR par la condition et la valence
en tenant compte du facteur individu
Modèle avec 2 facteurs fixes et 1 facteur aléatoire
56
Effet sujet
2~ (0, )e N
ij
σ
1
c s
A A
µ µ= + +
2
c s
A A
µ µ= + +
k
Y v c s e
ij j i ij
µ= + + + +
2σ
où
y Abstrait Concret
2σ
2σ
2σ
1
c s
C C
µ µ= + +
sujet 1 sujet 2 sujet 1 sujet 2
2
c s
C C
µ µ= + +
Effet sujet
Effets fixes
57
Condition 1 Condition 2
Echantillon
Groupe A Groupe B
Performance des individus
Moyenne généraleScore de l’individu i
Moyenne de la condition 1
Moyenne du groupe A
58
Considérons les si comme étant des
réalisations d’une distribution de probabilité:
Les sont appelés effets aléatoires
Les sont appelés effets fixes
Effet sujet aléatoire
k
v c
j
+
2~ (0, )e N
ij
σoù et
s
i
2~ (0, )s N
i s
σk
Y v c s e
ij j i ij
µ= + + + +
59
y Abstrait Concret
c
C C
µ µ= +
c
A A
µ µ= + 2
s
σ
2σ
2σ
2
s
σ
2σ
2σ
60
Effets fixes et aléatoires
1. Effets fixes : facteurs pour lesquels tous les niveaux sont considérés
2. Effets aléatoires : facteurs pour lesquels les niveaux présents dans les
données sont un échantillon aléatoire de tous les niveaux présents dans la
population
Exemples
Effets fixes
1. Le sexe : masculin et féminin sont les 2 seuls niveaux possibles (l’un OU l’autre)
2. Agegroup : Mineur/majeur sont les 2 niveaux de “Agegroup”
Effets aléatoires
1. Sujet : l’échantillon est un échantillon aléatoire de la population
DEFINITIONS
61
Quelles situations cherche-t-on à
modéliser avec un effet aléatoire?
- Tenir compte de mesures répétées pour un même individu
- On modélise un « concept », une « méthode » et on observe
des individus soumis à ce concept
Exemples :
- En science de l’éducation, une classe « scolaire » applique
une méthode d’éducation
- Mesures de croissance sur des arbres : les mesures sont
répétées dans le temps. On cherche à comprendre le
phénomène de croissance (peu importe l’arbre lui-même)
62
6ème exemple
Démonstration SPSS
Expliquer les TR par la condition et la valence
en tenant compte du facteur individu
Modèle avec 2 facteurs fixes et 1 facteur aléatoire
63
A vous d’essayer
Exercice 1
Fichier EX1.sav
64
7ème exemple :
Modèle à effet aléatoire
Démonstration SPSS
Expliquer les TR par la condition, la valence,
en tenant compte du dilemme
Autre modèle avec 2 facteurs fixes et 1 facteur
aléatoire
65 66
8ème exemple :
Modèle à effets aléatoires
Démonstration SPSS
Expliquer les TR par la condition, la valence,
en tenant compte du dilemme et du sujet
Modèle avec 2 facteurs fixes et 2 facteurs aléatoires
67
9ème exemple :
Modèle à effet aléatoire
Démonstration SPSS
Expliquer les TR par la condition, la valence et
le dilemme en tenant compte du sujet
Modèle avec 3 facteurs fixes et 1 facteur aléatoire
Quelque chose d’anormal ? Oui, mais quoi …
68
10ème exemple :
Modèle à effet aléatoire
Démonstration SPSS
Modèle plus simple : expliquer les TR par la
condition et le dilemme en tenant compte du
sujet
Modèle avec 2 facteurs fixes et 1 facteur aléatoire
Réaliser un contraste pour comparer les
dilemmes 5 et 9 (voir slide suivant)
Rien d’anormal …
69
Utiliser les contrastes
But : contraster la valeur d’un niveau avec la valeur d’un
ou de plusieurs autres niveaux du même effet
La matrice de contraste permet de tester si plusieurs
combinaisons linéaires de coefficients sont égales à zéro
Code SPSS pour réaliser des contrastes :
/TEST ‘niveau 2 et 4 de la variable Item' Item 0 -1 0 1.
70
11ème exemple :
Modèle hiérarchique
Expliquer l’exemple 9 par un modèle hiérarchique
Expliquer les TR par la Condition, la Valence et le
Dilemme en tenant compte du sujet et du fait que
Dilemme est niché dans Valence
Modèle avec 3 facteurs fixes, dont un nesté et 1 facteur
aléatoire
71
Modèles hiérarchiques
et effets nestés
Les designs hiérarchiques ont des effets nichés (nested)
Les effets nichés concernent des effets avec de sujets inclus dans des groupes
Exemple : Une expérience est réalisée au plan national et les données sont
récoltées par différents chercheurs provenant de différentes universités
On exprime cela par : sujet (expérimentateur) et expérimentateur (université)
Expérimentateur
= Niveau 2
UCL ULG FUCAM
Raffaella Claudia Andy Toon Remy Adrien Armelle Alyssia
Université
= Niveau 3
Sujet
= Niveau 1
72
Modèle hiérarchique :
Imaginons qu’il y ait seulement un 2ème niveau (expérimentateur=l)
l’estimateur de l’effet sujet se fait par condition
2~ (0, )e N
ij
σoù et 2~ (0, )s N
ij s
σk
Y v c s e
ijkl j il ijkl
µ= + + + +
On pourrait même supposer que:
2~ (0, )e N
ij
σoù et 2~ (0, )s N
ij sl
σk
Y v c s e
ijkl j il ijkl
µ= + + + +
73
11ème exemple :
Modèle hiérarchique
Démonstration SPSS
Expliquer les TR par la Condition, la Valence et le
Dilemme en tenant compte du sujet et du fait que
Dilemme est niché dans Valence
Modèle avec 3 facteurs fixes, dont un nesté et 1 facteur
aléatoire
74
Lien entre la régression linéaire
et le modèle mixte : Notation
matricielle
75
Rappel sur la multiplication de 2 matrices
Step 1
Step 2
Step 3
Step 4
76
Notation matricielle
en régression linéaire
Trois formulations équivalentes
1.
2.
3.
0 1 ,1 ,...i i p i p iY X Xα α α ε= + + + +
pour n observations (i=1,…,n)
1 1,1 1, 0 1
,1 ,
1
1
p
n n n p p n
Y X X
Y X X
α ε
α ε
     
     = +     
     
     
L
M M M M M M
L
Y Xα ε= +
77
0
1 1,1 1, 1
1
,1 ,
1
1
p
n n n p n
p
Y X X
Y X X
α
ε
α
ε
α
 
     
     = +              
 
L
M M M M M
M
L
1 1,1Xα+
1
Y 0α= 1,p pXα...+ + 1ε+
78
Notation matricielle
pour un modèle mixte
y X Z eα β= + +
y
~ (0, )N Gβ
2~ (0, )e N
ij
σY t p e
ij j i ij
µ= + + + où
est le vecteur de la variable dépendante
est le vecteur des paramètres pour les effets fixes
~ (0, )e N R
α
β
où
est le vecteur des paramètres pour les effets aléatoires
79
Construction des matrices de design
n= 12 obs
Sujet Dilemme Valence Condition TL_Base LOG_TR
1 1 1 a 9.00 9.04
1 2 2 a 7.20 8.55
1 3 1 a 20.12 10.25
1 4 2 a 9.02 9.32
2 1 1 a 8.00 8.98
2 2 2 a 8.50 9.02
2 3 1 a 9.00 9.26
2 4 2 a 8.90 9.75
3 1 1 c 9.50 9.88
3 2 2 c 9.56 10.01
3 3 1 c 9.02 9.14
3 4 2 c 8.30 8.99
VD=LOG_TR TL_Base (Vitesse lecture)=Covariée
Imaginons : Sujet = facteur aléatoire et
Autres variables = facteurs fixes
80
1 0 0
1 0 0
1 0 0
1 0 0
0 1 0
Z = 0 1 0
0 1 0
0 1 0
0 0 1
0 0 1
0 0 1
0 0 1
Sujet Dilemme TL_Base LOG_TR
1 1 9.00 9.04
1 2 7.20 8.55
1 3 20.12 10.25
1 4 9.02 9.32
2 1 8.00 8.98
2 2 8.50 9.02
2 3 9.00 9.26
2 4 8.90 9.75
3 1 9.50 9.88
3 2 9.56 10.01
3 3 9.02 9.14
3 4 8.30 8.99
Effet aléatoire :
Sujet
n=12 lignes
Y = (9.04, 8.55,…,9.75,9.88)
Nous voulons modéliser le LOG_TR
TL_Base
Effets fixes :
Dilemme et
vitesse de
lecture de
base
Sujet 2
Sujet 3Sujet 1
1 9.04 1 0 0 0
1 8.55 0 1 0 0
1 10.25 0 0 1 0
1 9.32 0 0 0 1
1 8.98 1 0 0 0
X = 1 9.02 0 1 0 0
1 9.26 0 0 1 0
1 9.75 0 0 0 1
1 9.88 1 0 0 0
1 10.01 0 1 0 0
1 9.14 0 0 1 0
1 8.99 0 0 0 1
Dilem_1 Dilem_2 Dilem_3 Dilem_4
Intercept
81
Si nous considérons un effet aléatoire du Sujet et du Sujet*valence,
Z est défini par
Sujet 1
Sujet 1 et Valence 1
Sujet 2
Sujet 3
Sujet 1 et Valence 2 Sujet 2 et Valence 1
Sujet 2 et Valence 2
Sujet 3 et Valence 1
Sujet 3 et Valence 2
1 0 0 1 0 0 0 0 0
1 0 0 0 1 0 0 0 0
1 0 0 1 0 0 0 0 0
1 0 0 0 1 0 0 0 0
0 1 0 0 0 1 0 0 0
Z = 0 1 0 0 0 0 1 0 0
0 1 0 0 0 1 0 0 0
0 1 0 0 0 0 1 0 0
0 0 1 0 0 0 0 1 0
0 0 1 0 0 0 0 0 1
0 0 1 0 0 0 0 1 0
0 0 1 0 0 0 0 0 1
Sujet Valence
1 1
1 2
1 1
1 2
2 1
2 2
2 1
2 2
3 1
3 2
3 1
3 2
82
Matrice de covariance
( ) ( )V Var Y Var X Z eα β= = + +
( ) ( ) ( )Var X Var Z Var eα β= + +
( ) 0Var X α = ( ) ( ) 'Var Z ZVar Zβ β=
( )Var Gβ = ( )Var e R=
'V ZGZ R= +
et
83
En cas d’effets aléatoires : matrice
G de covariance des paramètres
Si on n’a pas de mesures répétées, cette
matrice est toujours diagonale.
Le nombre de paramètres dépend du
nombre d’effets aléatoires et du nombre de
valeurs différentes des variables choisies
comme effets aléatoires
~ (0, )N Gβ
84
Par exemple,
• Si on a un effet sujet aléatoire et 3 sujets:
• Si on a un effet sujet (3 sujets) et un effet dilemme (4 dilemmes):
0 0
0 0
0 0
p
p
p
G
σ
σ
σ
 
 
=  
 
 
0 0 0 0 0 0
0 0 0 0 0 0
0 0 0 0 0 0
0 0 0 0 0 0
0 0 0 0 0 0
0 0 0 0 0 0
0 0 0 0 0 0
p
p
p
d
d
d
d
G
σ
σ
σ
σ
σ
σ
σ
 
 
 
 
 
=  
 
 
 
 
 
85
En cas d’effets aléatoires :
Matrice R de covariance des résidus
Si on n’a pas de mesures répétées, la
matrice R est toujours diagonale du fait de
l’hypothèse de résidus non corrélés :
2
nR Iσ=
~ (0, )e N R
86
A vous d’essayer
Exercice 2
Fichier EX1.sav
87
Estimation des effets fixes
et aléatoires
ML: maximum likelihood
REML: restricted maximum likelihood (ou residual ML)
La vraisemblance d’un modèle : C’est la probabilité d’effectivement observer
les données si le modèle choisi est vrai. C’est une fonction des observations y
Dans la méthode REML, on utilise une fonction de vraisemblance qui est une
fonction des résidus marginaux:
Estimation par moindre carré? Non, car impossible si données non balancées
Note: Quand les données sont balancées, l’estimation par moindres carrés
est identique à celle REML si on utilise une matrice de covariance
Compound Symmetry. Avantage de REML par rapport à ML :
les estimateurs de variance et covariance sont sans biais.
αˆXy −
88
Méthode Modèles à effets
fixes
Modèles mixtes Modèles
covariance
pattern
balancé Non
balancé
balancé Non
balancé
balancé Non
balancé
ANOVA oui Pas
facilement
oui Pas
facilement
non non
Moindres carrés
(non pondérés)
oui oui non non non non
ML oui oui oui oui oui oui
REML oui oui oui oui oui oui
Ce que permettent ou non
les différentes méthodes
Modèles mixtes appliqués
aux Sciences Humaines
avec SPSS
23/02/2010
Préparation : Céline Bugli, Nathalie Lefèvre, Mathieu Pigeon, Erik Doffagne
Date : 26 février et 4 mars 2010
90
A vous d’essayer
Exercice 3
Fichier EX1.sav
91
A suivre …
Comment savoir si notre modèle est correct ?
Comment tenir compte de la variabilité commune
(corrélation) qui peut exister entre plusieurs
observations?
Comment choisir entre plusieurs modèles?
Comment fait-on lorsqu’une variable continue est
susceptible d’interférer sur les effets?
Comment faire lorsque la VD n’est pas vraiment
continue?
92
Plan
Demi-journée 2 :
Détail des outputs SPSS
Modèles à pattern de covariance
Modèles à coefficient aléatoire
Le choix d’un modèle
Exercices
93
Exercice 3 - Correction
Fichier EX1.sav
Analyse descriptive « Score_2 »
ANOVA : VD = Score_2 & Facteur fixe = Condition
Menu GLM , Menu Mixed Models et comparaison des résultats
ANOVA : VD = Score_2 & Facteur fixe = Condition, ID
Menu GLM , Menu Mixed Models et comparaison avec Exercice 1
Modèle Mixte : VD = Score_2 , Facteur fixe = Condition ,
Facteur aléatoire = ID
Réalisation et comparaison avec l’Exercice 1
94
Outputs SPSS
1. Case processing Summary (comptage des observations par condition)
2. Descriptive statistics (moyenne, SD, CV par condition)
3. Model Dimension (nombre de paramètres du modèle)
4. Information Criteria (Indices d’ajustement -2LL, AIC, AICC, CAIC, BIC,…)
5. Fixed Effects
• Tests de type III (test F)
• Estimates of Fixed Effects (estimation des paramètres et tests t)
• Intervalles de confiance
• Correlation and covariance matrix for estimates of fixed parameters
6. Covariance parameters
• Estimates of Covariance Parameters (estimation des paramètres)
• Tests de Wald
• Intervalles de confiance
• Correlation and covariance matrix for estimates of covariance
parameters
• Random Effect Covariance Structure (G)
• Residual Covariance (R)
7. Estimated Marginal Means (Pairwise Comparisons)
8. Valeurs prédites et résiduelles sauvées dans le fichier de données
95
Exercice 3 – Détail des sorties
Dimension du modèle
96
Exercice 3 – Détail des sorties
Indices d’ajustement
(pour comparer des modèles emboîtés)
97
Indices d’ajustement
Critère d’Akaike
AIC = - 2 (Res) Log likelihood + 2d
Critère de Schwartz (BIC) – Recherche de la matrice qui minimise le BIC
BIC = - 2 (Res) Log likelihood + d×Log(n)
- Pour REML, la valeur de « n » correspond au nombre total d’observations
moins le nombre de paramètres d’effets fixes et « d » est le nombre de
paramètres de covariance
- Pour ML, la valeur de « n » correspond au nombre total d’observations et
« d » au nombre de paramètres d’effets fixes auquel on ajoute le nombre
de paramètres de covariance
Pour plus de détails sur les autres indices – voir l’Help SPSS
98
Tests du rapport de vraisemblance :
test d’un effet aléatoire
Test sur le modèle à un effet aléatoire : H0 : σs
2 = 0
Statistique utilisée :
G2 = [-2Log L(Modèle sans effet)] - [-2Log L(Modèle à un effet)]
Calcul du niveau de signification :
Niveau de Signification = 0.5Prob(χ2(0) ≥ G2) + 0.5Prob(χ2(1) ≥ G2)
(χ2(0) = 0 avec la probabilité 1)
Attention uniquement valide avec ML!!
99
Information Criteriaa
595.511
621.511
625.950
667.848
654.848
-2 Log Likelihood
Akaike's Information Criterion (AIC)
Hurvich and Tsai's Criterion (AICC)
Bozdogan's Criterion (CAIC)
Schwarz's Bayesian Criterion (BIC)
The information criteria are displayed in
smaller-is-better forms.
Dependent Variable: rythme.a.
Exemple d’application du LRT
Avec effet sujet
Information Criteriaa
515.437
543.437
548.622
593.337
579.337
-2 Log Likelihood
Akaike's Information Criterion (AIC)
Hurvich and Tsai's Criterion (AICC)
Bozdogan's Criterion (CAIC)
Schwarz's Bayesian Criterion (BIC)
The information criteria are displayed in
smaller-is-better forms.
Dependent Variable: rythme.a.
G2 = [-2Log L(Modèle sans effet)] - [-2Log L(Modèle à un effet)]
= 595.511 – 515.437 = 80.074
Niveau de signification = 0.5Prob(χ2(0) ≥ G2) + 0.5Prob(χ2(1) ≥ G2)
= 0.5*Prob(χ2(1) ≥ 80) = 0.000
Sans effet sujet
100
Exercice 3 – Détail des sorties
Test des effets fixes (Statistique F)
Pas d’effet significatif de la
condition sur le score observé
Calcul des dl basé sur une
approximation de Satterthwaite
101
Calcul des degrés de liberté
Approximation de Satterthwaite
Méthode de Kenward et Roger
(disponible en SAS et non en SPSS)
Meilleure estimation de V (car ajustement du biais)
Utile si on a des estimateurs de variance négatifs
102
Exercice 3 – Détail des sorties
Estimation des effets fixes (Statistique t)
Stat t² = F
=> 2.151² = 4.628
Test t ou test F pour l’estimation
des effets fixes et aléatoires
103
Un test t permet de manière générale de tester les hypothèses de la
forme suivante:
H0: Lβ ω= avec L de rang 1
Par exemple:
H0: 0condition abstraitβ = = correspond à Lβ ω=
avec: L=[0 1 0]
condition abstrait
condition concret
µ
β β
β
=
=
 
 =
 
  
et 0ω =
La matrice L est bien de rang 1
104
Par contre, quand L n’est pas de rang 1 (càd quand il y a plus d’une
ligne/colonne indépendante), le test t (la statistique t suivant une distribution
normale) devient un test F (la statistique F suivant une disctribution chi²)
Par exemple:
0condition abstrait condition concretβ β= == =H0:
correspond à Lβ ω=
avec:
condition abstrait
condition concret
µ
β β
β
=
=
 
 =
 
  
et 0ω =
La matrice L est de rang 2 (car 2 colonnes indépendantes)
[ ]0 1 1L = −
càd 0condition abstrait condition concretβ β= =− =
On utilise alors un test F dont le nombre de degré de liberté du numérateur dépend
du rang de L.
105
Exercice 3 – Détail des sorties
Estimation des paramètres de covariance
(Statistique de Wald=approximation du rapport de vraisemblance)
Test de Wald pour tester les
paramètres de covariance
106
For inferences concerning the covariance parameters in your model, you can use likelihood-
based statistics. One common likelihood-based statistic is the Wald Z, which is computed as the
parameter estimate divided by its asymptotic standard error. The asymptotic standard errors are
computed from the inverse of the second derivative matrix of the likelihood with respect to each
of the covariance parameters. The Wald Z is valid for large samples, but it can be unreliable for
small data sets and for parameters such as variance components, which are known to have a
skewed or bounded sampling distribution. A better alternative is the likelihood ratio . This
statistic compares two covariance models, one a special case of the other. To compute it, you
must run your model twice, once for each of the two models, and then subtract the
corresponding values of -2 times the log likelihoods.
As long as the reduced model does not occur on the boundary of the covariance parameter
space, the statistic computed in this fashion has a large-sample sampling distribution that is with
degrees of freedom equal to the difference in the number of covariance parameters between
the two models. If the reduced model does occur on the boundary of the covariance parameter
space, the asymptotic distribution becomes a mixture of distributions (Self and Liang 1987). A
common example of this is when you are testing that a variance component equals its lower
boundary constraint of 0.
107
The likelihood-ratio test can also be used to test whether an effect exists or not.
Usually the Wald test and the likelihood ratio test give very similar conclusions
(as they are asymptotically equivalent), but very rarely, they disagree enough to
lead to different conclusions: the p-value is significant when the confidence
interval includes 0, or the p-value is not significant when the confidence interval
excludes 0.
There are several reasons to prefer the likelihood ratio test above the Wald test.
One is that the Wald test can give different answers to the same question, according
to how the question is phrased. For example, asking whether R = 1 is the same as
asking whether log R = 0; but the Wald statistic for R = 1 is not the same as the
Wald statistic for log R = 0 (because there is in general no neat relationship between
the standard errors of R and log R). Likelihood ratio tests will give exactly the same
answer whether we work with R, log R or any other transformation of R. The other
reason is that the Wald test uses two approximations (that we know the standard
error, and that the distribution is chi-squared), whereas the likelihood ratio test uses
one approximation (that the distribution is chi-squared).
Under the Wald statistical test, the maximum likelihood estimate of the parameter(s)
of interest θ is compared with the proposed value θ0, with the assumption that the
difference between the two will be approximately normal. Typically the square of the
difference is compared to a chi-squared distribution.
Test de Wald pour tester les
effets fixes et aléatoires
108
Problème : Le test de Wald suppose que la variance des paramètres
estimés des effets fixes ou aléatoires est une quantité connue et fixée.
Or, cette variance dépend des paramètres de variance (dans les
matrices G et R) qui sont estimés…
Alternative: utiliser un test t ou un test F est un meilleur choix.
C’est ce que propose SPSS
Le test de Wald n’est pas utilisé par SPSS pour tester les effets fixes
et aléatoires
109
En résumé
Les tests dans les modèles mixtes
109
• Test F: il teste si les effets fixes ou aléatoires d’un modèle sont significatifs
• Test t : il teste si les estimations des effets fixes ou aléatoires d’un modèle
sont significativement différents du niveau choisi comme référence (on ne peut
pas tester un contraste). Dans SPSS, les tests t sont fournis uniquement pour
les effets fixes (contrairement à SAS)
• Test de Wald : Il sert à comparer deux modèles imbriqués. il n’est à utiliser
que pour les covariances et sous certaines conditions. Le test du rapport de
vraisemblance est toujours préférable.
• Test du rapport de vraisemblance : Il permet la comparaison de 2 modèles
imbriqués (Attention à utiliser la méthode ML). Les résultats du tests ne sont
pas fournis automatiquement par SPSS ni SAS. Il teste si les paramètres de
variance sont significatifs (= test chi²).
110
12ème exemple :
Modèle à pattern de covariance
Expliquer les TR par d’autres variables
quand les items sont présentés plusieurs fois
Modèle avec 1 mesure répétée
111
Modèle à pattern de covariance
Chaque sujet i est observé à plusieurs
reprises pour les mêmes items
2~ (0, )e N
ij
σY t p e
ijk j i ijk
µ= + + +
où et
2~ (0, )p N
i p
σ
Ca implique des changements dans la matrice R
Quand plusieurs mesures sont prises sur le même individu, ces mesures
tendent à être corrélées entre elles
112
12ème exemple :
Modèle à pattern de covariance
Démonstration SPSS
Expliquer les TR par la condition, la valence et le
nombre de mots total en tenant compte de la
répétition d’items et en introduisant le sujet
comme facteur aléatoire
Modèle avec 3 facteurs fixes, 1 facteur
aléatoire et 1 facteur de répétition
113
Méthodes pour l’analyse de
mesures répétées
1. Analyse aux temps individuels : Analyse des données à
chaque temps individuellement pour évaluer l’effet de la
manipulation expérimentale et sans comparaison entre
les temps. Aucune inférence n’est réalisée pour voir la
tendance au cours du temps
Ceci ne constitue pas une analyse pour mesures
répétées mais une étape préliminaire à ce type
d’analyse
2. Pour tenir compte de la structure de covariance :
Utilisation de modèles multi-niveaux
114
Patterns de covariance
Les patterns les plus courants sont :
Matrice diagonal
AR(1)
Compound symmetry
Voir l’Help SPSS – Covariance structures
Expliquer les TR par la condition, la valence et le
nombre de mots total en tenant compte de la
répétition d’items et en introduisant le sujet
comme facteur aléatoire
Essayer des structures de covariance
différentes
115
13ème exemple :
Modèle à pattern de covariance
Démonstration SPSS
116
A vous d’essayer
Exercice 4
Fichier Ex_4_Temps_1.sav
117
14ème exemple :
Modèle à coefficients aléatoires
Expliquer les TR par différents facteurs en
tenant compte du TL_Base à chaque item
Modèle avec 1 facteur aléatoire associé à une
variable continue
118118
Sujet TL_Base
1 t11
1 t12
1 t13
1 t14
2 t21
2 t22
3 t31
3 t32
3 t33
TL_Base
Variable Dépendante
Sujet 1
Sujet 2
Sujet 3
Intercept : effet sujet
Pentes :
effet sujet-
TL_Base
119
Dans un modèle à coefficients aléatoires, nous considérons que l’effet du Sujet
(intercept) et l’effet Sujet*TL_Base (pente) peuvent être corrélés, mais
seulement pour un même sujet
La matrice G de covariance des paramètres
est une matrice « block diagonal » :
2
pσ
2
ptσ
où est la composante de variance pour l’effet Sujet
2
,p ptσ
est la composante de variance pour l’effet Sujet*TL_Base
est la covariance entre les effets aléatoires
120
14ème exemple :
Modèle incluant une covariée
Démonstration SPSS
Expliquer les TR par le BDI, les TL_Base et
l’interaction entre les 2 variables en prenant
Sujet*Dilemme comme facteur aléatoire
Il ne s’agit pas d’un modèle à coefficients alétoires
Modèle avec variables continues en VI et facteurs
aléatoires
121
15ème exemple :
Modèle à coefficients aléatoires
Démonstration SPSS
Expliquer les TR à la répétition 1 par les TL_Base
en permettant un intercept et des pentes variant
aléatoirement à travers les individus
Modèle à coefficients aléatoires
122
16ème exemple :
Modèle à coefficients aléatoires
Démonstration SPSS
Expliquer les TR à la répétition 1 par les TL_Base
en permettant un intercept et des pentes variant
aléatoirement à travers les dilemmes
Modèle à coefficients aléatoires
123
Problèmes de convergence …
Causes de non-convergence
Problèmes d’inversion de matrice (multicolinéarité)
Estimateurs de variance négatifs
Problèmes de complexité du modèle (quantité
insuffisante de données relativement à la complexité du modèle)
Solutions à envisager
Méthode de Kenward et Roger pour le calcul
des dl (disponible en SAS et non en SPSS)
Récolter plus de données
Simplifier le modèle
124
17ème exemple :
Modèle à coefficients aléatoires
Démonstration SAS EG
Expliquer les TR à la répétition 1 par les TL_Base
en permettant un intercept et des pentes variant
aléatoirement à travers les dilemmes. Calcul des
dl par Kenward et Roger
Modèle à coefficients aléatoires
125
Le choix d’un modèle
Il se détermine sur base de divers éléments
Le design
Les objectifs poursuivis
La comparaison entre modèles
La vérification des conditions d’application
126
Le choix d’un modèle
Sur base du design
Ex: une mesure répétée nécessite la définition
d’une structure de corrélation
127
Le choix d’un modèle
Sur base des objectifs
Objectif de test des effets : rapporter le modèle
le plus complet possible en indiquant les
facteurs significatifs et ceux qui ne le sont pas
Objectif de prédiction de la réponse : ne garder
dans le modèle que les facteurs influençant la
réponse
128
Le choix d’un modèle
Sur base de la comparaison entre modèles
Les indices d’ajustement (AIC, BIC, …) et les
tests de rapport de vraisemblance permettent
de choisir le modèle optimal entre 2 modèles
imbriqués
129
Le choix d’un modèle
Sur base de la vérification des conditions
d’application
Un modèle qui tourne n’est pas forcément un bon
modèle. Un modèle valide nécessite :
Analyses descriptives et graphiques
Elimination des points aberrants, extrêmes
Vérification de la linéarité du modèle
Vérification de la normalité des résidus
Vérification de l’homogénéité des variances des résidus
Vérification de la normalité des effets aléatoires
Vérification de la non multicolinéarité entre effets fixes 130
18ème exemple :
Vérification de la qualité du modèle
Démonstration SPSS
Vérifier la qualité du modèle utilisé à l’exemple 15
Modèle à coefficients aléatoires
Voir le document «Diagnostics_Residus_SAS.pdf » comme
complément d’information
131
L’écriture du modèle
Très dépendante de la revue
Quelques références :
Using the SPSS Mixed Procedure to Fit Cross-Sectional and
Longitudinal Multilevel Models. Psychological Measurement. Educational
and Psychological Measurement 2005; 65; 717.James L. Peugh and Craig
K. Enders
Using SAS PROC MIXED to Fit Multilevel Models, Hierarchical Models,
and Individual Growth Models, Judith D. Singer.Journal of Educational
and Behavioral Statistics, Vol. 23, No. 4. (Winter, 1998), pp. 323-355.
Multilevel models for the experimental psychologist: Foundations and
illustrative examples. L. Hoffman & M.J. Rovine. Behavior Research
Methods, 2007, 39 (1), 101-117.
Les normes de l’APA
..
132
A vous d’essayer
Exercice 5
Fichier Ex_5_Consignes.sav
Exercice à reprendre chez vous…
133
A vous d’essayer
Analyse des données d’Andy
Fichier Andy_NEW_XP_FINAL.sav
Lancez-vous comme vous le pensez…
134
Analyse des données d’Andy
Description de l’étude
Fichier Andy_NEW_XP_FINAL.sav
135
Commentaires - Questions
Merci de nous en faire profiter

Contenu connexe

Tendances

Tendances (6)

Analyse de régression linéaire
Analyse de régression linéaire Analyse de régression linéaire
Analyse de régression linéaire
 
Diag
DiagDiag
Diag
 
Cours masterlyon
Cours masterlyonCours masterlyon
Cours masterlyon
 
Analyse de régression multiple
Analyse de régression multipleAnalyse de régression multiple
Analyse de régression multiple
 
Analyses des données par SPSS et R
Analyses  des données par  SPSS et RAnalyses  des données par  SPSS et R
Analyses des données par SPSS et R
 
Cours de probabilites
Cours de probabilitesCours de probabilites
Cours de probabilites
 

En vedette

Initiation au logiciel spss 18
Initiation au logiciel spss 18Initiation au logiciel spss 18
Initiation au logiciel spss 18melinabernier
 
Nsg 5592 module 2d screencast-spss
Nsg 5592 module 2d screencast-spssNsg 5592 module 2d screencast-spss
Nsg 5592 module 2d screencast-spsscyberUottawa
 
Cours doumi spss 2013 2014
Cours doumi spss 2013 2014Cours doumi spss 2013 2014
Cours doumi spss 2013 2014tsuhel
 
Gestor de Acaparamiento y Transcodificación de Sitios Web para Pocket PC
Gestor de Acaparamiento y Transcodificación de Sitios Web para Pocket PCGestor de Acaparamiento y Transcodificación de Sitios Web para Pocket PC
Gestor de Acaparamiento y Transcodificación de Sitios Web para Pocket PCJuan Carlos Olivares Rojas
 
Instrucciones Para Utilizar Prisma Digital
Instrucciones Para Utilizar Prisma DigitalInstrucciones Para Utilizar Prisma Digital
Instrucciones Para Utilizar Prisma Digitalradatoro
 
Edificio Media 13
Edificio Media 13Edificio Media 13
Edificio Media 13mediatrece
 
Efectos botellon
Efectos botellonEfectos botellon
Efectos botellonjmartin
 
Materiales de Construcción
Materiales de ConstrucciónMateriales de Construcción
Materiales de ConstrucciónLau93
 
Ccre 43 - Club des Créateurs Repreneurs d'Entreprises Haute Loire - Les Rése...
Ccre 43  - Club des Créateurs Repreneurs d'Entreprises Haute Loire - Les Rése...Ccre 43  - Club des Créateurs Repreneurs d'Entreprises Haute Loire - Les Rése...
Ccre 43 - Club des Créateurs Repreneurs d'Entreprises Haute Loire - Les Rése...Brioude Internet
 
Filosofia Master
Filosofia MasterFilosofia Master
Filosofia Mastercnlugones
 
Aujourdhui Seulement
Aujourdhui SeulementAujourdhui Seulement
Aujourdhui Seulementguestfaa252
 

En vedette (20)

Initiation au logiciel spss 18
Initiation au logiciel spss 18Initiation au logiciel spss 18
Initiation au logiciel spss 18
 
Nsg 5592 module 2d screencast-spss
Nsg 5592 module 2d screencast-spssNsg 5592 module 2d screencast-spss
Nsg 5592 module 2d screencast-spss
 
14- experience certificate
14- experience certificate14- experience certificate
14- experience certificate
 
6- GRADUATION CERTIFICATE .
6- GRADUATION CERTIFICATE .6- GRADUATION CERTIFICATE .
6- GRADUATION CERTIFICATE .
 
certificat 3
certificat 3certificat 3
certificat 3
 
Spss tp1
Spss tp1Spss tp1
Spss tp1
 
Cours doumi spss 2013 2014
Cours doumi spss 2013 2014Cours doumi spss 2013 2014
Cours doumi spss 2013 2014
 
Analyse de données avec spss,
Analyse de données avec spss,Analyse de données avec spss,
Analyse de données avec spss,
 
Gestor de Acaparamiento y Transcodificación de Sitios Web para Pocket PC
Gestor de Acaparamiento y Transcodificación de Sitios Web para Pocket PCGestor de Acaparamiento y Transcodificación de Sitios Web para Pocket PC
Gestor de Acaparamiento y Transcodificación de Sitios Web para Pocket PC
 
Instrucciones Para Utilizar Prisma Digital
Instrucciones Para Utilizar Prisma DigitalInstrucciones Para Utilizar Prisma Digital
Instrucciones Para Utilizar Prisma Digital
 
Capitulo5
Capitulo5Capitulo5
Capitulo5
 
Edificio Media 13
Edificio Media 13Edificio Media 13
Edificio Media 13
 
Efectos botellon
Efectos botellonEfectos botellon
Efectos botellon
 
Larmes De Femme
Larmes De FemmeLarmes De Femme
Larmes De Femme
 
Nicolas
NicolasNicolas
Nicolas
 
Materiales de Construcción
Materiales de ConstrucciónMateriales de Construcción
Materiales de Construcción
 
InvestigacióN
InvestigacióNInvestigacióN
InvestigacióN
 
Ccre 43 - Club des Créateurs Repreneurs d'Entreprises Haute Loire - Les Rése...
Ccre 43  - Club des Créateurs Repreneurs d'Entreprises Haute Loire - Les Rése...Ccre 43  - Club des Créateurs Repreneurs d'Entreprises Haute Loire - Les Rése...
Ccre 43 - Club des Créateurs Repreneurs d'Entreprises Haute Loire - Les Rése...
 
Filosofia Master
Filosofia MasterFilosofia Master
Filosofia Master
 
Aujourdhui Seulement
Aujourdhui SeulementAujourdhui Seulement
Aujourdhui Seulement
 

Similaire à a

chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfAnassFarkadi
 
Etude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMEtude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMSamirAwad14
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdfSidiAbdallah1
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression Mariem Chaaben
 

Similaire à a (7)

chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
 
Etude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMEtude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVM
 
1Flou.ppt
1Flou.ppt1Flou.ppt
1Flou.ppt
 
1Flou.ppt
1Flou.ppt1Flou.ppt
1Flou.ppt
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdf
 
C4 spec-adt
C4 spec-adtC4 spec-adt
C4 spec-adt
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression
 

a

  • 1. Modèles mixtes appliqués aux Sciences Humaines avec SPSS 23/02/2010 Préparation : Céline Bugli, Nathalie Lefèvre, Mathieu Pigeon, Erik Doffagne Date : 26 février et 4 mars 2010 2 Documentation SUPPORT Transparents disponibles sur le site du SMCS LIENS UTILES Site du SMCS (Support en Méthodologie et Calcul Statistique) : http://www.uclouvain.be/SMCS Documentation Stat + SPSS : SAS and SPShttp://faculty.chass.ncsu.edu/garson/PA765/multilevel.htm http://www.ats.ucla.edu/stat/spss/ SAS and SPSS MIXED Syntax Guides, Hoffman, 2009 (psych.unl.edu/psycrs/944/SAS_SPSS_Mixed.pdf) Help de SPSS et SAS LIVRES UTILES Introduction to Mixed Modelling: Beyond Regression and Analysis of Variance. N.A. Galwey SAS for Mixed Models, Second Edition, Littell R. and al., Cary, NC: SAS Institute Inc. (2007) Bressoux, P. (2008). Modélisation statistique appliquée aux sciences sociales. Bruxelles : De Boeck Applied mixed models in medicine, Brown H. and Prescott R., Wiley, New York (1999) … 3 Objectifs de la formation Résumés succincts des modèles GLM Limites des GLM Introduction aux modèles mixtes Application sur des données de l’ARC Au terme de la formation, vous serez capable de : Décider quand utiliser un modèle mixte Déterminer quel modèle utiliser (parmi les modèles simples) Savoir comment l’utiliser Interpréter les résultats Rapporter les résultats 4 Plan Demi-journée 1 : Etude de cas Résumé et limites des GLM Théorie sur les modèles mixtes Premières Applications Demi-journée 2 : Exercices Modèles plus complexes
  • 2. 5 Etude de cas Impact of the processing of specific information on decision making – Raffaella Di Schiena 6 Etude de cas Déroulement de l’expérience 20 minutes de training 10 situations différentes (5 positives et 5 négatives) Ruminations à voix haute Abstract thinking Concret thinking 10 dilemmes liés au matériel de training Choix parmi 2 options Mesures TR (en ms) Difficulté – de 1 (pas difficile du tout de décider) à 7 (très difficile) Inconfort – de 1 (pas d’inconfort du tout en décidant) à 7 (beaucoup) Mesures autres Score de dépression au BDI Niveau d’alexithymie mesuré par le TAS Niveau de rumination dispositionnelle mesuré par le RSS 7 Etude de cas Training abstrait … Prenez le temps de vous concentrer sur chaque situation, sur votre action et de penser de façon très abstraite à la situation. Ne vous concentrez-pas sur les détails… La description fournit un résumé de ce qui s’est passé et c’est tout ce qu’il vous faut. En vous basant sur la description, pensez en terme de mots pour quelles raisons la situation s’est déroulée de cette manière, ainsi que les significations, les implications et les conséquences qui sont associées à cette situation selon vous. Envisagez ce qui a causé la situation et jugez ce que cela signifie pour vous. Vous disposerez de deux minutes et demie pour verbaliser ce qui vous passe par la tête…Vos verbalisations seront enregistrées de façon complètement anonyme. 8 Etude de cas Exemple de Training abstrait ACCIDENT DE VOITURE Imaginez que vous avez survécu à un accident de voiture sur l’autoroute. Vous avez un accident de voiture. Sur l’autoroute, un camion entre en collision avec votre voiture. Votre voiture est bonne pour la casse. Vous n’êtes pas sérieusement blessé(e), mais avez néanmoins une jambe cassée. Que pensez-vous du conducteur du camion? Quelle a été la cause de l’accident? Quelle influence votre jambe cassée aura-t-elle sur votre vie?
  • 3. 9 Etude de cas Training concret … Prenez le temps de vous concentrer sur chaque situation, de vous imaginer dans chaque situation et d’imaginer de façon très vivante ce qui peut se passer. Imaginez la scène, comme si vous étiez réellement là– imaginez de manière aussi vivante que possible ce que vous pouvez voir, entendre, sentir, toucher et expérimenter dans la situation. Soyez attentif à noter ce qui se passe tout autour de vous, instant après instant– en vous représentant ce qui se passe avant, pendant et après les événements centraux de la situation. Vous disposerez de deux minutes et demie pour verbaliser ce qui vous passe par la tête…Vos verbalisations seront enregistrées de façon complètement anonyme. 10 Etude de cas Exemple de Training concret ACCIDENT DE VOITURE Imaginez que vous avez survécu à un accident de voiture sur l’autoroute. Quand réalisez-vous pour la première fois que le camion était sur le point de vous percuter ? De quelle direction venait le camion ? Laquelle de vos jambes a été cassée ? 11 Etude de cas Exemple de Dilemme ACCIDENT DE VOITURE Comment vas-tu demander de l’aide ? 12 Etude de cas Individus 71 participants Variables ID VI Variable expérimentale Variables « Contrôles » VD Sujet Condition Valence Dilemme Score de dépression (BDI) Niveau d’alexithymie (TAS) Niveau de rumination (RSS) TL_Base (variable simulée) TR Difficulté Inconfort
  • 4. 13 Introduction : Vocabulaire Un facteur = manipulation expérimentale ou caractéristique des individus Ex : Condition, Valence Un niveau = traitement ou caractéristique spécifique Ex : Abstrait/Concret, Positif/Negatif Chaque niveau a un effet : le fait d’être dans une condition expérimentale a un effet sur la moyenne des TR 14 Expliquer les TR (dilemme2) par la difficulté à prendre une décision? (Imaginons la difficulté comme continue) Modèle avec 1 variable continue (comme VI) Prerequis : General Linear Model 1er exemple : Régression linéaire simple 15 Régression linéaire simple Permet de (tester s’il est possible de) prédire une variable continue sur base d’une autre variable continue Y = VD, TR X = VI, difficulté 16 Les TR (dilemme2) sont-ils affectés par la difficulté à prendre une décision? Modèle vide : Yi =β0 + εi Modèle avec 1 prédicteur : Yi=β0+β1X+εi β0 et β1 sont des paramètres du modèle Constante = estimée par la moyenne des Y Pente liée à X : indique de combien Y change quand X change d’une unité Erreur propre à chaque individu i Constante ou intercept : estimé par la moyenne des Y si X=0
  • 5. 17 Imaginons 2 Situations (données fictives) 18 Construire un modèle vide consiste à prédire Y sur base de sa moyenne : Yi =β0 + εi b0 =11500 19 Dans une des situations, introduire un lien à X va aider à prédire Y: Yi =β0 +β1X+ εi Yi=b0+b1X1≈12015-151.51Xi Yi=b0+b1X1≈6333+939.39Xi 20 Comment détermine-t-on la droite? Par le critère des moindres carrés : Trouver la droite qui minimise la somme des carrés des écarts entre Yi et Yi (minimiser ) X Y 0 1000 2000 3000 4000 5000 6000 7000 8000 0 4 8 12 16 20 Yi Yi Résidu : ei=Yi-b0-b1Xi Yi=b0+b1Xi 21 1 2 10 )( X XY n i ii S S bXbbY =⇔−−∑=
  • 6. 21 Comment teste-t-on un paramètre du modèle? Par une décomposition et un rapport de variance Variance totale de Y = variance de Y expliquée par X + erreur : Variance des TR = variance des TR expliquée par la difficulté + erreur Sum of SquaresTotal = SSRegression + SSResidual Pour tenir compte du N et de la complexité du modèle (MS=SS/dl): Mean Squares Total = MSRegression + MSResidual Test : H0 : β1=0 => Yi =β0 +β1X+ εi =β0 +εi H1 : β1≠0 => Yi =β0 +β1X+ εi Test : Rapport entre ce qu’explique le modèle et ce qui reste inexpliqué: MSRegression/ MSResidual ~ F(n1,n2) sous H0 R²=1-((SSResidual - SSRegression)/ SSRegression) = SSRegression/SSTotal 22 Décomposition de la variance sidualgressionTotal SSSSSS ReRe += Nombredemots 0 1000 2000 3000 4000 5000 6000 7000 8000 0 2 4 6 8 10 12 14 16 18 20 Y YYi − YYi −ˆ iii YYe ˆ−= Yi : Résultat du ième individu Y : Résultat moyen observé : Résultat prédit par le modèle ei : Fluctuation aléatoire due aux différences entre individus Yi 23 Ex: Les TR (dilemme2) sont-ils affectés par la difficulté à prendre une décision? SPSS : Analyze → Regression → Linear 24 Comment juger si le modèle est bon? En regardant la p-valeur et le coefficient R2 2 1 )ˆ( YY n i i −∑= 2 1 )ˆ(∑= − n i ii YY Somme des carrés expliquée par le modèle Somme des carrés résiduelle p-valeur indiquant si le modèle Y= β0+β1X+ε est meilleur qu’un modèle ayant seulement une constante Y= β0+ε Pourcentage de variabilité de la réponse expliquée par le modèle Pourcentage de variabilité de la réponse expliquée par le modèle pondérée par le nombre de variables du modèle et le nombre d’observations Ecart-type des résidus
  • 7. 25 X Y 0 1000 2000 3000 4000 5000 6000 7000 8000 0 4 8 12 16 20 Comment juger si le modèle est valide? En analysant les résidus et les points influents Les hypothèses suivantes doivent être vérifiées Permet de s’assurer qu’un bon modèle est bien valide Permet parfois de comprendre pourquoi un modèle n’est pas bon Termes d’erreur Modèle linéaire εεεεi ~ iN(0,σσσσ²) Indépendance des observations Normalité de la distribution Homogénéité des variances iii XY εββ ++= 10 26 Ex: Analyse graphique des résidus du modèle SPSS : Analyze → Regression → Linear (Plots - Save) Variance ± constante ? ± 95% des ri entre -2 et 2 ? 1 point très extrême… (Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot) (Save: Prédi unstand. & Leverage Scatter/Dot: X=Prédi unstd. Y=Leverage) Résidus Normaux ? Non! Risque de force de levier si leverage > 2p/n 27 Des problèmes peuvent être détectés via une simple analyse descriptive Histogramme des TR Un outlier Une distribution dissymétrique Nécessité de transformer Log_TR 28 Expliquer les LOG_TR (dilemme2) par la difficulté à prendre une décision? (imaginons la difficulté comme continue) Modèle avec 1 variable continue (comme VI) 2ème exemple : Régression linéaire simple sur données transformées
  • 8. 29 Même analyse avec la VD transformée SPSS : Analyze → Regression → Linear Comment juger si le modèle est bon ? 30 Comment juger si le modèle est valide ? SPSS : Analyze → Regression → Linear (Plots - Save) Variance ± constante ? ± 95% des ri entre -2 et 2 ? 1 point très extrême… (Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot) (Save: Prédi unstand. & Leverage Scatter/Dot: X=Prédi unstd. Y=Leverage) Résidus Normaux ? Oui! Risque de force de levier si leverage > 2p/n 31 Estimations des paramètres β0+β1 p-valeurs associées aux tests dont l’hypothèse H0 est la nullité du paramètre Comment rapporter le modèle estimé ? Sous forme d’une équation Log_TR = 9.12+0.083*Difficulté 32 Régression linéaire multiple A noter: Absence de colinéarité comme condition supplémentaire d’application Un lien trop important entre VI entrées dans le modèle est source d’instabilité et d’erreur (des effets peuvent s’inverser par ex.) Comme vérification : VIF <5 voire 10
  • 9. 33 Prerequis : General Linear Model Régression simple, multiple… ANOVA à 1 critère, à 2 critère… ANCOVA … Oui MAIS les GLM ne répondent pas à tout 34 Limites des GLM Ex: Analyse des TR en fonction de la condition, mais en tenant compte des différents Dilemmes Que faire? Solutions erronées : Ne pas tenir compte du fait qu’on a plusieurs Dilemmes, faire comme si chaque observation est un nouvel individu Les Dilemmes introduisent une variabilité du fait de leur longueur et induisent donc du bruit qu’il y aurait moyen d’extraire Tenir compte des Dilemmes comme d’un facteur between On considère comme indépendantes des données qui sont liées. Il existe une structure de corrélation dont on ne tient pas compte 35 Limites des GLM Ex: Analyse des TR en fonction de la condition, mais en tenant compte des différents Dilemmes Que faire? Solutions non optimales voire risquées Utiliser une ANOVA avec Dilemme comme facteur répété On n’est pas vraiment intéressé par tester cette variable Utiliser un score moyen pour résumer les dilemmes Attention à l’utilisation de la moyenne selon les distributions Cela peut cacher un effet ou montrer un effet artefact 36 Modèles mixtes La solution se trouve dans les modèles mixtes Permet de définir une structure de corrélation Tire un maximum d’informations en cas de valeurs manquantes Corrige les problèmes liés à des groupes disproportionnés en nombre (shrinkage) …
  • 10. 37 Expliquer les TR (LOG_TR_1) par l’inconfort ressenti durant la décision – Plusieurs données par individu? (imaginons l’inconfort comme continu) Comparaison entre un Modèle réalisé sur les moyennes avec 1 variable continue et un Modèle avec 1 variable continue et 1 facteur aléatoire 3ème exemple (simulé) : Régression ou modèle mixte ? 38 Exemple simulé - GLM Calcul d’un temps (en log) et d’un inconfort moyen à travers les dilemmes. Régression afin de prédire le temps moyen en fonction de l’inconfort moyen 39 Ex: Régression afin de prédire le temps moyen en fonction de l’inconfort moyen Semble montrer un temps qui augmente avec l’inconfort Et pourtant… 40 Exemple simulé – Modèle mixte Ex: Modèle mixte avec l’ID en facteur aléatoire Montre un temps qui diminue avec l’inconfort !!!
  • 11. 41 Pourquoi ? En prenant un temps moyen par participant, cela crée l’illusion que le temps augmente avec l’inconfort… En analysant ce qui se passe par participant, c’est la tendance inverse qui se dessine … 42 Approche classique - Insuffisante du fait de la non indépendance des observations - Limitée : elle ne peut prendre en compte l’ensemble de la variabilité des phénomènes Approche multiniveau - Vise à mesurer et analyser la variance à chaque niveau - Les facteurs de niveau élevé ne sont plus uniquement considérés comme des facteurs de nuisance (ex: en éducation – effet classe) Le modèle linéaire multiniveau est l’instrument de base permettant - La prise en compte des effets de milieu dans l’analyse de la variabilité des comportements individuels - L’analyse de l’association entre caractéristiques individuelles et facteurs de niveau plus élevé - Le traitement des données corrélées 43 Structurer les données sur différents niveaux permet la décomposition en effets fixes et aléatoires Dans un modèle statistique, il y a toujours une part d’inobservé, une partie de la réalité qui n’est pas explicitée En dissociant dans un modèle les caractéristiques à différents niveaux d’observation, on peut percevoir de manière plus fine cette ≪hétérogénéité non observée≫: on obtient une mesure de la variance par niveau 44 Différents types de modèles mixtes Modèles mixtes = Modèles multiniveaux Modèle à effets aléatoires Modèles à coefficients aléatoires Modèle à Pattern de covariance Effets aléatoires associés à des variables catégorielles (individus, items,…) Effets aléatoires associés à des variables continues (état de dépression, TL_Base…) Modélisation directe du pattern de corrélation (mesures répétées)
  • 12. 45 Partons du modèle le plus simple Considérons une expérience dans laquelle intervient une condition expérimentale à 2 niveaux (Abstrait/Concret) qui est supposée avoir un impact sur les TR = moyenne des TR pour les sujets en condition Abstrait = moyenne des TR pour les sujets en condition Concret Le modèle le plus simple est : Interprétation : Un TR ( ) observé chez un individu donné dans la condition A équivaut à la moyenne de la condition Abstrait ( ) plus une variation aléatoire appelée erreur ( ) provenant de ce qui est particulier à l’individu concerné et qui ne provient pas de la condition Abstrait C µ A µ Y e A A µ= + Y A A µ e 46 Données Sujet Dilemme Valence Condition TL_Base LOG_TR 1 1 1 a 9.00 9.04 1 2 2 a 7.20 8.55 1 3 1 a 20.12 10.25 1 4 2 a 9.02 9.32 2 1 1 a 8.00 8.98 2 2 2 a 8.50 9.02 2 3 1 a 9.00 9.26 2 4 2 a 8.90 9.75 3 1 1 c 9.50 9.88 3 2 2 c 9.56 10.01 3 3 1 c 9.02 9.14 3 4 2 c 8.30 8.99 47 4ème exemple : Modèle à effet fixe Expliquer les TR par la condition Modèle avec 1 facteur fixe 48 Comment évaluer l’effet de la condition? Means model: Y e A A µ= + Un TR en condition « Abstrait » Moyenne des observations dans la condition « Abstrait » Terme d’erreur A µ Abstrait Concret C µ Y A e Y e C C µ= +Et de façon analogue pour la condition « Concret »:
  • 13. 49 • ANOVA: c e A A µ µ= + + Effet de la condition « Abstrait » Terme d’erreur Y c e A A µ= + + Moyenne des observations dans la condition « Abstrait » Y c e C C µ= + + Et de façon analogue: 0 1 * j ij Y condition e ij β β= + + Pour le sujet i dans la condition j Abstrait Concret µ Y A e A µ C µ Ac 50 Modèle à effet fixe tenant compte de la condition 2~ (0, )e N ij σ Y condition e ij j ij µ= + + Y c e A A µ= + + Y c e C C µ= + + avec Pour le sujet i dans la condition j 51 0 2 4 6 8 10 12 14 16 Abstract Concrete c A Abstrait Concret Y A e c C µ A µ C µ 2σ 2σ 52 5ème exemple : Modèle à effets fixes Expliquer les TR par la condition et la valence Modèle avec 2 facteurs fixes
  • 14. 53 Modèle à effet fixe tenant compte de la condition et de la valence 2~ (0, )e N ij σ k Y valence condition e ijk j ij µ= + + + avec Pour le sujet i dans la condition j et la valence k µ µNegative µj VΝeg Yij τj εij µPositive VPos CConc CΑbs CConc CΑbs 54 0 5 10 15 20 Positive Negative Abstract Concrete 55 6ème exemple : Modèle à effet aléatoire Expliquer les TR par la condition et la valence en tenant compte du facteur individu Modèle avec 2 facteurs fixes et 1 facteur aléatoire 56 Effet sujet 2~ (0, )e N ij σ 1 c s A A µ µ= + + 2 c s A A µ µ= + + k Y v c s e ij j i ij µ= + + + + 2σ où y Abstrait Concret 2σ 2σ 2σ 1 c s C C µ µ= + + sujet 1 sujet 2 sujet 1 sujet 2 2 c s C C µ µ= + + Effet sujet Effets fixes
  • 15. 57 Condition 1 Condition 2 Echantillon Groupe A Groupe B Performance des individus Moyenne généraleScore de l’individu i Moyenne de la condition 1 Moyenne du groupe A 58 Considérons les si comme étant des réalisations d’une distribution de probabilité: Les sont appelés effets aléatoires Les sont appelés effets fixes Effet sujet aléatoire k v c j + 2~ (0, )e N ij σoù et s i 2~ (0, )s N i s σk Y v c s e ij j i ij µ= + + + + 59 y Abstrait Concret c C C µ µ= + c A A µ µ= + 2 s σ 2σ 2σ 2 s σ 2σ 2σ 60 Effets fixes et aléatoires 1. Effets fixes : facteurs pour lesquels tous les niveaux sont considérés 2. Effets aléatoires : facteurs pour lesquels les niveaux présents dans les données sont un échantillon aléatoire de tous les niveaux présents dans la population Exemples Effets fixes 1. Le sexe : masculin et féminin sont les 2 seuls niveaux possibles (l’un OU l’autre) 2. Agegroup : Mineur/majeur sont les 2 niveaux de “Agegroup” Effets aléatoires 1. Sujet : l’échantillon est un échantillon aléatoire de la population DEFINITIONS
  • 16. 61 Quelles situations cherche-t-on à modéliser avec un effet aléatoire? - Tenir compte de mesures répétées pour un même individu - On modélise un « concept », une « méthode » et on observe des individus soumis à ce concept Exemples : - En science de l’éducation, une classe « scolaire » applique une méthode d’éducation - Mesures de croissance sur des arbres : les mesures sont répétées dans le temps. On cherche à comprendre le phénomène de croissance (peu importe l’arbre lui-même) 62 6ème exemple Démonstration SPSS Expliquer les TR par la condition et la valence en tenant compte du facteur individu Modèle avec 2 facteurs fixes et 1 facteur aléatoire 63 A vous d’essayer Exercice 1 Fichier EX1.sav 64 7ème exemple : Modèle à effet aléatoire Démonstration SPSS Expliquer les TR par la condition, la valence, en tenant compte du dilemme Autre modèle avec 2 facteurs fixes et 1 facteur aléatoire
  • 17. 65 66 8ème exemple : Modèle à effets aléatoires Démonstration SPSS Expliquer les TR par la condition, la valence, en tenant compte du dilemme et du sujet Modèle avec 2 facteurs fixes et 2 facteurs aléatoires 67 9ème exemple : Modèle à effet aléatoire Démonstration SPSS Expliquer les TR par la condition, la valence et le dilemme en tenant compte du sujet Modèle avec 3 facteurs fixes et 1 facteur aléatoire Quelque chose d’anormal ? Oui, mais quoi … 68 10ème exemple : Modèle à effet aléatoire Démonstration SPSS Modèle plus simple : expliquer les TR par la condition et le dilemme en tenant compte du sujet Modèle avec 2 facteurs fixes et 1 facteur aléatoire Réaliser un contraste pour comparer les dilemmes 5 et 9 (voir slide suivant) Rien d’anormal …
  • 18. 69 Utiliser les contrastes But : contraster la valeur d’un niveau avec la valeur d’un ou de plusieurs autres niveaux du même effet La matrice de contraste permet de tester si plusieurs combinaisons linéaires de coefficients sont égales à zéro Code SPSS pour réaliser des contrastes : /TEST ‘niveau 2 et 4 de la variable Item' Item 0 -1 0 1. 70 11ème exemple : Modèle hiérarchique Expliquer l’exemple 9 par un modèle hiérarchique Expliquer les TR par la Condition, la Valence et le Dilemme en tenant compte du sujet et du fait que Dilemme est niché dans Valence Modèle avec 3 facteurs fixes, dont un nesté et 1 facteur aléatoire 71 Modèles hiérarchiques et effets nestés Les designs hiérarchiques ont des effets nichés (nested) Les effets nichés concernent des effets avec de sujets inclus dans des groupes Exemple : Une expérience est réalisée au plan national et les données sont récoltées par différents chercheurs provenant de différentes universités On exprime cela par : sujet (expérimentateur) et expérimentateur (université) Expérimentateur = Niveau 2 UCL ULG FUCAM Raffaella Claudia Andy Toon Remy Adrien Armelle Alyssia Université = Niveau 3 Sujet = Niveau 1 72 Modèle hiérarchique : Imaginons qu’il y ait seulement un 2ème niveau (expérimentateur=l) l’estimateur de l’effet sujet se fait par condition 2~ (0, )e N ij σoù et 2~ (0, )s N ij s σk Y v c s e ijkl j il ijkl µ= + + + + On pourrait même supposer que: 2~ (0, )e N ij σoù et 2~ (0, )s N ij sl σk Y v c s e ijkl j il ijkl µ= + + + +
  • 19. 73 11ème exemple : Modèle hiérarchique Démonstration SPSS Expliquer les TR par la Condition, la Valence et le Dilemme en tenant compte du sujet et du fait que Dilemme est niché dans Valence Modèle avec 3 facteurs fixes, dont un nesté et 1 facteur aléatoire 74 Lien entre la régression linéaire et le modèle mixte : Notation matricielle 75 Rappel sur la multiplication de 2 matrices Step 1 Step 2 Step 3 Step 4 76 Notation matricielle en régression linéaire Trois formulations équivalentes 1. 2. 3. 0 1 ,1 ,...i i p i p iY X Xα α α ε= + + + + pour n observations (i=1,…,n) 1 1,1 1, 0 1 ,1 , 1 1 p n n n p p n Y X X Y X X α ε α ε            = +                  L M M M M M M L Y Xα ε= +
  • 20. 77 0 1 1,1 1, 1 1 ,1 , 1 1 p n n n p n p Y X X Y X X α ε α ε α              = +                 L M M M M M M L 1 1,1Xα+ 1 Y 0α= 1,p pXα...+ + 1ε+ 78 Notation matricielle pour un modèle mixte y X Z eα β= + + y ~ (0, )N Gβ 2~ (0, )e N ij σY t p e ij j i ij µ= + + + où est le vecteur de la variable dépendante est le vecteur des paramètres pour les effets fixes ~ (0, )e N R α β où est le vecteur des paramètres pour les effets aléatoires 79 Construction des matrices de design n= 12 obs Sujet Dilemme Valence Condition TL_Base LOG_TR 1 1 1 a 9.00 9.04 1 2 2 a 7.20 8.55 1 3 1 a 20.12 10.25 1 4 2 a 9.02 9.32 2 1 1 a 8.00 8.98 2 2 2 a 8.50 9.02 2 3 1 a 9.00 9.26 2 4 2 a 8.90 9.75 3 1 1 c 9.50 9.88 3 2 2 c 9.56 10.01 3 3 1 c 9.02 9.14 3 4 2 c 8.30 8.99 VD=LOG_TR TL_Base (Vitesse lecture)=Covariée Imaginons : Sujet = facteur aléatoire et Autres variables = facteurs fixes 80 1 0 0 1 0 0 1 0 0 1 0 0 0 1 0 Z = 0 1 0 0 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 0 1 Sujet Dilemme TL_Base LOG_TR 1 1 9.00 9.04 1 2 7.20 8.55 1 3 20.12 10.25 1 4 9.02 9.32 2 1 8.00 8.98 2 2 8.50 9.02 2 3 9.00 9.26 2 4 8.90 9.75 3 1 9.50 9.88 3 2 9.56 10.01 3 3 9.02 9.14 3 4 8.30 8.99 Effet aléatoire : Sujet n=12 lignes Y = (9.04, 8.55,…,9.75,9.88) Nous voulons modéliser le LOG_TR TL_Base Effets fixes : Dilemme et vitesse de lecture de base Sujet 2 Sujet 3Sujet 1 1 9.04 1 0 0 0 1 8.55 0 1 0 0 1 10.25 0 0 1 0 1 9.32 0 0 0 1 1 8.98 1 0 0 0 X = 1 9.02 0 1 0 0 1 9.26 0 0 1 0 1 9.75 0 0 0 1 1 9.88 1 0 0 0 1 10.01 0 1 0 0 1 9.14 0 0 1 0 1 8.99 0 0 0 1 Dilem_1 Dilem_2 Dilem_3 Dilem_4 Intercept
  • 21. 81 Si nous considérons un effet aléatoire du Sujet et du Sujet*valence, Z est défini par Sujet 1 Sujet 1 et Valence 1 Sujet 2 Sujet 3 Sujet 1 et Valence 2 Sujet 2 et Valence 1 Sujet 2 et Valence 2 Sujet 3 et Valence 1 Sujet 3 et Valence 2 1 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 Z = 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 Sujet Valence 1 1 1 2 1 1 1 2 2 1 2 2 2 1 2 2 3 1 3 2 3 1 3 2 82 Matrice de covariance ( ) ( )V Var Y Var X Z eα β= = + + ( ) ( ) ( )Var X Var Z Var eα β= + + ( ) 0Var X α = ( ) ( ) 'Var Z ZVar Zβ β= ( )Var Gβ = ( )Var e R= 'V ZGZ R= + et 83 En cas d’effets aléatoires : matrice G de covariance des paramètres Si on n’a pas de mesures répétées, cette matrice est toujours diagonale. Le nombre de paramètres dépend du nombre d’effets aléatoires et du nombre de valeurs différentes des variables choisies comme effets aléatoires ~ (0, )N Gβ 84 Par exemple, • Si on a un effet sujet aléatoire et 3 sujets: • Si on a un effet sujet (3 sujets) et un effet dilemme (4 dilemmes): 0 0 0 0 0 0 p p p G σ σ σ     =       0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 p p p d d d d G σ σ σ σ σ σ σ           =            
  • 22. 85 En cas d’effets aléatoires : Matrice R de covariance des résidus Si on n’a pas de mesures répétées, la matrice R est toujours diagonale du fait de l’hypothèse de résidus non corrélés : 2 nR Iσ= ~ (0, )e N R 86 A vous d’essayer Exercice 2 Fichier EX1.sav 87 Estimation des effets fixes et aléatoires ML: maximum likelihood REML: restricted maximum likelihood (ou residual ML) La vraisemblance d’un modèle : C’est la probabilité d’effectivement observer les données si le modèle choisi est vrai. C’est une fonction des observations y Dans la méthode REML, on utilise une fonction de vraisemblance qui est une fonction des résidus marginaux: Estimation par moindre carré? Non, car impossible si données non balancées Note: Quand les données sont balancées, l’estimation par moindres carrés est identique à celle REML si on utilise une matrice de covariance Compound Symmetry. Avantage de REML par rapport à ML : les estimateurs de variance et covariance sont sans biais. αˆXy − 88 Méthode Modèles à effets fixes Modèles mixtes Modèles covariance pattern balancé Non balancé balancé Non balancé balancé Non balancé ANOVA oui Pas facilement oui Pas facilement non non Moindres carrés (non pondérés) oui oui non non non non ML oui oui oui oui oui oui REML oui oui oui oui oui oui Ce que permettent ou non les différentes méthodes
  • 23. Modèles mixtes appliqués aux Sciences Humaines avec SPSS 23/02/2010 Préparation : Céline Bugli, Nathalie Lefèvre, Mathieu Pigeon, Erik Doffagne Date : 26 février et 4 mars 2010 90 A vous d’essayer Exercice 3 Fichier EX1.sav 91 A suivre … Comment savoir si notre modèle est correct ? Comment tenir compte de la variabilité commune (corrélation) qui peut exister entre plusieurs observations? Comment choisir entre plusieurs modèles? Comment fait-on lorsqu’une variable continue est susceptible d’interférer sur les effets? Comment faire lorsque la VD n’est pas vraiment continue? 92 Plan Demi-journée 2 : Détail des outputs SPSS Modèles à pattern de covariance Modèles à coefficient aléatoire Le choix d’un modèle Exercices
  • 24. 93 Exercice 3 - Correction Fichier EX1.sav Analyse descriptive « Score_2 » ANOVA : VD = Score_2 & Facteur fixe = Condition Menu GLM , Menu Mixed Models et comparaison des résultats ANOVA : VD = Score_2 & Facteur fixe = Condition, ID Menu GLM , Menu Mixed Models et comparaison avec Exercice 1 Modèle Mixte : VD = Score_2 , Facteur fixe = Condition , Facteur aléatoire = ID Réalisation et comparaison avec l’Exercice 1 94 Outputs SPSS 1. Case processing Summary (comptage des observations par condition) 2. Descriptive statistics (moyenne, SD, CV par condition) 3. Model Dimension (nombre de paramètres du modèle) 4. Information Criteria (Indices d’ajustement -2LL, AIC, AICC, CAIC, BIC,…) 5. Fixed Effects • Tests de type III (test F) • Estimates of Fixed Effects (estimation des paramètres et tests t) • Intervalles de confiance • Correlation and covariance matrix for estimates of fixed parameters 6. Covariance parameters • Estimates of Covariance Parameters (estimation des paramètres) • Tests de Wald • Intervalles de confiance • Correlation and covariance matrix for estimates of covariance parameters • Random Effect Covariance Structure (G) • Residual Covariance (R) 7. Estimated Marginal Means (Pairwise Comparisons) 8. Valeurs prédites et résiduelles sauvées dans le fichier de données 95 Exercice 3 – Détail des sorties Dimension du modèle 96 Exercice 3 – Détail des sorties Indices d’ajustement (pour comparer des modèles emboîtés)
  • 25. 97 Indices d’ajustement Critère d’Akaike AIC = - 2 (Res) Log likelihood + 2d Critère de Schwartz (BIC) – Recherche de la matrice qui minimise le BIC BIC = - 2 (Res) Log likelihood + d×Log(n) - Pour REML, la valeur de « n » correspond au nombre total d’observations moins le nombre de paramètres d’effets fixes et « d » est le nombre de paramètres de covariance - Pour ML, la valeur de « n » correspond au nombre total d’observations et « d » au nombre de paramètres d’effets fixes auquel on ajoute le nombre de paramètres de covariance Pour plus de détails sur les autres indices – voir l’Help SPSS 98 Tests du rapport de vraisemblance : test d’un effet aléatoire Test sur le modèle à un effet aléatoire : H0 : σs 2 = 0 Statistique utilisée : G2 = [-2Log L(Modèle sans effet)] - [-2Log L(Modèle à un effet)] Calcul du niveau de signification : Niveau de Signification = 0.5Prob(χ2(0) ≥ G2) + 0.5Prob(χ2(1) ≥ G2) (χ2(0) = 0 avec la probabilité 1) Attention uniquement valide avec ML!! 99 Information Criteriaa 595.511 621.511 625.950 667.848 654.848 -2 Log Likelihood Akaike's Information Criterion (AIC) Hurvich and Tsai's Criterion (AICC) Bozdogan's Criterion (CAIC) Schwarz's Bayesian Criterion (BIC) The information criteria are displayed in smaller-is-better forms. Dependent Variable: rythme.a. Exemple d’application du LRT Avec effet sujet Information Criteriaa 515.437 543.437 548.622 593.337 579.337 -2 Log Likelihood Akaike's Information Criterion (AIC) Hurvich and Tsai's Criterion (AICC) Bozdogan's Criterion (CAIC) Schwarz's Bayesian Criterion (BIC) The information criteria are displayed in smaller-is-better forms. Dependent Variable: rythme.a. G2 = [-2Log L(Modèle sans effet)] - [-2Log L(Modèle à un effet)] = 595.511 – 515.437 = 80.074 Niveau de signification = 0.5Prob(χ2(0) ≥ G2) + 0.5Prob(χ2(1) ≥ G2) = 0.5*Prob(χ2(1) ≥ 80) = 0.000 Sans effet sujet 100 Exercice 3 – Détail des sorties Test des effets fixes (Statistique F) Pas d’effet significatif de la condition sur le score observé Calcul des dl basé sur une approximation de Satterthwaite
  • 26. 101 Calcul des degrés de liberté Approximation de Satterthwaite Méthode de Kenward et Roger (disponible en SAS et non en SPSS) Meilleure estimation de V (car ajustement du biais) Utile si on a des estimateurs de variance négatifs 102 Exercice 3 – Détail des sorties Estimation des effets fixes (Statistique t) Stat t² = F => 2.151² = 4.628 Test t ou test F pour l’estimation des effets fixes et aléatoires 103 Un test t permet de manière générale de tester les hypothèses de la forme suivante: H0: Lβ ω= avec L de rang 1 Par exemple: H0: 0condition abstraitβ = = correspond à Lβ ω= avec: L=[0 1 0] condition abstrait condition concret µ β β β = =    =      et 0ω = La matrice L est bien de rang 1 104 Par contre, quand L n’est pas de rang 1 (càd quand il y a plus d’une ligne/colonne indépendante), le test t (la statistique t suivant une distribution normale) devient un test F (la statistique F suivant une disctribution chi²) Par exemple: 0condition abstrait condition concretβ β= == =H0: correspond à Lβ ω= avec: condition abstrait condition concret µ β β β = =    =      et 0ω = La matrice L est de rang 2 (car 2 colonnes indépendantes) [ ]0 1 1L = − càd 0condition abstrait condition concretβ β= =− = On utilise alors un test F dont le nombre de degré de liberté du numérateur dépend du rang de L.
  • 27. 105 Exercice 3 – Détail des sorties Estimation des paramètres de covariance (Statistique de Wald=approximation du rapport de vraisemblance) Test de Wald pour tester les paramètres de covariance 106 For inferences concerning the covariance parameters in your model, you can use likelihood- based statistics. One common likelihood-based statistic is the Wald Z, which is computed as the parameter estimate divided by its asymptotic standard error. The asymptotic standard errors are computed from the inverse of the second derivative matrix of the likelihood with respect to each of the covariance parameters. The Wald Z is valid for large samples, but it can be unreliable for small data sets and for parameters such as variance components, which are known to have a skewed or bounded sampling distribution. A better alternative is the likelihood ratio . This statistic compares two covariance models, one a special case of the other. To compute it, you must run your model twice, once for each of the two models, and then subtract the corresponding values of -2 times the log likelihoods. As long as the reduced model does not occur on the boundary of the covariance parameter space, the statistic computed in this fashion has a large-sample sampling distribution that is with degrees of freedom equal to the difference in the number of covariance parameters between the two models. If the reduced model does occur on the boundary of the covariance parameter space, the asymptotic distribution becomes a mixture of distributions (Self and Liang 1987). A common example of this is when you are testing that a variance component equals its lower boundary constraint of 0. 107 The likelihood-ratio test can also be used to test whether an effect exists or not. Usually the Wald test and the likelihood ratio test give very similar conclusions (as they are asymptotically equivalent), but very rarely, they disagree enough to lead to different conclusions: the p-value is significant when the confidence interval includes 0, or the p-value is not significant when the confidence interval excludes 0. There are several reasons to prefer the likelihood ratio test above the Wald test. One is that the Wald test can give different answers to the same question, according to how the question is phrased. For example, asking whether R = 1 is the same as asking whether log R = 0; but the Wald statistic for R = 1 is not the same as the Wald statistic for log R = 0 (because there is in general no neat relationship between the standard errors of R and log R). Likelihood ratio tests will give exactly the same answer whether we work with R, log R or any other transformation of R. The other reason is that the Wald test uses two approximations (that we know the standard error, and that the distribution is chi-squared), whereas the likelihood ratio test uses one approximation (that the distribution is chi-squared). Under the Wald statistical test, the maximum likelihood estimate of the parameter(s) of interest θ is compared with the proposed value θ0, with the assumption that the difference between the two will be approximately normal. Typically the square of the difference is compared to a chi-squared distribution. Test de Wald pour tester les effets fixes et aléatoires 108 Problème : Le test de Wald suppose que la variance des paramètres estimés des effets fixes ou aléatoires est une quantité connue et fixée. Or, cette variance dépend des paramètres de variance (dans les matrices G et R) qui sont estimés… Alternative: utiliser un test t ou un test F est un meilleur choix. C’est ce que propose SPSS Le test de Wald n’est pas utilisé par SPSS pour tester les effets fixes et aléatoires
  • 28. 109 En résumé Les tests dans les modèles mixtes 109 • Test F: il teste si les effets fixes ou aléatoires d’un modèle sont significatifs • Test t : il teste si les estimations des effets fixes ou aléatoires d’un modèle sont significativement différents du niveau choisi comme référence (on ne peut pas tester un contraste). Dans SPSS, les tests t sont fournis uniquement pour les effets fixes (contrairement à SAS) • Test de Wald : Il sert à comparer deux modèles imbriqués. il n’est à utiliser que pour les covariances et sous certaines conditions. Le test du rapport de vraisemblance est toujours préférable. • Test du rapport de vraisemblance : Il permet la comparaison de 2 modèles imbriqués (Attention à utiliser la méthode ML). Les résultats du tests ne sont pas fournis automatiquement par SPSS ni SAS. Il teste si les paramètres de variance sont significatifs (= test chi²). 110 12ème exemple : Modèle à pattern de covariance Expliquer les TR par d’autres variables quand les items sont présentés plusieurs fois Modèle avec 1 mesure répétée 111 Modèle à pattern de covariance Chaque sujet i est observé à plusieurs reprises pour les mêmes items 2~ (0, )e N ij σY t p e ijk j i ijk µ= + + + où et 2~ (0, )p N i p σ Ca implique des changements dans la matrice R Quand plusieurs mesures sont prises sur le même individu, ces mesures tendent à être corrélées entre elles 112 12ème exemple : Modèle à pattern de covariance Démonstration SPSS Expliquer les TR par la condition, la valence et le nombre de mots total en tenant compte de la répétition d’items et en introduisant le sujet comme facteur aléatoire Modèle avec 3 facteurs fixes, 1 facteur aléatoire et 1 facteur de répétition
  • 29. 113 Méthodes pour l’analyse de mesures répétées 1. Analyse aux temps individuels : Analyse des données à chaque temps individuellement pour évaluer l’effet de la manipulation expérimentale et sans comparaison entre les temps. Aucune inférence n’est réalisée pour voir la tendance au cours du temps Ceci ne constitue pas une analyse pour mesures répétées mais une étape préliminaire à ce type d’analyse 2. Pour tenir compte de la structure de covariance : Utilisation de modèles multi-niveaux 114 Patterns de covariance Les patterns les plus courants sont : Matrice diagonal AR(1) Compound symmetry Voir l’Help SPSS – Covariance structures Expliquer les TR par la condition, la valence et le nombre de mots total en tenant compte de la répétition d’items et en introduisant le sujet comme facteur aléatoire Essayer des structures de covariance différentes 115 13ème exemple : Modèle à pattern de covariance Démonstration SPSS 116 A vous d’essayer Exercice 4 Fichier Ex_4_Temps_1.sav
  • 30. 117 14ème exemple : Modèle à coefficients aléatoires Expliquer les TR par différents facteurs en tenant compte du TL_Base à chaque item Modèle avec 1 facteur aléatoire associé à une variable continue 118118 Sujet TL_Base 1 t11 1 t12 1 t13 1 t14 2 t21 2 t22 3 t31 3 t32 3 t33 TL_Base Variable Dépendante Sujet 1 Sujet 2 Sujet 3 Intercept : effet sujet Pentes : effet sujet- TL_Base 119 Dans un modèle à coefficients aléatoires, nous considérons que l’effet du Sujet (intercept) et l’effet Sujet*TL_Base (pente) peuvent être corrélés, mais seulement pour un même sujet La matrice G de covariance des paramètres est une matrice « block diagonal » : 2 pσ 2 ptσ où est la composante de variance pour l’effet Sujet 2 ,p ptσ est la composante de variance pour l’effet Sujet*TL_Base est la covariance entre les effets aléatoires 120 14ème exemple : Modèle incluant une covariée Démonstration SPSS Expliquer les TR par le BDI, les TL_Base et l’interaction entre les 2 variables en prenant Sujet*Dilemme comme facteur aléatoire Il ne s’agit pas d’un modèle à coefficients alétoires Modèle avec variables continues en VI et facteurs aléatoires
  • 31. 121 15ème exemple : Modèle à coefficients aléatoires Démonstration SPSS Expliquer les TR à la répétition 1 par les TL_Base en permettant un intercept et des pentes variant aléatoirement à travers les individus Modèle à coefficients aléatoires 122 16ème exemple : Modèle à coefficients aléatoires Démonstration SPSS Expliquer les TR à la répétition 1 par les TL_Base en permettant un intercept et des pentes variant aléatoirement à travers les dilemmes Modèle à coefficients aléatoires 123 Problèmes de convergence … Causes de non-convergence Problèmes d’inversion de matrice (multicolinéarité) Estimateurs de variance négatifs Problèmes de complexité du modèle (quantité insuffisante de données relativement à la complexité du modèle) Solutions à envisager Méthode de Kenward et Roger pour le calcul des dl (disponible en SAS et non en SPSS) Récolter plus de données Simplifier le modèle 124 17ème exemple : Modèle à coefficients aléatoires Démonstration SAS EG Expliquer les TR à la répétition 1 par les TL_Base en permettant un intercept et des pentes variant aléatoirement à travers les dilemmes. Calcul des dl par Kenward et Roger Modèle à coefficients aléatoires
  • 32. 125 Le choix d’un modèle Il se détermine sur base de divers éléments Le design Les objectifs poursuivis La comparaison entre modèles La vérification des conditions d’application 126 Le choix d’un modèle Sur base du design Ex: une mesure répétée nécessite la définition d’une structure de corrélation 127 Le choix d’un modèle Sur base des objectifs Objectif de test des effets : rapporter le modèle le plus complet possible en indiquant les facteurs significatifs et ceux qui ne le sont pas Objectif de prédiction de la réponse : ne garder dans le modèle que les facteurs influençant la réponse 128 Le choix d’un modèle Sur base de la comparaison entre modèles Les indices d’ajustement (AIC, BIC, …) et les tests de rapport de vraisemblance permettent de choisir le modèle optimal entre 2 modèles imbriqués
  • 33. 129 Le choix d’un modèle Sur base de la vérification des conditions d’application Un modèle qui tourne n’est pas forcément un bon modèle. Un modèle valide nécessite : Analyses descriptives et graphiques Elimination des points aberrants, extrêmes Vérification de la linéarité du modèle Vérification de la normalité des résidus Vérification de l’homogénéité des variances des résidus Vérification de la normalité des effets aléatoires Vérification de la non multicolinéarité entre effets fixes 130 18ème exemple : Vérification de la qualité du modèle Démonstration SPSS Vérifier la qualité du modèle utilisé à l’exemple 15 Modèle à coefficients aléatoires Voir le document «Diagnostics_Residus_SAS.pdf » comme complément d’information 131 L’écriture du modèle Très dépendante de la revue Quelques références : Using the SPSS Mixed Procedure to Fit Cross-Sectional and Longitudinal Multilevel Models. Psychological Measurement. Educational and Psychological Measurement 2005; 65; 717.James L. Peugh and Craig K. Enders Using SAS PROC MIXED to Fit Multilevel Models, Hierarchical Models, and Individual Growth Models, Judith D. Singer.Journal of Educational and Behavioral Statistics, Vol. 23, No. 4. (Winter, 1998), pp. 323-355. Multilevel models for the experimental psychologist: Foundations and illustrative examples. L. Hoffman & M.J. Rovine. Behavior Research Methods, 2007, 39 (1), 101-117. Les normes de l’APA .. 132 A vous d’essayer Exercice 5 Fichier Ex_5_Consignes.sav Exercice à reprendre chez vous…
  • 34. 133 A vous d’essayer Analyse des données d’Andy Fichier Andy_NEW_XP_FINAL.sav Lancez-vous comme vous le pensez… 134 Analyse des données d’Andy Description de l’étude Fichier Andy_NEW_XP_FINAL.sav 135 Commentaires - Questions Merci de nous en faire profiter