a

437 vues

Publié le

cours analyse

Publié dans : Art & Photos
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
437
Sur SlideShare
0
Issues des intégrations
0
Intégrations
8
Actions
Partages
0
Téléchargements
15
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

a

  1. 1. Modèles mixtes appliqués aux Sciences Humaines avec SPSS 23/02/2010 Préparation : Céline Bugli, Nathalie Lefèvre, Mathieu Pigeon, Erik Doffagne Date : 26 février et 4 mars 2010 2 Documentation SUPPORT Transparents disponibles sur le site du SMCS LIENS UTILES Site du SMCS (Support en Méthodologie et Calcul Statistique) : http://www.uclouvain.be/SMCS Documentation Stat + SPSS : SAS and SPShttp://faculty.chass.ncsu.edu/garson/PA765/multilevel.htm http://www.ats.ucla.edu/stat/spss/ SAS and SPSS MIXED Syntax Guides, Hoffman, 2009 (psych.unl.edu/psycrs/944/SAS_SPSS_Mixed.pdf) Help de SPSS et SAS LIVRES UTILES Introduction to Mixed Modelling: Beyond Regression and Analysis of Variance. N.A. Galwey SAS for Mixed Models, Second Edition, Littell R. and al., Cary, NC: SAS Institute Inc. (2007) Bressoux, P. (2008). Modélisation statistique appliquée aux sciences sociales. Bruxelles : De Boeck Applied mixed models in medicine, Brown H. and Prescott R., Wiley, New York (1999) … 3 Objectifs de la formation Résumés succincts des modèles GLM Limites des GLM Introduction aux modèles mixtes Application sur des données de l’ARC Au terme de la formation, vous serez capable de : Décider quand utiliser un modèle mixte Déterminer quel modèle utiliser (parmi les modèles simples) Savoir comment l’utiliser Interpréter les résultats Rapporter les résultats 4 Plan Demi-journée 1 : Etude de cas Résumé et limites des GLM Théorie sur les modèles mixtes Premières Applications Demi-journée 2 : Exercices Modèles plus complexes
  2. 2. 5 Etude de cas Impact of the processing of specific information on decision making – Raffaella Di Schiena 6 Etude de cas Déroulement de l’expérience 20 minutes de training 10 situations différentes (5 positives et 5 négatives) Ruminations à voix haute Abstract thinking Concret thinking 10 dilemmes liés au matériel de training Choix parmi 2 options Mesures TR (en ms) Difficulté – de 1 (pas difficile du tout de décider) à 7 (très difficile) Inconfort – de 1 (pas d’inconfort du tout en décidant) à 7 (beaucoup) Mesures autres Score de dépression au BDI Niveau d’alexithymie mesuré par le TAS Niveau de rumination dispositionnelle mesuré par le RSS 7 Etude de cas Training abstrait … Prenez le temps de vous concentrer sur chaque situation, sur votre action et de penser de façon très abstraite à la situation. Ne vous concentrez-pas sur les détails… La description fournit un résumé de ce qui s’est passé et c’est tout ce qu’il vous faut. En vous basant sur la description, pensez en terme de mots pour quelles raisons la situation s’est déroulée de cette manière, ainsi que les significations, les implications et les conséquences qui sont associées à cette situation selon vous. Envisagez ce qui a causé la situation et jugez ce que cela signifie pour vous. Vous disposerez de deux minutes et demie pour verbaliser ce qui vous passe par la tête…Vos verbalisations seront enregistrées de façon complètement anonyme. 8 Etude de cas Exemple de Training abstrait ACCIDENT DE VOITURE Imaginez que vous avez survécu à un accident de voiture sur l’autoroute. Vous avez un accident de voiture. Sur l’autoroute, un camion entre en collision avec votre voiture. Votre voiture est bonne pour la casse. Vous n’êtes pas sérieusement blessé(e), mais avez néanmoins une jambe cassée. Que pensez-vous du conducteur du camion? Quelle a été la cause de l’accident? Quelle influence votre jambe cassée aura-t-elle sur votre vie?
  3. 3. 9 Etude de cas Training concret … Prenez le temps de vous concentrer sur chaque situation, de vous imaginer dans chaque situation et d’imaginer de façon très vivante ce qui peut se passer. Imaginez la scène, comme si vous étiez réellement là– imaginez de manière aussi vivante que possible ce que vous pouvez voir, entendre, sentir, toucher et expérimenter dans la situation. Soyez attentif à noter ce qui se passe tout autour de vous, instant après instant– en vous représentant ce qui se passe avant, pendant et après les événements centraux de la situation. Vous disposerez de deux minutes et demie pour verbaliser ce qui vous passe par la tête…Vos verbalisations seront enregistrées de façon complètement anonyme. 10 Etude de cas Exemple de Training concret ACCIDENT DE VOITURE Imaginez que vous avez survécu à un accident de voiture sur l’autoroute. Quand réalisez-vous pour la première fois que le camion était sur le point de vous percuter ? De quelle direction venait le camion ? Laquelle de vos jambes a été cassée ? 11 Etude de cas Exemple de Dilemme ACCIDENT DE VOITURE Comment vas-tu demander de l’aide ? 12 Etude de cas Individus 71 participants Variables ID VI Variable expérimentale Variables « Contrôles » VD Sujet Condition Valence Dilemme Score de dépression (BDI) Niveau d’alexithymie (TAS) Niveau de rumination (RSS) TL_Base (variable simulée) TR Difficulté Inconfort
  4. 4. 13 Introduction : Vocabulaire Un facteur = manipulation expérimentale ou caractéristique des individus Ex : Condition, Valence Un niveau = traitement ou caractéristique spécifique Ex : Abstrait/Concret, Positif/Negatif Chaque niveau a un effet : le fait d’être dans une condition expérimentale a un effet sur la moyenne des TR 14 Expliquer les TR (dilemme2) par la difficulté à prendre une décision? (Imaginons la difficulté comme continue) Modèle avec 1 variable continue (comme VI) Prerequis : General Linear Model 1er exemple : Régression linéaire simple 15 Régression linéaire simple Permet de (tester s’il est possible de) prédire une variable continue sur base d’une autre variable continue Y = VD, TR X = VI, difficulté 16 Les TR (dilemme2) sont-ils affectés par la difficulté à prendre une décision? Modèle vide : Yi =β0 + εi Modèle avec 1 prédicteur : Yi=β0+β1X+εi β0 et β1 sont des paramètres du modèle Constante = estimée par la moyenne des Y Pente liée à X : indique de combien Y change quand X change d’une unité Erreur propre à chaque individu i Constante ou intercept : estimé par la moyenne des Y si X=0
  5. 5. 17 Imaginons 2 Situations (données fictives) 18 Construire un modèle vide consiste à prédire Y sur base de sa moyenne : Yi =β0 + εi b0 =11500 19 Dans une des situations, introduire un lien à X va aider à prédire Y: Yi =β0 +β1X+ εi Yi=b0+b1X1≈12015-151.51Xi Yi=b0+b1X1≈6333+939.39Xi 20 Comment détermine-t-on la droite? Par le critère des moindres carrés : Trouver la droite qui minimise la somme des carrés des écarts entre Yi et Yi (minimiser ) X Y 0 1000 2000 3000 4000 5000 6000 7000 8000 0 4 8 12 16 20 Yi Yi Résidu : ei=Yi-b0-b1Xi Yi=b0+b1Xi 21 1 2 10 )( X XY n i ii S S bXbbY =⇔−−∑=
  6. 6. 21 Comment teste-t-on un paramètre du modèle? Par une décomposition et un rapport de variance Variance totale de Y = variance de Y expliquée par X + erreur : Variance des TR = variance des TR expliquée par la difficulté + erreur Sum of SquaresTotal = SSRegression + SSResidual Pour tenir compte du N et de la complexité du modèle (MS=SS/dl): Mean Squares Total = MSRegression + MSResidual Test : H0 : β1=0 => Yi =β0 +β1X+ εi =β0 +εi H1 : β1≠0 => Yi =β0 +β1X+ εi Test : Rapport entre ce qu’explique le modèle et ce qui reste inexpliqué: MSRegression/ MSResidual ~ F(n1,n2) sous H0 R²=1-((SSResidual - SSRegression)/ SSRegression) = SSRegression/SSTotal 22 Décomposition de la variance sidualgressionTotal SSSSSS ReRe += Nombredemots 0 1000 2000 3000 4000 5000 6000 7000 8000 0 2 4 6 8 10 12 14 16 18 20 Y YYi − YYi −ˆ iii YYe ˆ−= Yi : Résultat du ième individu Y : Résultat moyen observé : Résultat prédit par le modèle ei : Fluctuation aléatoire due aux différences entre individus Yi 23 Ex: Les TR (dilemme2) sont-ils affectés par la difficulté à prendre une décision? SPSS : Analyze → Regression → Linear 24 Comment juger si le modèle est bon? En regardant la p-valeur et le coefficient R2 2 1 )ˆ( YY n i i −∑= 2 1 )ˆ(∑= − n i ii YY Somme des carrés expliquée par le modèle Somme des carrés résiduelle p-valeur indiquant si le modèle Y= β0+β1X+ε est meilleur qu’un modèle ayant seulement une constante Y= β0+ε Pourcentage de variabilité de la réponse expliquée par le modèle Pourcentage de variabilité de la réponse expliquée par le modèle pondérée par le nombre de variables du modèle et le nombre d’observations Ecart-type des résidus
  7. 7. 25 X Y 0 1000 2000 3000 4000 5000 6000 7000 8000 0 4 8 12 16 20 Comment juger si le modèle est valide? En analysant les résidus et les points influents Les hypothèses suivantes doivent être vérifiées Permet de s’assurer qu’un bon modèle est bien valide Permet parfois de comprendre pourquoi un modèle n’est pas bon Termes d’erreur Modèle linéaire εεεεi ~ iN(0,σσσσ²) Indépendance des observations Normalité de la distribution Homogénéité des variances iii XY εββ ++= 10 26 Ex: Analyse graphique des résidus du modèle SPSS : Analyze → Regression → Linear (Plots - Save) Variance ± constante ? ± 95% des ri entre -2 et 2 ? 1 point très extrême… (Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot) (Save: Prédi unstand. & Leverage Scatter/Dot: X=Prédi unstd. Y=Leverage) Résidus Normaux ? Non! Risque de force de levier si leverage > 2p/n 27 Des problèmes peuvent être détectés via une simple analyse descriptive Histogramme des TR Un outlier Une distribution dissymétrique Nécessité de transformer Log_TR 28 Expliquer les LOG_TR (dilemme2) par la difficulté à prendre une décision? (imaginons la difficulté comme continue) Modèle avec 1 variable continue (comme VI) 2ème exemple : Régression linéaire simple sur données transformées
  8. 8. 29 Même analyse avec la VD transformée SPSS : Analyze → Regression → Linear Comment juger si le modèle est bon ? 30 Comment juger si le modèle est valide ? SPSS : Analyze → Regression → Linear (Plots - Save) Variance ± constante ? ± 95% des ri entre -2 et 2 ? 1 point très extrême… (Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot) (Save: Prédi unstand. & Leverage Scatter/Dot: X=Prédi unstd. Y=Leverage) Résidus Normaux ? Oui! Risque de force de levier si leverage > 2p/n 31 Estimations des paramètres β0+β1 p-valeurs associées aux tests dont l’hypothèse H0 est la nullité du paramètre Comment rapporter le modèle estimé ? Sous forme d’une équation Log_TR = 9.12+0.083*Difficulté 32 Régression linéaire multiple A noter: Absence de colinéarité comme condition supplémentaire d’application Un lien trop important entre VI entrées dans le modèle est source d’instabilité et d’erreur (des effets peuvent s’inverser par ex.) Comme vérification : VIF <5 voire 10
  9. 9. 33 Prerequis : General Linear Model Régression simple, multiple… ANOVA à 1 critère, à 2 critère… ANCOVA … Oui MAIS les GLM ne répondent pas à tout 34 Limites des GLM Ex: Analyse des TR en fonction de la condition, mais en tenant compte des différents Dilemmes Que faire? Solutions erronées : Ne pas tenir compte du fait qu’on a plusieurs Dilemmes, faire comme si chaque observation est un nouvel individu Les Dilemmes introduisent une variabilité du fait de leur longueur et induisent donc du bruit qu’il y aurait moyen d’extraire Tenir compte des Dilemmes comme d’un facteur between On considère comme indépendantes des données qui sont liées. Il existe une structure de corrélation dont on ne tient pas compte 35 Limites des GLM Ex: Analyse des TR en fonction de la condition, mais en tenant compte des différents Dilemmes Que faire? Solutions non optimales voire risquées Utiliser une ANOVA avec Dilemme comme facteur répété On n’est pas vraiment intéressé par tester cette variable Utiliser un score moyen pour résumer les dilemmes Attention à l’utilisation de la moyenne selon les distributions Cela peut cacher un effet ou montrer un effet artefact 36 Modèles mixtes La solution se trouve dans les modèles mixtes Permet de définir une structure de corrélation Tire un maximum d’informations en cas de valeurs manquantes Corrige les problèmes liés à des groupes disproportionnés en nombre (shrinkage) …
  10. 10. 37 Expliquer les TR (LOG_TR_1) par l’inconfort ressenti durant la décision – Plusieurs données par individu? (imaginons l’inconfort comme continu) Comparaison entre un Modèle réalisé sur les moyennes avec 1 variable continue et un Modèle avec 1 variable continue et 1 facteur aléatoire 3ème exemple (simulé) : Régression ou modèle mixte ? 38 Exemple simulé - GLM Calcul d’un temps (en log) et d’un inconfort moyen à travers les dilemmes. Régression afin de prédire le temps moyen en fonction de l’inconfort moyen 39 Ex: Régression afin de prédire le temps moyen en fonction de l’inconfort moyen Semble montrer un temps qui augmente avec l’inconfort Et pourtant… 40 Exemple simulé – Modèle mixte Ex: Modèle mixte avec l’ID en facteur aléatoire Montre un temps qui diminue avec l’inconfort !!!
  11. 11. 41 Pourquoi ? En prenant un temps moyen par participant, cela crée l’illusion que le temps augmente avec l’inconfort… En analysant ce qui se passe par participant, c’est la tendance inverse qui se dessine … 42 Approche classique - Insuffisante du fait de la non indépendance des observations - Limitée : elle ne peut prendre en compte l’ensemble de la variabilité des phénomènes Approche multiniveau - Vise à mesurer et analyser la variance à chaque niveau - Les facteurs de niveau élevé ne sont plus uniquement considérés comme des facteurs de nuisance (ex: en éducation – effet classe) Le modèle linéaire multiniveau est l’instrument de base permettant - La prise en compte des effets de milieu dans l’analyse de la variabilité des comportements individuels - L’analyse de l’association entre caractéristiques individuelles et facteurs de niveau plus élevé - Le traitement des données corrélées 43 Structurer les données sur différents niveaux permet la décomposition en effets fixes et aléatoires Dans un modèle statistique, il y a toujours une part d’inobservé, une partie de la réalité qui n’est pas explicitée En dissociant dans un modèle les caractéristiques à différents niveaux d’observation, on peut percevoir de manière plus fine cette ≪hétérogénéité non observée≫: on obtient une mesure de la variance par niveau 44 Différents types de modèles mixtes Modèles mixtes = Modèles multiniveaux Modèle à effets aléatoires Modèles à coefficients aléatoires Modèle à Pattern de covariance Effets aléatoires associés à des variables catégorielles (individus, items,…) Effets aléatoires associés à des variables continues (état de dépression, TL_Base…) Modélisation directe du pattern de corrélation (mesures répétées)
  12. 12. 45 Partons du modèle le plus simple Considérons une expérience dans laquelle intervient une condition expérimentale à 2 niveaux (Abstrait/Concret) qui est supposée avoir un impact sur les TR = moyenne des TR pour les sujets en condition Abstrait = moyenne des TR pour les sujets en condition Concret Le modèle le plus simple est : Interprétation : Un TR ( ) observé chez un individu donné dans la condition A équivaut à la moyenne de la condition Abstrait ( ) plus une variation aléatoire appelée erreur ( ) provenant de ce qui est particulier à l’individu concerné et qui ne provient pas de la condition Abstrait C µ A µ Y e A A µ= + Y A A µ e 46 Données Sujet Dilemme Valence Condition TL_Base LOG_TR 1 1 1 a 9.00 9.04 1 2 2 a 7.20 8.55 1 3 1 a 20.12 10.25 1 4 2 a 9.02 9.32 2 1 1 a 8.00 8.98 2 2 2 a 8.50 9.02 2 3 1 a 9.00 9.26 2 4 2 a 8.90 9.75 3 1 1 c 9.50 9.88 3 2 2 c 9.56 10.01 3 3 1 c 9.02 9.14 3 4 2 c 8.30 8.99 47 4ème exemple : Modèle à effet fixe Expliquer les TR par la condition Modèle avec 1 facteur fixe 48 Comment évaluer l’effet de la condition? Means model: Y e A A µ= + Un TR en condition « Abstrait » Moyenne des observations dans la condition « Abstrait » Terme d’erreur A µ Abstrait Concret C µ Y A e Y e C C µ= +Et de façon analogue pour la condition « Concret »:
  13. 13. 49 • ANOVA: c e A A µ µ= + + Effet de la condition « Abstrait » Terme d’erreur Y c e A A µ= + + Moyenne des observations dans la condition « Abstrait » Y c e C C µ= + + Et de façon analogue: 0 1 * j ij Y condition e ij β β= + + Pour le sujet i dans la condition j Abstrait Concret µ Y A e A µ C µ Ac 50 Modèle à effet fixe tenant compte de la condition 2~ (0, )e N ij σ Y condition e ij j ij µ= + + Y c e A A µ= + + Y c e C C µ= + + avec Pour le sujet i dans la condition j 51 0 2 4 6 8 10 12 14 16 Abstract Concrete c A Abstrait Concret Y A e c C µ A µ C µ 2σ 2σ 52 5ème exemple : Modèle à effets fixes Expliquer les TR par la condition et la valence Modèle avec 2 facteurs fixes
  14. 14. 53 Modèle à effet fixe tenant compte de la condition et de la valence 2~ (0, )e N ij σ k Y valence condition e ijk j ij µ= + + + avec Pour le sujet i dans la condition j et la valence k µ µNegative µj VΝeg Yij τj εij µPositive VPos CConc CΑbs CConc CΑbs 54 0 5 10 15 20 Positive Negative Abstract Concrete 55 6ème exemple : Modèle à effet aléatoire Expliquer les TR par la condition et la valence en tenant compte du facteur individu Modèle avec 2 facteurs fixes et 1 facteur aléatoire 56 Effet sujet 2~ (0, )e N ij σ 1 c s A A µ µ= + + 2 c s A A µ µ= + + k Y v c s e ij j i ij µ= + + + + 2σ où y Abstrait Concret 2σ 2σ 2σ 1 c s C C µ µ= + + sujet 1 sujet 2 sujet 1 sujet 2 2 c s C C µ µ= + + Effet sujet Effets fixes
  15. 15. 57 Condition 1 Condition 2 Echantillon Groupe A Groupe B Performance des individus Moyenne généraleScore de l’individu i Moyenne de la condition 1 Moyenne du groupe A 58 Considérons les si comme étant des réalisations d’une distribution de probabilité: Les sont appelés effets aléatoires Les sont appelés effets fixes Effet sujet aléatoire k v c j + 2~ (0, )e N ij σoù et s i 2~ (0, )s N i s σk Y v c s e ij j i ij µ= + + + + 59 y Abstrait Concret c C C µ µ= + c A A µ µ= + 2 s σ 2σ 2σ 2 s σ 2σ 2σ 60 Effets fixes et aléatoires 1. Effets fixes : facteurs pour lesquels tous les niveaux sont considérés 2. Effets aléatoires : facteurs pour lesquels les niveaux présents dans les données sont un échantillon aléatoire de tous les niveaux présents dans la population Exemples Effets fixes 1. Le sexe : masculin et féminin sont les 2 seuls niveaux possibles (l’un OU l’autre) 2. Agegroup : Mineur/majeur sont les 2 niveaux de “Agegroup” Effets aléatoires 1. Sujet : l’échantillon est un échantillon aléatoire de la population DEFINITIONS
  16. 16. 61 Quelles situations cherche-t-on à modéliser avec un effet aléatoire? - Tenir compte de mesures répétées pour un même individu - On modélise un « concept », une « méthode » et on observe des individus soumis à ce concept Exemples : - En science de l’éducation, une classe « scolaire » applique une méthode d’éducation - Mesures de croissance sur des arbres : les mesures sont répétées dans le temps. On cherche à comprendre le phénomène de croissance (peu importe l’arbre lui-même) 62 6ème exemple Démonstration SPSS Expliquer les TR par la condition et la valence en tenant compte du facteur individu Modèle avec 2 facteurs fixes et 1 facteur aléatoire 63 A vous d’essayer Exercice 1 Fichier EX1.sav 64 7ème exemple : Modèle à effet aléatoire Démonstration SPSS Expliquer les TR par la condition, la valence, en tenant compte du dilemme Autre modèle avec 2 facteurs fixes et 1 facteur aléatoire
  17. 17. 65 66 8ème exemple : Modèle à effets aléatoires Démonstration SPSS Expliquer les TR par la condition, la valence, en tenant compte du dilemme et du sujet Modèle avec 2 facteurs fixes et 2 facteurs aléatoires 67 9ème exemple : Modèle à effet aléatoire Démonstration SPSS Expliquer les TR par la condition, la valence et le dilemme en tenant compte du sujet Modèle avec 3 facteurs fixes et 1 facteur aléatoire Quelque chose d’anormal ? Oui, mais quoi … 68 10ème exemple : Modèle à effet aléatoire Démonstration SPSS Modèle plus simple : expliquer les TR par la condition et le dilemme en tenant compte du sujet Modèle avec 2 facteurs fixes et 1 facteur aléatoire Réaliser un contraste pour comparer les dilemmes 5 et 9 (voir slide suivant) Rien d’anormal …
  18. 18. 69 Utiliser les contrastes But : contraster la valeur d’un niveau avec la valeur d’un ou de plusieurs autres niveaux du même effet La matrice de contraste permet de tester si plusieurs combinaisons linéaires de coefficients sont égales à zéro Code SPSS pour réaliser des contrastes : /TEST ‘niveau 2 et 4 de la variable Item' Item 0 -1 0 1. 70 11ème exemple : Modèle hiérarchique Expliquer l’exemple 9 par un modèle hiérarchique Expliquer les TR par la Condition, la Valence et le Dilemme en tenant compte du sujet et du fait que Dilemme est niché dans Valence Modèle avec 3 facteurs fixes, dont un nesté et 1 facteur aléatoire 71 Modèles hiérarchiques et effets nestés Les designs hiérarchiques ont des effets nichés (nested) Les effets nichés concernent des effets avec de sujets inclus dans des groupes Exemple : Une expérience est réalisée au plan national et les données sont récoltées par différents chercheurs provenant de différentes universités On exprime cela par : sujet (expérimentateur) et expérimentateur (université) Expérimentateur = Niveau 2 UCL ULG FUCAM Raffaella Claudia Andy Toon Remy Adrien Armelle Alyssia Université = Niveau 3 Sujet = Niveau 1 72 Modèle hiérarchique : Imaginons qu’il y ait seulement un 2ème niveau (expérimentateur=l) l’estimateur de l’effet sujet se fait par condition 2~ (0, )e N ij σoù et 2~ (0, )s N ij s σk Y v c s e ijkl j il ijkl µ= + + + + On pourrait même supposer que: 2~ (0, )e N ij σoù et 2~ (0, )s N ij sl σk Y v c s e ijkl j il ijkl µ= + + + +
  19. 19. 73 11ème exemple : Modèle hiérarchique Démonstration SPSS Expliquer les TR par la Condition, la Valence et le Dilemme en tenant compte du sujet et du fait que Dilemme est niché dans Valence Modèle avec 3 facteurs fixes, dont un nesté et 1 facteur aléatoire 74 Lien entre la régression linéaire et le modèle mixte : Notation matricielle 75 Rappel sur la multiplication de 2 matrices Step 1 Step 2 Step 3 Step 4 76 Notation matricielle en régression linéaire Trois formulations équivalentes 1. 2. 3. 0 1 ,1 ,...i i p i p iY X Xα α α ε= + + + + pour n observations (i=1,…,n) 1 1,1 1, 0 1 ,1 , 1 1 p n n n p p n Y X X Y X X α ε α ε            = +                  L M M M M M M L Y Xα ε= +
  20. 20. 77 0 1 1,1 1, 1 1 ,1 , 1 1 p n n n p n p Y X X Y X X α ε α ε α              = +                 L M M M M M M L 1 1,1Xα+ 1 Y 0α= 1,p pXα...+ + 1ε+ 78 Notation matricielle pour un modèle mixte y X Z eα β= + + y ~ (0, )N Gβ 2~ (0, )e N ij σY t p e ij j i ij µ= + + + où est le vecteur de la variable dépendante est le vecteur des paramètres pour les effets fixes ~ (0, )e N R α β où est le vecteur des paramètres pour les effets aléatoires 79 Construction des matrices de design n= 12 obs Sujet Dilemme Valence Condition TL_Base LOG_TR 1 1 1 a 9.00 9.04 1 2 2 a 7.20 8.55 1 3 1 a 20.12 10.25 1 4 2 a 9.02 9.32 2 1 1 a 8.00 8.98 2 2 2 a 8.50 9.02 2 3 1 a 9.00 9.26 2 4 2 a 8.90 9.75 3 1 1 c 9.50 9.88 3 2 2 c 9.56 10.01 3 3 1 c 9.02 9.14 3 4 2 c 8.30 8.99 VD=LOG_TR TL_Base (Vitesse lecture)=Covariée Imaginons : Sujet = facteur aléatoire et Autres variables = facteurs fixes 80 1 0 0 1 0 0 1 0 0 1 0 0 0 1 0 Z = 0 1 0 0 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 0 1 Sujet Dilemme TL_Base LOG_TR 1 1 9.00 9.04 1 2 7.20 8.55 1 3 20.12 10.25 1 4 9.02 9.32 2 1 8.00 8.98 2 2 8.50 9.02 2 3 9.00 9.26 2 4 8.90 9.75 3 1 9.50 9.88 3 2 9.56 10.01 3 3 9.02 9.14 3 4 8.30 8.99 Effet aléatoire : Sujet n=12 lignes Y = (9.04, 8.55,…,9.75,9.88) Nous voulons modéliser le LOG_TR TL_Base Effets fixes : Dilemme et vitesse de lecture de base Sujet 2 Sujet 3Sujet 1 1 9.04 1 0 0 0 1 8.55 0 1 0 0 1 10.25 0 0 1 0 1 9.32 0 0 0 1 1 8.98 1 0 0 0 X = 1 9.02 0 1 0 0 1 9.26 0 0 1 0 1 9.75 0 0 0 1 1 9.88 1 0 0 0 1 10.01 0 1 0 0 1 9.14 0 0 1 0 1 8.99 0 0 0 1 Dilem_1 Dilem_2 Dilem_3 Dilem_4 Intercept
  21. 21. 81 Si nous considérons un effet aléatoire du Sujet et du Sujet*valence, Z est défini par Sujet 1 Sujet 1 et Valence 1 Sujet 2 Sujet 3 Sujet 1 et Valence 2 Sujet 2 et Valence 1 Sujet 2 et Valence 2 Sujet 3 et Valence 1 Sujet 3 et Valence 2 1 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 Z = 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 Sujet Valence 1 1 1 2 1 1 1 2 2 1 2 2 2 1 2 2 3 1 3 2 3 1 3 2 82 Matrice de covariance ( ) ( )V Var Y Var X Z eα β= = + + ( ) ( ) ( )Var X Var Z Var eα β= + + ( ) 0Var X α = ( ) ( ) 'Var Z ZVar Zβ β= ( )Var Gβ = ( )Var e R= 'V ZGZ R= + et 83 En cas d’effets aléatoires : matrice G de covariance des paramètres Si on n’a pas de mesures répétées, cette matrice est toujours diagonale. Le nombre de paramètres dépend du nombre d’effets aléatoires et du nombre de valeurs différentes des variables choisies comme effets aléatoires ~ (0, )N Gβ 84 Par exemple, • Si on a un effet sujet aléatoire et 3 sujets: • Si on a un effet sujet (3 sujets) et un effet dilemme (4 dilemmes): 0 0 0 0 0 0 p p p G σ σ σ     =       0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 p p p d d d d G σ σ σ σ σ σ σ           =            
  22. 22. 85 En cas d’effets aléatoires : Matrice R de covariance des résidus Si on n’a pas de mesures répétées, la matrice R est toujours diagonale du fait de l’hypothèse de résidus non corrélés : 2 nR Iσ= ~ (0, )e N R 86 A vous d’essayer Exercice 2 Fichier EX1.sav 87 Estimation des effets fixes et aléatoires ML: maximum likelihood REML: restricted maximum likelihood (ou residual ML) La vraisemblance d’un modèle : C’est la probabilité d’effectivement observer les données si le modèle choisi est vrai. C’est une fonction des observations y Dans la méthode REML, on utilise une fonction de vraisemblance qui est une fonction des résidus marginaux: Estimation par moindre carré? Non, car impossible si données non balancées Note: Quand les données sont balancées, l’estimation par moindres carrés est identique à celle REML si on utilise une matrice de covariance Compound Symmetry. Avantage de REML par rapport à ML : les estimateurs de variance et covariance sont sans biais. αˆXy − 88 Méthode Modèles à effets fixes Modèles mixtes Modèles covariance pattern balancé Non balancé balancé Non balancé balancé Non balancé ANOVA oui Pas facilement oui Pas facilement non non Moindres carrés (non pondérés) oui oui non non non non ML oui oui oui oui oui oui REML oui oui oui oui oui oui Ce que permettent ou non les différentes méthodes
  23. 23. Modèles mixtes appliqués aux Sciences Humaines avec SPSS 23/02/2010 Préparation : Céline Bugli, Nathalie Lefèvre, Mathieu Pigeon, Erik Doffagne Date : 26 février et 4 mars 2010 90 A vous d’essayer Exercice 3 Fichier EX1.sav 91 A suivre … Comment savoir si notre modèle est correct ? Comment tenir compte de la variabilité commune (corrélation) qui peut exister entre plusieurs observations? Comment choisir entre plusieurs modèles? Comment fait-on lorsqu’une variable continue est susceptible d’interférer sur les effets? Comment faire lorsque la VD n’est pas vraiment continue? 92 Plan Demi-journée 2 : Détail des outputs SPSS Modèles à pattern de covariance Modèles à coefficient aléatoire Le choix d’un modèle Exercices
  24. 24. 93 Exercice 3 - Correction Fichier EX1.sav Analyse descriptive « Score_2 » ANOVA : VD = Score_2 & Facteur fixe = Condition Menu GLM , Menu Mixed Models et comparaison des résultats ANOVA : VD = Score_2 & Facteur fixe = Condition, ID Menu GLM , Menu Mixed Models et comparaison avec Exercice 1 Modèle Mixte : VD = Score_2 , Facteur fixe = Condition , Facteur aléatoire = ID Réalisation et comparaison avec l’Exercice 1 94 Outputs SPSS 1. Case processing Summary (comptage des observations par condition) 2. Descriptive statistics (moyenne, SD, CV par condition) 3. Model Dimension (nombre de paramètres du modèle) 4. Information Criteria (Indices d’ajustement -2LL, AIC, AICC, CAIC, BIC,…) 5. Fixed Effects • Tests de type III (test F) • Estimates of Fixed Effects (estimation des paramètres et tests t) • Intervalles de confiance • Correlation and covariance matrix for estimates of fixed parameters 6. Covariance parameters • Estimates of Covariance Parameters (estimation des paramètres) • Tests de Wald • Intervalles de confiance • Correlation and covariance matrix for estimates of covariance parameters • Random Effect Covariance Structure (G) • Residual Covariance (R) 7. Estimated Marginal Means (Pairwise Comparisons) 8. Valeurs prédites et résiduelles sauvées dans le fichier de données 95 Exercice 3 – Détail des sorties Dimension du modèle 96 Exercice 3 – Détail des sorties Indices d’ajustement (pour comparer des modèles emboîtés)
  25. 25. 97 Indices d’ajustement Critère d’Akaike AIC = - 2 (Res) Log likelihood + 2d Critère de Schwartz (BIC) – Recherche de la matrice qui minimise le BIC BIC = - 2 (Res) Log likelihood + d×Log(n) - Pour REML, la valeur de « n » correspond au nombre total d’observations moins le nombre de paramètres d’effets fixes et « d » est le nombre de paramètres de covariance - Pour ML, la valeur de « n » correspond au nombre total d’observations et « d » au nombre de paramètres d’effets fixes auquel on ajoute le nombre de paramètres de covariance Pour plus de détails sur les autres indices – voir l’Help SPSS 98 Tests du rapport de vraisemblance : test d’un effet aléatoire Test sur le modèle à un effet aléatoire : H0 : σs 2 = 0 Statistique utilisée : G2 = [-2Log L(Modèle sans effet)] - [-2Log L(Modèle à un effet)] Calcul du niveau de signification : Niveau de Signification = 0.5Prob(χ2(0) ≥ G2) + 0.5Prob(χ2(1) ≥ G2) (χ2(0) = 0 avec la probabilité 1) Attention uniquement valide avec ML!! 99 Information Criteriaa 595.511 621.511 625.950 667.848 654.848 -2 Log Likelihood Akaike's Information Criterion (AIC) Hurvich and Tsai's Criterion (AICC) Bozdogan's Criterion (CAIC) Schwarz's Bayesian Criterion (BIC) The information criteria are displayed in smaller-is-better forms. Dependent Variable: rythme.a. Exemple d’application du LRT Avec effet sujet Information Criteriaa 515.437 543.437 548.622 593.337 579.337 -2 Log Likelihood Akaike's Information Criterion (AIC) Hurvich and Tsai's Criterion (AICC) Bozdogan's Criterion (CAIC) Schwarz's Bayesian Criterion (BIC) The information criteria are displayed in smaller-is-better forms. Dependent Variable: rythme.a. G2 = [-2Log L(Modèle sans effet)] - [-2Log L(Modèle à un effet)] = 595.511 – 515.437 = 80.074 Niveau de signification = 0.5Prob(χ2(0) ≥ G2) + 0.5Prob(χ2(1) ≥ G2) = 0.5*Prob(χ2(1) ≥ 80) = 0.000 Sans effet sujet 100 Exercice 3 – Détail des sorties Test des effets fixes (Statistique F) Pas d’effet significatif de la condition sur le score observé Calcul des dl basé sur une approximation de Satterthwaite
  26. 26. 101 Calcul des degrés de liberté Approximation de Satterthwaite Méthode de Kenward et Roger (disponible en SAS et non en SPSS) Meilleure estimation de V (car ajustement du biais) Utile si on a des estimateurs de variance négatifs 102 Exercice 3 – Détail des sorties Estimation des effets fixes (Statistique t) Stat t² = F => 2.151² = 4.628 Test t ou test F pour l’estimation des effets fixes et aléatoires 103 Un test t permet de manière générale de tester les hypothèses de la forme suivante: H0: Lβ ω= avec L de rang 1 Par exemple: H0: 0condition abstraitβ = = correspond à Lβ ω= avec: L=[0 1 0] condition abstrait condition concret µ β β β = =    =      et 0ω = La matrice L est bien de rang 1 104 Par contre, quand L n’est pas de rang 1 (càd quand il y a plus d’une ligne/colonne indépendante), le test t (la statistique t suivant une distribution normale) devient un test F (la statistique F suivant une disctribution chi²) Par exemple: 0condition abstrait condition concretβ β= == =H0: correspond à Lβ ω= avec: condition abstrait condition concret µ β β β = =    =      et 0ω = La matrice L est de rang 2 (car 2 colonnes indépendantes) [ ]0 1 1L = − càd 0condition abstrait condition concretβ β= =− = On utilise alors un test F dont le nombre de degré de liberté du numérateur dépend du rang de L.
  27. 27. 105 Exercice 3 – Détail des sorties Estimation des paramètres de covariance (Statistique de Wald=approximation du rapport de vraisemblance) Test de Wald pour tester les paramètres de covariance 106 For inferences concerning the covariance parameters in your model, you can use likelihood- based statistics. One common likelihood-based statistic is the Wald Z, which is computed as the parameter estimate divided by its asymptotic standard error. The asymptotic standard errors are computed from the inverse of the second derivative matrix of the likelihood with respect to each of the covariance parameters. The Wald Z is valid for large samples, but it can be unreliable for small data sets and for parameters such as variance components, which are known to have a skewed or bounded sampling distribution. A better alternative is the likelihood ratio . This statistic compares two covariance models, one a special case of the other. To compute it, you must run your model twice, once for each of the two models, and then subtract the corresponding values of -2 times the log likelihoods. As long as the reduced model does not occur on the boundary of the covariance parameter space, the statistic computed in this fashion has a large-sample sampling distribution that is with degrees of freedom equal to the difference in the number of covariance parameters between the two models. If the reduced model does occur on the boundary of the covariance parameter space, the asymptotic distribution becomes a mixture of distributions (Self and Liang 1987). A common example of this is when you are testing that a variance component equals its lower boundary constraint of 0. 107 The likelihood-ratio test can also be used to test whether an effect exists or not. Usually the Wald test and the likelihood ratio test give very similar conclusions (as they are asymptotically equivalent), but very rarely, they disagree enough to lead to different conclusions: the p-value is significant when the confidence interval includes 0, or the p-value is not significant when the confidence interval excludes 0. There are several reasons to prefer the likelihood ratio test above the Wald test. One is that the Wald test can give different answers to the same question, according to how the question is phrased. For example, asking whether R = 1 is the same as asking whether log R = 0; but the Wald statistic for R = 1 is not the same as the Wald statistic for log R = 0 (because there is in general no neat relationship between the standard errors of R and log R). Likelihood ratio tests will give exactly the same answer whether we work with R, log R or any other transformation of R. The other reason is that the Wald test uses two approximations (that we know the standard error, and that the distribution is chi-squared), whereas the likelihood ratio test uses one approximation (that the distribution is chi-squared). Under the Wald statistical test, the maximum likelihood estimate of the parameter(s) of interest θ is compared with the proposed value θ0, with the assumption that the difference between the two will be approximately normal. Typically the square of the difference is compared to a chi-squared distribution. Test de Wald pour tester les effets fixes et aléatoires 108 Problème : Le test de Wald suppose que la variance des paramètres estimés des effets fixes ou aléatoires est une quantité connue et fixée. Or, cette variance dépend des paramètres de variance (dans les matrices G et R) qui sont estimés… Alternative: utiliser un test t ou un test F est un meilleur choix. C’est ce que propose SPSS Le test de Wald n’est pas utilisé par SPSS pour tester les effets fixes et aléatoires
  28. 28. 109 En résumé Les tests dans les modèles mixtes 109 • Test F: il teste si les effets fixes ou aléatoires d’un modèle sont significatifs • Test t : il teste si les estimations des effets fixes ou aléatoires d’un modèle sont significativement différents du niveau choisi comme référence (on ne peut pas tester un contraste). Dans SPSS, les tests t sont fournis uniquement pour les effets fixes (contrairement à SAS) • Test de Wald : Il sert à comparer deux modèles imbriqués. il n’est à utiliser que pour les covariances et sous certaines conditions. Le test du rapport de vraisemblance est toujours préférable. • Test du rapport de vraisemblance : Il permet la comparaison de 2 modèles imbriqués (Attention à utiliser la méthode ML). Les résultats du tests ne sont pas fournis automatiquement par SPSS ni SAS. Il teste si les paramètres de variance sont significatifs (= test chi²). 110 12ème exemple : Modèle à pattern de covariance Expliquer les TR par d’autres variables quand les items sont présentés plusieurs fois Modèle avec 1 mesure répétée 111 Modèle à pattern de covariance Chaque sujet i est observé à plusieurs reprises pour les mêmes items 2~ (0, )e N ij σY t p e ijk j i ijk µ= + + + où et 2~ (0, )p N i p σ Ca implique des changements dans la matrice R Quand plusieurs mesures sont prises sur le même individu, ces mesures tendent à être corrélées entre elles 112 12ème exemple : Modèle à pattern de covariance Démonstration SPSS Expliquer les TR par la condition, la valence et le nombre de mots total en tenant compte de la répétition d’items et en introduisant le sujet comme facteur aléatoire Modèle avec 3 facteurs fixes, 1 facteur aléatoire et 1 facteur de répétition
  29. 29. 113 Méthodes pour l’analyse de mesures répétées 1. Analyse aux temps individuels : Analyse des données à chaque temps individuellement pour évaluer l’effet de la manipulation expérimentale et sans comparaison entre les temps. Aucune inférence n’est réalisée pour voir la tendance au cours du temps Ceci ne constitue pas une analyse pour mesures répétées mais une étape préliminaire à ce type d’analyse 2. Pour tenir compte de la structure de covariance : Utilisation de modèles multi-niveaux 114 Patterns de covariance Les patterns les plus courants sont : Matrice diagonal AR(1) Compound symmetry Voir l’Help SPSS – Covariance structures Expliquer les TR par la condition, la valence et le nombre de mots total en tenant compte de la répétition d’items et en introduisant le sujet comme facteur aléatoire Essayer des structures de covariance différentes 115 13ème exemple : Modèle à pattern de covariance Démonstration SPSS 116 A vous d’essayer Exercice 4 Fichier Ex_4_Temps_1.sav
  30. 30. 117 14ème exemple : Modèle à coefficients aléatoires Expliquer les TR par différents facteurs en tenant compte du TL_Base à chaque item Modèle avec 1 facteur aléatoire associé à une variable continue 118118 Sujet TL_Base 1 t11 1 t12 1 t13 1 t14 2 t21 2 t22 3 t31 3 t32 3 t33 TL_Base Variable Dépendante Sujet 1 Sujet 2 Sujet 3 Intercept : effet sujet Pentes : effet sujet- TL_Base 119 Dans un modèle à coefficients aléatoires, nous considérons que l’effet du Sujet (intercept) et l’effet Sujet*TL_Base (pente) peuvent être corrélés, mais seulement pour un même sujet La matrice G de covariance des paramètres est une matrice « block diagonal » : 2 pσ 2 ptσ où est la composante de variance pour l’effet Sujet 2 ,p ptσ est la composante de variance pour l’effet Sujet*TL_Base est la covariance entre les effets aléatoires 120 14ème exemple : Modèle incluant une covariée Démonstration SPSS Expliquer les TR par le BDI, les TL_Base et l’interaction entre les 2 variables en prenant Sujet*Dilemme comme facteur aléatoire Il ne s’agit pas d’un modèle à coefficients alétoires Modèle avec variables continues en VI et facteurs aléatoires
  31. 31. 121 15ème exemple : Modèle à coefficients aléatoires Démonstration SPSS Expliquer les TR à la répétition 1 par les TL_Base en permettant un intercept et des pentes variant aléatoirement à travers les individus Modèle à coefficients aléatoires 122 16ème exemple : Modèle à coefficients aléatoires Démonstration SPSS Expliquer les TR à la répétition 1 par les TL_Base en permettant un intercept et des pentes variant aléatoirement à travers les dilemmes Modèle à coefficients aléatoires 123 Problèmes de convergence … Causes de non-convergence Problèmes d’inversion de matrice (multicolinéarité) Estimateurs de variance négatifs Problèmes de complexité du modèle (quantité insuffisante de données relativement à la complexité du modèle) Solutions à envisager Méthode de Kenward et Roger pour le calcul des dl (disponible en SAS et non en SPSS) Récolter plus de données Simplifier le modèle 124 17ème exemple : Modèle à coefficients aléatoires Démonstration SAS EG Expliquer les TR à la répétition 1 par les TL_Base en permettant un intercept et des pentes variant aléatoirement à travers les dilemmes. Calcul des dl par Kenward et Roger Modèle à coefficients aléatoires
  32. 32. 125 Le choix d’un modèle Il se détermine sur base de divers éléments Le design Les objectifs poursuivis La comparaison entre modèles La vérification des conditions d’application 126 Le choix d’un modèle Sur base du design Ex: une mesure répétée nécessite la définition d’une structure de corrélation 127 Le choix d’un modèle Sur base des objectifs Objectif de test des effets : rapporter le modèle le plus complet possible en indiquant les facteurs significatifs et ceux qui ne le sont pas Objectif de prédiction de la réponse : ne garder dans le modèle que les facteurs influençant la réponse 128 Le choix d’un modèle Sur base de la comparaison entre modèles Les indices d’ajustement (AIC, BIC, …) et les tests de rapport de vraisemblance permettent de choisir le modèle optimal entre 2 modèles imbriqués
  33. 33. 129 Le choix d’un modèle Sur base de la vérification des conditions d’application Un modèle qui tourne n’est pas forcément un bon modèle. Un modèle valide nécessite : Analyses descriptives et graphiques Elimination des points aberrants, extrêmes Vérification de la linéarité du modèle Vérification de la normalité des résidus Vérification de l’homogénéité des variances des résidus Vérification de la normalité des effets aléatoires Vérification de la non multicolinéarité entre effets fixes 130 18ème exemple : Vérification de la qualité du modèle Démonstration SPSS Vérifier la qualité du modèle utilisé à l’exemple 15 Modèle à coefficients aléatoires Voir le document «Diagnostics_Residus_SAS.pdf » comme complément d’information 131 L’écriture du modèle Très dépendante de la revue Quelques références : Using the SPSS Mixed Procedure to Fit Cross-Sectional and Longitudinal Multilevel Models. Psychological Measurement. Educational and Psychological Measurement 2005; 65; 717.James L. Peugh and Craig K. Enders Using SAS PROC MIXED to Fit Multilevel Models, Hierarchical Models, and Individual Growth Models, Judith D. Singer.Journal of Educational and Behavioral Statistics, Vol. 23, No. 4. (Winter, 1998), pp. 323-355. Multilevel models for the experimental psychologist: Foundations and illustrative examples. L. Hoffman & M.J. Rovine. Behavior Research Methods, 2007, 39 (1), 101-117. Les normes de l’APA .. 132 A vous d’essayer Exercice 5 Fichier Ex_5_Consignes.sav Exercice à reprendre chez vous…
  34. 34. 133 A vous d’essayer Analyse des données d’Andy Fichier Andy_NEW_XP_FINAL.sav Lancez-vous comme vous le pensez… 134 Analyse des données d’Andy Description de l’étude Fichier Andy_NEW_XP_FINAL.sav 135 Commentaires - Questions Merci de nous en faire profiter

×