3. ACP Régression
L'analyse en composantes principales (ACP) est une technique
multivariée dite d’interdépendance, car il n’y a pas de variable
dépendante ou indépendante d’identifiée au préalable. Une autre
caractéristique importante de l'ACP est qu’il n’y a pas d’hypothèse
nulle à tester ou à vérifier.
5. ACP Régression
données :
Nous allons nous appuyer sur des données d’analyse menée dans l’ouvrage de Saporta, pages 177 à 181. Les
justifications théoriques et les formules sont disponibles dans le même ouvrage, pages 155 à 177.
Les données concernent les caractéristiques de 18 véhicules (anciens …)
Don l’échantillon concerne 18 observations ,Chaque modèle de voiture renseigne sur :
• CYL : cylindres;
• PUISS : puissance;
• LONG : longueur;
• LARG : largeur;
• POIDS : poids;
• V-MAX :vitesse.
Il y a donc 6 variables actives, But de la relation classification et repositionner les voitures selon leurs
caractéistiques
On va reproduit sous le logiciel R et SPSS , l’analyse en composante principale ACP
8. ACP Régression
« R »
Importatin des données:
Affichage de la base de donnée
9. ACP Régression
« R »
La commande permet de sortir les
principales statistiques descriptives par
sous-groupes (variable);
• Valeur min
• Valeur max
• Médiane
• moyenne
10. SPSS R
« R »
Graphique nuages des points :
(dispersion des points) type
matrice :
Représentation descriptives entre
les variables, il permet d’examiner
la relation de plusieurs variables a
la fois
11. SPSS R
« R »
Boites a moustaches
en observant la position de la médiane
Nous pouvons avoir une idée de la
tendance centrale des valeurs de chaque
boite . la médiane est a peut près au
centre, on peut juger de la symétrie de la
distribution (aplatissement et asymétrie).
Par la longueur de la boite, il est possible
d’estimer la variabilité des valeurs pour
chaque sous-groupe.
La longueur des « moustaches » donne
une idée de la taille de la queue de la
distribution.
Enfin, le graphique montre la présence
de plusieurs valeurs extrêmes.
Valeur aberrante / latente
12. SPSS R
« R »
Le premier composant explique à lui seul 73,63 % de la
variance totale des 6 variables de l'analyse. Mis en communs,
les 2 premier composants permettent d'expliquer 88 % de la
variance. les composants 3 à 6 n'expliquent pas suffisamment
de variance, ils peuvent ne pas être retenus.
13. SPSS R
« R »
Les deux premiers composants qui se situent avant le
changement abrupt de la pente traduisent 88% de
l’information disponible, Les points qui suivent ce
changement, semblent former une ligne droite horizontale.
L'information ajoutée par les facteurs représentés par ces
points est peu pertinente.
Le premier facteur extrait est celui qui explique l’extréme et la
meilleure combinaison possible de variables . On se rend
compte ici qu’on pouvait s’en tenir uniquement au premier
facteur.
14. SPSS R
« R »
On ne l’affiche qu’à tire indicatif,
Intervalle de confiance des val.propres à 95%
15. SPSS R
« R »
Corrélation variables – facteurs.
Carré de la corrélation.
Carte des observations et des variables
19. ACP Régression
«SPSS»
La variance est la mesure de dispersion la plus utilisée
L’écart-type c’est la racine carrée de la variance qui indique si la moyenne représente bien les données.
La moyenne est la mesure de tendance centrale
L’indice d’asymétris Skewness , une symétrie parfaite equivaut a un indice de zero
L’indice de Kurtosis d’aplatissement, plus la valeur tend vers zero plus la distribution tend vers la normalité
23. ACP Régression
«SPSS»
Tous les variables suit une distribution qui tend
vers la normalité
Dispersion des valeur d’observations par
rapport a la normale
24. ACP Régression
«SPSS»
Moyennes et écarts types
Nous regardons la matrice de corrélation. Dans ce
détail de la matrice, nous pouvons observer que
toutes les variables semblent corrélées. Certaines
corrélations sont plus fortes que d'autres, l’indice de
corrélation est proche de 1 , avec p<0,05 et p<0,0005 La Corrélation est de bonne qualité
Procédures la commande analyse de corrélation;
26. ACP Régression
«SPSS»
Moyennes et ecarts types
l’indice de KMO
=0,74 peut etre
qualifiée d’excellent
proche de 1, il
indique que la
coorelation est de
bonne qualité
p<0,05 et
p<0,0005
La Corrélation est de bonne qualité
l’indice de
corrélation est
proche de 1
p<0,0005 : donc
les correlation
ne sont pas
toute egale a
zero
Khi2; permet de savoir si un
lien observé entre deux
variable est signficatifs
Les 2 premier composants permettent d'expliquer 88 %
de la variance.
27. ACP Régression
«SPSS»
Meme resultat interpréter avec « R » : Les deux premiers
composants qui se situent avant le changement abrupt de la
pente traduisent 88% de l’information disponible, Les points
qui suivent ce changement, semblent former une ligne droite
horizontale. L'information ajoutée par les facteurs représentés
par ces points est peu pertinente.
Le premier facteur extrait est celui qui explique l’extréme et la
meilleure combinaison possible de variables . On se rend
compte ici qu’on pouvait s’en tenir uniquement au premier
facteur.
28. ACP Régression
«SPSS»
Projection des variables sur le plan des 2 composante
(88% de l’inertie)
Composant 1 est fortement corrélé
positivement avec les 5 variables
Composant 2 est légèrement corrélé ;
positivement avec 3 variables (cyl, puiss, vitesse)
et négativement avec les autres variables
32. ACP Régression
données :
Fichier de données: Prédiction de la consommation de véhicules
2 ensemble de
variables
Dépendant
V. a expliquer
Indépendant
V.explicatives
Échantillon : 31 véhicules
Analyse : régression
Nous souhaitons expliquer la consommation (CONSO) des véhicules à partir de leur poids (POIDS) , de
leur (PRIX), de leur (CYLINDRE) et de leur puissance (PUISSANCE). Nous disposons de n = 31
observations
35. ACP Régression
« R »
Statistiques descriptives
Examinons les statistiques descriptives pour chaque variable ;
• Moyenne
• Min
• Max
• Medianne
• Les quartilles
36. Histogrammes
Ces graphique nous permettent de regarder les
différentes valeurs que prennent chaque variable pour
chaque observation,
ACP Régression
« R »
37. ACP Régression
« R »
Boîtes à moustaches
en observant les grahiques on montre la présence
de plusieurs valeurs extrêmes.
38. Nuages de points (2 à 2)
Pour avoir examiner graphiquement
les relations possible entre la
variable consommation (variable a
expliquer) et chaque variable
explicative, il est
intéressant de tracer les graphiques
suivants.
ACP Régression
« R »
40. Analyse resultats de la régression:
On peut visualiser les informations statistique de
regression suivantes;
• les coefficients de la régression,
• les écarts-type
• le t de Student,
• le R²,
• R² ajusté
• F-statistique ,..
ACP Régression
« R »
Ces statistique permet d’evaluer le modele de
regression , l’ajustement… ,
41. Le graphique QQ-plot permet de vérifier la
normalité d’une distribution.
Nous nous en servons pour vérifier si
l’hypothèse de normalité des résidus à la
base de tout le dispositif de la régression
est crédible sur nos données : il semble
que OUI (forment une droite), on peut
dire que la distribution est compatible
avec la loi normale.
ACP Régression
« R »
42. graphiques des résidus
Les graphiques des résidus (en
ordonnée) vs. les variables de l’étude
(en abscisse) permet de détecter
visuellement les points atypiques :
(les points à la périphérie)
ACP Régression
« R »
43. ACP Régression
« R »
• On a ajouté dans ce graphique des limites permettant de statuer sur le caractère atypique d’un résidu
• Détection automatique des observations atypiques au sens du résidu standardisé
• On a ajouté de la désignation de ces observations dans le graphique
Construction du graphique « consommation vs. Résidus standardisé »
Observations 22, 25 , 8
et 9 sont aberrantes
48. ACP Régression
«SPSS»
Le premier tableau indique les variables qui ont été introduites dans le modèle.
(poids,prix,cylindre,puissance)
R = coefficient de corrélation
multiple est de 0,977.
La valeur R2 (0,955). Celui-ci indique la proportion de la variabilité de la variable dépendante (consommation)
expliquée par le modèle de régression, Cette valeur suggère que les données sont très bien ajustées au
modèle(bon ajustement lineaire ),
La valeur de R2 ajusté = 0,948 , c’est un estimé de la robustesse de ce modèle si on prenait un échantillon
différent provenant de la même population.
49. ACP Régression
«SPSS»
Dans ce tableau, SPSS fournit la valeur de F se fait automatiquement et le degré de signification associé se trouve dans
la dernière colonne.
Dans notre cas, la valeur de F est de 136,541 et est significative à p < 0,0005. Ceci signifie que les probabilités d'obtenir
une valeur F de cette taille par hasard sont de moins de 0,05 %. Dans ce cas-ci, nous devons rejeter l'hypothèse nulle .
Il y a donc une relation statistiquement significative entre les variables dépendantes et la variable indépendante.
Nous pouvons donc conclure que ce modèle avec 4 prédicteur (varibles independante) permet de mieux prédire la
variable dependante « consommation »,
IMPORTANT : si la valeur de F n'était pas accompagnée d'une valeur de p significative, l'interprétation s'arrêterait ici.
50. ACP Régression
«SPSS»
La colonne des coefficients standardisés indique la valeur du
coefficient de corrélation « beta »
Le coefficient nous informe sur le degré auquel chaque prédicteur
influence la V.D. si tous les autres prédicteurs sont constants , le
signe du coefficient nous indique le sens de la relation.
Cet partie du tableau présente
également la valeur des corrélations
et des corrélations partielles
Correlation plus que 0,9
donc risque important de
multicolinéarité
« VIF » superieur a 10
c’est problematique
consequement indice de
multicolinearité ;
corrélations entre les 2
variables trop élevées
la signification de t nous permet deverifier si chaque
variable contribue significativement au modèle. Plus la
valeur de t est élevée et plus celle de p est petite, plus le
variable independant contribue au modèle.
Nous constatons donc que le variable poids est le plus significative avec beta 0,421 , t=4,734 et p<0,005
puis le variable puissance avec beta 0,486, t=2,501 et p0,05 mais il parait fortement corréler il faut
l’eliminer de l’analise porte risque du multicolinearité ,
52. ACP Régression
«SPSS»
Ce graphique nous permet de
regarder les résidus standardisés
une distribution qui tend vers la
normalité
Graphique de régression prévision
standardiser ;ce graphique de dispersion
permet de déceler à l’oeil une relation
linéaire directement proportionnelle
Aberrantes
53. annexe :
G. Saporta, « Probabilités, Analyse de données et Statistique », Dunod, 2006 ; partie théorique,
pages 155 à 177 ; partie pratique, pages 177 à 181.
Ricco Rakotomalala: « Analyse de corrélation, Étude des dépendances - Variables quantitatives »
Version 1.1