SlideShare une entreprise Scribd logo
1  sur  53
Analyses sur « spss » et « R »
Brahem abir
plan :
ACP
R
SPSS
REGRESSION
R
SPSS
ACP Régression
L'analyse en composantes principales (ACP) est une technique
multivariée dite d’interdépendance, car il n’y a pas de variable
dépendante ou indépendante d’identifiée au préalable. Une autre
caractéristique importante de l'ACP est qu’il n’y a pas d’hypothèse
nulle à tester ou à vérifier.
ACP Régression
données :
Base de donnée pour R
Base de donnée pour SPSS
Label des
observations Variables actives
ACP Régression
données :
Nous allons nous appuyer sur des données d’analyse menée dans l’ouvrage de Saporta, pages 177 à 181. Les
justifications théoriques et les formules sont disponibles dans le même ouvrage, pages 155 à 177.
Les données concernent les caractéristiques de 18 véhicules (anciens …)
Don l’échantillon concerne 18 observations ,Chaque modèle de voiture renseigne sur :
• CYL : cylindres;
• PUISS : puissance;
• LONG : longueur;
• LARG : largeur;
• POIDS : poids;
• V-MAX :vitesse.
Il y a donc 6 variables actives, But de la relation classification et repositionner les voitures selon leurs
caractéistiques
On va reproduit sous le logiciel R et SPSS , l’analyse en composante principale ACP
ACP Régression
Importatin des données:
« R »
changement de répertoire courant
ACP Régression
Importatin des données: Ouvrir un script
« R »
ACP Régression
« R »
Importatin des données:
Affichage de la base de donnée
ACP Régression
« R »
La commande permet de sortir les
principales statistiques descriptives par
sous-groupes (variable);
• Valeur min
• Valeur max
• Médiane
• moyenne
SPSS R
« R »
Graphique nuages des points :
(dispersion des points) type
matrice :
Représentation descriptives entre
les variables, il permet d’examiner
la relation de plusieurs variables a
la fois
SPSS R
« R »
Boites a moustaches
en observant la position de la médiane
Nous pouvons avoir une idée de la
tendance centrale des valeurs de chaque
boite . la médiane est a peut près au
centre, on peut juger de la symétrie de la
distribution (aplatissement et asymétrie).
Par la longueur de la boite, il est possible
d’estimer la variabilité des valeurs pour
chaque sous-groupe.
La longueur des « moustaches » donne
une idée de la taille de la queue de la
distribution.
Enfin, le graphique montre la présence
de plusieurs valeurs extrêmes.
Valeur aberrante / latente
SPSS R
« R »
Le premier composant explique à lui seul 73,63 % de la
variance totale des 6 variables de l'analyse. Mis en communs,
les 2 premier composants permettent d'expliquer 88 % de la
variance. les composants 3 à 6 n'expliquent pas suffisamment
de variance, ils peuvent ne pas être retenus.
SPSS R
« R »
Les deux premiers composants qui se situent avant le
changement abrupt de la pente traduisent 88% de
l’information disponible, Les points qui suivent ce
changement, semblent former une ligne droite horizontale.
L'information ajoutée par les facteurs représentés par ces
points est peu pertinente.
Le premier facteur extrait est celui qui explique l’extréme et la
meilleure combinaison possible de variables . On se rend
compte ici qu’on pouvait s’en tenir uniquement au premier
facteur.
SPSS R
« R »
On ne l’affiche qu’à tire indicatif,
Intervalle de confiance des val.propres à 95%
SPSS R
« R »
Corrélation variables – facteurs.
Carré de la corrélation.
Carte des observations et des variables
ACP Régression
SPSS R
«SPSS»
Importatin des données:
ACP Régression
«SPSS» Procédures la commande analyse descriptives ;
ACP Régression
«SPSS»
La variance est la mesure de dispersion la plus utilisée
L’écart-type c’est la racine carrée de la variance qui indique si la moyenne représente bien les données.
La moyenne est la mesure de tendance centrale
L’indice d’asymétris Skewness , une symétrie parfaite equivaut a un indice de zero
L’indice de Kurtosis d’aplatissement, plus la valeur tend vers zero plus la distribution tend vers la normalité
SPSS R
Procédures la commande analyse descriptive methode 2;«SPSS»
ACP Régression
«SPSS»
Procédures la commande Graphique Q-Q ;
ACP Régression
«SPSS» Graphique Q-Q ; test de normalités
ACP Régression
«SPSS»
Tous les variables suit une distribution qui tend
vers la normalité
Dispersion des valeur d’observations par
rapport a la normale
ACP Régression
«SPSS»
Moyennes et écarts types
Nous regardons la matrice de corrélation. Dans ce
détail de la matrice, nous pouvons observer que
toutes les variables semblent corrélées. Certaines
corrélations sont plus fortes que d'autres, l’indice de
corrélation est proche de 1 , avec p<0,05 et p<0,0005 La Corrélation est de bonne qualité
Procédures la commande analyse de corrélation;
ACP Régression
«SPSS»
Procédures la commande analyse de correspondance ACP;
ACP Régression
«SPSS»
Moyennes et ecarts types
l’indice de KMO
=0,74 peut etre
qualifiée d’excellent
proche de 1, il
indique que la
coorelation est de
bonne qualité
p<0,05 et
p<0,0005
La Corrélation est de bonne qualité
l’indice de
corrélation est
proche de 1
p<0,0005 : donc
les correlation
ne sont pas
toute egale a
zero
Khi2; permet de savoir si un
lien observé entre deux
variable est signficatifs
Les 2 premier composants permettent d'expliquer 88 %
de la variance.
ACP Régression
«SPSS»
Meme resultat interpréter avec « R » : Les deux premiers
composants qui se situent avant le changement abrupt de la
pente traduisent 88% de l’information disponible, Les points
qui suivent ce changement, semblent former une ligne droite
horizontale. L'information ajoutée par les facteurs représentés
par ces points est peu pertinente.
Le premier facteur extrait est celui qui explique l’extréme et la
meilleure combinaison possible de variables . On se rend
compte ici qu’on pouvait s’en tenir uniquement au premier
facteur.
ACP Régression
«SPSS»
Projection des variables sur le plan des 2 composante
(88% de l’inertie)
Composant 1 est fortement corrélé
positivement avec les 5 variables
Composant 2 est légèrement corrélé ;
positivement avec 3 variables (cyl, puiss, vitesse)
et négativement avec les autres variables
ACP Régression
«SPSS»
ACP Régression
«SPSS»
Carte de dispersion des observations sur les 2 premiers axes (88% de l’inertie);
ACP Régression
données :
Label des
observations
Variables indépendante
Variables
dépendante
Métrique Métrique
ACP Régression
données :
Fichier de données: Prédiction de la consommation de véhicules
2 ensemble de
variables
Dépendant
V. a expliquer
Indépendant
V.explicatives
Échantillon : 31 véhicules
Analyse : régression
Nous souhaitons expliquer la consommation (CONSO) des véhicules à partir de leur poids (POIDS) , de
leur (PRIX), de leur (CYLINDRE) et de leur puissance (PUISSANCE). Nous disposons de n = 31
observations
ACP Régression
Importatin des données:
« R »
changement de répertoire courant
ACP Régression
« R »
Affichage de la base de donnée
ACP Régression
« R »
Statistiques descriptives
Examinons les statistiques descriptives pour chaque variable ;
• Moyenne
• Min
• Max
• Medianne
• Les quartilles
Histogrammes
Ces graphique nous permettent de regarder les
différentes valeurs que prennent chaque variable pour
chaque observation,
ACP Régression
« R »
ACP Régression
« R »
Boîtes à moustaches
en observant les grahiques on montre la présence
de plusieurs valeurs extrêmes.
Nuages de points (2 à 2)
Pour avoir examiner graphiquement
les relations possible entre la
variable consommation (variable a
expliquer) et chaque variable
explicative, il est
intéressant de tracer les graphiques
suivants.
ACP Régression
« R »
ACP Régression
« R »
Lancer la régression,
Analyse resultats de la régression:
On peut visualiser les informations statistique de
regression suivantes;
• les coefficients de la régression,
• les écarts-type
• le t de Student,
• le R²,
• R² ajusté
• F-statistique ,..
ACP Régression
« R »
Ces statistique permet d’evaluer le modele de
regression , l’ajustement… ,
Le graphique QQ-plot permet de vérifier la
normalité d’une distribution.
Nous nous en servons pour vérifier si
l’hypothèse de normalité des résidus à la
base de tout le dispositif de la régression
est crédible sur nos données : il semble
que OUI (forment une droite), on peut
dire que la distribution est compatible
avec la loi normale.
ACP Régression
« R »
graphiques des résidus
Les graphiques des résidus (en
ordonnée) vs. les variables de l’étude
(en abscisse) permet de détecter
visuellement les points atypiques :
(les points à la périphérie)
ACP Régression
« R »
ACP Régression
« R »
• On a ajouté dans ce graphique des limites permettant de statuer sur le caractère atypique d’un résidu
• Détection automatique des observations atypiques au sens du résidu standardisé
• On a ajouté de la désignation de ces observations dans le graphique
Construction du graphique « consommation vs. Résidus standardisé »
Observations 22, 25 , 8
et 9 sont aberrantes
ACP Régression
« R »
ACP Régression
«SPSS»
Importatin des données:
ACP Régression
«SPSS»
Procédures la commande analyse descriptive
Résultats analyse
ACP Régression
«SPSS»
Procédures la commande analyse de régression
ACP Régression
«SPSS»
Le premier tableau indique les variables qui ont été introduites dans le modèle.
(poids,prix,cylindre,puissance)
R = coefficient de corrélation
multiple est de 0,977.
La valeur R2 (0,955). Celui-ci indique la proportion de la variabilité de la variable dépendante (consommation)
expliquée par le modèle de régression, Cette valeur suggère que les données sont très bien ajustées au
modèle(bon ajustement lineaire ),
La valeur de R2 ajusté = 0,948 , c’est un estimé de la robustesse de ce modèle si on prenait un échantillon
différent provenant de la même population.
ACP Régression
«SPSS»
Dans ce tableau, SPSS fournit la valeur de F se fait automatiquement et le degré de signification associé se trouve dans
la dernière colonne.
Dans notre cas, la valeur de F est de 136,541 et est significative à p < 0,0005. Ceci signifie que les probabilités d'obtenir
une valeur F de cette taille par hasard sont de moins de 0,05 %. Dans ce cas-ci, nous devons rejeter l'hypothèse nulle .
Il y a donc une relation statistiquement significative entre les variables dépendantes et la variable indépendante.
Nous pouvons donc conclure que ce modèle avec 4 prédicteur (varibles independante) permet de mieux prédire la
variable dependante « consommation »,
IMPORTANT : si la valeur de F n'était pas accompagnée d'une valeur de p significative, l'interprétation s'arrêterait ici.
ACP Régression
«SPSS»
La colonne des coefficients standardisés indique la valeur du
coefficient de corrélation « beta »
Le coefficient nous informe sur le degré auquel chaque prédicteur
influence la V.D. si tous les autres prédicteurs sont constants , le
signe du coefficient nous indique le sens de la relation.
Cet partie du tableau présente
également la valeur des corrélations
et des corrélations partielles
Correlation plus que 0,9
donc risque important de
multicolinéarité
« VIF » superieur a 10
c’est problematique
consequement indice de
multicolinearité ;
corrélations entre les 2
variables trop élevées
la signification de t nous permet deverifier si chaque
variable contribue significativement au modèle. Plus la
valeur de t est élevée et plus celle de p est petite, plus le
variable independant contribue au modèle.
Nous constatons donc que le variable poids est le plus significative avec beta 0,421 , t=4,734 et p<0,005
puis le variable puissance avec beta 0,486, t=2,501 et p0,05 mais il parait fortement corréler il faut
l’eliminer de l’analise porte risque du multicolinearité ,
ACP Régression
«SPSS»
Ce tableau présente l’analyse de multicolinearité
Forte risque de
multicolinearité
ACP Régression
«SPSS»
Ce graphique nous permet de
regarder les résidus standardisés
une distribution qui tend vers la
normalité
Graphique de régression prévision
standardiser ;ce graphique de dispersion
permet de déceler à l’oeil une relation
linéaire directement proportionnelle
Aberrantes
annexe :
G. Saporta, « Probabilités, Analyse de données et Statistique », Dunod, 2006 ; partie théorique,
pages 155 à 177 ; partie pratique, pages 177 à 181.
Ricco Rakotomalala: « Analyse de corrélation, Étude des dépendances - Variables quantitatives »
Version 1.1

Contenu connexe

Tendances

Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée Adad Med Chérif
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdfSidiAbdallah1
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
 
Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcRémi Bachelet
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1Adad Med Chérif
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistiqueBoris Guarisma
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data miningDonia Hammami
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction généraleMohamed Heny SELMI
 
Analyse discriminante (1).pptx
Analyse discriminante (1).pptxAnalyse discriminante (1).pptx
Analyse discriminante (1).pptxboutaynabendialli
 
Introduction gestion des risques
Introduction gestion des risquesIntroduction gestion des risques
Introduction gestion des risquesJérémy Morvan
 
[Gestion des risques et conformite] de bale ii à bale iii
[Gestion des risques et conformite] de bale ii à bale iii[Gestion des risques et conformite] de bale ii à bale iii
[Gestion des risques et conformite] de bale ii à bale iiionepoint x weave
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
La prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomLa prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomIsmail Sanni
 

Tendances (20)

Data mining - Associativité
Data mining - AssociativitéData mining - Associativité
Data mining - Associativité
 
Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée
 
COURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLESCOURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLES
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdf
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
Analyse de données avec spss,
Analyse de données avec spss,Analyse de données avec spss,
Analyse de données avec spss,
 
Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afc
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 
Test khi deux
Test khi deuxTest khi deux
Test khi deux
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data mining
 
Le principe de pareto
Le principe de paretoLe principe de pareto
Le principe de pareto
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Analyse discriminante (1).pptx
Analyse discriminante (1).pptxAnalyse discriminante (1).pptx
Analyse discriminante (1).pptx
 
(Cours régression)
(Cours régression)(Cours régression)
(Cours régression)
 
Introduction gestion des risques
Introduction gestion des risquesIntroduction gestion des risques
Introduction gestion des risques
 
[Gestion des risques et conformite] de bale ii à bale iii
[Gestion des risques et conformite] de bale ii à bale iii[Gestion des risques et conformite] de bale ii à bale iii
[Gestion des risques et conformite] de bale ii à bale iii
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
La prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomLa prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecom
 

Similaire à Analyses des données par SPSS et R

chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfAnassFarkadi
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 
Test de corrélation simple et test de Normalité
Test de corrélation simple  et  test de Normalité  Test de corrélation simple  et  test de Normalité
Test de corrélation simple et test de Normalité Adad Med Chérif
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfFootballLovers9
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiplemohamedchaouche
 

Similaire à Analyses des données par SPSS et R (7)

chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
 
Aragongazen
AragongazenAragongazen
Aragongazen
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
Test de corrélation simple et test de Normalité
Test de corrélation simple  et  test de Normalité  Test de corrélation simple  et  test de Normalité
Test de corrélation simple et test de Normalité
 
Mercator Ocean newsletter 14
Mercator Ocean newsletter 14Mercator Ocean newsletter 14
Mercator Ocean newsletter 14
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdf
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 

Analyses des données par SPSS et R

  • 1. Analyses sur « spss » et « R » Brahem abir
  • 3. ACP Régression L'analyse en composantes principales (ACP) est une technique multivariée dite d’interdépendance, car il n’y a pas de variable dépendante ou indépendante d’identifiée au préalable. Une autre caractéristique importante de l'ACP est qu’il n’y a pas d’hypothèse nulle à tester ou à vérifier.
  • 4. ACP Régression données : Base de donnée pour R Base de donnée pour SPSS Label des observations Variables actives
  • 5. ACP Régression données : Nous allons nous appuyer sur des données d’analyse menée dans l’ouvrage de Saporta, pages 177 à 181. Les justifications théoriques et les formules sont disponibles dans le même ouvrage, pages 155 à 177. Les données concernent les caractéristiques de 18 véhicules (anciens …) Don l’échantillon concerne 18 observations ,Chaque modèle de voiture renseigne sur : • CYL : cylindres; • PUISS : puissance; • LONG : longueur; • LARG : largeur; • POIDS : poids; • V-MAX :vitesse. Il y a donc 6 variables actives, But de la relation classification et repositionner les voitures selon leurs caractéistiques On va reproduit sous le logiciel R et SPSS , l’analyse en composante principale ACP
  • 6. ACP Régression Importatin des données: « R » changement de répertoire courant
  • 7. ACP Régression Importatin des données: Ouvrir un script « R »
  • 8. ACP Régression « R » Importatin des données: Affichage de la base de donnée
  • 9. ACP Régression « R » La commande permet de sortir les principales statistiques descriptives par sous-groupes (variable); • Valeur min • Valeur max • Médiane • moyenne
  • 10. SPSS R « R » Graphique nuages des points : (dispersion des points) type matrice : Représentation descriptives entre les variables, il permet d’examiner la relation de plusieurs variables a la fois
  • 11. SPSS R « R » Boites a moustaches en observant la position de la médiane Nous pouvons avoir une idée de la tendance centrale des valeurs de chaque boite . la médiane est a peut près au centre, on peut juger de la symétrie de la distribution (aplatissement et asymétrie). Par la longueur de la boite, il est possible d’estimer la variabilité des valeurs pour chaque sous-groupe. La longueur des « moustaches » donne une idée de la taille de la queue de la distribution. Enfin, le graphique montre la présence de plusieurs valeurs extrêmes. Valeur aberrante / latente
  • 12. SPSS R « R » Le premier composant explique à lui seul 73,63 % de la variance totale des 6 variables de l'analyse. Mis en communs, les 2 premier composants permettent d'expliquer 88 % de la variance. les composants 3 à 6 n'expliquent pas suffisamment de variance, ils peuvent ne pas être retenus.
  • 13. SPSS R « R » Les deux premiers composants qui se situent avant le changement abrupt de la pente traduisent 88% de l’information disponible, Les points qui suivent ce changement, semblent former une ligne droite horizontale. L'information ajoutée par les facteurs représentés par ces points est peu pertinente. Le premier facteur extrait est celui qui explique l’extréme et la meilleure combinaison possible de variables . On se rend compte ici qu’on pouvait s’en tenir uniquement au premier facteur.
  • 14. SPSS R « R » On ne l’affiche qu’à tire indicatif, Intervalle de confiance des val.propres à 95%
  • 15. SPSS R « R » Corrélation variables – facteurs. Carré de la corrélation. Carte des observations et des variables
  • 18. ACP Régression «SPSS» Procédures la commande analyse descriptives ;
  • 19. ACP Régression «SPSS» La variance est la mesure de dispersion la plus utilisée L’écart-type c’est la racine carrée de la variance qui indique si la moyenne représente bien les données. La moyenne est la mesure de tendance centrale L’indice d’asymétris Skewness , une symétrie parfaite equivaut a un indice de zero L’indice de Kurtosis d’aplatissement, plus la valeur tend vers zero plus la distribution tend vers la normalité
  • 20. SPSS R Procédures la commande analyse descriptive methode 2;«SPSS»
  • 21. ACP Régression «SPSS» Procédures la commande Graphique Q-Q ;
  • 22. ACP Régression «SPSS» Graphique Q-Q ; test de normalités
  • 23. ACP Régression «SPSS» Tous les variables suit une distribution qui tend vers la normalité Dispersion des valeur d’observations par rapport a la normale
  • 24. ACP Régression «SPSS» Moyennes et écarts types Nous regardons la matrice de corrélation. Dans ce détail de la matrice, nous pouvons observer que toutes les variables semblent corrélées. Certaines corrélations sont plus fortes que d'autres, l’indice de corrélation est proche de 1 , avec p<0,05 et p<0,0005 La Corrélation est de bonne qualité Procédures la commande analyse de corrélation;
  • 25. ACP Régression «SPSS» Procédures la commande analyse de correspondance ACP;
  • 26. ACP Régression «SPSS» Moyennes et ecarts types l’indice de KMO =0,74 peut etre qualifiée d’excellent proche de 1, il indique que la coorelation est de bonne qualité p<0,05 et p<0,0005 La Corrélation est de bonne qualité l’indice de corrélation est proche de 1 p<0,0005 : donc les correlation ne sont pas toute egale a zero Khi2; permet de savoir si un lien observé entre deux variable est signficatifs Les 2 premier composants permettent d'expliquer 88 % de la variance.
  • 27. ACP Régression «SPSS» Meme resultat interpréter avec « R » : Les deux premiers composants qui se situent avant le changement abrupt de la pente traduisent 88% de l’information disponible, Les points qui suivent ce changement, semblent former une ligne droite horizontale. L'information ajoutée par les facteurs représentés par ces points est peu pertinente. Le premier facteur extrait est celui qui explique l’extréme et la meilleure combinaison possible de variables . On se rend compte ici qu’on pouvait s’en tenir uniquement au premier facteur.
  • 28. ACP Régression «SPSS» Projection des variables sur le plan des 2 composante (88% de l’inertie) Composant 1 est fortement corrélé positivement avec les 5 variables Composant 2 est légèrement corrélé ; positivement avec 3 variables (cyl, puiss, vitesse) et négativement avec les autres variables
  • 30. ACP Régression «SPSS» Carte de dispersion des observations sur les 2 premiers axes (88% de l’inertie);
  • 31. ACP Régression données : Label des observations Variables indépendante Variables dépendante Métrique Métrique
  • 32. ACP Régression données : Fichier de données: Prédiction de la consommation de véhicules 2 ensemble de variables Dépendant V. a expliquer Indépendant V.explicatives Échantillon : 31 véhicules Analyse : régression Nous souhaitons expliquer la consommation (CONSO) des véhicules à partir de leur poids (POIDS) , de leur (PRIX), de leur (CYLINDRE) et de leur puissance (PUISSANCE). Nous disposons de n = 31 observations
  • 33. ACP Régression Importatin des données: « R » changement de répertoire courant
  • 34. ACP Régression « R » Affichage de la base de donnée
  • 35. ACP Régression « R » Statistiques descriptives Examinons les statistiques descriptives pour chaque variable ; • Moyenne • Min • Max • Medianne • Les quartilles
  • 36. Histogrammes Ces graphique nous permettent de regarder les différentes valeurs que prennent chaque variable pour chaque observation, ACP Régression « R »
  • 37. ACP Régression « R » Boîtes à moustaches en observant les grahiques on montre la présence de plusieurs valeurs extrêmes.
  • 38. Nuages de points (2 à 2) Pour avoir examiner graphiquement les relations possible entre la variable consommation (variable a expliquer) et chaque variable explicative, il est intéressant de tracer les graphiques suivants. ACP Régression « R »
  • 39. ACP Régression « R » Lancer la régression,
  • 40. Analyse resultats de la régression: On peut visualiser les informations statistique de regression suivantes; • les coefficients de la régression, • les écarts-type • le t de Student, • le R², • R² ajusté • F-statistique ,.. ACP Régression « R » Ces statistique permet d’evaluer le modele de regression , l’ajustement… ,
  • 41. Le graphique QQ-plot permet de vérifier la normalité d’une distribution. Nous nous en servons pour vérifier si l’hypothèse de normalité des résidus à la base de tout le dispositif de la régression est crédible sur nos données : il semble que OUI (forment une droite), on peut dire que la distribution est compatible avec la loi normale. ACP Régression « R »
  • 42. graphiques des résidus Les graphiques des résidus (en ordonnée) vs. les variables de l’étude (en abscisse) permet de détecter visuellement les points atypiques : (les points à la périphérie) ACP Régression « R »
  • 43. ACP Régression « R » • On a ajouté dans ce graphique des limites permettant de statuer sur le caractère atypique d’un résidu • Détection automatique des observations atypiques au sens du résidu standardisé • On a ajouté de la désignation de ces observations dans le graphique Construction du graphique « consommation vs. Résidus standardisé » Observations 22, 25 , 8 et 9 sont aberrantes
  • 46. ACP Régression «SPSS» Procédures la commande analyse descriptive Résultats analyse
  • 47. ACP Régression «SPSS» Procédures la commande analyse de régression
  • 48. ACP Régression «SPSS» Le premier tableau indique les variables qui ont été introduites dans le modèle. (poids,prix,cylindre,puissance) R = coefficient de corrélation multiple est de 0,977. La valeur R2 (0,955). Celui-ci indique la proportion de la variabilité de la variable dépendante (consommation) expliquée par le modèle de régression, Cette valeur suggère que les données sont très bien ajustées au modèle(bon ajustement lineaire ), La valeur de R2 ajusté = 0,948 , c’est un estimé de la robustesse de ce modèle si on prenait un échantillon différent provenant de la même population.
  • 49. ACP Régression «SPSS» Dans ce tableau, SPSS fournit la valeur de F se fait automatiquement et le degré de signification associé se trouve dans la dernière colonne. Dans notre cas, la valeur de F est de 136,541 et est significative à p < 0,0005. Ceci signifie que les probabilités d'obtenir une valeur F de cette taille par hasard sont de moins de 0,05 %. Dans ce cas-ci, nous devons rejeter l'hypothèse nulle . Il y a donc une relation statistiquement significative entre les variables dépendantes et la variable indépendante. Nous pouvons donc conclure que ce modèle avec 4 prédicteur (varibles independante) permet de mieux prédire la variable dependante « consommation », IMPORTANT : si la valeur de F n'était pas accompagnée d'une valeur de p significative, l'interprétation s'arrêterait ici.
  • 50. ACP Régression «SPSS» La colonne des coefficients standardisés indique la valeur du coefficient de corrélation « beta » Le coefficient nous informe sur le degré auquel chaque prédicteur influence la V.D. si tous les autres prédicteurs sont constants , le signe du coefficient nous indique le sens de la relation. Cet partie du tableau présente également la valeur des corrélations et des corrélations partielles Correlation plus que 0,9 donc risque important de multicolinéarité « VIF » superieur a 10 c’est problematique consequement indice de multicolinearité ; corrélations entre les 2 variables trop élevées la signification de t nous permet deverifier si chaque variable contribue significativement au modèle. Plus la valeur de t est élevée et plus celle de p est petite, plus le variable independant contribue au modèle. Nous constatons donc que le variable poids est le plus significative avec beta 0,421 , t=4,734 et p<0,005 puis le variable puissance avec beta 0,486, t=2,501 et p0,05 mais il parait fortement corréler il faut l’eliminer de l’analise porte risque du multicolinearité ,
  • 51. ACP Régression «SPSS» Ce tableau présente l’analyse de multicolinearité Forte risque de multicolinearité
  • 52. ACP Régression «SPSS» Ce graphique nous permet de regarder les résidus standardisés une distribution qui tend vers la normalité Graphique de régression prévision standardiser ;ce graphique de dispersion permet de déceler à l’oeil une relation linéaire directement proportionnelle Aberrantes
  • 53. annexe : G. Saporta, « Probabilités, Analyse de données et Statistique », Dunod, 2006 ; partie théorique, pages 155 à 177 ; partie pratique, pages 177 à 181. Ricco Rakotomalala: « Analyse de corrélation, Étude des dépendances - Variables quantitatives » Version 1.1