Chapitre 4:
ACP: Analyse en Composante Principale
28/04/2014 1
Pr. MERBOUHA Analyse des données
Economie/Gestion
I. Introduction
L’analyse en composante principale
(ACP) est une méthode statistique
essentiellement descriptive: son
obje...
Ce tableau doit être constitué, en ligne,
par des individus:
(animaux, clients, ménage … etc ) sur
lesquels sont mesurées ...
Si sont les
variables et n le nombre
d’individus. X est une
matrice rectangulaire à n
lignes et p colonnes:
28/04/2014 4
P...
28/04/2014 5
Pr. MERBOUHA Analyse des données
Economie/Gestion
Variable
Une colonne du tableau
Individu
Une ligne du tableau
28/04/2014 6
Pr. MERBOUHA Analyse des données
Economie/Gesti...
Le choix des individus doit être en
accord avec les objectifs désirés. Ils
seraient issus d’une population comme
il peuven...
1 Les problèmes qui peuvent être abordés par l’ACP:
L’ACP sert à:
a. Expliquer le rendement d’une culture; du chiffre
d’af...
L’ACP permet d’obtenir des graphiques où l’on peut
observer, aussi objectivement que possible, les
ressemblances et dissem...
2. Principe de l’ACP
Si un tableau de données a p variables quantitatives, on
dira que les individus peuvent être représen...
Pour des raisons évidentes de facilité de
visualisation, les espaces retenus seront
à une dimension (c’est-à-dire des
droi...
C’est ce qui se passe lorsque nous réalisons
des photographies: on passe d’un espace de
dimension 3 « où nous vivons » à u...
 Exemple 1
Un autre exemple est celui des couleurs des photos:
Nous avons tous des milliers de photos sur nos PCs et
cela...
Figure: L'image dont on veut réduire l'espace couleur
28/04/2014 14
Pr. MERBOUHA Analyse des données
Economie/Gestion
(a) (b) (c)
Figure: (a) : Image projetée sur l’axe « rouge ». (b) Image projetée sur l’axe « vert ».
(c) Image projetée su...
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 16
- Les droites et les plans d’une ACP sont réalisés avec
des combinaisons linéaire des variables initiales
qu’on appelle in...
Ensuite, une deuxième composante
principale est recherchée, et ceci
sous deux conditions:
- Avoir une corrélation nulle av...
 Le processus continue jusqu’à l’obtention de
la p ème composante principale, les parts
d’information expliquées par chac...
3. Présentation des résultats de l’ACP
Tout logiquement, c’est le plan engendré
par les axes 1 et 2 qui sera examiné en
pr...
Selon la part d’information prise en
compte par ce plan, il sera nécessaire
ou non d’en examiner d’autres.
Sur ces plans, ...
Mais il faudrait se méfier; deux individus
proches sur un plan, pourraient ne pas
l’être dans la réalité.
Il serait extrêm...
4. Type de tableau pouvant être
traités par l’ACP
Les variables doivent être quantitatives ou pouvant
être considérées com...
a. Les tableaux de mesures: les variables sont
obtenues à partir de comptage (nombres
d’enfants par ménage, nombre d’épis,...
c. Les tableaux de rangs: Les variables
sont des rangs; les n individus sont
classés de 1 à n, du meilleur au plus
mauvais...
Remarque importante:
En pratique, Les tableaux à analyser sont le
plus souvent de différentes natures (mixte);
et c’est le...
L’ACP est réalisé soit:
- sur les données centrées, les
variables qui sont les plus
dispersées auront plus de poids.
- sur...
28/04/2014 28
Pr. MERBOUHA Analyse des données
Economie/Gestion
Attention
Si l’opération de réduction diminue
l’importance des variables les plus
dispersées, elle peut inversement,
augme...
Les matrices à considérer pour une ACP sont alors la
matrices de variance-covariance V ou la matrice de
corrélations R.
où...
et
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 31
Exemple 2: BDD SPSS caractéristiques des dentifrices
Il s’agit d’une étude qui porte sur les avantages
fondamentaux recher...
-V1 : Il est important d’utiliser un dentifrice qui
prévient la formation des caries.
- V2 : Un dentifrice doit rendre les...
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 34
II. Lexique d’interprétation des paramètres
Pour transformer les p variables initiales
inter-corrélées en p nouvelles vari...
- La première consiste à élaborer:
- soit la matrice de variance covariance
- soit la matrice de corrélation
La deuxième é...
Facteurs principaux:
Pour une ACP sur données centrées et réduites: La
matrices à considérer est la matrice de corrélation...
Utilisation de l’information fournie par les valeurs propres:
On montre que qu’une valeur propre
représente la variance de...
Remarque
Dans le cas d’une ACP sur des données
centrées et réduites, chaque variable a par
définition une variance égale à...
Puis ce que les valeurs sont classées de la plus
grande à la plus petite, c’est sur le premier
axe principale que sera vis...
Quant à la matrice des vecteurs propres,
elle est formée en colonne par les
vecteurs propres de la matrice MV, c’est
les a...
Les composantes principales sont alors les vecteurs
de
avec
Y étant le tableau des données centrées et D la
matrice diagon...
C’est-à-dire
Les sont les données centrées ou centrées et
réduites
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Ge...
On montre que le vecteur propre
associé à la plus grande valeur propre
explique le maximum de toute
l’information du nuage...
Puis ce que les valeurs sont classées de la plus
grande à la plus petite, c’est sur le premier axe
principale que sera vis...
Nombre d’axe à retenir:
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 46
Dimension de l'espace des individu...
Éboulis des valeurs propres
Autre façon de choisir le nombre de classes est de
chercher un coude dans le graphe des valeur...
Retour à l’exemple 2,
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 48
Dans notre exemple 2, si l’on retien...
 Corrélation entre composantes et variables initiales
 Quand on travaille sur les variables centrées-réduites, la
corrél...
Le cercle des corrélations r(zj;c2).
 Qu'est-ce que c'est?
c'est une représentation ou, pour deux composantes principales...
Les coefficients de corrélation entre variables
initiales et facteurs (également appelés
poids factoriels ou loadings) : p...
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 52
Un dentifrice semble a priori être acheté pour 2 raisons p...
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 53
Représentation graphique des variables :
Représentation des individus sur le plan principal
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 54
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 55
Dans notre exemple 2, ceci présente peu d’intérêt. Cependa...
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 56
Marques
sociales
Marques santé
Marques
généralistes
Les données considérées sont centrées, elles ne sont pas réduites.
Matrice de variance-covariance:
Matrice de vecteurs pro...
On a
La proportion de l’information totale visible sur l’axe
principale dépasse 90%.
28/04/2014
Pr. MERBOUHA Analyse des d...
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 59
 (a) (b) (c)
Figure: (a) : Image originale. (b) Image pro...
VI. Variables supplémentaires et Individus supplémentaires.
a. Variables supplémentaires
L’utilisation de variables supplé...
b. Individus supplémentaires
Les individus supplémentaires ne participent pas à la
construction des axes. Mais peuvent êtr...
Prochain SlideShare
Chargement dans…5
×

Ch4 andoneco [mode de compatibilité]

709 vues

Publié le

cours Analyse en Composantes Principales

Publié dans : Économie & finance
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
709
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
67
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Ch4 andoneco [mode de compatibilité]

  1. 1. Chapitre 4: ACP: Analyse en Composante Principale 28/04/2014 1 Pr. MERBOUHA Analyse des données Economie/Gestion
  2. 2. I. Introduction L’analyse en composante principale (ACP) est une méthode statistique essentiellement descriptive: son objectif est de présenter, sous une forme graphique, le maximum de l’information contenue dans un tableau de données. 28/04/2014 2 Pr. MERBOUHA Analyse des données Economie/Gestion
  3. 3. Ce tableau doit être constitué, en ligne, par des individus: (animaux, clients, ménage … etc ) sur lesquels sont mesurées des variables qualitatives ou pouvant être considérées comme telles (rendement, chiffre d’affaire etc … ) disposées en colonne. 28/04/2014 3 Pr. MERBOUHA Analyse des données Economie/Gestion
  4. 4. Si sont les variables et n le nombre d’individus. X est une matrice rectangulaire à n lignes et p colonnes: 28/04/2014 4 Pr. MERBOUHA Analyse des données Economie/Gestion
  5. 5. 28/04/2014 5 Pr. MERBOUHA Analyse des données Economie/Gestion
  6. 6. Variable Une colonne du tableau Individu Une ligne du tableau 28/04/2014 6 Pr. MERBOUHA Analyse des données Economie/Gestion
  7. 7. Le choix des individus doit être en accord avec les objectifs désirés. Ils seraient issus d’une population comme il peuvent être diversifiés. Le choix des variables à introduire devront caractériser aussi bien que possible les phénomènes qu’on veut étudier 28/04/2014 7 Pr. MERBOUHA Analyse des données Economie/Gestion
  8. 8. 1 Les problèmes qui peuvent être abordés par l’ACP: L’ACP sert à: a. Expliquer le rendement d’une culture; du chiffre d’affaire d’une entreprise, PIB d’un pays, etc …. b. Sélectionner les variables sensées expliquer un phénomène à l’étude. c. Constituer des groupes d’individus qui se ressemblent aux vues d’un certain nombre de variables quantitatives, pour caractériser les individus de mêmes groupes. 28/04/2014 8 Pr. MERBOUHA Analyse des données Economie/Gestion
  9. 9. L’ACP permet d’obtenir des graphiques où l’on peut observer, aussi objectivement que possible, les ressemblances et dissemblances des individus, L’ACP est utilisée pour savoir - Comment se structurent les variables. - Et/ou comment se répartissent les individus. 28/04/2014 9 Pr. MERBOUHA Analyse des données Economie/Gestion
  10. 10. 2. Principe de l’ACP Si un tableau de données a p variables quantitatives, on dira que les individus peuvent être représentés dans un espace de dimension p. Si p > 3, il est difficile voir impossible de voir la diposition des individus dans un tel espace. Le but de l’ACP est de trouver des espaces de de dimensions plus petites dans lesquels il soit possible d’y observer ‘« au mieux » les individus. 28/04/2014 10 Pr. MERBOUHA Analyse des données Economie/Gestion
  11. 11. Pour des raisons évidentes de facilité de visualisation, les espaces retenus seront à une dimension (c’est-à-dire des droites) ou, et ce sera le cas le plus fréquent, à deux dimensions (c’est-à- dire des plans) 28/04/2014 11 Pr. MERBOUHA Analyse des données Economie/Gestion
  12. 12. C’est ce qui se passe lorsque nous réalisons des photographies: on passe d’un espace de dimension 3 « où nous vivons » à un espace à deux dimensions: la photos que nous réalisons. Ce pendant, selon l’angle sous lequel, on prend notre sujet, toutes nos photos n’apporteront pas la même information sur celui-ci; 28/04/2014 12 Pr. MERBOUHA Analyse des données Economie/Gestion
  13. 13.  Exemple 1 Un autre exemple est celui des couleurs des photos: Nous avons tous des milliers de photos sur nos PCs et cela prend beaucoup de place sur nos disques. Cela est en partie du au fait que chaque image est en couleur: rouge ,vert, bleu (RGB). Chaque pixel, chaque site (x,y), contient une information couleur sur l'intensité du rouge, l'intensité du vert, l'intensité du bleu. Il est donc possible de diviser par trois la taille d'une image, en ne conservant qu'un seul canal. 28/04/2014 13 Pr. MERBOUHA Analyse des données Economie/Gestion
  14. 14. Figure: L'image dont on veut réduire l'espace couleur 28/04/2014 14 Pr. MERBOUHA Analyse des données Economie/Gestion
  15. 15. (a) (b) (c) Figure: (a) : Image projetée sur l’axe « rouge ». (b) Image projetée sur l’axe « vert ». (c) Image projetée sur l'axe « bleu ». 28/04/2014 15 Pr. MERBOUHA Analyse des données Economie/Gestion
  16. 16. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 16
  17. 17. - Les droites et les plans d’une ACP sont réalisés avec des combinaisons linéaire des variables initiales qu’on appelle indices synthétiques. - Parmi tous les indices synthétiques, l’ACP recherche d’abord celui qui permet au mieux de voir les individus i.e celui pour lequel la variance des individus est maximale: cet indice est appelé première composante principale, ou encore premier axe principale. Une certaine proportion de la variation totale des individus est expliquée (ou visible) par cette composante principale. 28/04/2014 17 Pr. MERBOUHA Analyse des données Economie/Gestion
  18. 18. Ensuite, une deuxième composante principale est recherchée, et ceci sous deux conditions: - Avoir une corrélation nulle avec la première - Avoir à son tour, la plus grande variance. 28/04/2014 18 Pr. MERBOUHA Analyse des données Economie/Gestion
  19. 19.  Le processus continue jusqu’à l’obtention de la p ème composante principale, les parts d’information expliquées par chacune d’elles devenant de plus en plus faible.  En résumé, la phase essentielle de l’ACP, consiste à transformer les p variables quantitatives initiales, toutes plus ou moins corrélées entre elles, en p nouvelles variables quantitatives, non corrélées, appelées composantes principales. 28/04/2014 19 Pr. MERBOUHA Analyse des données Economie/Gestion
  20. 20. 3. Présentation des résultats de l’ACP Tout logiquement, c’est le plan engendré par les axes 1 et 2 qui sera examiné en premier: par construction, c’est le plan sur lequel le maximum de l’information est visible, il est appelé le «plan principal» ou «plan 1-2». 28/04/2014 20 Pr. MERBOUHA Analyse des données Economie/Gestion
  21. 21. Selon la part d’information prise en compte par ce plan, il sera nécessaire ou non d’en examiner d’autres. Sur ces plans, il sera nécessaire de reporter les directions des variables initiales, afin de connaitre celles qui ont joué un rôle prépondérant dans la constitution des composantes principales. 28/04/2014 21 Pr. MERBOUHA Analyse des données Economie/Gestion
  22. 22. Mais il faudrait se méfier; deux individus proches sur un plan, pourraient ne pas l’être dans la réalité. Il serait extrêmement utile de regarder quelque indicateurs complémentaires, calculé par tout bon logiciel et qui permet de juger de la qualité de la représentation de ces individus. 28/04/2014 22 Pr. MERBOUHA Analyse des données Economie/Gestion
  23. 23. 4. Type de tableau pouvant être traités par l’ACP Les variables doivent être quantitatives ou pouvant être considérées comme telles. Selon la nature de ces variables, on peut distinguer trois grands types de tableaux: 28/04/2014 23 Pr. MERBOUHA Analyse des données Economie/Gestion
  24. 24. a. Les tableaux de mesures: les variables sont obtenues à partir de comptage (nombres d’enfants par ménage, nombre d’épis, … etc) ou sont obtenues à partir d’appareils de mesure (balance, humidimètre, … etc). b. Les tableaux de notes: (note par exemple entre 0 et 20) d’intensité d’une maladie, de niveau de satisfaction d’un produit … etc. ce sont des variables aléatoires ordinales mais qui peuvent être généralement assimilées à des variables aléatoires continues. 28/04/2014 24 Pr. MERBOUHA Analyse des données Economie/Gestion
  25. 25. c. Les tableaux de rangs: Les variables sont des rangs; les n individus sont classés de 1 à n, du meilleur au plus mauvais, du plus rapide au plus long par exemple. 28/04/2014 25 Pr. MERBOUHA Analyse des données Economie/Gestion
  26. 26. Remarque importante: En pratique, Les tableaux à analyser sont le plus souvent de différentes natures (mixte); et c’est les variables les plus dispersées qui engendre les premières composantes. Pour remédier à cet inconvénient, il est recommandé de donner la même importance à toute les variables en les réduisant. 28/04/2014 26 Pr. MERBOUHA Analyse des données Economie/Gestion
  27. 27. L’ACP est réalisé soit: - sur les données centrées, les variables qui sont les plus dispersées auront plus de poids. - sur les données centrées et réduites pour donner la même importance à toutes les variables 28/04/2014 27 Pr. MERBOUHA Analyse des données Economie/Gestion
  28. 28. 28/04/2014 28 Pr. MERBOUHA Analyse des données Economie/Gestion
  29. 29. Attention Si l’opération de réduction diminue l’importance des variables les plus dispersées, elle peut inversement, augmenter l’importance des variables peu dispersées. Une variable qui aurait à peu près la même valeur, se verrait attribuer un poids important, alors que le bon sens conduirait à l’éliminer. 28/04/2014 29 Pr. MERBOUHA Analyse des données Economie/Gestion
  30. 30. Les matrices à considérer pour une ACP sont alors la matrices de variance-covariance V ou la matrice de corrélations R. où V est la matrice de variance-covariance 28/04/2014 30 Pr. MERBOUHA Analyse des données Economie/Gestion
  31. 31. et 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 31
  32. 32. Exemple 2: BDD SPSS caractéristiques des dentifrices Il s’agit d’une étude qui porte sur les avantages fondamentaux recherchés par les consommateurs lors de l’achat d’un dentifrice. Le sondage est réalisé dans 1 centre commercial auprès d’un échantillon de 30 personnes, qui ont donné leur avis sur les affirmations suivantes, sur 1 échelle de 1 (en total désaccord) à 7 (entièrement d’accord)  même nombre d’échelons 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 32
  33. 33. -V1 : Il est important d’utiliser un dentifrice qui prévient la formation des caries. - V2 : Un dentifrice doit rendre les dents brillantes. - V3 : Un dentifrice doit renforcer les gencives. - V4 : Un dentifrice doit rafraîchir l’haleine. - V5 : La prévention des caries n’est pas un avantage important du dentifrice (sic). - V6 : Un dentifrice doit avant tout donner de belles dents 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 33
  34. 34. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 34
  35. 35. II. Lexique d’interprétation des paramètres Pour transformer les p variables initiales inter-corrélées en p nouvelles variables non corrélées, appelées composantes principales, on procède en deux étapes: 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 35
  36. 36. - La première consiste à élaborer: - soit la matrice de variance covariance - soit la matrice de corrélation La deuxième étape est la diagonalisation: Cette opération impossible à exécuter à la main, fournit essentiellement deux matrices: - Une matrice de vecteurs propres. - Une matrice diagonale de valeurs propres rangées dans le sens dégressives: 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 36
  37. 37. Facteurs principaux: Pour une ACP sur données centrées et réduites: La matrices à considérer est la matrice de corrélation R de vecteurs propres appelés facteurs principaux: 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 37
  38. 38. Utilisation de l’information fournie par les valeurs propres: On montre que qu’une valeur propre représente la variance des individus sur l’axe correspondant. Chaque valeur propre peut être exprimée en valeur relative de la variance totale est qui est donc la somme des ces valeurs propres: 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 38
  39. 39. Remarque Dans le cas d’une ACP sur des données centrées et réduites, chaque variable a par définition une variance égale à un, donc la somme des variances est égale au nombre de ces variables initiales. Par conséquent, le rapport de chaque valeur propre à la somme de toutes les valeurs propres fournit un renseignement intéressant: la part de toute l’information initiale visible sur chaque axe. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 39
  40. 40. Puis ce que les valeurs sont classées de la plus grande à la plus petite, c’est sur le premier axe principale que sera visible le maximum d’information en comparaison avec n’importe quel autre axe. Etant donné que le deuxième axe principal est choisi avec une corrélation nulle avec le premier, c’est le plan principale que sera visible le maximum de l’information du nuage de point en comparaison avec n’importe quel autre plan. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 40
  41. 41. Quant à la matrice des vecteurs propres, elle est formée en colonne par les vecteurs propres de la matrice MV, c’est les axes principaux. Ces vecteurs propres contiennent les coefficient des combinaisons linéaires: 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 41
  42. 42. Les composantes principales sont alors les vecteurs de avec Y étant le tableau des données centrées et D la matrice diagonale: 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 42
  43. 43. C’est-à-dire Les sont les données centrées ou centrées et réduites 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 43
  44. 44. On montre que le vecteur propre associé à la plus grande valeur propre explique le maximum de toute l’information du nuage de points (les données) parmi tout les autres axes. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 44
  45. 45. Puis ce que les valeurs sont classées de la plus grande à la plus petite, c’est sur le premier axe principale que sera visible le maximum de l’information totale en comparaison avec n’importe quel autre axe. Lorsque le deuxième axe principal est choisi avec une corrélation nulle avec le premier, c’est sur le plan principale que sera visible le maximum de l’information du nuage de point en comparaison avec n’importe quel autre plan. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 45
  46. 46. Nombre d’axe à retenir: 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 46 Dimension de l'espace des individus L'ACP visant a réduire la dimension de l'espace des individus, on veut conserver aussi peu d'axes que possible. Il faut pour cela que les variables d'origine soient raisonnablement corrélées entre elles. Les seuls critères utilisables sont empiriques. Interprétation des axes on s'efforce de ne retenir que des axes a propos desquels une forme d'interprétation est possible (soit directement, soit en terme des variables avec lesquels ils sont très corrélées). Critère de Kaiser (variables centrées réduites) on ne retient que les axes associes a des valeurs propres supérieures a 1, c'est-à-dire dont la variance est supérieure a celle des variables d'origine. Une autre interprétation est que la moyenne des valeurs propres étant 1, on ne garde que celles qui sont supérieures a cette moyenne.
  47. 47. Éboulis des valeurs propres Autre façon de choisir le nombre de classes est de chercher un coude dans le graphe des valeurs propres 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 47
  48. 48. Retour à l’exemple 2, 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 48 Dans notre exemple 2, si l’on retient les valeurs propres > 1, alors nous devrions retenir 2 axes factoriels.
  49. 49.  Corrélation entre composantes et variables initiales  Quand on travaille sur les variables centrées-réduites, la corrélation entre une composante principale ck et une variable zj est et donc le vecteur des corrélations de ck avec Z est  Comme on a finalement 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 49
  50. 50. Le cercle des corrélations r(zj;c2).  Qu'est-ce que c'est? c'est une représentation ou, pour deux composantes principales, par exemple c1 et c2, on représente chaque variable zj par un point d'abscisse r(zj; c1) et d'ordonnée r(zj;c2).  Effet « taille » cela arrive quand toutes les variables sont corrélées positivement avec la première composante principale. Cette composante est alors appelée facteur de taille, la seconde facteur de forme. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 50
  51. 51. Les coefficients de corrélation entre variables initiales et facteurs (également appelés poids factoriels ou loadings) : plus la corrélation entre une variable et un facteur est élevée, plus cette variable apporte du sens au facteur. Idéalement pour l’interprétation, une variable contribue fortement à un facteur (valeur > à 0,5 ou 0,6 en v.a.) et faiblement aux autres facteurs (valeurs < 0,3 en v.a). 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 51
  52. 52. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 52 Un dentifrice semble a priori être acheté pour 2 raisons principales : soit « santé » (caries/gencives) soit pour des attentes plus « sociales » (brillance/belles dents ou haleine fraîche). Le facteur 2 est représenté par les variables brillance, haleine et belles dents. Le facteur 1 oppose caries/gencives à prévention caries (qui est codée dans l’autre sens).
  53. 53. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 53 Représentation graphique des variables :
  54. 54. Représentation des individus sur le plan principal 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 54
  55. 55. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 55 Dans notre exemple 2, ceci présente peu d’intérêt. Cependant, si l’on avait été renseigné sur la marque consommée par ces différents individus, ce graphe complémentaire aurait été beaucoup plus intéressant. Ajoutons 1 colonne « conso » censée représentée la marque de dentifrice consommée par l’individu interrogée. On code (affichage des variables  valeurs) 1:Sanogyl 2:parogencyl 3:fluocaril 4:tonigencil 5:colgate 6:signal 7:rembrandt 8:ultrabrite On réalise un nouveau graph, mais cette fois on va étiqueter les observations par marque consommée. Remarque : on peut de la même manière faire apparaître les variables de notre choix sur la graph.
  56. 56. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 56 Marques sociales Marques santé Marques généralistes
  57. 57. Les données considérées sont centrées, elles ne sont pas réduites. Matrice de variance-covariance: Matrice de vecteurs propres: Matrice des valeurs propres 28/04/2014 57
  58. 58. On a La proportion de l’information totale visible sur l’axe principale dépasse 90%. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 58
  59. 59. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 59  (a) (b) (c) Figure: (a) : Image originale. (b) Image projetée sur le plan pricipal de l'ACP. (c) Image projetée sur le premier axe principale.
  60. 60. VI. Variables supplémentaires et Individus supplémentaires. a. Variables supplémentaires L’utilisation de variables supplémentaires s’imposent quand on veut chercher s’l y a des liens (linéaires) entre une variable qui représente un intérêt particulier, et d’autres variables censées «l’expliquer». Une variable supplémentaire est donc une variable «à expliquer». Elle ne participe pas à la construction des axes. Ce n’est qu’à cette condition que l’observation des liaisons entre la variable à expliquer et les variables actives est objective. 28/04/2014 60 Pr. MERBOUHA Analyse des données Economie/Gestion
  61. 61. b. Individus supplémentaires Les individus supplémentaires ne participent pas à la construction des axes. Mais peuvent être représentés sur les plans principaux. Ces individus serviront d'échantillon test pour vérifier les hypothèses tirées de l'ACP sur les individus actifs. 28/04/2014 61 Pr. MERBOUHA Analyse des données Economie/Gestion

×