SlideShare une entreprise Scribd logo
1  sur  68
Télécharger pour lire hors ligne
Analyse en Composantes
Principales
Exercice avec éléments de réponse
J. DABOUNOU - FST DE SETTAT
UNIVERSITE HASSAN Ier
Septembre 2020
Sur Youtube
https://www.youtube.com/playlist?list=PLzjg2z2kYUrgV6fswgo5B5gaYWfVFX44V
Exercice 1 : Le tableau suivant présente pour différentes villes, les précipitations p (en cm), les
températures maximale tmax et minimale tmin (en˚C), mesurées en 2012:
a. Calculez les moyennes et les écart-types de p, tmax et tmin.
Donnez la matrice X des données centrées réduites.
b. Calculez la matrice des corrélations Σ.
c. Déterminer, éventuellement en utilisant un logiciel,
les matrices D et P telles que Σ = PDPt, avec P matrice orthogonale et D matrice diagonale.
d. Quelles sont les valeurs et vecteurs propres de Σ ?
e. Montrer que la matrice P est inversible et P−1 = Pt.
f. Calculer la matrice des composantes principales C et représenter les villes dans le plan principal.
g. Interpréter la position des villes dans le plan principal et commenter.
h. Calculer les corrélations linéaires entre les variables initiales et les deux premières composantes
principales.
i. Réaliser un tableau qui synthétise la qualité de représentation et la contribution des individus aux
axes factoriels et leur contribution à l’inertie totale ainsi que la qualité de représentation des
variables aux axes factoriels.
j. Représenter les résultats sur le cercle des corrélations.
k. Factoriser la matrice de données.
J. DABOUNOU - FST DE SETTAT ACP001 - 1
p tmax tmin
Ajaccio 12,04 23,7 5,9
Brest 17,18 15,5 -1,8
Dunkerque 11,83 13,1 2,8
Nancy 6,23 13,5 -2,4
Nice 16,99 21,1 7,2
Toulouse 3,87 20,3 -0,9
Calculez les moyennes et les écart-
types de p, tmax et tmin.
Donnez la matrice X des données
centrées réduites
J. DABOUNOU - FST DE SETTAT ACP001 - 2
Objectifs de l’ACP
L’Analyse en Composantes Principales (ACP) utilise une transformation linéaire
implicite pour :
– Supprimer les corrélations entre les variables
– Synthétiser l’information sur un nombre réduit de variables
– Permettre une représentation graphique des informations
Données à analyser :
On se donne I individus Xi et J variables quantitatives Vj avec xij la valeur de la variable
Vj pour l’individu Xi. Ces données sont représentées sous forme matricielle par :
Pour l’exercice, les données avec moyennes et
écart-types sont :
J. DABOUNOU - FST DE SETTAT ACP001 - 3
V1 V2 … VJ
X1 x11 x12 x1J
X2 x21 x22 x2J
⁞
XI xI1 xI2 xIJ
p tmax tmin
Ajaccio 12,04 23,7 5,9
Brest 17,18 15,5 -1,8
Dunkerque 11,83 13,1 2,8
Nancy 6,23 13,5 -2,4
Nice 16,99 21,1 7,2
Toulouse 3,87 20,30 -0,90
Moyenne 11,36 17,87 1,80
Ecart-type 4,98 4,04 3,76
Données centrées réduites
Les données peuvent être présentées tout simplement par :
X =
Les lignes représentent les individus et les colonnes les variables.
Ensuite, on remplace dans la matrice X chaque colonne par la variable centrée réduite.
On obtient alors :
Xcr =
J. DABOUNOU - FST DE SETTAT ACP001 - 4
x11 x12 … x1J
x21 x22 x2J
⁞ ⁞ ⁞
xI1 xI2 xIJ
x11 − x1
σ1
x11 − x2
σ2
x1J − xJ
σJ
x21 − x1
σ1
x11 − x2
σ2
x2J − xJ
σJ
⋮ ⋱
x11 − x1
σ1
x11 − x2
σ2
xIJ − xJ
σJ
Pour simplifier on continue à noter X
pour désigner Xcr .
Ainsi, on pose Xcr = (xij)i=1,I; j=1,J.
Données à analyser
On en déduit la matrice centrée :
J. DABOUNOU - FST DE SETTAT ACP001 - 5
p tmax tmin
Ajaccio 12,04 23,7 5,9
Brest 17,18 15,5 -1,8
Dunkerque 11,83 13,1 2,8
Nancy 6,23 13,5 -2,4
Nice 16,99 21,1 7,2
Toulouse 3,87 20,30 -0,90
Moyenne 11,36 17,87 1,80
Ecart-type 4,98 4,04 3,76
p tmax tmin
Ajaccio 0,68 5,83 4,10
Brest 5,82 -2,37 -3,60
Dunkerque 0,47 -4,77 1,00
Nancy -5,13 -4,37 -4,20
Nice 5,63 3,23 5,40
Toulouse -7,49 2,43 -2,70
Moyenne 0,00 0,00 0,00
Ecart-type 4,98 4,04 3,76
Et centrée réduite :
p tmax tmin
Ajaccio 0,14 1,44 1,09
Brest 1,17 -0,59 -0,96
Dunkerque 0,10 -1,18 0,27
Nancy -1,03 -1,08 -1,12
Nice 1,13 0,80 1,44
Toulouse -1,50 0,60 -0,72
Moyenne 0,00 0,00 0,00
Ecart-type 4,98 4,04 3,76
Données à analyser
Les composantes que donne l’ACP dépendent des unités de mesure. On doit souvent
opter pour une solution selon la situation spécifique du problème. On peut par
exemple :
- Centrer-réduire les données et donc utiliser la matrice des coefficients de corrélation
- Normaliser les données en divisant par la moyenne
- Choisir des unités convenables pour avoir des valeurs comparables.
J. DABOUNOU - FST DE SETTAT ACP001 - 6
Calculez la matrice des corrélations
Σ
J. DABOUNOU - FST DE SETTAT ACP001 - 7
Matrice de corrélation
Matrice de corrélation :
Σ = Corr 𝐗 =
1
I
𝐗t
. 𝐗 =
1 Corr(𝐕1, 𝐕2 ) ⋯ Corr(𝐕1, 𝐕J )
Corr(𝐕2, 𝐕1 ) ⋱
⋮
Corr(𝐕J, 𝐕1 )
⋱
⋯
⋮
1
On a
J. DABOUNOU - FST DE SETTAT ACP001 - 8
Σ étant ici égale à la matrice des corrélations.
Le graphique ci-contre illustre cette matrice.
Matrice de corrélation
Σ exprime la liaison entre les variables. L’écart entre Σ et une matrice diagonale
mesure la dépendance entre les variables, donc la redondance entre celles-ci.
Un des objectifs de l’ACP est de déterminer une nouvelle base orthogonale et une
nouvelle matrice Y avec de nouvelles composantes pour lesquelles ΣY = Yt Y est
diagonale.
On considère la représentation X= [V1, …, VJ], à l’aide des variables initiales (vecteurs
colonnes), l’ACP cherche à trouver une représentation Y=[W1, …,WJ], transformation
linéaire de X, telles que les variables Wj soient décorrélées. Ainsi, Y=PX et ΣY = Pt Σ P =
D.
Les vecteurs propres de Σ forment la matrice de passage P et les valeurs propres sont
les covariances des nouvelles variables Yj.
J. DABOUNOU - FST DE SETTAT ACP001 - 9
Déterminer, éventuellement en
utilisant un logiciel,
les matrices D et P telles que Σ =
PDPt, avec P matrice orthogonale et
D matrice diagonale
J. DABOUNOU - FST DE SETTAT ACP001 - 10
On utilise souvent un logiciel qui nous donne les matrices D et P telles que Σ = PDPt,
On peut donc aussi écrire : Pt Σ P = D.
D est la matrice diagonale composée des valeurs propres de Σ. Les colonnes de P
représentent les vecteurs propres de Σ. Il s’agit de la décomposition spectrale de la
matrice de corrélation.
Σ étant symétrique et semi-définie positive, elle possède cette décomposition.
0.46 0.79 0.41
0.56 -0.61 0.56
0.69 -0.03 -0.72
Valeurs et vecteurs propres en ACP
J. DABOUNOU - FST DE SETTAT ACP001 - 11
1.83 0 0
0 0.92 0
0 0 0.25
D = P =
Quelles sont les valeurs et vecteurs
propres de Σ ?
Montrer que la matrice P est
inversible et P−1 = Pt
J. DABOUNOU - FST DE SETTAT ACP001 - 12
Les valeurs propres de Σ constituent la diagonale de la matrices D et les vecteurs
propres unitaires constituent les colonnes de la matrice P.
Comme Σ est symétrique et semi-définie positive, les valeurs propres sont toutes
positives ou nulles et les vecteurs propres sont deux à deux orthogonaux.
Le plus souvent, les logiciels donnent les valeurs propres classées en ordre
décroissant.
Soient donc les valeurs propres : 1 = 1.83 ; 2 = 0.92 ; 3 = 0.25 et les vecteurs
propres :
u1=
0.46
0.56
0.69
; u2=
0.79
−0.61
−0.03
; u3=
0.41
0.56
−0.72
On en déduit que le rang de Σ est égal à 3. Σ est donc inversible.
Il est en de même de P. P est en fait une matrice orthogonale et P-1 = Pt.
Valeurs et vecteurs propres en ACP
J. DABOUNOU - FST DE SETTAT ACP001 - 13
Evolution des valeurs propres
On a 1 > 2 > 3 > 0. Le tableau suivant présente l’inertie expliquée par chacun des
axes principaux et l’inertie cumulée.
On affiche une courbe qui visualise l’évolution des valeurs propres.
J. DABOUNOU - FST DE SETTAT ACP001 - 14
Valeur propre % expliqué % cumulé
1 1.83 61.17% 61.17%
2 0.92 30.51% 91.68%
3 0.25 8.32% 100.00%
Inertie totale 3.00
Calculer la matrice des
composantes principales C et
représenter les villes dans le plan
principal
J. DABOUNOU - FST DE SETTAT ACP001 - 15
On projette les I=6 vecteurs lignes représentant les individus dans l’espace R3. Le
graphique ci-dessous permet de l’illustrer :
L’ACP consiste à trouver les directions de variance maximale dans ces données afin de
les projeter sur un sous-espace dimensionnel plus petit tout en conservant l’essentiel
des informations.
NB. J’utilise quelquefois Xi au lieu de Mi pour désigner un point de coordonnées la ligne i de la
matrice X.
J. DABOUNOU - FST DE SETTAT ACP001 - 16
Les individus dans l’espace des variables
O
R3
MiM1
M2
M3
M4
M5
M6
Projection des données sur un axe
On voit que la première composante principale capture le maximum d’inertie du
nuage de données. Il reste un résidu non expliqué par cette première composante ce
qui justifie le calcul de la deuxième composante principale.
u1 définit le premier axe principal dans R3. Puisque X est centrée, l’origine O des axes
de R3 passe par le centre de gravité des 6 points Mi définis par les lignes de la matrice
X.
La projection du point Mi sur cet axe, notée Hi1 est donnée par OHi1 = <OMi , u1> où
OMi est le vecteur défini par la ième ligne de la matrice X.
Ainsi, OH11, OH12, OH13, OH14, OH15, OH16 déterminent
la projection des 6 points M1,…, M6 sur le premier axe
principal et on a :
i=1,6
OH1i
2
= <Xu1 , Xu1> = u1
t
Xt
Xu1= 6 1
J. DABOUNOU - FST DE SETTAT ACP001 - 17
O
R3
u1
Mi
H1i
D1
L’axe défini par u1 récupère le plus possible de variance pour un axe. L’axe D2 défini par
u2, récupère le maximum de variance non récupérée par u1.
Le vecteur propre unitaire u2 est orthogonal au vecteur unitaire u1.
Le vecteur propre unitaire u3 est orthogonal à chacun des vecteurs u1 et u2.
Deuxième axe principal de l’ACP
J. DABOUNOU - FST DE SETTAT ACP001 - 18
R3
u1
Mi
H1i
D1
u2
D2
O
Les composantes principales F1, F2, F3 sont données par :
F1 = X u1, F2 = X u2 et F3 = X u3.
La matrice X peut être remplacée, dans la base orthonormée
(u1, u2, u3) par la matrice de composantes principales
C = [ F1 F2 … Fr ]
Ce qui permet dans les cas concrets de réduire la dimension
des données puisqu’en général, le rang(XtX)  J sans perte
d’information (Inertie globale).
En effet:
trace(XtX) = I.(1 + 2 +…+ r)= u1
t XtX u1 + u2
t XtX u2 + u3
t XtX u3
= F1
t F1 + F2
t F2 + F3
t F3 = trace(Ct C)
Composantes Principales
J. DABOUNOU - FST DE SETTAT
H1iO
D1
u1
H2i
H3i
D2
u2
O
D3
u3
O
ACP001 - 19
R3
u1
Mi
H1i
D1
u2
D2
O
Les composantes principales F1, F2, F3 sont alors :
et la matrice des composantes principales C :
Composantes Principales
J. DABOUNOU - FST DE SETTAT ACP001 - 20
F1 F2 F3
Ajaccio 1.63 -0.81 0.07
Brest -0.45 1.31 0.84
Dunkerque -0.43 0.79 -0.81
Nancy -1.85 -0.12 -0.21
Nice 1.96 0.37 -0.13
Toulouse -0.85 -1.54 0.24
k 1.83 0.92 0.25
i=1,6
Fki
2
= 6 k
ou encore
k =
1
6
𝐅k
t
. 𝐅k
1,63 -0,81 0,07
-0,45 1,31 0,84
-0,43 0,79 -0,81
-1,85 -0,12 -0,21
1,96 0,37 -0,13
-0,85 -1,54 0,24
C =
Pour k=1,2,3 :
Le plan défini par le couple de vecteurs propres (u1. u2) est appelé plan factoriel.
Il s’agit du plan :
- qui est globalement le plus proche des points représentant les individus
- sur lequel ces points se déforment le moins possible par projection
- qui explique le mieux possible l’inertie projetée
- tel que les points projetés dessus visualisent le mieux possible (par rapport à tout autre
plan) la disposition des individus dans l’espace RJ.
D’ailleurs ces quatre conditions sont équivalentes.
Cette visualisation est d’autant plus fidèle au nuage de points que le taux
est proche de 1. r étant le rang de Σ. Dans l’exercice r=3.
Le plan factoriel
J. DABOUNOU - FST DE SETTAT
r21
21
... 

ACP001 - 21
Projection sur le plan factoriel
J. DABOUNOU - FST DE SETTAT ACP001 - 22
Mi
M3 M2
M1
O
La projection des points sur le plan factoriel défini par (u1, u2) permet d’obtenir un graphique qui
capture le maximum d’information possible (à visualiser sur un plan) à partir de données de
départ.
Projection sur le plan factoriel
J. DABOUNOU - FST DE SETTAT ACP001 - 23
La projection des points sur le plan factoriel défini par (u1, u2) permet d’obtenir un
graphique qui capture le maximum d’information possible (à visualiser sur un plan) à
partir des données de départ.
L’inertie expliquée par le plan
factoriel est donnée par
(61.17 + 30.51)% soit 91.68 %.
F1(61.17%)
F2(30.51%)
Interpréter la position des villes
dans le plan principal et
commenter
J. DABOUNOU - FST DE SETTAT ACP001 - 24
Interpréter le plan factoriel
J. DABOUNOU - FST DE SETTAT ACP001 - 25
Nous revenons aux données pour essayer de comprendre la variabilité selon les axes.
1er axe:
- Nancy à l’extrémité gauche
- Nice, Ajaccio à l’extrémité droite
En observant les données, on voit que le 1er axe évolue globalement dans le sens
croissant de tmin. Les villes qui ont les tmin les plus basses se trouvent à gauche, ceux
qui ont des tmin élevées se trouvent à droite.
p tmax tmin
Ajaccio 12.04 23.7 5.9
Brest 17.18 15.5 -1.8
Dunkerque 11.83 13.1 2.8
Nancy 6.23 13.5 -2.4
Nice 16.99 21.1 7.2
Toulouse 3.87 20.30 -0.90
Moyenne 11.36 17.87 1.80
Ecart-type 4.98 4.04 3.76
Interpréter le plan factoriel
J. DABOUNOU - FST DE SETTAT ACP001 - 26
2ème axe:
- Toulouse, ensuite Ajaccio en bas
de l’axe
- Brest ensuite Dunkerque en haut
de l’axe
En observant les données, on voit que le 2ème axe évolue globalement dans le sens
croissant de p et, relativement, dans le sens décroissant des tmax.
p tmax tmin
Ajaccio 12.04 23.7 5.9
Brest 17.18 15.5 -1.8
Dunkerque 11.83 13.1 2.8
Nancy 6.23 13.5 -2.4
Nice 16.99 21.1 7.2
Toulouse 3.87 20.30 -0.90
Moyenne 11.36 17.87 1.80
Ecart-type 4.98 4.04 3.76
Calculer les corrélations linéaires
entre les variables initiales et les
deux premières composantes
principales.
J. DABOUNOU - FST DE SETTAT ACP001 - 27
Interpréter le plan factoriel
J. DABOUNOU - FST DE SETTAT ACP001 - 28
Pour vérifier nos conclusions, nous allons calculer les coefficients de corrélation entre
les variables et les composantes principales F1 et F2 (et facultativement F3).
On constate alors que F1 est corrélée à toutes les variables, mais très particulièrement
à tmin. F2 est corrélée à p et inversement corrélé à tmax. Nous allons visualiser ces
corrélations sur le plan factoriel.
F1 F2 F3
p 0.62 0.76 0.21
tmax 0.76 -0.59 0.28
tmin 0.93 -0.03 -0.36
Interpréter le plan factoriel
J. DABOUNOU - FST DE SETTAT ACP001 - 29
La projection des variables sur le plan factoriel permet de visualiser de façon plus
claire les corrélations que nous avons, d’une certaine manière, constatées en revenant
aux données.
Réaliser un tableau qui synthétise
la qualité de représentation des
individus au plan et aux axes
factoriels
J. DABOUNOU - FST DE SETTAT ACP001 - 30
Qualité de représentation
J. DABOUNOU - FST DE SETTAT ACP001 - 31
Interpréter le plan factoriel en termes de proximité entre les points, de position par
rapport aux axes principaux n’a de sens que si les points sont bien représentés dans le
plan factoriel. On doit garder à l’esprit que les points sont en réalité dans l’espace RJ,
dans le cas de l’exercice en cours J=3, mais le plus souvent J est un entier très grand.
D’où la nécessité d’analyser la qualité de représentation des points.
Qualité de représentation
J. DABOUNOU - FST DE SETTAT ACP001 - 32
La projection du nuage de points représentant les individus sur le plan factoriel est de
bonne qualité lorsqu’elle préserve les proximités entre les individus et l’essentiel de la
dispersion du nuage de points.
Pour illustrer cela, nous considérons les points H1i pour i=1,6 de la figure ci-dessous,
qui sont supposés constituer les projections des individus Mi pour i=1,6 sur le premier
axe principal.
La projection des points, ou encore leur représentation, sur cet axe principal est de
bonne qualité si par exemple la proximité (relative) entre les points H12 et H14 traduit
une proximité entre M2 et M4. De la même manière, la proximité entre les points H13 et
H16 traduit une proximité entre M3 et M6. Et que la distance entre H11 et H13 traduit de
façon satisfaisante la distance entre M1 et M3.
H13H16 O H14 H15H12H11
H13H16
Qualité de représentation
J. DABOUNOU - FST DE SETTAT ACP001 - 33
Lorsqu’on affiche les individus dans cet exemple illustratif, on voit que M2 et M4 sont
éloignés alors que H12 et H14 sont voisins. Par contre, la proximité entre H13 et H16
traduit effectivement une proximité entre M3 et M6. Nous trouvons aussi que la
distance entre H11 et H13 approche de façon satisfaisante la distance entre M1 et M3.
Dans l’ACP, les variables étant centrées,
on peut facilement montrer que l’origine O
de coordonnées (0,0,…,0) est le barycentre
du nuage des individus (Mi)i=1,I.
M4
M5
M2
O
M6
M3
4M1
H14 H15H12H11
1
2
6
5
3
H13H16
Qualité de représentation
J. DABOUNOU - FST DE SETTAT ACP001 - 34
Pour les individus, la projection est de bonne qualité lorsque cos2(i)1. On voit sur la
figure ci-après que l’individu M5 est bien projeté sur le 1er axe principal. cos2(5)1
signifie que M5 est proche de l’axe principal. Par contre M4 est mal représenté. En effet
cos2(4)<<1, ce qui signifie que M4 est trop loin de l’axe principal.
M4
M5
M2
O
M6
M3
5
4M1
H14 H15H12H11
1
2
3
𝐎𝐇15
2
= 𝐎𝐌5
2
cos(5)2
cos(5)2
 1
donc 𝐎𝐇15
2
 𝐎𝐌5
2
6
H13H16
Qualité de représentation
J. DABOUNOU - FST DE SETTAT ACP001 - 35
Pour les individus, la projection est de bonne qualité lorsque cos2(i)1. On voit sur la
figure ci-après que l’individu M5 est bien projeté sur le 1er axe principal. cos2(5)1
signifie que M5 est proche de l’axe principal. Par contre M4 est mal représenté. En effet
cos2(4)<<1, ce qui signifie que M4 est trop loin de l’axe principal.
M4
M5
M2
O
M6
M3
5
4M1
H14 H15H12H11
1
2
3
𝐎𝐇14
2
= 𝐎𝐌4
2
cos(4)2
cos(4)2
<< 1
donc 𝐎𝐇14
2
<< 𝐎𝐌4
2
𝐎𝐇15
2
= 𝐎𝐌5
2
cos(5)2
cos(5)2
 1
donc 𝐎𝐇15
2
 𝐎𝐌5
2
6
H13H16
Qualité de représentation
J. DABOUNOU - FST DE SETTAT ACP001 - 36
Pour les individus, la projection est de bonne qualité lorsque cos2(i)1. On voit sur la
figure ci-après que l’individu M5 est bien projeté sur le 1er axe principal. cos2(5)1
signifie que M5 est proche de l’axe principal. Par contre M4 est mal représenté. En effet
cos2(4)<<1, ce qui signifie que M4 est trop loin de l’axe principal.
M4
M5
M2
O
M6
M3
5
4M1
H14 H15H12H11
1
2
3
𝐎𝐇14
2
= 𝐎𝐌4
2
cos(4)2
cos(4)2
<< 1
donc 𝐎𝐇14
2
<< 𝐎𝐌4
2
𝐎𝐇15
2
= 𝐎𝐌5
2
cos(5)2
cos(5)2
 1
donc 𝐎𝐇15
2
 𝐎𝐌5
2
cos(1)2
 1 et cos(3)2
 1
Donc 𝐇11 𝐇13
2
 𝐌1 𝐌3
2
6
Qualité de représentation
J. DABOUNOU - FST DE SETTAT ACP001 - 37
De la même manière, la projection des individus sur le plan factoriel est de bonne
qualité lorsque le cosinus carré de l’angle entre le vecteur OMi et le vecteur qui lui OOi
correspond par projection sur le plan factoriel est proche de 1.
Cos2(OMi , OOi)  1.
M5
M3
M2
M1
O
M4
4
O5
O4
5
H14 H15
H25
H24
J. DABOUNOU - FST DE SETTAT ACP001 - 38
M5
M3
M2
M1
O
M4
4
O5
O4
5
H14 H15
H25
H24
M5 est bien représenté et cos2(5)1, en même temps M5 est proche du plan factoriel.
Par contre M4 est mal représenté sur le plan factoriel. En effet cos2(4)<<1 et M4 est
trop loin du plan factoriel.
Qualité de représentation
J. DABOUNOU - FST DE SETTAT ACP001 - 39
Nous avons : cos2(4)=
OO4
2
OM4
2
Soient c1,i = OH1i et c2,i = OH2i les ièmes composantes principales.
(u1 , u2) constitue une base orthonormée du plan factoriel. Donc on a :
OO4
2
= c1,4
2
+ c2,4
2
et ainsi :
cos2(4)=
c1,4
2
+ c2,4
2
OM4
2
De façon générale :
cos2(i)=
c1,i
2
+ c2,i
2
OMi
2
Caractérise la qualité de
représentation de Mi sur
la plan factoriel.
Qualité de représentation
La qualité de représentation d’un individu peut aussi être définie par rapport à un seul
axe. Par exemple, celle de l’individu M4 par rapport au premier axe principal est
donnée par :
Qlt(M4 , F1) = cos2(14)=
c1,4
2
OM4
2
où 14 est l’angle entre OM4 et u1.
Et pour Mi :
Qlt(Mi , Fk) = cos2(ki)=
ck,i
2
OMi
2
où ki est l’angle entre OMi et le vecteur propre uk.
J. DABOUNOU - FST DE SETTAT ACP001 - 40
M5
M3
M2
M1
O
M4
O5
O4
c1,4 c1,5
c2,5
c2,4
14
4 514
On retrouve ainsi la qualité de représentation d’un individu dans le plan factoriel qui
est :
cos2(i)=
c1,i
2
+ c2,i
2
OMi
2 = Qlt(Mi , F1)+Qlt(Mi , F2)
Graphique de la qualité de représentation
J. DABOUNOU - FST DE SETTAT ACP001 - 41
Pour l’exercice en cours, on a le tableau et graphiques suivants :
Qlt(Mi,F1) Qlt(Mi,F2) Qlt(Xi,{F1,F2}) Contrib(Mi,F1) Contrib(Mi,F2) Contrib(Mi,{F1,F2})
Ajaccio 0,802 0,197 0,998 0,240 0,118 0,199
Brest 0,078 0,653 0,731 0,019 0,312 0,116
Dunkerque 0,128 0,423 0,552 0,017 0,113 0,049
Nancy 0,982 0,004 0,987 0,311 0,003 0,208
Nice 0,962 0,034 0,996 0,348 0,024 0,240
Toulouse 0,228 0,753 0,981 0,065 0,430 0,187
Réaliser un tableau qui synthétise
la contribution des individus au
plan et aux axes factoriels.
J. DABOUNOU - FST DE SETTAT ACP001 - 42
Contribution
J. DABOUNOU - FST DE SETTAT ACP001 - 43
Maintenant, nous allons analyser la contribution des individus à la construction d’un
axe factoriel.
Considérons, pour commencer, le premier axe factoriel. Il est caractérisé par le fait qu’il
explique l’inertie 1, qui est valeur propre de
Σ = Corr 𝐗 =
1
I
𝐗t
. 𝐗
Et on a :
1 =
1
I
𝐅1
t
. 𝐅1 =
1
I
i=1
I
c1,i
2
A noter que
1
I
c1,i
2
représente l’inertie de l’individu Mi expliquée par le premier axe
principal.
Contribution
J. DABOUNOU - FST DE SETTAT ACP001 - 44
1 =
1
I
𝐅1
t
. 𝐅1 =
1
I
i=1
I
c1,i
2
Donne
1 =
i=1
I
c1,i
2
I.1
Il est ainsi naturel de définir la contribution de l’individu Mi au premier axe principal
par le rapport :
Contrib(Mi , F1) =
c1,i
2
I.1
et donc
i=1
I
Contrib(Mi , F1) = 1
On définit de la même manière la contribution de Mi au kième axe principal par :
Contrib(Mi , Fk) =
ck,i
2
I.k
ou encore Contrib(Mi , Fk) =
ck,i
2
c1,1
2
+ c1,2
2
+ ⋯ + c1,I
2
Contrib(Mi , Fk) est ainsi la part de l’individu Mi dans l’inertie expliquée par Fk.
H13H16
Contribution
J. DABOUNOU - FST DE SETTAT ACP001 - 45
On peut aussi écrire:
Contrib(Mi , Fk) =
ck,i
2
I.k
=
OHki
2
I.k
On en déduit que la contribution de Mi au kième axe principal est d’autant plus
importante que sa projection sur cet axe est éloignée de l’origine du repère qui est en
même temps centre de gravité du nuage de points.
Ainsi, dans la figure ci-dessous, M5 contribue au premier
axe factoriel plus que M4 et M6 contribue plus que M3.
L’analyse de la contribution des points aux axes principaux
est utilisée pour interpréter ces derniers.
M4
M5
M2
O
M6
M3
4
M1
H14 H15H12H11
1
2
6
5
3
Graphique de contribution (Exemple)
J. DABOUNOU - FST DE SETTAT ACP001 - 46
L’application à l’exercice en cours, donne le tableau et graphiques suivants :
Qlt(Mi,F1) Qlt(Mi,F2) Qlt(Xi,{F1,F2}) Contrib(Mi,F1) Contrib(Mi,F2) Contrib(Mi,{F1,F2})
Ajaccio 0,802 0,197 0,998 0,240 0,118 0,199
Brest 0,078 0,653 0,731 0,019 0,312 0,116
Dunkerque 0,128 0,423 0,552 0,017 0,113 0,049
Nancy 0,982 0,004 0,987 0,311 0,003 0,208
Nice 0,962 0,034 0,996 0,348 0,024 0,240
Toulouse 0,228 0,753 0,981 0,065 0,430 0,187
Graphique de contribution (Exemple)
J. DABOUNOU - FST DE SETTAT ACP001 - 47
L’application à l’exercice en cours, donne le tableau et graphiques suivants :
Qlt(Mi,F1) Qlt(Mi,F2) Qlt(Xi,{F1,F2}) Contrib(Mi,F1) Contrib(Mi,F2) Contrib(Mi,{F1,F2})
Ajaccio 0,802 0,197 0,998 0,240 0,118 0,199
Brest 0,078 0,653 0,731 0,019 0,312 0,116
Dunkerque 0,128 0,423 0,552 0,017 0,113 0,049
Nancy 0,982 0,004 0,987 0,311 0,003 0,208
Nice 0,962 0,034 0,996 0,348 0,024 0,240
Toulouse 0,228 0,753 0,981 0,065 0,430 0,187
p tmax tmin F1 F2 F3
Ajaccio 0,14 1,44 1,09 1,63 -0,81 0,07
Brest 1,17 -0,59 -0,96 -0,45 1,31 0,84
Dunkerque 0,10 -1,18 0,27 -0,43 0,79 -0,81
Nancy -1,03 -1,08 -1,12 -1,85 -0,12 -0,21
Nice 1,13 0,80 1,44 1,96 0,37 -0,13
Toulouse -1,50 0,60 -0,72 -0,85 -1,54 0,24
11,00 5,50 1,50
1,83 0,92 0,25

Graphique de contribution (Exemple)
J. DABOUNOU - FST DE SETTAT ACP001 - 48
L’application à l’exercice en cours, donne le tableau et graphiques suivants :
Qlt(Mi,F1) Qlt(Mi,F2) Qlt(Xi,{F1,F2}) Contrib(Mi,F1) Contrib(Mi,F2) Contrib(Mi,{F1,F2})
Ajaccio 0,802 0,197 0,998 0,240 0,118 0,199
Brest 0,078 0,653 0,731 0,019 0,312 0,116
Dunkerque 0,128 0,423 0,552 0,017 0,113 0,049
Nancy 0,982 0,004 0,987 0,311 0,003 0,208
Nice 0,962 0,034 0,996 0,348 0,024 0,240
Toulouse 0,228 0,753 0,981 0,065 0,430 0,187
p tmax tmin F1 F2 F3
Ajaccio 0,14 1,44 1,09 1,63 -0,81 0,07
Brest 1,17 -0,59 -0,96 -0,45 1,31 0,84
Dunkerque 0,10 -1,18 0,27 -0,43 0,79 -0,81
Nancy -1,03 -1,08 -1,12 -1,85 -0,12 -0,21
Nice 1,13 0,80 1,44 1,96 0,37 -0,13
Toulouse -1,50 0,60 -0,72 -0,85 -1,54 0,24
11,00 5,50 1,50
1,83 0,92 0,25

Graphique de contribution (Exemple)
J. DABOUNOU - FST DE SETTAT ACP001 - 49
L’application à l’exercice en cours, donne le tableau et graphiques suivants :
Qlt(Mi,F1) Qlt(Mi,F2) Qlt(Xi,{F1,F2}) Contrib(Mi,F1) Contrib(Mi,F2) Contrib(Mi,{F1,F2})
Ajaccio 0,802 0,197 0,998 0,240 0,118 0,199
Brest 0,078 0,653 0,731 0,019 0,312 0,116
Dunkerque 0,128 0,423 0,552 0,017 0,113 0,049
Nancy 0,982 0,004 0,987 0,311 0,003 0,208
Nice 0,962 0,034 0,996 0,348 0,024 0,240
Toulouse 0,228 0,753 0,981 0,065 0,430 0,187
p tmax tmin F1 F2 F3
Ajaccio 0,14 1,44 1,09 1,63 -0,81 0,07
Brest 1,17 -0,59 -0,96 -0,45 1,31 0,84
Dunkerque 0,10 -1,18 0,27 -0,43 0,79 -0,81
Nancy -1,03 -1,08 -1,12 -1,85 -0,12 -0,21
Nice 1,13 0,80 1,44 1,96 0,37 -0,13
Toulouse -1,50 0,60 -0,72 -0,85 -1,54 0,24
11,00 5,50 1,50
1,83 0,92 0,25

Graphique de contribution (Exemple)
J. DABOUNOU - FST DE SETTAT ACP001 - 50
L’application à l’exercice en cours, donne le tableau et graphiques suivants :
Qlt(Mi,F1) Qlt(Mi,F2) Qlt(Xi,{F1,F2}) Contrib(Mi,F1) Contrib(Mi,F2) Contrib(Mi,{F1,F2})
Ajaccio 0,802 0,197 0,998 0,240 0,118 0,199
Brest 0,078 0,653 0,731 0,019 0,312 0,116
Dunkerque 0,128 0,423 0,552 0,017 0,113 0,049
Nancy 0,982 0,004 0,987 0,311 0,003 0,208
Nice 0,962 0,034 0,996 0,348 0,024 0,240
Toulouse 0,228 0,753 0,981 0,065 0,430 0,187
Représenter les résultats sur le
cercle des corrélations
J. DABOUNOU - FST DE SETTAT ACP001 - 51
Composantes principales et variables
J. DABOUNOU - FST DE SETTAT ACP001 - 52
Objectifs de l’ACP : trouver des variables synthétiques à utiliser à la place des variables
déjà existantes V1, V2,…, VJ.
X = [V1, V2,…, VJ] =
On peut aussi présenter les données sous la forme :
V1 V2 … VJ
M1 x11 x12 x1J
M2 x21 x22 x2J
⁞
MI xI1 xI2 xIJ
Composantes principales et variables
J. DABOUNOU - FST DE SETTAT ACP001 - 53
D’un autre côté, F1 est constituée des coordonnées de la projection du nuage de
points représentant les individus sur le premier axe principal.
Donc F1 = X . u1.
Posons aussi u1 = (u1,1, u1,2, … , u1,J) ou les u1,j sont des nombres réels.
On rappelle que l’on suppose X centrée réduite. Sinon on commence par la rendre
ainsi.
On a : F1 = X . u1 = u1,1 V1 + u1,2 V2 + … + u1,J VJ.
De la même manière : F2 = X . u2 = u2,1 V1 + u2,2 V2 + … + u2,J VJ.
Ce qui permet d’écrire les composantes principales F1 et F2 en fonction des variables
de départ.
Cela nous montre comment se combinent les variables initiales dans des variables
latentes qui nous renseignent mieux sur la variabilité entre les individus.
Composantes principales et variables
J. DABOUNOU - FST DE SETTAT ACP001 - 54
Dans le cas de notre exemple, on obtient :
F1 = X . u1 = 0.73 p + 0.40 tmax + 0.56 tmin
et : F2 = X . u2 = 0.62 p - 0.73 tmax - 0.29 tmin.
Ces expressions réaffirment les liaisons que
nous avons déjà constatées entre les variables
et les composantes principales.
Comme sur le plan factoriel, on voit que toutes les variables ont le même signe de
corrélation (ici positif) avec F1. On dit concernant F1 qu’il s’agit d’un facteur taille.
F2 est positivement corrélé à p et négativement corrélé à tmax avec des coefficients
importants et négativement corrélé à tmin avec un coefficient plus faible. Il nous
renseigne essentiellement sur l’écart pour une ville entre les précipitations et la
température maximale. Il s’agit d’un facteur de forme.
Analyse des variables
J. DABOUNOU - FST DE SETTAT ACP001 - 55
Comme pour les individus, on projette les variables dans l’espace RI
. Toutes les
variables sont représentées par des flèches qui se terminent
sur une hypersphère de rayon I puisque les variables
sont centrées réduites (norme euclidienne).
On cherche par la suite les axes qui préservent
le maximum d’inertie projetée.
Donc choisir v1 unitaire qui maximise
1
I j=1
J
ON1j
2
, avec ON1j = <Vj , v1>.
Cela revient à trouver v1 unitaire qui
maximise :
1
I
(Xtv1)t.(Xtv1) =
1
I
v1
t XXtv1 avec v1
t.v1 =1.
On a alors, comme pour les individus que :
1
I
XXt v1 = 1v1.
Vk
Vj
RI
v1
L1
O
v2
L2
N1j
N2j
N1k
N2k
Utiliser une métrique adaptée
J. DABOUNOU - FST DE SETTAT ACP001 - 56
Avec une métrique définie par diag(
1
I
, …,
1
I
), les variables centrées réduites seraient
représentées par des vecteurs unitaires.
En effet, le produit scalaire de deux vecteurs W1 , W2 de RI serait alors :
<W1 , W2>I =
i=1
I
1
I
W1,iW2,i =
1
I
i=1
I
W1,iW2,i
On a ainsi la relation entre cette métrique et la métrique euclidienne usuelle:
<W1 , W2>I =
1
I
<W1 , W2>
et pour une variables Vj qui est, rappelons le, centrée réduite, on aurait :
Vj I
2
=<Vj ,Vj>I =
1
I
i=1
I
Vj,i
2
=1
Mais pour la correction de cet exercice on a opté pour la forme la plus connue par les
étudiants de la norme euclidienne.
Analyse des variables
J. DABOUNOU - FST DE SETTAT ACP001 - 57
Pour v1 qui explique le maximum d’inertie projetée on a :
• v1 est vecteur propre de
1
I
XXt associé à une valeur
propre 1
• 1 étant la plus grande des valeurs propres
de
1
I
XXt .
La projection ON1j d’une variable Vj sur l’axe L1 défini
par v1 est égale au produit scalaire <Vj , v1> et on a :
ON1j = < Vj , v1 > = I cos(1j).
1j étant l’angle entre les deux vecteurs Vj et v1.
On voit aussi que cos(1j) est égal au coefficient de corrélation entre Vj et v1. Ainsi :
1
I
j=1
J
ON1j
2
=
j=1
J
cos(1j)2
=
j=1
J
corr(Vj, v1)2
Ce qui montre que v1 est le vecteur unitaire le mieux corrélé globalement à l’ensemble
des variables.
Analyse des variables
J. DABOUNOU - FST DE SETTAT ACP001 - 58
Comme pour les individus, on définit un deuxième axe L2
porté par v2, vecteur unitaire orthogonal à v1, qui
récupère le maximum d’inertie non expliquée par v1.
v2 est lui aussi un vecteur propre de
1
I
XXt associé à
la valeur propre 2 qui est la deuxième plus grande
valeur propre après 1.
On obtient de la même manière les vecteurs propres
v3,…, vr et les valeurs propres associées 3,…, r, r étant
le rang de
1
I
XXt.
Pour chaque axe Lk, les coordonnées des projections des variables définissent les
composantes principales associées à cet axe et on a la relation: Gk = Xt vk, avec :
1
I
Gk
t
Gk=
1
I
j=1
J
ONkj
2
=
j=1
J
cos(kj)2
=
j=1
J
corr(Vj, vk)2
= k .
La matrice XXt est symétrique semi-définie positive, donc diagonalisable et possède r
valeurs propres non nulles, toutes strictement positives. r étant le rang de XXt.
Par ailleurs, l’inertie totale des variables est égale à
1
I
trace(XXt).
Donc :
1
I
trace(XXt) = 1 + 2 + … + r
où 1, 2, …, r >0 sont les valeurs propres non nulles de
1
I
XXt.
Les vecteurs propres unitaires associés v1, v2, …, vr sont deux à deux orthogonaux.
On a
1
I
XXt v1 = 1 v1. Donc
1
I
Xt XXt v1 = Xt 1 v1. Ce qui s’écrit :
1
I
XtX (Xt v1) = 1 (Xt v1).
Donc Xt v1 est vecteur propre de
1
I
XtX et 1 la valeur propre associée.
En développant un peu, on voit que les valeurs propres de
1
I
XtX et de
1
I
XXt sont
égales:
Pour k=1,r on a k = k.
Axes de l’ACP
J. DABOUNOU - FST DE SETTAT ACP001 - 59
On utilise un logiciel pour calculer les valeurs et vecteurs propres de
1
I
XXt. On obtient :
et
Pour l’exemple en cours, les calculs donnent :
Calcul des composantes principales
J. DABOUNOU - FST DE SETTAT ACP001 - 60
0.49 -0.34 0.06 0.71 0.00 0.37
-0.14 0.56 0.69 0.34 0.29 -0.05
-0.13 0.34 -0.66 0.26 0.59 0.10
-0.56 -0.05 -0.17 0.56 -0.47 -0.35
0.59 0.16 -0.11 0.09 0.01 -0.78
-0.25 -0.66 0.20 0.02 0.59 -0.34
1
I
XXt =
v1 v2 v3 v4 v5 v6
0.55 -0.29 -0.23 -0.49 0.48 -0.02
-0.29 0.44 0.09 0.08 -0.09 -0.24
-0.23 0.09 0.25 0.15 -0.08 -0.17
-0.49 0.08 0.15 0.58 -0.61 0.28
0.48 -0.09 -0.08 -0.61 0.66 -0.38
-0.02 -0.24 -0.17 0.28 -0.38 0.52
1 = 1 = 1.83
2 = 2 = 0.92
3 = 3 = 0.25
4 = 4 = 0.00
5 = 5 = 0.00
6 = 6 = 0.00
1.52 1.86 0.50 0.00 0.00 0.00
1.87 -1.43 0.68 0.00 0.00 0.00
2.28 -0.06 -0.89 0.00 0.00 0.00
Les composantes principales sont calculées d’après la relation: Gk = Xt vk. On obtient :
G1 G2 G3 G4 G5 G6
Ces données permettent de créer le cercle des corrélations.
Les variables normalisées (
1
I
Vj) sont représentées sur le graphique de la même manière que
sur le plan factoriel, en utilisant les composantes principales associées. Cela confirme le
caractère dual des deux représentations que l’on peut d’ailleurs démontrer facilement.
Par exemple, les coordonnées de p dans le plan
factoriel sont :
1
I
(𝐆11, 𝐆12)=(0.62 , 0.76 )
Pour tmax, elles sont :
1
I
(𝐆21, 𝐆22)=(0.76 , -0.58 )
Pour tmin, elles sont :
1
I
(𝐆31, 𝐆32)=(0.93, -0.03 )
Dans le présent exemple, I=6.
Cercle des corrélations
J. DABOUNOU - FST DE SETTAT ACP001 - 61
Axe 1 (61.17%)
Axe2(30.51%)
Factoriser la matrice de données
J. DABOUNOU - FST DE SETTAT ACP001 - 62
Les composantes principales obtenues à partir du nuage des individus sont données
par :
Fk = X uk, k=1,J. Fk  RI.
Les composantes principales obtenues à partir du nuage des variables sont données
par :
Gk = Xt vk, k=1,I. Gk  RJ.
Et on a :
uk
t XtX uk= vk
t XXt vk= I.k. Donc Fk
t Fk = Gk
t Gk= I.k et donc Fk = Gk = 𝐈 k.
On a aussi : Fk = X uk et vk sont des vecteurs propres de
1
I
XXt associés à k donc on
peut écrire :
Fk = Fk vk et par suite Fk = X uk= 𝐈 k vk.
On montre aussi que Gk =Xt vk= 𝐈 k uk.
Factorisation et reconstruction des données
J. DABOUNOU - FST DE SETTAT ACP001 - 63
Par ailleurs, à partir de X uk = 𝐈 k vk, k=1,J on obtient la relation :
X . ukuk
t
= 𝐈 kvkuk
t
Donc, en sommant sur k et en sortant X qui ne dépend pas de k, on obtient :
X .
k=1
J
ukuk
t
=
k=1
J
𝐈 k vkuk
t
Comme les vecteurs propres uk, k=1,J sont orthogonaux et de norme 1, on a :
X =
k=1
J
𝐈 k vkuk
t
=
k=1
r
𝐈 k vkuk
t
Puisque pour r < k  J on a k=0, r étant le rang(Xt
X) = rang(XXt
). (On suppose r<J).
Cette expression de X, matrice des données initiales, permet de réduire le nombre de
variables de I.J à r.(I+J) sans perte d’information ou à s.(I+J) avec perte négligeable
d’information où s est le nombre de valeurs propres retenues.
Factorisation et reconstruction des données
J. DABOUNOU - FST DE SETTAT ACP001 - 64
L’expression de X :
X =
k=1
r
𝐈 k vkuk
t
X, matrice des données initiales, permet de réduire le nombre de variables de I.J à
r.(I+J) sans perte d’information.
Dans la pratique, on se limite à :
X =
k=1
s
𝐈 k vkuk
t
avec s << J et
1+2+⋯+s
1+2+⋯+r
 1.
ce qui permet de réduire la dimensionnalité du problème à s.(I+J) avec perte
négligeable d’information où s est le nombre de valeurs propres retenues.
Factorisation et reconstruction des données
J. DABOUNOU - FST DE SETTAT ACP001 - 65
Nous allons maintenant reconstruire une approximation de rang 2 de X en utilisant les
vecteurs propres u1, u2 et v1, v2 selon la formule : X  Xappr = I ( 1 v1u1
t
+ 2 v2u2
t
)
Factorisation et reconstruction des données
J. DABOUNOU - FST DE SETTAT ACP001 - 66
Le calcul donne :
0.46 0.56 0.69
61 + 62𝐗  Xappr =
0.49
-0.14
-0.13
-0.56
0.59
-0.25
0.79 -0.61 -0.03-0.34
0.56
0.34
-0.05
0.16
-0.66
0.11 1.40 1.14
0.83 -1.05 -0.35
0.42 -0.73 -0.32
-0.94 -0.96 -1.27
1.19 0.87 1.34
-1.60 0.47 -0.54
𝐗 =  Xappr =
0.14 1.44 1.09
1.17 -0.59 -0.96
0.10 -1.18 0.27
-1.03 -1.08 -1.12
1.13 0.80 1.44
-1.50 0.60 -0.72
Xappr est une approximation de X en terme d’inertie expliquée et d’axes principaux.
Σappr =
1
I
Xappr
t Xappr possède les mêmes vecteurs propres que Σ : u1, u2 et u3 et deux valeurs
propres non nulles égales respectivement à 1 et 2 et une troisième valeur propre nulle.
On rappelle que :
1 = 1.83
2 = 0.92
3 =0.25
Factorisation et reconstruction des données
J. DABOUNOU - FST DE SETTAT ACP001 - 67
On montre que l’on a : X = I ( 1 v1u1
t
+ 2 v2u2
t
+ 3 v3u3
t
)
0.46 0.56 0.69
1 + 2
1
6
𝐗 = + 3
0.49
-0.14
-0.13
-0.56
0.59
-0.25
0.79 -0.61 -0.03-0.34
0.56
0.34
-0.05
0.16
-0.66
0.41 0.56 -0.720.06
0.69
-0.66
-0.17
-0.11
0.20
Cette factorisation permet de retrouver la décomposition en valeurs singulières (SVD) de X :
0.46 0.56 0.6961
62𝐗 =
63
0.49
-0.14
-0.13
-0.56
0.59
-0.25
0.79 -0.61-0.03
-0.34
0.56
0.34
-0.05
0.16
-0.66
0.41 0.56 -0.72
0.06
0.69
-0.66
-0.17
-0.11
0.20
0 0
00
0 0
X= VΣUt
=
3.32
2.34
1.22
0 0
00
0 0
0.49
-0.14
-0.13
-0.56
0.59
-0.25
-0.34
0.56
0.34
-0.05
0.16
-0.66
0.06
0.69
-0.66
-0.17
-0.11
0.20
0.46 0.56 0.69
0.79 -0.61-0.03
0.41 0.56 -0.72

Contenu connexe

Tendances

Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_amanMehdi Aman
 
474iO-Chapitre+1+Analyse+des+écarts (1).pdf
474iO-Chapitre+1+Analyse+des+écarts (1).pdf474iO-Chapitre+1+Analyse+des+écarts (1).pdf
474iO-Chapitre+1+Analyse+des+écarts (1).pdfHirYour
 
les processus VAR et SVAR
les processus VAR et SVAR  les processus VAR et SVAR
les processus VAR et SVAR Anissa ATMANI
 
S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3Jamal Yasser
 
Entrepreneuriat par un sérial entrepreneur seq 1 à 3 idrac .ppt
Entrepreneuriat par un sérial entrepreneur seq 1 à 3 idrac .pptEntrepreneuriat par un sérial entrepreneur seq 1 à 3 idrac .ppt
Entrepreneuriat par un sérial entrepreneur seq 1 à 3 idrac .pptMARCEL NIZON, Marcel
 
Exercices corrigés
Exercices corrigésExercices corrigés
Exercices corrigéshadhoum
 
Mémoire powerpoint de MOUSTAPHA Mahamat Hissein à 2ie
Mémoire powerpoint de MOUSTAPHA Mahamat Hissein à 2ie Mémoire powerpoint de MOUSTAPHA Mahamat Hissein à 2ie
Mémoire powerpoint de MOUSTAPHA Mahamat Hissein à 2ie Moustapha Mahamat Hissein
 
Rapport de Stage Licence 3
Rapport de Stage Licence 3Rapport de Stage Licence 3
Rapport de Stage Licence 3Dylan Manceau
 
Merise+ +exercices+mcd+-+corrigés
Merise+ +exercices+mcd+-+corrigésMerise+ +exercices+mcd+-+corrigés
Merise+ +exercices+mcd+-+corrigésMajid CHADAD
 
Soutenance emna-chbinou-finale-finale
Soutenance emna-chbinou-finale-finaleSoutenance emna-chbinou-finale-finale
Soutenance emna-chbinou-finale-finaleHbyboun Hwita
 
Cours+ gestion-budgétaire
Cours+ gestion-budgétaireCours+ gestion-budgétaire
Cours+ gestion-budgétaireghita ghaytouta
 
Examen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionExamen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionInes Ouaz
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulProfesseur Falloul
 

Tendances (20)

Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_aman
 
474iO-Chapitre+1+Analyse+des+écarts (1).pdf
474iO-Chapitre+1+Analyse+des+écarts (1).pdf474iO-Chapitre+1+Analyse+des+écarts (1).pdf
474iO-Chapitre+1+Analyse+des+écarts (1).pdf
 
les processus VAR et SVAR
les processus VAR et SVAR  les processus VAR et SVAR
les processus VAR et SVAR
 
S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3
 
Entrepreneuriat par un sérial entrepreneur seq 1 à 3 idrac .ppt
Entrepreneuriat par un sérial entrepreneur seq 1 à 3 idrac .pptEntrepreneuriat par un sérial entrepreneur seq 1 à 3 idrac .ppt
Entrepreneuriat par un sérial entrepreneur seq 1 à 3 idrac .ppt
 
Exercices corrigés
Exercices corrigésExercices corrigés
Exercices corrigés
 
Mémoire powerpoint de MOUSTAPHA Mahamat Hissein à 2ie
Mémoire powerpoint de MOUSTAPHA Mahamat Hissein à 2ie Mémoire powerpoint de MOUSTAPHA Mahamat Hissein à 2ie
Mémoire powerpoint de MOUSTAPHA Mahamat Hissein à 2ie
 
technique d'enquete
technique d'enquetetechnique d'enquete
technique d'enquete
 
Rapport de Stage Licence 3
Rapport de Stage Licence 3Rapport de Stage Licence 3
Rapport de Stage Licence 3
 
Merise+ +exercices+mcd+-+corrigés
Merise+ +exercices+mcd+-+corrigésMerise+ +exercices+mcd+-+corrigés
Merise+ +exercices+mcd+-+corrigés
 
Methodologie des enquete
Methodologie des enqueteMethodologie des enquete
Methodologie des enquete
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 
Soutenance emna-chbinou-finale-finale
Soutenance emna-chbinou-finale-finaleSoutenance emna-chbinou-finale-finale
Soutenance emna-chbinou-finale-finale
 
Electrocinetique
ElectrocinetiqueElectrocinetique
Electrocinetique
 
Cours+ gestion-budgétaire
Cours+ gestion-budgétaireCours+ gestion-budgétaire
Cours+ gestion-budgétaire
 
(Cours régression)
(Cours régression)(Cours régression)
(Cours régression)
 
Examen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionExamen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correction
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr Falloul
 
Rapport De PFE
Rapport De PFERapport De PFE
Rapport De PFE
 
Tableau de bord prospectif
Tableau de bord prospectifTableau de bord prospectif
Tableau de bord prospectif
 

Similaire à Analyse en Composantes Principales

Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciwospro-academy
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfAnassFarkadi
 
Ponts castillo1 statistique
Ponts castillo1 statistiquePonts castillo1 statistique
Ponts castillo1 statistiqueAli BEN MANSOUR
 
Matlab Travaux Pratique
Matlab Travaux Pratique Matlab Travaux Pratique
Matlab Travaux Pratique Smee Kaem Chann
 
Les Filtres Numeriques
Les Filtres NumeriquesLes Filtres Numeriques
Les Filtres NumeriquesSAHELAicha
 
BoiteOutilsMathematiques a l'usage des techniciens20181126.pdf
BoiteOutilsMathematiques a l'usage des techniciens20181126.pdfBoiteOutilsMathematiques a l'usage des techniciens20181126.pdf
BoiteOutilsMathematiques a l'usage des techniciens20181126.pdfsedmorabet
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptxsara6496
 
Meqanique du point materiel
Meqanique du point materielMeqanique du point materiel
Meqanique du point materielsarah Benmerzouk
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxTarekDHAHRI1
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxTarekDHAHRI1
 
Cours rep etat
Cours rep etatCours rep etat
Cours rep etatLin Pepin
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiplemohamedchaouche
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
Calage sur bornes minimales
Calage sur bornes minimalesCalage sur bornes minimales
Calage sur bornes minimalesAntoine Rebecq
 
Exercice nombres complexes
Exercice nombres complexesExercice nombres complexes
Exercice nombres complexesYessin Abdelhedi
 
2.4_cylindriques_spheriques (1).pdf formulaire
2.4_cylindriques_spheriques (1).pdf formulaire2.4_cylindriques_spheriques (1).pdf formulaire
2.4_cylindriques_spheriques (1).pdf formulairemurieldubienmbackeoc
 

Similaire à Analyse en Composantes Principales (20)

Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon ici
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
 
Ponts castillo1 statistique
Ponts castillo1 statistiquePonts castillo1 statistique
Ponts castillo1 statistique
 
Matlab Travaux Pratique
Matlab Travaux Pratique Matlab Travaux Pratique
Matlab Travaux Pratique
 
Les Filtres Numeriques
Les Filtres NumeriquesLes Filtres Numeriques
Les Filtres Numeriques
 
Msm1 corr algebre
Msm1 corr algebreMsm1 corr algebre
Msm1 corr algebre
 
BoiteOutilsMathematiques a l'usage des techniciens20181126.pdf
BoiteOutilsMathematiques a l'usage des techniciens20181126.pdfBoiteOutilsMathematiques a l'usage des techniciens20181126.pdf
BoiteOutilsMathematiques a l'usage des techniciens20181126.pdf
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptx
 
Quad-expo-stats
Quad-expo-statsQuad-expo-stats
Quad-expo-stats
 
Meqanique du point materiel
Meqanique du point materielMeqanique du point materiel
Meqanique du point materiel
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Cours rep etat
Cours rep etatCours rep etat
Cours rep etat
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Calage sur bornes minimales
Calage sur bornes minimalesCalage sur bornes minimales
Calage sur bornes minimales
 
Exercice nombres complexes
Exercice nombres complexesExercice nombres complexes
Exercice nombres complexes
 
2.4_cylindriques_spheriques (1).pdf formulaire
2.4_cylindriques_spheriques (1).pdf formulaire2.4_cylindriques_spheriques (1).pdf formulaire
2.4_cylindriques_spheriques (1).pdf formulaire
 
Corriges td algebre
Corriges td algebreCorriges td algebre
Corriges td algebre
 

Plus de Jaouad Dabounou

اللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdfاللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdfJaouad Dabounou
 
Mrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine LearningMrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine LearningJaouad Dabounou
 
RNN avec mécanisme d'attention
RNN avec mécanisme d'attentionRNN avec mécanisme d'attention
RNN avec mécanisme d'attentionJaouad Dabounou
 
Projection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermésProjection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermésJaouad Dabounou
 
Projection d’un point sur un ensemble
Projection d’un point sur un ensembleProjection d’un point sur un ensemble
Projection d’un point sur un ensembleJaouad Dabounou
 
Fonction distance à un ensemble
Fonction distance à un ensembleFonction distance à un ensemble
Fonction distance à un ensembleJaouad Dabounou
 
Théorèmes de Carathéodory
Théorèmes de CarathéodoryThéorèmes de Carathéodory
Théorèmes de CarathéodoryJaouad Dabounou
 
Intérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexesIntérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexesJaouad Dabounou
 
Topologie des ensembles convexes
Topologie des ensembles convexesTopologie des ensembles convexes
Topologie des ensembles convexesJaouad Dabounou
 
Réseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMRéseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMJaouad Dabounou
 
Analyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correctionAnalyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correctionJaouad Dabounou
 
Modèles de langue : Ngrammes
Modèles de langue : NgrammesModèles de langue : Ngrammes
Modèles de langue : NgrammesJaouad Dabounou
 
Analyse numérique interpolation
Analyse numérique interpolationAnalyse numérique interpolation
Analyse numérique interpolationJaouad Dabounou
 
Polycopie Analyse Numérique
Polycopie Analyse NumériquePolycopie Analyse Numérique
Polycopie Analyse NumériqueJaouad Dabounou
 
Sélection de contrôles avec correction
Sélection de contrôles avec correctionSélection de contrôles avec correction
Sélection de contrôles avec correctionJaouad Dabounou
 
Dérivation et Intégration numériques
Dérivation et Intégration numériquesDérivation et Intégration numériques
Dérivation et Intégration numériquesJaouad Dabounou
 

Plus de Jaouad Dabounou (17)

اللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdfاللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdf
 
Mrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine LearningMrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine Learning
 
RNN avec mécanisme d'attention
RNN avec mécanisme d'attentionRNN avec mécanisme d'attention
RNN avec mécanisme d'attention
 
Projection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermésProjection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermés
 
Projection d’un point sur un ensemble
Projection d’un point sur un ensembleProjection d’un point sur un ensemble
Projection d’un point sur un ensemble
 
Fonction distance à un ensemble
Fonction distance à un ensembleFonction distance à un ensemble
Fonction distance à un ensemble
 
Théorèmes de Carathéodory
Théorèmes de CarathéodoryThéorèmes de Carathéodory
Théorèmes de Carathéodory
 
Intérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexesIntérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexes
 
Topologie des ensembles convexes
Topologie des ensembles convexesTopologie des ensembles convexes
Topologie des ensembles convexes
 
Réseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMRéseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTM
 
Analyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correctionAnalyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correction
 
Modèles de langue : Ngrammes
Modèles de langue : NgrammesModèles de langue : Ngrammes
Modèles de langue : Ngrammes
 
W2 vec001
W2 vec001W2 vec001
W2 vec001
 
Analyse numérique interpolation
Analyse numérique interpolationAnalyse numérique interpolation
Analyse numérique interpolation
 
Polycopie Analyse Numérique
Polycopie Analyse NumériquePolycopie Analyse Numérique
Polycopie Analyse Numérique
 
Sélection de contrôles avec correction
Sélection de contrôles avec correctionSélection de contrôles avec correction
Sélection de contrôles avec correction
 
Dérivation et Intégration numériques
Dérivation et Intégration numériquesDérivation et Intégration numériques
Dérivation et Intégration numériques
 

Analyse en Composantes Principales

  • 1. Analyse en Composantes Principales Exercice avec éléments de réponse J. DABOUNOU - FST DE SETTAT UNIVERSITE HASSAN Ier Septembre 2020 Sur Youtube https://www.youtube.com/playlist?list=PLzjg2z2kYUrgV6fswgo5B5gaYWfVFX44V
  • 2. Exercice 1 : Le tableau suivant présente pour différentes villes, les précipitations p (en cm), les températures maximale tmax et minimale tmin (en˚C), mesurées en 2012: a. Calculez les moyennes et les écart-types de p, tmax et tmin. Donnez la matrice X des données centrées réduites. b. Calculez la matrice des corrélations Σ. c. Déterminer, éventuellement en utilisant un logiciel, les matrices D et P telles que Σ = PDPt, avec P matrice orthogonale et D matrice diagonale. d. Quelles sont les valeurs et vecteurs propres de Σ ? e. Montrer que la matrice P est inversible et P−1 = Pt. f. Calculer la matrice des composantes principales C et représenter les villes dans le plan principal. g. Interpréter la position des villes dans le plan principal et commenter. h. Calculer les corrélations linéaires entre les variables initiales et les deux premières composantes principales. i. Réaliser un tableau qui synthétise la qualité de représentation et la contribution des individus aux axes factoriels et leur contribution à l’inertie totale ainsi que la qualité de représentation des variables aux axes factoriels. j. Représenter les résultats sur le cercle des corrélations. k. Factoriser la matrice de données. J. DABOUNOU - FST DE SETTAT ACP001 - 1 p tmax tmin Ajaccio 12,04 23,7 5,9 Brest 17,18 15,5 -1,8 Dunkerque 11,83 13,1 2,8 Nancy 6,23 13,5 -2,4 Nice 16,99 21,1 7,2 Toulouse 3,87 20,3 -0,9
  • 3. Calculez les moyennes et les écart- types de p, tmax et tmin. Donnez la matrice X des données centrées réduites J. DABOUNOU - FST DE SETTAT ACP001 - 2
  • 4. Objectifs de l’ACP L’Analyse en Composantes Principales (ACP) utilise une transformation linéaire implicite pour : – Supprimer les corrélations entre les variables – Synthétiser l’information sur un nombre réduit de variables – Permettre une représentation graphique des informations Données à analyser : On se donne I individus Xi et J variables quantitatives Vj avec xij la valeur de la variable Vj pour l’individu Xi. Ces données sont représentées sous forme matricielle par : Pour l’exercice, les données avec moyennes et écart-types sont : J. DABOUNOU - FST DE SETTAT ACP001 - 3 V1 V2 … VJ X1 x11 x12 x1J X2 x21 x22 x2J ⁞ XI xI1 xI2 xIJ p tmax tmin Ajaccio 12,04 23,7 5,9 Brest 17,18 15,5 -1,8 Dunkerque 11,83 13,1 2,8 Nancy 6,23 13,5 -2,4 Nice 16,99 21,1 7,2 Toulouse 3,87 20,30 -0,90 Moyenne 11,36 17,87 1,80 Ecart-type 4,98 4,04 3,76
  • 5. Données centrées réduites Les données peuvent être présentées tout simplement par : X = Les lignes représentent les individus et les colonnes les variables. Ensuite, on remplace dans la matrice X chaque colonne par la variable centrée réduite. On obtient alors : Xcr = J. DABOUNOU - FST DE SETTAT ACP001 - 4 x11 x12 … x1J x21 x22 x2J ⁞ ⁞ ⁞ xI1 xI2 xIJ x11 − x1 σ1 x11 − x2 σ2 x1J − xJ σJ x21 − x1 σ1 x11 − x2 σ2 x2J − xJ σJ ⋮ ⋱ x11 − x1 σ1 x11 − x2 σ2 xIJ − xJ σJ Pour simplifier on continue à noter X pour désigner Xcr . Ainsi, on pose Xcr = (xij)i=1,I; j=1,J.
  • 6. Données à analyser On en déduit la matrice centrée : J. DABOUNOU - FST DE SETTAT ACP001 - 5 p tmax tmin Ajaccio 12,04 23,7 5,9 Brest 17,18 15,5 -1,8 Dunkerque 11,83 13,1 2,8 Nancy 6,23 13,5 -2,4 Nice 16,99 21,1 7,2 Toulouse 3,87 20,30 -0,90 Moyenne 11,36 17,87 1,80 Ecart-type 4,98 4,04 3,76 p tmax tmin Ajaccio 0,68 5,83 4,10 Brest 5,82 -2,37 -3,60 Dunkerque 0,47 -4,77 1,00 Nancy -5,13 -4,37 -4,20 Nice 5,63 3,23 5,40 Toulouse -7,49 2,43 -2,70 Moyenne 0,00 0,00 0,00 Ecart-type 4,98 4,04 3,76 Et centrée réduite : p tmax tmin Ajaccio 0,14 1,44 1,09 Brest 1,17 -0,59 -0,96 Dunkerque 0,10 -1,18 0,27 Nancy -1,03 -1,08 -1,12 Nice 1,13 0,80 1,44 Toulouse -1,50 0,60 -0,72 Moyenne 0,00 0,00 0,00 Ecart-type 4,98 4,04 3,76
  • 7. Données à analyser Les composantes que donne l’ACP dépendent des unités de mesure. On doit souvent opter pour une solution selon la situation spécifique du problème. On peut par exemple : - Centrer-réduire les données et donc utiliser la matrice des coefficients de corrélation - Normaliser les données en divisant par la moyenne - Choisir des unités convenables pour avoir des valeurs comparables. J. DABOUNOU - FST DE SETTAT ACP001 - 6
  • 8. Calculez la matrice des corrélations Σ J. DABOUNOU - FST DE SETTAT ACP001 - 7
  • 9. Matrice de corrélation Matrice de corrélation : Σ = Corr 𝐗 = 1 I 𝐗t . 𝐗 = 1 Corr(𝐕1, 𝐕2 ) ⋯ Corr(𝐕1, 𝐕J ) Corr(𝐕2, 𝐕1 ) ⋱ ⋮ Corr(𝐕J, 𝐕1 ) ⋱ ⋯ ⋮ 1 On a J. DABOUNOU - FST DE SETTAT ACP001 - 8 Σ étant ici égale à la matrice des corrélations. Le graphique ci-contre illustre cette matrice.
  • 10. Matrice de corrélation Σ exprime la liaison entre les variables. L’écart entre Σ et une matrice diagonale mesure la dépendance entre les variables, donc la redondance entre celles-ci. Un des objectifs de l’ACP est de déterminer une nouvelle base orthogonale et une nouvelle matrice Y avec de nouvelles composantes pour lesquelles ΣY = Yt Y est diagonale. On considère la représentation X= [V1, …, VJ], à l’aide des variables initiales (vecteurs colonnes), l’ACP cherche à trouver une représentation Y=[W1, …,WJ], transformation linéaire de X, telles que les variables Wj soient décorrélées. Ainsi, Y=PX et ΣY = Pt Σ P = D. Les vecteurs propres de Σ forment la matrice de passage P et les valeurs propres sont les covariances des nouvelles variables Yj. J. DABOUNOU - FST DE SETTAT ACP001 - 9
  • 11. Déterminer, éventuellement en utilisant un logiciel, les matrices D et P telles que Σ = PDPt, avec P matrice orthogonale et D matrice diagonale J. DABOUNOU - FST DE SETTAT ACP001 - 10
  • 12. On utilise souvent un logiciel qui nous donne les matrices D et P telles que Σ = PDPt, On peut donc aussi écrire : Pt Σ P = D. D est la matrice diagonale composée des valeurs propres de Σ. Les colonnes de P représentent les vecteurs propres de Σ. Il s’agit de la décomposition spectrale de la matrice de corrélation. Σ étant symétrique et semi-définie positive, elle possède cette décomposition. 0.46 0.79 0.41 0.56 -0.61 0.56 0.69 -0.03 -0.72 Valeurs et vecteurs propres en ACP J. DABOUNOU - FST DE SETTAT ACP001 - 11 1.83 0 0 0 0.92 0 0 0 0.25 D = P =
  • 13. Quelles sont les valeurs et vecteurs propres de Σ ? Montrer que la matrice P est inversible et P−1 = Pt J. DABOUNOU - FST DE SETTAT ACP001 - 12
  • 14. Les valeurs propres de Σ constituent la diagonale de la matrices D et les vecteurs propres unitaires constituent les colonnes de la matrice P. Comme Σ est symétrique et semi-définie positive, les valeurs propres sont toutes positives ou nulles et les vecteurs propres sont deux à deux orthogonaux. Le plus souvent, les logiciels donnent les valeurs propres classées en ordre décroissant. Soient donc les valeurs propres : 1 = 1.83 ; 2 = 0.92 ; 3 = 0.25 et les vecteurs propres : u1= 0.46 0.56 0.69 ; u2= 0.79 −0.61 −0.03 ; u3= 0.41 0.56 −0.72 On en déduit que le rang de Σ est égal à 3. Σ est donc inversible. Il est en de même de P. P est en fait une matrice orthogonale et P-1 = Pt. Valeurs et vecteurs propres en ACP J. DABOUNOU - FST DE SETTAT ACP001 - 13
  • 15. Evolution des valeurs propres On a 1 > 2 > 3 > 0. Le tableau suivant présente l’inertie expliquée par chacun des axes principaux et l’inertie cumulée. On affiche une courbe qui visualise l’évolution des valeurs propres. J. DABOUNOU - FST DE SETTAT ACP001 - 14 Valeur propre % expliqué % cumulé 1 1.83 61.17% 61.17% 2 0.92 30.51% 91.68% 3 0.25 8.32% 100.00% Inertie totale 3.00
  • 16. Calculer la matrice des composantes principales C et représenter les villes dans le plan principal J. DABOUNOU - FST DE SETTAT ACP001 - 15
  • 17. On projette les I=6 vecteurs lignes représentant les individus dans l’espace R3. Le graphique ci-dessous permet de l’illustrer : L’ACP consiste à trouver les directions de variance maximale dans ces données afin de les projeter sur un sous-espace dimensionnel plus petit tout en conservant l’essentiel des informations. NB. J’utilise quelquefois Xi au lieu de Mi pour désigner un point de coordonnées la ligne i de la matrice X. J. DABOUNOU - FST DE SETTAT ACP001 - 16 Les individus dans l’espace des variables O R3 MiM1 M2 M3 M4 M5 M6
  • 18. Projection des données sur un axe On voit que la première composante principale capture le maximum d’inertie du nuage de données. Il reste un résidu non expliqué par cette première composante ce qui justifie le calcul de la deuxième composante principale. u1 définit le premier axe principal dans R3. Puisque X est centrée, l’origine O des axes de R3 passe par le centre de gravité des 6 points Mi définis par les lignes de la matrice X. La projection du point Mi sur cet axe, notée Hi1 est donnée par OHi1 = <OMi , u1> où OMi est le vecteur défini par la ième ligne de la matrice X. Ainsi, OH11, OH12, OH13, OH14, OH15, OH16 déterminent la projection des 6 points M1,…, M6 sur le premier axe principal et on a : i=1,6 OH1i 2 = <Xu1 , Xu1> = u1 t Xt Xu1= 6 1 J. DABOUNOU - FST DE SETTAT ACP001 - 17 O R3 u1 Mi H1i D1
  • 19. L’axe défini par u1 récupère le plus possible de variance pour un axe. L’axe D2 défini par u2, récupère le maximum de variance non récupérée par u1. Le vecteur propre unitaire u2 est orthogonal au vecteur unitaire u1. Le vecteur propre unitaire u3 est orthogonal à chacun des vecteurs u1 et u2. Deuxième axe principal de l’ACP J. DABOUNOU - FST DE SETTAT ACP001 - 18 R3 u1 Mi H1i D1 u2 D2 O
  • 20. Les composantes principales F1, F2, F3 sont données par : F1 = X u1, F2 = X u2 et F3 = X u3. La matrice X peut être remplacée, dans la base orthonormée (u1, u2, u3) par la matrice de composantes principales C = [ F1 F2 … Fr ] Ce qui permet dans les cas concrets de réduire la dimension des données puisqu’en général, le rang(XtX)  J sans perte d’information (Inertie globale). En effet: trace(XtX) = I.(1 + 2 +…+ r)= u1 t XtX u1 + u2 t XtX u2 + u3 t XtX u3 = F1 t F1 + F2 t F2 + F3 t F3 = trace(Ct C) Composantes Principales J. DABOUNOU - FST DE SETTAT H1iO D1 u1 H2i H3i D2 u2 O D3 u3 O ACP001 - 19 R3 u1 Mi H1i D1 u2 D2 O
  • 21. Les composantes principales F1, F2, F3 sont alors : et la matrice des composantes principales C : Composantes Principales J. DABOUNOU - FST DE SETTAT ACP001 - 20 F1 F2 F3 Ajaccio 1.63 -0.81 0.07 Brest -0.45 1.31 0.84 Dunkerque -0.43 0.79 -0.81 Nancy -1.85 -0.12 -0.21 Nice 1.96 0.37 -0.13 Toulouse -0.85 -1.54 0.24 k 1.83 0.92 0.25 i=1,6 Fki 2 = 6 k ou encore k = 1 6 𝐅k t . 𝐅k 1,63 -0,81 0,07 -0,45 1,31 0,84 -0,43 0,79 -0,81 -1,85 -0,12 -0,21 1,96 0,37 -0,13 -0,85 -1,54 0,24 C = Pour k=1,2,3 :
  • 22. Le plan défini par le couple de vecteurs propres (u1. u2) est appelé plan factoriel. Il s’agit du plan : - qui est globalement le plus proche des points représentant les individus - sur lequel ces points se déforment le moins possible par projection - qui explique le mieux possible l’inertie projetée - tel que les points projetés dessus visualisent le mieux possible (par rapport à tout autre plan) la disposition des individus dans l’espace RJ. D’ailleurs ces quatre conditions sont équivalentes. Cette visualisation est d’autant plus fidèle au nuage de points que le taux est proche de 1. r étant le rang de Σ. Dans l’exercice r=3. Le plan factoriel J. DABOUNOU - FST DE SETTAT r21 21 ...   ACP001 - 21
  • 23. Projection sur le plan factoriel J. DABOUNOU - FST DE SETTAT ACP001 - 22 Mi M3 M2 M1 O La projection des points sur le plan factoriel défini par (u1, u2) permet d’obtenir un graphique qui capture le maximum d’information possible (à visualiser sur un plan) à partir de données de départ.
  • 24. Projection sur le plan factoriel J. DABOUNOU - FST DE SETTAT ACP001 - 23 La projection des points sur le plan factoriel défini par (u1, u2) permet d’obtenir un graphique qui capture le maximum d’information possible (à visualiser sur un plan) à partir des données de départ. L’inertie expliquée par le plan factoriel est donnée par (61.17 + 30.51)% soit 91.68 %. F1(61.17%) F2(30.51%)
  • 25. Interpréter la position des villes dans le plan principal et commenter J. DABOUNOU - FST DE SETTAT ACP001 - 24
  • 26. Interpréter le plan factoriel J. DABOUNOU - FST DE SETTAT ACP001 - 25 Nous revenons aux données pour essayer de comprendre la variabilité selon les axes. 1er axe: - Nancy à l’extrémité gauche - Nice, Ajaccio à l’extrémité droite En observant les données, on voit que le 1er axe évolue globalement dans le sens croissant de tmin. Les villes qui ont les tmin les plus basses se trouvent à gauche, ceux qui ont des tmin élevées se trouvent à droite. p tmax tmin Ajaccio 12.04 23.7 5.9 Brest 17.18 15.5 -1.8 Dunkerque 11.83 13.1 2.8 Nancy 6.23 13.5 -2.4 Nice 16.99 21.1 7.2 Toulouse 3.87 20.30 -0.90 Moyenne 11.36 17.87 1.80 Ecart-type 4.98 4.04 3.76
  • 27. Interpréter le plan factoriel J. DABOUNOU - FST DE SETTAT ACP001 - 26 2ème axe: - Toulouse, ensuite Ajaccio en bas de l’axe - Brest ensuite Dunkerque en haut de l’axe En observant les données, on voit que le 2ème axe évolue globalement dans le sens croissant de p et, relativement, dans le sens décroissant des tmax. p tmax tmin Ajaccio 12.04 23.7 5.9 Brest 17.18 15.5 -1.8 Dunkerque 11.83 13.1 2.8 Nancy 6.23 13.5 -2.4 Nice 16.99 21.1 7.2 Toulouse 3.87 20.30 -0.90 Moyenne 11.36 17.87 1.80 Ecart-type 4.98 4.04 3.76
  • 28. Calculer les corrélations linéaires entre les variables initiales et les deux premières composantes principales. J. DABOUNOU - FST DE SETTAT ACP001 - 27
  • 29. Interpréter le plan factoriel J. DABOUNOU - FST DE SETTAT ACP001 - 28 Pour vérifier nos conclusions, nous allons calculer les coefficients de corrélation entre les variables et les composantes principales F1 et F2 (et facultativement F3). On constate alors que F1 est corrélée à toutes les variables, mais très particulièrement à tmin. F2 est corrélée à p et inversement corrélé à tmax. Nous allons visualiser ces corrélations sur le plan factoriel. F1 F2 F3 p 0.62 0.76 0.21 tmax 0.76 -0.59 0.28 tmin 0.93 -0.03 -0.36
  • 30. Interpréter le plan factoriel J. DABOUNOU - FST DE SETTAT ACP001 - 29 La projection des variables sur le plan factoriel permet de visualiser de façon plus claire les corrélations que nous avons, d’une certaine manière, constatées en revenant aux données.
  • 31. Réaliser un tableau qui synthétise la qualité de représentation des individus au plan et aux axes factoriels J. DABOUNOU - FST DE SETTAT ACP001 - 30
  • 32. Qualité de représentation J. DABOUNOU - FST DE SETTAT ACP001 - 31 Interpréter le plan factoriel en termes de proximité entre les points, de position par rapport aux axes principaux n’a de sens que si les points sont bien représentés dans le plan factoriel. On doit garder à l’esprit que les points sont en réalité dans l’espace RJ, dans le cas de l’exercice en cours J=3, mais le plus souvent J est un entier très grand. D’où la nécessité d’analyser la qualité de représentation des points.
  • 33. Qualité de représentation J. DABOUNOU - FST DE SETTAT ACP001 - 32 La projection du nuage de points représentant les individus sur le plan factoriel est de bonne qualité lorsqu’elle préserve les proximités entre les individus et l’essentiel de la dispersion du nuage de points. Pour illustrer cela, nous considérons les points H1i pour i=1,6 de la figure ci-dessous, qui sont supposés constituer les projections des individus Mi pour i=1,6 sur le premier axe principal. La projection des points, ou encore leur représentation, sur cet axe principal est de bonne qualité si par exemple la proximité (relative) entre les points H12 et H14 traduit une proximité entre M2 et M4. De la même manière, la proximité entre les points H13 et H16 traduit une proximité entre M3 et M6. Et que la distance entre H11 et H13 traduit de façon satisfaisante la distance entre M1 et M3. H13H16 O H14 H15H12H11
  • 34. H13H16 Qualité de représentation J. DABOUNOU - FST DE SETTAT ACP001 - 33 Lorsqu’on affiche les individus dans cet exemple illustratif, on voit que M2 et M4 sont éloignés alors que H12 et H14 sont voisins. Par contre, la proximité entre H13 et H16 traduit effectivement une proximité entre M3 et M6. Nous trouvons aussi que la distance entre H11 et H13 approche de façon satisfaisante la distance entre M1 et M3. Dans l’ACP, les variables étant centrées, on peut facilement montrer que l’origine O de coordonnées (0,0,…,0) est le barycentre du nuage des individus (Mi)i=1,I. M4 M5 M2 O M6 M3 4M1 H14 H15H12H11 1 2 6 5 3
  • 35. H13H16 Qualité de représentation J. DABOUNOU - FST DE SETTAT ACP001 - 34 Pour les individus, la projection est de bonne qualité lorsque cos2(i)1. On voit sur la figure ci-après que l’individu M5 est bien projeté sur le 1er axe principal. cos2(5)1 signifie que M5 est proche de l’axe principal. Par contre M4 est mal représenté. En effet cos2(4)<<1, ce qui signifie que M4 est trop loin de l’axe principal. M4 M5 M2 O M6 M3 5 4M1 H14 H15H12H11 1 2 3 𝐎𝐇15 2 = 𝐎𝐌5 2 cos(5)2 cos(5)2  1 donc 𝐎𝐇15 2  𝐎𝐌5 2 6
  • 36. H13H16 Qualité de représentation J. DABOUNOU - FST DE SETTAT ACP001 - 35 Pour les individus, la projection est de bonne qualité lorsque cos2(i)1. On voit sur la figure ci-après que l’individu M5 est bien projeté sur le 1er axe principal. cos2(5)1 signifie que M5 est proche de l’axe principal. Par contre M4 est mal représenté. En effet cos2(4)<<1, ce qui signifie que M4 est trop loin de l’axe principal. M4 M5 M2 O M6 M3 5 4M1 H14 H15H12H11 1 2 3 𝐎𝐇14 2 = 𝐎𝐌4 2 cos(4)2 cos(4)2 << 1 donc 𝐎𝐇14 2 << 𝐎𝐌4 2 𝐎𝐇15 2 = 𝐎𝐌5 2 cos(5)2 cos(5)2  1 donc 𝐎𝐇15 2  𝐎𝐌5 2 6
  • 37. H13H16 Qualité de représentation J. DABOUNOU - FST DE SETTAT ACP001 - 36 Pour les individus, la projection est de bonne qualité lorsque cos2(i)1. On voit sur la figure ci-après que l’individu M5 est bien projeté sur le 1er axe principal. cos2(5)1 signifie que M5 est proche de l’axe principal. Par contre M4 est mal représenté. En effet cos2(4)<<1, ce qui signifie que M4 est trop loin de l’axe principal. M4 M5 M2 O M6 M3 5 4M1 H14 H15H12H11 1 2 3 𝐎𝐇14 2 = 𝐎𝐌4 2 cos(4)2 cos(4)2 << 1 donc 𝐎𝐇14 2 << 𝐎𝐌4 2 𝐎𝐇15 2 = 𝐎𝐌5 2 cos(5)2 cos(5)2  1 donc 𝐎𝐇15 2  𝐎𝐌5 2 cos(1)2  1 et cos(3)2  1 Donc 𝐇11 𝐇13 2  𝐌1 𝐌3 2 6
  • 38. Qualité de représentation J. DABOUNOU - FST DE SETTAT ACP001 - 37 De la même manière, la projection des individus sur le plan factoriel est de bonne qualité lorsque le cosinus carré de l’angle entre le vecteur OMi et le vecteur qui lui OOi correspond par projection sur le plan factoriel est proche de 1. Cos2(OMi , OOi)  1. M5 M3 M2 M1 O M4 4 O5 O4 5 H14 H15 H25 H24
  • 39. J. DABOUNOU - FST DE SETTAT ACP001 - 38 M5 M3 M2 M1 O M4 4 O5 O4 5 H14 H15 H25 H24 M5 est bien représenté et cos2(5)1, en même temps M5 est proche du plan factoriel. Par contre M4 est mal représenté sur le plan factoriel. En effet cos2(4)<<1 et M4 est trop loin du plan factoriel.
  • 40. Qualité de représentation J. DABOUNOU - FST DE SETTAT ACP001 - 39 Nous avons : cos2(4)= OO4 2 OM4 2 Soient c1,i = OH1i et c2,i = OH2i les ièmes composantes principales. (u1 , u2) constitue une base orthonormée du plan factoriel. Donc on a : OO4 2 = c1,4 2 + c2,4 2 et ainsi : cos2(4)= c1,4 2 + c2,4 2 OM4 2 De façon générale : cos2(i)= c1,i 2 + c2,i 2 OMi 2 Caractérise la qualité de représentation de Mi sur la plan factoriel.
  • 41. Qualité de représentation La qualité de représentation d’un individu peut aussi être définie par rapport à un seul axe. Par exemple, celle de l’individu M4 par rapport au premier axe principal est donnée par : Qlt(M4 , F1) = cos2(14)= c1,4 2 OM4 2 où 14 est l’angle entre OM4 et u1. Et pour Mi : Qlt(Mi , Fk) = cos2(ki)= ck,i 2 OMi 2 où ki est l’angle entre OMi et le vecteur propre uk. J. DABOUNOU - FST DE SETTAT ACP001 - 40 M5 M3 M2 M1 O M4 O5 O4 c1,4 c1,5 c2,5 c2,4 14 4 514 On retrouve ainsi la qualité de représentation d’un individu dans le plan factoriel qui est : cos2(i)= c1,i 2 + c2,i 2 OMi 2 = Qlt(Mi , F1)+Qlt(Mi , F2)
  • 42. Graphique de la qualité de représentation J. DABOUNOU - FST DE SETTAT ACP001 - 41 Pour l’exercice en cours, on a le tableau et graphiques suivants : Qlt(Mi,F1) Qlt(Mi,F2) Qlt(Xi,{F1,F2}) Contrib(Mi,F1) Contrib(Mi,F2) Contrib(Mi,{F1,F2}) Ajaccio 0,802 0,197 0,998 0,240 0,118 0,199 Brest 0,078 0,653 0,731 0,019 0,312 0,116 Dunkerque 0,128 0,423 0,552 0,017 0,113 0,049 Nancy 0,982 0,004 0,987 0,311 0,003 0,208 Nice 0,962 0,034 0,996 0,348 0,024 0,240 Toulouse 0,228 0,753 0,981 0,065 0,430 0,187
  • 43. Réaliser un tableau qui synthétise la contribution des individus au plan et aux axes factoriels. J. DABOUNOU - FST DE SETTAT ACP001 - 42
  • 44. Contribution J. DABOUNOU - FST DE SETTAT ACP001 - 43 Maintenant, nous allons analyser la contribution des individus à la construction d’un axe factoriel. Considérons, pour commencer, le premier axe factoriel. Il est caractérisé par le fait qu’il explique l’inertie 1, qui est valeur propre de Σ = Corr 𝐗 = 1 I 𝐗t . 𝐗 Et on a : 1 = 1 I 𝐅1 t . 𝐅1 = 1 I i=1 I c1,i 2 A noter que 1 I c1,i 2 représente l’inertie de l’individu Mi expliquée par le premier axe principal.
  • 45. Contribution J. DABOUNOU - FST DE SETTAT ACP001 - 44 1 = 1 I 𝐅1 t . 𝐅1 = 1 I i=1 I c1,i 2 Donne 1 = i=1 I c1,i 2 I.1 Il est ainsi naturel de définir la contribution de l’individu Mi au premier axe principal par le rapport : Contrib(Mi , F1) = c1,i 2 I.1 et donc i=1 I Contrib(Mi , F1) = 1 On définit de la même manière la contribution de Mi au kième axe principal par : Contrib(Mi , Fk) = ck,i 2 I.k ou encore Contrib(Mi , Fk) = ck,i 2 c1,1 2 + c1,2 2 + ⋯ + c1,I 2 Contrib(Mi , Fk) est ainsi la part de l’individu Mi dans l’inertie expliquée par Fk.
  • 46. H13H16 Contribution J. DABOUNOU - FST DE SETTAT ACP001 - 45 On peut aussi écrire: Contrib(Mi , Fk) = ck,i 2 I.k = OHki 2 I.k On en déduit que la contribution de Mi au kième axe principal est d’autant plus importante que sa projection sur cet axe est éloignée de l’origine du repère qui est en même temps centre de gravité du nuage de points. Ainsi, dans la figure ci-dessous, M5 contribue au premier axe factoriel plus que M4 et M6 contribue plus que M3. L’analyse de la contribution des points aux axes principaux est utilisée pour interpréter ces derniers. M4 M5 M2 O M6 M3 4 M1 H14 H15H12H11 1 2 6 5 3
  • 47. Graphique de contribution (Exemple) J. DABOUNOU - FST DE SETTAT ACP001 - 46 L’application à l’exercice en cours, donne le tableau et graphiques suivants : Qlt(Mi,F1) Qlt(Mi,F2) Qlt(Xi,{F1,F2}) Contrib(Mi,F1) Contrib(Mi,F2) Contrib(Mi,{F1,F2}) Ajaccio 0,802 0,197 0,998 0,240 0,118 0,199 Brest 0,078 0,653 0,731 0,019 0,312 0,116 Dunkerque 0,128 0,423 0,552 0,017 0,113 0,049 Nancy 0,982 0,004 0,987 0,311 0,003 0,208 Nice 0,962 0,034 0,996 0,348 0,024 0,240 Toulouse 0,228 0,753 0,981 0,065 0,430 0,187
  • 48. Graphique de contribution (Exemple) J. DABOUNOU - FST DE SETTAT ACP001 - 47 L’application à l’exercice en cours, donne le tableau et graphiques suivants : Qlt(Mi,F1) Qlt(Mi,F2) Qlt(Xi,{F1,F2}) Contrib(Mi,F1) Contrib(Mi,F2) Contrib(Mi,{F1,F2}) Ajaccio 0,802 0,197 0,998 0,240 0,118 0,199 Brest 0,078 0,653 0,731 0,019 0,312 0,116 Dunkerque 0,128 0,423 0,552 0,017 0,113 0,049 Nancy 0,982 0,004 0,987 0,311 0,003 0,208 Nice 0,962 0,034 0,996 0,348 0,024 0,240 Toulouse 0,228 0,753 0,981 0,065 0,430 0,187 p tmax tmin F1 F2 F3 Ajaccio 0,14 1,44 1,09 1,63 -0,81 0,07 Brest 1,17 -0,59 -0,96 -0,45 1,31 0,84 Dunkerque 0,10 -1,18 0,27 -0,43 0,79 -0,81 Nancy -1,03 -1,08 -1,12 -1,85 -0,12 -0,21 Nice 1,13 0,80 1,44 1,96 0,37 -0,13 Toulouse -1,50 0,60 -0,72 -0,85 -1,54 0,24 11,00 5,50 1,50 1,83 0,92 0,25 
  • 49. Graphique de contribution (Exemple) J. DABOUNOU - FST DE SETTAT ACP001 - 48 L’application à l’exercice en cours, donne le tableau et graphiques suivants : Qlt(Mi,F1) Qlt(Mi,F2) Qlt(Xi,{F1,F2}) Contrib(Mi,F1) Contrib(Mi,F2) Contrib(Mi,{F1,F2}) Ajaccio 0,802 0,197 0,998 0,240 0,118 0,199 Brest 0,078 0,653 0,731 0,019 0,312 0,116 Dunkerque 0,128 0,423 0,552 0,017 0,113 0,049 Nancy 0,982 0,004 0,987 0,311 0,003 0,208 Nice 0,962 0,034 0,996 0,348 0,024 0,240 Toulouse 0,228 0,753 0,981 0,065 0,430 0,187 p tmax tmin F1 F2 F3 Ajaccio 0,14 1,44 1,09 1,63 -0,81 0,07 Brest 1,17 -0,59 -0,96 -0,45 1,31 0,84 Dunkerque 0,10 -1,18 0,27 -0,43 0,79 -0,81 Nancy -1,03 -1,08 -1,12 -1,85 -0,12 -0,21 Nice 1,13 0,80 1,44 1,96 0,37 -0,13 Toulouse -1,50 0,60 -0,72 -0,85 -1,54 0,24 11,00 5,50 1,50 1,83 0,92 0,25 
  • 50. Graphique de contribution (Exemple) J. DABOUNOU - FST DE SETTAT ACP001 - 49 L’application à l’exercice en cours, donne le tableau et graphiques suivants : Qlt(Mi,F1) Qlt(Mi,F2) Qlt(Xi,{F1,F2}) Contrib(Mi,F1) Contrib(Mi,F2) Contrib(Mi,{F1,F2}) Ajaccio 0,802 0,197 0,998 0,240 0,118 0,199 Brest 0,078 0,653 0,731 0,019 0,312 0,116 Dunkerque 0,128 0,423 0,552 0,017 0,113 0,049 Nancy 0,982 0,004 0,987 0,311 0,003 0,208 Nice 0,962 0,034 0,996 0,348 0,024 0,240 Toulouse 0,228 0,753 0,981 0,065 0,430 0,187 p tmax tmin F1 F2 F3 Ajaccio 0,14 1,44 1,09 1,63 -0,81 0,07 Brest 1,17 -0,59 -0,96 -0,45 1,31 0,84 Dunkerque 0,10 -1,18 0,27 -0,43 0,79 -0,81 Nancy -1,03 -1,08 -1,12 -1,85 -0,12 -0,21 Nice 1,13 0,80 1,44 1,96 0,37 -0,13 Toulouse -1,50 0,60 -0,72 -0,85 -1,54 0,24 11,00 5,50 1,50 1,83 0,92 0,25 
  • 51. Graphique de contribution (Exemple) J. DABOUNOU - FST DE SETTAT ACP001 - 50 L’application à l’exercice en cours, donne le tableau et graphiques suivants : Qlt(Mi,F1) Qlt(Mi,F2) Qlt(Xi,{F1,F2}) Contrib(Mi,F1) Contrib(Mi,F2) Contrib(Mi,{F1,F2}) Ajaccio 0,802 0,197 0,998 0,240 0,118 0,199 Brest 0,078 0,653 0,731 0,019 0,312 0,116 Dunkerque 0,128 0,423 0,552 0,017 0,113 0,049 Nancy 0,982 0,004 0,987 0,311 0,003 0,208 Nice 0,962 0,034 0,996 0,348 0,024 0,240 Toulouse 0,228 0,753 0,981 0,065 0,430 0,187
  • 52. Représenter les résultats sur le cercle des corrélations J. DABOUNOU - FST DE SETTAT ACP001 - 51
  • 53. Composantes principales et variables J. DABOUNOU - FST DE SETTAT ACP001 - 52 Objectifs de l’ACP : trouver des variables synthétiques à utiliser à la place des variables déjà existantes V1, V2,…, VJ. X = [V1, V2,…, VJ] = On peut aussi présenter les données sous la forme : V1 V2 … VJ M1 x11 x12 x1J M2 x21 x22 x2J ⁞ MI xI1 xI2 xIJ
  • 54. Composantes principales et variables J. DABOUNOU - FST DE SETTAT ACP001 - 53 D’un autre côté, F1 est constituée des coordonnées de la projection du nuage de points représentant les individus sur le premier axe principal. Donc F1 = X . u1. Posons aussi u1 = (u1,1, u1,2, … , u1,J) ou les u1,j sont des nombres réels. On rappelle que l’on suppose X centrée réduite. Sinon on commence par la rendre ainsi. On a : F1 = X . u1 = u1,1 V1 + u1,2 V2 + … + u1,J VJ. De la même manière : F2 = X . u2 = u2,1 V1 + u2,2 V2 + … + u2,J VJ. Ce qui permet d’écrire les composantes principales F1 et F2 en fonction des variables de départ. Cela nous montre comment se combinent les variables initiales dans des variables latentes qui nous renseignent mieux sur la variabilité entre les individus.
  • 55. Composantes principales et variables J. DABOUNOU - FST DE SETTAT ACP001 - 54 Dans le cas de notre exemple, on obtient : F1 = X . u1 = 0.73 p + 0.40 tmax + 0.56 tmin et : F2 = X . u2 = 0.62 p - 0.73 tmax - 0.29 tmin. Ces expressions réaffirment les liaisons que nous avons déjà constatées entre les variables et les composantes principales. Comme sur le plan factoriel, on voit que toutes les variables ont le même signe de corrélation (ici positif) avec F1. On dit concernant F1 qu’il s’agit d’un facteur taille. F2 est positivement corrélé à p et négativement corrélé à tmax avec des coefficients importants et négativement corrélé à tmin avec un coefficient plus faible. Il nous renseigne essentiellement sur l’écart pour une ville entre les précipitations et la température maximale. Il s’agit d’un facteur de forme.
  • 56. Analyse des variables J. DABOUNOU - FST DE SETTAT ACP001 - 55 Comme pour les individus, on projette les variables dans l’espace RI . Toutes les variables sont représentées par des flèches qui se terminent sur une hypersphère de rayon I puisque les variables sont centrées réduites (norme euclidienne). On cherche par la suite les axes qui préservent le maximum d’inertie projetée. Donc choisir v1 unitaire qui maximise 1 I j=1 J ON1j 2 , avec ON1j = <Vj , v1>. Cela revient à trouver v1 unitaire qui maximise : 1 I (Xtv1)t.(Xtv1) = 1 I v1 t XXtv1 avec v1 t.v1 =1. On a alors, comme pour les individus que : 1 I XXt v1 = 1v1. Vk Vj RI v1 L1 O v2 L2 N1j N2j N1k N2k
  • 57. Utiliser une métrique adaptée J. DABOUNOU - FST DE SETTAT ACP001 - 56 Avec une métrique définie par diag( 1 I , …, 1 I ), les variables centrées réduites seraient représentées par des vecteurs unitaires. En effet, le produit scalaire de deux vecteurs W1 , W2 de RI serait alors : <W1 , W2>I = i=1 I 1 I W1,iW2,i = 1 I i=1 I W1,iW2,i On a ainsi la relation entre cette métrique et la métrique euclidienne usuelle: <W1 , W2>I = 1 I <W1 , W2> et pour une variables Vj qui est, rappelons le, centrée réduite, on aurait : Vj I 2 =<Vj ,Vj>I = 1 I i=1 I Vj,i 2 =1 Mais pour la correction de cet exercice on a opté pour la forme la plus connue par les étudiants de la norme euclidienne.
  • 58. Analyse des variables J. DABOUNOU - FST DE SETTAT ACP001 - 57 Pour v1 qui explique le maximum d’inertie projetée on a : • v1 est vecteur propre de 1 I XXt associé à une valeur propre 1 • 1 étant la plus grande des valeurs propres de 1 I XXt . La projection ON1j d’une variable Vj sur l’axe L1 défini par v1 est égale au produit scalaire <Vj , v1> et on a : ON1j = < Vj , v1 > = I cos(1j). 1j étant l’angle entre les deux vecteurs Vj et v1. On voit aussi que cos(1j) est égal au coefficient de corrélation entre Vj et v1. Ainsi : 1 I j=1 J ON1j 2 = j=1 J cos(1j)2 = j=1 J corr(Vj, v1)2 Ce qui montre que v1 est le vecteur unitaire le mieux corrélé globalement à l’ensemble des variables.
  • 59. Analyse des variables J. DABOUNOU - FST DE SETTAT ACP001 - 58 Comme pour les individus, on définit un deuxième axe L2 porté par v2, vecteur unitaire orthogonal à v1, qui récupère le maximum d’inertie non expliquée par v1. v2 est lui aussi un vecteur propre de 1 I XXt associé à la valeur propre 2 qui est la deuxième plus grande valeur propre après 1. On obtient de la même manière les vecteurs propres v3,…, vr et les valeurs propres associées 3,…, r, r étant le rang de 1 I XXt. Pour chaque axe Lk, les coordonnées des projections des variables définissent les composantes principales associées à cet axe et on a la relation: Gk = Xt vk, avec : 1 I Gk t Gk= 1 I j=1 J ONkj 2 = j=1 J cos(kj)2 = j=1 J corr(Vj, vk)2 = k .
  • 60. La matrice XXt est symétrique semi-définie positive, donc diagonalisable et possède r valeurs propres non nulles, toutes strictement positives. r étant le rang de XXt. Par ailleurs, l’inertie totale des variables est égale à 1 I trace(XXt). Donc : 1 I trace(XXt) = 1 + 2 + … + r où 1, 2, …, r >0 sont les valeurs propres non nulles de 1 I XXt. Les vecteurs propres unitaires associés v1, v2, …, vr sont deux à deux orthogonaux. On a 1 I XXt v1 = 1 v1. Donc 1 I Xt XXt v1 = Xt 1 v1. Ce qui s’écrit : 1 I XtX (Xt v1) = 1 (Xt v1). Donc Xt v1 est vecteur propre de 1 I XtX et 1 la valeur propre associée. En développant un peu, on voit que les valeurs propres de 1 I XtX et de 1 I XXt sont égales: Pour k=1,r on a k = k. Axes de l’ACP J. DABOUNOU - FST DE SETTAT ACP001 - 59
  • 61. On utilise un logiciel pour calculer les valeurs et vecteurs propres de 1 I XXt. On obtient : et Pour l’exemple en cours, les calculs donnent : Calcul des composantes principales J. DABOUNOU - FST DE SETTAT ACP001 - 60 0.49 -0.34 0.06 0.71 0.00 0.37 -0.14 0.56 0.69 0.34 0.29 -0.05 -0.13 0.34 -0.66 0.26 0.59 0.10 -0.56 -0.05 -0.17 0.56 -0.47 -0.35 0.59 0.16 -0.11 0.09 0.01 -0.78 -0.25 -0.66 0.20 0.02 0.59 -0.34 1 I XXt = v1 v2 v3 v4 v5 v6 0.55 -0.29 -0.23 -0.49 0.48 -0.02 -0.29 0.44 0.09 0.08 -0.09 -0.24 -0.23 0.09 0.25 0.15 -0.08 -0.17 -0.49 0.08 0.15 0.58 -0.61 0.28 0.48 -0.09 -0.08 -0.61 0.66 -0.38 -0.02 -0.24 -0.17 0.28 -0.38 0.52 1 = 1 = 1.83 2 = 2 = 0.92 3 = 3 = 0.25 4 = 4 = 0.00 5 = 5 = 0.00 6 = 6 = 0.00 1.52 1.86 0.50 0.00 0.00 0.00 1.87 -1.43 0.68 0.00 0.00 0.00 2.28 -0.06 -0.89 0.00 0.00 0.00 Les composantes principales sont calculées d’après la relation: Gk = Xt vk. On obtient : G1 G2 G3 G4 G5 G6
  • 62. Ces données permettent de créer le cercle des corrélations. Les variables normalisées ( 1 I Vj) sont représentées sur le graphique de la même manière que sur le plan factoriel, en utilisant les composantes principales associées. Cela confirme le caractère dual des deux représentations que l’on peut d’ailleurs démontrer facilement. Par exemple, les coordonnées de p dans le plan factoriel sont : 1 I (𝐆11, 𝐆12)=(0.62 , 0.76 ) Pour tmax, elles sont : 1 I (𝐆21, 𝐆22)=(0.76 , -0.58 ) Pour tmin, elles sont : 1 I (𝐆31, 𝐆32)=(0.93, -0.03 ) Dans le présent exemple, I=6. Cercle des corrélations J. DABOUNOU - FST DE SETTAT ACP001 - 61 Axe 1 (61.17%) Axe2(30.51%)
  • 63. Factoriser la matrice de données J. DABOUNOU - FST DE SETTAT ACP001 - 62
  • 64. Les composantes principales obtenues à partir du nuage des individus sont données par : Fk = X uk, k=1,J. Fk  RI. Les composantes principales obtenues à partir du nuage des variables sont données par : Gk = Xt vk, k=1,I. Gk  RJ. Et on a : uk t XtX uk= vk t XXt vk= I.k. Donc Fk t Fk = Gk t Gk= I.k et donc Fk = Gk = 𝐈 k. On a aussi : Fk = X uk et vk sont des vecteurs propres de 1 I XXt associés à k donc on peut écrire : Fk = Fk vk et par suite Fk = X uk= 𝐈 k vk. On montre aussi que Gk =Xt vk= 𝐈 k uk. Factorisation et reconstruction des données J. DABOUNOU - FST DE SETTAT ACP001 - 63
  • 65. Par ailleurs, à partir de X uk = 𝐈 k vk, k=1,J on obtient la relation : X . ukuk t = 𝐈 kvkuk t Donc, en sommant sur k et en sortant X qui ne dépend pas de k, on obtient : X . k=1 J ukuk t = k=1 J 𝐈 k vkuk t Comme les vecteurs propres uk, k=1,J sont orthogonaux et de norme 1, on a : X = k=1 J 𝐈 k vkuk t = k=1 r 𝐈 k vkuk t Puisque pour r < k  J on a k=0, r étant le rang(Xt X) = rang(XXt ). (On suppose r<J). Cette expression de X, matrice des données initiales, permet de réduire le nombre de variables de I.J à r.(I+J) sans perte d’information ou à s.(I+J) avec perte négligeable d’information où s est le nombre de valeurs propres retenues. Factorisation et reconstruction des données J. DABOUNOU - FST DE SETTAT ACP001 - 64
  • 66. L’expression de X : X = k=1 r 𝐈 k vkuk t X, matrice des données initiales, permet de réduire le nombre de variables de I.J à r.(I+J) sans perte d’information. Dans la pratique, on se limite à : X = k=1 s 𝐈 k vkuk t avec s << J et 1+2+⋯+s 1+2+⋯+r  1. ce qui permet de réduire la dimensionnalité du problème à s.(I+J) avec perte négligeable d’information où s est le nombre de valeurs propres retenues. Factorisation et reconstruction des données J. DABOUNOU - FST DE SETTAT ACP001 - 65
  • 67. Nous allons maintenant reconstruire une approximation de rang 2 de X en utilisant les vecteurs propres u1, u2 et v1, v2 selon la formule : X  Xappr = I ( 1 v1u1 t + 2 v2u2 t ) Factorisation et reconstruction des données J. DABOUNOU - FST DE SETTAT ACP001 - 66 Le calcul donne : 0.46 0.56 0.69 61 + 62𝐗  Xappr = 0.49 -0.14 -0.13 -0.56 0.59 -0.25 0.79 -0.61 -0.03-0.34 0.56 0.34 -0.05 0.16 -0.66 0.11 1.40 1.14 0.83 -1.05 -0.35 0.42 -0.73 -0.32 -0.94 -0.96 -1.27 1.19 0.87 1.34 -1.60 0.47 -0.54 𝐗 =  Xappr = 0.14 1.44 1.09 1.17 -0.59 -0.96 0.10 -1.18 0.27 -1.03 -1.08 -1.12 1.13 0.80 1.44 -1.50 0.60 -0.72 Xappr est une approximation de X en terme d’inertie expliquée et d’axes principaux. Σappr = 1 I Xappr t Xappr possède les mêmes vecteurs propres que Σ : u1, u2 et u3 et deux valeurs propres non nulles égales respectivement à 1 et 2 et une troisième valeur propre nulle. On rappelle que : 1 = 1.83 2 = 0.92 3 =0.25
  • 68. Factorisation et reconstruction des données J. DABOUNOU - FST DE SETTAT ACP001 - 67 On montre que l’on a : X = I ( 1 v1u1 t + 2 v2u2 t + 3 v3u3 t ) 0.46 0.56 0.69 1 + 2 1 6 𝐗 = + 3 0.49 -0.14 -0.13 -0.56 0.59 -0.25 0.79 -0.61 -0.03-0.34 0.56 0.34 -0.05 0.16 -0.66 0.41 0.56 -0.720.06 0.69 -0.66 -0.17 -0.11 0.20 Cette factorisation permet de retrouver la décomposition en valeurs singulières (SVD) de X : 0.46 0.56 0.6961 62𝐗 = 63 0.49 -0.14 -0.13 -0.56 0.59 -0.25 0.79 -0.61-0.03 -0.34 0.56 0.34 -0.05 0.16 -0.66 0.41 0.56 -0.72 0.06 0.69 -0.66 -0.17 -0.11 0.20 0 0 00 0 0 X= VΣUt = 3.32 2.34 1.22 0 0 00 0 0 0.49 -0.14 -0.13 -0.56 0.59 -0.25 -0.34 0.56 0.34 -0.05 0.16 -0.66 0.06 0.69 -0.66 -0.17 -0.11 0.20 0.46 0.56 0.69 0.79 -0.61-0.03 0.41 0.56 -0.72