SlideShare une entreprise Scribd logo
1  sur  37
Télécharger pour lire hors ligne
1
L’ANALYSE EN
COMPOSANTES PRINCIPALES
(A.C.P.)
Pierre-Louis GONZALEZ
2
Données :
n individus observés sur p variables quantitatives.
L’A.C.P. permet d’explorer les liaisons entre variables et les
ressemblances entre individus.
Résultats :
Ö Visualisation des individus
(Notion de distances entre individus)
Ö Visualisation des variables
(en fonction de leurs corrélations)
INTRODUCTION
3
c Mesurer la qualité des représentations obtenues :
z critère global
z critères individuels
d « Donner des noms aux axes »
Expliquer la position des individus
e Utilisation éventuelle de variables supplémentaires
(illustratives)
INTERPRÉTATION DES RÉSULTATS
4
X1 X2 Xj Xp
x1
1
x2
1
xi
1
xn
1
xj
1
xj
2
xi
j
xn
j
xp
1
xp
2
xi
p
xn
p
n
Variable Xj
p
individu e i
'
X
(n,p)
I. L’ANALYSE EN COMPOSANTES PRINCIPALES
LE PROBLÈME
1. LES DONNÉES
p variables quantitatives observées sur n individus.
INDIVIDU = Élément de Rp
VARIABLE = Élément de Rn
5
On cherche à représenter le nuage des individus.
A chaque individu noté ei, on peut associer un point dans
Rp = espace des individus.
A chaque variable du tableau X est associé un axe de Rp.
X
3
xi
3
ei
xi
2
X
2
X1
xi
1
Impossible à
visualiser dès
que p > 3.
6
On cherche une représentation des n individus , dans un
sous-espace Fk de Rp de dimension k ( k petit 2, 3 …; par
exemple un plan)
Autrement dit, on cherche à définir k nouvelles variables
combinaisons linéaires des p variables initiales qui feront
perdre le moins d’information possible.
2. PRINCIPE DE L’A.C.P.
Ces variables seront appelées «composantes principales »,
les axes qu’elles déterminent : « axes principaux »
les formes linéaires associées : « facteurs principaux »
7
ON VISUALISE
X1
X2
Rp
Xi
axe 3
axe 1
axe 2
F3
axes principaux
8
« Perdre le moins d’information possible »
Fk devra être « ajusté » le mieux possible au nuage
des individus: la somme des carrés des distances des
individus à Fk doit être minimale.
c
d
Fk est le sous-espace tel que le nuage projeté ait une
inertie (dispersion) maximale.
c et d sont basées sur les notions de :
distance
projection orthogonale
9
ej
fj
fi
Δ 2
β i
β j
α i α j Δ 1
ei
La distance entre fi et fj est inférieure ou
égale à celle entre ei et ej
10
3. LE CHOIX DE LA DISTANCE ENTRE INDIVIDUS
yB
yA
xA xB
A
B
Dans le plan:
( ) ( ) ( )
d A B x x y y
B A B A
2 2 2
, = − + −
Dans l’espace Rp à p dimensions, on généralise cette notion : la distance
euclidienne entre deux individus s’écrit:
( )
e x
i i i i
p
= 1 2
x . x
.. ( )
e x
j j j j
p
= 1 2
x . x
..
( ) ( ) ( ) ( )
d e e x x x x x x
i j i j i j i
p
j
p
2 1 1 2 2 2 2 2
.
, ..
= − + − + −
( ) ( )
d e e x x
i j i
k
j
k
k
p
2 2
1
, = −
=
∑ Le problème des unités ?
11
Pour résoudre ce problème, on choisit de transformer les données en
données centrées-réduites.
L’observation est alors remplacée par :
xi
k
UNITÉS D’ÉCART TYPE:
où : moyenne de la variable Xk
sk = écart-type de la variable Xk
xi
k
− x
s
k
k
xk
=
Exemple :
Puissance moyenne de 30 voitures = 92 ch Ecart-type = 24 ch
La Renault 21 TXI a une puissance de 140 ch
La Renault 21 TXI a une puissance de :
2 écarts-type au-dessus de la moyenne.
140 92
24
2
−
=
12
4. INERTIE TOTALE
( )
I
n
e g
g i
i
n
=
=
∑ d
1 2
1
,
( )
n
2
g i i
i 1
I p d e , g
=
= ∑
ou de façon plus générale
L’inertie est la somme pondérée des carrés des distances des
individus au centre de gravité
L’inertie mesure la dispersion totale du nuage de points.
g
n
i
i 1
p = 1
=
∑
avec
13
L’inertie est donc aussi égale à la somme des variances
des variables étudiées.
En notant V la matrice de variances-covariances :
V =
⎛
⎝
⎜
⎜
⎜
⎜
⎜
⎜
s1
2
12
s
s2
2
sp1
s p
1
sp
2
................
................
........ ⎞
⎠
⎟
⎟
⎟
⎟
⎟
⎟
Ig i
i
p
=
=
∑ s2
1
( )
I Tr V
g =
Remarque
Dans le cas où les variables sont centrées réduites, la
variance de chaque variable vaut 1.
L’inertie totale est alors égale à p (nombre de variables).
14
Équivalence des deux critères concernant la perte d’information
F g
f i
ei
Soit F un sous-ensemble de Rp
la projection orthogonale de sur F
Projection orthogonale du
nuage sur un sous-espace
f i ei
e g e f f g i
i i i i
− = − + − ∀ =
2 2 2
1 . n
..
15
On va chercher F tel que :
c p e f
i i i
i
n
soit minimal
−
=
∑
2
1
ce qui revient d’après le théorème de Pythagore à maximiser :
d p f g
i i
i
n
−
=
∑
2
1
16
e g e f f g i
i i i i
− = − + − ∀ =
2 2 2
1 . n
..
p e g p e f p f g
i i
i
n
i i i
i
n
i i
i
n
=
− − − −
= = =
∑ ∑ ∑
2
1
2
1
2
1
  
Inertie totale minimiser cette
quantité (carrés
des distances entre
points individus et
leurs projections)
maximiser
l’inertie du
nuage projeté
⇔
Donc :
17
II. LA SOLUTION DU PROBLÈME POSÉ
La recherche d’axes portant le maximum d’inertie
équivaut à la construction de nouvelles variables
(auxquelles sont associés ces axes) de variance maximale.
En d’autres termes, on effectue un changement de repère
dans Rp de façon à se placer dans un nouveau système de
représentation où le premier axe apporte le plus possible de
l’inertie totale du nuage, le deuxième axe le plus possible
de l’inertie non prise en compte par le premier axe, et ainsi
de suite.
Cette réorganisation s’appuie sur la diagonalisation de la
matrice de variances-covariances.
18
1. SOLUTION
Axes principaux
On appelle axes principaux d’inertie les axes de direction
les vecteurs propres de V normés à 1.
Il y en a p.
Le premier axe est celui associé à la plus grande valeur
propre . On le note u1
Le deuxième axe est celui associé à la deuxième valeur
propre . On le note u2
...
19
Composantes principales
À chaque axe est associée une variable appelée composante
principale.
La composante c1 est le vecteur renfermant les cordonnées
des projections des individus sur l’axe 1.
La composante c2 est le vecteur renfermant les cordonnées
des projections des individus sur l’axe 2.
Pour obtenir ces coordonnées, on écrit que chaque
composante principale est une combinaison linéaire des
variables initiales.
Exemple
c u x u x x
p
p
1
1
1 1
2
1 2 1
= + + ... u
20
2. PROPRIÉTÉS DES COMPOSANTES PRINCIPALES
c La variance d’une composante principale est égale à
l’inertie portée par l’axe principal qui lui est associé.
1ère composante c1 variance :
2ème composante c2 variance :
3ème composante c3 variance :
d Les composantes principales sont non corrélées
deux à deux.
En effet, les axes associés sont orthogonaux.
λ1
3
λ
2
λ
21
3. REPRÉSENTATION DES INDIVIDUS
La jème composante principale fournit les
coordonnées des n individus sur le jème axe principal.
Si on désire une représentation plane des individus, la
meilleure sera celle réalisée grâce aux deux premières
composantes principales.
c
c
c
c
j
j
j
n
j
=
⎛
⎝
⎜
⎜
⎜
⎜
⎜
⎞
⎠
⎟
⎟
⎟
⎟
⎟
1
2
........
22



ej
ei
2
1
g ci
1
ci
2

Attention à la qualité de représentation de chaque individu!
23
4. REPRÉSENTATION DES VARIABLES
Les « proximités » entre les composantes principales et les
variables initiales sont mesurées par les covariances, et surtout
les corrélations.
est le coefficient de corrélation linéaire entre et
( )
r c x
j i
, cj
xi
( )
r c x
i
2
,
c
2
c
1
xi
( )
r c xi
1
,
CERCLE DES CORRÉLATIONS
24
5. INTERPRETATION DES « PROXIMITÉS » ENTRE
VARIABLES
On utilise un produit scalaire entre variables permettant
d’associer aux paramètres courants : écart-type, coefficient
de corrélation linéaire des représentations géométriques.
n
i j i j
k k
k 1
1
x , x x x
n =
= ∑
On suppose les variables centrées.
25
( )
n
2 2
i i i i
k
k 1
1
x x ,x x
n =
= = ∑
2
i 2
i
x s
= x i
Variance de
i
i
x s
= Écart-type de x i
( )
i j i j
x ,x Cov x ,x
=
26
Coefficient de corrélation linéaire
( )
n ( )
( )
i j
i j
i j i j
i j
i j
Cov X ,X
x ,x
Cos X ,X r X ,X
s s
X X
= = =
Le cosinus de l’angle formé par les variables Xi
et Xj
est le
coefficient de corrélation linéaire de ces deux variables
27
X3
X1
X
2
X4
X5
X6
X1 et X2 ont une
corrélation proche de 1.
X1 et X3 ont une
corrélation proche de 0.
CERCLE DES CORRÉLATIONS
28
III. VALIDITÉ DES REPRÉSENTATIONS
1. CRITÈRE GLOBAL
mesure la part d’inertie expliquée par l’axe i.
Exemple :
est la part d’inertie expliquée par le premier plan principal.
Ce critère (souvent exprimé en pourcentage) mesure le degré de
reconstitution des carrés des distances.
La réduction de dimension est d’autant plus forte que les
variables de départ sont plus corrélées.
λ
λ λ λ
i
p
1 2
+ + ...
λ λ
λ
1 2
1
+
=
∑ i
i
p
29
Combien d’axes ?
Différentes procédures sont complémentaires:
c Pourcentage d’inertie souhaité : a priori
d Diviser l’inertie totale par le nombre de variables initiales
Ö inertie moyenne par variable : I.M.
Conserver tous les axes apportant une inertie supérieure à cette valeur I.M.
(inertie  1 si variables centrées réduites).
e Histogramme . . .
. . . .
1
2
3
4
λ1
λ2
λ3 λ4
λ5
λ6
λ7
cassure
λ1
λ2
λ3
= 4,5
= 3,8
= 2,9
Conserver les axes associés
aux valeurs propres situées
avant la cassure.
30
cos cos cos
2 2
1
2
2
θ θ θ
= +
ei
f i
axe 1
axe 2
y
θ2
θ
θ1
2. CRITÈRES INDIVIDUELS
Cosinus carrés
31
Pour chaque individu , la qualité de sa représentation est définie
par le carré du cosinus de l’angle entre l’axe de projection et le
vecteur . Plus la valeur est proche de 1, meilleure est la
qualité de représentation
En général, les qualités de représentation sont données axe par
axe. Pour avoir la qualité de représentation dans un plan, on
additionne les critères correspondant aux axes étudiés.
Ce critère n’a pas de signification pour les individus proches
de l’origine.
Quand on détecte un individu pour lequel le cosinus carré est
faible, on doit tenir compte de sa distance à l’origine avant
d’indiquer qu’il est mal représenté
ei
32
Contributions
Il est très utile aussi de calculer pour chaque axe la contribution
apportée par les divers individus à cet axe.
Considérons la kième composante principale , soit la valeur
de la composante pour le ième individu.
ck
ci
k
( )
1
1
2
n
c
i
n
i
k
k
=
∑ = λ
La contribution de l’individu
à la composante n° k est définie par
( )
1 2
n
ci
k
k
λ
ei
33
Remarque :
ƒ Il n’est pas souhaitable qu’un individu ait une contribution
excessive (car facteur d’instabilité) Î éliminer les individus
dont la contribution est trop importante.
ƒ Problème des enquêtes par sondage
34
c
2
c
1
3. REPRÉSENTATION DES VARIABLES
Le cercle des corrélations est la projection du nuage des
variables sur le plan des composantes principales.
corrélation = cosinus
Les variables bien représentées
sont celles qui sont proches du
cercle, celles qui sont proches de
l’origine sont mal représentées.
35
4. INTERPRÉTATION EXTERNE : VARIABLES
ET INDIVIDUS SUPPLÉMENTAIRES (ILLUSTRATIFS)
4.1 Variables
•Variable quantitative:
On calcule le coefficient de corrélation entre la variable
supplémentaire et les composantes principales.
Ceci permet sa représentation sur le cercle des corrélations.
36
x
x x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
Variable qualitative
Identification des individus
de chaque catégorie de la
variable
Représentation de chaque
catégorie par son centre
de gravité.
Calcul du rapport de corrélation entre la variable qualitative
supplémentaire et chaque composante principale (test de
Fischer-Snedecor) ou valeur-test dans SPAD.
37
Individu de poids nul ne participant pas à l’analyse (fichier
test).
Appliquer aux coordonnées de l’individu les expressions
définissant les composantes principales.
Individus

Contenu connexe

Similaire à en analyse des composantes de donnees.pdf

Euclidien12octobre
Euclidien12octobreEuclidien12octobre
Euclidien12octobreche7t
 
Al7 ma19tepa0009 sequence-04
Al7 ma19tepa0009 sequence-04Al7 ma19tepa0009 sequence-04
Al7 ma19tepa0009 sequence-04tarek1961moussa
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanMedalith Estrada
 
Aates ch08 lois-a-densite
Aates ch08 lois-a-densiteAates ch08 lois-a-densite
Aates ch08 lois-a-densiteManar Sefiane
 
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Ahmed Ammar Rebai PhD
 
fctusuelle-1.pdf
fctusuelle-1.pdffctusuelle-1.pdf
fctusuelle-1.pdfTARIQBARKI3
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptxsara6496
 
Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciwospro-academy
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourierismailkziadi
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourierMehdi Maroun
 
Algebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.comAlgebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.cometude cours
 
Conception d'algorithmes pour l'approximation de la "Cut-Norm" avec l'inégali...
Conception d'algorithmes pour l'approximation de la "Cut-Norm" avec l'inégali...Conception d'algorithmes pour l'approximation de la "Cut-Norm" avec l'inégali...
Conception d'algorithmes pour l'approximation de la "Cut-Norm" avec l'inégali...ImadBerkani1
 
Courschapitre4 trigonometrie
Courschapitre4 trigonometrieCourschapitre4 trigonometrie
Courschapitre4 trigonometrievauzelle
 

Similaire à en analyse des composantes de donnees.pdf (20)

Euclidien12octobre
Euclidien12octobreEuclidien12octobre
Euclidien12octobre
 
Al7 ma19tepa0009 sequence-04
Al7 ma19tepa0009 sequence-04Al7 ma19tepa0009 sequence-04
Al7 ma19tepa0009 sequence-04
 
Chap9
Chap9Chap9
Chap9
 
Startimes2
Startimes2Startimes2
Startimes2
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregman
 
Aates ch08 lois-a-densite
Aates ch08 lois-a-densiteAates ch08 lois-a-densite
Aates ch08 lois-a-densite
 
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
 
fctusuelle-1.pdf
fctusuelle-1.pdffctusuelle-1.pdf
fctusuelle-1.pdf
 
Théorie des distributions
Théorie des distributionsThéorie des distributions
Théorie des distributions
 
AD-CH1-FCA-MAC-2019-21.pdf
AD-CH1-FCA-MAC-2019-21.pdfAD-CH1-FCA-MAC-2019-21.pdf
AD-CH1-FCA-MAC-2019-21.pdf
 
246242769 sequence-1-pdf
246242769 sequence-1-pdf246242769 sequence-1-pdf
246242769 sequence-1-pdf
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptx
 
Statistiques
StatistiquesStatistiques
Statistiques
 
Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon ici
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourier
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourier
 
Algebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.comAlgebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.com
 
Conception d'algorithmes pour l'approximation de la "Cut-Norm" avec l'inégali...
Conception d'algorithmes pour l'approximation de la "Cut-Norm" avec l'inégali...Conception d'algorithmes pour l'approximation de la "Cut-Norm" avec l'inégali...
Conception d'algorithmes pour l'approximation de la "Cut-Norm" avec l'inégali...
 
Clustering
ClusteringClustering
Clustering
 
Courschapitre4 trigonometrie
Courschapitre4 trigonometrieCourschapitre4 trigonometrie
Courschapitre4 trigonometrie
 

Dernier

Evaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxEvaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxAsmaa105193
 
Présentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxPrésentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxrababouerdighi
 
Guide Final de rédaction de mémoire de fin d'étude
Guide Final de rédaction de mémoire de fin d'étudeGuide Final de rédaction de mémoire de fin d'étude
Guide Final de rédaction de mémoire de fin d'étudeBenamraneMarwa
 
Saint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxSaint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxMartin M Flynn
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertChristianMbip
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptxSAID MASHATE
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptxTxaruka
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.Franck Apolis
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipM2i Formation
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETMedBechir
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETMedBechir
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .Txaruka
 
7 PPT sue le project de fin d'étude.pptx
7 PPT sue le project de fin d'étude.pptx7 PPT sue le project de fin d'étude.pptx
7 PPT sue le project de fin d'étude.pptxrababouerdighi
 

Dernier (15)

Evaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxEvaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. Marocpptx
 
Présentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxPrésentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptx
 
Pâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie PelletierPâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie Pelletier
 
Guide Final de rédaction de mémoire de fin d'étude
Guide Final de rédaction de mémoire de fin d'étudeGuide Final de rédaction de mémoire de fin d'étude
Guide Final de rédaction de mémoire de fin d'étude
 
Saint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxSaint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptx
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expert
 
Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptx
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadership
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSET
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
 
7 PPT sue le project de fin d'étude.pptx
7 PPT sue le project de fin d'étude.pptx7 PPT sue le project de fin d'étude.pptx
7 PPT sue le project de fin d'étude.pptx
 

en analyse des composantes de donnees.pdf

  • 2. 2 Données : n individus observés sur p variables quantitatives. L’A.C.P. permet d’explorer les liaisons entre variables et les ressemblances entre individus. Résultats : Ö Visualisation des individus (Notion de distances entre individus) Ö Visualisation des variables (en fonction de leurs corrélations) INTRODUCTION
  • 3. 3 c Mesurer la qualité des représentations obtenues : z critère global z critères individuels d « Donner des noms aux axes » Expliquer la position des individus e Utilisation éventuelle de variables supplémentaires (illustratives) INTERPRÉTATION DES RÉSULTATS
  • 4. 4 X1 X2 Xj Xp x1 1 x2 1 xi 1 xn 1 xj 1 xj 2 xi j xn j xp 1 xp 2 xi p xn p n Variable Xj p individu e i ' X (n,p) I. L’ANALYSE EN COMPOSANTES PRINCIPALES LE PROBLÈME 1. LES DONNÉES p variables quantitatives observées sur n individus. INDIVIDU = Élément de Rp VARIABLE = Élément de Rn
  • 5. 5 On cherche à représenter le nuage des individus. A chaque individu noté ei, on peut associer un point dans Rp = espace des individus. A chaque variable du tableau X est associé un axe de Rp. X 3 xi 3 ei xi 2 X 2 X1 xi 1 Impossible à visualiser dès que p > 3.
  • 6. 6 On cherche une représentation des n individus , dans un sous-espace Fk de Rp de dimension k ( k petit 2, 3 …; par exemple un plan) Autrement dit, on cherche à définir k nouvelles variables combinaisons linéaires des p variables initiales qui feront perdre le moins d’information possible. 2. PRINCIPE DE L’A.C.P. Ces variables seront appelées «composantes principales », les axes qu’elles déterminent : « axes principaux » les formes linéaires associées : « facteurs principaux »
  • 7. 7 ON VISUALISE X1 X2 Rp Xi axe 3 axe 1 axe 2 F3 axes principaux
  • 8. 8 « Perdre le moins d’information possible » Fk devra être « ajusté » le mieux possible au nuage des individus: la somme des carrés des distances des individus à Fk doit être minimale. c d Fk est le sous-espace tel que le nuage projeté ait une inertie (dispersion) maximale. c et d sont basées sur les notions de : distance projection orthogonale
  • 9. 9 ej fj fi Δ 2 β i β j α i α j Δ 1 ei La distance entre fi et fj est inférieure ou égale à celle entre ei et ej
  • 10. 10 3. LE CHOIX DE LA DISTANCE ENTRE INDIVIDUS yB yA xA xB A B Dans le plan: ( ) ( ) ( ) d A B x x y y B A B A 2 2 2 , = − + − Dans l’espace Rp à p dimensions, on généralise cette notion : la distance euclidienne entre deux individus s’écrit: ( ) e x i i i i p = 1 2 x . x .. ( ) e x j j j j p = 1 2 x . x .. ( ) ( ) ( ) ( ) d e e x x x x x x i j i j i j i p j p 2 1 1 2 2 2 2 2 . , .. = − + − + − ( ) ( ) d e e x x i j i k j k k p 2 2 1 , = − = ∑ Le problème des unités ?
  • 11. 11 Pour résoudre ce problème, on choisit de transformer les données en données centrées-réduites. L’observation est alors remplacée par : xi k UNITÉS D’ÉCART TYPE: où : moyenne de la variable Xk sk = écart-type de la variable Xk xi k − x s k k xk = Exemple : Puissance moyenne de 30 voitures = 92 ch Ecart-type = 24 ch La Renault 21 TXI a une puissance de 140 ch La Renault 21 TXI a une puissance de : 2 écarts-type au-dessus de la moyenne. 140 92 24 2 − =
  • 12. 12 4. INERTIE TOTALE ( ) I n e g g i i n = = ∑ d 1 2 1 , ( ) n 2 g i i i 1 I p d e , g = = ∑ ou de façon plus générale L’inertie est la somme pondérée des carrés des distances des individus au centre de gravité L’inertie mesure la dispersion totale du nuage de points. g n i i 1 p = 1 = ∑ avec
  • 13. 13 L’inertie est donc aussi égale à la somme des variances des variables étudiées. En notant V la matrice de variances-covariances : V = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ s1 2 12 s s2 2 sp1 s p 1 sp 2 ................ ................ ........ ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ Ig i i p = = ∑ s2 1 ( ) I Tr V g = Remarque Dans le cas où les variables sont centrées réduites, la variance de chaque variable vaut 1. L’inertie totale est alors égale à p (nombre de variables).
  • 14. 14 Équivalence des deux critères concernant la perte d’information F g f i ei Soit F un sous-ensemble de Rp la projection orthogonale de sur F Projection orthogonale du nuage sur un sous-espace f i ei e g e f f g i i i i i − = − + − ∀ = 2 2 2 1 . n ..
  • 15. 15 On va chercher F tel que : c p e f i i i i n soit minimal − = ∑ 2 1 ce qui revient d’après le théorème de Pythagore à maximiser : d p f g i i i n − = ∑ 2 1
  • 16. 16 e g e f f g i i i i i − = − + − ∀ = 2 2 2 1 . n .. p e g p e f p f g i i i n i i i i n i i i n = − − − − = = = ∑ ∑ ∑ 2 1 2 1 2 1 Inertie totale minimiser cette quantité (carrés des distances entre points individus et leurs projections) maximiser l’inertie du nuage projeté ⇔ Donc :
  • 17. 17 II. LA SOLUTION DU PROBLÈME POSÉ La recherche d’axes portant le maximum d’inertie équivaut à la construction de nouvelles variables (auxquelles sont associés ces axes) de variance maximale. En d’autres termes, on effectue un changement de repère dans Rp de façon à se placer dans un nouveau système de représentation où le premier axe apporte le plus possible de l’inertie totale du nuage, le deuxième axe le plus possible de l’inertie non prise en compte par le premier axe, et ainsi de suite. Cette réorganisation s’appuie sur la diagonalisation de la matrice de variances-covariances.
  • 18. 18 1. SOLUTION Axes principaux On appelle axes principaux d’inertie les axes de direction les vecteurs propres de V normés à 1. Il y en a p. Le premier axe est celui associé à la plus grande valeur propre . On le note u1 Le deuxième axe est celui associé à la deuxième valeur propre . On le note u2 ...
  • 19. 19 Composantes principales À chaque axe est associée une variable appelée composante principale. La composante c1 est le vecteur renfermant les cordonnées des projections des individus sur l’axe 1. La composante c2 est le vecteur renfermant les cordonnées des projections des individus sur l’axe 2. Pour obtenir ces coordonnées, on écrit que chaque composante principale est une combinaison linéaire des variables initiales. Exemple c u x u x x p p 1 1 1 1 2 1 2 1 = + + ... u
  • 20. 20 2. PROPRIÉTÉS DES COMPOSANTES PRINCIPALES c La variance d’une composante principale est égale à l’inertie portée par l’axe principal qui lui est associé. 1ère composante c1 variance : 2ème composante c2 variance : 3ème composante c3 variance : d Les composantes principales sont non corrélées deux à deux. En effet, les axes associés sont orthogonaux. λ1 3 λ 2 λ
  • 21. 21 3. REPRÉSENTATION DES INDIVIDUS La jème composante principale fournit les coordonnées des n individus sur le jème axe principal. Si on désire une représentation plane des individus, la meilleure sera celle réalisée grâce aux deux premières composantes principales. c c c c j j j n j = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ 1 2 ........
  • 22. 22 ej ei 2 1 g ci 1 ci 2 Attention à la qualité de représentation de chaque individu!
  • 23. 23 4. REPRÉSENTATION DES VARIABLES Les « proximités » entre les composantes principales et les variables initiales sont mesurées par les covariances, et surtout les corrélations. est le coefficient de corrélation linéaire entre et ( ) r c x j i , cj xi ( ) r c x i 2 , c 2 c 1 xi ( ) r c xi 1 , CERCLE DES CORRÉLATIONS
  • 24. 24 5. INTERPRETATION DES « PROXIMITÉS » ENTRE VARIABLES On utilise un produit scalaire entre variables permettant d’associer aux paramètres courants : écart-type, coefficient de corrélation linéaire des représentations géométriques. n i j i j k k k 1 1 x , x x x n = = ∑ On suppose les variables centrées.
  • 25. 25 ( ) n 2 2 i i i i k k 1 1 x x ,x x n = = = ∑ 2 i 2 i x s = x i Variance de i i x s = Écart-type de x i ( ) i j i j x ,x Cov x ,x =
  • 26. 26 Coefficient de corrélation linéaire ( ) n ( ) ( ) i j i j i j i j i j i j Cov X ,X x ,x Cos X ,X r X ,X s s X X = = = Le cosinus de l’angle formé par les variables Xi et Xj est le coefficient de corrélation linéaire de ces deux variables
  • 27. 27 X3 X1 X 2 X4 X5 X6 X1 et X2 ont une corrélation proche de 1. X1 et X3 ont une corrélation proche de 0. CERCLE DES CORRÉLATIONS
  • 28. 28 III. VALIDITÉ DES REPRÉSENTATIONS 1. CRITÈRE GLOBAL mesure la part d’inertie expliquée par l’axe i. Exemple : est la part d’inertie expliquée par le premier plan principal. Ce critère (souvent exprimé en pourcentage) mesure le degré de reconstitution des carrés des distances. La réduction de dimension est d’autant plus forte que les variables de départ sont plus corrélées. λ λ λ λ i p 1 2 + + ... λ λ λ 1 2 1 + = ∑ i i p
  • 29. 29 Combien d’axes ? Différentes procédures sont complémentaires: c Pourcentage d’inertie souhaité : a priori d Diviser l’inertie totale par le nombre de variables initiales Ö inertie moyenne par variable : I.M. Conserver tous les axes apportant une inertie supérieure à cette valeur I.M. (inertie 1 si variables centrées réduites). e Histogramme . . . . . . . 1 2 3 4 λ1 λ2 λ3 λ4 λ5 λ6 λ7 cassure λ1 λ2 λ3 = 4,5 = 3,8 = 2,9 Conserver les axes associés aux valeurs propres situées avant la cassure.
  • 30. 30 cos cos cos 2 2 1 2 2 θ θ θ = + ei f i axe 1 axe 2 y θ2 θ θ1 2. CRITÈRES INDIVIDUELS Cosinus carrés
  • 31. 31 Pour chaque individu , la qualité de sa représentation est définie par le carré du cosinus de l’angle entre l’axe de projection et le vecteur . Plus la valeur est proche de 1, meilleure est la qualité de représentation En général, les qualités de représentation sont données axe par axe. Pour avoir la qualité de représentation dans un plan, on additionne les critères correspondant aux axes étudiés. Ce critère n’a pas de signification pour les individus proches de l’origine. Quand on détecte un individu pour lequel le cosinus carré est faible, on doit tenir compte de sa distance à l’origine avant d’indiquer qu’il est mal représenté ei
  • 32. 32 Contributions Il est très utile aussi de calculer pour chaque axe la contribution apportée par les divers individus à cet axe. Considérons la kième composante principale , soit la valeur de la composante pour le ième individu. ck ci k ( ) 1 1 2 n c i n i k k = ∑ = λ La contribution de l’individu à la composante n° k est définie par ( ) 1 2 n ci k k λ ei
  • 33. 33 Remarque : ƒ Il n’est pas souhaitable qu’un individu ait une contribution excessive (car facteur d’instabilité) Î éliminer les individus dont la contribution est trop importante. ƒ Problème des enquêtes par sondage
  • 34. 34 c 2 c 1 3. REPRÉSENTATION DES VARIABLES Le cercle des corrélations est la projection du nuage des variables sur le plan des composantes principales. corrélation = cosinus Les variables bien représentées sont celles qui sont proches du cercle, celles qui sont proches de l’origine sont mal représentées.
  • 35. 35 4. INTERPRÉTATION EXTERNE : VARIABLES ET INDIVIDUS SUPPLÉMENTAIRES (ILLUSTRATIFS) 4.1 Variables •Variable quantitative: On calcule le coefficient de corrélation entre la variable supplémentaire et les composantes principales. Ceci permet sa représentation sur le cercle des corrélations.
  • 36. 36 x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x Variable qualitative Identification des individus de chaque catégorie de la variable Représentation de chaque catégorie par son centre de gravité. Calcul du rapport de corrélation entre la variable qualitative supplémentaire et chaque composante principale (test de Fischer-Snedecor) ou valeur-test dans SPAD.
  • 37. 37 Individu de poids nul ne participant pas à l’analyse (fichier test). Appliquer aux coordonnées de l’individu les expressions définissant les composantes principales. Individus