Analyse en Composantes Principales

Analyse en Composantes Principales
Introduction
L’analyse en composantes principales (ACP) appartient à la famille des méthodes d’analyse de
données.
Elle a été proposée en 1901 par Karl Pearson. L’ACP s’appuie essentiellement sur de la géométrie,
de l’algèbre linéaire et les statistiques.
Face au fléau de la dimensionnalité que connaissent les algorithmes de machine learning à
réseaux de neurones profonds, l’intérêt pour cette méthode a été renouvelé. En effet sa capacité
à réduire la dimension des données à traiter permet d’améliorer la performance des algorithmes
et, au-delà, de réduire le risque de surapprentissage.
L’ACP est considérée comme étant une méthode d’apprentissage automatique non supervisé.
201J. DABOUNOU - FST DE SETTAT

Objectifs
• Réduire le nombre de variables en les résumant à un nombre plus petit de composantes
synthétiques
• Construire des groupes d’individus qui présentent des similitudes
• Extraire les principales caractéristiques des individus pour éventuellement les utiliser dans
des algorithmes d’apprentissage automatique
• Permettre une représentation graphique optimale des informations recueillies
• Disposer d’outils permettant l’interprétation des résultats obtenus.
Lors de l’analyse en composante principale on s’intéresse aux similitudes entre les individus et
aux corrélations entre les variables.

Données à manipuler
On se donne I individus Xi et J variables quantitatives Vj avec xij la valeur de la variable Vj pour
l’individu Xi. Ces données sont représentées sous forme matricielle par :
X =
Ou tout simplement
X =
Les lignes représentent les individus et les colonnes les variables.
V1 V2 … VJ
X1 x11 x12 x1J
X2 x21 x22 x2J
⁞
XI xI1 xI2 xIJ
x11 x12 … x1J
x21 x22 x2J
⁞ ⁞ ⁞
xI1 xI2 xIJ

Exemple :
Dans le tableau ci-dessous on considère les notes de 10 étudiants dans 5 modules :
Dans les cas concrets, il s’agit souvent de tableaux avec beaucoup plus de données. Il arrive que
l’on traite des millions d’individus et des centaines de milliers de variables. Il est commode que le
nombre d’individus soit largement supérieur aux nombre de variables.

Espaces des données
Les lignes qui représentent les I individus, notées Xi sont considérées comme appartenant à RJ.
Les colonnes qui représentent les J variables Vj , appartiennent à RI.
Pour chaque j, on calcule la moyenne des valeurs prises par la variable Vj :
Ensuite, on remplace dans la matrice X chaque colonne par la variable centrée correspondante.
On obtient alors :
XCentrée =
Pour simplifier on va par la suite maintenir la notation de la matrice X pour désigner XCentrée.


I
1i
ijj x
I
1
x
x11 x12 x1J
x21 x22 x2J
xI1 xI2 xIJ
1x 2x Jx
1x 2x Jx
1x 2x Jx

Exemple :
Pour le tableau des notes des étudiants on obtient :
Lorsque les variables sont centrées, la moyenne de chaque variable devient nulle. Par contre
l’écart type reste le même. La translation n’affecte pas la dispersion des valeurs d’une variable.
X =

Analyse des individus dans l’espace des variables
On projette les I vecteurs lignes représentant les individus dans l’espace RJ. On obtient un
graphique similaire à celui-ci-dessous :
Soit D1 une droite qui passe par l’origine et u1 un vecteur unitaire de de cette droite. On note O1i
la projection de Xi sur D1.
O
RJ
u1
Xi
O1i
D1

On considère O11, O12, …, O1I, les projections des points X1, X2, …, XI sur D1. On a :
O
RJ
u1
Xi
O1i
D1

Les points O11, O12, …, O1I, les projections des points X1, X2, …, XI sur D1.
L’analyse de cette série, notamment en terme de variance, peut nous renseigner sur la variance
globale des points Xi dans l’espace RJ.
On cherche alors, pour commencer, à trouver la direction D1 qui réalise un maximum de variance
des points projetés O1i i=1,I. Cela revient à dire que D1 maximise la dispersion des points projetés
parmi toutes les directions passant par l’origine O.
u1 D1
O O1i

Matrice des variances covariance
Soit
 s’appelle matrice de variance covariance.
Si on pose  = ( skl), k,l=1,J alors skl est la covariance des variables Vk et Vl.
En particulier si k=l, skk est la variance de la variable Vk.
skl = var(Vk , Vl) et skk = var(Vk)
On voit facilement que XtX et  ont les mêmes vecteurs propres et (à un facteur I près) les
mêmes valeurs propres et d’un autre côté, ces matrices sont symétriques et semi-définies
positives, donc possèdent r valeurs propres positives, r étant le rang de XtX (ou de ).
On a toujours r  min(I,J).
On pose 1  2  … r  0 les valeurs propres et u1, u2, …, ur les vecteurs propres associés.
XXΣ t
I
1


Il s’agit d’un problème d’optimisation:
Trouver u1 qui maximise :
I1 étant l’inertie expliquée par la droite D1.
On remarque déjà que maximiser :
Revient à minimiser
Ainsi la droite D1 recherchée est celle qui soit la plus proche du nuage de points Xi.
O
RJ
u1
Xi
O1i
D1


I
1i
2
i1 1
I
1
I OO


I
1i
2
i1 1
I
1
I OO

I
1i
2
ii 1OX

On a pour tout i=1,I: OO1i = Xiu1. Xi étant considéré comme un vecteur ligne.
Donc choisir u1 unitaire qui maximise
Revient à trouver u1 unitaire qui maximise (Xu1)t.(Xu1) = u1
t XtXu1.
On utilise la méthode de Lagrange. Soit  le multiplicateur de
Lagrange. On va alors maximiser le Lagrangien:
L(u1) = u1
t XtXu1 - (u1
t u1 - 1)
Le maximum est atteint lorsque la dérivée suivante s’annule :
On a ainsi deux conditions à satisfaire :
• u1 doit être vecteur propre de XtX associé à une valeur propre 1
• Cette valeur propre 1 doit être la plus grande des valeurs propres de XtX.
O
RJ
u1
Xi
O1i
D1

I
1i
2
i1 1
I
1
I OO
022
L
11
t
1



uXuX
u

Axes de l’ACP
L’ACP permet de représenter les individus (nuage de points) dans l’espace des variables dans la
base (u1, u2, …, ur). Les vecteurs propres ui sont unitaires et deux à deux orthogonaux.
Par ailleurs, on considère que l’information contenue dans les données correspond à la variance
globale des variables (dispersion des points).
Donc à l’inertie globale, égale à trace(XtX).
Or on sait que
)...(
I
1
)(trace
I
1
)var()(traceglobale_Inertie
r21
t
J
1j
j

 
XX
VΣ
O
RJ
u1
Xi
O1i
D1
u2
D2
I
1

Composantes principales
Les points O11, O12, …, O1I sont les projections des points
X1, X2, …, XI sur D1 et on a :
Soit le vecteur F1= (O11, O12, …, O1I)tRJ.
De même, O21, O22, … O2I sont les projections des points
X1, X2, …, XI sur D2 et on a :
Soit le vecteur F2= (O21, O22, … O2I)tRJ.
…
Et enfin Or1, Or2, …, OrI sont les projections des points X1,
X2, …, XI sur Dr et on a :
Soit le vecteur Fr= (Or1, Or2, … OrI)tRJ, espace des
variables.
D1
O O1i
u1
O2i
Ori
O
RJ
u1
Xi
O1i
D1
u2
O2i
D2
D2
u2
O
Dr
ur
O
⁞


I
1i
2
i1 1OO


I
1i
2
i2 2OO


I
1i
2
ir rOO

Composantes principales
Les vecteurs F1, F2,…, Fr sont appelés composantes
principales. On a
F1 = X u1, F2 = X u2, …, Fr = X ur.
La matrice X peut être remplacée, dans la base orthonormée
(u1, u2, …, ur) par la matrice de composantes principales
C = [ F1 F2 … Fr ]
Ce qui permet de réduire la dimension des données puisque
rJ sans perte d’information (Inertie globale).
En effet:
trace(XtX) = 1 + 2 +…+ r = u1
tXtXu1 + u2
tXtXu2 + …+ ur
tXtXur
= F1t F1 + F2t F2 + …+ Frt Fr = trace(Ct C)
D1
O O1i
u1
O2i
Ori
O
RJ
u1
Xi
O1i
D1
u2
O2i
D2
D2
u2
O
Dr
ur
O
⁞

D1
O O1i
u1
O2i
Ori
D2
u2
O
Dr
ur
O
⁞
Réduction de la dimensionnalité
Il arrive souvent que pour s très inférieur au rang r on ait :
Cela exprime le fait qu’à partir de s << r la variance des composantes principales (ou, autrement dit
les valeurs propres) devient négligeable (voir figure ci-dessous).
Dans ce cas La matrice X peut être remplacée, sans risque de perte d’information significative, par la
matrice C = [ F1 F2 … Fs ] dans le sous-espace engendré par la famille orthonormée (u1, u2, …, us).
Ce qui permet de réduire la dimension des données puisque s << r J.
1
...
...
r21
s21



Dans le contexte du machine learning, la contribution
des composantes principales de faible variance est
souvent considérée comme un bruit. Le fait de les
négliger améliore l’apprentissage en réduisant le risque
d’overfitting (surappretissage).

Le plan factoriel
Le plan défini par le couple de vecteurs propres (u1, u2) est appelé plan factoriel.
Il s’agit du plan :
- qui est globalement le plus proche des points représentant les individus
- sur lequel ces points se déforment le moins possible par projection
- qui explique le mieux possible l’inertie projetée
- tel que les points projetés dessus visualisent le mieux possible (par rapport à tout autre plan) la
disposition des individus dans l’espace RJ.
D’ailleurs ces quatre conditions sont équivalentes.
Cette visualisation est d’autant plus fidèle au nuage de points que le taux est
proche de 1.
r21
21
... 


Exemple de matrice des variances covariance
On considère notre exemple des notes des étudiants. On a alors
XtX =
 =
Valeurs propres de XtX :
1 = 358,171559  2 = 120,66  1 = 18,189547  2 = 15,923189  r = 4,657534  0

Exemple de matrice des variances covariance
On obtient pour la matrice de passage P et la matrice diagonale des valeurs propres D :
Avec XtX = Pt D P
P =
D =

Analyse en Composantes Principales

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Analyse en Composantes Principales

Similaire à Analyse en Composantes Principales (20)

Plus de Jaouad Dabounou

Plus de Jaouad Dabounou (17)

Dernier

Dernier (12)

Analyse en Composantes Principales