SlideShare une entreprise Scribd logo
Analyse en Composantes Principales
Analyse en Composantes Principales
Introduction
L’analyse en composantes principales (ACP) appartient à la famille des méthodes d’analyse de
données.
Elle a été proposée en 1901 par Karl Pearson. L’ACP s’appuie essentiellement sur de la géométrie,
de l’algèbre linéaire et les statistiques.
Face au fléau de la dimensionnalité que connaissent les algorithmes de machine learning à
réseaux de neurones profonds, l’intérêt pour cette méthode a été renouvelé. En effet sa capacité
à réduire la dimension des données à traiter permet d’améliorer la performance des algorithmes
et, au-delà, de réduire le risque de surapprentissage.
L’ACP est considérée comme étant une méthode d’apprentissage automatique non supervisé.
201J. DABOUNOU - FST DE SETTAT
Analyse en Composantes Principales
Objectifs
• Réduire le nombre de variables en les résumant à un nombre plus petit de composantes
synthétiques
• Construire des groupes d’individus qui présentent des similitudes
• Extraire les principales caractéristiques des individus pour éventuellement les utiliser dans
des algorithmes d’apprentissage automatique
• Permettre une représentation graphique optimale des informations recueillies
• Disposer d’outils permettant l’interprétation des résultats obtenus.
Lors de l’analyse en composante principale on s’intéresse aux similitudes entre les individus et
aux corrélations entre les variables.
202J. DABOUNOU - FST DE SETTAT
Analyse en Composantes Principales
Données à manipuler
On se donne I individus Xi et J variables quantitatives Vj avec xij la valeur de la variable Vj pour
l’individu Xi. Ces données sont représentées sous forme matricielle par :
X =
Ou tout simplement
X =
Les lignes représentent les individus et les colonnes les variables.
V1 V2 … VJ
X1 x11 x12 x1J
X2 x21 x22 x2J
⁞
XI xI1 xI2 xIJ
x11 x12 … x1J
x21 x22 x2J
⁞ ⁞ ⁞
xI1 xI2 xIJ
203J. DABOUNOU - FST DE SETTAT
Analyse en Composantes Principales
Exemple :
Dans le tableau ci-dessous on considère les notes de 10 étudiants dans 5 modules :
Dans les cas concrets, il s’agit souvent de tableaux avec beaucoup plus de données. Il arrive que
l’on traite des millions d’individus et des centaines de milliers de variables. Il est commode que le
nombre d’individus soit largement supérieur aux nombre de variables.
204J. DABOUNOU - FST DE SETTAT
Analyse en Composantes Principales
Espaces des données
Les lignes qui représentent les I individus, notées Xi sont considérées comme appartenant à RJ.
Les colonnes qui représentent les J variables Vj , appartiennent à RI.
Pour chaque j, on calcule la moyenne des valeurs prises par la variable Vj :
Ensuite, on remplace dans la matrice X chaque colonne par la variable centrée correspondante.
On obtient alors :
XCentrée =
Pour simplifier on va par la suite maintenir la notation de la matrice X pour désigner XCentrée.


I
1i
ijj x
I
1
x
x11 x12 x1J
x21 x22 x2J
xI1 xI2 xIJ
1x 2x Jx
1x 2x Jx
1x 2x Jx
205J. DABOUNOU - FST DE SETTAT
Analyse en Composantes Principales
Exemple :
Pour le tableau des notes des étudiants on obtient :
Lorsque les variables sont centrées, la moyenne de chaque variable devient nulle. Par contre
l’écart type reste le même. La translation n’affecte pas la dispersion des valeurs d’une variable.
X =
206J. DABOUNOU - FST DE SETTAT
Analyse en Composantes Principales
Analyse des individus dans l’espace des variables
On projette les I vecteurs lignes représentant les individus dans l’espace RJ. On obtient un
graphique similaire à celui-ci-dessous :
Soit D1 une droite qui passe par l’origine et u1 un vecteur unitaire de de cette droite. On note O1i
la projection de Xi sur D1.
O
RJ
u1
Xi
O1i
D1
207J. DABOUNOU - FST DE SETTAT
Analyse des individus dans l’espace des variables
On considère O11, O12, …, O1I, les projections des points X1, X2, …, XI sur D1. On a :
Analyse en Composantes Principales
O
RJ
u1
Xi
O1i
D1
208J. DABOUNOU - FST DE SETTAT
Analyse des individus dans l’espace des variables
Les points O11, O12, …, O1I, les projections des points X1, X2, …, XI sur D1.
L’analyse de cette série, notamment en terme de variance, peut nous renseigner sur la variance
globale des points Xi dans l’espace RJ.
On cherche alors, pour commencer, à trouver la direction D1 qui réalise un maximum de variance
des points projetés O1i i=1,I. Cela revient à dire que D1 maximise la dispersion des points projetés
parmi toutes les directions passant par l’origine O.
Analyse en Composantes Principales
u1 D1
O O1i
209J. DABOUNOU - FST DE SETTAT
Matrice des variances covariance
Soit
 s’appelle matrice de variance covariance.
Si on pose  = ( skl), k,l=1,J alors skl est la covariance des variables Vk et Vl.
En particulier si k=l, skk est la variance de la variable Vk.
skl = var(Vk , Vl) et skk = var(Vk)
On voit facilement que XtX et  ont les mêmes vecteurs propres et (à un facteur I près) les
mêmes valeurs propres et d’un autre côté, ces matrices sont symétriques et semi-définies
positives, donc possèdent r valeurs propres positives, r étant le rang de XtX (ou de ).
On a toujours r  min(I,J).
On pose 1  2  … r  0 les valeurs propres et u1, u2, …, ur les vecteurs propres associés.
Analyse en Composantes Principales
XXΣ t
I
1

210J. DABOUNOU - FST DE SETTAT
Analyse des individus dans l’espace des variables
Il s’agit d’un problème d’optimisation:
Trouver u1 qui maximise :
I1 étant l’inertie expliquée par la droite D1.
On remarque déjà que maximiser :
Revient à minimiser
Ainsi la droite D1 recherchée est celle qui soit la plus proche du nuage de points Xi.
Analyse en Composantes Principales
O
RJ
u1
Xi
O1i
D1


I
1i
2
i1 1
I
1
I OO


I
1i
2
i1 1
I
1
I OO

I
1i
2
ii 1OX
211J. DABOUNOU - FST DE SETTAT
Analyse des individus dans l’espace des variables
On a pour tout i=1,I: OO1i = Xiu1. Xi étant considéré comme un vecteur ligne.
Donc choisir u1 unitaire qui maximise
Revient à trouver u1 unitaire qui maximise (Xu1)t.(Xu1) = u1
t XtXu1.
On utilise la méthode de Lagrange. Soit  le multiplicateur de
Lagrange. On va alors maximiser le Lagrangien:
L(u1) = u1
t XtXu1 - (u1
t u1 - 1)
Le maximum est atteint lorsque la dérivée suivante s’annule :
On a ainsi deux conditions à satisfaire :
• u1 doit être vecteur propre de XtX associé à une valeur propre 1
• Cette valeur propre 1 doit être la plus grande des valeurs propres de XtX.
Analyse en Composantes Principales
O
RJ
u1
Xi
O1i
D1

I
1i
2
i1 1
I
1
I OO
022
L
11
t
1



uXuX
u
212J. DABOUNOU - FST DE SETTAT
Axes de l’ACP
L’ACP permet de représenter les individus (nuage de points) dans l’espace des variables dans la
base (u1, u2, …, ur). Les vecteurs propres ui sont unitaires et deux à deux orthogonaux.
Par ailleurs, on considère que l’information contenue dans les données correspond à la variance
globale des variables (dispersion des points).
Donc à l’inertie globale, égale à trace(XtX).
Or on sait que
Analyse en Composantes Principales
213J. DABOUNOU - FST DE SETTAT
)...(
I
1
)(trace
I
1
)var()(traceglobale_Inertie
r21
t
J
1j
j

 
XX
VΣ
O
RJ
u1
Xi
O1i
D1
u2
D2
I
1
Composantes principales
Les points O11, O12, …, O1I sont les projections des points
X1, X2, …, XI sur D1 et on a :
Soit le vecteur F1= (O11, O12, …, O1I)tRJ.
De même, O21, O22, … O2I sont les projections des points
X1, X2, …, XI sur D2 et on a :
Soit le vecteur F2= (O21, O22, … O2I)tRJ.
…
Et enfin Or1, Or2, …, OrI sont les projections des points X1,
X2, …, XI sur Dr et on a :
Soit le vecteur Fr= (Or1, Or2, … OrI)tRJ, espace des
variables.
Analyse en Composantes Principales
214J. DABOUNOU - FST DE SETTAT
D1
O O1i
u1
O2i
Ori
O
RJ
u1
Xi
O1i
D1
u2
O2i
D2
D2
u2
O
Dr
ur
O
⁞


I
1i
2
i1 1OO


I
1i
2
i2 2OO


I
1i
2
ir rOO
Composantes principales
Les vecteurs F1, F2,…, Fr sont appelés composantes
principales. On a
F1 = X u1, F2 = X u2, …, Fr = X ur.
La matrice X peut être remplacée, dans la base orthonormée
(u1, u2, …, ur) par la matrice de composantes principales
C = [ F1 F2 … Fr ]
Ce qui permet de réduire la dimension des données puisque
rJ sans perte d’information (Inertie globale).
En effet:
trace(XtX) = 1 + 2 +…+ r = u1
tXtXu1 + u2
tXtXu2 + …+ ur
tXtXur
= F1t F1 + F2t F2 + …+ Frt Fr = trace(Ct C)
Analyse en Composantes Principales
215J. DABOUNOU - FST DE SETTAT
D1
O O1i
u1
O2i
Ori
O
RJ
u1
Xi
O1i
D1
u2
O2i
D2
D2
u2
O
Dr
ur
O
⁞
Analyse en Composantes Principales
216J. DABOUNOU - FST DE SETTAT
D1
O O1i
u1
O2i
Ori
D2
u2
O
Dr
ur
O
⁞
Réduction de la dimensionnalité
Il arrive souvent que pour s très inférieur au rang r on ait :
Cela exprime le fait qu’à partir de s << r la variance des composantes principales (ou, autrement dit
les valeurs propres) devient négligeable (voir figure ci-dessous).
Dans ce cas La matrice X peut être remplacée, sans risque de perte d’information significative, par la
matrice C = [ F1 F2 … Fs ] dans le sous-espace engendré par la famille orthonormée (u1, u2, …, us).
Ce qui permet de réduire la dimension des données puisque s << r J.
1
...
...
r21
s21



Dans le contexte du machine learning, la contribution
des composantes principales de faible variance est
souvent considérée comme un bruit. Le fait de les
négliger améliore l’apprentissage en réduisant le risque
d’overfitting (surappretissage).
Le plan factoriel
Le plan défini par le couple de vecteurs propres (u1, u2) est appelé plan factoriel.
Il s’agit du plan :
- qui est globalement le plus proche des points représentant les individus
- sur lequel ces points se déforment le moins possible par projection
- qui explique le mieux possible l’inertie projetée
- tel que les points projetés dessus visualisent le mieux possible (par rapport à tout autre plan) la
disposition des individus dans l’espace RJ.
D’ailleurs ces quatre conditions sont équivalentes.
Cette visualisation est d’autant plus fidèle au nuage de points que le taux est
proche de 1.
Analyse en Composantes Principales
217J. DABOUNOU - FST DE SETTAT
r21
21
... 

Exemple de matrice des variances covariance
On considère notre exemple des notes des étudiants. On a alors
Analyse en Composantes Principales
XtX =
 =
Valeurs propres de XtX :
1 = 358,171559  2 = 120,66  1 = 18,189547  2 = 15,923189  r = 4,657534  0
218J. DABOUNOU - FST DE SETTAT
Exemple de matrice des variances covariance
On obtient pour la matrice de passage P et la matrice diagonale des valeurs propres D :
Analyse en Composantes Principales
Avec XtX = Pt D P
219J. DABOUNOU - FST DE SETTAT
P =
D =

Contenu connexe

Tendances

Polycopie Analyse Numérique
Polycopie Analyse NumériquePolycopie Analyse Numérique
Polycopie Analyse Numérique
Jaouad Dabounou
 
Filtrage image
Filtrage imageFiltrage image
Filtrage image
mostafadess
 
Examen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionExamen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correction
Ines Ouaz
 
Détection des droites par la transformée de Hough
Détection des droites par la transformée de HoughDétection des droites par la transformée de Hough
Détection des droites par la transformée de Hough
Khaled Fayala
 
CM3 - Transformée de Fourier
CM3 - Transformée de FourierCM3 - Transformée de Fourier
CM3 - Transformée de Fourier
Pierre Maréchal
 
W2 vec001
W2 vec001W2 vec001
W2 vec001
Jaouad Dabounou
 
Traitement des images avec matlab
Traitement des images avec matlabTraitement des images avec matlab
Traitement des images avec matlab
omar bllaouhamou
 
chap3 numerisation_des_signaux
chap3 numerisation_des_signauxchap3 numerisation_des_signaux
chap3 numerisation_des_signaux
BAKKOURY Jamila
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision
Yassine Badri
 
Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afc
Rémi Bachelet
 
Chapitre 1 Rappels sur le filtrage numérique 1.pdf
Chapitre 1 Rappels sur le filtrage numérique 1.pdfChapitre 1 Rappels sur le filtrage numérique 1.pdf
Chapitre 1 Rappels sur le filtrage numérique 1.pdf
Heithem2
 
FormationPython2019.pptx
FormationPython2019.pptxFormationPython2019.pptx
FormationPython2019.pptx
LamissGhoul1
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
Mohamed Heny SELMI
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
Adad Med Chérif
 
Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)
Ines Ouaz
 
Introduction a la compilation Analyse Syntaxique - C3
Introduction a la compilation  Analyse Syntaxique - C3Introduction a la compilation  Analyse Syntaxique - C3
Introduction a la compilation Analyse Syntaxique - C3
Beligh HAMDI
 
Regression lineaire simple
Regression lineaire simpleRegression lineaire simple
Regression lineaire simple
Mehdi Rajawi
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
Mohamed Heny SELMI
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaire
Boris Guarisma
 
Fiche de TP 1 sur les Feuilles de calculs avec les Tableurs
Fiche de TP 1 sur les Feuilles de calculs avec les Tableurs Fiche de TP 1 sur les Feuilles de calculs avec les Tableurs
Fiche de TP 1 sur les Feuilles de calculs avec les Tableurs
ATPENSC-Group
 

Tendances (20)

Polycopie Analyse Numérique
Polycopie Analyse NumériquePolycopie Analyse Numérique
Polycopie Analyse Numérique
 
Filtrage image
Filtrage imageFiltrage image
Filtrage image
 
Examen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionExamen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correction
 
Détection des droites par la transformée de Hough
Détection des droites par la transformée de HoughDétection des droites par la transformée de Hough
Détection des droites par la transformée de Hough
 
CM3 - Transformée de Fourier
CM3 - Transformée de FourierCM3 - Transformée de Fourier
CM3 - Transformée de Fourier
 
W2 vec001
W2 vec001W2 vec001
W2 vec001
 
Traitement des images avec matlab
Traitement des images avec matlabTraitement des images avec matlab
Traitement des images avec matlab
 
chap3 numerisation_des_signaux
chap3 numerisation_des_signauxchap3 numerisation_des_signaux
chap3 numerisation_des_signaux
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision
 
Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afc
 
Chapitre 1 Rappels sur le filtrage numérique 1.pdf
Chapitre 1 Rappels sur le filtrage numérique 1.pdfChapitre 1 Rappels sur le filtrage numérique 1.pdf
Chapitre 1 Rappels sur le filtrage numérique 1.pdf
 
FormationPython2019.pptx
FormationPython2019.pptxFormationPython2019.pptx
FormationPython2019.pptx
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 
Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)
 
Introduction a la compilation Analyse Syntaxique - C3
Introduction a la compilation  Analyse Syntaxique - C3Introduction a la compilation  Analyse Syntaxique - C3
Introduction a la compilation Analyse Syntaxique - C3
 
Regression lineaire simple
Regression lineaire simpleRegression lineaire simple
Regression lineaire simple
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaire
 
Fiche de TP 1 sur les Feuilles de calculs avec les Tableurs
Fiche de TP 1 sur les Feuilles de calculs avec les Tableurs Fiche de TP 1 sur les Feuilles de calculs avec les Tableurs
Fiche de TP 1 sur les Feuilles de calculs avec les Tableurs
 

Similaire à Analyse en Composantes Principales

Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
Jaouad Dabounou
 
Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon ici
wospro-academy
 
APPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUEAPPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUE
Ayoub Abraich
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdf
ELHASSANEAJARCIF1
 
Chap9 : Systèmes non linéaires
Chap9 : Systèmes non linéairesChap9 : Systèmes non linéaires
Chap9 : Systèmes non linéaires
Mohammed TAMALI
 
Classifieur d'entropie maximale (MaxEnt)
Classifieur d'entropie maximale (MaxEnt)Classifieur d'entropie maximale (MaxEnt)
Classifieur d'entropie maximale (MaxEnt)
Jean-Philippe Fauconnier
 
Quad-expo-stats
Quad-expo-statsQuad-expo-stats
Quad-expo-stats
secondaire4TS
 
Actuariat et Données
Actuariat et DonnéesActuariat et Données
Actuariat et Données
Arthur Charpentier
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
TarekDHAHRI1
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
TarekDHAHRI1
 
Chapitre1.pdf
Chapitre1.pdfChapitre1.pdf
Chapitre1.pdf
MedNajiBebeye
 
Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...
tuxette
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdf
SidiAbdallah1
 
Exam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearExam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd year
Christian Robert
 
Ponts castillo1 statistique
Ponts castillo1 statistiquePonts castillo1 statistique
Ponts castillo1 statistique
Ali BEN MANSOUR
 

Similaire à Analyse en Composantes Principales (20)

Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon ici
 
APPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUEAPPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUE
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdf
 
Chap9 : Systèmes non linéaires
Chap9 : Systèmes non linéairesChap9 : Systèmes non linéaires
Chap9 : Systèmes non linéaires
 
Slides cirm-copulasv3
Slides cirm-copulasv3Slides cirm-copulasv3
Slides cirm-copulasv3
 
Classifieur d'entropie maximale (MaxEnt)
Classifieur d'entropie maximale (MaxEnt)Classifieur d'entropie maximale (MaxEnt)
Classifieur d'entropie maximale (MaxEnt)
 
Quad-expo-stats
Quad-expo-statsQuad-expo-stats
Quad-expo-stats
 
Actuariat et Données
Actuariat et DonnéesActuariat et Données
Actuariat et Données
 
Clustering
ClusteringClustering
Clustering
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Espacesvec
EspacesvecEspacesvec
Espacesvec
 
Chapitre1.pdf
Chapitre1.pdfChapitre1.pdf
Chapitre1.pdf
 
Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdf
 
Rappels stats-2014-part2
Rappels stats-2014-part2Rappels stats-2014-part2
Rappels stats-2014-part2
 
Exam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearExam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd year
 
Ponts castillo1 statistique
Ponts castillo1 statistiquePonts castillo1 statistique
Ponts castillo1 statistique
 
Ch1 anal fonc17-18
Ch1 anal fonc17-18Ch1 anal fonc17-18
Ch1 anal fonc17-18
 

Plus de Jaouad Dabounou

اللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdfاللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdf
Jaouad Dabounou
 
Mrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine LearningMrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine Learning
Jaouad Dabounou
 
RNN avec mécanisme d'attention
RNN avec mécanisme d'attentionRNN avec mécanisme d'attention
RNN avec mécanisme d'attention
Jaouad Dabounou
 
Projection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermésProjection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermés
Jaouad Dabounou
 
Projection d’un point sur un ensemble
Projection d’un point sur un ensembleProjection d’un point sur un ensemble
Projection d’un point sur un ensemble
Jaouad Dabounou
 
Fonction distance à un ensemble
Fonction distance à un ensembleFonction distance à un ensemble
Fonction distance à un ensemble
Jaouad Dabounou
 
Théorèmes de Carathéodory
Théorèmes de CarathéodoryThéorèmes de Carathéodory
Théorèmes de Carathéodory
Jaouad Dabounou
 
Intérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexesIntérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexes
Jaouad Dabounou
 
Topologie des ensembles convexes
Topologie des ensembles convexesTopologie des ensembles convexes
Topologie des ensembles convexes
Jaouad Dabounou
 
Analyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correctionAnalyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correction
Jaouad Dabounou
 
Modèles de langue : Ngrammes
Modèles de langue : NgrammesModèles de langue : Ngrammes
Modèles de langue : Ngrammes
Jaouad Dabounou
 
Analyse numérique interpolation
Analyse numérique interpolationAnalyse numérique interpolation
Analyse numérique interpolation
Jaouad Dabounou
 
Sélection de contrôles avec correction
Sélection de contrôles avec correctionSélection de contrôles avec correction
Sélection de contrôles avec correction
Jaouad Dabounou
 
Dérivation et Intégration numériques
Dérivation et Intégration numériquesDérivation et Intégration numériques
Dérivation et Intégration numériques
Jaouad Dabounou
 

Plus de Jaouad Dabounou (14)

اللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdfاللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdf
 
Mrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine LearningMrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine Learning
 
RNN avec mécanisme d'attention
RNN avec mécanisme d'attentionRNN avec mécanisme d'attention
RNN avec mécanisme d'attention
 
Projection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermésProjection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermés
 
Projection d’un point sur un ensemble
Projection d’un point sur un ensembleProjection d’un point sur un ensemble
Projection d’un point sur un ensemble
 
Fonction distance à un ensemble
Fonction distance à un ensembleFonction distance à un ensemble
Fonction distance à un ensemble
 
Théorèmes de Carathéodory
Théorèmes de CarathéodoryThéorèmes de Carathéodory
Théorèmes de Carathéodory
 
Intérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexesIntérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexes
 
Topologie des ensembles convexes
Topologie des ensembles convexesTopologie des ensembles convexes
Topologie des ensembles convexes
 
Analyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correctionAnalyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correction
 
Modèles de langue : Ngrammes
Modèles de langue : NgrammesModèles de langue : Ngrammes
Modèles de langue : Ngrammes
 
Analyse numérique interpolation
Analyse numérique interpolationAnalyse numérique interpolation
Analyse numérique interpolation
 
Sélection de contrôles avec correction
Sélection de contrôles avec correctionSélection de contrôles avec correction
Sélection de contrôles avec correction
 
Dérivation et Intégration numériques
Dérivation et Intégration numériquesDérivation et Intégration numériques
Dérivation et Intégration numériques
 

Analyse en Composantes Principales

  • 2. Analyse en Composantes Principales Introduction L’analyse en composantes principales (ACP) appartient à la famille des méthodes d’analyse de données. Elle a été proposée en 1901 par Karl Pearson. L’ACP s’appuie essentiellement sur de la géométrie, de l’algèbre linéaire et les statistiques. Face au fléau de la dimensionnalité que connaissent les algorithmes de machine learning à réseaux de neurones profonds, l’intérêt pour cette méthode a été renouvelé. En effet sa capacité à réduire la dimension des données à traiter permet d’améliorer la performance des algorithmes et, au-delà, de réduire le risque de surapprentissage. L’ACP est considérée comme étant une méthode d’apprentissage automatique non supervisé. 201J. DABOUNOU - FST DE SETTAT
  • 3. Analyse en Composantes Principales Objectifs • Réduire le nombre de variables en les résumant à un nombre plus petit de composantes synthétiques • Construire des groupes d’individus qui présentent des similitudes • Extraire les principales caractéristiques des individus pour éventuellement les utiliser dans des algorithmes d’apprentissage automatique • Permettre une représentation graphique optimale des informations recueillies • Disposer d’outils permettant l’interprétation des résultats obtenus. Lors de l’analyse en composante principale on s’intéresse aux similitudes entre les individus et aux corrélations entre les variables. 202J. DABOUNOU - FST DE SETTAT
  • 4. Analyse en Composantes Principales Données à manipuler On se donne I individus Xi et J variables quantitatives Vj avec xij la valeur de la variable Vj pour l’individu Xi. Ces données sont représentées sous forme matricielle par : X = Ou tout simplement X = Les lignes représentent les individus et les colonnes les variables. V1 V2 … VJ X1 x11 x12 x1J X2 x21 x22 x2J ⁞ XI xI1 xI2 xIJ x11 x12 … x1J x21 x22 x2J ⁞ ⁞ ⁞ xI1 xI2 xIJ 203J. DABOUNOU - FST DE SETTAT
  • 5. Analyse en Composantes Principales Exemple : Dans le tableau ci-dessous on considère les notes de 10 étudiants dans 5 modules : Dans les cas concrets, il s’agit souvent de tableaux avec beaucoup plus de données. Il arrive que l’on traite des millions d’individus et des centaines de milliers de variables. Il est commode que le nombre d’individus soit largement supérieur aux nombre de variables. 204J. DABOUNOU - FST DE SETTAT
  • 6. Analyse en Composantes Principales Espaces des données Les lignes qui représentent les I individus, notées Xi sont considérées comme appartenant à RJ. Les colonnes qui représentent les J variables Vj , appartiennent à RI. Pour chaque j, on calcule la moyenne des valeurs prises par la variable Vj : Ensuite, on remplace dans la matrice X chaque colonne par la variable centrée correspondante. On obtient alors : XCentrée = Pour simplifier on va par la suite maintenir la notation de la matrice X pour désigner XCentrée.   I 1i ijj x I 1 x x11 x12 x1J x21 x22 x2J xI1 xI2 xIJ 1x 2x Jx 1x 2x Jx 1x 2x Jx 205J. DABOUNOU - FST DE SETTAT
  • 7. Analyse en Composantes Principales Exemple : Pour le tableau des notes des étudiants on obtient : Lorsque les variables sont centrées, la moyenne de chaque variable devient nulle. Par contre l’écart type reste le même. La translation n’affecte pas la dispersion des valeurs d’une variable. X = 206J. DABOUNOU - FST DE SETTAT
  • 8. Analyse en Composantes Principales Analyse des individus dans l’espace des variables On projette les I vecteurs lignes représentant les individus dans l’espace RJ. On obtient un graphique similaire à celui-ci-dessous : Soit D1 une droite qui passe par l’origine et u1 un vecteur unitaire de de cette droite. On note O1i la projection de Xi sur D1. O RJ u1 Xi O1i D1 207J. DABOUNOU - FST DE SETTAT
  • 9. Analyse des individus dans l’espace des variables On considère O11, O12, …, O1I, les projections des points X1, X2, …, XI sur D1. On a : Analyse en Composantes Principales O RJ u1 Xi O1i D1 208J. DABOUNOU - FST DE SETTAT
  • 10. Analyse des individus dans l’espace des variables Les points O11, O12, …, O1I, les projections des points X1, X2, …, XI sur D1. L’analyse de cette série, notamment en terme de variance, peut nous renseigner sur la variance globale des points Xi dans l’espace RJ. On cherche alors, pour commencer, à trouver la direction D1 qui réalise un maximum de variance des points projetés O1i i=1,I. Cela revient à dire que D1 maximise la dispersion des points projetés parmi toutes les directions passant par l’origine O. Analyse en Composantes Principales u1 D1 O O1i 209J. DABOUNOU - FST DE SETTAT
  • 11. Matrice des variances covariance Soit  s’appelle matrice de variance covariance. Si on pose  = ( skl), k,l=1,J alors skl est la covariance des variables Vk et Vl. En particulier si k=l, skk est la variance de la variable Vk. skl = var(Vk , Vl) et skk = var(Vk) On voit facilement que XtX et  ont les mêmes vecteurs propres et (à un facteur I près) les mêmes valeurs propres et d’un autre côté, ces matrices sont symétriques et semi-définies positives, donc possèdent r valeurs propres positives, r étant le rang de XtX (ou de ). On a toujours r  min(I,J). On pose 1  2  … r  0 les valeurs propres et u1, u2, …, ur les vecteurs propres associés. Analyse en Composantes Principales XXΣ t I 1  210J. DABOUNOU - FST DE SETTAT
  • 12. Analyse des individus dans l’espace des variables Il s’agit d’un problème d’optimisation: Trouver u1 qui maximise : I1 étant l’inertie expliquée par la droite D1. On remarque déjà que maximiser : Revient à minimiser Ainsi la droite D1 recherchée est celle qui soit la plus proche du nuage de points Xi. Analyse en Composantes Principales O RJ u1 Xi O1i D1   I 1i 2 i1 1 I 1 I OO   I 1i 2 i1 1 I 1 I OO  I 1i 2 ii 1OX 211J. DABOUNOU - FST DE SETTAT
  • 13. Analyse des individus dans l’espace des variables On a pour tout i=1,I: OO1i = Xiu1. Xi étant considéré comme un vecteur ligne. Donc choisir u1 unitaire qui maximise Revient à trouver u1 unitaire qui maximise (Xu1)t.(Xu1) = u1 t XtXu1. On utilise la méthode de Lagrange. Soit  le multiplicateur de Lagrange. On va alors maximiser le Lagrangien: L(u1) = u1 t XtXu1 - (u1 t u1 - 1) Le maximum est atteint lorsque la dérivée suivante s’annule : On a ainsi deux conditions à satisfaire : • u1 doit être vecteur propre de XtX associé à une valeur propre 1 • Cette valeur propre 1 doit être la plus grande des valeurs propres de XtX. Analyse en Composantes Principales O RJ u1 Xi O1i D1  I 1i 2 i1 1 I 1 I OO 022 L 11 t 1    uXuX u 212J. DABOUNOU - FST DE SETTAT
  • 14. Axes de l’ACP L’ACP permet de représenter les individus (nuage de points) dans l’espace des variables dans la base (u1, u2, …, ur). Les vecteurs propres ui sont unitaires et deux à deux orthogonaux. Par ailleurs, on considère que l’information contenue dans les données correspond à la variance globale des variables (dispersion des points). Donc à l’inertie globale, égale à trace(XtX). Or on sait que Analyse en Composantes Principales 213J. DABOUNOU - FST DE SETTAT )...( I 1 )(trace I 1 )var()(traceglobale_Inertie r21 t J 1j j    XX VΣ O RJ u1 Xi O1i D1 u2 D2 I 1
  • 15. Composantes principales Les points O11, O12, …, O1I sont les projections des points X1, X2, …, XI sur D1 et on a : Soit le vecteur F1= (O11, O12, …, O1I)tRJ. De même, O21, O22, … O2I sont les projections des points X1, X2, …, XI sur D2 et on a : Soit le vecteur F2= (O21, O22, … O2I)tRJ. … Et enfin Or1, Or2, …, OrI sont les projections des points X1, X2, …, XI sur Dr et on a : Soit le vecteur Fr= (Or1, Or2, … OrI)tRJ, espace des variables. Analyse en Composantes Principales 214J. DABOUNOU - FST DE SETTAT D1 O O1i u1 O2i Ori O RJ u1 Xi O1i D1 u2 O2i D2 D2 u2 O Dr ur O ⁞   I 1i 2 i1 1OO   I 1i 2 i2 2OO   I 1i 2 ir rOO
  • 16. Composantes principales Les vecteurs F1, F2,…, Fr sont appelés composantes principales. On a F1 = X u1, F2 = X u2, …, Fr = X ur. La matrice X peut être remplacée, dans la base orthonormée (u1, u2, …, ur) par la matrice de composantes principales C = [ F1 F2 … Fr ] Ce qui permet de réduire la dimension des données puisque rJ sans perte d’information (Inertie globale). En effet: trace(XtX) = 1 + 2 +…+ r = u1 tXtXu1 + u2 tXtXu2 + …+ ur tXtXur = F1t F1 + F2t F2 + …+ Frt Fr = trace(Ct C) Analyse en Composantes Principales 215J. DABOUNOU - FST DE SETTAT D1 O O1i u1 O2i Ori O RJ u1 Xi O1i D1 u2 O2i D2 D2 u2 O Dr ur O ⁞
  • 17. Analyse en Composantes Principales 216J. DABOUNOU - FST DE SETTAT D1 O O1i u1 O2i Ori D2 u2 O Dr ur O ⁞ Réduction de la dimensionnalité Il arrive souvent que pour s très inférieur au rang r on ait : Cela exprime le fait qu’à partir de s << r la variance des composantes principales (ou, autrement dit les valeurs propres) devient négligeable (voir figure ci-dessous). Dans ce cas La matrice X peut être remplacée, sans risque de perte d’information significative, par la matrice C = [ F1 F2 … Fs ] dans le sous-espace engendré par la famille orthonormée (u1, u2, …, us). Ce qui permet de réduire la dimension des données puisque s << r J. 1 ... ... r21 s21    Dans le contexte du machine learning, la contribution des composantes principales de faible variance est souvent considérée comme un bruit. Le fait de les négliger améliore l’apprentissage en réduisant le risque d’overfitting (surappretissage).
  • 18. Le plan factoriel Le plan défini par le couple de vecteurs propres (u1, u2) est appelé plan factoriel. Il s’agit du plan : - qui est globalement le plus proche des points représentant les individus - sur lequel ces points se déforment le moins possible par projection - qui explique le mieux possible l’inertie projetée - tel que les points projetés dessus visualisent le mieux possible (par rapport à tout autre plan) la disposition des individus dans l’espace RJ. D’ailleurs ces quatre conditions sont équivalentes. Cette visualisation est d’autant plus fidèle au nuage de points que le taux est proche de 1. Analyse en Composantes Principales 217J. DABOUNOU - FST DE SETTAT r21 21 ...  
  • 19. Exemple de matrice des variances covariance On considère notre exemple des notes des étudiants. On a alors Analyse en Composantes Principales XtX =  = Valeurs propres de XtX : 1 = 358,171559  2 = 120,66  1 = 18,189547  2 = 15,923189  r = 4,657534  0 218J. DABOUNOU - FST DE SETTAT
  • 20. Exemple de matrice des variances covariance On obtient pour la matrice de passage P et la matrice diagonale des valeurs propres D : Analyse en Composantes Principales Avec XtX = Pt D P 219J. DABOUNOU - FST DE SETTAT P = D =