Méthode d'Analyse en Composantes Principales dans la perspective de son utilisation pour réduire la dimensionnalité dans le cadre d'un traitement par réseau de neurones.
Ce document s'inscrit dans un travail global sur l'Intelligence artificielle.
Ce document qui utilisent comme prétexte un exercice pour vous présenter l'ACP, vous comprendrez l'essentiel de ce que permet de faire une Analyse en Composantes Principales.
Certains fondements mathématiques et illustrations géométriques permettent d'appréhender les concepts derrière cette méthode d'analyse factorielle.
Je un exercice simple sur l'ACP et détaille quelques éléments de réponse pour mes étudiants à la FST de Settat. Mais cela peut aussi intéresser d'autres personnes, surtout dans ces conditions particulières de la pandémie de Covid-19.
Vos réactions me seront très utiles pour apporter davantage d'éclaircissements.
Ce thème est aussi disponible en vidéo :
https://www.youtube.com/playlist?list=PLzjg2z2kYUrgV6fswgo5B5gaYWfVFX44V
Cordialement
Pr JAOUAD DABOUNOU
FST DE SETTAT
UNIVERSITE HASSAN 1er
Réduction de la dimension, Diagonalisation, études des valeurs propres, centrage et réduction, techniques de choix des axes factoriels, critère de coude, critère de Kaiser, plans factoriels, carte des individus, cercle de corrélation
L'Analyse Factorielle des Correspondances est présentée dans ce document à travers un exemple simple, pour mes étudiants à la FST de Settat. Mais cela peut aussi intéresser d'autres personnes, surtout dans ces conditions particulières de la pandémie de Covid-19.
Ce thème est aussi disponible en vidéo :
https://youtube.com/playlist?list=PLzjg2z2kYUrg6XvYVYMxdZQnouBEwavfQ
Cordialement
Pr JAOUAD DABOUNOU
FST DE SETTAT
UNIVERSITE HASSAN 1er
Ce document qui utilisent comme prétexte un exercice pour vous présenter l'ACP, vous comprendrez l'essentiel de ce que permet de faire une Analyse en Composantes Principales.
Certains fondements mathématiques et illustrations géométriques permettent d'appréhender les concepts derrière cette méthode d'analyse factorielle.
Je un exercice simple sur l'ACP et détaille quelques éléments de réponse pour mes étudiants à la FST de Settat. Mais cela peut aussi intéresser d'autres personnes, surtout dans ces conditions particulières de la pandémie de Covid-19.
Vos réactions me seront très utiles pour apporter davantage d'éclaircissements.
Ce thème est aussi disponible en vidéo :
https://www.youtube.com/playlist?list=PLzjg2z2kYUrgV6fswgo5B5gaYWfVFX44V
Cordialement
Pr JAOUAD DABOUNOU
FST DE SETTAT
UNIVERSITE HASSAN 1er
Réduction de la dimension, Diagonalisation, études des valeurs propres, centrage et réduction, techniques de choix des axes factoriels, critère de coude, critère de Kaiser, plans factoriels, carte des individus, cercle de corrélation
L'Analyse Factorielle des Correspondances est présentée dans ce document à travers un exemple simple, pour mes étudiants à la FST de Settat. Mais cela peut aussi intéresser d'autres personnes, surtout dans ces conditions particulières de la pandémie de Covid-19.
Ce thème est aussi disponible en vidéo :
https://youtube.com/playlist?list=PLzjg2z2kYUrg6XvYVYMxdZQnouBEwavfQ
Cordialement
Pr JAOUAD DABOUNOU
FST DE SETTAT
UNIVERSITE HASSAN 1er
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
Définition du data mining, intervention du Data Mining dans une chaîne décisionnelle, applications, méthodes de travail, processus KDD (ECD, Extraction de connaissances à partir de Données), méthode SEMMA de SAS, méthode CRISP-DM, etc.
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Etude d'une application de gestion d'une bibliothèque numérique Georges Amichia
Etude MERISE de la mise en place d’une application de gestion d'une bibliothèque numérique universitaire, de l'étude à la création de la Base de données et de l'application java
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
SPSS est un outil puissant, efficace et assez facile à manipuler. Ce logiciel sert à faire des analyses statistiques (ANOVA, ACP, ANCOVA etc.). Il nous évite de faire des calculs longs et fastidieux. Les résultats sont très explicites et bien mis en forme, ils apparaissent dans des tableaux et sous formes de graphes
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
Définition du data mining, intervention du Data Mining dans une chaîne décisionnelle, applications, méthodes de travail, processus KDD (ECD, Extraction de connaissances à partir de Données), méthode SEMMA de SAS, méthode CRISP-DM, etc.
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Etude d'une application de gestion d'une bibliothèque numérique Georges Amichia
Etude MERISE de la mise en place d’une application de gestion d'une bibliothèque numérique universitaire, de l'étude à la création de la Base de données et de l'application java
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
SPSS est un outil puissant, efficace et assez facile à manipuler. Ce logiciel sert à faire des analyses statistiques (ANOVA, ACP, ANCOVA etc.). Il nous évite de faire des calculs longs et fastidieux. Les résultats sont très explicites et bien mis en forme, ils apparaissent dans des tableaux et sous formes de graphes
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Les systèmes non linéaires sont plus difficiles à étudier que les systèmes linéaires. Néanmoins, en linéarisant (cas de systèmes linéarisable) un SNL, autour d'un point A de considération finie (situation ou état du système), on obtient un système linéaire qui correspond à une approximation grossière du système non linéaire d’origine.
Cette approche a atteint sa maturité dans le livre de H.W.Bode (1905-1982) à la fin de la IIème guerre mondiale. Les travaux de R.E.Bellman (1920-1984), L.S.Pontryagin et al (1908-1988) surtout de R.Kalman (1930) ont conduit nombre d'automaticiens à privilégier la représentation d‘espace d’état à partir des années 1960.
Un système est non linéaire s’il se comporte non linéairement par rapport à ses composantes intrinsèques.
Le principe d'entropie maximale vise à définir une contrainte pour chaque information observée et choisir la distribution qui maximise l'entropie tout en restant consistante vis-à-vis de l'ensemble de ces contraintes (Jaynes, 1957). Dans ce cadre d'optimisation sous contraintes, il est mathématiquement prouvé qu'une solution unique existe et un algorithme itératif garantit la convergence vers cette dernière (Ratnaparkhi, 1996).
Pour tout commentaire, correction, amélioration : prénom.nom /arb/ irit.fr (Jean-Philippe Fauconnier)
Résumé des notions essentielles sur les fonctions quadratiques et exponentielles ainsi que sur les statistiques en mathématique de secondaire 4 : technico-sciences.
تتناول التفاعل المعقد بين اللغة والمعرفة والذكاء في سياق العصر الرقمي، مع التركيز بشكل خاص على التطورات في الذكاء الاصطناعي (AI) والتعلم العميق (Deep Learning). ونستكشف كيف أدى ظهور الذكاء الاصطناعي، وخاصة معالجة اللغة الطبيعية (NLP) ، إلى إعادة تشكل هذه العلاقات، خاصة بعدما تجاوز الذكاء الاصطناعي المعالجة الإحصائية للغة وبدأ في محاولة معالجة المعنى، لا سيما من خلال تقنيات التعلم العميق وتقنيات التضمين (Embedding).
Mrbml004 : Introduction to Information Theory for Machine LearningJaouad Dabounou
La quatrième séance de lecture de livres en machine learning.
Vidéo : https://youtu.be/Ab5RvD7ieFg
Elle concernera une brève introduction à la théorie de l'information: Entropy, K-L divergence, mutual Information,... et son application dans la fonction de perte et notamment la cross-entropy.
Lecture de trois livres, dans le cadre de "Monday reading books on machine learning".
Le premier livre, qui constituera le fil conducteur de toute l'action :
Christopher Bishop; Pattern Recognition and Machine Learning, Springer-Verlag New York Inc, 2006
Seront utilisées des parties de deux livres, surtout du livre :
Ian Goodfellow, Yoshua Bengio, Aaron Courville; Deep Learning, The MIT Press, 2016
et du livre :
Ovidiu Calin; Deep Learning Architectures: A Mathematical Approach, Springer, 2020
On présente ici un réseau récurrent séquence à séquence (ou sequence to sequence: seq2seq) pour la traduction automatique. Nous présentons ci-dessous une architecture simplifiée basée sur un réseau récurrent composé le plus souvent de cellules LSTM avec un mécanisme d'attention.
Le réseau RNN, et tout particulièrement la variante LSTM, permettent de créer des modèles Séquence à séquence (Seq2seq) pour la traduction automatique. Mais le problème du goulot d'étranglement entre l'encodeur et le décodeur a conduit à l'utilisation d'un mécanisme d'attention pour faciliter l'accès à l'information pertinente contenue dans les états cachés de l'encodeur lors de la phase de décodage et garantir un bon alignement des mot dans les séquences en sortie.
Liens pour les vidéos :
I- Introduction
https://youtu.be/JhH6MSST2ic
II- Principes du mécanisme d'attention
https://youtu.be/EjhPvC9aizs
III- Machine Translation avec Attention
https://youtu.be/5avpZ0Ea4x8
IV- Graphe et matrice des liaisons pertinentes
https://youtu.be/1zFXWT4cuKI
Bonjour
Analyse Convexe : Projection sur les ensembles convexes fermés
Cours d'analyse convexe dans le cadre du master : Mathématiques et Applications de la FST de Settat - Université Hassan 1er.
Vidéo :
https://youtu.be/j1jyD_OocY8
Cordialement
Pr JAOUAD DABOUNOU
FST DE SETTAT
UNIVERSITE HASSAN 1er
Bonjour
Analyse Convexe : Projection d’un point sur un ensemble
Cours d'analyse convexe dans le cadre du master : Mathématiques et Applications de la FST de Settat - Université Hassan 1er.
https://youtu.be/hXxYcuKvppo
Cordialement
Pr JAOUAD DABOUNOU
FST DE SETTAT
UNIVERSITE HASSAN 1er
Bonjour
Analyse Convexe : Distance à un ensemble
Cours d'analyse convexe dans le cadre du master : Mathématiques et Applications de la FST de Settat - Université Hassan 1er.
Vidéo :
https://youtu.be/G9c-bhehgAo
Cordialement
Pr JAOUAD DABOUNOU
FST DE SETTAT
UNIVERSITE HASSAN 1er
Bonjour
Analyse Convexe : Théorèmes de Carathéodory
Cours d'analyse convexe dans le cadre du master : Mathématiques et Applications de la FST de Settat - Université Hassan 1er.
Vidéo :
https://youtu.be/vqfy2MNuQbk
Cordialement
Pr JAOUAD DABOUNOU
FST DE SETTAT
UNIVERSITE HASSAN 1er
Bonjour
Analyse Convexe : Intérieurs relatifs d’ensembles convexes
Cours d'analyse convexe dans le cadre du master : Mathématiques et Applications de la FST de Settat - Université Hassan 1er.
Vidéo :
https://youtu.be/DdUTVKKpu70
Cordialement
Pr JAOUAD DABOUNOU
FST DE SETTAT
UNIVERSITE HASSAN 1er
Un réseau de neurones récurrent (RNN, recurrent neural network) est un type de réseau de neurones artificiels principalement utilisé dans la reconnaissance automatique de la parole, dans l'écriture manuscrite et dans le traitement automatique du langage naturel, en particulier dans la traduction automatique.
Les RNN sont conçus de manière à reconnaître les caractéristiques séquentielles et pour prédire le scénario suivant le plus probable.
Les réseaux LSTM (Long Short Term Memory ou mémoire à long terme et à court terme ) sont un type spécial de RNN, capable d'apprendre les dépendances à long terme. Ils ont été introduits par Hochreiter et Schmidhuber en 1997, et ont été par la suite affinés et popularisés à travers plusieurs travaux. Ils fonctionnent extrêmement bien sur une grande variété de problèmes et sont maintenant largement utilisés.
Lien pour la version vidéo :
https://youtube.com/playlist?list=PLzjg2z2kYUrjcL_UhvQawGGB85UA9rtNO
Série de TD 1 avec correction.
Module d'analyse convexe pour le master Mathématiques et Applications à la FST de Settat - Université Hassan 1er.
Vidéos des corrections:
Exercice 1 : https://youtu.be/iQZPyBzM6
Exercice 2/3 : https://lnkd.in/dfbgvsv
Exercice 4/5 : https://lnkd.in/dfbgvsv
Nous présentons les modèles N-grammes qui constituent l'une des approches basiques du traitement automatique du langage naturel (TLN ou NLP en anglais). Leur compréhension permet de mieux aborder les méthodes plus performantes, notamment celles qui utilisent les architectures de réseaux de neurones. Seront détaillés ici les fondements mathématiques, les techniques pratiques à travers des exemples illustratifs ainsi que des implémentations informatiques de ces méthodes.
YOUTUBE : https://youtube.com/playlist?list=PLzjg2z2kYUrh_RIcPUN2J7UyFBvZu2z_L
Document pour découvrir l'algorithme Word2vec (I/II) appliqué dans le traitement du langage naturel.
Ce document a été créé dans le cadre des séminaires le jeudis IA et du groupe MOROCCO AI.
Ce thème est aussi disponible en vidéo :
https://youtu.be/FxQkfNQQKzM
Ce cours introduit l'interpolation polynomiale de Lagrange. Il fait partie du module d'analyse numérique donné en Parcours MIP à la FST de Settat, Université Hassan 1er.
Ce cours introduira les étudiants à l'analyse numérique. Il aborde les thèmes suivants :
- Introduction au calcul numérique,
- Résolution des équations numériques,
- Interpolation polynomiale,
- Dérivation et intégration numériques,
- Résolution des équations différentielles ordinaires
- Résolution de systèmes linéaires.
A chaque fois, les notions présentées sont illustrées par des exemples pratiques. Des exercices
et problèmes sont aussi proposés afin de confronter les étudiants aux multiples difficultés du
calcul numérique.
Ce recueil de contrôles d'analyse numérique avec correction couvre la période allant de 2011 à 2015. Il apporte aux étudiants des éléments leur permettant d'aborder efficacement les problèmes d'analyse numérique, niveau parcours MIP semestre 3.
L'attention a été faite sur les raisonnements à développer chez les étudiants en essayant de présenter, au début du document, les erreurs de logique dont souffrent un grand nombre de ces étudiants.
La complexité des questions et leur difficulté sont variables et de différentes forme, mais le principe général était que ces contrôles soient abordable à la majorité des étudiants.
Ce recueil constitue un complément au polycopié d'analyse numérique déjà disponible. Il sera enrichi au fur et à mesure par de nouveaux contrôles et éventuellement, par des exercices et problèmes complémentaires, si leur utilité est démontrée.
Introduction des méthodes de base de dérivation et d'intégration numériques. Ce cours fait partie du module d'analyse numérique donné en Parcours MIP à la FST de Settat, Université Hassan 1er.
Si la baisse de la productivité est effective dans toutes les économies développées... elle est particulièrement marquée en France. Au niveau national, cet essoufflement touche tous les secteurs, et plus particulièrement celui de l’industrie, usuellement caractérisé par des gains de productivité élevés. Depuis la crise Covid, le secteur industriel contribue pour 35 % environ à cette perte, alors qu’il ne représente que 9,3 % de la valeur ajoutée nationale brute en 2023. Dans ce contexte, est-il possible de mener une politique de réindustrialisation du pays sans y associer un objectif de hausse des gains de productivité ?Non rappelle ce Cube. Au contraire, ces deux objectifs, jusqu’alors indépendants l’un de l’autre, sont désormais deux défis à relever conjointement. En analysant les différents explications à la baisse de celle-ci observée en France et dans les autres économies développées, ce Cube suggère que l’augmenter en parallèle d’une politique de réindustrialisation sous-entend une réallocation des facteurs de production vers les entreprises industrielles à fort potentiel. Elle suppose également une une meilleure affectation des ressources.
Les Français et les élections européennes - 9ème vague
Analyse en Composantes Principales
1.
2. Analyse en Composantes Principales
Introduction
L’analyse en composantes principales (ACP) appartient à la famille des méthodes d’analyse de
données.
Elle a été proposée en 1901 par Karl Pearson. L’ACP s’appuie essentiellement sur de la géométrie,
de l’algèbre linéaire et les statistiques.
Face au fléau de la dimensionnalité que connaissent les algorithmes de machine learning à
réseaux de neurones profonds, l’intérêt pour cette méthode a été renouvelé. En effet sa capacité
à réduire la dimension des données à traiter permet d’améliorer la performance des algorithmes
et, au-delà, de réduire le risque de surapprentissage.
L’ACP est considérée comme étant une méthode d’apprentissage automatique non supervisé.
201J. DABOUNOU - FST DE SETTAT
3. Analyse en Composantes Principales
Objectifs
• Réduire le nombre de variables en les résumant à un nombre plus petit de composantes
synthétiques
• Construire des groupes d’individus qui présentent des similitudes
• Extraire les principales caractéristiques des individus pour éventuellement les utiliser dans
des algorithmes d’apprentissage automatique
• Permettre une représentation graphique optimale des informations recueillies
• Disposer d’outils permettant l’interprétation des résultats obtenus.
Lors de l’analyse en composante principale on s’intéresse aux similitudes entre les individus et
aux corrélations entre les variables.
202J. DABOUNOU - FST DE SETTAT
4. Analyse en Composantes Principales
Données à manipuler
On se donne I individus Xi et J variables quantitatives Vj avec xij la valeur de la variable Vj pour
l’individu Xi. Ces données sont représentées sous forme matricielle par :
X =
Ou tout simplement
X =
Les lignes représentent les individus et les colonnes les variables.
V1 V2 … VJ
X1 x11 x12 x1J
X2 x21 x22 x2J
⁞
XI xI1 xI2 xIJ
x11 x12 … x1J
x21 x22 x2J
⁞ ⁞ ⁞
xI1 xI2 xIJ
203J. DABOUNOU - FST DE SETTAT
5. Analyse en Composantes Principales
Exemple :
Dans le tableau ci-dessous on considère les notes de 10 étudiants dans 5 modules :
Dans les cas concrets, il s’agit souvent de tableaux avec beaucoup plus de données. Il arrive que
l’on traite des millions d’individus et des centaines de milliers de variables. Il est commode que le
nombre d’individus soit largement supérieur aux nombre de variables.
204J. DABOUNOU - FST DE SETTAT
6. Analyse en Composantes Principales
Espaces des données
Les lignes qui représentent les I individus, notées Xi sont considérées comme appartenant à RJ.
Les colonnes qui représentent les J variables Vj , appartiennent à RI.
Pour chaque j, on calcule la moyenne des valeurs prises par la variable Vj :
Ensuite, on remplace dans la matrice X chaque colonne par la variable centrée correspondante.
On obtient alors :
XCentrée =
Pour simplifier on va par la suite maintenir la notation de la matrice X pour désigner XCentrée.
I
1i
ijj x
I
1
x
x11 x12 x1J
x21 x22 x2J
xI1 xI2 xIJ
1x 2x Jx
1x 2x Jx
1x 2x Jx
205J. DABOUNOU - FST DE SETTAT
7. Analyse en Composantes Principales
Exemple :
Pour le tableau des notes des étudiants on obtient :
Lorsque les variables sont centrées, la moyenne de chaque variable devient nulle. Par contre
l’écart type reste le même. La translation n’affecte pas la dispersion des valeurs d’une variable.
X =
206J. DABOUNOU - FST DE SETTAT
8. Analyse en Composantes Principales
Analyse des individus dans l’espace des variables
On projette les I vecteurs lignes représentant les individus dans l’espace RJ. On obtient un
graphique similaire à celui-ci-dessous :
Soit D1 une droite qui passe par l’origine et u1 un vecteur unitaire de de cette droite. On note O1i
la projection de Xi sur D1.
O
RJ
u1
Xi
O1i
D1
207J. DABOUNOU - FST DE SETTAT
9. Analyse des individus dans l’espace des variables
On considère O11, O12, …, O1I, les projections des points X1, X2, …, XI sur D1. On a :
Analyse en Composantes Principales
O
RJ
u1
Xi
O1i
D1
208J. DABOUNOU - FST DE SETTAT
10. Analyse des individus dans l’espace des variables
Les points O11, O12, …, O1I, les projections des points X1, X2, …, XI sur D1.
L’analyse de cette série, notamment en terme de variance, peut nous renseigner sur la variance
globale des points Xi dans l’espace RJ.
On cherche alors, pour commencer, à trouver la direction D1 qui réalise un maximum de variance
des points projetés O1i i=1,I. Cela revient à dire que D1 maximise la dispersion des points projetés
parmi toutes les directions passant par l’origine O.
Analyse en Composantes Principales
u1 D1
O O1i
209J. DABOUNOU - FST DE SETTAT
11. Matrice des variances covariance
Soit
s’appelle matrice de variance covariance.
Si on pose = ( skl), k,l=1,J alors skl est la covariance des variables Vk et Vl.
En particulier si k=l, skk est la variance de la variable Vk.
skl = var(Vk , Vl) et skk = var(Vk)
On voit facilement que XtX et ont les mêmes vecteurs propres et (à un facteur I près) les
mêmes valeurs propres et d’un autre côté, ces matrices sont symétriques et semi-définies
positives, donc possèdent r valeurs propres positives, r étant le rang de XtX (ou de ).
On a toujours r min(I,J).
On pose 1 2 … r 0 les valeurs propres et u1, u2, …, ur les vecteurs propres associés.
Analyse en Composantes Principales
XXΣ t
I
1
210J. DABOUNOU - FST DE SETTAT
12. Analyse des individus dans l’espace des variables
Il s’agit d’un problème d’optimisation:
Trouver u1 qui maximise :
I1 étant l’inertie expliquée par la droite D1.
On remarque déjà que maximiser :
Revient à minimiser
Ainsi la droite D1 recherchée est celle qui soit la plus proche du nuage de points Xi.
Analyse en Composantes Principales
O
RJ
u1
Xi
O1i
D1
I
1i
2
i1 1
I
1
I OO
I
1i
2
i1 1
I
1
I OO
I
1i
2
ii 1OX
211J. DABOUNOU - FST DE SETTAT
13. Analyse des individus dans l’espace des variables
On a pour tout i=1,I: OO1i = Xiu1. Xi étant considéré comme un vecteur ligne.
Donc choisir u1 unitaire qui maximise
Revient à trouver u1 unitaire qui maximise (Xu1)t.(Xu1) = u1
t XtXu1.
On utilise la méthode de Lagrange. Soit le multiplicateur de
Lagrange. On va alors maximiser le Lagrangien:
L(u1) = u1
t XtXu1 - (u1
t u1 - 1)
Le maximum est atteint lorsque la dérivée suivante s’annule :
On a ainsi deux conditions à satisfaire :
• u1 doit être vecteur propre de XtX associé à une valeur propre 1
• Cette valeur propre 1 doit être la plus grande des valeurs propres de XtX.
Analyse en Composantes Principales
O
RJ
u1
Xi
O1i
D1
I
1i
2
i1 1
I
1
I OO
022
L
11
t
1
uXuX
u
212J. DABOUNOU - FST DE SETTAT
14. Axes de l’ACP
L’ACP permet de représenter les individus (nuage de points) dans l’espace des variables dans la
base (u1, u2, …, ur). Les vecteurs propres ui sont unitaires et deux à deux orthogonaux.
Par ailleurs, on considère que l’information contenue dans les données correspond à la variance
globale des variables (dispersion des points).
Donc à l’inertie globale, égale à trace(XtX).
Or on sait que
Analyse en Composantes Principales
213J. DABOUNOU - FST DE SETTAT
)...(
I
1
)(trace
I
1
)var()(traceglobale_Inertie
r21
t
J
1j
j
XX
VΣ
O
RJ
u1
Xi
O1i
D1
u2
D2
I
1
15. Composantes principales
Les points O11, O12, …, O1I sont les projections des points
X1, X2, …, XI sur D1 et on a :
Soit le vecteur F1= (O11, O12, …, O1I)tRJ.
De même, O21, O22, … O2I sont les projections des points
X1, X2, …, XI sur D2 et on a :
Soit le vecteur F2= (O21, O22, … O2I)tRJ.
…
Et enfin Or1, Or2, …, OrI sont les projections des points X1,
X2, …, XI sur Dr et on a :
Soit le vecteur Fr= (Or1, Or2, … OrI)tRJ, espace des
variables.
Analyse en Composantes Principales
214J. DABOUNOU - FST DE SETTAT
D1
O O1i
u1
O2i
Ori
O
RJ
u1
Xi
O1i
D1
u2
O2i
D2
D2
u2
O
Dr
ur
O
⁞
I
1i
2
i1 1OO
I
1i
2
i2 2OO
I
1i
2
ir rOO
16. Composantes principales
Les vecteurs F1, F2,…, Fr sont appelés composantes
principales. On a
F1 = X u1, F2 = X u2, …, Fr = X ur.
La matrice X peut être remplacée, dans la base orthonormée
(u1, u2, …, ur) par la matrice de composantes principales
C = [ F1 F2 … Fr ]
Ce qui permet de réduire la dimension des données puisque
rJ sans perte d’information (Inertie globale).
En effet:
trace(XtX) = 1 + 2 +…+ r = u1
tXtXu1 + u2
tXtXu2 + …+ ur
tXtXur
= F1t F1 + F2t F2 + …+ Frt Fr = trace(Ct C)
Analyse en Composantes Principales
215J. DABOUNOU - FST DE SETTAT
D1
O O1i
u1
O2i
Ori
O
RJ
u1
Xi
O1i
D1
u2
O2i
D2
D2
u2
O
Dr
ur
O
⁞
17. Analyse en Composantes Principales
216J. DABOUNOU - FST DE SETTAT
D1
O O1i
u1
O2i
Ori
D2
u2
O
Dr
ur
O
⁞
Réduction de la dimensionnalité
Il arrive souvent que pour s très inférieur au rang r on ait :
Cela exprime le fait qu’à partir de s << r la variance des composantes principales (ou, autrement dit
les valeurs propres) devient négligeable (voir figure ci-dessous).
Dans ce cas La matrice X peut être remplacée, sans risque de perte d’information significative, par la
matrice C = [ F1 F2 … Fs ] dans le sous-espace engendré par la famille orthonormée (u1, u2, …, us).
Ce qui permet de réduire la dimension des données puisque s << r J.
1
...
...
r21
s21
Dans le contexte du machine learning, la contribution
des composantes principales de faible variance est
souvent considérée comme un bruit. Le fait de les
négliger améliore l’apprentissage en réduisant le risque
d’overfitting (surappretissage).
18. Le plan factoriel
Le plan défini par le couple de vecteurs propres (u1, u2) est appelé plan factoriel.
Il s’agit du plan :
- qui est globalement le plus proche des points représentant les individus
- sur lequel ces points se déforment le moins possible par projection
- qui explique le mieux possible l’inertie projetée
- tel que les points projetés dessus visualisent le mieux possible (par rapport à tout autre plan) la
disposition des individus dans l’espace RJ.
D’ailleurs ces quatre conditions sont équivalentes.
Cette visualisation est d’autant plus fidèle au nuage de points que le taux est
proche de 1.
Analyse en Composantes Principales
217J. DABOUNOU - FST DE SETTAT
r21
21
...
19. Exemple de matrice des variances covariance
On considère notre exemple des notes des étudiants. On a alors
Analyse en Composantes Principales
XtX =
=
Valeurs propres de XtX :
1 = 358,171559 2 = 120,66 1 = 18,189547 2 = 15,923189 r = 4,657534 0
218J. DABOUNOU - FST DE SETTAT
20. Exemple de matrice des variances covariance
On obtient pour la matrice de passage P et la matrice diagonale des valeurs propres D :
Analyse en Composantes Principales
Avec XtX = Pt D P
219J. DABOUNOU - FST DE SETTAT
P =
D =