SlideShare une entreprise Scribd logo

AD-CH1-FCA-MAC-2019-21.pdf

management audit et contrôle

1  sur  72
Télécharger pour lire hors ligne
AD-CH1-FCA-MAC-2019-21.pdf
Analyse en composantes
principales non Normée
(cas de 2 var)
Chapitre 1
Introduction
• Notre objectif est d’analyser et décrire les données à
travers les Individus et/ou les Variables.
• L’étude de ces individus consistera à appréhender les
ressemblances entre ces derniers. Autrement, citer les
individus les plus proches, les plus éloignés et les
intermédiaires. D’où la nécessité de calculer les distances
entre individus. Un espace sur lequel on peut définir une
distance (donc un produit scalaire) s’appelle un Espace
Vectoriel Euclidien.
• Commeici on a choisi de travailler avec deux variables,
les individus vont évoluer dans
l’ Espace Vectoriel Euclidien à deux dimensions: R2.
I- QUELQUES NOTIONS D‘ALGEBRE LINEAIRE
1- Espace Vectoriel Euclidien (préhilbertien) Rn.
i)- NOTATION :
• Soit un élément de Rn,
on note alors X la matrice colonne ( à n lignes et 1
colonne) constituées des composantes,dans la base
canonique B, du vecteur x .
• X= ; la transposée X’=
la matrice ligne ( à 1 ligne et n colonnes)
 
n
i x
x
x
x 

1

















n
i
x
x
x


1
 
n
i x
x
x 

1
• Où B={ e1, e2, …, en } et



















































1
0
0
1
0
0
1
1









 n
i e
e
e
ii)- Forme Bilinéaire dans Rn
•Définition 1
on appelle forme bilinéaire symétrique
sur Rn une forme bilinéaire f sur Rn (une
application bilinéaire de Rn × Rn dans R ) telle
que
     
x
y
f
y
x
f
R
R
y
x n
n
,
,
, 



Publicité

Recommandé

les processus VAR et SVAR
les processus VAR et SVAR  les processus VAR et SVAR
les processus VAR et SVAR Anissa ATMANI
 
Généralités sur les fonctions
Généralités sur les fonctionsGénéralités sur les fonctions
Généralités sur les fonctionsĂmîʼndǿ TrànCè
 
Exercices corrigés les matrices- djeddi kamel
Exercices corrigés les matrices- djeddi kamelExercices corrigés les matrices- djeddi kamel
Exercices corrigés les matrices- djeddi kamelKamel Djeddi
 
Test t de student pour des échantillons indépendants
Test  t  de student  pour  des échantillons indépendants Test  t  de student  pour  des échantillons indépendants
Test t de student pour des échantillons indépendants Adad Med Chérif
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistiqueBoris Guarisma
 
Applied Calculus Chapter 2 vector valued function
Applied Calculus Chapter  2 vector valued functionApplied Calculus Chapter  2 vector valued function
Applied Calculus Chapter 2 vector valued functionJ C
 
comportement du producteur
comportement du producteurcomportement du producteur
comportement du producteurhassan1488
 

Contenu connexe

Tendances

Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcRémi Bachelet
 
Modèle régression simple, Etude de cas sur Rstudio
Modèle régression simple, Etude de cas sur RstudioModèle régression simple, Etude de cas sur Rstudio
Modèle régression simple, Etude de cas sur RstudioAS Stitou
 
Cours sur Les montages à Amplificateurs Opérationnels
Cours sur Les montages à Amplificateurs OpérationnelsCours sur Les montages à Amplificateurs Opérationnels
Cours sur Les montages à Amplificateurs Opérationnelsmorin moli
 
Analyse de-donnees-acp-afc-sous-spss
Analyse de-donnees-acp-afc-sous-spssAnalyse de-donnees-acp-afc-sous-spss
Analyse de-donnees-acp-afc-sous-spssgrandprime1
 
Synthese cours controle de gestion
Synthese cours controle de gestionSynthese cours controle de gestion
Synthese cours controle de gestionOULAAJEB YOUSSEF
 
Test de corrélation simple et test de Normalité
Test de corrélation simple  et  test de Normalité  Test de corrélation simple  et  test de Normalité
Test de corrélation simple et test de Normalité Adad Med Chérif
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulProfesseur Falloul
 
Cour Microéeconomie S2
Cour Microéeconomie S2 Cour Microéeconomie S2
Cour Microéeconomie S2 TheMachinator
 
Cours micro éco n laroche
Cours micro éco n larocheCours micro éco n laroche
Cours micro éco n larocheAhmed Fellak
 
Downloadfile 1
Downloadfile 1Downloadfile 1
Downloadfile 1Zgolli
 
Cours les Listes doublement chainées Prof. KHALIFA MANSOURI
Cours les Listes doublement chainées Prof. KHALIFA MANSOURI Cours les Listes doublement chainées Prof. KHALIFA MANSOURI
Cours les Listes doublement chainées Prof. KHALIFA MANSOURI Mansouri Khalifa
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourierMehdi Maroun
 
Analyse de régression linéaire
Analyse de régression linéaire Analyse de régression linéaire
Analyse de régression linéaire Adad Med Chérif
 
Réseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMRéseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMJaouad Dabounou
 

Tendances (20)

05 exos fonction_exponentielle
05 exos fonction_exponentielle05 exos fonction_exponentielle
05 exos fonction_exponentielle
 
Stat8 Anova
Stat8  AnovaStat8  Anova
Stat8 Anova
 
Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afc
 
Modèle régression simple, Etude de cas sur Rstudio
Modèle régression simple, Etude de cas sur RstudioModèle régression simple, Etude de cas sur Rstudio
Modèle régression simple, Etude de cas sur Rstudio
 
Cours sur Les montages à Amplificateurs Opérationnels
Cours sur Les montages à Amplificateurs OpérationnelsCours sur Les montages à Amplificateurs Opérationnels
Cours sur Les montages à Amplificateurs Opérationnels
 
Analyse de-donnees-acp-afc-sous-spss
Analyse de-donnees-acp-afc-sous-spssAnalyse de-donnees-acp-afc-sous-spss
Analyse de-donnees-acp-afc-sous-spss
 
Moyenne mobile
Moyenne mobile Moyenne mobile
Moyenne mobile
 
Synthese cours controle de gestion
Synthese cours controle de gestionSynthese cours controle de gestion
Synthese cours controle de gestion
 
Test de corrélation simple et test de Normalité
Test de corrélation simple  et  test de Normalité  Test de corrélation simple  et  test de Normalité
Test de corrélation simple et test de Normalité
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr Falloul
 
Cour Microéeconomie S2
Cour Microéeconomie S2 Cour Microéeconomie S2
Cour Microéeconomie S2
 
Cours micro éco n laroche
Cours micro éco n larocheCours micro éco n laroche
Cours micro éco n laroche
 
Downloadfile 1
Downloadfile 1Downloadfile 1
Downloadfile 1
 
Cours dérivabilité
Cours dérivabilitéCours dérivabilité
Cours dérivabilité
 
Cours les Listes doublement chainées Prof. KHALIFA MANSOURI
Cours les Listes doublement chainées Prof. KHALIFA MANSOURI Cours les Listes doublement chainées Prof. KHALIFA MANSOURI
Cours les Listes doublement chainées Prof. KHALIFA MANSOURI
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourier
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 
Analyse de régression linéaire
Analyse de régression linéaire Analyse de régression linéaire
Analyse de régression linéaire
 
CM4 - Transformée en z
CM4 - Transformée en zCM4 - Transformée en z
CM4 - Transformée en z
 
Réseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMRéseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTM
 

Similaire à AD-CH1-FCA-MAC-2019-21.pdf

Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciwospro-academy
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfELHASSANEAJARCIF1
 
Euclidien12octobre
Euclidien12octobreEuclidien12octobre
Euclidien12octobreche7t
 
Courschapitre4 trigonometrie
Courschapitre4 trigonometrieCourschapitre4 trigonometrie
Courschapitre4 trigonometrievauzelle
 
CAPES maths 2019 composition 1
CAPES maths 2019 composition 1CAPES maths 2019 composition 1
CAPES maths 2019 composition 1Dany-Jack Mercier
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
Localisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesLocalisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesAhmed Ammar Rebai PhD
 
Electrostatique et Electrocinetique. Rappel de cours et exercices corriges de...
Electrostatique et Electrocinetique. Rappel de cours et exercices corriges de...Electrostatique et Electrocinetique. Rappel de cours et exercices corriges de...
Electrostatique et Electrocinetique. Rappel de cours et exercices corriges de...ssuserf33fd0
 
espace etudiant.licence 1er/2 anneé
espace etudiant.licence 1er/2 anneé espace etudiant.licence 1er/2 anneé
espace etudiant.licence 1er/2 anneé saoula khereddine
 
Controlegestion
ControlegestionControlegestion
Controlegestionhassan1488
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiplemohamedchaouche
 
Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non superviseeminiloka
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)mohamedchaouche
 
Aates ch08 lois-a-densite
Aates ch08 lois-a-densiteAates ch08 lois-a-densite
Aates ch08 lois-a-densiteManar Sefiane
 
intégrale triple
intégrale tripleintégrale triple
intégrale tripleKum Visal
 
01_LES_TENSEURS.pdf
01_LES_TENSEURS.pdf01_LES_TENSEURS.pdf
01_LES_TENSEURS.pdfNSANGOU1
 

Similaire à AD-CH1-FCA-MAC-2019-21.pdf (20)

Statistiques
StatistiquesStatistiques
Statistiques
 
Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon ici
 
Comment faire disparaître les rides
Comment faire disparaître les ridesComment faire disparaître les rides
Comment faire disparaître les rides
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdf
 
Euclidien12octobre
Euclidien12octobreEuclidien12octobre
Euclidien12octobre
 
Courschapitre4 trigonometrie
Courschapitre4 trigonometrieCourschapitre4 trigonometrie
Courschapitre4 trigonometrie
 
CAPES maths 2019 composition 1
CAPES maths 2019 composition 1CAPES maths 2019 composition 1
CAPES maths 2019 composition 1
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Localisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesLocalisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennes
 
Electrostatique et Electrocinetique. Rappel de cours et exercices corriges de...
Electrostatique et Electrocinetique. Rappel de cours et exercices corriges de...Electrostatique et Electrocinetique. Rappel de cours et exercices corriges de...
Electrostatique et Electrocinetique. Rappel de cours et exercices corriges de...
 
espace etudiant.licence 1er/2 anneé
espace etudiant.licence 1er/2 anneé espace etudiant.licence 1er/2 anneé
espace etudiant.licence 1er/2 anneé
 
Quad-expo-stats
Quad-expo-statsQuad-expo-stats
Quad-expo-stats
 
Controlegestion
ControlegestionControlegestion
Controlegestion
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non supervisee
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)
 
Aates ch08 lois-a-densite
Aates ch08 lois-a-densiteAates ch08 lois-a-densite
Aates ch08 lois-a-densite
 
intégrale triple
intégrale tripleintégrale triple
intégrale triple
 
01_LES_TENSEURS.pdf
01_LES_TENSEURS.pdf01_LES_TENSEURS.pdf
01_LES_TENSEURS.pdf
 

AD-CH1-FCA-MAC-2019-21.pdf

  • 2. Analyse en composantes principales non Normée (cas de 2 var) Chapitre 1
  • 3. Introduction • Notre objectif est d’analyser et décrire les données à travers les Individus et/ou les Variables. • L’étude de ces individus consistera à appréhender les ressemblances entre ces derniers. Autrement, citer les individus les plus proches, les plus éloignés et les intermédiaires. D’où la nécessité de calculer les distances entre individus. Un espace sur lequel on peut définir une distance (donc un produit scalaire) s’appelle un Espace Vectoriel Euclidien. • Commeici on a choisi de travailler avec deux variables, les individus vont évoluer dans l’ Espace Vectoriel Euclidien à deux dimensions: R2.
  • 4. I- QUELQUES NOTIONS D‘ALGEBRE LINEAIRE 1- Espace Vectoriel Euclidien (préhilbertien) Rn. i)- NOTATION : • Soit un élément de Rn, on note alors X la matrice colonne ( à n lignes et 1 colonne) constituées des composantes,dans la base canonique B, du vecteur x . • X= ; la transposée X’= la matrice ligne ( à 1 ligne et n colonnes)   n i x x x x   1                  n i x x x   1   n i x x x   1
  • 5. • Où B={ e1, e2, …, en } et                                                    1 0 0 1 0 0 1 1           n i e e e
  • 6. ii)- Forme Bilinéaire dans Rn •Définition 1 on appelle forme bilinéaire symétrique sur Rn une forme bilinéaire f sur Rn (une application bilinéaire de Rn × Rn dans R ) telle que       x y f y x f R R y x n n , , ,    
  • 7. • Exemple : 1) La forme bilinéaire f définie sur Rn par : est une forme bilinéaire symétrique. 2) Si est une forme bilinéaire symétrique si, et seulement si, la matrice A est symétrique   Y X y x y x f n i i i ' , 1         AY X Y X f R M A n ' , ,  
  • 8. •Définition2 • On appelle produit scalaire sur Rn toute forme bilinéaire symétrique sur Rn possédant les propriétés suivantes : • NOTATION : f (x, y) = < X | Y >f     0 0 , 0 ,         x x x f x x f R x n
  • 9. • On dit alors que le produit scalaire sur Rn est une forme bilinéaire symétrique définie positive. • Rn , muni d'un produit scalaire ,est appelé espace vectoriel préhilbertien ou Euclidien.
  • 10. iii)- Produit Scalaire définis par 1 Matrice • Soit f la forme bilinéaire symétrique définie par : • Où est l’ensemble des matrices carrées symétriques à (n lignes et n colonnes). • Théorème: Pour que f soit un produit scalaire il faut et il suffit que toutes les valeurs propres de sa matrice A , qui sont toujours des nombres réels, soient strictement positives.     R S A AY X Y X f n   , ' ,   R Sn
  • 11. a)- Produit scalaire canonique. • On l’obtient sur Rn lorsque A= In : • ((x1, ... , xn), (y1, ... , yn)) < X | Y > = X’ In Y = =                 n i y y y   1   n i x x x   1
  • 12. b)- Produit scalaire défini par une matrice des poids Soit P une matrice diagonale dont les éléments diagonaux sont des nombres réels strictement positifs : • < X | Y >P = X’ P Y = • est dit le ieme poids • Rem 1: Le produit scalaire canonique correspond au cas où la matrice P est la matrice unité In   n i i i i y x 1  i 
  • 13. Rem 2 : si P= In, tous les poids sont égaux à et la somme des poids vaut 1 iv)- Norme d'un vecteur • Si f est un produit scalaire sur Rn, le nombre réel positif s'appelle la f -norme de X, ou f -longueur de X. • On dit qu'un vecteur est normé pour f (ou unitaire) si sa longueur || x ||f est égale à 1.   f f X X x x f x / ,   < X | Y >P = 𝟏 𝒏 X’ In 𝒀 = 𝟏 𝒏 𝒙𝒊𝒚𝒊 𝒏 𝒊=𝟏
  • 14. • Par exemple, dans R² muni du produit scalaire canonique, la longueur de x=(x1, x2) est • et le vecteur u=(1, 0) est normé: • le vecteur est normé • La distance entre deux points A=(xi) et B=(yi) est : 2 2 2 1 x x x   1 0 1 2 2    u x x x           2 , i i y x B A B A d
  • 15. vi)- Soit x et y deux vecteurs de Rn, et soit q l’angle que forme les deux vecteurs entre eux. Alors : q X Y   q cos / y x Y X 
  • 16. vii)- Orthogonalité. • Deux vecteurs X et Y de Rn sont orthogonaux si, et seulement si, leur produit scalaire est nul : < X | Y >= 0 • Remarques : • — 0 est orthogonal à tout vecteur de Rn. • — L'angle de deux vecteurs non nuls orthogonaux est • — La base canonique de Rn muni du produit scalaire canonique est formée de vecteurs normés orthogonaux deux à deux : on parle alors de • base orthonormée. 2 
  • 17. ix)- Projeté orthogonal. Soient X et Y deux vecteurs non nuls de Rn .Il existe un unique vecteur Z de Rn, proportionnel à Y et tel que X – Z soit orthogonal à Y. • Démonstration Pour tout vecteur Z on peut écrire : < X – Z | Y >= < X | Y >– < Z | Y > Z étant proportionnel à Y, donc il existe un a tel que Z = a Y, d’où : < X – Z | Y >= < X | Y >– a < Y | Y > = < X | Y >– a || Y ||2.
  • 18. • Pour que X – Z soit orthogonal à Y, soit < X – Z | Y >= 0, il faut et il suffit que l'on prenne a= L'unique vecteur Z = Y, proportionnel à Y et tel que X – Z soit orthogonal à Y, s'appelle : le projeté orthogonal de X sur Y. • Propriété du projeté orthogonal. • Le projeté orthogonal Z0 de X sur Y est le vecteur Z de Rn proportionnel à Y, qui minimise || X – Z||2 Y X q Z0 X - Z0
  • 19. II- Méthodes Géométriques En Statistique • Soit X une variable statistique quantitative à valeurs dans R. • Pour chaque individu i (appartenant à une population de taille n), X prend une valeur xi . • A X on associe le vecteur x= (x1, x2, , xn) de Rn , et on note • X = . On muni cet espace Rn de la métrique des poids uniformes; c.-à-d. de la distance du produit scalaire défini par la matrice des poids P = In . Autrement, chaque individu aura la probabilité d’être choisi :                 n i x x x   1
  • 20. 1)- La moyenne • La moyenne de X n’est autre que le produit scalaire de X par le vecteur unité • Rem : le vecteur unité 1n est unitaire pour ce produit scalaire: • La moyenne peut être interpréter comme la coordonnée du projeté orthogonal du vecteur x sur le ss-espace engendré par le vecteur 1n x   1 1 1 1 1 2 2      n n
  • 21. Notons X0 = X- la variable centrée. On vérifie qu’elle est orthogonale à . 𝑋0 = 𝑥1 ⋮ 𝑥𝑛 − 𝑥 ⋮ 𝑥 = 𝑥1 ⋮ 𝑥𝑛 − 𝑥 1 ⋮ 1 = 𝑋 − 𝑥 𝕝𝑛 X0 X 0 𝑥 𝕝𝑛 𝕝𝑛
  • 22.  2)- La Variance • La variance de la variable X est le carré de la norme de la variable centrée X0 : 𝑉 𝑋 = 1 𝑛 𝑥𝑖 − 𝑥 2 = 1 𝑛 𝑋0 𝑋0 𝐼𝑛 = 1 𝑛 𝑋0 𝑡 𝑋0 = 𝑋0 2
  • 23. 3)- Covariance • Cov (X, Y) • La covariance est le produit scalaire des variables centrées. 4)- Coefficient de corrélation linéaire • • Le coefficient de corrélation linéaire est le cosinus de l'angle des variables centrées. = 1 𝑛 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 = 1 𝑛 𝑥0 𝑦0 = 1 𝑛 𝑋0 𝑌0 𝐼𝑛 = 1 𝑛 𝑡 𝑋0 𝑌0 𝑟𝑋𝑌 = 𝑐𝑜𝑣 𝑋, 𝑌 𝑉 𝑋 𝑉 𝑌 = 𝑋0 𝑌0 𝑃 𝑋0 𝑃 𝑌0 𝑃 = cos 𝑋0, 𝑌0
  • 24. III- ANALYSE EN COMPOSANTES PRINCIPALES • On se donne maintenant le couple des deux variables (X, Y) qu’on appelle : la variable Statistique quantitative bidimensionnelle à valeurs dans R². • On étudie une Population de n individus selon la V.S.B. (X, Y)
  • 25. 1)- Définitions des Espaces a)- Espace des individus • C’est l’espace vectoriel dans lequel évoluent les n individus de la population et où chaque axe est représenté par une variable statistique. Sa dimension est donc égale aux nombres de variables statistiques mises en jeu. Ici, puisqu’on n’a que deux variables (p=2), l’espace des individus est Rp = R2 • On muni l'espace des individus,R², du produit scalaire canonique grâce à la matrice identité Q =I2 et de la base canonique {e1, e2} orthonormée pour ce produit scalaire. Mi xi yi Y X
  • 26. b)- Espace des variables • Les n valeurs de X pour les n individus peuvent être considérées comme les coordonnées d'un vecteur de Rn. • Même chose pour les n valeurs de Y. • • Rn est appelé l'espace des variables et est de dimension n. • On muni l'espace des variables, Rn, du produit scalaire défini par la matrice des poids uniformes P = In   n i x x x   1   n i y y y , , , , 1   Y X yi xi i
  • 27. 2)- REGRESSION ORTHOGONALE • On a vu dans le chapitre de la régression (Ajustement linéaire), en S1, que lorsqu’on veut expliquer Y par X (i.e ajuster le nuage des points individus par une droite), on minimise la somme des carrés des écarts entre les individus et leurs projetés sur la droite parallèlement à l’axe Y. Et si on veut expliquer X par Y, on refait ceci mais parallèlement à X. • (MMC) Mi xi yi Y X Mi yi xi X Y Y=aX+b X=a’Y+b’
  • 28. • Par contre, si on ne veut expliquer aucune des deux variables statistiques par l’autre, nous serons alors conduits à une autre technique, celle de la réduction des données. • C’est la Régression orthogonale
  • 29. a)- la droite de régression orthogonale. • Nous cherchons alors dans R ² une droite (D) qui minimise la somme S ² des carrés des écarts entre les individus et leurs Projetés Orthogonales sur la droite • Mi xi yi Y X
  • 30. i)- Présentation des données On présente les 2n données sous forme d’un tableau à double entrée (Observation / Variable), soit par une matrice M(nx2) à n lignes et 2 colonnes ; où la ligne i représente la valeur prise par le ième individu(Mi)pour les 2 variables quantitatives X et Y • • X Y • M1 • Mn 𝑀 = 𝑥1 𝑦1 ⋮ ⋮ 𝑥𝑛 𝑦𝑛
  • 31. i)- Présentation des données Dans l’espace des Individus, chaque individu est représenté par un point Mi de coordonnées(xi ,yi ). Soit G le barycentre du nuage : . G sera pris comme nouvelle origine de l’espace, par conséquentle point Mi aura pour coordonnées dans le nouveau repère (x0i ,y0i ) et on notera G𝑀𝑖 𝑥0𝑖 𝑦0𝑖 𝐺 𝑥, 𝑦 Et Z= 𝑥01 𝑦01 ⋮ ⋮ 𝑥0𝑛 𝑦0𝑛 la matrice des données centrées
  • 32. ii)- POSITION DU PROBLEME • Soit (D) une droite passant par G et considérons u le vecteur unitaire de R2 orthogonal à la droite (D) : , avec a² + b² = 1. • Le vecteur unitaire u porté par la droite (D) est • La droite (D) est l'ensemble des points m = (x , y) vérifiant : < u | >Q = 0 , soit ax0 + by0 = 0. 𝑢⊥ = 𝛼 𝛽 𝑢⊥ 𝑄 2 = 𝛽 −𝛼 𝐺𝑚
  • 33. • Soit mi la projection orthogonale du point Mi sur la droite D, le vecteur est le projeté orthogonal de sur le vecteur u : 𝐺𝑚𝑖 𝐺𝑀𝑖 Mi yi xi X Y 𝑮 𝑥 𝑦 mi x0i y0i 𝒐 𝒖 D 𝒖⊥
  • 34. 𝐺𝑚𝑖 =< 𝐺𝑀𝑖| u > u = 𝑢′𝐺𝑀𝑖 𝑢 = (b𝑥0𝑖 – a𝑦0𝑖) 𝛽 −𝛼 || 𝑚𝑖𝑀𝑖|| ² = (α𝑥𝑖0 + β𝑦𝑖0)2 u⊥ 2 =(α𝑥0𝑖 + β𝑦0𝑖) ² (car (a² + b²) = 1) 𝑆2 = 1 𝑛 𝑚𝑖𝑀𝑖 2 𝑖 = 1 𝑛 α𝑥0𝑖 + β𝑦0𝑖 2 𝑖 = α𝑋0 + β𝑌0 𝑃 2 𝑚𝑖𝑀𝑖 = 𝐺𝑀𝑖 − 𝐺𝑚𝑖 = 𝑥𝑖0 𝑦𝑖0 - (b𝑥𝑖0 – a𝑦𝑖0) 𝛽 −𝛼 = 1 − 𝛽2 𝑥𝑖0 + 𝛼𝛽𝑦𝑖0 1 − 𝛼2 𝑦𝑖0 + 𝛼𝛽𝑥𝑖0 = 𝛼2 𝑥𝑖0 + 𝛼𝛽𝑦𝑖0 𝛽2𝑦𝑖0 + 𝛼𝛽𝑥𝑖0 = α𝑥𝑖0 + β𝑦𝑖0 𝛼 𝛽 = α𝑥𝑖0 + β𝑦𝑖0 u⊥
  • 35. • Donc chercher la droite ( D) de régression orthogonale,revient à chercher, dans l'espace des variables Rn , un vecteur a X0 + b Y0, combinaison linéaire fictive des deux variables X0 et Y0, qui minimise , sous la contrainte a2b2= 1 et où P est la matrice des poids uniformes. • C’est l’objet de l'analyse en composantes principales α𝑋0 + β𝑌0 𝑃 2
  • 36. b)- NOTION D’INERTIE • Après l’approche géométrique du problème, nous allons nous pencher vers une approche analytique (notion d’Inertie). • Rappelons qu’on se place dans R2 l’espace des Individus, qu’on muni du produit scalaire canonique (i.e. défini par la matrice Q). • La distance d’un point Mi au centre G est 𝑑 𝑀𝑖 , 𝐺 = 𝐺𝑀𝑖
  • 38. i)- INERTIE TOTAL D’UN NUAGE • La variance est une mesure unidimensionnelle de la dispersion. Alors que l’Inertie en est une mesure multidimensionnelle. • Définition : L’inertie du nuage des points est la moyenne des carré des distances de G à tous les points IT = 1 𝑛 𝐺𝑀𝑖 2 𝑖 = 1 𝑛 (𝑥0𝑖 2 + 𝑦0𝑖 2 ) 𝑖 = V (X) + V (Y).
  • 39. ii)- INERTIE D’UN NUAGE PAR RAPPORTA UNE DROITE • Définition : Soit Du la droite de vecteur directeur u et traversant le nuage et passant par son centre de gravité G, alors L’inertie du nuage par rapport à Du est : 𝑰 𝑫𝒖 = 1 𝑛 𝑑 𝑀𝑖 , 𝐷𝑢 2 𝑖 = 1 𝑛 𝑀𝑖𝑚𝑖 2 𝑖 = 𝑺𝟐 ; 𝑜ù 𝑑 𝑀𝑖 , 𝐷𝑢 = 𝑑 𝑀𝑖 , 𝑚𝑖 𝑒𝑡 𝑜ù 𝑚𝑖 𝑒𝑠𝑡 𝑙𝑒 𝑝𝑟𝑜𝑗𝑒𝑐𝑡é 𝑜𝑟𝑡ℎ𝑜𝑔𝑜𝑛𝑎𝑙 𝑑𝑒 𝑀𝑖 𝑠𝑢𝑟 𝐷𝑢
  • 40. • Le problème maintenant revient à minimiser I(Du) (puisque égale à S2 ). Or comme on a la relation : 𝑜ù 𝐷𝑢⊥ 𝑒𝑠𝑡 𝑙𝑎 𝑑𝑟𝑜𝑖𝑡𝑒 𝑜𝑟𝑡ℎ𝑜𝑔𝑜𝑛𝑎𝑙𝑒 à 𝐷𝑢 𝐺𝑀𝑖 2 = 𝐺𝑚𝑖 2 + 𝑚𝑖𝑀𝑖 2 Théorème de Pythagore ⟹ 𝐼𝑇 = 𝐼 𝐷𝑢⊥ + 𝐼 𝐷𝑢 ⟹ 𝐼 𝐷𝑢⊥ = 𝐼𝑇 − 𝐼 𝐷𝑢 . 𝒖 Mi 𝑮 mi 𝒖⊥ On doit maximiser 𝐼 𝐷𝑢⊥ = 1 𝑛 𝐺𝑚𝑖 2 𝑖
  • 41. • est appelée l’inertie résiduelle. • est appelée l’inertie expliquée par Du. 𝐼 𝐷𝑢⊥ 𝐼 𝐷𝑢
  • 42. c)- Liaison avec la variance-covariance. On a déjà vu que l’inertie expliquée par Du s’écrit 𝐼 𝐷𝑢⊥ = 1 𝑛 𝐺𝑚𝑖 2 = 𝑖 1 𝑛 𝛽𝑥0𝑖 − 𝛼𝑦0𝑖 2 𝑖 = α2 𝑉 𝑌 + β2 𝑉 𝑋 − 2βαcov X, Y = 𝛽 −𝛼 𝑉 𝑋 cov X, Y cov X, Y 𝑉 𝑌 𝐀 𝛽 −𝛼 La matrice A s'appelle la m ma at tr ri ic ce e d de es s v va ar ri ia an nc ce es s- -c co ov va ar ri ia an nc ce es s. = 𝑢′𝐴𝑢
  • 43. En introduisant la matrice Z Z des variables centrées, la matrice des variances-covariances s'écrit sous les formes 𝐴 = 𝑉 𝑋 cov X, Y cov X, Y 𝑉 𝑌 = 1 𝑛 𝑥10 ⋯ 𝑥𝑛0 𝑦10 ⋯ 𝑦𝑛0 𝑥10 𝑦10 ⋮ ⋮ 𝑥𝑛0 𝑦𝑛0 = 1 𝑛 𝑍′ 𝐼𝑛 𝑍
  • 44. • Remarque • IT =V(X)+V(Y)=Tr(A) L'inertie totale est la trace de la matrice A , somme des éléments diagonaux V(X) et V(Y) : IT = Tr (A)=  
  • 45. d)- Méthode des multiplicateurs de LAGRANGE • Revenons au problème de maximisation de l’inertie expliquée. • On doit maximiser sous la contrainte : • . 𝑢′𝐴𝑢 𝑢 𝑄 2 = 𝑢′ 𝑢 = 1 𝑂𝑛 𝑐ℎ𝑒𝑟𝑐ℎ𝑒 𝑢 𝑡𝑒𝑙 𝑞𝑢𝑒 𝜕 𝜕𝑢 𝑢′ 𝐴𝑢 − 𝜆 𝑢′ 𝑢 − 1 = 0; 𝜆 ∈ ℝ 𝑢′ 𝑢 = 1
  • 46. i)- Rappels • Soit . • 𝜕𝑓 𝑢 𝜕𝑢 = 𝜕𝑓 𝑢 𝜕𝑢1 𝜕𝑓 𝑢 𝜕𝑢2 𝑢 = 𝑢1 𝑢2 ∈ ℝ2 𝑎𝑙𝑜𝑟𝑠 Valeurs et Vecteurs propres La matrice des variances-covariances A est, comme on le voit, s sy ym mé ét tr ri iq qu ue e réelle. Une valeur propre de A est un nombre réel tel qu'il existe un vecteur u≠ 𝟎, appelé vecteur propre vérifiant A u = u
  • 47. • D’où, pour l’équation précédente : • Ce qui montre que u est un vecteur propre de A associé à la valeur propre . • D’où : 2𝐴𝑢 − 2𝜆𝑢 = 0 ⇒ 𝐴𝑢 = 𝜆𝑢 𝐼 𝐷𝑢⊥ = 𝑢′ 𝐴𝑢 = 𝑢′ 𝜆𝑢 = 𝜆𝑢′ 𝑢 = 𝜆
  • 48. • Donc  doit être la plus grande des valeurs propres de A et par conséquent le vecteur cherché est le vecteur propre normé u de A associé à la plus grande valeur propre  . • Notons ce vecteur u1 et la plus grande valeur propre 1. • u1définit l’axe Du1 expliquant la plus forte inertie. • Autrement, u1 définit la direction du plus grand allongement du nuage. • Cet axe est appelé premier axe factoriel ou 1ère composante principale
  • 49. • Recherche du deuxième axe factoriel : • Réutilisons de nouveau la méthode des multiplicateurs de LAGRANGE. • Cherchons un deuxième axe Du2 qui soit orthogonal à Du1 et que I(Du2 ) soit maximale • On maximise sous les contraintes : • 𝑢2 ′ 𝐴𝑢2 𝑢2 𝑄 2 = 𝑢2 ′ 𝑢2 = 1 𝑒𝑡 𝑢1 ′ 𝑢2 = 0 𝑂𝑛 𝑐ℎ𝑒𝑟𝑐ℎ𝑒 𝑢2 𝑡𝑒𝑙 𝑞𝑢𝑒 𝜕 𝜕𝑢2 𝑢2 ′ 𝐴𝑢2 − 𝜆 𝑢2 ′ 𝑢2 − 1 − 𝜇 𝑢1 ′ 𝑢2 − 0 = 0 𝑢2 ′ 𝑢2 = 1 𝑒𝑡 𝑢1 ′ 𝑢2 = 0
  • 50. • D’où, pour l’équation précédente : 2𝐴𝑢2 − 2𝜆𝑢2 − 𝜇𝑢1 = 0 Multiplions cette équation par 𝑢1 ′ : 2 𝑢1 ′ 𝐴 𝐴𝑢1 ′ 𝜆1𝑢1 ′ 𝑢2 − 2𝜆 𝑢1 ′ 𝑢2 0 − 𝜇 𝑢1 ′ 𝑢1 1 = 0 2𝜆1 𝑢1 ′ 𝑢2 0 − 𝜇 𝑢1 ′ 𝑢1 1 = 0 ⇒ 𝜇 = 0 Revenons à la première équation : 2𝐴𝑢2 − 2𝜆𝑢2 = 0 ⇒ 𝐴𝑢2 = 𝜆𝑢2
  • 51. • Ce qui montre que u2 est un vecteur propre de A associé à la valeur propre 2. • On prend alors 2 la deuxième plus grande valeur propre de A associée à u2 vecteur propre normé et orthogonal à u1 𝐼 𝐷𝑢2⊥ = 𝑢2 ′ 𝐴𝑢2 = 𝑢2 ′ 𝜆2𝑢2 = 𝜆2𝑢2 ′ 𝑢2 = 𝜆2
  • 52. Rem : • n’est autre que l’inertie expliquée par le premier (respectivement deuxième) axe principal. • Inertie = Variance = Information •  𝑰 𝑫𝒖𝟐 + 𝑰 𝑫𝒖𝟏 =1 +2 = V(X) + V(Y) 𝜆1(𝑟𝑒𝑠𝑝𝑒𝑐𝑡𝑖𝑣𝑒𝑚𝑒𝑛𝑡 𝜆2)
  • 53. • Expressions des valeurs et vecteurs propres de A Rem: la démonstration se fera en cours. Soient 1 et2 les valeurs propres de la matrice des variances- covariances, rangées par ordre décroissant :  1 >2 > 0. 1 = 1 2 𝑉 𝑋 + 𝑉 𝑌 + (𝑉 (𝑋) − 𝑉 (𝑌))² + 4 (𝐶𝑜𝑣 (𝑋, 𝑌))²  2 = 1 2 𝑉 𝑋 + 𝑉 𝑌 − (𝑉 (𝑋) − 𝑉 (𝑌))² + 4 (𝐶𝑜𝑣 (𝑋, 𝑌))²
  • 54. Les deux vecteurs propres 𝑉 𝑌 −𝜆1 −cov X,Y et 𝑉 𝑌 −𝜆2 −cov X,Y associés à 1 et 2 forment une base de R ² . Et les deux vecteurs normés 𝑢1, 𝑢2 forment donc une Base orthonormée de R² où : 𝑢1 = 1 𝑉 𝑌 − 𝜆1 2 + 𝑐𝑜𝑣 𝑋, 𝑌 2 𝑉 𝑌 −𝜆1 −cov X,Y 𝑢2 = 1 𝑉 𝑌 − 𝜆2 2 + 𝑐𝑜𝑣 𝑋, 𝑌 2 𝑉 𝑌 −𝜆2 −cov X,Y
  • 55. • Désormais, on note V la matrice des vecteurs propres : 𝑽 = 𝑉 𝑌 − 𝜆1 𝑉 𝑌 − 𝜆1 2 + 𝑐𝑜𝑣 𝑋,𝑌 2 𝑉 𝑌 − 𝜆2 𝑉 𝑌 − 𝜆2 2 + 𝑐𝑜𝑣 𝑋,𝑌 2 −cov X,Y 𝑉 𝑌 − 𝜆1 2 + 𝑐𝑜𝑣 𝑋,𝑌 2 −cov X,Y 𝑉 𝑌 − 𝜆2 2 + 𝑐𝑜𝑣 𝑋,𝑌 2 𝑢1 𝑢2 ↓ ↓
  • 56. Le taux d'inertie totale expliquée par le premier axe factoriel est le rapport 𝐼 𝐷𝑢2 𝐼𝑇 = 𝜆1 𝑉 𝑋 + 𝑉 𝑌 = 𝜆1 𝜆1 + 𝜆2 Le taux d'inertie totale expliquée par le deuxième axe factoriel est le rapport 𝐼 𝐷𝑢1 𝐼𝑇 = 𝜆2 𝑉 𝑋 + 𝑉 𝑌 = 𝜆2 𝜆1 + 𝜆2
  • 57. 3)-Coordonnées factorielles et composantes principales • On dispose maintenant, dans R², de deux bases : l’une est la blase orthonormée Canonique { e1, e2 } et l’autre est la base propre orthonormée { u1, u2 }. • le vecteur a pour coordonnées, dans {e1, e2}, (x0 , y0) et dans la base {u1,u2}: 𝐺𝑀𝑖 𝐺𝑀𝑖| 𝑢1 , 𝐺𝑀𝑖| 𝑢2 = 𝑥0𝑖 𝑦0𝑖 𝑢1, 𝑥0𝑖 𝑦0𝑖 𝑢2 = 𝑥0𝑖 𝑦0𝑖 𝑉
  • 58. • Coordonnées factorielles et composantes principales • D’où les n coordonnées du nuage centré sur G, dans la base {u1,u2} : 𝐹 = 𝐺𝑀1 𝑢1 𝐺𝑀1 𝑢2 ⋮ ⋮ 𝐺𝑀𝑛 𝑢1 𝐺𝑀𝑛 𝑢2 = 𝑥01 𝑦01 ⋮ ⋮ 𝑥0𝑛 𝑦0𝑛 𝑍 𝑉 F Fest donc la matrice, à n lignes et 2 colonnes, dont les lignes sont les c co oo or rd do on nn né ée es s f fa ac ct to or ri ie el ll le es s du nuage de points dans R ² muni de la base { u1, u2 }
  • 59. Les deux colonnes de la matrice F constituent les deux c co om mp po os sa an nt te es s p pr ri in nc ci ip pa al le es s de la variable statistique (X0 , Y0). Mi yi xi X Y 𝑮 <GMi|u1> x0i y0i 𝒐 𝒖𝟏 𝒖𝟐 <GMi|u2>
  • 60. La première colonne de la matrice F = Z V est donc le vecteur F(1) = Z u1 De même, la deuxième colonne de la matrice F est le vecteur F(2) = Z u2
  • 61. Rem: F(1)(F(2)) peut s’écrire aussi sous la forme suivante Les deux composantes principales F1 et F2 de la variable statistique (X, Y) s'obtiennent ainsi par les formules : 𝐹(1) = 𝑥10 𝑦10 ⋮ ⋮ 𝑥𝑛0 𝑦𝑛0 𝑢1 = 1 𝑉 𝑌 − 𝜆1 2 + 𝑐𝑜𝑣 𝑋, 𝑌 2 𝑥10 𝑦10 ⋮ ⋮ 𝑥𝑛0 𝑦𝑛0 𝑉 𝑌 − 𝜆1 −cov X, Y 𝐹(2) = 𝑥10 𝑦10 ⋮ ⋮ 𝑥𝑛0 𝑦𝑛0 𝑢2 = 1 𝑉 𝑌 − 𝜆1 2 + 𝑐𝑜𝑣 𝑋, 𝑌 2 𝑥10 𝑦10 ⋮ ⋮ 𝑥𝑛0 𝑦𝑛0 𝑉 𝑌 − 𝜆2 −cov X, Y    𝐹(1) = 𝑢11 𝑋0 + 𝑢12 𝑌 0; 𝑜ù 𝑢1 = 𝑢11 𝑢12   𝐹(2) = 𝑢21 𝑋0 + 𝑢22 𝑌 0; 𝑜ù 𝑢2 = 𝑢21 𝑢22 
  • 62. 4 4) )- - P Pr ro op pr ri ié ét té és s d de es s c co om mp po os sa an nt te es s p pr ri in nc ci ip pa al le es s. . a a) ) L Le es s c co om mp po os sa an nt te es s p pr ri in nc ci ip pa al le es s s so on nt t c ce en nt tr ré ée es s. 𝐹(1) = 𝐹(1) 𝕝𝑛 𝑃 =0 𝐹(2) = 0 b b) ) L La a v va ar ri ia an nc ce e d d' 'u un ne e c co om mp po os sa an nt te e p pr ri in nc ci ip pa al le e e es st t l la a v va al le eu ur r p pr ro op pr re e c co or rr re es sp po on nd da an nt te e. V(𝐹(1) ) = || 𝐹(1) ||P 2 = 𝐹(1) 𝐹(1) 𝑃 = 1 V(𝐹(2) ) = 2
  • 63. c c) ) L Le es s c co om mp po os sa an nt te es s p pr ri in nc ci ip pa al le es s s so on nt t n no on n c co or rr ré él lé ée es s. Cov (𝐹(1) , 𝐹(2) ) = 𝐹(1) 𝐹(2) 𝑃 = 1 𝑛 u1’ Z’Z u2=u1’ A u2 = 2 u1’u2 = 
  • 64. Exemple d’Application • Considéronsdeux variables X1 et X2 mesurées sur cinq individus de poids uniformes : • • On propose de traiter ces données par l’ACP Individus 1 2 3 4 5 X1 1 2 3 4 9 X2 5 10 8 8 12
  • 65. Présentation des données 1) 𝑀 = 1 5 2 10 3 8 4 8 9 12 2) 𝑍 = −2.8 −3.6 −1.8 1.4 −0.8 −0.6 0.2 −0.6 5.2 3.4 𝑜ù 𝑥 = 3.8 𝑒𝑡 𝑦 = 8.6
  • 66. • On effectue une ACP non Normée • Les éléments de cette ACP : • n = 5 p = 2 Q = I2 P = (1/5) I5 3) Calcul de A (var-cov) : 𝑨 = 𝑍′𝑃𝑍 = 1 5 𝑍′𝑍 = 1 5 −2.8 −1.8 −0.8 0.2 5.2 −3.6 1.4 −0.6 −0.6 3.4 −2.8 −3.6 −1.8 1.4 −0.8 −0.6 0.2 −0.6 5.2 3.4 = 7.76 5.12 5.12 5.44
  • 67. 4) Calcul des valeurs et vecteurs propres de A p=2 ⟹ deux valeurs propres de A 1 et 2 λ1 = Tr A + Tr A 2 − 4det A 2 = 13.2 + 13.2 2 − 4 × 16 2 = 11.85 ⟹ λ2 = Tr A − 11.85 = 1.35
  • 68. u1 = V Y − λ1 −cov X1 ; X2 = 5.44 − 11.85 −5.12 = −6.41 −5.12 Le vecteur normé U1 = u1 u1 = −0.78 −0.62 On prend alors le vecteur dans la direction opposée +0.78 +0.62 De même on calcule le 2 ème vecteur U2 = u2 u2 = −0.62 0.78  Vérifier qu’ils sont orthonormés !
  • 69. 5) a) 𝐹1 = 𝑍U1 = 0.78 X01 + 0.62 X02 𝐹2 = 𝑍U2 = −0.62 X01 + 0.78 X02 b) 𝑉 𝐹1 = λ1 𝑉 𝐹2 = λ2 𝜏 𝐹1 = λ1 λ1 + λ2 = 90% 𝜏 𝐹2 = 100 − 𝜏 𝐹1 = 10% R RE EM M : : 𝜏 𝑋1 = 𝑉 𝑋1 λ1+λ2 = 59% 𝜏 𝑋2 = 𝑉 𝑋2 λ1+λ2 = 41%
  • 70. 6) Les coordonnées des individus dans le plan factoriel : 𝐹 = 𝑍𝑉 = −2.8 −3.6 −1.8 1.4 −0.8 −0.6 0.2 −0.6 5.2 3.4 0.78 −0.62 0.62 0.78 = −4.42 −1.07 −0.54 2.21 −1.00 0.03 −0.22 −0.59 6.16 −0.57 𝐷𝑜𝑛𝑐 𝑀1 −4.42 −1.07 …
  • 72. -1,065 2,217 0,030 -0,594 -0,589 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 F2 (10,23 %) F1 (89,77 %) Observations(axes F1 et F2 : 100,00 %)