SlideShare une entreprise Scribd logo
1  sur  133
Télécharger pour lire hors ligne
Analyse de données
Pr Dr. Hasna CHAIBI
2021-2022
1
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Plan
❑Introduction
❑Analyse en Composantes Principales
❑Analyses Factorielles
❑Analyse Factorielle des Correspondances
❑Analyse des Correspondances Multiples
❑Analyse Factorielle Discriminante
❑Classification
2
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Introduction
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
• Les méthodes statistiques sont employées soit pour:
➢Explorer les données (nommée statistique exploratoire)
➢Prédire un comportement (nommée statistique prédictive ou décisionnelle)
• La statistique exploratoire s'appuie sur des techniques descriptives et
graphiques. Elle est généralement décrite par la statistique
descriptive qui regroupe des méthodes exploratoires simples, uni- ou
bidimensionnelle (moyenne, variance, corrélation, ...) et la statistique
exploratoire multidimensionnelle.
3
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Introduction
• Statistiques Descriptives permettent de résumer des données grâce à des calculs ou des
graphique simple ( en calculant la moyenne, la variance, l’écart types…)
• Statistiques exploratoire permettent de tirer les informations de jeu de données qui
sont un peu plus volumineux, Autrement dit c’est d’extraire des informations à partir
d’un jeu de données sans nécessairement avoir une question précise derrière la tête ou
sans avoir des attentes particulières sur une information précise, donc vous laissez plus
ou moins guider par l’analyse.
• Statistiques prédictive permettent de prédire un comportement c-à-d d'extraction de
connaissances à partir de données qui analysent des faits présents et passés pour faire
des hypothèses prédictives sur des événements futurs. Une des applications les plus
connues est l'évaluation du risque-client, qui est utilisée dans l'ensemble des services
financiers. Les modèles d'évaluation traitent les antécédents de crédit d'un client, les
demandes de prêt, les données client, etc. , afin de classer les individus selon la
probabilité de rembourser leurs crédits en temps voulu.
4
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Introduction
5
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Introduction
6
Statistiques exploratoire
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Introduction
7
Statistiques exploratoire
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Introduction
• La statistique exploratoire décrite par:
➢La statistique descriptive qui regroupe des méthodes exploratoires
simples, uni- ou bidimensionnelle (moyenne, variance, corrélation, ...)
➢ La statistique exploratoire multidimensionnelle.
L'analyse de données s'inscrit dans ce cadre de la statistique
exploratoire multidimensionnelle.
8
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Introduction
• Les méthodes d’analyse factorielle sont incontestablement des outils
fondamentaux de l’analyse des tableaux de données qui ne
présentent pas de structure particulière.
• Elles visent essentiellement un but descriptif, en condensant
l’information contenue dans un tableau, constitué souvent d’un
nombre élevé de lignes et de colonnes, en quelques représentations
graphiques à deux dimensions, accompagnées de tableaux reprenant
les valeurs numériques de caractéristiques destinées à aider
l’utilisateur lors de l’interprétation.
9
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Introduction
10
Maths
Elève1 17
Elève2 18
Elève3 15
Elève4 6
Elève5 5
Elève6 3
➢ Si on a une seule variable nous pouvons tracer les données sur une
droite numérique (représentation axiale)
Interprétation: Les élèves 1, 2et 3 ont valeurs relativement élevées et les
élèves 4,5 et 6 ont des faibles valeurs
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Introduction
11
Maths Histoire
Elève1 17 16
Elève2 18 12
Elève3 15 14
Elève4 8 10
Elève5 4 9
Elève6 7 6
➢ Si on a deux variables on trace les données en deux dimension
Les élèves 1,2 et 3
forment une classe
dans le côté droit
Et les élèves 4,5 et 6
forment une classe
dans le côté gauche
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Introduction
12
Maths Histoire Philos.
Elève1 18 4 17.5
Elève2 17 7 16.5
Elève3 16 8 15.75
Elève4 14 10 8
Elève5 13 12 6
Elève6 10 14 4.25
➢ Si on a trois variables, nous devons ajouter un autre axe ( graphe
de 3 dimensions)
Les petits points ont
des valeurs plus
élevées pour la
philosophie et sont
plus éloignés
Les points les plus
grands ont des
valeurs plus petites
pour la philosophie
et sont plus proches
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Introduction
13
Comment représenter les données
dans un seul graphique?
Maths Histoire Philos. Arabe Franc physiq
Elève1 18 4 17.5 … … …
Elève2 17 7 16.5 … … …
Elève3 16 8 15.75 … … …
Elève4 14 10 14 … … …
Elève5 13 12 13.5 … … …
Elève6 10 14 11.25 … … …
Elève7 8 16 8.75 … … …
Elève8 6 17 5.75 … … …
Elève9 3 18 3.25 … … …
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Introduction
14
Maths Histoire Philos. Arabe Franc physiq
Elève1 18 4 17.5 … … …
Elève2 17 7 16.5 … … …
Elève3 16 8 15.75 … … …
Elève4 14 10 14 … … …
Elève5 13 12 13.5 … … …
Elève6 10 14 11.25 … … …
Elève7 8 16 8.75 … … …
Elève8 6 17 5.75 … … …
Elève9 3 18 3.25 … … …
Tirer des conclusion à partir d’un tableau de 6 lignes (individus) et deux ou trois colonnes (variables) est
un exercice simple
Mais lorsque le tableau a plus de 3 colonnes (variables) les choses deviennent plus complexes.
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Introduction
15
Maths Histoire Philos. Arabe Franc physiq
Elève1 18 4 17.5 … … …
Elève2 17 7 16.5 … … …
Elève3 16 8 15.75 … … …
Elève4 14 10 14 … … …
Elève5 13 12 13.5 … … …
Elève6 10 14 11.25 … … …
Elève7 8 16 8.75 … … …
Elève8 6 17 5.75 … … …
Elève9 3 18 3.25 … … …
L’analyse des données permet de traiter un nombre très important de données et de dégager les aspects les
plus intéressants de la structure de celles-ci. Le succès de cette discipline dans les dernières années est dû,
dans une large mesure, aux représentations graphiques fournies.
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse de Données
L’Objectif est de:
• Résumer, synthétiser ou condenser le comportement de P variables
(observer n fois)
• Réduire les dimensions qui permettent de retirer la redondance ou la
duplicité dans un ensemble de variables corrélées
16
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Les Méthodes d’Analyse de Données
❑Analyse par réduction des dimensions
• Analyse en composantes principales
• Analyse factorielle des correspondances
• Analyse des correspondances multiples
• Analyse canonique
• Positionnement multidimensionnel
• Analyse Factorielle Multiple
❑Analyse par classification
• Classification automatique
• Analyse factorielle discriminante
❑Analyse des données et régressions
17
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Les Méthodes d’Analyse de Données
18
Méthode statistique
exploratoire multidimensionnelle
Méthode factorielle
Facteurs
qui remplacent les variables initiales
Nombre données en
déformant le moins
possible la réalité
est
recherche
Réduit
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Logiciels
• L'analyse des données moderne ne peut être dissociée de
l'utilisation des ordinateurs ; de nombreux logiciels permettant
d'utiliser les méthodes d'analyse des données
19
SPSS XLSTAT Statistica Logiciel R
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
• Le principe de l’ACP consiste à
représenter le nuage des n points dans
un espace 𝑶, 𝒖𝟏, 𝒖𝟐, … , 𝒖𝒑
qui permettra, en des projections dans
l’espace engendré par les premiers
vecteurs, de montrer les grands
allongements de ce nuage.
𝑶, 𝒖𝟏, 𝒖𝟐, … , 𝒖𝒒 𝒂𝒗𝒆𝒄 𝒒 ≪ 𝒑
20
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
• ACP est une méthode de la famille de l'analyse des données et plus
généralement de la statistique multivariée, qui consiste à transformer
des variables liées entre elles (dites « corrélées » en statistique) en
nouvelles variables décorrélées les unes des autres.
• Ces nouvelles variables sont nommées « composantes principales »,
ou axes principaux. Elle permet au praticien de réduire le nombre de
variables et de rendre l'information moins redondante.
• ACP est un outil de réduction de dimension qui permet de retirer la
redondance ou la duplicité dans un ensemble de variables corrélées
21
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
22
• Une technique exploratoire pour résumer les relations entre les
variables à l’aide d’un jeu des facteurs aussi réduit que possible.
• En plus de l’aspect réduction des données, ces facteurs sont sensées
discriminer les données de manière à être facilement interprétable.
• Une technique statistique dont le but est de représenter les relations
qui lient les variables à travers des valeurs prises par les individus.
• Permet de résumer l’ensemble des variables en un petit nombre de
variables synthétiques appelées facteurs.
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
23
Traitement univarié
Traitement bivarié
Traitement multivarié
Les variables sont traitées
une par une
Rechercher l’interaction
entre 2 variables
Rechercher la liaison
simultanée entre plus de
deux variables et fournir une
information synthétisée
Signifie
Traitement des données
Signifie
Signifie
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
• ACP s’intéresse à des tableaux de données rectangulaires avec des individus en
lignes et des variables quantitatives en colonnes
24
✓ 9 individus (lignes)
✓ 6 variables (colonnes)
Individus
Variables quantitatives
Maths Histoire Philos. Arabe Franc physiq
Elève1 18 4 17.5 … … …
Elève2 17 7 16.5 … … …
Elève3 16 8 15.75 … … …
Elève4 14 10 14 … … …
Elève5 13 12 13.5 … … …
Elève6 10 14 11.25 … … …
Elève7 8 16 8.75 … … …
Elève8 6 17 5.75 … … …
Elève9 3 18 3.25 … … …
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Matrice de données, notations
• L’ACP traite des tableaux rectangulaires (matrice) donnant les valeurs d’un ensemble de variables
quantitatives( au nombre de p) relevés sur un ensemble d’individus (au nombre de n)
25
p Variables quantitatives
n Individus
X : le tableau (la matrice ) individu- variables
quantitatives
n : le nombre d’individus
p : le nombre des variables
i : L’indice désignant les individus
j : L’indice désignant les variables
ത
𝑋𝑗 : la moyenne de la jème variable ( ത
𝑋𝑗 =
𝟏
𝒏
σ𝒊=𝟏
𝒏
𝒙𝒊𝒋 )
𝑽 𝑿𝒋 : la variance de la jème variable (𝑽 𝑿𝒋 =
𝟏
𝒏
σ𝒊=𝟏
𝒏
(𝒙𝒊𝒋 − ത
𝑋𝑗)𝟐
)
𝝈(𝑿𝒋) : l’écart-type de la jème variable ( 𝝈 𝑿𝒋 = 𝑽 𝑿𝒋 )
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Variables
• Variable: élément qui peut prendre différentes valeurs
26
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Variables
• Variable Qualitative: variable dont
les modalités sont des mots.
✓Qualitative nominale dont les
modalités ne peuvent pas être
ordonnées selon leur sens, exp (
célibataire, conjoint, divorcé, marié,
veuf), groupe sanguin(O, O+, A, AB …)
✓Qualitative ordinales dont les
modalités s’ordonnent selon leur sens
exp( très satisfait, satisfait, insatisfait,
très insatisfait)
27
• Variable Quantitative: variable dont
les modalités sont des nombres, des
valeurs.
✓Variables quantitatives discrètes dont
les valeurs sont des nombres précis
isolés ( nombre d’années de scolarité
complétées 12, 13, 14, 16 ..)
✓Variables quantitatives continues les
modalités sont des nombres issus
d’un intervalle de nombres réels( 4
semaines, 10 mois, 2 ans, 14 ans et
demi…)
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Espace des individus (Notion de ressemblance )
• ACP permet de représenter les individus en fonction de leurs
« proximités » en explorant les liaisons entre variables et les
ressemblances entre individus.
Résultat 1:
➢Visualisation des individus (Notion de distance entre individus)
✓Quels sont ceux qui se ressemblent?
✓Quels sont ceux qui sont dissemblance?
28
On mesure la ressemblance entre deux individus par la distance euclidienne
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Espace des individus (Notion de ressemblance )
• Distance au carré entre individus i et j:
𝒅𝟐
𝒌, 𝒎 = ෍
𝒋=𝟏
𝒑
(𝒙𝒌𝒋 − 𝒙𝒎𝒋)𝟐
Etude des individus ↔ Etude de la forme du nuage N
29
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Espace des variable
• Résultat 2:
➢Visualisation des variables (en fonction de leurs corrélation)
✓Quelles sont celles qui sont associées?
✓Quelles sont celles qui ne le sont pas?
✓Quelles sont celles qui vont dans le même sens?
✓Quelles sont celles qui s’opposent?
• On mesure la ressemblance ou bien la liaison entre deux variables par le coefficient de corrélation
30
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Espace des variable (Notion de liaison)
• Si 𝑥𝑗 représente une variable j
• 𝑥𝑖 représentera la valeur de cette variable prise par le 𝑖è𝑚𝑒 individu
➢Moyenne: ത
𝑋𝑗 =
1
𝑛
σ𝑖=1
𝑛
𝑥𝑖𝑗
➢Variance: 𝑉(𝑋𝑗) =
1
𝑛
σ𝑖=1
𝑛
(𝑥𝑖𝑗 − ത
𝑋)2
➢Ecart-Type: σ(𝑋𝑗) = 𝑉(𝑋𝑗)
31
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Espace des variable ( Notion de la liaison)
• Covariance: 𝜎𝑥,𝑦 =
1
𝑛
σ𝑖=1
𝑛
(𝑥𝑖 − ҧ
𝑥)( 𝑦𝑖 − ത
𝑦)
• Coefficient de Corrélation: 𝑟 𝑥, 𝑦 =
𝜎𝑥,𝑦
𝜎𝑥𝜎𝑦
− 1 ≤ 𝑟 𝑥, 𝑦 ≤ 1
32
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Espace des variable ( Notion de la liaison)
33
Coefficient de Corrélation
rx,y
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Centrage – Réduction de données
• Pour étudier la forme du nuage, deux prétraitements sont possible:
centrage et réduction de données
• Centrer les données: translater le nuage ce qui ne modifie pas la
forme du nuage
𝑌𝑖𝑘 = 𝑋𝑖𝑘 − ത
𝑋𝑘
• Réduire les données:
𝑍𝑖𝑘 =
𝑋𝑖𝑘 − ത
𝑋𝑘
𝜎𝑘
34
𝒀𝒊𝒌 sont les données
centrées
𝒁𝒊𝒌 sont les données
centrées-réduit
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Centrage – Réduction de données
35
Dans l’analyse en composantes principales,
les variables sont souvent normalisées
(réduites). Ceci est particulièrement
recommandé lorsque les variables sont
mesurées dans différentes unités (par
exemple: kilogrammes, kilomètres,
centimètres, …); sinon, le résultat de l’ACP
obtenue sera fortement affecté.
L’objectif est de rendre les variables
comparables.
La matrice des données centrées - Réduites
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Exemple de centrage de données
36
Maths Histoire
Elève1 18 4
Elève2 17 7
Elève3 16 8
Elève4 14 10
Elève5 13 12
Elève6 10 14
Nous calculerons la
moyenne des données
(notes) pour la variable
1 (Maths)
Et la moyenne des
données (notes) pour
la variable 2 (Histoire)
Calculer le centre de gravité: 𝐺 = ( ത
𝑋1, ത
𝑋2)
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Exemple de centrage de données
37
Avec les valeurs moyennes, nous
pouvons calculer le centre des
données (centre de gravité)
Nous allons maintenant déplacer les données de sorte que le centre soit au-dessus de l'origine dans le graphique
Note: le déplacement des données ne change pas la façon dont les
points de données sont positionnés les uns par rapport aux autres
Ce point est toujours
le plus élevé
Et ce point est toujours
le point le plus à droite
Le centre de gravité de
données centrées est G(0,0)
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
38
Analyse en Composantes Principales (ACP)
Exemple de centrage de données
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Comment définir les nouveaux axes
• L’ACP vise à fournir une image simplifiée de nuage de point qui soit la plus fidèle
possible – trouver le sous-espace qui résume au mieux les données.
• Une image est bonne si on visualise bien la diversité, la variabilité dans les
données
• Une image est bonne s’elle ne déforme pas trop les distance entre individus
Comment quantifier la qualité d’une image ?
A l’aide de la notion de dispersion ou variabilité appelée Inertie.
𝐈𝐧𝐞𝐫𝐭𝐢𝐞 ≡ 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 𝒈é𝒏é𝒓𝒂𝒍𝒊𝒔é𝒆 à 𝒑𝒍𝒖𝒔𝒊𝒆𝒖𝒓𝒔 𝒅𝒊𝒎𝒆𝒏𝒔𝒊𝒐𝒏
39
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Comment définir les nouveaux axes
40
• Prenons une ligne aléatoire qui
passe par l’origine
• Pour quantifier l'adéquation de
cette ligne aux données , ACP
projette les données sur la ligne
• Puis mesure les distances et essaye
de trouver:
➢ La ligne qui maximise la
distance entre les points
projetés et l'origine (centre de
gravité)
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Comment définir les nouveaux axes
• Maintenant on cherche le meilleur plan qui permet de
visualiser au mieux le nuage de points ce plan contient les
meilleurs axes (axes principaux) ou ( composantes
principales)
• On commence par trouver le 1er axe principal
• Le premier axe (ou première composante principale) sera
tel que la variance des individus (sur cet axe) soit
maximale.
➢ Cet axe explique donc une certaine proportion de la
variance totale des individus → l’inertie
• Après nous faisons tourner la ligne, nous projetons les
points sur la ligne et nous calculons l’inertie.
• Nous répétons jusqu'à ce que nous finissions avec la ligne
avec la plus grande inertie.
41
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Comment définir les nouveaux axes
42
• Pour une première proposition de la ligne, ACP
projette les point sur cette ligne et mesure les
distances entre ces points et l’origine
• Soit d1 est la distance entre le premier point et
l’origine.
• d2 est la distance entre le deuxième point et
l’origine.
• Etc …..
Inertie=
(𝒅𝟏
𝟐
+𝒅𝟐
𝟐
+𝒅𝟑
𝟐
+𝒅𝟒
𝟐
+ 𝒅𝟓
𝟐
+ 𝒅𝟔
𝟐
)
𝟔
=
𝟏
𝒏
σ𝒊=𝟏
𝒏
𝒅𝟐(𝑰𝒊, 𝑮)
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Comment définir les nouveaux axes
• La dispersion du nuage de points est mesurée par son inertie par rapport
au centre de gravité
• L’inertie I est égale à la somme des variances des variables étudiées
𝐼 = ෍
𝑗=1
𝑝
𝜎𝑗
2
=
1
𝑛
෍
𝒊=𝟏
𝒏
𝒅𝟐
(𝑰𝒊, 𝑮)
➢Remarque:
Dans le cas où les variables sont centrées réduites, la variance de chaque
variable veut 1
L’ inertie totale est alors égale à p (nombre de variables)
43
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Comment définir les nouveaux axes
44
• Après la 1ère composante principale, on en
recherche une 2ème qui doit avoir les
propriétés suivantes:
➢Avoir une corrélation nulle avec la
première.
➢Avoir, à son tour, la plus grande
variance.
• Le processus se répète jusqu’à obtenir les p
composantes (où p représente le nombre de
variables initiales)
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Ajustement du nuage des individus
45
2ème Composante principale
1ère Composante principale 17%
83%
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Comment définir les nouveaux axes
46
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
47
Tableau de données
Matrice de corrélation ( ∑ )
Ou
Matrice de variance-covariance (Ω )
Diagonalisation
Matrice des vecteurs
propres
Matrice diagonale des valeurs
propres
Les composantes
principales
Histogramme de valeurs
propres
Extraire les facteurs et déterminer
leur nombre
Les vecteurs
propres sont
les facteurs
Si les données sont hétérogènes
Si les données sont homogènes
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Choix de la matrice de variance covariance Ω ou de corrélation ∑ ?
➢Si les variables sont hétérogènes (exemple: prix et poids) alors on
doit choisir la matrice de corrélation notée ∑
➢Si les données sont homogènes (exemple: les notes (comparable) )
alors on choisit la matrice de variance covariance notée Ω
48
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
• On compte faire l’analyse en composantes principales (ACP ) de la matrice X composée
de 6 individus { I1,I2, I3, I4, I5, I6 } et 3 variables {X1, X2, X3}
• A partir de la matrice X
1. Calculer le centre de gravité de X noté Gx.
2. Déduire la matrice Y la matrice des données centrées
3. Calculer le centre de gravité de Y, noté Gy.
4. Calculer la matrice variance covariance Ω de X
5. Calculer l’inertie totale I
6. Calculer Z la matrice des données centrées réduites.
7. Calculer la matrice de corrélation ∑
49
𝑋 =
2 0 1
1
0
2
0
0
1
1
1
0
1
0
1
1
0
0
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Centre de gravité
• Calculer le centre de gravité de X noté Gx
• 𝐺𝑥( ത
𝑋1, ത
𝑋2, ത
𝑋3) avec
• ത
𝑋1 =
1
6
σ𝑖=1
6
𝑥𝑖1 =
2+1+2+1
6
= 1
• ത
𝑋2 =
1
6
σ𝑖=1
6
𝑥𝑖2 =
1+1+1
6
=
1
2
• ത
𝑋3 =
1
6
σ𝑖=1
6
𝑥𝑖3 =
1+1+1
6
=
1
2
50
𝑋 =
2 0 1
1
0
2
0
0
1
1
1
0
1
0
1
1
0
0
Donc 𝐺𝑥( ത
𝑋1, ത
𝑋2, ത
𝑋3) = (1,
1
2
,
1
2
)
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Déduire la matrice Y la matrice des données centrées
• 𝒀𝒊𝒋 = 𝒙𝒊𝒋 − ഥ
𝑿𝒋 on a : ത
𝑋1 = 1 , ത
𝑋2 =
1
2
et ത
𝑋3 =
1
2
51
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Calculer le centre de gravité de Y, noté Gy.
• 𝐺𝑌(ത
𝑌1, ത
𝑌2, ത
𝑌3)
52
ത
𝑌1 =
1
6
෍
𝑖=1
6
𝑦𝑖1 =
1
2
∗
2 + 0 − 2 + 2 − 2
6
= 0
ത
𝑌2 =
1
6
෍
𝑖=1
6
𝑦𝑖2 =
1
2
∗
−1 − 1 − 1 + 1 + 1 + 1
6
= 0
ത
𝑌3 =
1
6
෍
𝑖=1
6
𝑦𝑖3 =
1 + 1 + 1 − 1 − 1 − 1
6
= 0
𝑑𝑜𝑛𝑐 𝐺𝑌(ത
𝑌1, 𝑌2, ത
𝑌3) = (0,0,0)
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Calculer la matrice de variance covariance Ω de X
• Ω =
1
𝑛
𝑌𝑡𝑌
53
Ω =
1
24
16 0 0
0 6 −6
0 −6 6
=
1
12
8 0 0
0 3 −3
0 −3 3
• 𝑉 𝑋1 =
8
12
,
• 𝑉 𝑋2 =
3
12
=
1
4
,
• 𝑉 𝑋3 =
1
4
• 𝜎 𝑋1 =
8
12
,
• 𝜎 𝑋2 =
1
4
=
1
2
,
• 𝜎 𝑋3 =
8
12
Donc
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Calculer l’inertie totale I (Méthode 1)
• 𝐼 =
1
𝑛
σ𝒊=𝟏
𝒏
𝒅𝟐(𝑰𝒊, 𝑮𝒀) =
1
𝑛
σ𝑖=1
𝑛
𝐼𝑖
2
• 𝑰𝟏
𝟐 =
1
4
∗ 22 + −1 2 + 12 =
3
2
• 𝑰𝟐
𝟐
=
1
2
• 𝑰𝟑
𝟐 =
3
2
, 𝑰𝟒
𝟐 =
3
2
, 𝑰𝟓
𝟐 =
1
2
, 𝑰𝟔
𝟐 =
3
2
• Donc 𝐼 =
1
6
∗ (
3
2
+
1
2
+
3
2
+
3
2
+
1
2
+
3
2
) =
7
6
54
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Calculer l’inertie totale I (Méthode 2)
𝐼 = 𝑇𝑟𝑎𝑐𝑒(Ω)= Ω11 + Ω22 + Ω33
𝐼 = 𝑇𝑟𝑎𝑐𝑒(Ω)=
8
12
+
3
12
+
3
12
=
7
6
= 1.166
55
Ω =
1
24
16 0 0
0 6 −6
0 −6 6
=
1
12
8 0 0
0 3 −3
0 −3 3
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Calculer Z la matrice des données centrées réduites.
• 𝑍𝑖𝑘 =
𝑋𝑖𝑘− ത
𝑋𝑘
𝜎𝑘
=
𝑌𝑖𝑗
𝜎𝑘
56
• 𝑉 𝑋1 =
8
12
• 𝑉 𝑋2 =
3
12
=
1
4
,
• 𝑉 𝑋3 =
1
4
• 𝜎 𝑋1 =
8
12
= 0.816
• 𝜎 𝑋2 =
1
4
=
1
2
= 0.5
• 𝜎 𝑋3 =
1
4
=0.5
On a:
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Calculer Z la matrice des données centrées réduites.
57
On a: Donc
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Calculer la matrice de corrélation ∑
• On a : ∑ =
𝟏
𝒏
𝒁𝒕𝒁
• =
1
6
6 0 0
0 6 −6
0 −6 6
=
1 0 0
0 1 −1
0 −1 1
• Interprétation:
➢ 𝑟 𝑋1, 𝑋2 = 𝑟 𝑋1, 𝑋3 = 0 ⇒ 𝑋1 𝑒𝑠𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑒𝑠 𝑑𝑒 𝑋2 𝑒𝑡 𝑋3
➢ 𝑟 𝑋2, 𝑋3 = −1 ⇒ 𝑋2 𝑒𝑡 𝑋3 𝑠𝑜𝑛𝑡 𝑓𝑜𝑟𝑡𝑒𝑚𝑒𝑛𝑡 𝑐𝑜𝑟𝑟é𝑙é𝑠 𝑛é𝑔𝑎𝑡𝑖𝑣𝑒𝑚𝑒𝑛𝑡
Remarque: On peut calculer l’Inertie totale à partir de la matrice ∑
𝐼 = 𝑡𝑟𝑎𝑐𝑒 (∑)= 1+1+1= 3= P 58
59
60
Question: Examinez la matrice des corrélations entre les variables. Et tirez des
conclusions concernant leurs corrélations.
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Démarche Mathématiques
❑Choix entre ACP Normée et ACP Non Normée
• On distingue deux type d’ACP :
➢ l’ACP non normée (sur matrice des variance covariances) qui analyse Y
➢ l’ACP normée (sur matrice des corrélations) qui analyse Z
• Matrice de variance covariance entre les variables (si les données homogènes):
Ω =
1
𝑛
𝑌𝑡𝑌
• Matrice de corrélation entre les variables (si les données hétérogènes):
∑ =
1
𝑛
𝑍𝑡𝑍 61
Y est la matrice des données centrées
Z est la matrice des données centrées-
réduites
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Démarche Mathématiques
62
Degré d’homogénéité
𝑺 =
𝒎𝒂𝒙(𝝈(𝑿𝒋))
𝒎𝒊𝒏(𝝈 𝑿𝒋 )
Forme quadratique
d’inertie
Inertie Totale
ACP normée S> 5 → données
hétérogènes
On utilise la matrice de
corrélation noté ∑ comme
forme quadratique d’inertie
I=Trace(∑) =p (nombre des
variables)
ACP non normée S< 5 → données homogènes On utilise la matrice de
variance covariance noté Ω
comme forme quadratique
d’inertie
I=Trace(Ω)= somme des
variances
Choix entre une ACP normée et ACP non normée
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Démarche Mathématiques
❑Choix entre ACP Normée et ACP Non Normée (Exemple)
Ω =
1
12
8 0 0
0 3 −3
1 −3 3
63
• 𝜎 𝑋1 =
8
12
= 0.816 𝜎 𝑋2 =
1
4
=
1
2
= 0.5 𝜎 𝑋3 =
8
12
=0.5
On a: 𝑺 =
𝒎𝒂𝒙(𝝈(𝑿𝒋))
𝒎𝒊𝒏(𝝈 𝑿𝒋 )
=
8
12
3
12
=
𝟖
𝟏𝟐
𝟑
𝟏𝟐
=
𝟖
𝟑
= 𝟏. 𝟔𝟑 < 𝟓 ⟹ 𝑨𝑪𝑷 𝑵𝒐𝒏 𝑵𝒐𝒓𝒎é𝒆
S< 𝟓 𝒅𝒐𝒏𝒄 𝒍𝒆𝒔 𝒅𝒐𝒏𝒏é𝒆𝒔 𝒔𝒐𝒏𝒕 𝒉𝒐𝒎𝒐𝒈è𝒏𝒆𝒔, 𝒐𝒏 𝒄𝒉𝒐𝒊𝒔𝒊 𝒖𝒏𝒆 𝑨𝑪𝑷 𝒏𝒐𝒏 𝒏𝒐𝒓𝒎é𝒆 𝒆𝒕 𝒍𝒂 𝒎𝒂𝒕𝒓𝒊𝒄𝒆 𝒅𝒆 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆
𝒄𝒐𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 Ω 𝒔𝒆𝒓𝒂 𝒄𝒐𝒎𝒎𝒆 𝒇𝒐𝒓𝒎𝒆 𝒒𝒖𝒂𝒅𝒓𝒂𝒕𝒊𝒒𝒖𝒆𝒔 𝒅′
𝒊𝒏𝒆𝒓𝒕𝒊𝒆
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Démarche Mathématiques
❑Diagonalisation de Ω
➢Polynôme caractéristique de Ω
➢Valeurs propres de Ω
❑Calcul de l’Inertie à partir de valeurs propres
❑Fiabilité d’une ACP
❑Choix du nombre des axes à retenir pour une ACP
64
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Diagonalisation de la matrice de varaince-covariance Ω
• Les étapes de diagonalisation de Ω
1. Calculer le polynôme caractéristique 𝑃Ω (λ)
2. Déduire les valeurs propres λ𝑖
3. Déterminer les vecteurs propres 𝑢𝑖
4. Déterminer les matrices D et P telles que: Ω =P-1DP
65
• D est l matrice des valeurs propres
• P est la matrice des vecteurs propres
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Diagonalisation de la matrice de varaince-covariance Ω
1. Calculer le polynôme caractéristique 𝑃Ω (λ)
66
Ω =
1
12
8 0 0
0 3 −3
𝑂 −3 3
=
2
3
0 0
0
1
4
−
1
4
0 −
1
4
1
4
𝑃Ω (λ)= det(Ω − λ𝐼𝑛) =
2
3
− λ 0 0
0
0
1
4
− λ −
1
4
−
1
4
1
4
− λ
𝑃Ω (λ)=
2
3
− λ
1
4
− λ −
1
4
−
1
4
1
4
− λ
=
2
3
− λ ∗ [ (
1
4
− λ)∗(
1
4
− λ)-((−
1
4
) *(−
1
4
))] = (−λ)(
2
3
− λ)(
1
2
− λ)
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Diagonalisation de la matrice de varaince-covariance Ω
2. Déduire les valeurs propres λ𝑖
• On dit que λ est une valeur propre de la matrice Ω ↔ 𝑃Ω (λ) = 0
• 𝑃Ω (λ) = −λ
2
3
− λ
1
2
− λ = 0 ⇒ (−λ)=0 𝑜𝑢
2
3
− λ = 0 𝑜𝑢
1
2
− λ = 0
• Les valeurs propres doivent être ordonnées dans l’ordre décroissant
λ1 =
2
3
, λ2 =
1
2
, λ3=0 ,
67
➢ Ces valeurs propres doivent être rangées dans l’ordre décroissant
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
3. Déterminer les vecteurs propres 𝑢𝑖
• Soit Ω la matrice de variance covariance: Ω =
2
3
0 0
0
1
4
−
1
4
0 −
1
4
1
4
• 𝐸(λ=λ𝑖) = 𝑢
𝑥
𝑦
𝑧
∈ ℜ3 Ω ∗ 𝑢 = λ𝑖 ∗ 𝑢
•
2
3
0 0
0
1
4
−
1
4
0 −
1
4
1
4
*
𝑥
𝑦
𝑧
=
2
3
∗
𝑥
𝑦
𝑧
68
Analyse en Composantes Principales (ACP)
Diagonalisation de la matrice de varaince-covariance Ω
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Diagonalisation de la matrice de varaince-covariance Ω
3. Déterminer les vecteurs propres 𝑢𝑖
•
2
3
𝑥 =
2
3
𝑥
1
4
𝑦 −
1
4
𝑧 =
2
3
𝑦
−
1
4
𝑦 +
1
4
𝑧 =
2
3
𝑧
⇒ 𝑥 = 𝑥, 𝑧 = 0 , 𝑦 = 0 ⇒
𝑢1 ∗
𝑥
𝑦
𝑧
∈ 𝐸 λ=
2
3
⇔
𝑥
𝑦
𝑧
=
𝑥
0
0
= 𝑥 ∗
1
0
0
69
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Diagonalisation de la matrice de varaince-covariance Ω
3. Déterminer les vecteurs propres 𝑢𝑖
•
2
3
𝑥 =
1
2
𝑥
1
4
𝑦 −
1
4
𝑧 =
1
2
𝑦
−
1
4
𝑦 +
1
4
𝑧 =
1
1
𝑧
⇒ 𝑥 = 0, 𝑦 = −𝑧 , 𝑦 = −𝑧 ⇒
𝑢2 ∗
𝑥
𝑦
𝑧
∈ 𝐸 λ=
1
2
⇔
𝑥
𝑦
𝑧
=
0
−𝑧
𝑧
= 𝑧 ∗
0
−1
1
•
70
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Diagonalisation de la matrice de varaince-covariance Ω
3. Déterminer les vecteurs propres 𝑢𝑖
•
2
3
𝑥 = 0
1
4
𝑦 −
1
4
𝑧 = 0
−
1
4
𝑦 +
1
4
𝑧 = 0
⇒ 𝑥 = 0, 𝑧 = 𝑦 , ⇒
𝑢3 ∗
𝑥
𝑦
𝑧
∈ 𝐸 λ=0 ⇔
𝑥
𝑦
𝑧
=
0
𝑦
𝑦
= 𝑦 ∗
0
1
1
•
71
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Diagonalisation de la matrice de varaince-covariance Ω
Déterminer les matrices D et P telles que: Ω =P-1DP
72
D=
2
3
0 0
0
1
2
0
0 0 0
P =
1 0 0
0 −1 1
0 1 1
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
• 𝑢1 𝑒𝑡 𝑢2 sont ils orthogonaux?
𝑢1 =
1
0
0
et 𝑢2 =
0
−1
1
𝑢1 et 𝑢2 sont orthogonaux ⇔ Le produit scalaire de 𝑢1 et 𝑢2 égale à
zéro
𝑢1 ⊥ 𝑢2 ⇔ < 𝑢1, 𝑢2 > = 𝑢1
′
∗ 𝑢2 = 0
73
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
• 𝑢1 𝑒𝑡 𝑢2 sont ils normés?
𝑢1 =
1
0
0
et 𝑢2 =
0
−1
1
𝑢𝑗 est normé ⇔ la norme de de 𝑢𝑗 est égale à 1 𝑢𝑗 = 1
➢ 𝑢1 = 12 + 02 + 02 = 1 ⇒ 𝑢1 est un vecteur normé
➢ 𝑢2 = 02 + (−1)2+12 = 2 ≠ 1 ⇒ 𝑢2 n’est pas un vecteur normé
74
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
• Déduire (𝑢1)𝑁 et (𝑢2)𝑁 les deux vecteurs normées de 𝑢1 et 𝑢2
• 𝑢1 =
1
0
0
et 𝑢2 =
0
−1
1
𝑢1 = 1 et 𝑢2 = 2
➢(𝑢1)𝑁=
𝑢1
𝑢1
➢(𝑢1)𝑁=
1
0
0
➢(𝑢2)𝑁=
𝑢2
𝑢2
➢(𝑢2)𝑁=
1
2
0
−1
1
=
0
−
1
2
1
2
75
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
• Calcul de l’inertie à partir des valeurs propres (Méthode 3)
𝑰 = ෍
𝒋=𝟎
𝒑
λ𝑗
Or λ1=
2
3
, λ2 =
1
2
, λ3=0
• 𝑰 = λ1+ λ2+ λ3 =
2
3
+
1
2
+ 0 =
𝟕
𝟔
76
Remarque: L’inertie est la quantité de l’information totale qu’on cherche à conserver
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Combien de composantes principales retenir
• Plusieurs critères peuvent permettre de sélectionner le nombre de
facteurs à conserver :
➢Le critère du coude : si on observe un décrochement (ou coude) dans
la décroissance, c'est-à-dire une accélération de cette dernière, suivi
d’une décroissance plus régulière, alors on sélectionne les axes avant
le décrochement ;
• Le critère de Kaiser : on ne retient que les axes dont l’inertie est
supérieure à l’inertie moyenne.
77
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
• Le critère du coude: Cattell (1966,
1977) propose d’étudier la courbe
de décroissance des valeurs
propres (λk). L’idée est de détecter
les « coudes » (les « cassures »)
signalant un changement de
structure
78
Analyse en Composantes Principales (ACP)
Combien de composantes principales retenir
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
• Le critère de Kaiser on ne retient que les
axes dont l’inertie est supérieure à
l’inertie moyenne I/p (pour une ACP non
normée).
• Dans une ACP normée, la somme des
valeurs propres étant égale au nombre de
variables, leur moyenne vaut 1. Nous
considérons par conséquent qu’un axe est
intéressant si sa valeur propre est
supérieure 1.
79
Combien de composantes principales retenir
Analyse en Composantes Principales (ACP)
Combien de composantes principales retenir
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Exemple: On a ത
λ =
1
3
σ𝑘=1
𝑝
λ𝑘 =
1
3
2
3
+
1
2
+ 0 =
7
18
= 0.388
✓La valeur propre de l’axe 1: λ1 =
2
3
> 0.388 → 𝐴𝑥𝑒 1 𝑒𝑠𝑡 𝑟𝑒𝑡𝑒𝑛𝑢
✓La valeur propre de l’axe 2: λ2 =
1
2
> 0.388 → 𝐴𝑥𝑒 2 𝑒𝑠𝑡 𝑟𝑒𝑡𝑒𝑛𝑢
✓La valeur propre de l’axe 3: λ3 = 0 < 0.388 → 𝐴𝑥𝑒 3 𝑒𝑠𝑡 𝑟𝑒𝑗𝑒𝑡é
➢Donc on retient q composante principale avec q=2
80
Analyse en Composantes Principales (ACP)
Combien de composantes principales retenir
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
• Le critère de variance expliquée: On commence par l’axe ayant la part d’inertie la plus élevée et on
commence à augmenter le nombre des axes, on s’arrête si la part d’inertie de l’espace formé par ces axes dépasse
le 75% de la variance expliquée.
Exemple:
• Pour l’axe 1:
𝑮𝒂𝒊𝒏 𝑨𝒙𝒆𝟏 =
λ1
𝐼
∗ 100 =
2
3
7
6
∗ 100 = 𝟓𝟔, 𝟓% < 𝟕𝟓% ⟶ 𝑜𝑛 𝑎𝑗𝑜𝑢𝑡𝑒 𝑙′
𝑎𝑥𝑒2
• Pour l’axe 1 et 2:
𝑮𝒂𝒊𝒏 𝑨𝒙𝒆𝟏, 𝑨𝒙𝒆𝟐 =
(λ1 + λ2)
𝐼
∗ 100 =
2
3
+
1
2
7
6
∗ 100 = 𝟏𝟎𝟎% > 𝟕𝟓% ⟶ 𝑜𝑛 𝑟𝑒𝑡𝑖𝑒𝑛𝑡 𝑙′
𝑎𝑥𝑒1 𝑒𝑡 𝑙′
𝑎𝑥𝑒2
81
Analyse en Composantes Principales (ACP)
Combien de composantes principales retenir
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Analyse en Composantes Principales (ACP)
Taux d’information récupérée par l’espace retenu
❑Fiabilité de l’ACP : une ACP est dite fiable si son gain d’information récupéré est
supérieur à 70%
𝑔𝑎𝑖𝑛 𝑑′
𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 =
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒 𝑝𝑎𝑟 𝑙𝑒 𝑝𝑙𝑎𝑛 𝑝𝑟𝑖𝑛𝑐𝑖𝑝𝑎𝑙
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑡𝑜𝑡𝑎𝑙𝑒
=
𝐼𝑒
𝐼
∗ 100
• Chaque valeur propre λ𝑗 représente la part d’inertie retenue par la
composante 𝐶𝑗
✓ (
λ1
𝐼
∗ 100) représente la part d’inertie récupérée par la composante N°1 noté 𝐶1
✓ (
λ2
𝐼
∗ 100) représente la part d’inertie récupérée par la composante N° 2 noté 𝐶2
✓ Gain d’inertie= (
λ1+λ2
𝐼
∗ 100) représente la part d’inertie récupérée par le plan principal
engendré par𝐶1 𝑒𝑡 𝐶2
82
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
❑Fiabilité de l’ACP
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒 𝐼𝑘: la variance expliquée par kème axe principal est
𝐼𝑘 = λ𝑘
• 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒 𝐼𝑒: la variance expliquée par le plan principal (𝑂, 𝑢𝑘, 𝑢𝑗) est
𝐼𝑒 = λ𝑘 + λ𝑗
83
Analyse en Composantes Principales (ACP)
Taux d’information récupérée par l’espace retenu
𝑇𝑎𝑢𝑥 𝑑𝑒 𝑟é𝑐𝑢𝑝é𝑟𝑎𝑡𝑖𝑜𝑛 𝑑′𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 𝑡𝑜𝑡𝑎𝑙𝑒 =
σ𝑖=1
𝑘
λ𝑖
σ𝑖=1
𝑝
λ𝑖
∗ 100
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
❑Fiabilité de l’ACP
Exemple:
• On calcule le gain d’information pour λ1 =
2
3
, λ2 =
1
2
, λ3=0
84
Gain d’information= (
λ1+λ2
𝐼
∗ 100) = (
2
3
+
1
2
) ∗ 100 = 100% > 70%,
⇒ donc notre 𝐀𝐂𝐏 𝐞𝐬𝐭 𝐟𝐢𝐚𝐛𝐥𝐞
Analyse en Composantes Principales (ACP)
Taux d’information récupérée par l’espace retenu
85
86
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Les données (variables) sont-elles factorisables?
• Tester l’intérêt de l’ACP en vérifiant s’il est possible de compresser
efficacement l’information disponible → Mesurer le degré de
redondance des données
87
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Les données sont-elles factorisables?
1. Test basé sur l’analyse de la matrice de corrélation
• Plusieurs variables sont corrélées (ou anti-corrélées)?
88
r(VIT, TAI)
r(DET, VIT)
r(DET, TAI) r(LEG, TAI)
r(LEG, VIT)
r(LEG, DET)
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Les données sont-elles factorisables?
2. Test basé sur l’analyse sur l’indice de KMO
• Il faut observer l’indice de KMO (Kaiser-Meyer-Olkin) qui doit tendre
vers 1. si ce n’est pas le cas, la factorisation n’est pas conseillée.
• C’est le rapport:
𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝑐𝑜𝑟𝑟é𝑙𝑎𝑡𝑖𝑜𝑛𝑠 𝑎𝑢 𝑐𝑎𝑟𝑟é𝑒
𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝑐𝑜𝑟𝑟é𝑙𝑎𝑡𝑖𝑜𝑛 𝑝𝑎𝑟𝑡𝑖𝑒𝑙𝑙𝑒𝑠 𝑎𝑢 𝑐𝑎𝑟𝑟é𝑒
• Pour juger de l’indice de KMO, on peut utiliser l’échelle suivante:
❖0,50 et moins est misérable
❖Entre 0,6 et 0,7 c’est médiocre
❖Entre 0,7 et 0,8 c’est moyen
❖Entre 0,8 et 0,9 c’est méritoire
❖Et plus 0,9 c’est Excellent.
89
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Les données sont-elles factorisables?
3. Test de sphéricité de Bartlett
❑Le test de sphéricité de Bartlett permet de comparer la matrice de
corrélation à la matrice identité.
On choisie entre les deux hypothèses suivantes
1. 𝐻0: σ = 𝐼𝑝 → 𝑇𝑜𝑢𝑡𝑒 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑠𝑜𝑛𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑒𝑠
2. 𝐻1: σ ≠ 𝐼𝑝 → 𝐼𝑙 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑛𝑒 𝑑𝑒𝑔𝑟é 𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑐𝑒 𝑒𝑛𝑡𝑟𝑒 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠
Remarque: la signification (noté sig.) permet de choisir entre les deux hypothèses.
✓Si sig<5% : on rejette 𝐻0 et on accepte 𝐻1 pour dire qu’il existe une certaine
dépendance entre les variables pour dire que l’ACP est applicable.
✓Si sig>5%: on accepte 𝐻0. Il n’existe pas de corrélation entre les variables pour dire
que l’ACP n’est pas applicable.
90
→ Si l’ACP satisfait à au moins deux de ces trois conditions, on peut continuer
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
❑Résumé:
Les données (les variables ) sont factorisables si et seulement si :
➢L’indice de KMO>0.5
➢Et la signification du test de Bartlett<0.05
Ou
➢L’indice de KMO>0.5
➢Plusieurs variables sont corrélées (ou anti-corrélées)
91
Les données sont-elles factorisables?
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Les données sont-elles factorisables?
Exemple:
92
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Les coordonnées des individus sur le plan factoriel
engendré par les vecteurs directeurs
• Les coordonnées 𝑪𝒊𝒌des individus: ils sont utilisés pour savoir l’emplacement du point
individu i par rapport à l’axe k. Autrement dit, savoir si l’individu est placé du côté positif ou du
côté négatif de l’axe k.
• On a λ1 =
2
3
, λ2 =
1
2
, λ3=0 , les valeurs propres de Ω
• (𝑢1)𝑁=
1
0
0
et (𝑢2)𝑁=
0
−
1
2
1
2
les deux premiers vecteurs propres normées de Ω
Dans le plan factoriel déterminer :
➢Les coordonnées des individus
➢Les coordonnées des variables
➢Représenter les 6 individus et les 3 variables sur le plan factoriel
93
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Les coordonnées des individus sur le plan factoriel
engendré par les vecteurs directeurs
• Soit 𝐶1 les coordonnées des individus sur la composante 1 (l’axe1)
• 𝐶1 = 𝑌 ∗ (𝑢1)𝑁 ∗
1
0
0
=
1
2
∗
2
0
−2
2
0
−2
=
1
0
−1
1
0
−1
94
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Les coordonnées des individus sur le plan factoriel
engendré par les vecteurs directeurs
• Soit 𝐶2 les coordonnées des individus sur la composante 2 (l’axe2)
• 𝐶2 = 𝑌 ∗ (𝑢2)𝑁 ∗
0
−
1
2
1
2
=
1
2
∗
2
2
2
2
2
2
−
2
2
−
2
2
−
2
2
=
0.707
0.707
0.707
−0.707
−0.707
−0.707
95
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Les coordonnées des individus sur le plan factoriel
engendré par les vecteurs directeurs
• Soit C les coordonnées des individus sur le plan factoriel
• 𝐶 =
1 0.707
0
−1
1
0.707
0.707
−0.707
0
−1
−0.707
−0.707
96
97
I1
I3 I2
I5 I4
I6
𝐶 =
1 0.707
0
−1
1
0.707
0.707
−0.707
0
−1
−0.707
−0.707
𝒖𝟏
𝒖𝟐
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Nomination des axes principaux
• Avant de procéder à l’étape de nomination, on doit vérifier que après
extraction des facteurs, les variables doivent avoir une bonne qualité
de représentation (QR). La valeur d’extraction ne doit pas être
inférieure à 40%. Une variable ayant une valeur d’extraction < 40%
sera éliminée automatiquement de notre analyse
98
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Qualité de représentation
99
•La distance entre les variables et l’origine mesure la qualité de représentation des variables. Les
variables qui sont loin de l’origine sont bien représentées par l’ACP.
•Un cos2 élevé indique une
bonne représentation de la
variable sur les axes principaux
en considération. Dans ce cas, la
variable est positionnée à
proximité de la circonférence du
cercle de corrélation.
•Un faible cos2 indique que la
variable n’est pas parfaitement
représentée par les axes
principaux. Dans ce cas, la
variable est proche du centre du
cercle.
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
100
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Nomination des axes principaux
❑Donner un sens à chacun des axes principaux
➢On donne un sens à un axe en étudiant les variables initiales Xj
fortement corrélées (positivement ou négativement) avec l’axe
principale.
➢L’examen des corrélations permet d’interpréter et nommer les axes
principaux.
➢Ces quantités sont représentées dans un cercle appelé cercle de
corrélation.
101
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Nomination des axes principaux
❑Le cercle de corrélation:
• Le cercle de corrélation nous donne les corrélations entre
les variables (X1,…,Xp) et les composantes (C1, C2).
• Pour positionner une variable Xj dans un cercle de
corrélation, on utilise r(Xj, C1) comme abscisse et r(Xj, C2)
comme ordonné de cette variable.
• Une variable initiale ayant une forte corrélation avec une
composante( C1 ou C2 ) signifie que cette variable initiale a
une forte contribution (CRT) à l’information récupérée par
l’axe principal de cette composante principale.
• Le nom de cette variable sera inclus dans la direction
correspondante.
102
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Nomination des axes principaux
❑Remarques:
➢Les points variables qui sont proches de la circonférence de cercle des corrélations ont
une bonne qualité de représentation et doivent être utilisés dans l’interprétation.
➢Si un point variable est fortement corrélé avec une composante, il est faiblement corrélé
avec l’autre. Ce point variable ne peut donner son nom qu’à une seule composante
principale.
➢Les composantes principales sont parfois vues comme des variables cachées » non-
observables, que l’ACP permet donc de mettre en évidence derrière les variables
initiales, seules observable.
➢Donner un sens à un axe revient à la recherche lexicale ( ou recherche de mots) qui peut
résumer un groupe de variables.
➢L’origine de deux axes principaux représente un point moyen (centre de gravité
barycentre), autrement dit dès qu’un individu se rapproche de l’origine ça signifie que les
caractéristiques de cet individu se rapprochent des moyennes des différentes variable
initiales.
103
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Nomination des axes principaux
Coordonnées des variables sur le plan factoriel et cercle de corrélation
• 𝑟 𝑋𝑗, 𝐶𝑘 =
𝐶𝑜𝑣(𝑋𝑗,𝐶𝑘)
𝜎(𝑋𝑗)𝜎(𝐶𝑘)
• 𝐶𝑜𝑣 𝑋𝑗, 𝐶𝑘 =
1
𝑛
σ𝑖=1
𝑛
(𝑥𝑖𝑗 − ത
𝑋𝑗)(𝐶𝑖𝑘 − ҧ
𝐶𝑘)
104
𝑪𝟏 𝑪𝟐
𝑿𝟏 1 0
𝑿𝟐 0 -1
𝑿𝟑 0 1
𝑿𝟑(0,1)
𝑿𝟏(1,0)
𝑿𝟐(0,-1)
Cercle de corrélation
Matrice de composante
105
I1
I3 I2
I5 I4
I6
𝐶 =
1 0.7
0
−1
1
0.7
0.7
−0.7
0
−1
−0.7
−0.7
𝒖𝟐
𝑿𝟑(0,1)
𝑿𝟏(1,0)
𝑿𝟐(0,-1)
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
106
Nomination des axes principaux
Coordonnées des variables sur le plan factoriel et cercle de corrélation
Exemple:
•Les variables positivement corrélées sont
regroupées.
•Les variables négativement corrélées sont
positionnées sur les côtés opposés de
l’origine du graphique (quadrants opposés).
•La distance entre les variables et l’origine
mesure la qualité de représentation des
variables. Les variables qui sont loin de
l’origine sont bien représentées par l’ACP.
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Interpréter la position des individus par rapport aux sens des axes
Contribution de l’individu i à l’inertie de l’axe k
• L’analyse de la projection des individus permet de déduire
l’importance des individus dans chaque sens des axes
𝑪𝑻𝑹𝒌 𝑰𝒊 =
𝒑𝒊(𝑪𝒊𝒌)𝟐
λ𝒌
Avec :
𝒑𝒊: 𝐿𝑒 𝑝𝑜𝑖𝑑𝑠 𝑑𝑒 𝑙′𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢 𝑖
𝑪𝒊𝒌: 𝐿𝑎 𝑐𝑜𝑜𝑟𝑑𝑛𝑛é𝑒 𝑑𝑒 𝑙′
𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢 𝑖 𝑠𝑢𝑟 𝑙′
𝑎𝑥𝑒 𝑘
λ𝒌: La valeur propre associée à l’axe k qui représente la qualité de
l’information récupérée par cet axe.
107
La contribution de
l’individu 𝒊 sur la
composante 𝒌
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
• On retient pour l’interprétation les individus dont la contribution est > à
la contribution moyenne (> 1/n), le sens de la contribution dépend du
signe de 𝑪𝒊𝒌.
• Si pi=1/n (poids égaux):
𝑪𝑻𝑹𝒌 𝑰𝒊 >
𝟏
𝒏
❑Remarques:
• La contribution mesure la part prise par l’individu i dans la détermination
de l’axe principale Ck
• La somme des contributions des individus= 1
108
Interpréter la position des individus par rapport aux sens des axes
Contribution de l’individu i à l’inertie de l’axe k
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
C1 C2 CTR1 sur C1 CTR2 sur C2 CTR moyenne Poids p=
𝟏
𝟔
I1 1 0.707 0.1666 0.166
I2 0 0.707 0.1666 0.166
I3 -1 0.707 0.1666 0.166
I4 1 -0.707 0.1666 0.166
I5 0 -0.707 0.1666 0.166
I6 -1 -0.707 0.1666 0.166
λ𝒌 λ𝟏=0.66 λ𝟐=0.5
109
E𝒙𝒆𝒎𝒑𝒍𝒆 𝒅𝒆 𝒄𝒂𝒍𝒄𝒖𝒍 ∶ 𝑪𝑻𝑹𝟏 𝑰𝟏 =
𝒑𝒊(𝑪𝟏𝟏)𝟐
λ𝟏
=
𝑪𝑻𝑹𝟐 𝑰𝟏 =
𝒑𝒊(𝑪𝟏𝟐)𝟐
λ𝟐
=
Interpréter la position des individus par rapport aux sens des axes
Contribution de l’individu i à l’inertie de l’axe k
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
C1 C2 CTR1 sur C1 CTR2 sur C2 CTR moyenne Poids p=
𝟏
𝟔
I1 1 0.707 0,2525 0.1666 0.1666 0.166
I2 0 0.707 0 0.1666 0.1666 0.166
I3 -1 0.707 0,2525 0.1666 0.1666 0.166
I4 1 -0.707 0,2525 0.1666 0.1666 0.166
I5 0 -0.707 0 0.1666 0.1666 0.166
I6 -1 -0.707 0,2525 0.1666 0.1666 0.166
λ𝒌 λ𝟏=0.66 λ𝟐=0.5
110
E𝒙𝒆𝒎𝒑𝒍𝒆 𝒅𝒆 𝒄𝒂𝒍𝒄𝒖𝒍 ∶ 𝑪𝑻𝑹𝟏 𝑰𝟏 =
𝒑𝒊(𝑪𝟏𝟏)𝟐
λ𝟏
=
𝟏
𝟔
∗(𝟏)𝟐
𝟎.𝟔𝟔
= 0.2525
𝑪𝑻𝑹𝟐 𝑰𝟏 =
𝒑𝒊(𝑪𝟏𝟐)𝟐
λ𝟐
=
𝟏
𝟔
∗ (𝟎. 𝟕𝟎𝟕)𝟐
𝟎. 𝟓
= 0.1666
Interpréter la position des individus par rapport aux sens des axes
Contribution de l’individu i à l’inertie de l’axe k
111
I1
I3 I2
I5 I4
I6
𝐶 =
1 0.7
0
−1
1
0.7
0.7
−0.7
0
−1
−0.7
−0.7
𝒖𝟐
𝑿𝟑(0,1)
𝑿𝟏(1,0)
𝑿𝟐(0,-1)
112
Liaison ente deux variables qualitatives
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Introduction
• L’analyse factorielle est une méthode descriptive qui permet de
décrire la correspondance (ou liaison) entre des variables qualitatives
ou quantitatives.
➢Variables numériques Corrélation
➢Variables nominales Correspondance
L’analyse des correspondances repose sur l’étude des Tableaux de
contingence.
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Introduction
• Test d’indépendance du khi-deux ( 𝝌𝟐
)
❑Permet de déterminer s’il existe un lien entre deux variables
qualitatives.
❑Plus la valeur du khi-deux est grande, plus le degré d’association
entre les deux variables est grand.
❑S’il n’existe aucun lien entre deux variables, khi-deux 𝝌𝟐 = 𝟎
114
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Introduction
1- Formuler les hypothèses
• H0: il n’existe pas de lien entre les deux variables
• H1: il existe un lien entre les deux variables
2- Indiquer le seuil de signification du test 𝜶
• Le seuil de signification représente la probabilité que le teste nous met en
lumière qu’il existe un lien entre les deux variables.
• Le seuil de signification constitue la limite à partir de laquelle un élément
cesse considéré comme fiable.
• Le seuil de signification le plus courant est 𝜶 = 𝟓%
115
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Tableau de données, Notations
3. Tableaux de contingence
• Les données sont résumées dans un tableau de dimensions 𝒏 × 𝒑 appelé tableau de contingence (ou tableau
croisé). Ci-dessus est un exemple de tableau de contingence, il s'agit d'un tableau statistique qui permet de
présenter simultanément et de manière croisée 2 séries statistiques I et J ( I est le sexe et J le résultats
scolaires).
• Soit P une population de K individus, examinée suivant deux caractères ( variables qualitatives) : I et J.
• La variable I possède n modalités i=1,..,n (exemple pour I=4: Faible, Passable, Bien, Très Bien)
• La variable J possède p modalités j=1,..,p (exemple pour J==2 : Féminin, masculin )
J sexe
I Féminin Masculin Total
Résultats
Scolaires
Faible 8 20 28
Passable 14 45 59
Bien 32 31 63
Très Bien 30 20 50
Total 84 116 200
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Tableau de données, Notations
4. Calcul des effectifs
• 𝒌𝒊𝒋: l’effectif de la classe (I=i, J=j): le nombre d’individus présentant simultanément la modalité i
et la modalité j.(𝑘11 = 8, 𝑘31 = 32 … )
• 𝒌𝒊. = σ𝒋=𝟏
𝒑
𝒌𝒊𝒋 l’effectif marginal des lignes
• 𝒌.𝒋 = σ𝒊=𝟏
𝒏
𝒌𝒊𝒋 les effectif marginal des colonnes
• 𝒌 : est l’effectif total 𝒌 = σ𝒋=𝟏
𝒑
𝒌𝒊𝒋 = σ𝒊=𝟏
𝒏
𝒌𝒊𝒋
J sexe
I Féminin Masculin Total
Résultats
Scolaires
Faible 8 20 28
Passable 14 45 59
Bien 32 31 63
Très Bien 30 20 50
Total 84 116 200
Exemple:
𝑘1. = ෍
𝑗=1
2
𝑘1𝑗 = 𝑘11 + 𝑘12 = 8 + 20 = 28
𝑘.2 = ෍
𝑖=1
4
𝑘𝑖2 = 𝑘12 + 𝑘22 + 𝑘32 + 𝑘42
= 20 + 45 + 31 + 20 = 116
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Tableau de données, Notations
4. Calcul des fréquences
• 𝒇𝒊𝒋 =
𝒌𝒊𝒋
𝒌
la fréquence de la classe (I=i, J=j)
• 𝒇𝒊. et 𝒇.𝒋 les fréquences marginales respectivement des lignes et des colonnes.
𝒇𝒊. =
𝒌𝒊.
𝒌
= σ𝒋=𝟏
𝒑
𝒇𝒊𝒋 et 𝒇.𝒋 =
𝒌.𝒋
𝒌
= σ𝒊=𝟏
𝒏
𝒇𝒊𝒋
Exemple:
𝒇𝟏𝟏 =
𝒌𝟏𝟏
𝒌
=
𝟖
𝟐𝟎𝟎
= 𝟎. 𝟎𝟒
𝒇𝟑𝟐 =
𝒌𝟑𝟐
𝒌
=
𝟑𝟏
𝟐𝟎𝟎
= 𝟎. 𝟏𝟓𝟓
𝒇𝟏. =
𝒌𝟏.
𝒌
= σ𝒋=𝟏
𝒑
𝒇𝟏𝒋 =
𝟐𝟖
𝟐𝟎𝟎
= 𝟎. 𝟏𝟒
J sexe
I Féminin Masculin 𝒌𝒊.
Résultats
Scolaires
Faible 8 20 28
Passable 14 45 59
Bien 32 31 63
Très Bien 30 20 50
𝒌.𝒋 84 116 200
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Tableau de données, Notations
5. Calcul des fréquences
• Les données sont résumées dans le tableau contingence de
dimensions 𝒏 × 𝒑 auquel correspond un tableau de fréquence
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
Tableau de données, Notations
5. Calcul des fréquences marginales
• 𝒇𝒊𝒋 =
𝒌𝒊𝒋
𝒌
la fréquence de la classe (I=i, J=j)
• 𝒇𝒊. et 𝒇.𝒋 les fréquences marginales respectivement des lignes et des colonnes.
𝒇𝒊. =
𝒌𝒊.
𝒌
= σ𝒋=𝟏
𝒑
𝒇𝒊𝒋 et 𝒇.𝒋 =
𝒌.𝒋
𝒌
= σ𝒊=𝟏
𝒏
𝒇𝒊𝒋
I sexe
J Féminin Masculin 𝒇𝒊.
Résultats
Scolaires Faible 0.04
Passable
Bien 0.155
Très Bien
𝒇.𝒋
Exemple:
𝒇𝟏𝟏 =
𝒌𝟏𝟏
𝒌
=
𝟖
𝟐𝟎𝟎
= 𝟎. 𝟎𝟒
𝒇𝟑𝟐 =
𝒌𝟑𝟐
𝒌
=
𝟑𝟏
𝟐𝟎𝟎
= 𝟎. 𝟏𝟓𝟓
𝒇𝟏. =
𝒌𝟏.
𝒌
= σ𝒋=𝟏
𝒑
𝒇𝟏𝒋 =
𝟐𝟖
𝟐𝟎𝟎
= 𝟎. 𝟏𝟒
sexe
Féminin Masculin 𝒇𝒊.
Résultats
Scolaires Faible 0.04 0.1 0.14
Passable 0.07 0.225 0.295
Bien 0.16 0.155 0.315
Très Bien 0.15 0.1 0.25
𝒇.𝒋 0.42 0.58
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
6. Calcul des effectifs théoriques et vérification
des conditions d’application du test
• 𝒆𝒇𝒇𝒆𝒄𝒕𝒊𝒇 𝒐𝒃𝒔𝒆𝒓𝒗é = 𝒌𝒊𝒋 = 𝒌 ∗ 𝒇𝒊𝒋
• 𝒆𝒇𝒇𝒆𝒄𝒕𝒊𝒇 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆 =
𝒌𝒊.∗𝒌.𝒋
𝒌
= 𝒌 ∗ 𝒇𝒊. ∗ 𝒇.𝒋
Tableau des effectifs observés Tableau des effectifs théoriques
J sexe
I Féminin Masculin 𝒌𝒊.
Résultats
Scolaires
Faible 8 20 28
Passable 14 45 59
Bien 32 31 63
Très Bien 30 20 50
𝒌.𝒋 84 116 200
J sexe
I Féminin Masculin 𝒌𝒊.
Résultats
Scolaires
Faible 11,76 28
Passable 59
Bien 63
Très Bien 50
𝒌.𝒋 84 116 200
J sexe
I Féminin Masculin 𝒌𝒊.
Résultats
Scolaires
Faible 11,76 16,24 28
Passable 24,78 34,22 59
Bien 26,46 36,54 63
Très Bien 21,00 29,00 50
𝒌.𝒋 84 116 200
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
6. Calcul des effectifs théoriques et vérification
des conditions d’application du test
La loi du khi deux s’applique sous certaines conditions:
➢1ère condition d’application
• L’échantillon doit avoir une taille minimale égale à 30 (𝒌 ≥ 𝟑𝟎)
➢2ème condition d’application
• Il faut que toutes les fréquences théoriques soient supérieures ou égales à 5
❑Si l’une des deux conditions n’est pas respectée il aurait fallu modifier le tableau
de contingence en regroupant ensemble soit deux lignes soit deux colonnes
122
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
7. Test de khi-deux
• Si les variables sexe et résultats scolaires sont indépendantes alors
l’effectif observé = effectif théorique
autrement dit fréquence observée=fréquence théorique
• D’après les tableaux (Tableau des effectifs observés et Tableau des
effectifs théoriques) on a l’effectif observé ≠ effectif théorique ↔ il
est existe un lien entre les deux variables
• Pour mesure ce lien on calcule le carré de contingence 𝝌𝟐( khi
deux).
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
7. Test de khi-deux
• Ecart entre les données observées (𝒇𝒊𝒋) et le modèle d’indépendance
(𝒇𝒊. ∗ 𝒇.𝒋 )
𝝌𝟐 = ෍
𝒊,𝒋
(𝒆𝒇𝒇. 𝒐𝒃𝒔𝒆𝒗é − 𝒆𝒇𝒇. 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆)𝟐
𝒆𝒇𝒇𝒆𝒄𝒕𝒊𝒇 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆
𝝌𝟐
= ෍
𝒊,𝒋
(𝒌 ∗ 𝒇𝒊𝒋 − 𝒌 ∗ 𝒇𝒊.∗ 𝒇.𝒋 )𝟐
𝒌 ∗ 𝒇𝒊. ∗ 𝒇.𝒋
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
7. Test de khi-deux
I sexe
J Féminin Masculin 𝒌𝒊.
𝒆𝒇𝒇. 𝒐𝒃𝒔 𝒆𝒇𝒇. 𝒕𝒉é𝒐 𝒆𝒇𝒇. 𝒐𝒃𝒔 𝒆𝒇𝒇. 𝒕𝒉é𝒐
Résultats
Scolaires
Faible 8 20 28
Passable 14 45 59
Bien 32 31 63
Très Bien 30 20 50
𝒌.𝒋 84 116 200
𝝌𝟐
= ෍
𝒊,𝒋
(𝒆𝒇𝒇. 𝒐𝒃𝒔𝒆𝒗é − 𝒆𝒇𝒇. 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆)𝟐
𝒆𝒇𝒇𝒆𝒄𝒕𝒊𝒇 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆
sexe
Féminin Masculin 𝒌𝒊.
𝒆𝒇𝒇. 𝒐𝒃𝒔 𝒆𝒇𝒇. 𝒕𝒉é𝒐 𝒆𝒇𝒇. 𝒐𝒃𝒔 𝒆𝒇𝒇. 𝒕𝒉é𝒐
Résultats
Scolaires
Faible 8 11,76 20 16,24 28
Passable 14 24,78 45 34,22 59
Bien 32 26,46 31 36,54 63
Très Bien 30 21,00 20 29,00 50
𝒌.𝒋 84 84 116 116 200
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
7. Test de khi-deux
𝒆𝒇𝒇. 𝒐𝒃𝒔 𝒆𝒇𝒇. 𝒕𝒉é𝒐
𝝌𝟐
= ෍
𝒊,𝒋
(𝒆𝒇𝒇. 𝒐𝒃𝒔𝒆𝒗é − 𝒆𝒇𝒇. 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆)𝟐
𝒆𝒇𝒇𝒆𝒄𝒕𝒊𝒇 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆
8 11,76
14 24,78
32 26,46
30 21,00
20 16,24
45 34,22
31 36,54
20 29,00
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
7. Test de khi-deux
𝒆𝒇𝒇. 𝒐𝒃𝒔 𝒆𝒇𝒇. 𝒕𝒉é𝒐
𝝌𝟐
= ෍
𝒊,𝒋
(𝒆𝒇𝒇. 𝒐𝒃𝒔𝒆𝒗é − 𝒆𝒇𝒇. 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆)𝟐
𝒆𝒇𝒇𝒆𝒄𝒕𝒊𝒇 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆
8 11,76 (8-11,76)2/11,76=1,202
14 24,78 (14-24,78)2/24.78=4,690
32 26,46 (32-26,46)2/26,46=1,160
30 21,00 (30-21,00)2/21,00=3,857
20 16,24 (20-16,24)2/16,24=0,871
45 34,22 (45-34,22)2/34,22=3,396
31 36,54 (31-36,54)2/36,54=0,840
20 29,00 (20-29,00)2/29,00=2,793
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
8. Déterminer le nombre de degré de
liberté et la valeur de khi-deux critique
• La valeur critique de khi deux 𝝌𝒄𝒓𝒊𝒕𝒊𝒒𝒖𝒆
𝟐
dépend de signification
𝜶 et du nombre de degrés de liberté 𝒗
128
Nombre de degrés de liberté
𝒗 = 𝒏 − 𝟏 𝒑 − 𝟏
𝒏: le nombre des lignes
𝒑 : nombre des colonnes
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
129
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
9. Décision et Interprétation
• 𝒗 = 𝒏 − 𝟏 𝒑 − 𝟏 = 𝟒 − 𝟏 𝟐 − 𝟏 = 𝟑
• 𝝌𝒄𝒓𝒊𝒕𝒊𝒒𝒖𝒆
𝟐
= 𝟕, 𝟖𝟐 et 𝝌𝟐 = 𝟏𝟖, 𝟖𝟎𝟗
130
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
9. Décision et Interprétation
• On rejettera ou on acceptera l’hypothèse nulle selon la positon du khi
deux par rapport à la valeur critique
➢Règle de décision
• Si 𝝌𝟐 < 𝝌𝒄𝒓𝒊𝒕𝒊𝒒𝒖𝒆
𝟐
on accepte H0 Sinon, on rejette H0 et on accepte H1
•
131
On a 𝝌𝒄𝒓𝒊𝒕𝒊𝒒𝒖𝒆
𝟐
= 𝟕, 𝟖𝟐 et 𝝌𝟐
= 𝟏𝟖, 𝟖𝟎𝟗
𝝌𝟐
> 𝝌𝒄𝒓𝒊𝒕𝒊𝒒𝒖𝒆
𝟐
donc :
Décision: on rejette H0
Et on peut affirmer avec un seuil de 5% qu’il
existe un lien entre le sexe et le résultat
scolaire
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
L’intensité d’un lien entre deux variable
• Coefficient de contingence
Nombre sert à déterminer l’intensité d’un lien statistque existant entre deux
variables
𝑪 =
𝝌𝟐
𝒌 + 𝝌𝟐
La valeur de ce coefficient est toujours comprise entre 0 et 1.
La valeur de ce coefficient est près de 1, plus le lien statistique entre les deux
variables est fort. Et plus ce coefficient a une valeur près de 0, plus le lien est
faible.
132
Analyse
de
donnée
par
Dr.
Hasna
CHAIBI
2021-2022
L’intensité d’un lien entre deux variable
• Coefficient de contingence
• Parfaite si la valeur de C = 1
• Très forte si C > 0,8.
• Forte si C se situe entre 0,5 et 0,8.
• d'intensité Moyenne si C se situe entre 0,2 et 0,5.
• Faible si C se situe entre 0 et 0.2.
• Nulle si C = 0.
133

Contenu connexe

Similaire à • Les statistiques peuvent être vues en fonction de l'objectif fixé ;

Introduction au Data Marketing
Introduction au Data MarketingIntroduction au Data Marketing
Introduction au Data MarketingAmar LAKEL, PhD
 
Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]Khalid Benammi
 
Presentation offre data science - epiconcept
Presentation   offre data science - epiconceptPresentation   offre data science - epiconcept
Presentation offre data science - epiconceptepiconcept
 
Herve aide-memoire-statistique r
Herve aide-memoire-statistique rHerve aide-memoire-statistique r
Herve aide-memoire-statistique rDies Diassa
 
0 g063g formation-ibm-spss-statistics-techniques-avancees-anova
0 g063g formation-ibm-spss-statistics-techniques-avancees-anova0 g063g formation-ibm-spss-statistics-techniques-avancees-anova
0 g063g formation-ibm-spss-statistics-techniques-avancees-anovaCERTyou Formation
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfFootballLovers9
 
Terminologies en statistique - Copy.docx
Terminologies en statistique  - Copy.docxTerminologies en statistique  - Copy.docx
Terminologies en statistique - Copy.docxsafaebelkyr
 
Statistiques ofppt
Statistiques ofpptStatistiques ofppt
Statistiques ofpptkhawla atir
 
Modulestatistiques 120308132649-phpapp01
Modulestatistiques 120308132649-phpapp01Modulestatistiques 120308132649-phpapp01
Modulestatistiques 120308132649-phpapp01ilhamto katosa
 
0 g056g formation-analyse-des-correspondances-avec-spss-statistics
0 g056g formation-analyse-des-correspondances-avec-spss-statistics0 g056g formation-analyse-des-correspondances-avec-spss-statistics
0 g056g formation-analyse-des-correspondances-avec-spss-statisticsCERTyou Formation
 
kaggle competition : census [ école ingénieur Insa - Data science ]
kaggle competition : census [ école ingénieur Insa - Data science ]kaggle competition : census [ école ingénieur Insa - Data science ]
kaggle competition : census [ école ingénieur Insa - Data science ]didier le picaut
 

Similaire à • Les statistiques peuvent être vues en fonction de l'objectif fixé ; (15)

Wp bon
Wp bonWp bon
Wp bon
 
Introduction au Data Marketing
Introduction au Data MarketingIntroduction au Data Marketing
Introduction au Data Marketing
 
Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]
 
Presentation offre data science - epiconcept
Presentation   offre data science - epiconceptPresentation   offre data science - epiconcept
Presentation offre data science - epiconcept
 
Herve aide-memoire-statistique r
Herve aide-memoire-statistique rHerve aide-memoire-statistique r
Herve aide-memoire-statistique r
 
0 g063g formation-ibm-spss-statistics-techniques-avancees-anova
0 g063g formation-ibm-spss-statistics-techniques-avancees-anova0 g063g formation-ibm-spss-statistics-techniques-avancees-anova
0 g063g formation-ibm-spss-statistics-techniques-avancees-anova
 
ASOCEU France - Lesson 2 - Data Analyse
ASOCEU France - Lesson 2 - Data AnalyseASOCEU France - Lesson 2 - Data Analyse
ASOCEU France - Lesson 2 - Data Analyse
 
Analyzing a churn data set
Analyzing a churn data set Analyzing a churn data set
Analyzing a churn data set
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdf
 
Terminologies en statistique - Copy.docx
Terminologies en statistique  - Copy.docxTerminologies en statistique  - Copy.docx
Terminologies en statistique - Copy.docx
 
Statistiques ofppt
Statistiques ofpptStatistiques ofppt
Statistiques ofppt
 
Modulestatistiques 120308132649-phpapp01
Modulestatistiques 120308132649-phpapp01Modulestatistiques 120308132649-phpapp01
Modulestatistiques 120308132649-phpapp01
 
0 g056g formation-analyse-des-correspondances-avec-spss-statistics
0 g056g formation-analyse-des-correspondances-avec-spss-statistics0 g056g formation-analyse-des-correspondances-avec-spss-statistics
0 g056g formation-analyse-des-correspondances-avec-spss-statistics
 
Les statistiques
Les statistiquesLes statistiques
Les statistiques
 
kaggle competition : census [ école ingénieur Insa - Data science ]
kaggle competition : census [ école ingénieur Insa - Data science ]kaggle competition : census [ école ingénieur Insa - Data science ]
kaggle competition : census [ école ingénieur Insa - Data science ]
 

• Les statistiques peuvent être vues en fonction de l'objectif fixé ;

  • 1. Analyse de données Pr Dr. Hasna CHAIBI 2021-2022 1
  • 2. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Plan ❑Introduction ❑Analyse en Composantes Principales ❑Analyses Factorielles ❑Analyse Factorielle des Correspondances ❑Analyse des Correspondances Multiples ❑Analyse Factorielle Discriminante ❑Classification 2
  • 3. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Introduction • Les statistiques peuvent être vues en fonction de l'objectif fixé ; • Les méthodes statistiques sont employées soit pour: ➢Explorer les données (nommée statistique exploratoire) ➢Prédire un comportement (nommée statistique prédictive ou décisionnelle) • La statistique exploratoire s'appuie sur des techniques descriptives et graphiques. Elle est généralement décrite par la statistique descriptive qui regroupe des méthodes exploratoires simples, uni- ou bidimensionnelle (moyenne, variance, corrélation, ...) et la statistique exploratoire multidimensionnelle. 3
  • 4. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Introduction • Statistiques Descriptives permettent de résumer des données grâce à des calculs ou des graphique simple ( en calculant la moyenne, la variance, l’écart types…) • Statistiques exploratoire permettent de tirer les informations de jeu de données qui sont un peu plus volumineux, Autrement dit c’est d’extraire des informations à partir d’un jeu de données sans nécessairement avoir une question précise derrière la tête ou sans avoir des attentes particulières sur une information précise, donc vous laissez plus ou moins guider par l’analyse. • Statistiques prédictive permettent de prédire un comportement c-à-d d'extraction de connaissances à partir de données qui analysent des faits présents et passés pour faire des hypothèses prédictives sur des événements futurs. Une des applications les plus connues est l'évaluation du risque-client, qui est utilisée dans l'ensemble des services financiers. Les modèles d'évaluation traitent les antécédents de crédit d'un client, les demandes de prêt, les données client, etc. , afin de classer les individus selon la probabilité de rembourser leurs crédits en temps voulu. 4
  • 8. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Introduction • La statistique exploratoire décrite par: ➢La statistique descriptive qui regroupe des méthodes exploratoires simples, uni- ou bidimensionnelle (moyenne, variance, corrélation, ...) ➢ La statistique exploratoire multidimensionnelle. L'analyse de données s'inscrit dans ce cadre de la statistique exploratoire multidimensionnelle. 8
  • 9. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Introduction • Les méthodes d’analyse factorielle sont incontestablement des outils fondamentaux de l’analyse des tableaux de données qui ne présentent pas de structure particulière. • Elles visent essentiellement un but descriptif, en condensant l’information contenue dans un tableau, constitué souvent d’un nombre élevé de lignes et de colonnes, en quelques représentations graphiques à deux dimensions, accompagnées de tableaux reprenant les valeurs numériques de caractéristiques destinées à aider l’utilisateur lors de l’interprétation. 9
  • 10. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Introduction 10 Maths Elève1 17 Elève2 18 Elève3 15 Elève4 6 Elève5 5 Elève6 3 ➢ Si on a une seule variable nous pouvons tracer les données sur une droite numérique (représentation axiale) Interprétation: Les élèves 1, 2et 3 ont valeurs relativement élevées et les élèves 4,5 et 6 ont des faibles valeurs
  • 11. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Introduction 11 Maths Histoire Elève1 17 16 Elève2 18 12 Elève3 15 14 Elève4 8 10 Elève5 4 9 Elève6 7 6 ➢ Si on a deux variables on trace les données en deux dimension Les élèves 1,2 et 3 forment une classe dans le côté droit Et les élèves 4,5 et 6 forment une classe dans le côté gauche
  • 12. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Introduction 12 Maths Histoire Philos. Elève1 18 4 17.5 Elève2 17 7 16.5 Elève3 16 8 15.75 Elève4 14 10 8 Elève5 13 12 6 Elève6 10 14 4.25 ➢ Si on a trois variables, nous devons ajouter un autre axe ( graphe de 3 dimensions) Les petits points ont des valeurs plus élevées pour la philosophie et sont plus éloignés Les points les plus grands ont des valeurs plus petites pour la philosophie et sont plus proches
  • 13. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Introduction 13 Comment représenter les données dans un seul graphique? Maths Histoire Philos. Arabe Franc physiq Elève1 18 4 17.5 … … … Elève2 17 7 16.5 … … … Elève3 16 8 15.75 … … … Elève4 14 10 14 … … … Elève5 13 12 13.5 … … … Elève6 10 14 11.25 … … … Elève7 8 16 8.75 … … … Elève8 6 17 5.75 … … … Elève9 3 18 3.25 … … …
  • 14. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Introduction 14 Maths Histoire Philos. Arabe Franc physiq Elève1 18 4 17.5 … … … Elève2 17 7 16.5 … … … Elève3 16 8 15.75 … … … Elève4 14 10 14 … … … Elève5 13 12 13.5 … … … Elève6 10 14 11.25 … … … Elève7 8 16 8.75 … … … Elève8 6 17 5.75 … … … Elève9 3 18 3.25 … … … Tirer des conclusion à partir d’un tableau de 6 lignes (individus) et deux ou trois colonnes (variables) est un exercice simple Mais lorsque le tableau a plus de 3 colonnes (variables) les choses deviennent plus complexes.
  • 15. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Introduction 15 Maths Histoire Philos. Arabe Franc physiq Elève1 18 4 17.5 … … … Elève2 17 7 16.5 … … … Elève3 16 8 15.75 … … … Elève4 14 10 14 … … … Elève5 13 12 13.5 … … … Elève6 10 14 11.25 … … … Elève7 8 16 8.75 … … … Elève8 6 17 5.75 … … … Elève9 3 18 3.25 … … … L’analyse des données permet de traiter un nombre très important de données et de dégager les aspects les plus intéressants de la structure de celles-ci. Le succès de cette discipline dans les dernières années est dû, dans une large mesure, aux représentations graphiques fournies.
  • 16. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse de Données L’Objectif est de: • Résumer, synthétiser ou condenser le comportement de P variables (observer n fois) • Réduire les dimensions qui permettent de retirer la redondance ou la duplicité dans un ensemble de variables corrélées 16
  • 17. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Les Méthodes d’Analyse de Données ❑Analyse par réduction des dimensions • Analyse en composantes principales • Analyse factorielle des correspondances • Analyse des correspondances multiples • Analyse canonique • Positionnement multidimensionnel • Analyse Factorielle Multiple ❑Analyse par classification • Classification automatique • Analyse factorielle discriminante ❑Analyse des données et régressions 17
  • 18. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Les Méthodes d’Analyse de Données 18 Méthode statistique exploratoire multidimensionnelle Méthode factorielle Facteurs qui remplacent les variables initiales Nombre données en déformant le moins possible la réalité est recherche Réduit
  • 19. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Logiciels • L'analyse des données moderne ne peut être dissociée de l'utilisation des ordinateurs ; de nombreux logiciels permettant d'utiliser les méthodes d'analyse des données 19 SPSS XLSTAT Statistica Logiciel R
  • 20. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) • Le principe de l’ACP consiste à représenter le nuage des n points dans un espace 𝑶, 𝒖𝟏, 𝒖𝟐, … , 𝒖𝒑 qui permettra, en des projections dans l’espace engendré par les premiers vecteurs, de montrer les grands allongements de ce nuage. 𝑶, 𝒖𝟏, 𝒖𝟐, … , 𝒖𝒒 𝒂𝒗𝒆𝒄 𝒒 ≪ 𝒑 20
  • 21. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) • ACP est une méthode de la famille de l'analyse des données et plus généralement de la statistique multivariée, qui consiste à transformer des variables liées entre elles (dites « corrélées » en statistique) en nouvelles variables décorrélées les unes des autres. • Ces nouvelles variables sont nommées « composantes principales », ou axes principaux. Elle permet au praticien de réduire le nombre de variables et de rendre l'information moins redondante. • ACP est un outil de réduction de dimension qui permet de retirer la redondance ou la duplicité dans un ensemble de variables corrélées 21
  • 22. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) 22 • Une technique exploratoire pour résumer les relations entre les variables à l’aide d’un jeu des facteurs aussi réduit que possible. • En plus de l’aspect réduction des données, ces facteurs sont sensées discriminer les données de manière à être facilement interprétable. • Une technique statistique dont le but est de représenter les relations qui lient les variables à travers des valeurs prises par les individus. • Permet de résumer l’ensemble des variables en un petit nombre de variables synthétiques appelées facteurs.
  • 23. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 23 Traitement univarié Traitement bivarié Traitement multivarié Les variables sont traitées une par une Rechercher l’interaction entre 2 variables Rechercher la liaison simultanée entre plus de deux variables et fournir une information synthétisée Signifie Traitement des données Signifie Signifie
  • 24. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) • ACP s’intéresse à des tableaux de données rectangulaires avec des individus en lignes et des variables quantitatives en colonnes 24 ✓ 9 individus (lignes) ✓ 6 variables (colonnes) Individus Variables quantitatives Maths Histoire Philos. Arabe Franc physiq Elève1 18 4 17.5 … … … Elève2 17 7 16.5 … … … Elève3 16 8 15.75 … … … Elève4 14 10 14 … … … Elève5 13 12 13.5 … … … Elève6 10 14 11.25 … … … Elève7 8 16 8.75 … … … Elève8 6 17 5.75 … … … Elève9 3 18 3.25 … … …
  • 25. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Matrice de données, notations • L’ACP traite des tableaux rectangulaires (matrice) donnant les valeurs d’un ensemble de variables quantitatives( au nombre de p) relevés sur un ensemble d’individus (au nombre de n) 25 p Variables quantitatives n Individus X : le tableau (la matrice ) individu- variables quantitatives n : le nombre d’individus p : le nombre des variables i : L’indice désignant les individus j : L’indice désignant les variables ത 𝑋𝑗 : la moyenne de la jème variable ( ത 𝑋𝑗 = 𝟏 𝒏 σ𝒊=𝟏 𝒏 𝒙𝒊𝒋 ) 𝑽 𝑿𝒋 : la variance de la jème variable (𝑽 𝑿𝒋 = 𝟏 𝒏 σ𝒊=𝟏 𝒏 (𝒙𝒊𝒋 − ത 𝑋𝑗)𝟐 ) 𝝈(𝑿𝒋) : l’écart-type de la jème variable ( 𝝈 𝑿𝒋 = 𝑽 𝑿𝒋 )
  • 26. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Variables • Variable: élément qui peut prendre différentes valeurs 26
  • 27. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Variables • Variable Qualitative: variable dont les modalités sont des mots. ✓Qualitative nominale dont les modalités ne peuvent pas être ordonnées selon leur sens, exp ( célibataire, conjoint, divorcé, marié, veuf), groupe sanguin(O, O+, A, AB …) ✓Qualitative ordinales dont les modalités s’ordonnent selon leur sens exp( très satisfait, satisfait, insatisfait, très insatisfait) 27 • Variable Quantitative: variable dont les modalités sont des nombres, des valeurs. ✓Variables quantitatives discrètes dont les valeurs sont des nombres précis isolés ( nombre d’années de scolarité complétées 12, 13, 14, 16 ..) ✓Variables quantitatives continues les modalités sont des nombres issus d’un intervalle de nombres réels( 4 semaines, 10 mois, 2 ans, 14 ans et demi…)
  • 28. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Espace des individus (Notion de ressemblance ) • ACP permet de représenter les individus en fonction de leurs « proximités » en explorant les liaisons entre variables et les ressemblances entre individus. Résultat 1: ➢Visualisation des individus (Notion de distance entre individus) ✓Quels sont ceux qui se ressemblent? ✓Quels sont ceux qui sont dissemblance? 28 On mesure la ressemblance entre deux individus par la distance euclidienne
  • 29. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Espace des individus (Notion de ressemblance ) • Distance au carré entre individus i et j: 𝒅𝟐 𝒌, 𝒎 = ෍ 𝒋=𝟏 𝒑 (𝒙𝒌𝒋 − 𝒙𝒎𝒋)𝟐 Etude des individus ↔ Etude de la forme du nuage N 29
  • 30. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Espace des variable • Résultat 2: ➢Visualisation des variables (en fonction de leurs corrélation) ✓Quelles sont celles qui sont associées? ✓Quelles sont celles qui ne le sont pas? ✓Quelles sont celles qui vont dans le même sens? ✓Quelles sont celles qui s’opposent? • On mesure la ressemblance ou bien la liaison entre deux variables par le coefficient de corrélation 30
  • 31. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Espace des variable (Notion de liaison) • Si 𝑥𝑗 représente une variable j • 𝑥𝑖 représentera la valeur de cette variable prise par le 𝑖è𝑚𝑒 individu ➢Moyenne: ത 𝑋𝑗 = 1 𝑛 σ𝑖=1 𝑛 𝑥𝑖𝑗 ➢Variance: 𝑉(𝑋𝑗) = 1 𝑛 σ𝑖=1 𝑛 (𝑥𝑖𝑗 − ത 𝑋)2 ➢Ecart-Type: σ(𝑋𝑗) = 𝑉(𝑋𝑗) 31
  • 32. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Espace des variable ( Notion de la liaison) • Covariance: 𝜎𝑥,𝑦 = 1 𝑛 σ𝑖=1 𝑛 (𝑥𝑖 − ҧ 𝑥)( 𝑦𝑖 − ത 𝑦) • Coefficient de Corrélation: 𝑟 𝑥, 𝑦 = 𝜎𝑥,𝑦 𝜎𝑥𝜎𝑦 − 1 ≤ 𝑟 𝑥, 𝑦 ≤ 1 32
  • 33. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Espace des variable ( Notion de la liaison) 33 Coefficient de Corrélation rx,y
  • 34. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Centrage – Réduction de données • Pour étudier la forme du nuage, deux prétraitements sont possible: centrage et réduction de données • Centrer les données: translater le nuage ce qui ne modifie pas la forme du nuage 𝑌𝑖𝑘 = 𝑋𝑖𝑘 − ത 𝑋𝑘 • Réduire les données: 𝑍𝑖𝑘 = 𝑋𝑖𝑘 − ത 𝑋𝑘 𝜎𝑘 34 𝒀𝒊𝒌 sont les données centrées 𝒁𝒊𝒌 sont les données centrées-réduit
  • 35. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Centrage – Réduction de données 35 Dans l’analyse en composantes principales, les variables sont souvent normalisées (réduites). Ceci est particulièrement recommandé lorsque les variables sont mesurées dans différentes unités (par exemple: kilogrammes, kilomètres, centimètres, …); sinon, le résultat de l’ACP obtenue sera fortement affecté. L’objectif est de rendre les variables comparables. La matrice des données centrées - Réduites
  • 36. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Exemple de centrage de données 36 Maths Histoire Elève1 18 4 Elève2 17 7 Elève3 16 8 Elève4 14 10 Elève5 13 12 Elève6 10 14 Nous calculerons la moyenne des données (notes) pour la variable 1 (Maths) Et la moyenne des données (notes) pour la variable 2 (Histoire) Calculer le centre de gravité: 𝐺 = ( ത 𝑋1, ത 𝑋2)
  • 37. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Exemple de centrage de données 37 Avec les valeurs moyennes, nous pouvons calculer le centre des données (centre de gravité) Nous allons maintenant déplacer les données de sorte que le centre soit au-dessus de l'origine dans le graphique Note: le déplacement des données ne change pas la façon dont les points de données sont positionnés les uns par rapport aux autres Ce point est toujours le plus élevé Et ce point est toujours le point le plus à droite Le centre de gravité de données centrées est G(0,0)
  • 38. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 38 Analyse en Composantes Principales (ACP) Exemple de centrage de données
  • 39. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Comment définir les nouveaux axes • L’ACP vise à fournir une image simplifiée de nuage de point qui soit la plus fidèle possible – trouver le sous-espace qui résume au mieux les données. • Une image est bonne si on visualise bien la diversité, la variabilité dans les données • Une image est bonne s’elle ne déforme pas trop les distance entre individus Comment quantifier la qualité d’une image ? A l’aide de la notion de dispersion ou variabilité appelée Inertie. 𝐈𝐧𝐞𝐫𝐭𝐢𝐞 ≡ 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 𝒈é𝒏é𝒓𝒂𝒍𝒊𝒔é𝒆 à 𝒑𝒍𝒖𝒔𝒊𝒆𝒖𝒓𝒔 𝒅𝒊𝒎𝒆𝒏𝒔𝒊𝒐𝒏 39
  • 40. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Comment définir les nouveaux axes 40 • Prenons une ligne aléatoire qui passe par l’origine • Pour quantifier l'adéquation de cette ligne aux données , ACP projette les données sur la ligne • Puis mesure les distances et essaye de trouver: ➢ La ligne qui maximise la distance entre les points projetés et l'origine (centre de gravité)
  • 41. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Comment définir les nouveaux axes • Maintenant on cherche le meilleur plan qui permet de visualiser au mieux le nuage de points ce plan contient les meilleurs axes (axes principaux) ou ( composantes principales) • On commence par trouver le 1er axe principal • Le premier axe (ou première composante principale) sera tel que la variance des individus (sur cet axe) soit maximale. ➢ Cet axe explique donc une certaine proportion de la variance totale des individus → l’inertie • Après nous faisons tourner la ligne, nous projetons les points sur la ligne et nous calculons l’inertie. • Nous répétons jusqu'à ce que nous finissions avec la ligne avec la plus grande inertie. 41
  • 42. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Comment définir les nouveaux axes 42 • Pour une première proposition de la ligne, ACP projette les point sur cette ligne et mesure les distances entre ces points et l’origine • Soit d1 est la distance entre le premier point et l’origine. • d2 est la distance entre le deuxième point et l’origine. • Etc ….. Inertie= (𝒅𝟏 𝟐 +𝒅𝟐 𝟐 +𝒅𝟑 𝟐 +𝒅𝟒 𝟐 + 𝒅𝟓 𝟐 + 𝒅𝟔 𝟐 ) 𝟔 = 𝟏 𝒏 σ𝒊=𝟏 𝒏 𝒅𝟐(𝑰𝒊, 𝑮)
  • 43. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Comment définir les nouveaux axes • La dispersion du nuage de points est mesurée par son inertie par rapport au centre de gravité • L’inertie I est égale à la somme des variances des variables étudiées 𝐼 = ෍ 𝑗=1 𝑝 𝜎𝑗 2 = 1 𝑛 ෍ 𝒊=𝟏 𝒏 𝒅𝟐 (𝑰𝒊, 𝑮) ➢Remarque: Dans le cas où les variables sont centrées réduites, la variance de chaque variable veut 1 L’ inertie totale est alors égale à p (nombre de variables) 43
  • 44. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Comment définir les nouveaux axes 44 • Après la 1ère composante principale, on en recherche une 2ème qui doit avoir les propriétés suivantes: ➢Avoir une corrélation nulle avec la première. ➢Avoir, à son tour, la plus grande variance. • Le processus se répète jusqu’à obtenir les p composantes (où p représente le nombre de variables initiales)
  • 45. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Ajustement du nuage des individus 45 2ème Composante principale 1ère Composante principale 17% 83%
  • 46. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Comment définir les nouveaux axes 46
  • 47. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 47 Tableau de données Matrice de corrélation ( ∑ ) Ou Matrice de variance-covariance (Ω ) Diagonalisation Matrice des vecteurs propres Matrice diagonale des valeurs propres Les composantes principales Histogramme de valeurs propres Extraire les facteurs et déterminer leur nombre Les vecteurs propres sont les facteurs Si les données sont hétérogènes Si les données sont homogènes
  • 48. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Choix de la matrice de variance covariance Ω ou de corrélation ∑ ? ➢Si les variables sont hétérogènes (exemple: prix et poids) alors on doit choisir la matrice de corrélation notée ∑ ➢Si les données sont homogènes (exemple: les notes (comparable) ) alors on choisit la matrice de variance covariance notée Ω 48
  • 49. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) • On compte faire l’analyse en composantes principales (ACP ) de la matrice X composée de 6 individus { I1,I2, I3, I4, I5, I6 } et 3 variables {X1, X2, X3} • A partir de la matrice X 1. Calculer le centre de gravité de X noté Gx. 2. Déduire la matrice Y la matrice des données centrées 3. Calculer le centre de gravité de Y, noté Gy. 4. Calculer la matrice variance covariance Ω de X 5. Calculer l’inertie totale I 6. Calculer Z la matrice des données centrées réduites. 7. Calculer la matrice de corrélation ∑ 49 𝑋 = 2 0 1 1 0 2 0 0 1 1 1 0 1 0 1 1 0 0
  • 50. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Centre de gravité • Calculer le centre de gravité de X noté Gx • 𝐺𝑥( ത 𝑋1, ത 𝑋2, ത 𝑋3) avec • ത 𝑋1 = 1 6 σ𝑖=1 6 𝑥𝑖1 = 2+1+2+1 6 = 1 • ത 𝑋2 = 1 6 σ𝑖=1 6 𝑥𝑖2 = 1+1+1 6 = 1 2 • ത 𝑋3 = 1 6 σ𝑖=1 6 𝑥𝑖3 = 1+1+1 6 = 1 2 50 𝑋 = 2 0 1 1 0 2 0 0 1 1 1 0 1 0 1 1 0 0 Donc 𝐺𝑥( ത 𝑋1, ത 𝑋2, ത 𝑋3) = (1, 1 2 , 1 2 )
  • 51. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Déduire la matrice Y la matrice des données centrées • 𝒀𝒊𝒋 = 𝒙𝒊𝒋 − ഥ 𝑿𝒋 on a : ത 𝑋1 = 1 , ത 𝑋2 = 1 2 et ത 𝑋3 = 1 2 51
  • 52. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Calculer le centre de gravité de Y, noté Gy. • 𝐺𝑌(ത 𝑌1, ത 𝑌2, ത 𝑌3) 52 ത 𝑌1 = 1 6 ෍ 𝑖=1 6 𝑦𝑖1 = 1 2 ∗ 2 + 0 − 2 + 2 − 2 6 = 0 ത 𝑌2 = 1 6 ෍ 𝑖=1 6 𝑦𝑖2 = 1 2 ∗ −1 − 1 − 1 + 1 + 1 + 1 6 = 0 ത 𝑌3 = 1 6 ෍ 𝑖=1 6 𝑦𝑖3 = 1 + 1 + 1 − 1 − 1 − 1 6 = 0 𝑑𝑜𝑛𝑐 𝐺𝑌(ത 𝑌1, 𝑌2, ത 𝑌3) = (0,0,0)
  • 53. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Calculer la matrice de variance covariance Ω de X • Ω = 1 𝑛 𝑌𝑡𝑌 53 Ω = 1 24 16 0 0 0 6 −6 0 −6 6 = 1 12 8 0 0 0 3 −3 0 −3 3 • 𝑉 𝑋1 = 8 12 , • 𝑉 𝑋2 = 3 12 = 1 4 , • 𝑉 𝑋3 = 1 4 • 𝜎 𝑋1 = 8 12 , • 𝜎 𝑋2 = 1 4 = 1 2 , • 𝜎 𝑋3 = 8 12 Donc
  • 54. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Calculer l’inertie totale I (Méthode 1) • 𝐼 = 1 𝑛 σ𝒊=𝟏 𝒏 𝒅𝟐(𝑰𝒊, 𝑮𝒀) = 1 𝑛 σ𝑖=1 𝑛 𝐼𝑖 2 • 𝑰𝟏 𝟐 = 1 4 ∗ 22 + −1 2 + 12 = 3 2 • 𝑰𝟐 𝟐 = 1 2 • 𝑰𝟑 𝟐 = 3 2 , 𝑰𝟒 𝟐 = 3 2 , 𝑰𝟓 𝟐 = 1 2 , 𝑰𝟔 𝟐 = 3 2 • Donc 𝐼 = 1 6 ∗ ( 3 2 + 1 2 + 3 2 + 3 2 + 1 2 + 3 2 ) = 7 6 54
  • 55. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Calculer l’inertie totale I (Méthode 2) 𝐼 = 𝑇𝑟𝑎𝑐𝑒(Ω)= Ω11 + Ω22 + Ω33 𝐼 = 𝑇𝑟𝑎𝑐𝑒(Ω)= 8 12 + 3 12 + 3 12 = 7 6 = 1.166 55 Ω = 1 24 16 0 0 0 6 −6 0 −6 6 = 1 12 8 0 0 0 3 −3 0 −3 3
  • 56. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Calculer Z la matrice des données centrées réduites. • 𝑍𝑖𝑘 = 𝑋𝑖𝑘− ത 𝑋𝑘 𝜎𝑘 = 𝑌𝑖𝑗 𝜎𝑘 56 • 𝑉 𝑋1 = 8 12 • 𝑉 𝑋2 = 3 12 = 1 4 , • 𝑉 𝑋3 = 1 4 • 𝜎 𝑋1 = 8 12 = 0.816 • 𝜎 𝑋2 = 1 4 = 1 2 = 0.5 • 𝜎 𝑋3 = 1 4 =0.5 On a:
  • 57. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Calculer Z la matrice des données centrées réduites. 57 On a: Donc
  • 58. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Calculer la matrice de corrélation ∑ • On a : ∑ = 𝟏 𝒏 𝒁𝒕𝒁 • = 1 6 6 0 0 0 6 −6 0 −6 6 = 1 0 0 0 1 −1 0 −1 1 • Interprétation: ➢ 𝑟 𝑋1, 𝑋2 = 𝑟 𝑋1, 𝑋3 = 0 ⇒ 𝑋1 𝑒𝑠𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑒𝑠 𝑑𝑒 𝑋2 𝑒𝑡 𝑋3 ➢ 𝑟 𝑋2, 𝑋3 = −1 ⇒ 𝑋2 𝑒𝑡 𝑋3 𝑠𝑜𝑛𝑡 𝑓𝑜𝑟𝑡𝑒𝑚𝑒𝑛𝑡 𝑐𝑜𝑟𝑟é𝑙é𝑠 𝑛é𝑔𝑎𝑡𝑖𝑣𝑒𝑚𝑒𝑛𝑡 Remarque: On peut calculer l’Inertie totale à partir de la matrice ∑ 𝐼 = 𝑡𝑟𝑎𝑐𝑒 (∑)= 1+1+1= 3= P 58
  • 59. 59
  • 60. 60 Question: Examinez la matrice des corrélations entre les variables. Et tirez des conclusions concernant leurs corrélations.
  • 61. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Démarche Mathématiques ❑Choix entre ACP Normée et ACP Non Normée • On distingue deux type d’ACP : ➢ l’ACP non normée (sur matrice des variance covariances) qui analyse Y ➢ l’ACP normée (sur matrice des corrélations) qui analyse Z • Matrice de variance covariance entre les variables (si les données homogènes): Ω = 1 𝑛 𝑌𝑡𝑌 • Matrice de corrélation entre les variables (si les données hétérogènes): ∑ = 1 𝑛 𝑍𝑡𝑍 61 Y est la matrice des données centrées Z est la matrice des données centrées- réduites
  • 62. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Démarche Mathématiques 62 Degré d’homogénéité 𝑺 = 𝒎𝒂𝒙(𝝈(𝑿𝒋)) 𝒎𝒊𝒏(𝝈 𝑿𝒋 ) Forme quadratique d’inertie Inertie Totale ACP normée S> 5 → données hétérogènes On utilise la matrice de corrélation noté ∑ comme forme quadratique d’inertie I=Trace(∑) =p (nombre des variables) ACP non normée S< 5 → données homogènes On utilise la matrice de variance covariance noté Ω comme forme quadratique d’inertie I=Trace(Ω)= somme des variances Choix entre une ACP normée et ACP non normée
  • 63. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Démarche Mathématiques ❑Choix entre ACP Normée et ACP Non Normée (Exemple) Ω = 1 12 8 0 0 0 3 −3 1 −3 3 63 • 𝜎 𝑋1 = 8 12 = 0.816 𝜎 𝑋2 = 1 4 = 1 2 = 0.5 𝜎 𝑋3 = 8 12 =0.5 On a: 𝑺 = 𝒎𝒂𝒙(𝝈(𝑿𝒋)) 𝒎𝒊𝒏(𝝈 𝑿𝒋 ) = 8 12 3 12 = 𝟖 𝟏𝟐 𝟑 𝟏𝟐 = 𝟖 𝟑 = 𝟏. 𝟔𝟑 < 𝟓 ⟹ 𝑨𝑪𝑷 𝑵𝒐𝒏 𝑵𝒐𝒓𝒎é𝒆 S< 𝟓 𝒅𝒐𝒏𝒄 𝒍𝒆𝒔 𝒅𝒐𝒏𝒏é𝒆𝒔 𝒔𝒐𝒏𝒕 𝒉𝒐𝒎𝒐𝒈è𝒏𝒆𝒔, 𝒐𝒏 𝒄𝒉𝒐𝒊𝒔𝒊 𝒖𝒏𝒆 𝑨𝑪𝑷 𝒏𝒐𝒏 𝒏𝒐𝒓𝒎é𝒆 𝒆𝒕 𝒍𝒂 𝒎𝒂𝒕𝒓𝒊𝒄𝒆 𝒅𝒆 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 𝒄𝒐𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 Ω 𝒔𝒆𝒓𝒂 𝒄𝒐𝒎𝒎𝒆 𝒇𝒐𝒓𝒎𝒆 𝒒𝒖𝒂𝒅𝒓𝒂𝒕𝒊𝒒𝒖𝒆𝒔 𝒅′ 𝒊𝒏𝒆𝒓𝒕𝒊𝒆
  • 64. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Démarche Mathématiques ❑Diagonalisation de Ω ➢Polynôme caractéristique de Ω ➢Valeurs propres de Ω ❑Calcul de l’Inertie à partir de valeurs propres ❑Fiabilité d’une ACP ❑Choix du nombre des axes à retenir pour une ACP 64
  • 65. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Diagonalisation de la matrice de varaince-covariance Ω • Les étapes de diagonalisation de Ω 1. Calculer le polynôme caractéristique 𝑃Ω (λ) 2. Déduire les valeurs propres λ𝑖 3. Déterminer les vecteurs propres 𝑢𝑖 4. Déterminer les matrices D et P telles que: Ω =P-1DP 65 • D est l matrice des valeurs propres • P est la matrice des vecteurs propres
  • 66. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Diagonalisation de la matrice de varaince-covariance Ω 1. Calculer le polynôme caractéristique 𝑃Ω (λ) 66 Ω = 1 12 8 0 0 0 3 −3 𝑂 −3 3 = 2 3 0 0 0 1 4 − 1 4 0 − 1 4 1 4 𝑃Ω (λ)= det(Ω − λ𝐼𝑛) = 2 3 − λ 0 0 0 0 1 4 − λ − 1 4 − 1 4 1 4 − λ 𝑃Ω (λ)= 2 3 − λ 1 4 − λ − 1 4 − 1 4 1 4 − λ = 2 3 − λ ∗ [ ( 1 4 − λ)∗( 1 4 − λ)-((− 1 4 ) *(− 1 4 ))] = (−λ)( 2 3 − λ)( 1 2 − λ)
  • 67. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Diagonalisation de la matrice de varaince-covariance Ω 2. Déduire les valeurs propres λ𝑖 • On dit que λ est une valeur propre de la matrice Ω ↔ 𝑃Ω (λ) = 0 • 𝑃Ω (λ) = −λ 2 3 − λ 1 2 − λ = 0 ⇒ (−λ)=0 𝑜𝑢 2 3 − λ = 0 𝑜𝑢 1 2 − λ = 0 • Les valeurs propres doivent être ordonnées dans l’ordre décroissant λ1 = 2 3 , λ2 = 1 2 , λ3=0 , 67 ➢ Ces valeurs propres doivent être rangées dans l’ordre décroissant
  • 68. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 3. Déterminer les vecteurs propres 𝑢𝑖 • Soit Ω la matrice de variance covariance: Ω = 2 3 0 0 0 1 4 − 1 4 0 − 1 4 1 4 • 𝐸(λ=λ𝑖) = 𝑢 𝑥 𝑦 𝑧 ∈ ℜ3 Ω ∗ 𝑢 = λ𝑖 ∗ 𝑢 • 2 3 0 0 0 1 4 − 1 4 0 − 1 4 1 4 * 𝑥 𝑦 𝑧 = 2 3 ∗ 𝑥 𝑦 𝑧 68 Analyse en Composantes Principales (ACP) Diagonalisation de la matrice de varaince-covariance Ω
  • 69. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Diagonalisation de la matrice de varaince-covariance Ω 3. Déterminer les vecteurs propres 𝑢𝑖 • 2 3 𝑥 = 2 3 𝑥 1 4 𝑦 − 1 4 𝑧 = 2 3 𝑦 − 1 4 𝑦 + 1 4 𝑧 = 2 3 𝑧 ⇒ 𝑥 = 𝑥, 𝑧 = 0 , 𝑦 = 0 ⇒ 𝑢1 ∗ 𝑥 𝑦 𝑧 ∈ 𝐸 λ= 2 3 ⇔ 𝑥 𝑦 𝑧 = 𝑥 0 0 = 𝑥 ∗ 1 0 0 69
  • 70. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Diagonalisation de la matrice de varaince-covariance Ω 3. Déterminer les vecteurs propres 𝑢𝑖 • 2 3 𝑥 = 1 2 𝑥 1 4 𝑦 − 1 4 𝑧 = 1 2 𝑦 − 1 4 𝑦 + 1 4 𝑧 = 1 1 𝑧 ⇒ 𝑥 = 0, 𝑦 = −𝑧 , 𝑦 = −𝑧 ⇒ 𝑢2 ∗ 𝑥 𝑦 𝑧 ∈ 𝐸 λ= 1 2 ⇔ 𝑥 𝑦 𝑧 = 0 −𝑧 𝑧 = 𝑧 ∗ 0 −1 1 • 70
  • 71. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Diagonalisation de la matrice de varaince-covariance Ω 3. Déterminer les vecteurs propres 𝑢𝑖 • 2 3 𝑥 = 0 1 4 𝑦 − 1 4 𝑧 = 0 − 1 4 𝑦 + 1 4 𝑧 = 0 ⇒ 𝑥 = 0, 𝑧 = 𝑦 , ⇒ 𝑢3 ∗ 𝑥 𝑦 𝑧 ∈ 𝐸 λ=0 ⇔ 𝑥 𝑦 𝑧 = 0 𝑦 𝑦 = 𝑦 ∗ 0 1 1 • 71
  • 72. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Diagonalisation de la matrice de varaince-covariance Ω Déterminer les matrices D et P telles que: Ω =P-1DP 72 D= 2 3 0 0 0 1 2 0 0 0 0 P = 1 0 0 0 −1 1 0 1 1
  • 73. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) • 𝑢1 𝑒𝑡 𝑢2 sont ils orthogonaux? 𝑢1 = 1 0 0 et 𝑢2 = 0 −1 1 𝑢1 et 𝑢2 sont orthogonaux ⇔ Le produit scalaire de 𝑢1 et 𝑢2 égale à zéro 𝑢1 ⊥ 𝑢2 ⇔ < 𝑢1, 𝑢2 > = 𝑢1 ′ ∗ 𝑢2 = 0 73
  • 74. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) • 𝑢1 𝑒𝑡 𝑢2 sont ils normés? 𝑢1 = 1 0 0 et 𝑢2 = 0 −1 1 𝑢𝑗 est normé ⇔ la norme de de 𝑢𝑗 est égale à 1 𝑢𝑗 = 1 ➢ 𝑢1 = 12 + 02 + 02 = 1 ⇒ 𝑢1 est un vecteur normé ➢ 𝑢2 = 02 + (−1)2+12 = 2 ≠ 1 ⇒ 𝑢2 n’est pas un vecteur normé 74
  • 75. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) • Déduire (𝑢1)𝑁 et (𝑢2)𝑁 les deux vecteurs normées de 𝑢1 et 𝑢2 • 𝑢1 = 1 0 0 et 𝑢2 = 0 −1 1 𝑢1 = 1 et 𝑢2 = 2 ➢(𝑢1)𝑁= 𝑢1 𝑢1 ➢(𝑢1)𝑁= 1 0 0 ➢(𝑢2)𝑁= 𝑢2 𝑢2 ➢(𝑢2)𝑁= 1 2 0 −1 1 = 0 − 1 2 1 2 75
  • 76. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) • Calcul de l’inertie à partir des valeurs propres (Méthode 3) 𝑰 = ෍ 𝒋=𝟎 𝒑 λ𝑗 Or λ1= 2 3 , λ2 = 1 2 , λ3=0 • 𝑰 = λ1+ λ2+ λ3 = 2 3 + 1 2 + 0 = 𝟕 𝟔 76 Remarque: L’inertie est la quantité de l’information totale qu’on cherche à conserver
  • 77. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Combien de composantes principales retenir • Plusieurs critères peuvent permettre de sélectionner le nombre de facteurs à conserver : ➢Le critère du coude : si on observe un décrochement (ou coude) dans la décroissance, c'est-à-dire une accélération de cette dernière, suivi d’une décroissance plus régulière, alors on sélectionne les axes avant le décrochement ; • Le critère de Kaiser : on ne retient que les axes dont l’inertie est supérieure à l’inertie moyenne. 77
  • 78. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 • Le critère du coude: Cattell (1966, 1977) propose d’étudier la courbe de décroissance des valeurs propres (λk). L’idée est de détecter les « coudes » (les « cassures ») signalant un changement de structure 78 Analyse en Composantes Principales (ACP) Combien de composantes principales retenir
  • 79. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 • Le critère de Kaiser on ne retient que les axes dont l’inertie est supérieure à l’inertie moyenne I/p (pour une ACP non normée). • Dans une ACP normée, la somme des valeurs propres étant égale au nombre de variables, leur moyenne vaut 1. Nous considérons par conséquent qu’un axe est intéressant si sa valeur propre est supérieure 1. 79 Combien de composantes principales retenir Analyse en Composantes Principales (ACP) Combien de composantes principales retenir
  • 80. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Exemple: On a ത λ = 1 3 σ𝑘=1 𝑝 λ𝑘 = 1 3 2 3 + 1 2 + 0 = 7 18 = 0.388 ✓La valeur propre de l’axe 1: λ1 = 2 3 > 0.388 → 𝐴𝑥𝑒 1 𝑒𝑠𝑡 𝑟𝑒𝑡𝑒𝑛𝑢 ✓La valeur propre de l’axe 2: λ2 = 1 2 > 0.388 → 𝐴𝑥𝑒 2 𝑒𝑠𝑡 𝑟𝑒𝑡𝑒𝑛𝑢 ✓La valeur propre de l’axe 3: λ3 = 0 < 0.388 → 𝐴𝑥𝑒 3 𝑒𝑠𝑡 𝑟𝑒𝑗𝑒𝑡é ➢Donc on retient q composante principale avec q=2 80 Analyse en Composantes Principales (ACP) Combien de composantes principales retenir
  • 81. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 • Le critère de variance expliquée: On commence par l’axe ayant la part d’inertie la plus élevée et on commence à augmenter le nombre des axes, on s’arrête si la part d’inertie de l’espace formé par ces axes dépasse le 75% de la variance expliquée. Exemple: • Pour l’axe 1: 𝑮𝒂𝒊𝒏 𝑨𝒙𝒆𝟏 = λ1 𝐼 ∗ 100 = 2 3 7 6 ∗ 100 = 𝟓𝟔, 𝟓% < 𝟕𝟓% ⟶ 𝑜𝑛 𝑎𝑗𝑜𝑢𝑡𝑒 𝑙′ 𝑎𝑥𝑒2 • Pour l’axe 1 et 2: 𝑮𝒂𝒊𝒏 𝑨𝒙𝒆𝟏, 𝑨𝒙𝒆𝟐 = (λ1 + λ2) 𝐼 ∗ 100 = 2 3 + 1 2 7 6 ∗ 100 = 𝟏𝟎𝟎% > 𝟕𝟓% ⟶ 𝑜𝑛 𝑟𝑒𝑡𝑖𝑒𝑛𝑡 𝑙′ 𝑎𝑥𝑒1 𝑒𝑡 𝑙′ 𝑎𝑥𝑒2 81 Analyse en Composantes Principales (ACP) Combien de composantes principales retenir
  • 82. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Analyse en Composantes Principales (ACP) Taux d’information récupérée par l’espace retenu ❑Fiabilité de l’ACP : une ACP est dite fiable si son gain d’information récupéré est supérieur à 70% 𝑔𝑎𝑖𝑛 𝑑′ 𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 = 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒 𝑝𝑎𝑟 𝑙𝑒 𝑝𝑙𝑎𝑛 𝑝𝑟𝑖𝑛𝑐𝑖𝑝𝑎𝑙 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑡𝑜𝑡𝑎𝑙𝑒 = 𝐼𝑒 𝐼 ∗ 100 • Chaque valeur propre λ𝑗 représente la part d’inertie retenue par la composante 𝐶𝑗 ✓ ( λ1 𝐼 ∗ 100) représente la part d’inertie récupérée par la composante N°1 noté 𝐶1 ✓ ( λ2 𝐼 ∗ 100) représente la part d’inertie récupérée par la composante N° 2 noté 𝐶2 ✓ Gain d’inertie= ( λ1+λ2 𝐼 ∗ 100) représente la part d’inertie récupérée par le plan principal engendré par𝐶1 𝑒𝑡 𝐶2 82
  • 83. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 ❑Fiabilité de l’ACP 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒 𝐼𝑘: la variance expliquée par kème axe principal est 𝐼𝑘 = λ𝑘 • 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒 𝐼𝑒: la variance expliquée par le plan principal (𝑂, 𝑢𝑘, 𝑢𝑗) est 𝐼𝑒 = λ𝑘 + λ𝑗 83 Analyse en Composantes Principales (ACP) Taux d’information récupérée par l’espace retenu 𝑇𝑎𝑢𝑥 𝑑𝑒 𝑟é𝑐𝑢𝑝é𝑟𝑎𝑡𝑖𝑜𝑛 𝑑′𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 𝑡𝑜𝑡𝑎𝑙𝑒 = σ𝑖=1 𝑘 λ𝑖 σ𝑖=1 𝑝 λ𝑖 ∗ 100
  • 84. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 ❑Fiabilité de l’ACP Exemple: • On calcule le gain d’information pour λ1 = 2 3 , λ2 = 1 2 , λ3=0 84 Gain d’information= ( λ1+λ2 𝐼 ∗ 100) = ( 2 3 + 1 2 ) ∗ 100 = 100% > 70%, ⇒ donc notre 𝐀𝐂𝐏 𝐞𝐬𝐭 𝐟𝐢𝐚𝐛𝐥𝐞 Analyse en Composantes Principales (ACP) Taux d’information récupérée par l’espace retenu
  • 85. 85
  • 86. 86
  • 87. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Les données (variables) sont-elles factorisables? • Tester l’intérêt de l’ACP en vérifiant s’il est possible de compresser efficacement l’information disponible → Mesurer le degré de redondance des données 87
  • 88. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Les données sont-elles factorisables? 1. Test basé sur l’analyse de la matrice de corrélation • Plusieurs variables sont corrélées (ou anti-corrélées)? 88 r(VIT, TAI) r(DET, VIT) r(DET, TAI) r(LEG, TAI) r(LEG, VIT) r(LEG, DET)
  • 89. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Les données sont-elles factorisables? 2. Test basé sur l’analyse sur l’indice de KMO • Il faut observer l’indice de KMO (Kaiser-Meyer-Olkin) qui doit tendre vers 1. si ce n’est pas le cas, la factorisation n’est pas conseillée. • C’est le rapport: 𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝑐𝑜𝑟𝑟é𝑙𝑎𝑡𝑖𝑜𝑛𝑠 𝑎𝑢 𝑐𝑎𝑟𝑟é𝑒 𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝑐𝑜𝑟𝑟é𝑙𝑎𝑡𝑖𝑜𝑛 𝑝𝑎𝑟𝑡𝑖𝑒𝑙𝑙𝑒𝑠 𝑎𝑢 𝑐𝑎𝑟𝑟é𝑒 • Pour juger de l’indice de KMO, on peut utiliser l’échelle suivante: ❖0,50 et moins est misérable ❖Entre 0,6 et 0,7 c’est médiocre ❖Entre 0,7 et 0,8 c’est moyen ❖Entre 0,8 et 0,9 c’est méritoire ❖Et plus 0,9 c’est Excellent. 89
  • 90. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Les données sont-elles factorisables? 3. Test de sphéricité de Bartlett ❑Le test de sphéricité de Bartlett permet de comparer la matrice de corrélation à la matrice identité. On choisie entre les deux hypothèses suivantes 1. 𝐻0: σ = 𝐼𝑝 → 𝑇𝑜𝑢𝑡𝑒 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑠𝑜𝑛𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑒𝑠 2. 𝐻1: σ ≠ 𝐼𝑝 → 𝐼𝑙 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑛𝑒 𝑑𝑒𝑔𝑟é 𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑐𝑒 𝑒𝑛𝑡𝑟𝑒 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 Remarque: la signification (noté sig.) permet de choisir entre les deux hypothèses. ✓Si sig<5% : on rejette 𝐻0 et on accepte 𝐻1 pour dire qu’il existe une certaine dépendance entre les variables pour dire que l’ACP est applicable. ✓Si sig>5%: on accepte 𝐻0. Il n’existe pas de corrélation entre les variables pour dire que l’ACP n’est pas applicable. 90 → Si l’ACP satisfait à au moins deux de ces trois conditions, on peut continuer
  • 91. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 ❑Résumé: Les données (les variables ) sont factorisables si et seulement si : ➢L’indice de KMO>0.5 ➢Et la signification du test de Bartlett<0.05 Ou ➢L’indice de KMO>0.5 ➢Plusieurs variables sont corrélées (ou anti-corrélées) 91 Les données sont-elles factorisables?
  • 93. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Les coordonnées des individus sur le plan factoriel engendré par les vecteurs directeurs • Les coordonnées 𝑪𝒊𝒌des individus: ils sont utilisés pour savoir l’emplacement du point individu i par rapport à l’axe k. Autrement dit, savoir si l’individu est placé du côté positif ou du côté négatif de l’axe k. • On a λ1 = 2 3 , λ2 = 1 2 , λ3=0 , les valeurs propres de Ω • (𝑢1)𝑁= 1 0 0 et (𝑢2)𝑁= 0 − 1 2 1 2 les deux premiers vecteurs propres normées de Ω Dans le plan factoriel déterminer : ➢Les coordonnées des individus ➢Les coordonnées des variables ➢Représenter les 6 individus et les 3 variables sur le plan factoriel 93
  • 94. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Les coordonnées des individus sur le plan factoriel engendré par les vecteurs directeurs • Soit 𝐶1 les coordonnées des individus sur la composante 1 (l’axe1) • 𝐶1 = 𝑌 ∗ (𝑢1)𝑁 ∗ 1 0 0 = 1 2 ∗ 2 0 −2 2 0 −2 = 1 0 −1 1 0 −1 94
  • 95. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Les coordonnées des individus sur le plan factoriel engendré par les vecteurs directeurs • Soit 𝐶2 les coordonnées des individus sur la composante 2 (l’axe2) • 𝐶2 = 𝑌 ∗ (𝑢2)𝑁 ∗ 0 − 1 2 1 2 = 1 2 ∗ 2 2 2 2 2 2 − 2 2 − 2 2 − 2 2 = 0.707 0.707 0.707 −0.707 −0.707 −0.707 95
  • 96. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Les coordonnées des individus sur le plan factoriel engendré par les vecteurs directeurs • Soit C les coordonnées des individus sur le plan factoriel • 𝐶 = 1 0.707 0 −1 1 0.707 0.707 −0.707 0 −1 −0.707 −0.707 96
  • 97. 97 I1 I3 I2 I5 I4 I6 𝐶 = 1 0.707 0 −1 1 0.707 0.707 −0.707 0 −1 −0.707 −0.707 𝒖𝟏 𝒖𝟐
  • 98. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Nomination des axes principaux • Avant de procéder à l’étape de nomination, on doit vérifier que après extraction des facteurs, les variables doivent avoir une bonne qualité de représentation (QR). La valeur d’extraction ne doit pas être inférieure à 40%. Une variable ayant une valeur d’extraction < 40% sera éliminée automatiquement de notre analyse 98
  • 99. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Qualité de représentation 99 •La distance entre les variables et l’origine mesure la qualité de représentation des variables. Les variables qui sont loin de l’origine sont bien représentées par l’ACP. •Un cos2 élevé indique une bonne représentation de la variable sur les axes principaux en considération. Dans ce cas, la variable est positionnée à proximité de la circonférence du cercle de corrélation. •Un faible cos2 indique que la variable n’est pas parfaitement représentée par les axes principaux. Dans ce cas, la variable est proche du centre du cercle.
  • 101. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Nomination des axes principaux ❑Donner un sens à chacun des axes principaux ➢On donne un sens à un axe en étudiant les variables initiales Xj fortement corrélées (positivement ou négativement) avec l’axe principale. ➢L’examen des corrélations permet d’interpréter et nommer les axes principaux. ➢Ces quantités sont représentées dans un cercle appelé cercle de corrélation. 101
  • 102. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Nomination des axes principaux ❑Le cercle de corrélation: • Le cercle de corrélation nous donne les corrélations entre les variables (X1,…,Xp) et les composantes (C1, C2). • Pour positionner une variable Xj dans un cercle de corrélation, on utilise r(Xj, C1) comme abscisse et r(Xj, C2) comme ordonné de cette variable. • Une variable initiale ayant une forte corrélation avec une composante( C1 ou C2 ) signifie que cette variable initiale a une forte contribution (CRT) à l’information récupérée par l’axe principal de cette composante principale. • Le nom de cette variable sera inclus dans la direction correspondante. 102
  • 103. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Nomination des axes principaux ❑Remarques: ➢Les points variables qui sont proches de la circonférence de cercle des corrélations ont une bonne qualité de représentation et doivent être utilisés dans l’interprétation. ➢Si un point variable est fortement corrélé avec une composante, il est faiblement corrélé avec l’autre. Ce point variable ne peut donner son nom qu’à une seule composante principale. ➢Les composantes principales sont parfois vues comme des variables cachées » non- observables, que l’ACP permet donc de mettre en évidence derrière les variables initiales, seules observable. ➢Donner un sens à un axe revient à la recherche lexicale ( ou recherche de mots) qui peut résumer un groupe de variables. ➢L’origine de deux axes principaux représente un point moyen (centre de gravité barycentre), autrement dit dès qu’un individu se rapproche de l’origine ça signifie que les caractéristiques de cet individu se rapprochent des moyennes des différentes variable initiales. 103
  • 104. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Nomination des axes principaux Coordonnées des variables sur le plan factoriel et cercle de corrélation • 𝑟 𝑋𝑗, 𝐶𝑘 = 𝐶𝑜𝑣(𝑋𝑗,𝐶𝑘) 𝜎(𝑋𝑗)𝜎(𝐶𝑘) • 𝐶𝑜𝑣 𝑋𝑗, 𝐶𝑘 = 1 𝑛 σ𝑖=1 𝑛 (𝑥𝑖𝑗 − ത 𝑋𝑗)(𝐶𝑖𝑘 − ҧ 𝐶𝑘) 104 𝑪𝟏 𝑪𝟐 𝑿𝟏 1 0 𝑿𝟐 0 -1 𝑿𝟑 0 1 𝑿𝟑(0,1) 𝑿𝟏(1,0) 𝑿𝟐(0,-1) Cercle de corrélation Matrice de composante
  • 105. 105 I1 I3 I2 I5 I4 I6 𝐶 = 1 0.7 0 −1 1 0.7 0.7 −0.7 0 −1 −0.7 −0.7 𝒖𝟐 𝑿𝟑(0,1) 𝑿𝟏(1,0) 𝑿𝟐(0,-1)
  • 106. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 106 Nomination des axes principaux Coordonnées des variables sur le plan factoriel et cercle de corrélation Exemple: •Les variables positivement corrélées sont regroupées. •Les variables négativement corrélées sont positionnées sur les côtés opposés de l’origine du graphique (quadrants opposés). •La distance entre les variables et l’origine mesure la qualité de représentation des variables. Les variables qui sont loin de l’origine sont bien représentées par l’ACP.
  • 107. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Interpréter la position des individus par rapport aux sens des axes Contribution de l’individu i à l’inertie de l’axe k • L’analyse de la projection des individus permet de déduire l’importance des individus dans chaque sens des axes 𝑪𝑻𝑹𝒌 𝑰𝒊 = 𝒑𝒊(𝑪𝒊𝒌)𝟐 λ𝒌 Avec : 𝒑𝒊: 𝐿𝑒 𝑝𝑜𝑖𝑑𝑠 𝑑𝑒 𝑙′𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢 𝑖 𝑪𝒊𝒌: 𝐿𝑎 𝑐𝑜𝑜𝑟𝑑𝑛𝑛é𝑒 𝑑𝑒 𝑙′ 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢 𝑖 𝑠𝑢𝑟 𝑙′ 𝑎𝑥𝑒 𝑘 λ𝒌: La valeur propre associée à l’axe k qui représente la qualité de l’information récupérée par cet axe. 107 La contribution de l’individu 𝒊 sur la composante 𝒌
  • 108. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 • On retient pour l’interprétation les individus dont la contribution est > à la contribution moyenne (> 1/n), le sens de la contribution dépend du signe de 𝑪𝒊𝒌. • Si pi=1/n (poids égaux): 𝑪𝑻𝑹𝒌 𝑰𝒊 > 𝟏 𝒏 ❑Remarques: • La contribution mesure la part prise par l’individu i dans la détermination de l’axe principale Ck • La somme des contributions des individus= 1 108 Interpréter la position des individus par rapport aux sens des axes Contribution de l’individu i à l’inertie de l’axe k
  • 109. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 C1 C2 CTR1 sur C1 CTR2 sur C2 CTR moyenne Poids p= 𝟏 𝟔 I1 1 0.707 0.1666 0.166 I2 0 0.707 0.1666 0.166 I3 -1 0.707 0.1666 0.166 I4 1 -0.707 0.1666 0.166 I5 0 -0.707 0.1666 0.166 I6 -1 -0.707 0.1666 0.166 λ𝒌 λ𝟏=0.66 λ𝟐=0.5 109 E𝒙𝒆𝒎𝒑𝒍𝒆 𝒅𝒆 𝒄𝒂𝒍𝒄𝒖𝒍 ∶ 𝑪𝑻𝑹𝟏 𝑰𝟏 = 𝒑𝒊(𝑪𝟏𝟏)𝟐 λ𝟏 = 𝑪𝑻𝑹𝟐 𝑰𝟏 = 𝒑𝒊(𝑪𝟏𝟐)𝟐 λ𝟐 = Interpréter la position des individus par rapport aux sens des axes Contribution de l’individu i à l’inertie de l’axe k
  • 110. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 C1 C2 CTR1 sur C1 CTR2 sur C2 CTR moyenne Poids p= 𝟏 𝟔 I1 1 0.707 0,2525 0.1666 0.1666 0.166 I2 0 0.707 0 0.1666 0.1666 0.166 I3 -1 0.707 0,2525 0.1666 0.1666 0.166 I4 1 -0.707 0,2525 0.1666 0.1666 0.166 I5 0 -0.707 0 0.1666 0.1666 0.166 I6 -1 -0.707 0,2525 0.1666 0.1666 0.166 λ𝒌 λ𝟏=0.66 λ𝟐=0.5 110 E𝒙𝒆𝒎𝒑𝒍𝒆 𝒅𝒆 𝒄𝒂𝒍𝒄𝒖𝒍 ∶ 𝑪𝑻𝑹𝟏 𝑰𝟏 = 𝒑𝒊(𝑪𝟏𝟏)𝟐 λ𝟏 = 𝟏 𝟔 ∗(𝟏)𝟐 𝟎.𝟔𝟔 = 0.2525 𝑪𝑻𝑹𝟐 𝑰𝟏 = 𝒑𝒊(𝑪𝟏𝟐)𝟐 λ𝟐 = 𝟏 𝟔 ∗ (𝟎. 𝟕𝟎𝟕)𝟐 𝟎. 𝟓 = 0.1666 Interpréter la position des individus par rapport aux sens des axes Contribution de l’individu i à l’inertie de l’axe k
  • 111. 111 I1 I3 I2 I5 I4 I6 𝐶 = 1 0.7 0 −1 1 0.7 0.7 −0.7 0 −1 −0.7 −0.7 𝒖𝟐 𝑿𝟑(0,1) 𝑿𝟏(1,0) 𝑿𝟐(0,-1)
  • 112. 112 Liaison ente deux variables qualitatives
  • 113. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Introduction • L’analyse factorielle est une méthode descriptive qui permet de décrire la correspondance (ou liaison) entre des variables qualitatives ou quantitatives. ➢Variables numériques Corrélation ➢Variables nominales Correspondance L’analyse des correspondances repose sur l’étude des Tableaux de contingence.
  • 114. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Introduction • Test d’indépendance du khi-deux ( 𝝌𝟐 ) ❑Permet de déterminer s’il existe un lien entre deux variables qualitatives. ❑Plus la valeur du khi-deux est grande, plus le degré d’association entre les deux variables est grand. ❑S’il n’existe aucun lien entre deux variables, khi-deux 𝝌𝟐 = 𝟎 114
  • 115. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Introduction 1- Formuler les hypothèses • H0: il n’existe pas de lien entre les deux variables • H1: il existe un lien entre les deux variables 2- Indiquer le seuil de signification du test 𝜶 • Le seuil de signification représente la probabilité que le teste nous met en lumière qu’il existe un lien entre les deux variables. • Le seuil de signification constitue la limite à partir de laquelle un élément cesse considéré comme fiable. • Le seuil de signification le plus courant est 𝜶 = 𝟓% 115
  • 116. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Tableau de données, Notations 3. Tableaux de contingence • Les données sont résumées dans un tableau de dimensions 𝒏 × 𝒑 appelé tableau de contingence (ou tableau croisé). Ci-dessus est un exemple de tableau de contingence, il s'agit d'un tableau statistique qui permet de présenter simultanément et de manière croisée 2 séries statistiques I et J ( I est le sexe et J le résultats scolaires). • Soit P une population de K individus, examinée suivant deux caractères ( variables qualitatives) : I et J. • La variable I possède n modalités i=1,..,n (exemple pour I=4: Faible, Passable, Bien, Très Bien) • La variable J possède p modalités j=1,..,p (exemple pour J==2 : Féminin, masculin ) J sexe I Féminin Masculin Total Résultats Scolaires Faible 8 20 28 Passable 14 45 59 Bien 32 31 63 Très Bien 30 20 50 Total 84 116 200
  • 117. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Tableau de données, Notations 4. Calcul des effectifs • 𝒌𝒊𝒋: l’effectif de la classe (I=i, J=j): le nombre d’individus présentant simultanément la modalité i et la modalité j.(𝑘11 = 8, 𝑘31 = 32 … ) • 𝒌𝒊. = σ𝒋=𝟏 𝒑 𝒌𝒊𝒋 l’effectif marginal des lignes • 𝒌.𝒋 = σ𝒊=𝟏 𝒏 𝒌𝒊𝒋 les effectif marginal des colonnes • 𝒌 : est l’effectif total 𝒌 = σ𝒋=𝟏 𝒑 𝒌𝒊𝒋 = σ𝒊=𝟏 𝒏 𝒌𝒊𝒋 J sexe I Féminin Masculin Total Résultats Scolaires Faible 8 20 28 Passable 14 45 59 Bien 32 31 63 Très Bien 30 20 50 Total 84 116 200 Exemple: 𝑘1. = ෍ 𝑗=1 2 𝑘1𝑗 = 𝑘11 + 𝑘12 = 8 + 20 = 28 𝑘.2 = ෍ 𝑖=1 4 𝑘𝑖2 = 𝑘12 + 𝑘22 + 𝑘32 + 𝑘42 = 20 + 45 + 31 + 20 = 116
  • 118. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Tableau de données, Notations 4. Calcul des fréquences • 𝒇𝒊𝒋 = 𝒌𝒊𝒋 𝒌 la fréquence de la classe (I=i, J=j) • 𝒇𝒊. et 𝒇.𝒋 les fréquences marginales respectivement des lignes et des colonnes. 𝒇𝒊. = 𝒌𝒊. 𝒌 = σ𝒋=𝟏 𝒑 𝒇𝒊𝒋 et 𝒇.𝒋 = 𝒌.𝒋 𝒌 = σ𝒊=𝟏 𝒏 𝒇𝒊𝒋 Exemple: 𝒇𝟏𝟏 = 𝒌𝟏𝟏 𝒌 = 𝟖 𝟐𝟎𝟎 = 𝟎. 𝟎𝟒 𝒇𝟑𝟐 = 𝒌𝟑𝟐 𝒌 = 𝟑𝟏 𝟐𝟎𝟎 = 𝟎. 𝟏𝟓𝟓 𝒇𝟏. = 𝒌𝟏. 𝒌 = σ𝒋=𝟏 𝒑 𝒇𝟏𝒋 = 𝟐𝟖 𝟐𝟎𝟎 = 𝟎. 𝟏𝟒 J sexe I Féminin Masculin 𝒌𝒊. Résultats Scolaires Faible 8 20 28 Passable 14 45 59 Bien 32 31 63 Très Bien 30 20 50 𝒌.𝒋 84 116 200
  • 119. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Tableau de données, Notations 5. Calcul des fréquences • Les données sont résumées dans le tableau contingence de dimensions 𝒏 × 𝒑 auquel correspond un tableau de fréquence
  • 120. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 Tableau de données, Notations 5. Calcul des fréquences marginales • 𝒇𝒊𝒋 = 𝒌𝒊𝒋 𝒌 la fréquence de la classe (I=i, J=j) • 𝒇𝒊. et 𝒇.𝒋 les fréquences marginales respectivement des lignes et des colonnes. 𝒇𝒊. = 𝒌𝒊. 𝒌 = σ𝒋=𝟏 𝒑 𝒇𝒊𝒋 et 𝒇.𝒋 = 𝒌.𝒋 𝒌 = σ𝒊=𝟏 𝒏 𝒇𝒊𝒋 I sexe J Féminin Masculin 𝒇𝒊. Résultats Scolaires Faible 0.04 Passable Bien 0.155 Très Bien 𝒇.𝒋 Exemple: 𝒇𝟏𝟏 = 𝒌𝟏𝟏 𝒌 = 𝟖 𝟐𝟎𝟎 = 𝟎. 𝟎𝟒 𝒇𝟑𝟐 = 𝒌𝟑𝟐 𝒌 = 𝟑𝟏 𝟐𝟎𝟎 = 𝟎. 𝟏𝟓𝟓 𝒇𝟏. = 𝒌𝟏. 𝒌 = σ𝒋=𝟏 𝒑 𝒇𝟏𝒋 = 𝟐𝟖 𝟐𝟎𝟎 = 𝟎. 𝟏𝟒 sexe Féminin Masculin 𝒇𝒊. Résultats Scolaires Faible 0.04 0.1 0.14 Passable 0.07 0.225 0.295 Bien 0.16 0.155 0.315 Très Bien 0.15 0.1 0.25 𝒇.𝒋 0.42 0.58
  • 121. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 6. Calcul des effectifs théoriques et vérification des conditions d’application du test • 𝒆𝒇𝒇𝒆𝒄𝒕𝒊𝒇 𝒐𝒃𝒔𝒆𝒓𝒗é = 𝒌𝒊𝒋 = 𝒌 ∗ 𝒇𝒊𝒋 • 𝒆𝒇𝒇𝒆𝒄𝒕𝒊𝒇 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆 = 𝒌𝒊.∗𝒌.𝒋 𝒌 = 𝒌 ∗ 𝒇𝒊. ∗ 𝒇.𝒋 Tableau des effectifs observés Tableau des effectifs théoriques J sexe I Féminin Masculin 𝒌𝒊. Résultats Scolaires Faible 8 20 28 Passable 14 45 59 Bien 32 31 63 Très Bien 30 20 50 𝒌.𝒋 84 116 200 J sexe I Féminin Masculin 𝒌𝒊. Résultats Scolaires Faible 11,76 28 Passable 59 Bien 63 Très Bien 50 𝒌.𝒋 84 116 200 J sexe I Féminin Masculin 𝒌𝒊. Résultats Scolaires Faible 11,76 16,24 28 Passable 24,78 34,22 59 Bien 26,46 36,54 63 Très Bien 21,00 29,00 50 𝒌.𝒋 84 116 200
  • 122. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 6. Calcul des effectifs théoriques et vérification des conditions d’application du test La loi du khi deux s’applique sous certaines conditions: ➢1ère condition d’application • L’échantillon doit avoir une taille minimale égale à 30 (𝒌 ≥ 𝟑𝟎) ➢2ème condition d’application • Il faut que toutes les fréquences théoriques soient supérieures ou égales à 5 ❑Si l’une des deux conditions n’est pas respectée il aurait fallu modifier le tableau de contingence en regroupant ensemble soit deux lignes soit deux colonnes 122
  • 123. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 7. Test de khi-deux • Si les variables sexe et résultats scolaires sont indépendantes alors l’effectif observé = effectif théorique autrement dit fréquence observée=fréquence théorique • D’après les tableaux (Tableau des effectifs observés et Tableau des effectifs théoriques) on a l’effectif observé ≠ effectif théorique ↔ il est existe un lien entre les deux variables • Pour mesure ce lien on calcule le carré de contingence 𝝌𝟐( khi deux).
  • 124. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 7. Test de khi-deux • Ecart entre les données observées (𝒇𝒊𝒋) et le modèle d’indépendance (𝒇𝒊. ∗ 𝒇.𝒋 ) 𝝌𝟐 = ෍ 𝒊,𝒋 (𝒆𝒇𝒇. 𝒐𝒃𝒔𝒆𝒗é − 𝒆𝒇𝒇. 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆)𝟐 𝒆𝒇𝒇𝒆𝒄𝒕𝒊𝒇 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆 𝝌𝟐 = ෍ 𝒊,𝒋 (𝒌 ∗ 𝒇𝒊𝒋 − 𝒌 ∗ 𝒇𝒊.∗ 𝒇.𝒋 )𝟐 𝒌 ∗ 𝒇𝒊. ∗ 𝒇.𝒋
  • 125. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 7. Test de khi-deux I sexe J Féminin Masculin 𝒌𝒊. 𝒆𝒇𝒇. 𝒐𝒃𝒔 𝒆𝒇𝒇. 𝒕𝒉é𝒐 𝒆𝒇𝒇. 𝒐𝒃𝒔 𝒆𝒇𝒇. 𝒕𝒉é𝒐 Résultats Scolaires Faible 8 20 28 Passable 14 45 59 Bien 32 31 63 Très Bien 30 20 50 𝒌.𝒋 84 116 200 𝝌𝟐 = ෍ 𝒊,𝒋 (𝒆𝒇𝒇. 𝒐𝒃𝒔𝒆𝒗é − 𝒆𝒇𝒇. 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆)𝟐 𝒆𝒇𝒇𝒆𝒄𝒕𝒊𝒇 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆 sexe Féminin Masculin 𝒌𝒊. 𝒆𝒇𝒇. 𝒐𝒃𝒔 𝒆𝒇𝒇. 𝒕𝒉é𝒐 𝒆𝒇𝒇. 𝒐𝒃𝒔 𝒆𝒇𝒇. 𝒕𝒉é𝒐 Résultats Scolaires Faible 8 11,76 20 16,24 28 Passable 14 24,78 45 34,22 59 Bien 32 26,46 31 36,54 63 Très Bien 30 21,00 20 29,00 50 𝒌.𝒋 84 84 116 116 200
  • 126. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 7. Test de khi-deux 𝒆𝒇𝒇. 𝒐𝒃𝒔 𝒆𝒇𝒇. 𝒕𝒉é𝒐 𝝌𝟐 = ෍ 𝒊,𝒋 (𝒆𝒇𝒇. 𝒐𝒃𝒔𝒆𝒗é − 𝒆𝒇𝒇. 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆)𝟐 𝒆𝒇𝒇𝒆𝒄𝒕𝒊𝒇 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆 8 11,76 14 24,78 32 26,46 30 21,00 20 16,24 45 34,22 31 36,54 20 29,00
  • 127. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 7. Test de khi-deux 𝒆𝒇𝒇. 𝒐𝒃𝒔 𝒆𝒇𝒇. 𝒕𝒉é𝒐 𝝌𝟐 = ෍ 𝒊,𝒋 (𝒆𝒇𝒇. 𝒐𝒃𝒔𝒆𝒗é − 𝒆𝒇𝒇. 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆)𝟐 𝒆𝒇𝒇𝒆𝒄𝒕𝒊𝒇 𝒕𝒉é𝒐𝒓𝒊𝒒𝒖𝒆 8 11,76 (8-11,76)2/11,76=1,202 14 24,78 (14-24,78)2/24.78=4,690 32 26,46 (32-26,46)2/26,46=1,160 30 21,00 (30-21,00)2/21,00=3,857 20 16,24 (20-16,24)2/16,24=0,871 45 34,22 (45-34,22)2/34,22=3,396 31 36,54 (31-36,54)2/36,54=0,840 20 29,00 (20-29,00)2/29,00=2,793
  • 128. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 8. Déterminer le nombre de degré de liberté et la valeur de khi-deux critique • La valeur critique de khi deux 𝝌𝒄𝒓𝒊𝒕𝒊𝒒𝒖𝒆 𝟐 dépend de signification 𝜶 et du nombre de degrés de liberté 𝒗 128 Nombre de degrés de liberté 𝒗 = 𝒏 − 𝟏 𝒑 − 𝟏 𝒏: le nombre des lignes 𝒑 : nombre des colonnes
  • 130. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 9. Décision et Interprétation • 𝒗 = 𝒏 − 𝟏 𝒑 − 𝟏 = 𝟒 − 𝟏 𝟐 − 𝟏 = 𝟑 • 𝝌𝒄𝒓𝒊𝒕𝒊𝒒𝒖𝒆 𝟐 = 𝟕, 𝟖𝟐 et 𝝌𝟐 = 𝟏𝟖, 𝟖𝟎𝟗 130
  • 131. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 9. Décision et Interprétation • On rejettera ou on acceptera l’hypothèse nulle selon la positon du khi deux par rapport à la valeur critique ➢Règle de décision • Si 𝝌𝟐 < 𝝌𝒄𝒓𝒊𝒕𝒊𝒒𝒖𝒆 𝟐 on accepte H0 Sinon, on rejette H0 et on accepte H1 • 131 On a 𝝌𝒄𝒓𝒊𝒕𝒊𝒒𝒖𝒆 𝟐 = 𝟕, 𝟖𝟐 et 𝝌𝟐 = 𝟏𝟖, 𝟖𝟎𝟗 𝝌𝟐 > 𝝌𝒄𝒓𝒊𝒕𝒊𝒒𝒖𝒆 𝟐 donc : Décision: on rejette H0 Et on peut affirmer avec un seuil de 5% qu’il existe un lien entre le sexe et le résultat scolaire
  • 132. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 L’intensité d’un lien entre deux variable • Coefficient de contingence Nombre sert à déterminer l’intensité d’un lien statistque existant entre deux variables 𝑪 = 𝝌𝟐 𝒌 + 𝝌𝟐 La valeur de ce coefficient est toujours comprise entre 0 et 1. La valeur de ce coefficient est près de 1, plus le lien statistique entre les deux variables est fort. Et plus ce coefficient a une valeur près de 0, plus le lien est faible. 132
  • 133. Analyse de donnée par Dr. Hasna CHAIBI 2021-2022 L’intensité d’un lien entre deux variable • Coefficient de contingence • Parfaite si la valeur de C = 1 • Très forte si C > 0,8. • Forte si C se situe entre 0,5 et 0,8. • d'intensité Moyenne si C se situe entre 0,2 et 0,5. • Faible si C se situe entre 0 et 0.2. • Nulle si C = 0. 133