1. Master Entrepreneuriat et Management des PME
Exposé 6 :
Réaliser par : Encadré par:
NADIA CHTOUI Mr. ABDESSAMAD OUCHEN
BOUTAYNA BENDIALI
HALIMA KHLOUFI
Année universitaire : 2020/2021
L’ANALYSE DISCRIMINANTE
2. PLAN
introduction
I. Généralité de l’analyse discriminante
1. historique et définition
2. objectif de l’analyse discriminante
3. Les domaines de l’analyse discriminante
4. Les approches de cette analyse
5. les fonctions de l’analyse discriminante
II. les étapes de l’analyse discriminante et la démarche a suivre
1. les étapes de l’analyse discriminante
2. La démarche a suivre
III. L’analyse discriminante sur le logiciel SPPS
conclusion
bibliographie
3. INTRODUCTION
Dans beaucoup de domaines, les professionnels sont
amenés à prévoir les comportements sur la base de certains
critères : c’est le cas par exemple d’un médecin établissant
un diagnostic pour prescrire un traitement, ou d’un banquier
accordant un crédit à un particulier ou une entreprise. , la
plupart de ces applications fondent leurs prédictions sur une
technique statistique multidimensionnelle , c’est l’analyse
discriminante,. Le but de cette analyse est d’étudier les
relations entre une variable qualitative et un ensemble de de
variable explicatives quantitatives donc c’est quoi l’analyse
discriminante ?
4. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
1. historique et définition
Historique
L’analyse discriminante est une solution proposée dès 1936 par Fisher consiste
à chercher des combinaisons linéaires de descripteurs quantitatifs, indicateurs
synthétiques qui permettent de classer les individus correctement dans chacun
des groupes.
définition
L'analyse discriminante ou analyse factorielle discriminante est une
technique statistique qui vise à décrire, expliquer et prédire l'appartenance à des
groupes prédéfinis (classes, modalités de la variable à prédire, ... ) d'un ensemble
d'observations (individus, exemples, ... ) à partir d'une série de variables
prédictives (descripteurs, variables exogènes, ... Donc L'analyse discriminante est
à la fois une méthode prédictive (analyse discriminante linéaire – ADL) et
descriptive (analyse factorielle discriminante – AFD).
5. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
2. objectif de l’analyse discriminante
trois objectifs principaux peuvent
être assignés a l’analyse
discriminante
6. I. Généralité de l’analyse discriminante
Déterminer les variables explicatives les plus discriminantes
vis- à-vis des classes déterminées
• Déterminer a quel groupe appartient un individu à partir de
ses caractéristiques
• Valider une classification ou à faire choix entre plusieurs
classifications pour savoir laquelle est la plus pertinente
deux condition sont a remplir:
les variables explicatives doivent être métrique
elles ne doivent pas être trop corrélés entre elle
7. 3. Les domaines de l’analyse discriminante
• En médecine, par exemple pour détecter les groupes à hauts risques cardiaques
à partir de caractéristiques telles que l'alimentation, le fait de fumer ou pas, les
antécédents familiaux, etc.
• Dans le domaine bancaire, quand on veut évaluer la fiabilité d'un demandeur de
crédit à partir de ses revenus, du nombre de personnes à charge, des encours de
crédits qu'il détient, etc.
• En biologie, quand on veut affecter un objet à sa famille d'appartenance à partir
de ses caractéristiques physiques. Les iris de Sir Ronald Fisher -- qui est à
l'origine de cette méthode—en est un exemple particulièrement fameux, il s'agit
de reconnaître le type d'iris (setosa, virginica, et versicolor) à partir de la
longueur/largeur de ses pétales et sépales.
8. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
4. LES APPROCHES DE L’ANALYSE DISCRIMINANTE
est une technique de statistique exploratoire.
Elle consiste `a chercher les combinaisons
linéaires de variables qui permettent de s éparer le
mieux possible les K classes et donner une
représentation graphique), qui rende compte au
mieux de cette séparation. Ces combinaisons
linéaires sont appelées fonctions linéaires
discriminantes. Il s’agit donc d’une ́étape de
discrimination des classes.
L’analyse discriminante descriptive est une
technique descriptive car elle propose une
représentation graphique qui permet de visualiser
les proximités entre les observations, appartenant
a un même groupe ou non.
C’est aussi une technique explicative car nous
avons la possibilité d’interpréter les axes
principaux, combinaisons linéaires des variables
initiales et ainsi comprendre les caractéristiques
qui distinguent les différents groupes.
L’analyse discriminante peut être prédictive. Il s’agit
dans ce cas de construire une fonction de
classement (règle d’affectation, …) qui permet de
prédire le groupe d’appartenance d’un individu à
partir des valeurs prises par les variables prédictives.
En ce sens, cette technique se rapproche des
techniques supervisées en apprentissage
automatique telles que les arbres de décision, les
réseaux de neurones, … Elle repose sur un cadre
probabiliste
analyse discriminante
descriptive :
Analyse discriminante
prédictive
La distinction entre ces deux approches n’est
pas aussi tranchée. Il est par exemple possible
de dériver des règles géométriques d’affectation
à partir de l’analyse factorielle discriminante.
9. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
5. Les fonctions de l’analyse discriminante
le cas de deux groupe:
Dans le cas de deux groupes, l'analyse discriminante peut s'appréhender comme (et elle est
d'ailleurs analogue à) une régression multiple l'analyse discriminante avec deux groupes est
également appelée analyse discriminante linéaire de Fisher d'après Fisher, 1936 ; du point
de vue des calculs, toutes ces approches sont analogues). Si nous codifions les deux
groupes de l'analyse en 1 et 2, et que nous utilisons cette variable comme la variable
dépendante d'une régression multiple, nous obtiendrons des résultats analogues à ceux
obtenus dans le module Analyse Discriminante. D'une manière générale, dans le cas de
deux groupes, on ajuste une équation linéaire du type :
Groupe = a + b1*x1 + b2*x2 + ... + bm*xm
où a représente une constante et b1 à bm sont les coefficients de régression.
L'interprétation des résultats d'un problème avec deux groupes est assez simple et suit
fidèlement la logique de la régression multiple : les variables avec les coefficients de
régression (centrés-réduits) les plus forts sont ceux qui contribuent le plus à la prévision
d'appartenance à un groupe.
10. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
Exemple
Considérons un exemple simple. Supposons que nous mesurons la
taille en centimètres dans un échantillon aléatoire de 50 hommes et
de 50 femmes. Les femmes sont, en moyenne, plus petites que les
hommes, et cette différence va se refléter dans les moyennes (de la
variable Taille). Par conséquent, la variable "taille" nous permet de
mieux discriminer les hommes des femmes que le simple hasard :
si une personne est grande, il s'agit plus probablement d'un
homme ; en revanche, si elle est petite, il s'agit plus
vraisemblablement d'une femme.
11. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
Le cas de plusieurs groupe:
Lorsqu'il y a plus de deux groupes, il est possible d'estimer plusieurs analyses
discriminantes comme celle présentée ci-dessous. Par exemple, si nous avons
trois groupes, nous pouvons estimer (1) une fonction pour discriminer le groupe
1 des groupes 2 et 3 ensemble, et (2) une autre fonction pour discriminer le
groupe 2 du groupe 3. Par exemple, nous pourrions avoir une fonction qui
discrimine les jeunes bacheliers diplômés optant pour l'université et ceux qui
optent pour une autre orientation (exercer un emploi ou entrer en école de
commerce ou professionnelle), et une seconde fonction pour discriminer les
diplômés qui entrent en école de commerce ou professionnelle de ceux qui
choisissent d'entrer dans la vie active. Les coefficients b de ces fonctions
discriminantes s'interprètent comme précédemment.
12. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
Exemple
L’échantillon étudié par Fisher comporte cent cinquante iris provenant de trois espèces distinctes
(Iris SETOSA, Iris VERSICOLOR et Iris VIRGINICA) à raison de cinquante iris par espèce qui
constituent notre échantillon
iris VIRGINICA iris VERSICOLOR iris SETOSA
Chaque individu est identifié par un numéro de séquence (numéro) au sein de l’échantillon
d’apprentissage et son appartenance à l’une des trois populations est renseignée par un code
d’espèce (1 pour SETOSA, 2 pour VERSICOLOR et 3 pour VIRGINICA)
Parmi les mesures effectuées, quatre d’entre elles caractérisent la fleur : longueur du sépale
(LONSEPAL), largeur du sépale (LARSEPAL), longueur du pétale (LONPETAL), largeur du pétale
(LARPETAL) exprimées en millimètres. Le problème de discrimination se pose ainsi : à partir de ces
quatre mesures quantitatives donnant une indication sur la morphologie globale de la fleur, peut-on
décider de l’espèce à laquelle appartient l’individu ?
La variable y à prédire est donc une variable qualitative à k = 3 modalités. Cette prédiction
s’effectue à partir d’un tableau X de p = 4 variables quantitatives observées sur un échantillon
d’apprentissage de n = 150 individus.
13. II. LES ÉTAPES DE L’ANALYSE DISCRIMINANTE ET LA DÉMARCHE A
SUIVRE
1. Les étapes de l’analyse discriminante
il existe 4 étapes de l’analyse discriminante
vérification de l’existence de différences entre les groupes
vérification de validité d’étude
vérification du pouvoir discriminant des axes
jugement de la qualité de la représentation du modèle
14. 1ER ÉTAPE : LA VÉRIFICATION DE L’EXISTENCE DE DIFFÉRENCE ENTRE
LES GROUPES
On vérifie s’il existe bien des différences entre les groupes grâce à
trois indicateurs
la moyenne/ la variance :
Après le calcul des moyennes ou des variances on va les comparer :
• S’il y a une différence on dit qu’il existe une influence
• S’il y a une similitude on dit qu’il n’a pas d’influence
15. le test F :
C’est un terme générique désignant tout test statistique dans lequel la statistique de test suit
la loi de Fisher sous l'hypothèse nulle.
Après la réalisation du test F, il y a deux situations possibles :
Si SIG F tend vers 0,000 on dit qu’il y a une influence
Si SIG F >= 0,01 ou 0,05 , on dit qu’il n y a pas d’influence
le lambda de Wilkes :
C’est une statistique qui compare simultanément plusieurs moyennes en mesurant la part d’inertie
intra classe dans l’inertie totale.
En calculant le lambda de Wilkes par le logiciel SPSS on le trouve :
soit inférieur à 0.9, on dit qu’il y a une influence
soit il tend vers 1 et on dit qu’il n y a pas d’influence
Cette première analyse permet de déterminer quelles sont les variables les plus
discriminantes entre les groupes.
16. 2ÉME ÉTAPE: VÉRIFICATION DE VALIDITÉ D’ÉTUDE
On estime la validité d’une analyse discriminante à partir de trois indicateurs :
Le test M de Box.
La corrélation globale.
Le Lambda de Wilkes.
Le test M de Box : doit être le plus élevé possible.
La significativité du test de F doit tendre vers 0. S’il est supérieur à 0,05, l’analyse
n’est pas valide
La corrélation globale : La corrélation globale se mesure quant à elle se
retrouve dans le tableau (Valeurs propres) dans le SPSS .
On observe notamment la colonne Corrélation Canonique. Plus elle est proche de 1,
plus le modèle est meilleur se mesure quant à elle se retrouve dans le tableau
(Valeurs propres)
Le Lambda de Wilkes : Plus la valeur du Lambda de Wilkes (deuxième
colonne) est faible, plus le modèle est bon.
On observe également sa significativité : plus elle est tend vers 0, meilleur, plus le
modèle est bon.
17. 3ÉME ÉTAPE: VÉRIFICATION DU POUVOIR DISCRIMINANT DES AXES
On observe le pouvoir discriminant des axes grâce au tableau « Canonical
Discriminant Fonction Coefficients.
On obtient une fonction discriminante sous la forme :
Y= a + b1*x1 + b2*x2 + ... + bm*xm
18. 4ÉME ÉTAPE: JUGEMENT DE LA QUALITÉ DE LA REPRÉSENTATION DU
MODÈLE
on observe la qualité de la représentation : on s’assure que la fonction
discriminante classifie bien les individus en sous-groupes. Pour cela, on analyse la
matrice de confusion qui regroupe les individus bien classés et les mal classé
Sous SPSS, la matrice de confusion s’observe dans le tableau « Classement
Résultats »
19. II. LES ÉTAPES DE L’ANALYSE DISCRIMINANTE ET LA
DÉMARCHE A SUIVRE
2.) La démarche a suivre sous SPSS
analyse discriminante
statistiques
classification
enregistrer
20. II. LES ÉTAPES DE L’ANALYSE DISCRIMINANTE ET LA DÉMARCHE A SUIVRE
allez dans analyse classifier analyse discriminante la boite de dialogue
apparait alors :
analyse discriminante
On indique la variable de regroupement qualitatif et en la sélectionne dans la partie droite
en cliquant sur la flèche qui poindre vers la droite puis définir l’intervalle
21. II. LES ÉTAPES DE L’ANALYSE DISCRIMINANTE ET LA DÉMARCHE A
SUIVRE
Puis on passe aux variables indépendantes en sélectionne les variables puis on
clique sur le bouton statistiques
22. II. LES ÉTAPES DE L’ANALYSE DISCRIMINANTE ET LA DÉMARCHE A
SUIVRE
la boite de dialogue « analyse discriminant: statistique » apparait
on clique sur statistique on choisit les caractéristique qu’on veut travailler avec elles
On cliquant sur moyennes, ANOVA a 1 facteur, test de box, et on clique sur poursuivre
23. II. LES ÉTAPES DE L’ANALYSE DISCRIMINANTE ET LA DÉMARCHE A
SUIVRE
la boite de dialogue « analyse discriminante: classification » apparait
Dans la boite qui apparait on coche, remplacer les valeurs manquantes par
moyennes et en coche récapitulatif
24. la boite de dialogue « analyse discriminante : enregistrer » apparait
Et puis on clique sur enregistrer on clique groupe d’affectation prévue et on obtient
les résultats
26. 1. Vérification de l’existence de différences entre les sous- groupes.
On vérifie s’il existe bien des différences entre les groupes grâce à trois indicateurs : la moyenne ou
la variance, le test du F et le Lambda de Wilkes.
Cette première analyse permet de déterminer quelles sont les variables qui sont les plus
discriminantes entre les groupes
Les moyennes et écart-types s’observent dans le tableau « statistiques de groupe ». Les
variables « les ventes de nord » ..Dans l’exemple ci-dessous semblent être les variables les plus
discriminantes.
27. Le test du F et du lambda de wilks s’observe dans le tableau « test d’égalité des moyenne de
groupes »
L’examen du F dans notre exemple nous confirme que ce sont bien les variables «ventes du nord »
qui sont plus discriminantes. Car F élevé et Sig tend vers 0,00 d’un montant de 0,05
De plus, d’après le test du Lambda de Wilkes seule la variable « ventes du nord » semble avoir
une influence car lambda doit être inférieur a 0,9 et pour les ventes du nord on a un montant de 0,8
2. Vérification de la validité de l’étude.
La validation d’une analyse discriminante à partir de trois indicateurs
•Le test M de Box.
• La corrélation globale.
• Le Lambda de Wilks.
28. on observe le test de box grâce au tableau « test résultat »
La significativité du test de F doit tendre vers 0. S’il est supérieur à 0,05, l’analyse n’est pas valide. Dans ce cas
le modèle est valide car Sig de f est 0,008 inférieur a 0,05
La corrélation globale se mesure quant à elle se retrouve dans le tableau «Valeurs propres ».
On observe notamment la colonne « Corrélation Canonique », Plus elle est proche de 1, plus le
modèle est meilleur. Et dans ce cas on a dans la corrélation canonique est proche de 1 d’un
montant de 0,543
29. Le lambda de wilks s’observe dans le tableau « wilks lambda »
Plus la valeur du Lambda de Wilks (deuxième colonne) est faible, plus le modèle est bon. On observe
également sa significativité : plus elle est tend vers 0, meilleur, plus le modèle est bon donc on a dans ce cas
lambda a un montant de 0,14 donc est tend vers 0
3. Vérification du pouvoir discriminante des axes
On observe le pouvoir discriminant des axes grâce au tableau «Coefficients des fonction discriminantes
canoniques standardisées».
Ce tableau permet d’obtenir la fonction discriminante. Dans notre exemple, la fonction est égale à :
Y=0,767 (prix) +0,923(ventes du nord) +0,277 (ventes du ouest) +0,422 (ventes du sud)-0,048 (ventes du
l’est)
30. la matrice de structure
Relativement a « la matrice de structure » la même chose on constate que « les ventes du nord »
se sont les variables qui séparent le mieux entre les groupes
31. 4. Qualité de la représentation.
Sous SPSS la matrice de confusion s’observe dans le tableau « résultat de
classement »
Il existe une dernière étape qui consiste le résultat de classement
Ainsi dans notre exemple on pour le groupe 1 essence 11 type de voiture essence ont
été bien reclassées grâce a la fonction discriminante et 6 types de voiture diesel on été
mal reclassées
Et pour le groupe 2 diesel on observe 3 type de voiture essence ont été mal reclassées et
8 types de voitures diesel ont été bien reclassées
32. CONCLUSION
Pour conclure cet exposé nous avons présenter l’une des méthodes les plus
utilisées de nos jours l’analyse discriminante.
La simplicité de sa mise en œuvre fait que nous la retrouvons dans de
nombreux logiciels. Ainsi elle est adéquate pour la représentation des données
dans des espaces qui discriminent au mieux les individus selon des classes
connues. Cette représentation permet de dégager des informations `a partir
d’un grand nombre de données souvent difficile `a interpréter.
Elle permet également l’affectation de nouveaux individus dans les classes
existantes.