1. Encadré par:
Mr. RABHI Seddik
Réaliser par :
HALALI Moulay Ali
MOUMNI Ahmed Oussama
Année universitaire : 2023/2024
L’analyse Discriminante
Département de math et Informatique
2. PLAN
❑ introduction
I. Généralité de l’analyse discriminante
1. historique et définition
2. objectif de l’analyse discriminante
3. Les domaines de l’analyse discriminante
4. Les approches de cette analyse
5. les fonctions de l’analyse discriminante
II. les étapes de l’analyse discriminante et la démarche a suivre
1. les étapes de l’analyse discriminante
2. La démarche a suivre
❑
❑ conclusion
bibliographie
3. INTRODUCTION
Dans beaucoup de domaines, les professionnels sont
amenés à prévoir les comportements sur la base de certains
critères : c’est le cas par exemple d’un médecin établissant
un diagnostic pour prescrire un traitement, ou d’un banquier
accordant un crédit à un particulier ou une entreprise. , la
plupart de ces applications fondent leurs prédictions sur une
technique statistique multidimensionnelle , c’est l’analyse
discriminante,. Le but de cette analyse est d’étudier les
relations entre une variable qualitative et un ensemble de de
variable explicatives quantitatives donc c’est quoi l’analyse
discriminante ?
4. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
1. historique et définition
❑ Historique
L’analyse discriminante est une solution proposée dès 1936 par Fisher consiste à
chercher des combinaisons linéaires de descripteurs quantitatifs, indicateurs
synthétiques qui permettent de classer les individus correctement dans chacun
des groupes.
❑ définition
L'analyse discriminante ou analyse factorielle discriminante est une
technique statistique qui vise à décrire, expliquer et prédire l'appartenance à des
groupes prédéfinis (classes, modalités de la variable à prédire, ... ) d'un ensemble
d'observations (individus, exemples, ... ) à partir d'une série de variables
prédictives (descripteurs, variables exogènes, ... Donc L'analyse discriminante est
à la fois une méthode prédictive (analyse discriminante linéaire – ADL) et
descriptive (analyse factorielle discriminante – AFD).
5. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
2. objectif de l’analyse discriminante
trois objectifs principaux
peuvent être assignés a l’analyse
discriminante
6. I. Généralité de l’analyse discriminante
Déterminer les variables explicatives les plus
vis- à-vis des classes déterminées
discriminantes
•
•
Déterminer a quel groupe appartient un individu à partir de
ses caractéristiques
Valider une classification ou à faire choix entre plusieurs
classifications pour savoir laquelle est la plus pertinente
deux condition sont a remplir:
▪ les variables explicatives doivent être métrique
▪ elles ne doivent pas être trop corrélés entre elle
7. 3. Les domaines de l’analyse discriminante
• En médecine, par exemple pour détecter les groupes à hauts risques cardiaques
à partir de caractéristiques telles que l'alimentation, le fait de fumer ou pas, les
antécédents familiaux, etc.
• Dans le domaine bancaire, quand on veut évaluer la fiabilité d'un demandeur de
crédit à partir de ses revenus, du nombre de personnes à charge, des encours
de crédits qu'il détient, etc.
• En biologie, quand on veut affecter un objet à sa famille d'appartenance à partir
de ses caractéristiques physiques. Les iris de Sir Ronald Fisher -- qui est à
l'origine de cette méthode—en est un exemple particulièrement fameux, il s'agit
de reconnaître le type d'iris (setosa, virginica, et versicolor) à partir de la
longueur/largeur de ses pétales et sépales.
8. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
4. LES APPROCHES DE L’ANALYSE DISCRIMINANTE
est une technique de statistique exploratoire.
Elle consiste `a chercher les combinaisons
linéaires de variables qui permettent de s éparer le
mieux possible les K classes et donner une
représentation graphique), qui rende compte au
mieux de cette séparation. Ces combinaisons
linéaires sont appelées fonctions linéaires
discriminantes. Il s’agit donc d’une ́étape de
discrimination des classes.
L’analyse discriminante descriptive est une
technique descriptive car elle propose une
représentation graphique qui permet de visualiser
les proximités entre les observations, appartenant
a un même groupe ou non.
C’est aussi une technique explicative car nous
avons la possibilité d’interpréter les axes
principaux, combinaisons linéaires des variables
initiales et ainsi comprendre les caractéristiques
qui distinguent les différents groupes.
L’analyse discriminante peut être prédictive. Il s’agit
dans ce cas de construire une fonction de
classement (règle d’affectation, …) qui permet de
prédire le groupe d’appartenance d’un individu à
partir des valeurs prises par les variables prédictives.
En ce sens, cette technique se rapproche des
techniques supervisées en apprentissage
automatique telles que les arbres de décision, les
réseaux de neurones, … Elle repose sur un cadre
probabiliste
analyse discriminante
descriptive :
Analyse discriminante
prédictive
❑ La distinction entre ces deux approches n’est
pas aussi tranchée. Il est par exemple possible
de dériver des règles géométriques d’affectation
à partir de l’analyse factorielle discriminante.
9. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
5. Les fonctions de l’analyse discriminante
le cas de deux groupe:
Dans le cas de deux groupes, l'analyse discriminante peut s'appréhender comme (et elle est
d'ailleurs analogue à) une régression multiple l'analyse discriminante avec deux groupes est
également appelée analyse discriminante linéaire de Fisher d'après Fisher, 1936 ; du point
de vue des calculs, toutes ces approches sont analogues). Si nous codifions les deux
groupes de l'analyse en 1 et 2, et que nous utilisons cette variable comme la variable
dépendante d'une régression multiple, nous obtiendrons des résultats analogues à ceux
obtenus dans le module Analyse Discriminante. D'une manière générale, dans le cas de
deux groupes, on ajuste une équation linéaire du type :
Groupe = a + b1*x1 + b2*x2 + ... + bm*xm
où a représente une constante et b1 à bm sont les coefficients de régression.
L'interprétation des résultats d'un problème avec deux groupes est assez simple et suit
fidèlement la logique de la régression multiple : les variables avec les coefficients de
régression (centrés-réduits) les plus forts sont ceux qui contribuent le plus à la prévision
d'appartenance à un groupe.
10. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
Exemple
Considérons un exemple simple. Supposons que nous mesurons la
taille en centimètres dans un échantillon aléatoire de 50 hommes
et de 50 femmes. Les femmes sont, en moyenne, plus petites que
les hommes, et cette différence va se refléter dans les moyennes
(de la variable Taille). Par conséquent, la variable "taille" nous
permet de mieux discriminer les hommes des femmes que le
simple hasard : si une personne est grande, il s'agit plus
probablement d'un homme ; en revanche, si elle est petite, il
s'agit plus vraisemblablement d'une femme.
11. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
Le cas de plusieurs groupe:
Lorsqu'il y a plus de deux groupes, il est possible d'estimer plusieurs analyses
discriminantes comme celle présentée ci-dessous. Par exemple, si nous avons
trois groupes, nous pouvons estimer (1) une fonction pour discriminer le groupe
1 des groupes 2 et 3 ensemble, et (2) une autre fonction pour discriminer le
groupe 2 du groupe 3. Par exemple, nous pourrions avoir une fonction qui
discrimine les jeunes bacheliers diplômés optant pour l'université et ceux qui
optent pour une autre orientation (exercer un emploi ou entrer en école de
commerce ou professionnelle), et une seconde fonction pour discriminer les
diplômés qui entrent en école de commerce ou professionnelle de ceux qui
choisissent d'entrer dans la vie active. Les coefficients b de ces fonctions
discriminantes s'interprètent comme précédemment.
12. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
Exemple
L’échantillon étudié par Fisher comporte cent cinquante iris provenant de trois espèces distinctes
(Iris SETOSA, Iris VERSICOLOR et Iris VIRGINICA) à raison de cinquante iris par espèce qui
constituent notre échantillon
iris VIRGINICA iris VERSICOLOR iris SETOSA
Chaque individu est identifié par un numéro de séquence (numéro) au sein de l’échantillon
d’apprentissage et son appartenance à l’une des trois populations est renseignée par un code
d’espèce (1 pour SETOSA, 2 pour VERSICOLOR et 3 pour VIRGINICA)
Parmi les mesures effectuées, quatre d’entre elles caractérisent la fleur : longueur du sépale
(LONSEPAL), largeur du sépale (LARSEPAL), longueur du pétale (LONPETAL), largeur du pétale
(LARPETAL) exprimées en millimètres. Le problème de discrimination se pose ainsi : à partir de ces
quatre mesures quantitatives donnant une indication sur la morphologie globale de la fleur, peut-on
décider de l’espèce à laquelle appartient l’individu ?
La variable y à prédire est donc une variable qualitative à k = 3 modalités. Cette prédiction
s’effectue à partir d’un tableau X de p = 4 variables quantitatives observées sur un échantillon
13. II. LES ÉTAPES DE L’ANALYSE DISCRIMINANTE ET LA DÉMARCHE A
SUIVRE
1. Les étapes de l’analyse discriminante
il existe 4 étapes de l’analyse discriminante
❑ vérification de l’existence de différences entre les groupes
❑ vérification de validité d’étude
❑ vérification du pouvoir discriminant des axes
❑ jugement de la qualité de la représentation du modèle
14. 1ER
ÉTAPE : LA VÉRIFICATION DE L’EXISTENCE DE DIFFÉRENCE
ENTRE LES GROUPES
On vérifie s’il existe bien des différences entre les groupes grâce à
trois indicateurs
la moyenne/ la variance :
Après le calcul des moyennes ou des variances on va les comparer :
•S’il y a une différence on dit qu’il existe une influence
•S’il y a une similitude on dit qu’il n’a pas d’influence
15. le test F :
C’est un terme générique désignant tout test statistique dans lequel la statistique de test suit
la loi de Fisher sous l'hypothèse nulle.
Après la réalisation du test F, il y a deux situations possibles :
❑ Si SIG F tend vers 0,000 on dit qu’il y a une influence
❑ Si SIG F >= 0,01 ou 0,05 , on dit qu’il n y a pas d’influence
le lambda de Wilkes :
C’est une statistique qui compare simultanément plusieurs moyennes en mesurant la part d’inertie
intra classe dans l’inertie totale.
sont les variables les
plus
En calculant le lambda de Wilkes par le logiciel SPSS on le trouve :
❑ soit inférieur à 0.9, on dit qu’il y a une influence
❑ soit il tend vers 1 et on dit qu’il n y a pas d’influence
Cette première analyse permet de déterminer
quelles discriminantes entre les groupes.
16. 2ÉME ÉTAPE: VÉRIFICATION DE VALIDITÉ D’
ÉTUDE
On estime la validité d’une analyse discriminante à partir de trois indicateurs :
❑ Le test M de Box.
❑ La corrélation globale.
❑ Le Lambda de Wilkes.
Le test M de Box : doit être le plus élevé possible.
La significativité du test de F doit tendre vers 0. S’il est supérieur à 0,05, l’analyse
n’est pas valide
La corrélation globale : La corrélation globalese mesure quant à
ellese retrouve dans le tableau (Valeurs propres) dans le SPSS .
On observe notamment la colonne Corrélation Canonique. Plus elle est proche de 1,
plus le modèle est meilleur se mesure quant à elle se retrouve dans le tableau
(Valeurs propres)
Le Lambda de Wilkes : Plus la valeur du Lambda de Wilkes (deuxième
colonne) est faible, plus le modèle est bon.
On observe également sa significativité : plus elle est tend vers 0, meilleur, plus le
modèle est bon.
17. 3ÉME ÉTAPE: VÉRIFICATION DU POUVOIR DISCRIMINANT DES AXES
On observe le pouvoir discriminant des axes grâce au tableau «
Canonical Discriminant Fonction Coefficients.
On obtient une fonction discriminante sous la forme :
Y= a + b1
*x1
+ b2
*x2
+ ... + bm
*xm
18. 4ÉME ÉTAPE: JUGEMENT DE LA QUALITÉ DE LA REPRÉSENTATION DU
MODÈLE
on observe la qualité de la représentation : on s’assure que la fonction
discriminante classifie bien les individus en sous-groupes. Pour cela, on analyse la
matrice de confusion qui regroupe les individus bien classés et les mal classé
Sous SPSS, la matrice de confusion s’observe dans le tableau « Classement
Résultats »
19. CONCLUSION
Pour conclure cet exposé nous avons présenter l’une des méthodes les plus
utilisées de nos jours l’analyse discriminante.
La simplicité de sa mise en œuvre fait que nous la retrouvons dans de
nombreux logiciels. Ainsi elle est adéquate pour la représentation des données
dans des espaces qui discriminent au mieux les individus selon des classes
connues. Cette représentation permet de dégager des informations `a partir
d’un grand nombre de données souvent difficile `a interpréter.
Elle permet également l’affectation de nouveaux individus dans les classes
existantes.