SlideShare une entreprise Scribd logo
1  sur  21
Télécharger pour lire hors ligne
Encadré par:
Mr. RABHI Seddik
Réaliser par :
HALALI Moulay Ali
MOUMNI Ahmed Oussama
Année universitaire : 2023/2024
L’analyse Discriminante
Département de math et Informatique
PLAN
❑ introduction
I. Généralité de l’analyse discriminante
1. historique et définition
2. objectif de l’analyse discriminante
3. Les domaines de l’analyse discriminante
4. Les approches de cette analyse
5. les fonctions de l’analyse discriminante
II. les étapes de l’analyse discriminante et la démarche a suivre
1. les étapes de l’analyse discriminante
2. La démarche a suivre
❑
❑ conclusion
bibliographie
INTRODUCTION
Dans beaucoup de domaines, les professionnels sont
amenés à prévoir les comportements sur la base de certains
critères : c’est le cas par exemple d’un médecin établissant
un diagnostic pour prescrire un traitement, ou d’un banquier
accordant un crédit à un particulier ou une entreprise. , la
plupart de ces applications fondent leurs prédictions sur une
technique statistique multidimensionnelle , c’est l’analyse
discriminante,. Le but de cette analyse est d’étudier les
relations entre une variable qualitative et un ensemble de de
variable explicatives quantitatives donc c’est quoi l’analyse
discriminante ?
I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
1. historique et définition
❑ Historique
L’analyse discriminante est une solution proposée dès 1936 par Fisher consiste à
chercher des combinaisons linéaires de descripteurs quantitatifs, indicateurs
synthétiques qui permettent de classer les individus correctement dans chacun
des groupes.
❑ définition
L'analyse discriminante ou analyse factorielle discriminante est une
technique statistique qui vise à décrire, expliquer et prédire l'appartenance à des
groupes prédéfinis (classes, modalités de la variable à prédire, ... ) d'un ensemble
d'observations (individus, exemples, ... ) à partir d'une série de variables
prédictives (descripteurs, variables exogènes, ... Donc L'analyse discriminante est
à la fois une méthode prédictive (analyse discriminante linéaire – ADL) et
descriptive (analyse factorielle discriminante – AFD).
I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
2. objectif de l’analyse discriminante
trois objectifs principaux
peuvent être assignés a l’analyse
discriminante
I. Généralité de l’analyse discriminante
Déterminer les variables explicatives les plus
vis- à-vis des classes déterminées
discriminantes
•
•
Déterminer a quel groupe appartient un individu à partir de
ses caractéristiques
Valider une classification ou à faire choix entre plusieurs
classifications pour savoir laquelle est la plus pertinente
deux condition sont a remplir:
▪ les variables explicatives doivent être métrique
▪ elles ne doivent pas être trop corrélés entre elle
3. Les domaines de l’analyse discriminante
• En médecine, par exemple pour détecter les groupes à hauts risques cardiaques
à partir de caractéristiques telles que l'alimentation, le fait de fumer ou pas, les
antécédents familiaux, etc.
• Dans le domaine bancaire, quand on veut évaluer la fiabilité d'un demandeur de
crédit à partir de ses revenus, du nombre de personnes à charge, des encours
de crédits qu'il détient, etc.
• En biologie, quand on veut affecter un objet à sa famille d'appartenance à partir
de ses caractéristiques physiques. Les iris de Sir Ronald Fisher -- qui est à
l'origine de cette méthode—en est un exemple particulièrement fameux, il s'agit
de reconnaître le type d'iris (setosa, virginica, et versicolor) à partir de la
longueur/largeur de ses pétales et sépales.
I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
4. LES APPROCHES DE L’ANALYSE DISCRIMINANTE
est une technique de statistique exploratoire.
Elle consiste `a chercher les combinaisons
linéaires de variables qui permettent de s éparer le
mieux possible les K classes et donner une
représentation graphique), qui rende compte au
mieux de cette séparation. Ces combinaisons
linéaires sont appelées fonctions linéaires
discriminantes. Il s’agit donc d’une ́étape de
discrimination des classes.
L’analyse discriminante descriptive est une
technique descriptive car elle propose une
représentation graphique qui permet de visualiser
les proximités entre les observations, appartenant
a un même groupe ou non.
C’est aussi une technique explicative car nous
avons la possibilité d’interpréter les axes
principaux, combinaisons linéaires des variables
initiales et ainsi comprendre les caractéristiques
qui distinguent les différents groupes.
L’analyse discriminante peut être prédictive. Il s’agit
dans ce cas de construire une fonction de
classement (règle d’affectation, …) qui permet de
prédire le groupe d’appartenance d’un individu à
partir des valeurs prises par les variables prédictives.
En ce sens, cette technique se rapproche des
techniques supervisées en apprentissage
automatique telles que les arbres de décision, les
réseaux de neurones, … Elle repose sur un cadre
probabiliste
analyse discriminante
descriptive :
Analyse discriminante
prédictive
❑ La distinction entre ces deux approches n’est
pas aussi tranchée. Il est par exemple possible
de dériver des règles géométriques d’affectation
à partir de l’analyse factorielle discriminante.
I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
5. Les fonctions de l’analyse discriminante
le cas de deux groupe:
Dans le cas de deux groupes, l'analyse discriminante peut s'appréhender comme (et elle est
d'ailleurs analogue à) une régression multiple l'analyse discriminante avec deux groupes est
également appelée analyse discriminante linéaire de Fisher d'après Fisher, 1936 ; du point
de vue des calculs, toutes ces approches sont analogues). Si nous codifions les deux
groupes de l'analyse en 1 et 2, et que nous utilisons cette variable comme la variable
dépendante d'une régression multiple, nous obtiendrons des résultats analogues à ceux
obtenus dans le module Analyse Discriminante. D'une manière générale, dans le cas de
deux groupes, on ajuste une équation linéaire du type :
Groupe = a + b1*x1 + b2*x2 + ... + bm*xm
où a représente une constante et b1 à bm sont les coefficients de régression.
L'interprétation des résultats d'un problème avec deux groupes est assez simple et suit
fidèlement la logique de la régression multiple : les variables avec les coefficients de
régression (centrés-réduits) les plus forts sont ceux qui contribuent le plus à la prévision
d'appartenance à un groupe.
I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
Exemple
Considérons un exemple simple. Supposons que nous mesurons la
taille en centimètres dans un échantillon aléatoire de 50 hommes
et de 50 femmes. Les femmes sont, en moyenne, plus petites que
les hommes, et cette différence va se refléter dans les moyennes
(de la variable Taille). Par conséquent, la variable "taille" nous
permet de mieux discriminer les hommes des femmes que le
simple hasard : si une personne est grande, il s'agit plus
probablement d'un homme ; en revanche, si elle est petite, il
s'agit plus vraisemblablement d'une femme.
I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
Le cas de plusieurs groupe:
Lorsqu'il y a plus de deux groupes, il est possible d'estimer plusieurs analyses
discriminantes comme celle présentée ci-dessous. Par exemple, si nous avons
trois groupes, nous pouvons estimer (1) une fonction pour discriminer le groupe
1 des groupes 2 et 3 ensemble, et (2) une autre fonction pour discriminer le
groupe 2 du groupe 3. Par exemple, nous pourrions avoir une fonction qui
discrimine les jeunes bacheliers diplômés optant pour l'université et ceux qui
optent pour une autre orientation (exercer un emploi ou entrer en école de
commerce ou professionnelle), et une seconde fonction pour discriminer les
diplômés qui entrent en école de commerce ou professionnelle de ceux qui
choisissent d'entrer dans la vie active. Les coefficients b de ces fonctions
discriminantes s'interprètent comme précédemment.
I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE
Exemple
L’échantillon étudié par Fisher comporte cent cinquante iris provenant de trois espèces distinctes
(Iris SETOSA, Iris VERSICOLOR et Iris VIRGINICA) à raison de cinquante iris par espèce qui
constituent notre échantillon
iris VIRGINICA iris VERSICOLOR iris SETOSA
Chaque individu est identifié par un numéro de séquence (numéro) au sein de l’échantillon
d’apprentissage et son appartenance à l’une des trois populations est renseignée par un code
d’espèce (1 pour SETOSA, 2 pour VERSICOLOR et 3 pour VIRGINICA)
Parmi les mesures effectuées, quatre d’entre elles caractérisent la fleur : longueur du sépale
(LONSEPAL), largeur du sépale (LARSEPAL), longueur du pétale (LONPETAL), largeur du pétale
(LARPETAL) exprimées en millimètres. Le problème de discrimination se pose ainsi : à partir de ces
quatre mesures quantitatives donnant une indication sur la morphologie globale de la fleur, peut-on
décider de l’espèce à laquelle appartient l’individu ?
La variable y à prédire est donc une variable qualitative à k = 3 modalités. Cette prédiction
s’effectue à partir d’un tableau X de p = 4 variables quantitatives observées sur un échantillon
II. LES ÉTAPES DE L’ANALYSE DISCRIMINANTE ET LA DÉMARCHE A
SUIVRE
1. Les étapes de l’analyse discriminante
il existe 4 étapes de l’analyse discriminante
❑ vérification de l’existence de différences entre les groupes
❑ vérification de validité d’étude
❑ vérification du pouvoir discriminant des axes
❑ jugement de la qualité de la représentation du modèle
1ER
ÉTAPE : LA VÉRIFICATION DE L’EXISTENCE DE DIFFÉRENCE
ENTRE LES GROUPES
On vérifie s’il existe bien des différences entre les groupes grâce à
trois indicateurs
la moyenne/ la variance :
Après le calcul des moyennes ou des variances on va les comparer :
•S’il y a une différence on dit qu’il existe une influence
•S’il y a une similitude on dit qu’il n’a pas d’influence
le test F :
C’est un terme générique désignant tout test statistique dans lequel la statistique de test suit
la loi de Fisher sous l'hypothèse nulle.
Après la réalisation du test F, il y a deux situations possibles :
❑ Si SIG F tend vers 0,000 on dit qu’il y a une influence
❑ Si SIG F >= 0,01 ou 0,05 , on dit qu’il n y a pas d’influence
le lambda de Wilkes :
C’est une statistique qui compare simultanément plusieurs moyennes en mesurant la part d’inertie
intra classe dans l’inertie totale.
sont les variables les
plus
En calculant le lambda de Wilkes par le logiciel SPSS on le trouve :
❑ soit inférieur à 0.9, on dit qu’il y a une influence
❑ soit il tend vers 1 et on dit qu’il n y a pas d’influence
Cette première analyse permet de déterminer
quelles discriminantes entre les groupes.
2ÉME ÉTAPE: VÉRIFICATION DE VALIDITÉ D’
ÉTUDE
On estime la validité d’une analyse discriminante à partir de trois indicateurs :
❑ Le test M de Box.
❑ La corrélation globale.
❑ Le Lambda de Wilkes.
Le test M de Box : doit être le plus élevé possible.
La significativité du test de F doit tendre vers 0. S’il est supérieur à 0,05, l’analyse
n’est pas valide
La corrélation globale : La corrélation globalese mesure quant à
ellese retrouve dans le tableau (Valeurs propres) dans le SPSS .
On observe notamment la colonne Corrélation Canonique. Plus elle est proche de 1,
plus le modèle est meilleur se mesure quant à elle se retrouve dans le tableau
(Valeurs propres)
Le Lambda de Wilkes : Plus la valeur du Lambda de Wilkes (deuxième
colonne) est faible, plus le modèle est bon.
On observe également sa significativité : plus elle est tend vers 0, meilleur, plus le
modèle est bon.
3ÉME ÉTAPE: VÉRIFICATION DU POUVOIR DISCRIMINANT DES AXES
On observe le pouvoir discriminant des axes grâce au tableau «
Canonical Discriminant Fonction Coefficients.
On obtient une fonction discriminante sous la forme :
Y= a + b1
*x1
+ b2
*x2
+ ... + bm
*xm
4ÉME ÉTAPE: JUGEMENT DE LA QUALITÉ DE LA REPRÉSENTATION DU
MODÈLE
on observe la qualité de la représentation : on s’assure que la fonction
discriminante classifie bien les individus en sous-groupes. Pour cela, on analyse la
matrice de confusion qui regroupe les individus bien classés et les mal classé
Sous SPSS, la matrice de confusion s’observe dans le tableau « Classement
Résultats »
CONCLUSION
Pour conclure cet exposé nous avons présenter l’une des méthodes les plus
utilisées de nos jours l’analyse discriminante.
La simplicité de sa mise en œuvre fait que nous la retrouvons dans de
nombreux logiciels. Ainsi elle est adéquate pour la représentation des données
dans des espaces qui discriminent au mieux les individus selon des classes
connues. Cette représentation permet de dégager des informations `a partir
d’un grand nombre de données souvent difficile `a interpréter.
Elle permet également l’affectation de nouveaux individus dans les classes
existantes.
BIBLIOGRAPHIE
https://www.statsoft.fr/concepts-statistiques/analyse-
discriminante/analyse-discriminante.php
https://dl.ummto.dz/bitstream/handle/ummto/11037/Touat%2C%20Dyh
ia.pdf?sequence=1&isAllowed=y
https://fr.m.wikipedia.org/wiki/Analyse_discriminante#:~:text=L'analyse%
20factorielle%20discriminante%20(AFD,observations%20(individus%2C%2
0exemples%E2%80%A6)
Merci de votre attention

Contenu connexe

Similaire à analysediscriminantediscriminante pdf.pdf

Cours n1 introduction_probabilits_et_variables_alatoires
Cours n1 introduction_probabilits_et_variables_alatoiresCours n1 introduction_probabilits_et_variables_alatoires
Cours n1 introduction_probabilits_et_variables_alatoiresTAKMACHTE
 
Pluye et al._mthodes_mixtes
Pluye et al._mthodes_mixtesPluye et al._mthodes_mixtes
Pluye et al._mthodes_mixtesTayeb Sid
 
Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée Adad Med Chérif
 
Cartes auto organisées pour l’analyse exploratoire de
Cartes auto organisées pour l’analyse exploratoire deCartes auto organisées pour l’analyse exploratoire de
Cartes auto organisées pour l’analyse exploratoire deJovani NDABTJE
 
Terminologies en statistique - Copy.docx
Terminologies en statistique  - Copy.docxTerminologies en statistique  - Copy.docx
Terminologies en statistique - Copy.docxsafaebelkyr
 
Étude clinique contrôlée aléatoire en médecine ostéopathique«importance du gr...
Étude clinique contrôlée aléatoire en médecine ostéopathique«importance du gr...Étude clinique contrôlée aléatoire en médecine ostéopathique«importance du gr...
Étude clinique contrôlée aléatoire en médecine ostéopathique«importance du gr...François Ricard
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfFootballLovers9
 
Azizi glossaire statistique
Azizi glossaire statistiqueAzizi glossaire statistique
Azizi glossaire statistiqueSouad Azizi
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression Mariem Chaaben
 
Lire et critiquer un article en pratique médicale
Lire et critiquer un article  en pratique médicaleLire et critiquer un article  en pratique médicale
Lire et critiquer un article en pratique médicaleMaxime GIGNON
 
Chapitre I - Développements introductifs.pptx
Chapitre I - Développements introductifs.pptxChapitre I - Développements introductifs.pptx
Chapitre I - Développements introductifs.pptxmelianikholoud
 
Data Analysis pas à pas avec R
Data Analysis pas à pas avec RData Analysis pas à pas avec R
Data Analysis pas à pas avec RAmar LAKEL, PhD
 
Chap2_preprocessing.ppt preprocessing 00
Chap2_preprocessing.ppt preprocessing 00Chap2_preprocessing.ppt preprocessing 00
Chap2_preprocessing.ppt preprocessing 00ssuser4028c8
 
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Adad Med Chérif
 

Similaire à analysediscriminantediscriminante pdf.pdf (20)

Cours n1 introduction_probabilits_et_variables_alatoires
Cours n1 introduction_probabilits_et_variables_alatoiresCours n1 introduction_probabilits_et_variables_alatoires
Cours n1 introduction_probabilits_et_variables_alatoires
 
Pluye et al._mthodes_mixtes
Pluye et al._mthodes_mixtesPluye et al._mthodes_mixtes
Pluye et al._mthodes_mixtes
 
Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée
 
Cartes auto organisées pour l’analyse exploratoire de
Cartes auto organisées pour l’analyse exploratoire deCartes auto organisées pour l’analyse exploratoire de
Cartes auto organisées pour l’analyse exploratoire de
 
Terminologies en statistique - Copy.docx
Terminologies en statistique  - Copy.docxTerminologies en statistique  - Copy.docx
Terminologies en statistique - Copy.docx
 
Étude clinique contrôlée aléatoire en médecine ostéopathique«importance du gr...
Étude clinique contrôlée aléatoire en médecine ostéopathique«importance du gr...Étude clinique contrôlée aléatoire en médecine ostéopathique«importance du gr...
Étude clinique contrôlée aléatoire en médecine ostéopathique«importance du gr...
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdf
 
Azizi glossaire statistique
Azizi glossaire statistiqueAzizi glossaire statistique
Azizi glossaire statistique
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression
 
Lire et critiquer un article en pratique médicale
Lire et critiquer un article  en pratique médicaleLire et critiquer un article  en pratique médicale
Lire et critiquer un article en pratique médicale
 
Chapitre I - Développements introductifs.pptx
Chapitre I - Développements introductifs.pptxChapitre I - Développements introductifs.pptx
Chapitre I - Développements introductifs.pptx
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 
Data Analysis pas à pas avec R
Data Analysis pas à pas avec RData Analysis pas à pas avec R
Data Analysis pas à pas avec R
 
pmi définition variance
pmi définition variancepmi définition variance
pmi définition variance
 
Le questionnaire
Le questionnaireLe questionnaire
Le questionnaire
 
Chap2_preprocessing.ppt preprocessing 00
Chap2_preprocessing.ppt preprocessing 00Chap2_preprocessing.ppt preprocessing 00
Chap2_preprocessing.ppt preprocessing 00
 
Spss 3 master comrce copy
Spss 3  master comrce   copySpss 3  master comrce   copy
Spss 3 master comrce copy
 
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
 
Statistique descriptive ch1
Statistique descriptive ch1Statistique descriptive ch1
Statistique descriptive ch1
 
Stat6 Chideux
Stat6   ChideuxStat6   Chideux
Stat6 Chideux
 

analysediscriminantediscriminante pdf.pdf

  • 1. Encadré par: Mr. RABHI Seddik Réaliser par : HALALI Moulay Ali MOUMNI Ahmed Oussama Année universitaire : 2023/2024 L’analyse Discriminante Département de math et Informatique
  • 2. PLAN ❑ introduction I. Généralité de l’analyse discriminante 1. historique et définition 2. objectif de l’analyse discriminante 3. Les domaines de l’analyse discriminante 4. Les approches de cette analyse 5. les fonctions de l’analyse discriminante II. les étapes de l’analyse discriminante et la démarche a suivre 1. les étapes de l’analyse discriminante 2. La démarche a suivre ❑ ❑ conclusion bibliographie
  • 3. INTRODUCTION Dans beaucoup de domaines, les professionnels sont amenés à prévoir les comportements sur la base de certains critères : c’est le cas par exemple d’un médecin établissant un diagnostic pour prescrire un traitement, ou d’un banquier accordant un crédit à un particulier ou une entreprise. , la plupart de ces applications fondent leurs prédictions sur une technique statistique multidimensionnelle , c’est l’analyse discriminante,. Le but de cette analyse est d’étudier les relations entre une variable qualitative et un ensemble de de variable explicatives quantitatives donc c’est quoi l’analyse discriminante ?
  • 4. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE 1. historique et définition ❑ Historique L’analyse discriminante est une solution proposée dès 1936 par Fisher consiste à chercher des combinaisons linéaires de descripteurs quantitatifs, indicateurs synthétiques qui permettent de classer les individus correctement dans chacun des groupes. ❑ définition L'analyse discriminante ou analyse factorielle discriminante est une technique statistique qui vise à décrire, expliquer et prédire l'appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, ... ) d'un ensemble d'observations (individus, exemples, ... ) à partir d'une série de variables prédictives (descripteurs, variables exogènes, ... Donc L'analyse discriminante est à la fois une méthode prédictive (analyse discriminante linéaire – ADL) et descriptive (analyse factorielle discriminante – AFD).
  • 5. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE 2. objectif de l’analyse discriminante trois objectifs principaux peuvent être assignés a l’analyse discriminante
  • 6. I. Généralité de l’analyse discriminante Déterminer les variables explicatives les plus vis- à-vis des classes déterminées discriminantes • • Déterminer a quel groupe appartient un individu à partir de ses caractéristiques Valider une classification ou à faire choix entre plusieurs classifications pour savoir laquelle est la plus pertinente deux condition sont a remplir: ▪ les variables explicatives doivent être métrique ▪ elles ne doivent pas être trop corrélés entre elle
  • 7. 3. Les domaines de l’analyse discriminante • En médecine, par exemple pour détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l'alimentation, le fait de fumer ou pas, les antécédents familiaux, etc. • Dans le domaine bancaire, quand on veut évaluer la fiabilité d'un demandeur de crédit à partir de ses revenus, du nombre de personnes à charge, des encours de crédits qu'il détient, etc. • En biologie, quand on veut affecter un objet à sa famille d'appartenance à partir de ses caractéristiques physiques. Les iris de Sir Ronald Fisher -- qui est à l'origine de cette méthode—en est un exemple particulièrement fameux, il s'agit de reconnaître le type d'iris (setosa, virginica, et versicolor) à partir de la longueur/largeur de ses pétales et sépales.
  • 8. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE 4. LES APPROCHES DE L’ANALYSE DISCRIMINANTE est une technique de statistique exploratoire. Elle consiste `a chercher les combinaisons linéaires de variables qui permettent de s éparer le mieux possible les K classes et donner une représentation graphique), qui rende compte au mieux de cette séparation. Ces combinaisons linéaires sont appelées fonctions linéaires discriminantes. Il s’agit donc d’une ́étape de discrimination des classes. L’analyse discriminante descriptive est une technique descriptive car elle propose une représentation graphique qui permet de visualiser les proximités entre les observations, appartenant a un même groupe ou non. C’est aussi une technique explicative car nous avons la possibilité d’interpréter les axes principaux, combinaisons linéaires des variables initiales et ainsi comprendre les caractéristiques qui distinguent les différents groupes. L’analyse discriminante peut être prédictive. Il s’agit dans ce cas de construire une fonction de classement (règle d’affectation, …) qui permet de prédire le groupe d’appartenance d’un individu à partir des valeurs prises par les variables prédictives. En ce sens, cette technique se rapproche des techniques supervisées en apprentissage automatique telles que les arbres de décision, les réseaux de neurones, … Elle repose sur un cadre probabiliste analyse discriminante descriptive : Analyse discriminante prédictive ❑ La distinction entre ces deux approches n’est pas aussi tranchée. Il est par exemple possible de dériver des règles géométriques d’affectation à partir de l’analyse factorielle discriminante.
  • 9. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE 5. Les fonctions de l’analyse discriminante le cas de deux groupe: Dans le cas de deux groupes, l'analyse discriminante peut s'appréhender comme (et elle est d'ailleurs analogue à) une régression multiple l'analyse discriminante avec deux groupes est également appelée analyse discriminante linéaire de Fisher d'après Fisher, 1936 ; du point de vue des calculs, toutes ces approches sont analogues). Si nous codifions les deux groupes de l'analyse en 1 et 2, et que nous utilisons cette variable comme la variable dépendante d'une régression multiple, nous obtiendrons des résultats analogues à ceux obtenus dans le module Analyse Discriminante. D'une manière générale, dans le cas de deux groupes, on ajuste une équation linéaire du type : Groupe = a + b1*x1 + b2*x2 + ... + bm*xm où a représente une constante et b1 à bm sont les coefficients de régression. L'interprétation des résultats d'un problème avec deux groupes est assez simple et suit fidèlement la logique de la régression multiple : les variables avec les coefficients de régression (centrés-réduits) les plus forts sont ceux qui contribuent le plus à la prévision d'appartenance à un groupe.
  • 10. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE Exemple Considérons un exemple simple. Supposons que nous mesurons la taille en centimètres dans un échantillon aléatoire de 50 hommes et de 50 femmes. Les femmes sont, en moyenne, plus petites que les hommes, et cette différence va se refléter dans les moyennes (de la variable Taille). Par conséquent, la variable "taille" nous permet de mieux discriminer les hommes des femmes que le simple hasard : si une personne est grande, il s'agit plus probablement d'un homme ; en revanche, si elle est petite, il s'agit plus vraisemblablement d'une femme.
  • 11. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE Le cas de plusieurs groupe: Lorsqu'il y a plus de deux groupes, il est possible d'estimer plusieurs analyses discriminantes comme celle présentée ci-dessous. Par exemple, si nous avons trois groupes, nous pouvons estimer (1) une fonction pour discriminer le groupe 1 des groupes 2 et 3 ensemble, et (2) une autre fonction pour discriminer le groupe 2 du groupe 3. Par exemple, nous pourrions avoir une fonction qui discrimine les jeunes bacheliers diplômés optant pour l'université et ceux qui optent pour une autre orientation (exercer un emploi ou entrer en école de commerce ou professionnelle), et une seconde fonction pour discriminer les diplômés qui entrent en école de commerce ou professionnelle de ceux qui choisissent d'entrer dans la vie active. Les coefficients b de ces fonctions discriminantes s'interprètent comme précédemment.
  • 12. I. GÉNÉRALITÉ DE L’ANALYSE DISCRIMINANTE Exemple L’échantillon étudié par Fisher comporte cent cinquante iris provenant de trois espèces distinctes (Iris SETOSA, Iris VERSICOLOR et Iris VIRGINICA) à raison de cinquante iris par espèce qui constituent notre échantillon iris VIRGINICA iris VERSICOLOR iris SETOSA Chaque individu est identifié par un numéro de séquence (numéro) au sein de l’échantillon d’apprentissage et son appartenance à l’une des trois populations est renseignée par un code d’espèce (1 pour SETOSA, 2 pour VERSICOLOR et 3 pour VIRGINICA) Parmi les mesures effectuées, quatre d’entre elles caractérisent la fleur : longueur du sépale (LONSEPAL), largeur du sépale (LARSEPAL), longueur du pétale (LONPETAL), largeur du pétale (LARPETAL) exprimées en millimètres. Le problème de discrimination se pose ainsi : à partir de ces quatre mesures quantitatives donnant une indication sur la morphologie globale de la fleur, peut-on décider de l’espèce à laquelle appartient l’individu ? La variable y à prédire est donc une variable qualitative à k = 3 modalités. Cette prédiction s’effectue à partir d’un tableau X de p = 4 variables quantitatives observées sur un échantillon
  • 13. II. LES ÉTAPES DE L’ANALYSE DISCRIMINANTE ET LA DÉMARCHE A SUIVRE 1. Les étapes de l’analyse discriminante il existe 4 étapes de l’analyse discriminante ❑ vérification de l’existence de différences entre les groupes ❑ vérification de validité d’étude ❑ vérification du pouvoir discriminant des axes ❑ jugement de la qualité de la représentation du modèle
  • 14. 1ER ÉTAPE : LA VÉRIFICATION DE L’EXISTENCE DE DIFFÉRENCE ENTRE LES GROUPES On vérifie s’il existe bien des différences entre les groupes grâce à trois indicateurs la moyenne/ la variance : Après le calcul des moyennes ou des variances on va les comparer : •S’il y a une différence on dit qu’il existe une influence •S’il y a une similitude on dit qu’il n’a pas d’influence
  • 15. le test F : C’est un terme générique désignant tout test statistique dans lequel la statistique de test suit la loi de Fisher sous l'hypothèse nulle. Après la réalisation du test F, il y a deux situations possibles : ❑ Si SIG F tend vers 0,000 on dit qu’il y a une influence ❑ Si SIG F >= 0,01 ou 0,05 , on dit qu’il n y a pas d’influence le lambda de Wilkes : C’est une statistique qui compare simultanément plusieurs moyennes en mesurant la part d’inertie intra classe dans l’inertie totale. sont les variables les plus En calculant le lambda de Wilkes par le logiciel SPSS on le trouve : ❑ soit inférieur à 0.9, on dit qu’il y a une influence ❑ soit il tend vers 1 et on dit qu’il n y a pas d’influence Cette première analyse permet de déterminer quelles discriminantes entre les groupes.
  • 16. 2ÉME ÉTAPE: VÉRIFICATION DE VALIDITÉ D’ ÉTUDE On estime la validité d’une analyse discriminante à partir de trois indicateurs : ❑ Le test M de Box. ❑ La corrélation globale. ❑ Le Lambda de Wilkes. Le test M de Box : doit être le plus élevé possible. La significativité du test de F doit tendre vers 0. S’il est supérieur à 0,05, l’analyse n’est pas valide La corrélation globale : La corrélation globalese mesure quant à ellese retrouve dans le tableau (Valeurs propres) dans le SPSS . On observe notamment la colonne Corrélation Canonique. Plus elle est proche de 1, plus le modèle est meilleur se mesure quant à elle se retrouve dans le tableau (Valeurs propres) Le Lambda de Wilkes : Plus la valeur du Lambda de Wilkes (deuxième colonne) est faible, plus le modèle est bon. On observe également sa significativité : plus elle est tend vers 0, meilleur, plus le modèle est bon.
  • 17. 3ÉME ÉTAPE: VÉRIFICATION DU POUVOIR DISCRIMINANT DES AXES On observe le pouvoir discriminant des axes grâce au tableau « Canonical Discriminant Fonction Coefficients. On obtient une fonction discriminante sous la forme : Y= a + b1 *x1 + b2 *x2 + ... + bm *xm
  • 18. 4ÉME ÉTAPE: JUGEMENT DE LA QUALITÉ DE LA REPRÉSENTATION DU MODÈLE on observe la qualité de la représentation : on s’assure que la fonction discriminante classifie bien les individus en sous-groupes. Pour cela, on analyse la matrice de confusion qui regroupe les individus bien classés et les mal classé Sous SPSS, la matrice de confusion s’observe dans le tableau « Classement Résultats »
  • 19. CONCLUSION Pour conclure cet exposé nous avons présenter l’une des méthodes les plus utilisées de nos jours l’analyse discriminante. La simplicité de sa mise en œuvre fait que nous la retrouvons dans de nombreux logiciels. Ainsi elle est adéquate pour la représentation des données dans des espaces qui discriminent au mieux les individus selon des classes connues. Cette représentation permet de dégager des informations `a partir d’un grand nombre de données souvent difficile `a interpréter. Elle permet également l’affectation de nouveaux individus dans les classes existantes.
  • 21. Merci de votre attention