SlideShare une entreprise Scribd logo
1  sur  28
Télécharger pour lire hors ligne
14/01/2013




        Analyse des données:
      Les méthodes factorielles

          Prof. Mohamed El Merouani




                Introduction:
• L’analyse des données est une des branches
  les plus vivantes de la statistique.
• Les principales méthodes de l’analyse des
  données se séparent en deux groupes:
  – Les méthodes de classification,
  – Les méthodes factorielles.




                                                       1
14/01/2013




  Les méthodes de classification:
• Elles visent à réduire la taille de l’ensemble
  des individus en formant des groupes
  homogènes d’individus ou de variables.
• Ces groupes on les appelle aussi des classes,
  ou familles, ou segments, ou clusters.
• La classification est appelée aussi
  Segmentation ou Clustering ou…




      Les méthodes factorielles:
• Parmi les méthodes descriptives ou non-
  supervisées du Datamining, on trouve les
  méthodes factorielles de l’Analyse des
  données.
• les méthodes factorielles consistent en la
  projection sur un espace de dimension
  inférieure pour obtenir une visualisation de
  l’ensemble des liaisons entre variables tout en
  minimisant la perte de l’information.




                                                            2
14/01/2013




       Les méthodes factorielles:
 • Elles cherchent à réduire le nombre de variables
   en les résumant par un petit nombre de
   composantes synthétiques.
 • Si on travaille avec un tableau de variables
   numériques, on utilisera l’analyse en
   composantes principales,
 • Si on travaille avec des variables qualitatives, on
   utilisera l’analyse des correspondances.
 • Les liens entre deux groupes de variables peuvent
   être traités par l’analyse canonique.




       Les méthodes factorielles:
Les méthodes factorielles regroupent :

• L’ACP : L’analyse en composantes principales

• L’ AFC : L’analyse factorielle des correspondances




                                                                 3
14/01/2013




                          L’ACP
• L’ACP (Hotelling, 1933) a pour objectif de réduire le
  nombre de données, souvent très élevé, d’un tableau
  de données représenté, algébriquement, comme une
  matrice et, géométriquement comme un nuage de
  points.
• L’ACP consiste en l’étude des projections des points de
  ce nuage sur un axe (axe factoriel ou principal), un plan
  ou un hyperplan judicieusement déterminé.
• Mathématiquement, on obtiendrait le meilleur
  ajustement du nuage par des sous-espaces vectoriels.




• Soit un tableau de données ayant p lignes et q
  colonnes:
         colonnes
                    1     ….    J    …       q
         lignes

            1       x11   …    x1j    …     x1q

            i       xi1   …    xij    …     xiq


            p       xp1   …    xpj    …     xpq




                                                                      4
14/01/2013




• On représente ce tableau sous forme d’une
  matrice notée X de type (p,q).

      x11     x12    L    x1 j   L x1q 
                                        
      x21     x22    L x2 j      L x2 q 
      M              M              M 
  X =                                   
      xi1     xi 2   L    xij    L xiq 
      M                      M      M 
                                        
     x        x p 2 L x pj       L x pq 
      p1                                




                      L’ACP
• Algébriquement, il s’agit de chercher les
  valeurs propres maximales de la matrice des
  données et par conséquent ses vecteurs
  propres associés qui représenteront ces sous-
  espaces vectoriels (axes factoriels ou
  principales).




                                                          5
14/01/2013




           Procédure de l’ACP:
• On cherche X’ la transposée de la matrice X.
• On détermine les valeurs propres de la
  matrice symétrique X’X.
• Soient λ1, λ2, …, λq ces valeurs propres.
• On les classe λ1>λ2>λ3> λ4>….
• Alors X’X=AΛA-1 où          λ1 0 L 0 
                                            
                              0 λ2 O M 
                         Λ=
                                M O O 0
                                            
                             0 L 0 λ 
                                           q




           Procédure de l’ACP:
• D’après les propriétés de la trace des matrices;
  on a:
                 (        ) (           )
  tr ( X ' X ) = tr AΛA−1 = tr AA−1Λ = trΛ
• Soit tr ( X ' X ) = λ1 + λ2 + L + λq
• En raison des valeurs numériques
  décroissantes de λ1, λ2, …, la somme des
  premiers valeurs propres représente, souvent,
  une proportion importante de la trace de X’X.




                                                             6
14/01/2013




           Procédure de l’ACP:
• Ainsi, dans la pratique on peut se limiter à
  trouver les premiers valeurs propres λ1, λ2, …,
  λs avec s assez inférieur à q.
• L’information perdue est alors relativement
  faible.
• On pratique s=3 (trois premiers valeurs
  propres les plus grands)




           Procédure de l’ACP:
• Les valeurs propres trouvés étant simples, les
  espaces propres associés aux vecteurs propres
  seront des droites vectorielles (on les appelles
  des axes factoriels ou des facteurs).
• D’un point de vue général, L’ACP nous a permit
  de traiter un très grand nombre de données
  (matrice) pour identifier un nombre
  relativement restreint de données (axes
  factoriels)




                                                             7
14/01/2013




 • Géométriquement, on représente le tableau
   comme un nuage de points.




          L’ACP géométriquement:
• Lors de la projection, le
  nuage peut être
  déformé est donc serait
  différent de réel, alors
  les méthodes
  d’ajustement consistent
  en minimiser cette
  possible déformation et
  ce en maximisant les
  distances projetées.




                                                       8
14/01/2013




    Distance ou métrique utilisée:
• Soient Lm et Ln deux points de IRq:
      Lm = (xm1 , xm 2 ,L , xmj ,L , xmq )

       Ln = (xn1 , xn 2 ,L , xnj ,L , xnq )
• La distance euclidienne (classique) entre ces
  points est:

                              ∑ (x    mj − xnj )
                                q
          d (Lm , Ln ) =
                                               2

                               j =1




    Distance ou métrique utilisée:
• Ou bien
 d 2 (Lm , Ln ) = (xm1 − xn1 ) +L+ (xmj − xnj ) +L+ (xmq − xnq )
                              2                2                2


• Les points Lm et Ln sont encore plus proches
  lorsque la somme précédente est plus petite.
• Si les différents coordonnées des points L ne
  se mesurent pas avec les mêmes unités, la
  distance d sera la somme des termes de
  « poids » très différents.




                                                                            9
14/01/2013




      Distance ou métrique utilisée:
  • Pour éviter ce problème des unités, on va
    centrer auparavant les vecteurs colonnes de la
    matrice X.
  • Le tableau des données centrés Y est :
             x11 − x1    x12 − x 2    L x1q − x q 
                                                   
             x 21 − x1   x 22 − x 2   L x2q − xq 
         Y =                                       
                   M                   O      M
                                                   
            x − x        x p 2 − x2   L x pq − x q 
             p1 1                                  




                    L’ACP normé:
   • On s’intéresse à étudier la matrice des
     variances-covariances V au lieu de la matrice
     X de départ.
   • La matrice V est une matrice de type carrée
     d’ordre q de terme général vkl égal à:
      1 p                          1 p
vkl = ∑ ( yik − yk )( yil − yl ) = ∑ ( xik − xk )( xil − xl )
      p i =1                       p i =1
                    1 p
             v kl =   ∑ (x ik x il − x k x l )
                    p i =1




                                                                       10
14/01/2013




• La matrice V des variances-covariances est
  telle que       1
                   V =                Y ′Y
                                  p
• On peut aussi considérer la matrice Z des
  données centrées et normés d’éléments zij
                     xij − x j
            zij =
                             σj
• Avec
                     p

                   ∑x
                                                   ∑ (xij − x j )2
                             ij
                                                 1 p
            xj =    i =1
                                  ; σj =
                         p                       p i =1




         Matrice centrée normée:
• Donc, la matrice des données centrées et
  normées sera:
              x11 − x1               x12 − x2            x1q − xq 
                                                  L                
              σ1                       σ2                   σq 
             x −x                    x22 − x2            x2 q − xq 
              21 1                                L                
         Z =  σ1                       σ2                   σq 
              M                                   O           M    
             x −x                 x p 2 − x2             x pq − xq 
              p1 1                                L                
              σ                        σ2                   σq 
                  1                                                




                                                                               11
14/01/2013




• A partir de cette matrice, on définit la matrice
  Γ des corrélations entre les q variables prises
  deux à deux:
             1     ρ12      L ρ1q 
                                   
              ρ 21 1        L ρ 2q 
           Γ=
               M             O M 
                                   
             ρ              L 1 
              q1 L                 

• Γ résume la structure des dépendances
  linéaires entre les q variables et on a    1
                                          Γ = Z'Z
                                             p




     Procédure de l’ACP normé:
• On extrait les valeurs propres les plus grands
  λ1, λ2, …, de la matrice V des variances-
  covariances ou de la matrice Γ des
  corrélations.
• En pratique, on arrête l’extraction des valeurs
  propres lorsque la somme des s valeurs
  propres que l’on a déterminés représente un
  pourcentage satisfaisant de la variance.




                                                            12
14/01/2013




       Procédure de l’ACP normé:
• On détermine les vecteurs propres associés
  aux valeurs propres λ1, λ2, …, λs
• Ce sont les axes factoriels
• Dans la majorité des cas, ne sont prise en
  considération que les deux, les trois, ou les
  quatre premiers axes factoriels.
• Les axes factoriels sont perpendiculaires et ne
  sont pas corrélés entre eux.




        Nombre d’axes à retenir :
Les critères les plus utilisables sont les suivantes :
1°) Interprétation des axes : On retient que les axes que l’on
   peut attribuer une forme d’interprétation économique, par
   exemple, soit directement, soit en terme des variables avec
   lesquelles ils sont très corrélés.
2°) Critère de Kaiser (variables centrées et réduites) : On ne
   retient que les axes associés à valeurs propres supérieurs à
   1, c'est-à-dire dont la variance est supérieure à celle des
   variables d’origine.
• Une autre interprétation est que la moyenne des valeurs
   propres étant 1, on ne garde que celles qui sont
   supérieures à cette moyenne.




                                                                         13
14/01/2013




        Nombre d’axes à retenir :
3°) Éboulis des valeurs propres :On cherche un
  « coude » dans le graphe des valeurs propres et on ne
  conserve que les valeurs jusqu’au ce « coude ».




     Qualités et défauts de l’ACP :
• D’un point de vue technique, ce procédé a pour objet
  l’étude de la structure de la matrice des variances-
  covariances ou de la matrice des corrélations.
• Mais, le procédé est imparfait dans la mesure que le nuage
  est déformé par la projection, même si cette dernière est la
  plus idéale possible. Certains points sont plus altérés que
  d’autres par la transformation.
• L’inconvénient majeur réside dans l’interprétation des axes.
  Parfois, l’explication est évidente et fait que l’analyse en
  composantes principales soit redondante ; ou bien elle est
  contingente pour l'analyste et dans ce dernier cas elle
  n'apporte pas des renseignements très convaincant es pour
  l'analyse économétrique postérieure.




                                                                        14
14/01/2013




                      L’AFC
• L’AFC a pour objet le traitement de l’information
  contenue dans un tableau appelé de contingence
  ou de dépendance, relatif à deux ensembles de
  nature quelconque, en relation par moyen d’un
  processus naturel ou expérimental plus ou moins
  bien connu.
• Les données sont ici pondérées. Les fréquences
  de répétitions s’interprète facilement en termes
  de probabilités.




                      L’AFC
• Le tableau de dépendance peut être ainsi
  représenté dans un espace approprié par un
  nuage de points affectés de probabilités.




                                                             15
14/01/2013




• Considérons un tableau à double entrée :

        Ensemble J
       (paramèttres)
                              1         ….    J   …   m
        Ensemble I
        (individus)
            1             x11 … x1j …                 x1m


             i            xi1           … xij     …   xim

            n             xn1 … xnj …                 xnm




• Dans le cas qualitatif, le tableau précédent se
  présente sous la forme d’un tableau des uns
  et des zéros (suivant si l’individu i possède ou
  non le paramètre j).
• La probabilité associée au terme xij est:
                                  xij
                 pij =    n        m

                         ∑∑ x
                         i =1 j =1
                                         ij




                                                                   16
14/01/2013




   J            1                ….         j                …    m     Total
   I
   1        p11                  …         p1j               …    p1m    p1.
   M

   i                             …         pij               …    pim    pi.
            pi1
   M

   n        pn1                  …         pnj               …    pnm    pn.

 Total      p.1                            p.j                    p.m    1
                                                                               33




• Où les probabilités marginales sont:
                      m
       pi• =        ∑p
                     j =1
                                 ij   avec i = 1, L , n

                     n
       p• j =   ∑p  i =1
                             ij       avec             j = 1, L , m

• qui vérifient les propriétés:
                     n                          m

                ∑p  i =1
                            i•    = 1 et    ∑p  j =1
                                                        •j   =1




                                                                                           17
14/01/2013




 C’est quoi « les correspondances »?


• Lorsque les variables sont quantitatives, on
  fait une étude de corrélation.

• Mais, lorsqu’on a aussi des variables
  qualitatives, on doit faire une étude des
  correspondances.


                                                 35




                Indépendance?
• Probabilités conditionnelles, dans ce cas:
          pij               pij
                = p⋅ j ⇔           = pi⋅
          pi⋅               p⋅ j
• Formule d’indépendance:

            pij = pi⋅ × p⋅ j
                                                 36




                                                             18
14/01/2013




                                  A(I ) = {Li ; pi⋅ }
         p p            p        p 
    Li =  i1 , i 2 , L , ij , L , im 
         p p
          i⋅    i⋅      pi ⋅      pi⋅ 
                                                  37




              Distance du χ2
• Pour deux individus quelconques i et i’:

                                             2
                         1  pij pi ' j 
  d 2 (Li , Li ' ) = ∑        p − p 
                                        
                    j    p⋅ j  i⋅  i '⋅ 

• Pourquoi une telle distance?



                                                   38




                                                               19
14/01/2013




      Pourquoi la distance du χ2?
• La distance euclidienne ne prend pas compte
  complètement de tous les caractères étudiés!
• Il a été alors proposé de modifier la distance
  euclidienne en tenant compte des écarts entre
  deux probabilités de deux individus d’avoir un
  caractère en donnant de l’importance aux
  probabilités que l’individu ait tous les caractères
  étudiés.
• Cela, donc, par multiplication par l’inverse de la
  probabilité d’avoir tous les caractères.
                                                        39




      Pourquoi la distance du χ2?
• Aussi, parce que la distance du χ2 a une
  propriété qui s’appelle «la propriété
  d’équivalence distributionnelle » et que la
  distance euclidienne ne vérifie pas!
• Si deux colonnes j et j’ de J correspond au
  même ligne i, il est logique de les regrouper
  en une seule de probabilité (pij+pij’), il faut
  alors que cette opération ne modifie pas les
  distances entre les i.

                                                        40




                                                                    20
14/01/2013




        Pourquoi la distance du χ2?
  • Plus généralement, la distance du χ2 est égale
    à la distance euclidienne entre:
 p             pi 2           pij              pim 
       i1
            ,          ,L,              ,L,             
 pi⋅ p⋅1 pi⋅ p⋅2           pi⋅ p⋅ j         pi⋅ p⋅m 
                                                       
 p             pi ' 2           pi ' j           pi 'm 
      i '1
            ,           ,L,              ,L ,             
 pi '⋅ p⋅1 pi '⋅ p⋅2       pi '⋅ p⋅ j        pi '⋅ p⋅m 
                                                         
                                                       41




  • Ce sont les points qu’on a noté Mi dans le
    cours

           M i = (β i1 , β i 2 ,L , β ij ,L , β im )
  • Avec                     pij
                  β ij =
                           pi⋅ p⋅ j
  •   pi ⋅ étant toujours la pondération
                                                       42




                                                                     21
14/01/2013




                                      B(I ) = {M i ; pi⋅ }


                                                         43




• Ainsi la distance du χ2 entre deux points Mi et
  Mi’ est:

        d   2
                (M i , M i ' ) = ∑ (β ij   − β i ′j )
                                                    2

                                 j




                                                         44




                                                                     22
14/01/2013




 Projection du nuage B(I) sur un axe:
• On projet orthogonalement le nuage B(I) sur
  un axe (espace vectoriel de dim 1) de vecteur
  unitaire u, de telle façon que l’information
  perdue soit minime.
• Comme en ACP, ce qui revient à
  max u’Wu, sous la condition u’u=1, avec W est
  la matrice des variances-covarainces de B(I) .
• Ce qui revient à trouver la valeur propre la
  plus grande λmax de W.
                                                  45




Matrice des variances-covariances W:
• La matrice des variances-covariances W du
  nuage B(I) relativement à un paramètre j est:

           v11 v12         L v1m 
                                  
           v21 v22         L v2 m 
       W =
             M              O M 
                                  
          v                L vmm 
           m1 vm 2                
                                                  46




                                                              23
14/01/2013




Matrice des variances-covariances W:
• La variance vjj caractérise la dispersion du
  nuage tout au long de l’axe j:

                            (
         v jj = ∑ pi⋅ β ij − p⋅ j          )2

                    i
• La covariance vjk est

                        (             )(
    v jk = ∑ pi⋅ β ij − p⋅ j β ik − p⋅k                    )
                                                           '

             i

                                                               47




Matrice des variances-covariances W:
• Soit encore, en remplaçant βij par sa valeur:
                                                       '
              p − pi⋅ p⋅ j      pik − pi⋅ p⋅k   
    v jk = ∑  ij                                
             
           i     pi⋅ p⋅k            pi⋅ p⋅k     
                                                 
• Posons p − p p
              i⋅ ⋅ j
                            = rij ; i = 1,L , n , j = 1,L , m
          ij

                 pi⋅ p⋅k


                                                               48




                                                                           24
14/01/2013




 Matrice des variances-covariances W:

                (r )
                  ij 1≤i ≤ n
                     1≤ j ≤ m
                                =R

                W = R' R
   où R’ est la transposée de R.
• Maximiser u’Wu revient à maximiser u’R’Ru
sous la condition u’u=1, c’est-à-dire déterminer
les vecteurs propres associés aux valeurs propres
de la matrice R’R.                                  49




  Variabilité totale du nuage B(I):
• On appelle la variabilité totale du nuage B(I),
  la trace de la matrice W:

         VB = tr (W ) = ∑ v jj
                                j

• On parle aussi de la variabilité totale du nuage
  projeté C(I) qui sera Vc=λmax


                                                    50




                                                                25
14/01/2013




 Variabilité expliquée du nuage B(I):

• La partie de variabilité expliquée par la
  projection de B(I), sur u est alors:
                          Vc
                     δ=
                          VB
• Soit encore:
                          λmax
                    δ=
                          tr (W )

                                                    51




Projection du nuage B(I) sur un plan:

• Comme en ACP, les vecteurs propres de W
  s’appellent « axes factoriels » du nuage.
• La détermination des axes factoriels se fait en
  diagonalisant la matrice symétrique W.
• En pratique, on se contente des valeurs
  propres les plus grands.



                                                    52




                                                                26
14/01/2013




        Recherche des facteurs:
• Les points du nuage C(I) possèdent un
  nombre réduit de coordonnées dans le
  référentiel formé les axes factoriels.
• Ces coordonnées sont les valeurs de nouvelles
  variables qui s’appellent: Facteurs.
• Le premier facteur correspond aux
  coordonnées sur le premier axe factoriel.


                                                  53




        Recherche des facteurs:
• On peut démontrer que les facteurs sont non-
  corrélés entre eux et s’expriment comme
  combinaisons linéaires des données.
• Réciproquement, les données ont des coefficients
  qui sont des combinaisons linéaires des facteurs.
• Ainsi, à partir des facteurs, il est possible de
  reconstruire un tableau de données avec une
  minime perte d’information, c’est-à-dire obtenir
  un tableau plus facilement accessible à l’analyse
  descriptive.
                                                  54




                                                              27
14/01/2013




        Proximité en IRm et en IRn:
• On a vu précédemment les proximités entre n points de
  IRm.
• Par des calculs symétriques, on peut étudier les
  proximités de m points de IRn.
• Sauf qu’il existe des relations entre les facteurs de IRm et
  les facteurs de IRn.
• Il est alors possible de représenter, sur le même
  graphique, dans le plan des deux premiers axes
  factoriels, les proximités entre les individus et les
  proximités entre les caractères.
• Cette simultanéité de représentation suggère parfois
  une interprétation économique, sociale, politique,…des
  axes factoriels.
                                                           55




   Inconvénients et avantages de l’AFC
 • Les inconvénients sont les défauts de toute
   analyse factorielle: déformation inévitable du
   nuage durant la projection et la signification
   ou interprétation des axes.
 • L’avantage essentiel réside dans l’étude des
   caractères qualitatifs.



                                                           56




                                                                        28

Contenu connexe

Tendances

Probabilité +echantillonage
Probabilité +echantillonageProbabilité +echantillonage
Probabilité +echantillonageImad Cov
 
Analyse Numérique – TP
Analyse Numérique – TP Analyse Numérique – TP
Analyse Numérique – TP Mohammed TAMALI
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaireBoris Guarisma
 
CHAPITRE VIII : Systèmes linéaires Modélisation & Simulation
CHAPITRE VIII :  Systèmes linéaires Modélisation & SimulationCHAPITRE VIII :  Systèmes linéaires Modélisation & Simulation
CHAPITRE VIII : Systèmes linéaires Modélisation & SimulationMohammed TAMALI
 
Localisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesLocalisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesAhmed Ammar Rebai PhD
 
Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régres...
Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régres...Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régres...
Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régres...tuxette
 
Ponts castillo1 statistique
Ponts castillo1 statistiquePonts castillo1 statistique
Ponts castillo1 statistiqueAli BEN MANSOUR
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistiqueBoris Guarisma
 
Rappel mathématique pour étudiant d'économie gestion
Rappel mathématique pour étudiant d'économie gestionRappel mathématique pour étudiant d'économie gestion
Rappel mathématique pour étudiant d'économie gestionAli Hachimi Kamali
 
Discrimination et régression pour des dérivées : un résultat de consistance p...
Discrimination et régression pour des dérivées : un résultat de consistance p...Discrimination et régression pour des dérivées : un résultat de consistance p...
Discrimination et régression pour des dérivées : un résultat de consistance p...tuxette
 
Une introduction à la géométrie de l'information
Une introduction à la géométrie de l'informationUne introduction à la géométrie de l'information
Une introduction à la géométrie de l'informationFrank Nielsen
 
Olivier Féron's talk at BigMC March 2011
Olivier Féron's talk at BigMC March 2011Olivier Féron's talk at BigMC March 2011
Olivier Féron's talk at BigMC March 2011BigMC
 
11 jus 20101123_saturneastersalome
11 jus 20101123_saturneastersalome11 jus 20101123_saturneastersalome
11 jus 20101123_saturneastersalomeOpenCascade
 
Sommation séries entières
Sommation séries entièresSommation séries entières
Sommation séries entièresLoïc Dilly
 
Mathématiques - Formule du crible
Mathématiques - Formule du cribleMathématiques - Formule du crible
Mathématiques - Formule du cribleLoïc Dilly
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisinsBoris Guarisma
 
Réseaux de neurones à entrées fonctionnelles
Réseaux de neurones à entrées fonctionnellesRéseaux de neurones à entrées fonctionnelles
Réseaux de neurones à entrées fonctionnellestuxette
 

Tendances (20)

Probabilité +echantillonage
Probabilité +echantillonageProbabilité +echantillonage
Probabilité +echantillonage
 
Analyse Numérique – TP
Analyse Numérique – TP Analyse Numérique – TP
Analyse Numérique – TP
 
Théo inf
Théo infThéo inf
Théo inf
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaire
 
Regression simple
Regression simpleRegression simple
Regression simple
 
CHAPITRE VIII : Systèmes linéaires Modélisation & Simulation
CHAPITRE VIII :  Systèmes linéaires Modélisation & SimulationCHAPITRE VIII :  Systèmes linéaires Modélisation & Simulation
CHAPITRE VIII : Systèmes linéaires Modélisation & Simulation
 
Localisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesLocalisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennes
 
Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régres...
Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régres...Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régres...
Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régres...
 
Cours stat2-kharrat
Cours stat2-kharratCours stat2-kharrat
Cours stat2-kharrat
 
Ponts castillo1 statistique
Ponts castillo1 statistiquePonts castillo1 statistique
Ponts castillo1 statistique
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistique
 
Rappel mathématique pour étudiant d'économie gestion
Rappel mathématique pour étudiant d'économie gestionRappel mathématique pour étudiant d'économie gestion
Rappel mathématique pour étudiant d'économie gestion
 
Discrimination et régression pour des dérivées : un résultat de consistance p...
Discrimination et régression pour des dérivées : un résultat de consistance p...Discrimination et régression pour des dérivées : un résultat de consistance p...
Discrimination et régression pour des dérivées : un résultat de consistance p...
 
Une introduction à la géométrie de l'information
Une introduction à la géométrie de l'informationUne introduction à la géométrie de l'information
Une introduction à la géométrie de l'information
 
Olivier Féron's talk at BigMC March 2011
Olivier Féron's talk at BigMC March 2011Olivier Féron's talk at BigMC March 2011
Olivier Féron's talk at BigMC March 2011
 
11 jus 20101123_saturneastersalome
11 jus 20101123_saturneastersalome11 jus 20101123_saturneastersalome
11 jus 20101123_saturneastersalome
 
Sommation séries entières
Sommation séries entièresSommation séries entières
Sommation séries entières
 
Mathématiques - Formule du crible
Mathématiques - Formule du cribleMathématiques - Formule du crible
Mathématiques - Formule du crible
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
Réseaux de neurones à entrées fonctionnelles
Réseaux de neurones à entrées fonctionnellesRéseaux de neurones à entrées fonctionnelles
Réseaux de neurones à entrées fonctionnelles
 

En vedette

Analysecomparerconjoncture
AnalysecomparerconjonctureAnalysecomparerconjoncture
AnalysecomparerconjonctureJoseph Nodin
 
Solutions Email Marketing et Mobilité dans Dynamics CRM
Solutions Email Marketing et Mobilité dans Dynamics CRMSolutions Email Marketing et Mobilité dans Dynamics CRM
Solutions Email Marketing et Mobilité dans Dynamics CRMMicrosoft Décideurs IT
 
Windows Phone 8.1 pour l'entreprise : proposition de valeur et retours d'expé...
Windows Phone 8.1 pour l'entreprise : proposition de valeur et retours d'expé...Windows Phone 8.1 pour l'entreprise : proposition de valeur et retours d'expé...
Windows Phone 8.1 pour l'entreprise : proposition de valeur et retours d'expé...Microsoft Décideurs IT
 
Remplacem maire morne vert
Remplacem maire morne vertRemplacem maire morne vert
Remplacem maire morne vertJoseph Nodin
 
Le Marche rencontre-en-ligne-2013-2014-chfr
Le Marche rencontre-en-ligne-2013-2014-chfrLe Marche rencontre-en-ligne-2013-2014-chfr
Le Marche rencontre-en-ligne-2013-2014-chfrSinglebörsen Vergleich
 
Entega familie klimaschutz-gebaeude-steckbrief
Entega familie klimaschutz-gebaeude-steckbriefEntega familie klimaschutz-gebaeude-steckbrief
Entega familie klimaschutz-gebaeude-steckbriefmbartels85
 
Capitaliser sur Office 365 et implémenter des applications métiers personnali...
Capitaliser sur Office 365 et implémenter des applications métiers personnali...Capitaliser sur Office 365 et implémenter des applications métiers personnali...
Capitaliser sur Office 365 et implémenter des applications métiers personnali...Microsoft Décideurs IT
 
Présentation Partenaires Conf'SharePoint
Présentation Partenaires Conf'SharePointPrésentation Partenaires Conf'SharePoint
Présentation Partenaires Conf'SharePointConf'SharePoint 2013
 
Interview entrepreneurs - deviendra Grand - v3 du 1 octobre 2013
Interview entrepreneurs - deviendra Grand - v3 du 1 octobre 2013Interview entrepreneurs - deviendra Grand - v3 du 1 octobre 2013
Interview entrepreneurs - deviendra Grand - v3 du 1 octobre 2013Grégory
 
Ejercicio Word 15
Ejercicio Word 15Ejercicio Word 15
Ejercicio Word 15Niieves_07
 
Big data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septBig data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septKezhan SHI
 
Einkaufen gehen
Einkaufen gehenEinkaufen gehen
Einkaufen gehencherylsita
 
Dossier-de-presse-Environord-2016
Dossier-de-presse-Environord-2016Dossier-de-presse-Environord-2016
Dossier-de-presse-Environord-2016Pierre-jean Cherret
 

En vedette (20)

Analysecomparerconjoncture
AnalysecomparerconjonctureAnalysecomparerconjoncture
Analysecomparerconjoncture
 
Solutions Email Marketing et Mobilité dans Dynamics CRM
Solutions Email Marketing et Mobilité dans Dynamics CRMSolutions Email Marketing et Mobilité dans Dynamics CRM
Solutions Email Marketing et Mobilité dans Dynamics CRM
 
Presentacion web 2.0
Presentacion web 2.0Presentacion web 2.0
Presentacion web 2.0
 
Windows Phone 8.1 pour l'entreprise : proposition de valeur et retours d'expé...
Windows Phone 8.1 pour l'entreprise : proposition de valeur et retours d'expé...Windows Phone 8.1 pour l'entreprise : proposition de valeur et retours d'expé...
Windows Phone 8.1 pour l'entreprise : proposition de valeur et retours d'expé...
 
La grave
La graveLa grave
La grave
 
Diaporobot
DiaporobotDiaporobot
Diaporobot
 
Remplacem maire morne vert
Remplacem maire morne vertRemplacem maire morne vert
Remplacem maire morne vert
 
Le Marche rencontre-en-ligne-2013-2014-chfr
Le Marche rencontre-en-ligne-2013-2014-chfrLe Marche rencontre-en-ligne-2013-2014-chfr
Le Marche rencontre-en-ligne-2013-2014-chfr
 
Dossier de production
Dossier de productionDossier de production
Dossier de production
 
web 2.0
web 2.0web 2.0
web 2.0
 
Entega familie klimaschutz-gebaeude-steckbrief
Entega familie klimaschutz-gebaeude-steckbriefEntega familie klimaschutz-gebaeude-steckbrief
Entega familie klimaschutz-gebaeude-steckbrief
 
Guzmán
GuzmánGuzmán
Guzmán
 
Mi familia (1)
Mi familia (1)Mi familia (1)
Mi familia (1)
 
Capitaliser sur Office 365 et implémenter des applications métiers personnali...
Capitaliser sur Office 365 et implémenter des applications métiers personnali...Capitaliser sur Office 365 et implémenter des applications métiers personnali...
Capitaliser sur Office 365 et implémenter des applications métiers personnali...
 
Présentation Partenaires Conf'SharePoint
Présentation Partenaires Conf'SharePointPrésentation Partenaires Conf'SharePoint
Présentation Partenaires Conf'SharePoint
 
Interview entrepreneurs - deviendra Grand - v3 du 1 octobre 2013
Interview entrepreneurs - deviendra Grand - v3 du 1 octobre 2013Interview entrepreneurs - deviendra Grand - v3 du 1 octobre 2013
Interview entrepreneurs - deviendra Grand - v3 du 1 octobre 2013
 
Ejercicio Word 15
Ejercicio Word 15Ejercicio Word 15
Ejercicio Word 15
 
Big data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septBig data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-sept
 
Einkaufen gehen
Einkaufen gehenEinkaufen gehen
Einkaufen gehen
 
Dossier-de-presse-Environord-2016
Dossier-de-presse-Environord-2016Dossier-de-presse-Environord-2016
Dossier-de-presse-Environord-2016
 

Similaire à Modelisation non supervisee

Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanMedalith Estrada
 
Performances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesPerformances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesEL-Hachemi Guerrout
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
Robust sequentiel learning
Robust sequentiel learningRobust sequentiel learning
Robust sequentiel learningCdiscount
 
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdfPenielLoyi
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiplemohamedchaouche
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfELHASSANEAJARCIF1
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxTarekDHAHRI1
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxTarekDHAHRI1
 
Cours programmation en matlab2 (1)
Cours programmation en matlab2 (1)Cours programmation en matlab2 (1)
Cours programmation en matlab2 (1)Guesmi Amal
 
Calage sur bornes minimales
Calage sur bornes minimalesCalage sur bornes minimales
Calage sur bornes minimalesAntoine Rebecq
 

Similaire à Modelisation non supervisee (20)

Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregman
 
Performances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesPerformances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicales
 
AD-CH1-FCA-MAC-2019-21.pdf
AD-CH1-FCA-MAC-2019-21.pdfAD-CH1-FCA-MAC-2019-21.pdf
AD-CH1-FCA-MAC-2019-21.pdf
 
4TI.pdf
4TI.pdf4TI.pdf
4TI.pdf
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Robust sequentiel learning
Robust sequentiel learningRobust sequentiel learning
Robust sequentiel learning
 
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
 
Cours cluster si2e
Cours cluster si2eCours cluster si2e
Cours cluster si2e
 
Comment faire disparaître les rides
Comment faire disparaître les ridesComment faire disparaître les rides
Comment faire disparaître les rides
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdf
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Quad-expo-stats
Quad-expo-statsQuad-expo-stats
Quad-expo-stats
 
Cours programmation en matlab2 (1)
Cours programmation en matlab2 (1)Cours programmation en matlab2 (1)
Cours programmation en matlab2 (1)
 
RO-2-3.pdf
RO-2-3.pdfRO-2-3.pdf
RO-2-3.pdf
 
Calage sur bornes minimales
Calage sur bornes minimalesCalage sur bornes minimales
Calage sur bornes minimales
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 

Modelisation non supervisee

  • 1. 14/01/2013 Analyse des données: Les méthodes factorielles Prof. Mohamed El Merouani Introduction: • L’analyse des données est une des branches les plus vivantes de la statistique. • Les principales méthodes de l’analyse des données se séparent en deux groupes: – Les méthodes de classification, – Les méthodes factorielles. 1
  • 2. 14/01/2013 Les méthodes de classification: • Elles visent à réduire la taille de l’ensemble des individus en formant des groupes homogènes d’individus ou de variables. • Ces groupes on les appelle aussi des classes, ou familles, ou segments, ou clusters. • La classification est appelée aussi Segmentation ou Clustering ou… Les méthodes factorielles: • Parmi les méthodes descriptives ou non- supervisées du Datamining, on trouve les méthodes factorielles de l’Analyse des données. • les méthodes factorielles consistent en la projection sur un espace de dimension inférieure pour obtenir une visualisation de l’ensemble des liaisons entre variables tout en minimisant la perte de l’information. 2
  • 3. 14/01/2013 Les méthodes factorielles: • Elles cherchent à réduire le nombre de variables en les résumant par un petit nombre de composantes synthétiques. • Si on travaille avec un tableau de variables numériques, on utilisera l’analyse en composantes principales, • Si on travaille avec des variables qualitatives, on utilisera l’analyse des correspondances. • Les liens entre deux groupes de variables peuvent être traités par l’analyse canonique. Les méthodes factorielles: Les méthodes factorielles regroupent : • L’ACP : L’analyse en composantes principales • L’ AFC : L’analyse factorielle des correspondances 3
  • 4. 14/01/2013 L’ACP • L’ACP (Hotelling, 1933) a pour objectif de réduire le nombre de données, souvent très élevé, d’un tableau de données représenté, algébriquement, comme une matrice et, géométriquement comme un nuage de points. • L’ACP consiste en l’étude des projections des points de ce nuage sur un axe (axe factoriel ou principal), un plan ou un hyperplan judicieusement déterminé. • Mathématiquement, on obtiendrait le meilleur ajustement du nuage par des sous-espaces vectoriels. • Soit un tableau de données ayant p lignes et q colonnes: colonnes 1 …. J … q lignes 1 x11 … x1j … x1q i xi1 … xij … xiq p xp1 … xpj … xpq 4
  • 5. 14/01/2013 • On représente ce tableau sous forme d’une matrice notée X de type (p,q).  x11 x12 L x1 j L x1q     x21 x22 L x2 j L x2 q   M M M  X =   xi1 xi 2 L xij L xiq   M M M    x x p 2 L x pj L x pq   p1  L’ACP • Algébriquement, il s’agit de chercher les valeurs propres maximales de la matrice des données et par conséquent ses vecteurs propres associés qui représenteront ces sous- espaces vectoriels (axes factoriels ou principales). 5
  • 6. 14/01/2013 Procédure de l’ACP: • On cherche X’ la transposée de la matrice X. • On détermine les valeurs propres de la matrice symétrique X’X. • Soient λ1, λ2, …, λq ces valeurs propres. • On les classe λ1>λ2>λ3> λ4>…. • Alors X’X=AΛA-1 où  λ1 0 L 0     0 λ2 O M  Λ= M O O 0   0 L 0 λ   q Procédure de l’ACP: • D’après les propriétés de la trace des matrices; on a: ( ) ( ) tr ( X ' X ) = tr AΛA−1 = tr AA−1Λ = trΛ • Soit tr ( X ' X ) = λ1 + λ2 + L + λq • En raison des valeurs numériques décroissantes de λ1, λ2, …, la somme des premiers valeurs propres représente, souvent, une proportion importante de la trace de X’X. 6
  • 7. 14/01/2013 Procédure de l’ACP: • Ainsi, dans la pratique on peut se limiter à trouver les premiers valeurs propres λ1, λ2, …, λs avec s assez inférieur à q. • L’information perdue est alors relativement faible. • On pratique s=3 (trois premiers valeurs propres les plus grands) Procédure de l’ACP: • Les valeurs propres trouvés étant simples, les espaces propres associés aux vecteurs propres seront des droites vectorielles (on les appelles des axes factoriels ou des facteurs). • D’un point de vue général, L’ACP nous a permit de traiter un très grand nombre de données (matrice) pour identifier un nombre relativement restreint de données (axes factoriels) 7
  • 8. 14/01/2013 • Géométriquement, on représente le tableau comme un nuage de points. L’ACP géométriquement: • Lors de la projection, le nuage peut être déformé est donc serait différent de réel, alors les méthodes d’ajustement consistent en minimiser cette possible déformation et ce en maximisant les distances projetées. 8
  • 9. 14/01/2013 Distance ou métrique utilisée: • Soient Lm et Ln deux points de IRq: Lm = (xm1 , xm 2 ,L , xmj ,L , xmq ) Ln = (xn1 , xn 2 ,L , xnj ,L , xnq ) • La distance euclidienne (classique) entre ces points est: ∑ (x mj − xnj ) q d (Lm , Ln ) = 2 j =1 Distance ou métrique utilisée: • Ou bien d 2 (Lm , Ln ) = (xm1 − xn1 ) +L+ (xmj − xnj ) +L+ (xmq − xnq ) 2 2 2 • Les points Lm et Ln sont encore plus proches lorsque la somme précédente est plus petite. • Si les différents coordonnées des points L ne se mesurent pas avec les mêmes unités, la distance d sera la somme des termes de « poids » très différents. 9
  • 10. 14/01/2013 Distance ou métrique utilisée: • Pour éviter ce problème des unités, on va centrer auparavant les vecteurs colonnes de la matrice X. • Le tableau des données centrés Y est :  x11 − x1 x12 − x 2 L x1q − x q     x 21 − x1 x 22 − x 2 L x2q − xq  Y =  M O M   x − x x p 2 − x2 L x pq − x q   p1 1  L’ACP normé: • On s’intéresse à étudier la matrice des variances-covariances V au lieu de la matrice X de départ. • La matrice V est une matrice de type carrée d’ordre q de terme général vkl égal à: 1 p 1 p vkl = ∑ ( yik − yk )( yil − yl ) = ∑ ( xik − xk )( xil − xl ) p i =1 p i =1 1 p v kl = ∑ (x ik x il − x k x l ) p i =1 10
  • 11. 14/01/2013 • La matrice V des variances-covariances est telle que 1 V = Y ′Y p • On peut aussi considérer la matrice Z des données centrées et normés d’éléments zij xij − x j zij = σj • Avec p ∑x ∑ (xij − x j )2 ij 1 p xj = i =1 ; σj = p p i =1 Matrice centrée normée: • Donc, la matrice des données centrées et normées sera:  x11 − x1 x12 − x2 x1q − xq   L   σ1 σ2 σq  x −x x22 − x2 x2 q − xq   21 1 L  Z =  σ1 σ2 σq   M O M  x −x x p 2 − x2 x pq − xq   p1 1 L   σ σ2 σq   1  11
  • 12. 14/01/2013 • A partir de cette matrice, on définit la matrice Γ des corrélations entre les q variables prises deux à deux: 1 ρ12 L ρ1q     ρ 21 1 L ρ 2q  Γ= M O M    ρ L 1   q1 L  • Γ résume la structure des dépendances linéaires entre les q variables et on a 1 Γ = Z'Z p Procédure de l’ACP normé: • On extrait les valeurs propres les plus grands λ1, λ2, …, de la matrice V des variances- covariances ou de la matrice Γ des corrélations. • En pratique, on arrête l’extraction des valeurs propres lorsque la somme des s valeurs propres que l’on a déterminés représente un pourcentage satisfaisant de la variance. 12
  • 13. 14/01/2013 Procédure de l’ACP normé: • On détermine les vecteurs propres associés aux valeurs propres λ1, λ2, …, λs • Ce sont les axes factoriels • Dans la majorité des cas, ne sont prise en considération que les deux, les trois, ou les quatre premiers axes factoriels. • Les axes factoriels sont perpendiculaires et ne sont pas corrélés entre eux. Nombre d’axes à retenir : Les critères les plus utilisables sont les suivantes : 1°) Interprétation des axes : On retient que les axes que l’on peut attribuer une forme d’interprétation économique, par exemple, soit directement, soit en terme des variables avec lesquelles ils sont très corrélés. 2°) Critère de Kaiser (variables centrées et réduites) : On ne retient que les axes associés à valeurs propres supérieurs à 1, c'est-à-dire dont la variance est supérieure à celle des variables d’origine. • Une autre interprétation est que la moyenne des valeurs propres étant 1, on ne garde que celles qui sont supérieures à cette moyenne. 13
  • 14. 14/01/2013 Nombre d’axes à retenir : 3°) Éboulis des valeurs propres :On cherche un « coude » dans le graphe des valeurs propres et on ne conserve que les valeurs jusqu’au ce « coude ». Qualités et défauts de l’ACP : • D’un point de vue technique, ce procédé a pour objet l’étude de la structure de la matrice des variances- covariances ou de la matrice des corrélations. • Mais, le procédé est imparfait dans la mesure que le nuage est déformé par la projection, même si cette dernière est la plus idéale possible. Certains points sont plus altérés que d’autres par la transformation. • L’inconvénient majeur réside dans l’interprétation des axes. Parfois, l’explication est évidente et fait que l’analyse en composantes principales soit redondante ; ou bien elle est contingente pour l'analyste et dans ce dernier cas elle n'apporte pas des renseignements très convaincant es pour l'analyse économétrique postérieure. 14
  • 15. 14/01/2013 L’AFC • L’AFC a pour objet le traitement de l’information contenue dans un tableau appelé de contingence ou de dépendance, relatif à deux ensembles de nature quelconque, en relation par moyen d’un processus naturel ou expérimental plus ou moins bien connu. • Les données sont ici pondérées. Les fréquences de répétitions s’interprète facilement en termes de probabilités. L’AFC • Le tableau de dépendance peut être ainsi représenté dans un espace approprié par un nuage de points affectés de probabilités. 15
  • 16. 14/01/2013 • Considérons un tableau à double entrée : Ensemble J (paramèttres) 1 …. J … m Ensemble I (individus) 1 x11 … x1j … x1m i xi1 … xij … xim n xn1 … xnj … xnm • Dans le cas qualitatif, le tableau précédent se présente sous la forme d’un tableau des uns et des zéros (suivant si l’individu i possède ou non le paramètre j). • La probabilité associée au terme xij est: xij pij = n m ∑∑ x i =1 j =1 ij 16
  • 17. 14/01/2013 J 1 …. j … m Total I 1 p11 … p1j … p1m p1. M i … pij … pim pi. pi1 M n pn1 … pnj … pnm pn. Total p.1 p.j p.m 1 33 • Où les probabilités marginales sont: m pi• = ∑p j =1 ij avec i = 1, L , n n p• j = ∑p i =1 ij avec j = 1, L , m • qui vérifient les propriétés: n m ∑p i =1 i• = 1 et ∑p j =1 •j =1 17
  • 18. 14/01/2013 C’est quoi « les correspondances »? • Lorsque les variables sont quantitatives, on fait une étude de corrélation. • Mais, lorsqu’on a aussi des variables qualitatives, on doit faire une étude des correspondances. 35 Indépendance? • Probabilités conditionnelles, dans ce cas: pij pij = p⋅ j ⇔ = pi⋅ pi⋅ p⋅ j • Formule d’indépendance: pij = pi⋅ × p⋅ j 36 18
  • 19. 14/01/2013 A(I ) = {Li ; pi⋅ } p p p p  Li =  i1 , i 2 , L , ij , L , im  p p  i⋅ i⋅ pi ⋅ pi⋅   37 Distance du χ2 • Pour deux individus quelconques i et i’: 2 1  pij pi ' j  d 2 (Li , Li ' ) = ∑ p − p    j p⋅ j  i⋅ i '⋅  • Pourquoi une telle distance? 38 19
  • 20. 14/01/2013 Pourquoi la distance du χ2? • La distance euclidienne ne prend pas compte complètement de tous les caractères étudiés! • Il a été alors proposé de modifier la distance euclidienne en tenant compte des écarts entre deux probabilités de deux individus d’avoir un caractère en donnant de l’importance aux probabilités que l’individu ait tous les caractères étudiés. • Cela, donc, par multiplication par l’inverse de la probabilité d’avoir tous les caractères. 39 Pourquoi la distance du χ2? • Aussi, parce que la distance du χ2 a une propriété qui s’appelle «la propriété d’équivalence distributionnelle » et que la distance euclidienne ne vérifie pas! • Si deux colonnes j et j’ de J correspond au même ligne i, il est logique de les regrouper en une seule de probabilité (pij+pij’), il faut alors que cette opération ne modifie pas les distances entre les i. 40 20
  • 21. 14/01/2013 Pourquoi la distance du χ2? • Plus généralement, la distance du χ2 est égale à la distance euclidienne entre:  p pi 2 pij pim   i1 , ,L, ,L,   pi⋅ p⋅1 pi⋅ p⋅2 pi⋅ p⋅ j pi⋅ p⋅m     p pi ' 2 pi ' j pi 'm   i '1 , ,L, ,L ,   pi '⋅ p⋅1 pi '⋅ p⋅2 pi '⋅ p⋅ j pi '⋅ p⋅m    41 • Ce sont les points qu’on a noté Mi dans le cours M i = (β i1 , β i 2 ,L , β ij ,L , β im ) • Avec pij β ij = pi⋅ p⋅ j • pi ⋅ étant toujours la pondération 42 21
  • 22. 14/01/2013 B(I ) = {M i ; pi⋅ } 43 • Ainsi la distance du χ2 entre deux points Mi et Mi’ est: d 2 (M i , M i ' ) = ∑ (β ij − β i ′j ) 2 j 44 22
  • 23. 14/01/2013 Projection du nuage B(I) sur un axe: • On projet orthogonalement le nuage B(I) sur un axe (espace vectoriel de dim 1) de vecteur unitaire u, de telle façon que l’information perdue soit minime. • Comme en ACP, ce qui revient à max u’Wu, sous la condition u’u=1, avec W est la matrice des variances-covarainces de B(I) . • Ce qui revient à trouver la valeur propre la plus grande λmax de W. 45 Matrice des variances-covariances W: • La matrice des variances-covariances W du nuage B(I) relativement à un paramètre j est:  v11 v12 L v1m     v21 v22 L v2 m  W = M O M    v L vmm   m1 vm 2  46 23
  • 24. 14/01/2013 Matrice des variances-covariances W: • La variance vjj caractérise la dispersion du nuage tout au long de l’axe j: ( v jj = ∑ pi⋅ β ij − p⋅ j )2 i • La covariance vjk est ( )( v jk = ∑ pi⋅ β ij − p⋅ j β ik − p⋅k ) ' i 47 Matrice des variances-covariances W: • Soit encore, en remplaçant βij par sa valeur: '  p − pi⋅ p⋅ j  pik − pi⋅ p⋅k  v jk = ∑  ij    i  pi⋅ p⋅k  pi⋅ p⋅k    • Posons p − p p i⋅ ⋅ j = rij ; i = 1,L , n , j = 1,L , m ij pi⋅ p⋅k 48 24
  • 25. 14/01/2013 Matrice des variances-covariances W: (r ) ij 1≤i ≤ n 1≤ j ≤ m =R W = R' R où R’ est la transposée de R. • Maximiser u’Wu revient à maximiser u’R’Ru sous la condition u’u=1, c’est-à-dire déterminer les vecteurs propres associés aux valeurs propres de la matrice R’R. 49 Variabilité totale du nuage B(I): • On appelle la variabilité totale du nuage B(I), la trace de la matrice W: VB = tr (W ) = ∑ v jj j • On parle aussi de la variabilité totale du nuage projeté C(I) qui sera Vc=λmax 50 25
  • 26. 14/01/2013 Variabilité expliquée du nuage B(I): • La partie de variabilité expliquée par la projection de B(I), sur u est alors: Vc δ= VB • Soit encore: λmax δ= tr (W ) 51 Projection du nuage B(I) sur un plan: • Comme en ACP, les vecteurs propres de W s’appellent « axes factoriels » du nuage. • La détermination des axes factoriels se fait en diagonalisant la matrice symétrique W. • En pratique, on se contente des valeurs propres les plus grands. 52 26
  • 27. 14/01/2013 Recherche des facteurs: • Les points du nuage C(I) possèdent un nombre réduit de coordonnées dans le référentiel formé les axes factoriels. • Ces coordonnées sont les valeurs de nouvelles variables qui s’appellent: Facteurs. • Le premier facteur correspond aux coordonnées sur le premier axe factoriel. 53 Recherche des facteurs: • On peut démontrer que les facteurs sont non- corrélés entre eux et s’expriment comme combinaisons linéaires des données. • Réciproquement, les données ont des coefficients qui sont des combinaisons linéaires des facteurs. • Ainsi, à partir des facteurs, il est possible de reconstruire un tableau de données avec une minime perte d’information, c’est-à-dire obtenir un tableau plus facilement accessible à l’analyse descriptive. 54 27
  • 28. 14/01/2013 Proximité en IRm et en IRn: • On a vu précédemment les proximités entre n points de IRm. • Par des calculs symétriques, on peut étudier les proximités de m points de IRn. • Sauf qu’il existe des relations entre les facteurs de IRm et les facteurs de IRn. • Il est alors possible de représenter, sur le même graphique, dans le plan des deux premiers axes factoriels, les proximités entre les individus et les proximités entre les caractères. • Cette simultanéité de représentation suggère parfois une interprétation économique, sociale, politique,…des axes factoriels. 55 Inconvénients et avantages de l’AFC • Les inconvénients sont les défauts de toute analyse factorielle: déformation inévitable du nuage durant la projection et la signification ou interprétation des axes. • L’avantage essentiel réside dans l’étude des caractères qualitatifs. 56 28