L'AFC pour les nulsMise à jour du 16 août 2010Rémi Bachelet  La version à jour de ce cours d’analyse factorielle des composantes est disponiblehttp://rb.ec-lille.frCette formation est également enregistrée en vidéoSource des images indiquées au-dessousCours distribué sous licenceCreative Commons, selon les conditions suivantes :
Rémi BACHELET – Ecole Centrale de Lille2Comment utiliser ce cours :Mettre les diapos en format plein écran en cliquant surFaire défiler l’animation en cliquant sur les diapositives(attention : cliquer sur une image ou un lien ouvre la page web correspondante)
Objectifs du cours d’Analyse Factorielle des Correspondances Méthode développée notamment par Jean-Paul Benzécri(1970+)Comprendre les fondements de l’Analyse Factorielle des CorrespondancesSavoir quel est le processus de calcul et ses logiquesPouvoir expliquer le mapping produit par une AFCÉgalement :Connaître quelques logiciels d’administration d’enquêtes et de traitement de donnéesAvoir des éléments de comparaison AFC – ACP (ACP = Analyse en Composantes Principales).
Chapitre 1/4Principes de l’AFC et données d’entréesPrincipe général de l’AFCExemples :Les limites des représentations graphiques intuitivesComment donner du sens aux informations
Principe général de l’analyse factorielle des correspondances (AFC)« L’analyse factorielle traite des tableaux de nombres.Elle remplace un tableau de nombres difficile à analyser par une série de tableaux plus simples qui sont une bonne approximation de celui-ci » Ces tableaux sont « simples », car ils sont exprimables sous forme de graphiques Pourquoi « des correspondances » ?Pourquoi « factorielle » ? Il s’agit de décomposer le tableau original en une somme de tableaux/matrices qui sont chacun le produit de facteurs simples. Autrement dit, on les « met en facteurs »Principale source d’informations, et de l’exemple utilisé pour ce cours : Que sais-je ?  « L' analyse factorielle » - N°2095, Philippe CIBOIS, ed. PUF, épuisé, extrait disponible en ligne
Exemple : que deviennent les bacheliers ?destinationuniversitéclasses prépaautrestotalA132520BDD'202830CE105520FGH712230total501040100100Stats MEN 1975 - 1975 204 489 lycéens
Une représentation graphique intuitive
Exemple : quels souhaits d’orientation ?
.. Pas toujours suffisante :
Comment donner du sens à ces donnéesIdée : ce qui est intéressant, c’est de mettre en évidence ce qui est inattendu dans ces répartitionsInattendu = en quoi on dévie d’une répartition uniformeOn va donc :Évaluer ce que serait une situation d’uniformité, d’indépendance Calculer en quoi la situation constatée en diffèreExprimer cette différence graphiquement pour pouvoir l’analyserInterpréter le mapping obtenu …et en optimiser la lisibilité
Chapitre 2/4Première opérations sur les matricesMatrice « T » des données d’entréeMatrice R des écarts à l’indépendanceMise en facteur d’une matriceExprimer « simplement » R
Matrice « T » des données d’entréedestinationuniversitéclasses prépaautrestotalA132520BDD'202830CE105520FGH712230total501040100100Ce tableau est aussi une matrice, appellons-la « T »Quelle matrice aurait-on si la répartition dans les filières post-Bac ne dépendait pas du type de Bac ?
82101/ S’il y avait situation d’indépendance… 2010 = 50 * 20%(produit matriciel /100 puisqu’on raisonne en %)12315 308210 2012315 30401050On reconstitue la matrice à partir de ses margesAppellons cette matrice « T0 »
2/La matrice des écarts à l’indépendance estT – T0 = R-=Quelle est la particularité de R ?
3/Comment exprimer simplement R?On décompose la matrice des écarts à l’indépendance en une somme de matrices.. R = T1 + T2.. Chacune de ces matrices étant mise en facteur (le produit d’un vecteur ligne et d’un vecteur colonne). T1 = C1L1(une matrice dont la plus petite dimension est N « rang N » est décomposable au maximum en N matrices pouvant se mettre en facteurs  … ici T = T0 + T1 + T2). T est de rang 3, mais R est de rang 2….
Produit matriciel : exemple
Mise en facteur d’une matrice: exempleT=CLOn met en facteur T comme le produit d’une matrice colonne C par une matrice ligne LT (2X2)C (1X2)L (2X1)Attention les règles de présentation du produit matricielne sont pas bien respectées dans nos diaposDe plus, la multiplication des matrices n'est pas commutative (LC  CL)
R = T1 +T2 = C1L1 +C2L2+=Attention le sens de multiplication écrit ici est LC au lieu de CL
Chapitre 3/4D’une matrice à une présentation graphiqueProduction et interprétation du mapping Vecteurs colonne et vecteurs ligneProduit scalaire
3/ bisComment représenter graphiquement la décomposition ?Un vecteur colonne (resp. ligne) correspond à une modalité des données en colonnes (resp. lignes)Un axe unidimensionnel + un axe unidimensionnel = un repère
Un vecteur colonne correspond à une modalité des données en colonnes+=
Un vecteur colonne correspond à une modalité des données en colonnes
Un axe unidimensionnel + un axe unidimensionnel = un repère11ACE12BDD’Univ.CPGE2-1CEBDD’A-4-2FGH12UnivAut.1-1CPGE-2-1AutresFGH
4/Que veut dire ce mapping ?Conjonction : Produit scalaire positifLes Bac CE ont une affinité pour la prépaOpposition Produit scalaire négatifLes Bacs A ne vont pas vers les « autres » (IUT, BTS)QuadratureProduit scalaire nulLes bacs A ne vont ni plus ni moins vers les prépas que la moyenne des bacheliersCEAPrépaAutres
Chapitre 4/4Optimisation de la factorisationLe Chi-2 (2) comme métriqueDegrés de liberté Retour aux applications Analyse de mappings
5/Mais ….. Quelle est la meilleure décomposition possible pour R ?En effet R = T1 + T2… mais il existe aussiR = T’1 + T’2 = T’’1 + T’’2 …Quel est le critère (la métrique) qui permet de définir les meilleurs T1 et T2?Pour une matrice de rang n, on cherche d’abord à trouver la meilleure T1,, puis la meilleure T2de telle manière à ce que le premier axe soit celui qui exprime le plus de sens..
La métrique que nous cherchons, c’est le Chi-2 (2)Le 2  représente l’écart à l’indépendanceor cette indépendance, est exprimée par T0… l’écart à l’indépendance peut donc se mesurer comme l’écart à T0À partir de la matrice des données pour chaque cellule de T1 et T2, on calculeL’écart avec la cellule correspondante de T0au carré (d’où le « 2 » du 2)On divise par l’effectif théorique de cette cellule (on parle de 2 pondéré)Le 2 de la matriceest la somme de toutes les « contributions au 2 » de ses cellulesLe pourcentage des contributions de T1 et T2 par rapport au 2 de R donne les contributions relatives de T1 et T2 au 2  de T
Note sur le 2 : ses degrés de liberté2 (R) = 2 (T1) + 2 (T2)2491 = 1998 + 493Attention à considérer le 2 en proportion de la richesse en information le la matrice = de son nombre de ddl.À  partir des distributions marginales on peut obtenir plusieurs matrices Tn, mais pour chaque ligne et chaque colonne, la dernière “case” est imposée par la contrainte du total marginalDéfinition :On appelle degré de liberté par ligne (ddll) le nombre de colonnes (de modalités) diminué de 1. On appelle degré de liberté par colonne (ddlc) le nombre de lignes (de modalités) diminué de 1.Le degré de liberté du khi-deux de la matrice est le produit ddll x ddlc = ddl.Pour une matrice donnée, le 2 à prendre en compte est en fait 2 / ddlhttp://brassens.upmf-grenoble.fr/IMSS/MathSHS/SHS1/Stat1/Diapo/COURS9_fichiers/frame.htm
Matrice T1  maximisant le 2dans notre cas2 (R) = 2 (T1) + 2 (T2)2491 = 1998 + 493100% = 80.2% + 19.8%Cette ‘concentration’ de ce que l’on appelle le pourcentage de la variance expliquée par un axe est particulièrement intéressante lorsque la taille du tableau de données augmente…2 (R) = 2 (T1) + 2 (T2) + 2 (T3) + 2 (T4) ..Pourquoi ? On ne peut que représenter que deux axes à la fois sur un mapping … autant représenter les plus significatifs.
On obtient alors ce nouveau mapping.. Autre option configurable : ici, la taille des points est proportionnelle à l’effectif qu’ils représententPour relativiser leur importance, les axes sont dilatés proportionnellement au 2qu’ils expriment …Attention aux conséquences de ce choix, notamment la perte de la visibilité d’une quadrature …
Application : quels souhaits d’options?
Mapping des choix de filière / géniePremiers choix de génie / filière des 147 G2 en 2003
C’était les deux premiers axes = 62% de la variance expliquée On peut aussi regarder l’axe 3.. = 18%
Conclusion Mise en œuvre logicielle Sphinx, SPSS, SASGénéralisation de l’AFCComparaison avec l’Analyse en Composantes Principales (ACP)Généralisation de l’AFCPour approfondir
Mise en œuvre logicielle de l’AFC : Sphinx
Mise en œuvre logicielle : SPSS
Mise en œuvre logicielle : SAS
Généralisations de l’AFCLes ‘catégories’ des questionnaires sont souvent mutuellement exclusives :Sexe : H ou FPolitique : gauche, centre, droiteTableau disjonctifAux croisements de plus de deux caractéristiques : Analyse des Composantes Multiples (ACM)Bac X Orientation X sexe Tableau de Burt
Autre méthode d’analyse de données proche : l’Analyse en Composantes Principales ACPAFCMétriquesCatégoriellesDonnéesT = T1 + T2 + T3T - T0 = T1 + T2Décomposition22pondéréMétriqueAttention, le poids des cellules à faible effectif est renforcé
Rapports entre ACP et AFCSi on a des données permettant de faire une AFC, peut-on y appliquer une ACP ?NonSi on a des données permettant de faire une ACP, peut-on y appliquer un AFC ?Oui !.. Mais alors ?.. Alors on traite les données numériques, les nombres comme des catégories Si par exemple on travaille sur des notes, 18/20 n’est plus « supérieur à » 10/20, il n’est pas non plus « plus proche » de 16/20 que de 10/20.
Effet particulier lorsque l’on traite des LikertQue voit-on sur une AFC s’il existe une relation linéaire entre deux Likert corrélées, comme par exemple  Q1 Aimez-vous les mathématiques (beaucoup/assez/un peu/pas du tout)Q2 Avez-vous de bonnes notes en mathématiques (très bonnes/bonnes/moyennes/mauvaises)Les points du mapping suivent une parabole (c’est l'effet Guttman)Pour en savoir plus Approches simples : raresSite web de Philippe Cibois, professeur émérite de sociologie texte d’où est tiré l’exemple développé dans ce coursTrideux : logiciel libre de dépouillement d'enquêteAnalyse factorielle des correspondances dans Wikipédia Leçon Analyse factorielle des correspondances du CNAMPlus complexe : de nombreuses références"Statistique textuelle" de Lebart et Salem,  Chapitre 3…
Autres cours de méthodologie:Explorer ou vérifier ? Deux catégories d’approchesÉventails des démarches de recueil de donnéesConception de questionnairesTechniques d’entretien et reformulationValidité et Fiabilité des donnéesMesurer, tester des hypothèses
Merci de votre attention !
Rémi BACHELET Enseignant-chercheur,    Ecole Centrale de Lille Mon CV est disponible http://rb.ec-lille.frMes principaux cours à CentraleGestion de projet, sociologie des organisations, recueil, analyse et traitement de données, prévention du plagiat, module de marchés financiers, cours de qualité et méthodes de résolution de problèmes, établir des cartes conceptuelles, utiliser Wikipédia et CentraleWiki, formation au coaching pédagogique et à l'encadrement
Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afc

Analyse factorielle des_correspondances-afc

  • 1.
    L'AFC pour lesnulsMise à jour du 16 août 2010Rémi Bachelet La version à jour de ce cours d’analyse factorielle des composantes est disponiblehttp://rb.ec-lille.frCette formation est également enregistrée en vidéoSource des images indiquées au-dessousCours distribué sous licenceCreative Commons, selon les conditions suivantes :
  • 2.
    Rémi BACHELET –Ecole Centrale de Lille2Comment utiliser ce cours :Mettre les diapos en format plein écran en cliquant surFaire défiler l’animation en cliquant sur les diapositives(attention : cliquer sur une image ou un lien ouvre la page web correspondante)
  • 3.
    Objectifs du coursd’Analyse Factorielle des Correspondances Méthode développée notamment par Jean-Paul Benzécri(1970+)Comprendre les fondements de l’Analyse Factorielle des CorrespondancesSavoir quel est le processus de calcul et ses logiquesPouvoir expliquer le mapping produit par une AFCÉgalement :Connaître quelques logiciels d’administration d’enquêtes et de traitement de donnéesAvoir des éléments de comparaison AFC – ACP (ACP = Analyse en Composantes Principales).
  • 4.
    Chapitre 1/4Principes del’AFC et données d’entréesPrincipe général de l’AFCExemples :Les limites des représentations graphiques intuitivesComment donner du sens aux informations
  • 5.
    Principe général del’analyse factorielle des correspondances (AFC)« L’analyse factorielle traite des tableaux de nombres.Elle remplace un tableau de nombres difficile à analyser par une série de tableaux plus simples qui sont une bonne approximation de celui-ci » Ces tableaux sont « simples », car ils sont exprimables sous forme de graphiques Pourquoi « des correspondances » ?Pourquoi « factorielle » ? Il s’agit de décomposer le tableau original en une somme de tableaux/matrices qui sont chacun le produit de facteurs simples. Autrement dit, on les « met en facteurs »Principale source d’informations, et de l’exemple utilisé pour ce cours : Que sais-je ? « L' analyse factorielle » - N°2095, Philippe CIBOIS, ed. PUF, épuisé, extrait disponible en ligne
  • 6.
    Exemple : quedeviennent les bacheliers ?destinationuniversitéclasses prépaautrestotalA132520BDD'202830CE105520FGH712230total501040100100Stats MEN 1975 - 1975 204 489 lycéens
  • 7.
  • 8.
    Exemple : quelssouhaits d’orientation ?
  • 9.
    .. Pas toujourssuffisante :
  • 10.
    Comment donner dusens à ces donnéesIdée : ce qui est intéressant, c’est de mettre en évidence ce qui est inattendu dans ces répartitionsInattendu = en quoi on dévie d’une répartition uniformeOn va donc :Évaluer ce que serait une situation d’uniformité, d’indépendance Calculer en quoi la situation constatée en diffèreExprimer cette différence graphiquement pour pouvoir l’analyserInterpréter le mapping obtenu …et en optimiser la lisibilité
  • 11.
    Chapitre 2/4Première opérationssur les matricesMatrice « T » des données d’entréeMatrice R des écarts à l’indépendanceMise en facteur d’une matriceExprimer « simplement » R
  • 12.
    Matrice « T » desdonnées d’entréedestinationuniversitéclasses prépaautrestotalA132520BDD'202830CE105520FGH712230total501040100100Ce tableau est aussi une matrice, appellons-la « T »Quelle matrice aurait-on si la répartition dans les filières post-Bac ne dépendait pas du type de Bac ?
  • 13.
    82101/ S’il yavait situation d’indépendance… 2010 = 50 * 20%(produit matriciel /100 puisqu’on raisonne en %)12315 308210 2012315 30401050On reconstitue la matrice à partir de ses margesAppellons cette matrice « T0 »
  • 14.
    2/La matrice desécarts à l’indépendance estT – T0 = R-=Quelle est la particularité de R ?
  • 15.
    3/Comment exprimer simplementR?On décompose la matrice des écarts à l’indépendance en une somme de matrices.. R = T1 + T2.. Chacune de ces matrices étant mise en facteur (le produit d’un vecteur ligne et d’un vecteur colonne). T1 = C1L1(une matrice dont la plus petite dimension est N « rang N » est décomposable au maximum en N matrices pouvant se mettre en facteurs … ici T = T0 + T1 + T2). T est de rang 3, mais R est de rang 2….
  • 16.
  • 17.
    Mise en facteurd’une matrice: exempleT=CLOn met en facteur T comme le produit d’une matrice colonne C par une matrice ligne LT (2X2)C (1X2)L (2X1)Attention les règles de présentation du produit matricielne sont pas bien respectées dans nos diaposDe plus, la multiplication des matrices n'est pas commutative (LC  CL)
  • 18.
    R = T1+T2 = C1L1 +C2L2+=Attention le sens de multiplication écrit ici est LC au lieu de CL
  • 19.
    Chapitre 3/4D’une matriceà une présentation graphiqueProduction et interprétation du mapping Vecteurs colonne et vecteurs ligneProduit scalaire
  • 20.
    3/ bisComment représentergraphiquement la décomposition ?Un vecteur colonne (resp. ligne) correspond à une modalité des données en colonnes (resp. lignes)Un axe unidimensionnel + un axe unidimensionnel = un repère
  • 21.
    Un vecteur colonnecorrespond à une modalité des données en colonnes+=
  • 22.
    Un vecteur colonnecorrespond à une modalité des données en colonnes
  • 23.
    Un axe unidimensionnel+ un axe unidimensionnel = un repère11ACE12BDD’Univ.CPGE2-1CEBDD’A-4-2FGH12UnivAut.1-1CPGE-2-1AutresFGH
  • 24.
    4/Que veut direce mapping ?Conjonction : Produit scalaire positifLes Bac CE ont une affinité pour la prépaOpposition Produit scalaire négatifLes Bacs A ne vont pas vers les « autres » (IUT, BTS)QuadratureProduit scalaire nulLes bacs A ne vont ni plus ni moins vers les prépas que la moyenne des bacheliersCEAPrépaAutres
  • 25.
    Chapitre 4/4Optimisation dela factorisationLe Chi-2 (2) comme métriqueDegrés de liberté Retour aux applications Analyse de mappings
  • 26.
    5/Mais ….. Quelleest la meilleure décomposition possible pour R ?En effet R = T1 + T2… mais il existe aussiR = T’1 + T’2 = T’’1 + T’’2 …Quel est le critère (la métrique) qui permet de définir les meilleurs T1 et T2?Pour une matrice de rang n, on cherche d’abord à trouver la meilleure T1,, puis la meilleure T2de telle manière à ce que le premier axe soit celui qui exprime le plus de sens..
  • 27.
    La métrique quenous cherchons, c’est le Chi-2 (2)Le 2 représente l’écart à l’indépendanceor cette indépendance, est exprimée par T0… l’écart à l’indépendance peut donc se mesurer comme l’écart à T0À partir de la matrice des données pour chaque cellule de T1 et T2, on calculeL’écart avec la cellule correspondante de T0au carré (d’où le « 2 » du 2)On divise par l’effectif théorique de cette cellule (on parle de 2 pondéré)Le 2 de la matriceest la somme de toutes les « contributions au 2 » de ses cellulesLe pourcentage des contributions de T1 et T2 par rapport au 2 de R donne les contributions relatives de T1 et T2 au 2 de T
  • 28.
    Note sur le2 : ses degrés de liberté2 (R) = 2 (T1) + 2 (T2)2491 = 1998 + 493Attention à considérer le 2 en proportion de la richesse en information le la matrice = de son nombre de ddl.À partir des distributions marginales on peut obtenir plusieurs matrices Tn, mais pour chaque ligne et chaque colonne, la dernière “case” est imposée par la contrainte du total marginalDéfinition :On appelle degré de liberté par ligne (ddll) le nombre de colonnes (de modalités) diminué de 1. On appelle degré de liberté par colonne (ddlc) le nombre de lignes (de modalités) diminué de 1.Le degré de liberté du khi-deux de la matrice est le produit ddll x ddlc = ddl.Pour une matrice donnée, le 2 à prendre en compte est en fait 2 / ddlhttp://brassens.upmf-grenoble.fr/IMSS/MathSHS/SHS1/Stat1/Diapo/COURS9_fichiers/frame.htm
  • 29.
    Matrice T1 maximisant le 2dans notre cas2 (R) = 2 (T1) + 2 (T2)2491 = 1998 + 493100% = 80.2% + 19.8%Cette ‘concentration’ de ce que l’on appelle le pourcentage de la variance expliquée par un axe est particulièrement intéressante lorsque la taille du tableau de données augmente…2 (R) = 2 (T1) + 2 (T2) + 2 (T3) + 2 (T4) ..Pourquoi ? On ne peut que représenter que deux axes à la fois sur un mapping … autant représenter les plus significatifs.
  • 30.
    On obtient alorsce nouveau mapping.. Autre option configurable : ici, la taille des points est proportionnelle à l’effectif qu’ils représententPour relativiser leur importance, les axes sont dilatés proportionnellement au 2qu’ils expriment …Attention aux conséquences de ce choix, notamment la perte de la visibilité d’une quadrature …
  • 31.
    Application : quelssouhaits d’options?
  • 32.
    Mapping des choixde filière / géniePremiers choix de génie / filière des 147 G2 en 2003
  • 33.
    C’était les deuxpremiers axes = 62% de la variance expliquée On peut aussi regarder l’axe 3.. = 18%
  • 34.
    Conclusion Mise enœuvre logicielle Sphinx, SPSS, SASGénéralisation de l’AFCComparaison avec l’Analyse en Composantes Principales (ACP)Généralisation de l’AFCPour approfondir
  • 35.
    Mise en œuvrelogicielle de l’AFC : Sphinx
  • 36.
    Mise en œuvrelogicielle : SPSS
  • 37.
    Mise en œuvrelogicielle : SAS
  • 38.
    Généralisations de l’AFCLes‘catégories’ des questionnaires sont souvent mutuellement exclusives :Sexe : H ou FPolitique : gauche, centre, droiteTableau disjonctifAux croisements de plus de deux caractéristiques : Analyse des Composantes Multiples (ACM)Bac X Orientation X sexe Tableau de Burt
  • 39.
    Autre méthode d’analysede données proche : l’Analyse en Composantes Principales ACPAFCMétriquesCatégoriellesDonnéesT = T1 + T2 + T3T - T0 = T1 + T2Décomposition22pondéréMétriqueAttention, le poids des cellules à faible effectif est renforcé
  • 40.
    Rapports entre ACPet AFCSi on a des données permettant de faire une AFC, peut-on y appliquer une ACP ?NonSi on a des données permettant de faire une ACP, peut-on y appliquer un AFC ?Oui !.. Mais alors ?.. Alors on traite les données numériques, les nombres comme des catégories Si par exemple on travaille sur des notes, 18/20 n’est plus « supérieur à » 10/20, il n’est pas non plus « plus proche » de 16/20 que de 10/20.
  • 41.
    Effet particulier lorsquel’on traite des LikertQue voit-on sur une AFC s’il existe une relation linéaire entre deux Likert corrélées, comme par exemple Q1 Aimez-vous les mathématiques (beaucoup/assez/un peu/pas du tout)Q2 Avez-vous de bonnes notes en mathématiques (très bonnes/bonnes/moyennes/mauvaises)Les points du mapping suivent une parabole (c’est l'effet Guttman)Pour en savoir plus Approches simples : raresSite web de Philippe Cibois, professeur émérite de sociologie texte d’où est tiré l’exemple développé dans ce coursTrideux : logiciel libre de dépouillement d'enquêteAnalyse factorielle des correspondances dans Wikipédia Leçon Analyse factorielle des correspondances du CNAMPlus complexe : de nombreuses références"Statistique textuelle" de Lebart et Salem, Chapitre 3…
  • 42.
    Autres cours deméthodologie:Explorer ou vérifier ? Deux catégories d’approchesÉventails des démarches de recueil de donnéesConception de questionnairesTechniques d’entretien et reformulationValidité et Fiabilité des donnéesMesurer, tester des hypothèses
  • 43.
    Merci de votreattention !
  • 44.
    Rémi BACHELET Enseignant-chercheur,    EcoleCentrale de Lille Mon CV est disponible http://rb.ec-lille.frMes principaux cours à CentraleGestion de projet, sociologie des organisations, recueil, analyse et traitement de données, prévention du plagiat, module de marchés financiers, cours de qualité et méthodes de résolution de problèmes, établir des cartes conceptuelles, utiliser Wikipédia et CentraleWiki, formation au coaching pédagogique et à l'encadrement