SlideShare une entreprise Scribd logo

Data mining - ACP Analyse en Composantes Principales

Réduction de la dimension, Diagonalisation, études des valeurs propres, centrage et réduction, techniques de choix des axes factoriels, critère de coude, critère de Kaiser, plans factoriels, carte des individus, cercle de corrélation

1  sur  21
Télécharger pour lire hors ligne
ANALYSE
FACTORIELLE
ACP
ANALYSE EN COMPOSANTES PRINCIPALES
DATA MINING
Mohamed Heny SELMI
medheny.selmi@esprit.tn
INTRODUCTION
Mapping de Rn dans Rk : avec k<=n.
Projection dans un espace 2D d'un problème a n dimensions.
Système d'axes indépendants.
Réductionde la dimensionnalité d'un problème.
Minimisation de la Perte d'information.
Décomposition en valeurs propres.
nouvel espace est une combinaison linéaire de l'espace d'origine.
Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining
MATRICE DE DONNÉES
Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining
On possède un tableau rectangulaire dont :
 les colonnes sont des variables quantitatives
(mensurations, taux,…)
 les lignes représentent des individus statistiques
(unités élémentaires telles que des êtres humains, des pays, des années…)
CENTRAGE ET RÉDUCTION
Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining
Centrer les données ne modifie pas la forme du
nuage :
c’est translater !
•On peut toujours procéder par un centrage de l’entrepôt
Réduire les données :
Indispensable si les unités de mesure sont
différentes !
• 𝒙𝒊𝒋 =
𝒙 𝒊𝒋−𝒙 𝒌
𝑺 𝒌
•Permet de comparer les valeurs prises par les variables
AJUSTEMENT DU NUAGE DE POINTS
Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining
ACP fournit une image simplifiée de N’
• La plus fidèle possible
• À travers le sous-espace qui résume le mieux les données
La qualité de l’image de N’
• Restitue fidèlement la forme générale du nuage
• Meilleur représentation de la diversité et de la variabilité
La quantification de la qualité de l’image :
Inertie totale = variance généralisée à plusieurs dimensions
Diagonalisation de données sous forme matricielle
DES DONNÉES PAYS/PROTÉINES
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining

Recommandé

Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_amanMehdi Aman
 
Analyse de-donnees-acp-afc-sous-spss
Analyse de-donnees-acp-afc-sous-spssAnalyse de-donnees-acp-afc-sous-spss
Analyse de-donnees-acp-afc-sous-spssgrandprime1
 
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Adad Med Chérif
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction généraleMohamed Heny SELMI
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Mohamed Heny SELMI
 
présentation soutenance PFE.ppt
présentation soutenance PFE.pptprésentation soutenance PFE.ppt
présentation soutenance PFE.pptMohamed Ben Bouzid
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaireBoris Guarisma
 

Contenu connexe

Tendances

Présentation projet de fin d'étude
Présentation projet de fin d'étudePrésentation projet de fin d'étude
Présentation projet de fin d'étudeDonia Hammami
 
Analyses des données par SPSS et R
Analyses  des données par  SPSS et RAnalyses  des données par  SPSS et R
Analyses des données par SPSS et RAB IR
 
Présentation de mon PFE
Présentation de mon PFEPrésentation de mon PFE
Présentation de mon PFENadir Haouari
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesJaouad Dabounou
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes PrincipalesJaouad Dabounou
 
Rapport de stage d'initiation 2015 Mahmoudi Mohamed Amine
Rapport de stage d'initiation 2015 Mahmoudi Mohamed AmineRapport de stage d'initiation 2015 Mahmoudi Mohamed Amine
Rapport de stage d'initiation 2015 Mahmoudi Mohamed AmineMohamed Amine Mahmoudi
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseAbderrahmane Filali
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisinsBoris Guarisma
 
Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)Ines Ben Kahla
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionMohamed Heny SELMI
 
Mémoire powerpoint de MOUSTAPHA Mahamat Hissein à 2ie
Mémoire powerpoint de MOUSTAPHA Mahamat Hissein à 2ie Mémoire powerpoint de MOUSTAPHA Mahamat Hissein à 2ie
Mémoire powerpoint de MOUSTAPHA Mahamat Hissein à 2ie Moustapha Mahamat Hissein
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
Intelligence Artificielle: résolution de problèmes en Prolog ou Prolog pour l...
Intelligence Artificielle: résolution de problèmes en Prolog ou Prolog pour l...Intelligence Artificielle: résolution de problèmes en Prolog ou Prolog pour l...
Intelligence Artificielle: résolution de problèmes en Prolog ou Prolog pour l...Jean Rohmer
 

Tendances (20)

Présentation projet de fin d'étude
Présentation projet de fin d'étudePrésentation projet de fin d'étude
Présentation projet de fin d'étude
 
Analyse de données avec spss,
Analyse de données avec spss,Analyse de données avec spss,
Analyse de données avec spss,
 
Analyses des données par SPSS et R
Analyses  des données par  SPSS et RAnalyses  des données par  SPSS et R
Analyses des données par SPSS et R
 
Présentation de mon PFE
Présentation de mon PFEPrésentation de mon PFE
Présentation de mon PFE
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des Correspondances
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 
Rapport de stage d'initiation 2015 Mahmoudi Mohamed Amine
Rapport de stage d'initiation 2015 Mahmoudi Mohamed AmineRapport de stage d'initiation 2015 Mahmoudi Mohamed Amine
Rapport de stage d'initiation 2015 Mahmoudi Mohamed Amine
 
Rapport Projet Fin d'Études PFE
Rapport Projet Fin d'Études PFERapport Projet Fin d'Études PFE
Rapport Projet Fin d'Études PFE
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
Présentation PFE
Présentation PFEPrésentation PFE
Présentation PFE
 
Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
Gestion de projet
Gestion de projetGestion de projet
Gestion de projet
 
Mémoire powerpoint de MOUSTAPHA Mahamat Hissein à 2ie
Mémoire powerpoint de MOUSTAPHA Mahamat Hissein à 2ie Mémoire powerpoint de MOUSTAPHA Mahamat Hissein à 2ie
Mémoire powerpoint de MOUSTAPHA Mahamat Hissein à 2ie
 
Présentation Projet de fin d'études
Présentation Projet de fin d'étudesPrésentation Projet de fin d'études
Présentation Projet de fin d'études
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Intelligence Artificielle: résolution de problèmes en Prolog ou Prolog pour l...
Intelligence Artificielle: résolution de problèmes en Prolog ou Prolog pour l...Intelligence Artificielle: résolution de problèmes en Prolog ou Prolog pour l...
Intelligence Artificielle: résolution de problèmes en Prolog ou Prolog pour l...
 

Dernier

OESTV - Intervention ICI INDUSTRIE - 15 février 2024
OESTV - Intervention ICI INDUSTRIE - 15 février 2024OESTV - Intervention ICI INDUSTRIE - 15 février 2024
OESTV - Intervention ICI INDUSTRIE - 15 février 2024OESTV
 
analyse- de basilique - saint denis pptx
analyse- de basilique - saint denis pptxanalyse- de basilique - saint denis pptx
analyse- de basilique - saint denis pptxHadJer61
 
AmTrav'Ovin - Apprentissage des agnelles à la traite.pdf
AmTrav'Ovin - Apprentissage des agnelles à la traite.pdfAmTrav'Ovin - Apprentissage des agnelles à la traite.pdf
AmTrav'Ovin - Apprentissage des agnelles à la traite.pdfInstitut de l'Elevage - Idele
 
Les Français et la lutte contre l'islamisme radical
Les Français et la lutte contre l'islamisme radicalLes Français et la lutte contre l'islamisme radical
Les Français et la lutte contre l'islamisme radicalcontact Elabe
 

Dernier (9)

2 Garcia Vélasco projet AcCT 18 oct 2023.pdf
2 Garcia Vélasco projet AcCT 18 oct 2023.pdf2 Garcia Vélasco projet AcCT 18 oct 2023.pdf
2 Garcia Vélasco projet AcCT 18 oct 2023.pdf
 
4 Sigwalt Annie saisonniers 18 octobre 2023.pdf
4 Sigwalt Annie  saisonniers 18 octobre 2023.pdf4 Sigwalt Annie  saisonniers 18 octobre 2023.pdf
4 Sigwalt Annie saisonniers 18 octobre 2023.pdf
 
OESTV - Intervention ICI INDUSTRIE - 15 février 2024
OESTV - Intervention ICI INDUSTRIE - 15 février 2024OESTV - Intervention ICI INDUSTRIE - 15 février 2024
OESTV - Intervention ICI INDUSTRIE - 15 février 2024
 
analyse- de basilique - saint denis pptx
analyse- de basilique - saint denis pptxanalyse- de basilique - saint denis pptx
analyse- de basilique - saint denis pptx
 
Travail en volière Ruch 11 mars 2024 déf.pdf
Travail en volière Ruch 11 mars 2024 déf.pdfTravail en volière Ruch 11 mars 2024 déf.pdf
Travail en volière Ruch 11 mars 2024 déf.pdf
 
1 Astié travaux station Auray 18 oct 2023.pdf
1 Astié travaux station Auray 18 oct 2023.pdf1 Astié travaux station Auray 18 oct 2023.pdf
1 Astié travaux station Auray 18 oct 2023.pdf
 
3 Bidet GRH en viticulture 18 oct 2023.pdf
3 Bidet GRH en viticulture 18 oct 2023.pdf3 Bidet GRH en viticulture 18 oct 2023.pdf
3 Bidet GRH en viticulture 18 oct 2023.pdf
 
AmTrav'Ovin - Apprentissage des agnelles à la traite.pdf
AmTrav'Ovin - Apprentissage des agnelles à la traite.pdfAmTrav'Ovin - Apprentissage des agnelles à la traite.pdf
AmTrav'Ovin - Apprentissage des agnelles à la traite.pdf
 
Les Français et la lutte contre l'islamisme radical
Les Français et la lutte contre l'islamisme radicalLes Français et la lutte contre l'islamisme radical
Les Français et la lutte contre l'islamisme radical
 

Data mining - ACP Analyse en Composantes Principales

  • 1. ANALYSE FACTORIELLE ACP ANALYSE EN COMPOSANTES PRINCIPALES DATA MINING Mohamed Heny SELMI medheny.selmi@esprit.tn
  • 2. INTRODUCTION Mapping de Rn dans Rk : avec k<=n. Projection dans un espace 2D d'un problème a n dimensions. Système d'axes indépendants. Réductionde la dimensionnalité d'un problème. Minimisation de la Perte d'information. Décomposition en valeurs propres. nouvel espace est une combinaison linéaire de l'espace d'origine. Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining
  • 3. MATRICE DE DONNÉES Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining On possède un tableau rectangulaire dont :  les colonnes sont des variables quantitatives (mensurations, taux,…)  les lignes représentent des individus statistiques (unités élémentaires telles que des êtres humains, des pays, des années…)
  • 4. CENTRAGE ET RÉDUCTION Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining Centrer les données ne modifie pas la forme du nuage : c’est translater ! •On peut toujours procéder par un centrage de l’entrepôt Réduire les données : Indispensable si les unités de mesure sont différentes ! • 𝒙𝒊𝒋 = 𝒙 𝒊𝒋−𝒙 𝒌 𝑺 𝒌 •Permet de comparer les valeurs prises par les variables
  • 5. AJUSTEMENT DU NUAGE DE POINTS Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining ACP fournit une image simplifiée de N’ • La plus fidèle possible • À travers le sous-espace qui résume le mieux les données La qualité de l’image de N’ • Restitue fidèlement la forme générale du nuage • Meilleur représentation de la diversité et de la variabilité La quantification de la qualité de l’image : Inertie totale = variance généralisée à plusieurs dimensions Diagonalisation de données sous forme matricielle
  • 6. DES DONNÉES PAYS/PROTÉINES Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 7. CHOIX DU NOMBRE D’AXES A RETENIR Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining Deux critères empiriques pour sélectionner le nombre d’axes : - Critère de Kaiser: on ne retient les axes associés à des valeurs propre supérieures à 1 - Critère du coude : sur l’évolution des valeurs propres, on observe un décrochement (coude) suivi d’une décroissance régulière.On sélectionne les axes avant le décrochement Conclusion : On peut retenir 4 axes, qui représentent presque 86% de l’inertie totale (on explique 86% de l’information du tableau)
  • 8. PROJECTION DU NUAGE DE POINTS Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining Chaque nuage de points (variables et individus) est construit en projection sur les plans factoriels un plan factoriel est un repère du plan défini par deux des q axes factoriels retenus. L’examen des plans factoriels permettra de visualiser les corrélations entre les variables et d’identifier les groupes d’individus ayant pris des valeurs proches sur certaines variables.
  • 9. PLAN FACTORIEL 1 : 1X 2 CARTE DES INDIVIDUS CERCLE DE CORRÉLATION Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining
  • 10. PLAN FACTORIEL 2 : 1X 3 CARTE DES INDIVIDUS CERCLE DE CORRÉLATION Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining Plus les variables sont proches du bord du cercle et plus les variables sont bien représentées par le plan factoriel, c'est-a-dire que la variable est bien corrélée avec les deux facteurs constituant ce plan.
  • 11. ETUDE DE PROXIMITÉ ENTRE LES POINTS Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining Regarder les graphiques et analyser plus finement les proximités entre points. Un point est dit bien représenté sur un axe ou un plan factoriel s’il est proche de sa projection sur l’axe ou le plan. S’il est éloigné, on dit qu’il est mal représenté. Indicateur = angle formé entre le point et sa projection sur l’axe : au plus il est proche de 90 degrés, au moins le point est bien représenté L’analyse se fera à l’aide des individus et variables contribuant le plus à l’axe : si une variable a une forte contribution positive à l’axe, les individus ayant une forte contribution positive à l’axe sont caractérisés par une valeur élevée de la variable.
  • 12. QUALITÉ DE REPRÉSENTATION DE S INDIVIDUS Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining  Lorsque l’angle est proche de 0, c'est-à-dire que l’individu est bien représenté, le cosinus est proche de 1.  Dans le cas inverse, l’angle est proche de 90° et le cosinus est proche de 0.
  • 13. PROXIMITÉ ENTRE LES POINTS Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining  La proximité dans l’espace entre deux individus bien représentés traduit la ressemblance de ces deux individus du point de vue des valeurs prises par les variables.  Lorsque la qualité de représentation de deux individus est bonne, leur proximité observée retrace leur proximité réelle (dans l’espace).  La proximité entre deux variables sur un axe donne, si les deux variables sont bien représentées sur l’axe ( proches de l’axe et du bord du cercle) , une approximation de leur corrélation : – Deux variables proches sont corrélées positivement – Deux variables qui s’opposent sont corrélées négativement – Deux variables orthogonales sont non corrélées.
  • 14. QUALITÉ DE REPRÉSENTATION : EXEMPLE Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining
  • 15. ÉTUDE DES POINTS BIEN REPRÉSENTÉS 1 X 2 Les pays de l'Europe du nord et de l’ouest consomment : les œufs, le lait et les viandes les Balkans ayant une importante consommation de graines Cercle de corrélationCarte des individus Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining
  • 16. Les pays de l'Europe de l’Est consomment beaucoup les noix et les céréales Les pays scandinaves consomment beaucoup le lait et la viande rouge Carte des individus Cercle de corrélation ÉTUDE DES POINTS BIEN REPRÉSENTÉS 1 X 3 Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining
  • 17. INTÉRÊTS DE L’ACP •Représentation assez fidèle des individus d’une population en 2 dimensions via de nouvelles variables Visualisation •Détection des facteurs les plus pertinents dans une dynamique observée Pertinence de Variables •Mesure du taux de dépendance entre les variables et les individus Relation V / V, I/I, ou V/I Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining
  • 18. OBJECTIFS – ÉTUDES DES INDIVIDUS Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining Typologie •Groupes d’individus homogènes Ressemblance •Du point de vue des variables Différence •Du point de vue des variables
  • 19. OBJECTIFS – ÉTUDES DES VARIABLES Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining Ressemblance •Liaisons •Liaisons Linéaires Informations •Identiques Corrélations •Comportement des variables dans l’espace
  • 20. OBJECTIFS DES DEUX ÉTUDES Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining Des classes d’individus par les variables Besoin de Procédure automatique Caractérisations Individus spécifiques / liaisons entre variables À l’aide de visualisations graphiques Compréhension  Condenser l’information de l’entrepôt de données  de manière à retirer les relations vraiment caractéristiques  en limitant la perte d’information.
  • 21. RÉSUMÉ : ETAPES DE L'ACP Mohamed Heny SELMI © ESPRIT2014-2015 Data Mining Choix du tableau X Analyse directe : Construction de l’espace factoriel du nuage de points individus associé au tableau . On garde pour l’instant les p axes factoriels Analyse duale : Construction de l’espace factoriel du nuage de points variables : elle est déduite de la première Interprétation de ces analyses : choix du nombre d’axes q à retenir, construction des nuages de points projetés sur ces axes, interprétation des axes principaux et étude des proximités entre points. Synthèse des résultats, construction éventuelle du tableau réduit (tableau des composantes principales) et visualisation des nuages de points associés.