SlideShare une entreprise Scribd logo
1-Introduction :
ce TP est sur les logiciels statistiques qui incluent des méthodes statistiques multivariées telles que
l'Analyse en Composantes Principales (ACP), l'Analyse Factorielle (AF) et l'Analyse Factorielle Multiple
(AFM). Ces méthodes sont utilisées pour réduire les dimensions de données multidimensionnelles et
extraire des variables latentes à partir d'un ensemble de variables observées. Elles sont couramment
utilisées en recherche, en sciences sociales et dans de nombreux autres domaines pour explorer les
relations entre les variables.
2-Les logiciels utilisés:
Dans ce TP, nous explorerons six logiciels statistiques qui incluent ces méthodes: R, SAS, SPSS, Python,
IBM SPSS Amos, et JMP. Nous commencerons par une brève description de chaque méthode, suivi d'une
présentation de chaque logiciel et des instructions d'installation. Nous allons également voir comment
importer les données, effectuer des analyses et interpréter les résultats.. Ensuite, nous examinerons
chaque logiciel statistique en détail, en explorant les différentes fonctionnalités et modules disponibles
pour l'ACP, l'AF et l'AFM.
3-Objectif:
A la fin de ce TP l’etudiant sera familiariser avec les différentes méthodes et logiciels disponibles pour
l'analyse de données multivariées. En acquérant une connaissance pratique de ces méthodes et outils,
vous serez mieux capable pour analyser des données complexes dans votre propre recherche et travail.
L’objectif du TP
Les méthodes statistiques multivariées :
R:
R est un langage de programmation gratuit et open-source pour le calcul statistique et la
visualisation de données. Il possède plusieurs packages pour implémentention de l'ACP, l'AF
et l'AFM, y compris "FactoMineR", "psych" et "MFAg".
R et RStudio sont deux logiciels différents, mais liés entre eux. R peut être utilisé en ligne de
commande ou avec IDE, RStudio est un choix populaire pour les utilisateurs de R car il
facilite l'écriture, l'exécution et la gestion du code R, ainsi que l'analyse et la visualisation des
données.
Rstudio: est un environnement de développement intégré (IDE) pour R. Il fournit une interface
utilisateur graphique conviviale pour travailler avec R
R & Rstudio :
Voici les étapes d'installation pour les logiciels R et RStudio :
Installation de R :
1.Accédez au site web officiel de R : https://cran.r-project.org/
2.Choisissez la version de R appropriée pour votre système d'exploitation (Windows, Mac, …).
2.Cliquez sur Download R for windows si vous êtes sur Windows.
3. Cliquez sur base ou install R for the first time.
3. Cliquez sur Download R-4.2…. for Windows
4. Ouvrez le fichier d'installation téléchargé et suivez les instructions à l'écran pour installer
R sur votre ordinateur
Installation de RStudio :
1.Accédez au site web officiel de RStudio : https://www.rstudio.com/products/rstudio/download/
2.Cliquez Download RStudio Desktop for windows.
3.Ouvrez le fichier d'installation téléchargé et suivez les instructions à l'écran pour installer
RStudio sur votre ordinateur.
4.Lorsque l'installation est terminée, lancez RStudio.
5.RStudio devrait automatiquement détecter l'installation de R sur votre ordinateur et s'y
connecter.
Les packages R utilisés:
l existe plusieurs packages R qui peuvent être utilisés pour effectuer une analyse en composantes
principales (ACP).
Voici quelques exemples de packages couramment utilisés pour l'ACP:
• stats : Ce package est inclus dans l'installation de base de R et contient des fonctions pour l'analyse
de données statistiques, y compris l'ACP.
• FactoMineR : Ce package fournit une gamme d'outils pour l'analyse de données multidimensionnelles,
y compris l'ACP, l'analyse factorielle des correspondances et l'analyse factorielle multiple.
• ade4 : Ce package fournit des fonctions pour l'analyse de données multivariées, y compris l'ACP et
l'analyse canonique des corrélations.
• psych : Ce package fournit une gamme de fonctions pour l'analyse psychométrique, y compris l'ACP
et l'analyse factorielle exploratoire.
• PCAmixdata : Ce package fournit des fonctions pour l'analyse en composantes principales mixte, qui
est utilisée pour traiter des données contenant à la fois des variables quantitatives et qualitatives.
Analyse en composante principales sur R
Installation des packages R
Pour installer un package dans R :
1. vous pouvez utiliser directement la fonction install.packages(“nom de package”) dans R. Par
exemple, pour installer le package FactoMineR, vous pouvez exécuter la commande suivante dans
R : install.packages("FactoMineR") ,
2. Cliquer entrer et selectionner une Miror
3. Cliquer ok
Vous pouvez egalement installer un package dans RStudio, en suivant ces étapes :
1. Ouvrir Rstudio => Cliquez sur l'onglet "Packages" dans le panneau en bas à droite => Cliquez
sur le bouton "Installer"Dans la boîte de dialogue => Saisissez le nom du package que vous
souhaitez installer dans le champ "Packages". Vous pouvez également sélectionner plusieurs
packages en séparant leurs noms par une virgule.. Vous pouvez également choisir d'installer à partir d'un
fichier local si vous avez déjà téléchargé le package. => Cliquez sur le bouton "Installer" pour
démarrer le processus d'installation.
Application numérique (Examen Add 2023 ESGEN)
Compte tenu de l'attention croissante portée à la qualité de l'éducation, le classement des universités
est devenu un indicateur important de la qualité institutionnelle. Afin de classifier les 05 écoles
nationales supérieures du pôle universitaire Koléa, on a adopté un classement selon des variables,
Ci-dessous les principales variables.
Articles : Nombre
d'articles publiés
Citations : Nombre de Citations. Enseignement : l'environnement
d'apprentissage %
Nbr.Etud : Nombre
d'étudiants.
Innovation : Le développement
technologique et Innovation %.
Ratio : Ratio professeurs /
étudiants.
Avis : Avis du recruteur Webometrics :la présence des universités sur le web, (la taille des
Websites, la richesse des fichiers et la visibilité sur 100).
Les résultats sont comme suit :
Articles Citations Enseignement Innovation Nbr.Etud Ratio Avis Webometrics
ESGEN 5 5 27.5 5.00% 1000 4% 90.00% 11
ESC 13 11 11.2 1.00% 1500 4% 50.00% 6
EHEC 6 5 12.3 2.00% 1100 15% 50.00% 25
ENSSEA 14 13 5 2.00% 1600 3% 60.00% 12
ENSM 5 7 11 1.50% 1000 15% 60.00% 24
ci-dessous un code qui permet d’effectuer une analyse ACP dans RStudio à l'aide du package
FactoMineR, y compris les étapes d’importation des données à partir d'un fichier Excel, créer
une data-frame de données et générer des graphiques pour aider à analyser les résultats.
# Install required packages
install.packages("devtools")
install.packages("FactoMineR")
install.packages("readxl")
# Load required libraries
library(FactoMineR)
library(readxl)
# Import data from Excel
my_data <- read_excel("path/to/my/data.xlsx")
# Create a data frame
my_df <- data.frame(my_data)
# Check summary of the data
summary(my_df)
# Perform PCA analysis
pca_res <- PCA(my_df, graph = FALSE)
# Generate scree plot
fviz_screeplot(pca_res, addlabels = TRUE)
# Generate biplot
fviz_pca_biplot(pca_res, col.var = "contrib", repel = TRUE)
Explication du code (ligne par ligne)
# Install required packages
install.packages("devtools")
install.packages("FactoMineR")
install.packages("readxl")
Ce code RStudio installe trois packages R à l'aide de la fonction install.packages(). Les packages
qui seront installés sont devtools, FactoMineR et readxl.
 Devtools: est un package qui fournit un ensemble d'outils pour le développement et l'installation
de packages R. En installant devtools, l'utilisateur accède à un ensemble de fonctions qui
simplifient le processus d'installation et de gestion des packages R.
 FactoMineR est un package d'analyse de données multivariées qui contient un plusieurs
méthodes, telles que l’ACP, l’AFC, la classifixation ..etc.
 Readxl: est un package permettant d'importer des données Excel dans R.
Explication du code (ligne par ligne)
# Load required libraries
library(FactoMineR)
library(readxl)
La fonction library() est utilisée pour charger les bibliothèques R dans la session R en
cours, rendant leurs fonctions et objets disponibles pour l’utilisation dans le code R.
Ce code RStudio permet de lire les données d'un fichier Excel et les stocké dans une
variable appelée my_data. La fonction utilisée pour lire le fichier Excel est read_excel()
du package readxl.
L'argument dans fonction read_excel() est le chemin d'accès au fichier Excel. Dans ce
cas, il est spécifié comme "path/to/my/data.xlsx". Vous devez remplacer ce chemin de
fichier par le chemin de fichier réel de votre propre fichier Excel.
Une fois la fonction read_excel() est exécutée avec l'argument de chemin de fichier
approprié, les données du fichier Excel sont importés dans R et stockées dans la
variable my_data.
# Import data from Excel
my_data <- read_excel("path/to/my/data.xlsx")
Explication du code (ligne par ligne)
La fonction data.frame() est utilisée pour créer une nouvelle trame de données dans R. Cette
fonction prend en entrée un ou plusieurs vecteurs ou matrices de données, et renvoie un nouvel
objet de trame de données avec ces éléments de données disposés en colonnes.
Dans ce cas, my_data est une matrice ou un ensemble de données qui a été précédemment
défini ou chargé dans l'environnement R. La fonction data.frame() est utilisée pour créer un
nouvel objet de bloc de données appelé my_df qui contient les mêmes éléments de données
que my_data, mais organisés en colonnes dans un bloc de données.
# Create a data frame
my_df <- data.frame(my_data)
Explication du code (ligne par ligne)
# Check summary of the data
summary(my_df)
Ce code RStudio génère un résumé des données dans la trame de données appelée
my_df. La fonction summary() est une fonction R intégrée qui fournit un résumé rapide
de la distribution des données, y compris les valeurs minimales et maximales, la
médiane, les quartiles, la moyenne et l'écart type pour chaque colonne du bloc de
données.
La fonction summary() est souvent utilisée au début du processus d'analyse des
données pour avoir une idée rapide des données , cela nous permettra de choisir
entre une ACP normé ou centré.
Explication du code (ligne par ligne)
# Perform PCA analysis
pca_res <- PCA(my_df, graph = FALSE)
La fonction PCA est appelée, qui est une fonction du package "FactoMineR", utilisée pour effectuer une
analyse en composantes principales sur les données.
Le premier argument de la fonction PCA est "my_df", qui est la trame de données en cours d'analyse.
Le deuxième argument est "graph = FALSE", qui est un argument facultatif qui spécifie s'il faut ou non
créer une sortie graphique de la PCA. Dans ce cas, il est défini sur "FALSE", ce qui signifie qu'aucune
sortie graphique ne sera produite.
Le résultat de l'analyse PCA est enregistré dans une variable nommée "pca_res". Cette variable
contiendra des informations sur les principales composantes extraites des données, ainsi que d'autres
informations liées à l'analyse ACP.
Explication du code (ligne par ligne)
# Generate scree plot
fviz_screeplot(pca_res, addlabels = TRUE)
fviz_screeplot : il s'agit de la fonction utilisée pour générer le scree plot. Il fait partie du
package FactoMineR et nécessite deux entrées : l'objet de résultat PCA (pca_res
dans ce cas) et s'il faut ou non ajouter des étiquettes au tracé (addlabels = TRUE).
pca_res : il s'agit de l'objet de résultat PCA généré à l'aide de la fonction PCA() du
package FactoMineR. Il contient les résultats de l'analyse PCA, tels que les valeurs
propres, les chargements et les scores.
addlabels = TRUE : ce paramètre indique à la fonction fviz_screeplot d'ajouter des
étiquettes au tracé d'éboulis, qui affichera le pourcentage de variance expliqué par
chaque composant principal (ou facteur).
le scree plot permet de visualiser la proportion de variance expliquée par chaque
composante principale (ou facteur) dans l'analyse PCA. qui aide le lettrage à
déterminer le nombre de composantes principales à retenir dans l'analyse
Explication du code (ligne par ligne)
# Generate biplot
fviz_pca_biplot(pca_res, col.var = "contrib", repel = TRUE)
fviz_pca_biplot : il s'agit d'une fonction du package FactoMineR qui crée un biplot d'un
résultat PCA.
pca_res : il s'agit de l'objet de résultat PCA obtenu lors de l'exécution d'une analyse
PCA sur certaines données.
col.var = "contrib": Cet argument spécifie que les couleurs des variables dans le biplot
doivent être basées sur leur contribution aux composantes principales.
repel = TRUE : cet argument spécifie que les étiquettes de variable dans le biplot
doivent être repoussées les unes des autres pour éviter les chevauchements.
Dans l'ensemble, la fonction fviz_pca_biplot prend l'objet de résultat PCA et produit un
biplot qui montre les relations entre les variables et les composants principaux. Les
couleurs des variables indiquent leur contribution aux composantes principales et les
étiquettes des variables sont positionnées de manière à minimiser le chevauchement.
write a code to perform Factorial Analysis in Rstudio using
the package FactoMineR , show how importing the data
using read excel , creating a data frame, summary of the
data, and generating graphs that helps to analyse results ,
and explain the code line by line
# Load required packages
library(FactoMineR)
library(readxl)
library(ggplot2)
# Import data from Excel file
data <- read_excel("path/to/file.xlsx")
# Create a data frame
df <- data.frame(data)
# Summary of the data summary(df)
# Perform Factorial Analysis
fa_res <- FactoMineR::PCA(df, graph = FALSE)
# Plot Scree plot ggplot(fa_res$eig, aes(x=dim, y=eigenvalue)) +
geom_bar(stat="identity", fill="steelblue") + geom_line(aes(x=dim,
y=cumulative)) + labs(title="Scree Plot", x="Dimension",
y="Eigenvalue/Cumulative Variance")
# Generate biplot
fviz_pca_biplot(fa_res, col.var = "contrib", repel = TRUE)

Contenu connexe

Similaire à Cours 01.pptx

Data Mining (Partie 2).pdf
Data Mining (Partie 2).pdfData Mining (Partie 2).pdf
Data Mining (Partie 2).pdf
OuailChoukhairi
 
PPT2_Introduction traitement donnees SPSS_PNIN_Niger.pptx
PPT2_Introduction traitement donnees SPSS_PNIN_Niger.pptxPPT2_Introduction traitement donnees SPSS_PNIN_Niger.pptx
PPT2_Introduction traitement donnees SPSS_PNIN_Niger.pptx
imphouda
 

Similaire à Cours 01.pptx (20)

Guide cspro tapé
Guide cspro tapéGuide cspro tapé
Guide cspro tapé
 
X-Analysis Professional - FR
X-Analysis Professional - FRX-Analysis Professional - FR
X-Analysis Professional - FR
 
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesData mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
 
Analyse statistique sur DOTA
Analyse statistique sur DOTAAnalyse statistique sur DOTA
Analyse statistique sur DOTA
 
Présentation de la plateforme Android
Présentation de la plateforme AndroidPrésentation de la plateforme Android
Présentation de la plateforme Android
 
Data Mining (Partie 2).pdf
Data Mining (Partie 2).pdfData Mining (Partie 2).pdf
Data Mining (Partie 2).pdf
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICS
 
Stratégie et veille : Extraire et trier des données en ligne
Stratégie et veille : Extraire et trier des données en ligneStratégie et veille : Extraire et trier des données en ligne
Stratégie et veille : Extraire et trier des données en ligne
 
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliothequeEcole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
 
Performance et optimisation de PrestaShop
Performance et optimisation de PrestaShopPerformance et optimisation de PrestaShop
Performance et optimisation de PrestaShop
 
Salesforce Einstein analytics - Formation sur les-bases - By iMalka
Salesforce Einstein analytics - Formation sur les-bases - By iMalkaSalesforce Einstein analytics - Formation sur les-bases - By iMalka
Salesforce Einstein analytics - Formation sur les-bases - By iMalka
 
Asd
AsdAsd
Asd
 
Ktab asd
Ktab asdKtab asd
Ktab asd
 
Catalogue Analyse Ritme
Catalogue Analyse Ritme  Catalogue Analyse Ritme
Catalogue Analyse Ritme
 
PPT2_Introduction traitement donnees SPSS_PNIN_Niger.pptx
PPT2_Introduction traitement donnees SPSS_PNIN_Niger.pptxPPT2_Introduction traitement donnees SPSS_PNIN_Niger.pptx
PPT2_Introduction traitement donnees SPSS_PNIN_Niger.pptx
 
Gardez vos projets R organisés avec le package "project"
Gardez vos projets R organisés avec le package "project"Gardez vos projets R organisés avec le package "project"
Gardez vos projets R organisés avec le package "project"
 
CV_Bilel CHAOUADI
CV_Bilel CHAOUADICV_Bilel CHAOUADI
CV_Bilel CHAOUADI
 
R Devtools
R DevtoolsR Devtools
R Devtools
 
00_intro_PrincipRelatConceptOracle.pdf
00_intro_PrincipRelatConceptOracle.pdf00_intro_PrincipRelatConceptOracle.pdf
00_intro_PrincipRelatConceptOracle.pdf
 
Nettoyer et préparer des données avec OpenRefine
Nettoyer et préparer des données avec OpenRefineNettoyer et préparer des données avec OpenRefine
Nettoyer et préparer des données avec OpenRefine
 

Cours 01.pptx

  • 1.
  • 2. 1-Introduction : ce TP est sur les logiciels statistiques qui incluent des méthodes statistiques multivariées telles que l'Analyse en Composantes Principales (ACP), l'Analyse Factorielle (AF) et l'Analyse Factorielle Multiple (AFM). Ces méthodes sont utilisées pour réduire les dimensions de données multidimensionnelles et extraire des variables latentes à partir d'un ensemble de variables observées. Elles sont couramment utilisées en recherche, en sciences sociales et dans de nombreux autres domaines pour explorer les relations entre les variables. 2-Les logiciels utilisés: Dans ce TP, nous explorerons six logiciels statistiques qui incluent ces méthodes: R, SAS, SPSS, Python, IBM SPSS Amos, et JMP. Nous commencerons par une brève description de chaque méthode, suivi d'une présentation de chaque logiciel et des instructions d'installation. Nous allons également voir comment importer les données, effectuer des analyses et interpréter les résultats.. Ensuite, nous examinerons chaque logiciel statistique en détail, en explorant les différentes fonctionnalités et modules disponibles pour l'ACP, l'AF et l'AFM. 3-Objectif: A la fin de ce TP l’etudiant sera familiariser avec les différentes méthodes et logiciels disponibles pour l'analyse de données multivariées. En acquérant une connaissance pratique de ces méthodes et outils, vous serez mieux capable pour analyser des données complexes dans votre propre recherche et travail.
  • 3. L’objectif du TP Les méthodes statistiques multivariées :
  • 4. R: R est un langage de programmation gratuit et open-source pour le calcul statistique et la visualisation de données. Il possède plusieurs packages pour implémentention de l'ACP, l'AF et l'AFM, y compris "FactoMineR", "psych" et "MFAg". R et RStudio sont deux logiciels différents, mais liés entre eux. R peut être utilisé en ligne de commande ou avec IDE, RStudio est un choix populaire pour les utilisateurs de R car il facilite l'écriture, l'exécution et la gestion du code R, ainsi que l'analyse et la visualisation des données. Rstudio: est un environnement de développement intégré (IDE) pour R. Il fournit une interface utilisateur graphique conviviale pour travailler avec R R & Rstudio :
  • 5. Voici les étapes d'installation pour les logiciels R et RStudio : Installation de R : 1.Accédez au site web officiel de R : https://cran.r-project.org/ 2.Choisissez la version de R appropriée pour votre système d'exploitation (Windows, Mac, …). 2.Cliquez sur Download R for windows si vous êtes sur Windows.
  • 6. 3. Cliquez sur base ou install R for the first time.
  • 7. 3. Cliquez sur Download R-4.2…. for Windows 4. Ouvrez le fichier d'installation téléchargé et suivez les instructions à l'écran pour installer R sur votre ordinateur
  • 8. Installation de RStudio : 1.Accédez au site web officiel de RStudio : https://www.rstudio.com/products/rstudio/download/ 2.Cliquez Download RStudio Desktop for windows. 3.Ouvrez le fichier d'installation téléchargé et suivez les instructions à l'écran pour installer RStudio sur votre ordinateur. 4.Lorsque l'installation est terminée, lancez RStudio. 5.RStudio devrait automatiquement détecter l'installation de R sur votre ordinateur et s'y connecter.
  • 9.
  • 10. Les packages R utilisés: l existe plusieurs packages R qui peuvent être utilisés pour effectuer une analyse en composantes principales (ACP). Voici quelques exemples de packages couramment utilisés pour l'ACP: • stats : Ce package est inclus dans l'installation de base de R et contient des fonctions pour l'analyse de données statistiques, y compris l'ACP. • FactoMineR : Ce package fournit une gamme d'outils pour l'analyse de données multidimensionnelles, y compris l'ACP, l'analyse factorielle des correspondances et l'analyse factorielle multiple. • ade4 : Ce package fournit des fonctions pour l'analyse de données multivariées, y compris l'ACP et l'analyse canonique des corrélations. • psych : Ce package fournit une gamme de fonctions pour l'analyse psychométrique, y compris l'ACP et l'analyse factorielle exploratoire. • PCAmixdata : Ce package fournit des fonctions pour l'analyse en composantes principales mixte, qui est utilisée pour traiter des données contenant à la fois des variables quantitatives et qualitatives. Analyse en composante principales sur R
  • 11. Installation des packages R Pour installer un package dans R : 1. vous pouvez utiliser directement la fonction install.packages(“nom de package”) dans R. Par exemple, pour installer le package FactoMineR, vous pouvez exécuter la commande suivante dans R : install.packages("FactoMineR") , 2. Cliquer entrer et selectionner une Miror 3. Cliquer ok
  • 12. Vous pouvez egalement installer un package dans RStudio, en suivant ces étapes : 1. Ouvrir Rstudio => Cliquez sur l'onglet "Packages" dans le panneau en bas à droite => Cliquez sur le bouton "Installer"Dans la boîte de dialogue => Saisissez le nom du package que vous souhaitez installer dans le champ "Packages". Vous pouvez également sélectionner plusieurs packages en séparant leurs noms par une virgule.. Vous pouvez également choisir d'installer à partir d'un fichier local si vous avez déjà téléchargé le package. => Cliquez sur le bouton "Installer" pour démarrer le processus d'installation.
  • 13. Application numérique (Examen Add 2023 ESGEN) Compte tenu de l'attention croissante portée à la qualité de l'éducation, le classement des universités est devenu un indicateur important de la qualité institutionnelle. Afin de classifier les 05 écoles nationales supérieures du pôle universitaire Koléa, on a adopté un classement selon des variables, Ci-dessous les principales variables. Articles : Nombre d'articles publiés Citations : Nombre de Citations. Enseignement : l'environnement d'apprentissage % Nbr.Etud : Nombre d'étudiants. Innovation : Le développement technologique et Innovation %. Ratio : Ratio professeurs / étudiants. Avis : Avis du recruteur Webometrics :la présence des universités sur le web, (la taille des Websites, la richesse des fichiers et la visibilité sur 100). Les résultats sont comme suit : Articles Citations Enseignement Innovation Nbr.Etud Ratio Avis Webometrics ESGEN 5 5 27.5 5.00% 1000 4% 90.00% 11 ESC 13 11 11.2 1.00% 1500 4% 50.00% 6 EHEC 6 5 12.3 2.00% 1100 15% 50.00% 25 ENSSEA 14 13 5 2.00% 1600 3% 60.00% 12 ENSM 5 7 11 1.50% 1000 15% 60.00% 24
  • 14. ci-dessous un code qui permet d’effectuer une analyse ACP dans RStudio à l'aide du package FactoMineR, y compris les étapes d’importation des données à partir d'un fichier Excel, créer une data-frame de données et générer des graphiques pour aider à analyser les résultats. # Install required packages install.packages("devtools") install.packages("FactoMineR") install.packages("readxl") # Load required libraries library(FactoMineR) library(readxl) # Import data from Excel my_data <- read_excel("path/to/my/data.xlsx") # Create a data frame my_df <- data.frame(my_data) # Check summary of the data summary(my_df) # Perform PCA analysis pca_res <- PCA(my_df, graph = FALSE) # Generate scree plot fviz_screeplot(pca_res, addlabels = TRUE) # Generate biplot fviz_pca_biplot(pca_res, col.var = "contrib", repel = TRUE)
  • 15. Explication du code (ligne par ligne) # Install required packages install.packages("devtools") install.packages("FactoMineR") install.packages("readxl") Ce code RStudio installe trois packages R à l'aide de la fonction install.packages(). Les packages qui seront installés sont devtools, FactoMineR et readxl.  Devtools: est un package qui fournit un ensemble d'outils pour le développement et l'installation de packages R. En installant devtools, l'utilisateur accède à un ensemble de fonctions qui simplifient le processus d'installation et de gestion des packages R.  FactoMineR est un package d'analyse de données multivariées qui contient un plusieurs méthodes, telles que l’ACP, l’AFC, la classifixation ..etc.  Readxl: est un package permettant d'importer des données Excel dans R.
  • 16. Explication du code (ligne par ligne) # Load required libraries library(FactoMineR) library(readxl) La fonction library() est utilisée pour charger les bibliothèques R dans la session R en cours, rendant leurs fonctions et objets disponibles pour l’utilisation dans le code R. Ce code RStudio permet de lire les données d'un fichier Excel et les stocké dans une variable appelée my_data. La fonction utilisée pour lire le fichier Excel est read_excel() du package readxl. L'argument dans fonction read_excel() est le chemin d'accès au fichier Excel. Dans ce cas, il est spécifié comme "path/to/my/data.xlsx". Vous devez remplacer ce chemin de fichier par le chemin de fichier réel de votre propre fichier Excel. Une fois la fonction read_excel() est exécutée avec l'argument de chemin de fichier approprié, les données du fichier Excel sont importés dans R et stockées dans la variable my_data. # Import data from Excel my_data <- read_excel("path/to/my/data.xlsx")
  • 17. Explication du code (ligne par ligne) La fonction data.frame() est utilisée pour créer une nouvelle trame de données dans R. Cette fonction prend en entrée un ou plusieurs vecteurs ou matrices de données, et renvoie un nouvel objet de trame de données avec ces éléments de données disposés en colonnes. Dans ce cas, my_data est une matrice ou un ensemble de données qui a été précédemment défini ou chargé dans l'environnement R. La fonction data.frame() est utilisée pour créer un nouvel objet de bloc de données appelé my_df qui contient les mêmes éléments de données que my_data, mais organisés en colonnes dans un bloc de données. # Create a data frame my_df <- data.frame(my_data)
  • 18. Explication du code (ligne par ligne) # Check summary of the data summary(my_df) Ce code RStudio génère un résumé des données dans la trame de données appelée my_df. La fonction summary() est une fonction R intégrée qui fournit un résumé rapide de la distribution des données, y compris les valeurs minimales et maximales, la médiane, les quartiles, la moyenne et l'écart type pour chaque colonne du bloc de données. La fonction summary() est souvent utilisée au début du processus d'analyse des données pour avoir une idée rapide des données , cela nous permettra de choisir entre une ACP normé ou centré.
  • 19. Explication du code (ligne par ligne) # Perform PCA analysis pca_res <- PCA(my_df, graph = FALSE) La fonction PCA est appelée, qui est une fonction du package "FactoMineR", utilisée pour effectuer une analyse en composantes principales sur les données. Le premier argument de la fonction PCA est "my_df", qui est la trame de données en cours d'analyse. Le deuxième argument est "graph = FALSE", qui est un argument facultatif qui spécifie s'il faut ou non créer une sortie graphique de la PCA. Dans ce cas, il est défini sur "FALSE", ce qui signifie qu'aucune sortie graphique ne sera produite. Le résultat de l'analyse PCA est enregistré dans une variable nommée "pca_res". Cette variable contiendra des informations sur les principales composantes extraites des données, ainsi que d'autres informations liées à l'analyse ACP.
  • 20. Explication du code (ligne par ligne) # Generate scree plot fviz_screeplot(pca_res, addlabels = TRUE) fviz_screeplot : il s'agit de la fonction utilisée pour générer le scree plot. Il fait partie du package FactoMineR et nécessite deux entrées : l'objet de résultat PCA (pca_res dans ce cas) et s'il faut ou non ajouter des étiquettes au tracé (addlabels = TRUE). pca_res : il s'agit de l'objet de résultat PCA généré à l'aide de la fonction PCA() du package FactoMineR. Il contient les résultats de l'analyse PCA, tels que les valeurs propres, les chargements et les scores. addlabels = TRUE : ce paramètre indique à la fonction fviz_screeplot d'ajouter des étiquettes au tracé d'éboulis, qui affichera le pourcentage de variance expliqué par chaque composant principal (ou facteur). le scree plot permet de visualiser la proportion de variance expliquée par chaque composante principale (ou facteur) dans l'analyse PCA. qui aide le lettrage à déterminer le nombre de composantes principales à retenir dans l'analyse
  • 21. Explication du code (ligne par ligne) # Generate biplot fviz_pca_biplot(pca_res, col.var = "contrib", repel = TRUE) fviz_pca_biplot : il s'agit d'une fonction du package FactoMineR qui crée un biplot d'un résultat PCA. pca_res : il s'agit de l'objet de résultat PCA obtenu lors de l'exécution d'une analyse PCA sur certaines données. col.var = "contrib": Cet argument spécifie que les couleurs des variables dans le biplot doivent être basées sur leur contribution aux composantes principales. repel = TRUE : cet argument spécifie que les étiquettes de variable dans le biplot doivent être repoussées les unes des autres pour éviter les chevauchements. Dans l'ensemble, la fonction fviz_pca_biplot prend l'objet de résultat PCA et produit un biplot qui montre les relations entre les variables et les composants principaux. Les couleurs des variables indiquent leur contribution aux composantes principales et les étiquettes des variables sont positionnées de manière à minimiser le chevauchement.
  • 22. write a code to perform Factorial Analysis in Rstudio using the package FactoMineR , show how importing the data using read excel , creating a data frame, summary of the data, and generating graphs that helps to analyse results , and explain the code line by line
  • 23. # Load required packages library(FactoMineR) library(readxl) library(ggplot2) # Import data from Excel file data <- read_excel("path/to/file.xlsx") # Create a data frame df <- data.frame(data) # Summary of the data summary(df) # Perform Factorial Analysis fa_res <- FactoMineR::PCA(df, graph = FALSE) # Plot Scree plot ggplot(fa_res$eig, aes(x=dim, y=eigenvalue)) + geom_bar(stat="identity", fill="steelblue") + geom_line(aes(x=dim, y=cumulative)) + labs(title="Scree Plot", x="Dimension", y="Eigenvalue/Cumulative Variance") # Generate biplot fviz_pca_biplot(fa_res, col.var = "contrib", repel = TRUE)