1-Introduction :
ce TP est sur les logiciels statistiques qui incluent des méthodes statistiques multivariées telles que
l'Analyse en Composantes Principales (ACP), l'Analyse Factorielle (AF) et l'Analyse Factorielle Multiple
(AFM). Ces méthodes sont utilisées pour réduire les dimensions de données multidimensionnelles et
extraire des variables latentes à partir d'un ensemble de variables observées. Elles sont couramment
utilisées en recherche, en sciences sociales et dans de nombreux autres domaines pour explorer les
relations entre les variables.
2-Les logiciels utilisés:
Dans ce TP, nous explorerons six logiciels statistiques qui incluent ces méthodes: R, SAS, SPSS, Python,
IBM SPSS Amos, et JMP. Nous commencerons par une brève description de chaque méthode, suivi d'une
présentation de chaque logiciel et des instructions d'installation. Nous allons également voir comment
importer les données, effectuer des analyses et interpréter les résultats.. Ensuite, nous examinerons
chaque logiciel statistique en détail, en explorant les différentes fonctionnalités et modules disponibles
pour l'ACP, l'AF et l'AFM.
3-Objectif:
A la fin de ce TP l’etudiant sera familiariser avec les différentes méthodes et logiciels disponibles pour
l'analyse de données multivariées. En acquérant une connaissance pratique de ces méthodes et outils,
vous serez mieux capable pour analyser des données complexes dans votre propre recherche et travail.
R:
R est un langage de programmation gratuit et open-source pour le calcul statistique et la
visualisation de données. Il possède plusieurs packages pour implémentention de l'ACP, l'AF
et l'AFM, y compris "FactoMineR", "psych" et "MFAg".
R et RStudio sont deux logiciels différents, mais liés entre eux. R peut être utilisé en ligne de
commande ou avec IDE, RStudio est un choix populaire pour les utilisateurs de R car il
facilite l'écriture, l'exécution et la gestion du code R, ainsi que l'analyse et la visualisation des
données.
Rstudio: est un environnement de développement intégré (IDE) pour R. Il fournit une interface
utilisateur graphique conviviale pour travailler avec R
R & Rstudio :
Voici les étapes d'installation pour les logiciels R et RStudio :
Installation de R :
1.Accédez au site web officiel de R : https://cran.r-project.org/
2.Choisissez la version de R appropriée pour votre système d'exploitation (Windows, Mac, …).
2.Cliquez sur Download R for windows si vous êtes sur Windows.
3. Cliquez sur Download R-4.2…. for Windows
4. Ouvrez le fichier d'installation téléchargé et suivez les instructions à l'écran pour installer
R sur votre ordinateur
Installation de RStudio :
1.Accédez au site web officiel de RStudio : https://www.rstudio.com/products/rstudio/download/
2.Cliquez Download RStudio Desktop for windows.
3.Ouvrez le fichier d'installation téléchargé et suivez les instructions à l'écran pour installer
RStudio sur votre ordinateur.
4.Lorsque l'installation est terminée, lancez RStudio.
5.RStudio devrait automatiquement détecter l'installation de R sur votre ordinateur et s'y
connecter.
Les packages R utilisés:
l existe plusieurs packages R qui peuvent être utilisés pour effectuer une analyse en composantes
principales (ACP).
Voici quelques exemples de packages couramment utilisés pour l'ACP:
• stats : Ce package est inclus dans l'installation de base de R et contient des fonctions pour l'analyse
de données statistiques, y compris l'ACP.
• FactoMineR : Ce package fournit une gamme d'outils pour l'analyse de données multidimensionnelles,
y compris l'ACP, l'analyse factorielle des correspondances et l'analyse factorielle multiple.
• ade4 : Ce package fournit des fonctions pour l'analyse de données multivariées, y compris l'ACP et
l'analyse canonique des corrélations.
• psych : Ce package fournit une gamme de fonctions pour l'analyse psychométrique, y compris l'ACP
et l'analyse factorielle exploratoire.
• PCAmixdata : Ce package fournit des fonctions pour l'analyse en composantes principales mixte, qui
est utilisée pour traiter des données contenant à la fois des variables quantitatives et qualitatives.
Analyse en composante principales sur R
Installation des packages R
Pour installer un package dans R :
1. vous pouvez utiliser directement la fonction install.packages(“nom de package”) dans R. Par
exemple, pour installer le package FactoMineR, vous pouvez exécuter la commande suivante dans
R : install.packages("FactoMineR") ,
2. Cliquer entrer et selectionner une Miror
3. Cliquer ok
Vous pouvez egalement installer un package dans RStudio, en suivant ces étapes :
1. Ouvrir Rstudio => Cliquez sur l'onglet "Packages" dans le panneau en bas à droite => Cliquez
sur le bouton "Installer"Dans la boîte de dialogue => Saisissez le nom du package que vous
souhaitez installer dans le champ "Packages". Vous pouvez également sélectionner plusieurs
packages en séparant leurs noms par une virgule.. Vous pouvez également choisir d'installer à partir d'un
fichier local si vous avez déjà téléchargé le package. => Cliquez sur le bouton "Installer" pour
démarrer le processus d'installation.
Application numérique (Examen Add 2023 ESGEN)
Compte tenu de l'attention croissante portée à la qualité de l'éducation, le classement des universités
est devenu un indicateur important de la qualité institutionnelle. Afin de classifier les 05 écoles
nationales supérieures du pôle universitaire Koléa, on a adopté un classement selon des variables,
Ci-dessous les principales variables.
Articles : Nombre
d'articles publiés
Citations : Nombre de Citations. Enseignement : l'environnement
d'apprentissage %
Nbr.Etud : Nombre
d'étudiants.
Innovation : Le développement
technologique et Innovation %.
Ratio : Ratio professeurs /
étudiants.
Avis : Avis du recruteur Webometrics :la présence des universités sur le web, (la taille des
Websites, la richesse des fichiers et la visibilité sur 100).
Les résultats sont comme suit :
Articles Citations Enseignement Innovation Nbr.Etud Ratio Avis Webometrics
ESGEN 5 5 27.5 5.00% 1000 4% 90.00% 11
ESC 13 11 11.2 1.00% 1500 4% 50.00% 6
EHEC 6 5 12.3 2.00% 1100 15% 50.00% 25
ENSSEA 14 13 5 2.00% 1600 3% 60.00% 12
ENSM 5 7 11 1.50% 1000 15% 60.00% 24
ci-dessous un code qui permet d’effectuer une analyse ACP dans RStudio à l'aide du package
FactoMineR, y compris les étapes d’importation des données à partir d'un fichier Excel, créer
une data-frame de données et générer des graphiques pour aider à analyser les résultats.
# Install required packages
install.packages("devtools")
install.packages("FactoMineR")
install.packages("readxl")
# Load required libraries
library(FactoMineR)
library(readxl)
# Import data from Excel
my_data <- read_excel("path/to/my/data.xlsx")
# Create a data frame
my_df <- data.frame(my_data)
# Check summary of the data
summary(my_df)
# Perform PCA analysis
pca_res <- PCA(my_df, graph = FALSE)
# Generate scree plot
fviz_screeplot(pca_res, addlabels = TRUE)
# Generate biplot
fviz_pca_biplot(pca_res, col.var = "contrib", repel = TRUE)
Explication du code (ligne par ligne)
# Install required packages
install.packages("devtools")
install.packages("FactoMineR")
install.packages("readxl")
Ce code RStudio installe trois packages R à l'aide de la fonction install.packages(). Les packages
qui seront installés sont devtools, FactoMineR et readxl.
Devtools: est un package qui fournit un ensemble d'outils pour le développement et l'installation
de packages R. En installant devtools, l'utilisateur accède à un ensemble de fonctions qui
simplifient le processus d'installation et de gestion des packages R.
FactoMineR est un package d'analyse de données multivariées qui contient un plusieurs
méthodes, telles que l’ACP, l’AFC, la classifixation ..etc.
Readxl: est un package permettant d'importer des données Excel dans R.
Explication du code (ligne par ligne)
# Load required libraries
library(FactoMineR)
library(readxl)
La fonction library() est utilisée pour charger les bibliothèques R dans la session R en
cours, rendant leurs fonctions et objets disponibles pour l’utilisation dans le code R.
Ce code RStudio permet de lire les données d'un fichier Excel et les stocké dans une
variable appelée my_data. La fonction utilisée pour lire le fichier Excel est read_excel()
du package readxl.
L'argument dans fonction read_excel() est le chemin d'accès au fichier Excel. Dans ce
cas, il est spécifié comme "path/to/my/data.xlsx". Vous devez remplacer ce chemin de
fichier par le chemin de fichier réel de votre propre fichier Excel.
Une fois la fonction read_excel() est exécutée avec l'argument de chemin de fichier
approprié, les données du fichier Excel sont importés dans R et stockées dans la
variable my_data.
# Import data from Excel
my_data <- read_excel("path/to/my/data.xlsx")
Explication du code (ligne par ligne)
La fonction data.frame() est utilisée pour créer une nouvelle trame de données dans R. Cette
fonction prend en entrée un ou plusieurs vecteurs ou matrices de données, et renvoie un nouvel
objet de trame de données avec ces éléments de données disposés en colonnes.
Dans ce cas, my_data est une matrice ou un ensemble de données qui a été précédemment
défini ou chargé dans l'environnement R. La fonction data.frame() est utilisée pour créer un
nouvel objet de bloc de données appelé my_df qui contient les mêmes éléments de données
que my_data, mais organisés en colonnes dans un bloc de données.
# Create a data frame
my_df <- data.frame(my_data)
Explication du code (ligne par ligne)
# Check summary of the data
summary(my_df)
Ce code RStudio génère un résumé des données dans la trame de données appelée
my_df. La fonction summary() est une fonction R intégrée qui fournit un résumé rapide
de la distribution des données, y compris les valeurs minimales et maximales, la
médiane, les quartiles, la moyenne et l'écart type pour chaque colonne du bloc de
données.
La fonction summary() est souvent utilisée au début du processus d'analyse des
données pour avoir une idée rapide des données , cela nous permettra de choisir
entre une ACP normé ou centré.
Explication du code (ligne par ligne)
# Perform PCA analysis
pca_res <- PCA(my_df, graph = FALSE)
La fonction PCA est appelée, qui est une fonction du package "FactoMineR", utilisée pour effectuer une
analyse en composantes principales sur les données.
Le premier argument de la fonction PCA est "my_df", qui est la trame de données en cours d'analyse.
Le deuxième argument est "graph = FALSE", qui est un argument facultatif qui spécifie s'il faut ou non
créer une sortie graphique de la PCA. Dans ce cas, il est défini sur "FALSE", ce qui signifie qu'aucune
sortie graphique ne sera produite.
Le résultat de l'analyse PCA est enregistré dans une variable nommée "pca_res". Cette variable
contiendra des informations sur les principales composantes extraites des données, ainsi que d'autres
informations liées à l'analyse ACP.
Explication du code (ligne par ligne)
# Generate scree plot
fviz_screeplot(pca_res, addlabels = TRUE)
fviz_screeplot : il s'agit de la fonction utilisée pour générer le scree plot. Il fait partie du
package FactoMineR et nécessite deux entrées : l'objet de résultat PCA (pca_res
dans ce cas) et s'il faut ou non ajouter des étiquettes au tracé (addlabels = TRUE).
pca_res : il s'agit de l'objet de résultat PCA généré à l'aide de la fonction PCA() du
package FactoMineR. Il contient les résultats de l'analyse PCA, tels que les valeurs
propres, les chargements et les scores.
addlabels = TRUE : ce paramètre indique à la fonction fviz_screeplot d'ajouter des
étiquettes au tracé d'éboulis, qui affichera le pourcentage de variance expliqué par
chaque composant principal (ou facteur).
le scree plot permet de visualiser la proportion de variance expliquée par chaque
composante principale (ou facteur) dans l'analyse PCA. qui aide le lettrage à
déterminer le nombre de composantes principales à retenir dans l'analyse
Explication du code (ligne par ligne)
# Generate biplot
fviz_pca_biplot(pca_res, col.var = "contrib", repel = TRUE)
fviz_pca_biplot : il s'agit d'une fonction du package FactoMineR qui crée un biplot d'un
résultat PCA.
pca_res : il s'agit de l'objet de résultat PCA obtenu lors de l'exécution d'une analyse
PCA sur certaines données.
col.var = "contrib": Cet argument spécifie que les couleurs des variables dans le biplot
doivent être basées sur leur contribution aux composantes principales.
repel = TRUE : cet argument spécifie que les étiquettes de variable dans le biplot
doivent être repoussées les unes des autres pour éviter les chevauchements.
Dans l'ensemble, la fonction fviz_pca_biplot prend l'objet de résultat PCA et produit un
biplot qui montre les relations entre les variables et les composants principaux. Les
couleurs des variables indiquent leur contribution aux composantes principales et les
étiquettes des variables sont positionnées de manière à minimiser le chevauchement.
write a code to perform Factorial Analysis in Rstudio using
the package FactoMineR , show how importing the data
using read excel , creating a data frame, summary of the
data, and generating graphs that helps to analyse results ,
and explain the code line by line
# Load required packages
library(FactoMineR)
library(readxl)
library(ggplot2)
# Import data from Excel file
data <- read_excel("path/to/file.xlsx")
# Create a data frame
df <- data.frame(data)
# Summary of the data summary(df)
# Perform Factorial Analysis
fa_res <- FactoMineR::PCA(df, graph = FALSE)
# Plot Scree plot ggplot(fa_res$eig, aes(x=dim, y=eigenvalue)) +
geom_bar(stat="identity", fill="steelblue") + geom_line(aes(x=dim,
y=cumulative)) + labs(title="Scree Plot", x="Dimension",
y="Eigenvalue/Cumulative Variance")
# Generate biplot
fviz_pca_biplot(fa_res, col.var = "contrib", repel = TRUE)