Dans ce document , je vous parle des dataframes qui, sont des listes particulières dont les composantes sont de même longueur, mais les modes peuvent être différents. C’est l’objet privilégié en analyse des données statistiques.
Bidirectional Encoder Representations from Transformers
R FOR DATA ANALYSIS_DATAFRAMES1.pptx
1. ANALYSE DE
DONNEES AVEC R
PRÉSENTÉ PAR :
MR ABDOULAYE WAKHAB DIOP
TEL : +221776175420 / EMAIL : WAKHABDIOP@YAHOO.FR
1
2. Chapitre III : Les Dataframes en R
Qu’est ce qu’un dataframe en R ?
Les dataframes sont des listes particulières dont les composantes sont de même longueur, mais les modes
peuvent être différents. C’est l’objet privilégié en analyse des données statistiques.
Pour créer un dataframe , on utilise les fonctions :
data.frame qui permet de concaténer des vecteurs de même taille et éventuellement de modes différents;
read.table qui permet d’importer un tableau de données provenant d’un fichier externe(csv, txt, etc.)
as.data.frame pour la conversion explicite d’un objet à deux dimensions(comme une matrice)
Comment accéder aux éléments d’un dataframe?
En plus des techniques vues précédemment , nous pouvons utiliser ici une fonction très pratique appelée
subst ()
Comment ajouter ou transformer des colonnes ?
En plus des techniques vues précédemment , nous pouvons utiliser ici une fonction très pratique appelée
transform ()
2
3. Chapitre III : Les Dataframes en R
Quelques fonctions utiles pour la manipulation
head () pour obtenir un aperçu/résumé(il affiche les six premières lignes)
tail () affiche les six dernières lignes
summary () qui donne les éléments statistiques de base
aggregate () qui permet de calculer des statistiques descriptives tels que le minimum , la moyenne et la médiane d’une
variable pour un sous ensemble (regroupement )d’individu d’un de données. On écrit :
aggregate(formula, data, FUN, ...)
Ou formula est une formule de type y~x , ou y est la variable d'intérêt x le facteur de découpage , data est le jeu de données
auquel appartient x et y et Fun le nom de la fonction à utiliser pour les calculs.
Pour faire du comptage , on peut utiliser la fonction table ()
Pour renommer des lignes et des colonnes , on peut utiliser la fonction names ()
Pour ordonner les lignes , on utilise : order ()
Pour empiler les données , on utilise : stack () , fréquemment utiliser dans R pour préparer les données avant de les fournir à
d’autres fonctions (graphiques)
3
4. Chapitre III : Les Dataframes en R
Sources de données
Importer
•Les tableaux de données peuvent être stockés dans un fichier texte délimité.
•Vous pouvez importer ces fichiers sous la forme d’un dataframe via la fonction read.table.
•Il faut être vigilant dans le choix des arguments lors de l’importation pour ne pas se retrouver avec un résultat non souhaité ou pire,
une erreur.
•La fonction summary nous permet d’avoir un aperçu global d’un dataframe et des différents types de chaque colonne, après
importation.
•Pour un fichier texte , on utilise :
data1 <- read.table(" fichier1.txt", sep=";", row.names=1, header=TRUE)
data1
Pour un fichier csv , on a :
data2 <- read.table("fichier2.csv", sep=";", header=TRUE, dec="," , row.names=1)
data2
ou bien
data3 = read.csv(file.choose() , header=T, sep=‘;’ )
Attention dans tous ces deux cas , on suppose que le fichier se trouve dans le répertoire courant sous R. Dans le cas on va soit:
Redéfinir le répertoire courant
Definir le chemin brut d'accès au fichier
4
5. Chapitre III : Les Dataframes en R
Sources de données
Exporter
Le format texte est le format recommandé pour communiquer les résultats après l analyse, mais il est tout a fait possible de
sauvegarder le tout dans un format propre à R .
Un résultat se présente la plupart du temps sous la forme d’un tableau et nous allons donc exporter celui-ci. L’exportation du
tableau est très simple :
write.table(tableau,"monfichier.csv",sep=";",row.names=FALSE)
Ainsi, pour exporter sans nom de lignes ou de colonnes ni guillemets et avec un séparateur tabulation, nous utilisons :
write.table (ozoneR,"montableau.txt",row.names=F,col.names=F,quote=F,sep='t’)
5