Avec le langage R, prenez de la hauteur dans l’analyse de vos données !

Introduction
au langage R
Yi Yang

Qu’est-ce que c’est R ?
&
Pourquoi on veut
l’apprendre ?
1
Un peu d’histoire
2
Entrons dans le
monde technique
3
Son atout :
Extensibilité
4
Comparaison avec
Python
5

Qu’est-ce que c’est R ?
• Langage de programmation pour les
données
• Manipulation, analyse, représentation
graphique
• Très implanté dans la communauté
scientifique et académique
• Langage interprété => des scripts

Caractéristiques de R
• Pas de typage ni de déclaration
obligatoire de variable
• Tout est basé sur la notion de vecteur,
ce qui simplifie les calculs
mathématiques
• Programmes courts, en général
quelques lignes de code
• Temps de développement très court

Un peu
d’histoire…
Supporté par
une équipe de
développeurs
au sein du R
Project
Au début des
années 1990
proposé par
Ross Ihaka et
Robert
Gentleman
Origine : S
développé chez
Bell
Laboratories

• Affectation des variables :
• Affichage de la valeur de la variable :
• Ou, directement avec :
• Comme il n’y a pas de typage :
• Trois types de base de variable : numeric (les chiffres), character (les
caractères et les chaînes de caractères), logical (True et False)
Maintenant, un peu de technique…

Et il y a toujours des exceptions !
• NULL
• Il est de type NULL, donc n’appartient pas à aucun des trois types de base
• Sa longueur est 0
• Toutefois différent d’un objet vide :
• un objet de longueur 0 est un contenant vide :
• NULL est « pas de contenant » :
• La fonction is.null() teste si un objet est NULL ou non :

• Par défaut NA est de type logical, mais il ne peut être considéré ni
comme TRUE, ni comme FALSE
• Toute opération impliquant une donnée NA a comme résultat NA
• Sa valeur n’est égale à aucune autre, pas même elle-même :
• Par conséquent, pour tester si les éléments d’un objet sont NA ou
non il faut utiliser la fonction is.na() :
Valeurs manquantes ou indéterminées : NA

Vecteur, matrice et tableau
• Dans R, tout est basé sur la notion vecteur
• Vecteur unidimensionnel : vector
• Et si on déclare un vecteur hétérogène, R va trouver un type pouvant rendre les
types des éléments uniformes

• Vecteur bi-dimensionnelle : matrix
• On peut définir le contenu (les données), le nombre de lignes, le nombre de colonnes,
l’ordre de remplissage, et le nom de chaque dimension lors de la création de la matrice

• Vecteur pluridimensionnelle : array

Dataframe
• La plupart des cas de dimension 2
• Le plus utilisé pour stocker les données
• les éléments de chaque colonne peuvent être de types
différents

Liste
• Le mode de stockage le plus général et polyvalent
• Elle peut contenir n’importe quoi (un fourre-tout)

Structure de contrôle
• Instruction conditionnelle
• If
• Ifelse
• switch
• Boucle
• For
• While
• repeat

Fonction
Il existe pas mal de fonctions mathématiques et statistiques dans le
package {base}, mais on peut toujours définir sa propre fonction
La syntaxe de définition est :
nomFonction <- function(arguments) expression
On peut également définir la valeur défaut pour chaque argument, si
l’utilisateur ne précise pas la valeur de l’argument lors de l’appel de
fonction, la valeur défaut s’applique
Une fonction peut servir une autre fonction en tant qu’un argument
Débogage des fonctions : print()
On peut même redéfinir toutes les fonctions existantes !

Fonction Famille
apply()
• Les boucles dans R ne sont pas efficaces, il faut
utiliser les fonctions de la famille apply() à la place
• Les fonctions de cette famille consistent à appliquer
une fonction déterminée à chaque élément des
contenants de données, que ce soit un vecteur, une
matrice, un tableau, une liste ou un dataframe
• apply(X, MARGIN, FUN, ...)
• lapply(X, FUN, ...)
sapply(X, FUN, ...)
• mapply(FUN, ...)

Son atout : extensibilité
• Un package R est un
ensemble cohérent de
fonctions, de jeux de
données et de
documentation
• Site officiel de l’installation
des packages :
Comprehensive R Archive
Network (CRAN,
https://cran.r-project.org)
• Installation de packages peut
s’effectuer dans le code =>
portabilité des scripts

Manipulation de
données : tidyr & dplyr
• La plupart du temps des data analysts ou des data
scientists est consacrée au nettoyage de données
• Les packages tidyr et dplyr consistent à manipuler
les données et les rendre propres et faciles à
analyser
• Un grand avantage de ces packages : l’opération
%>% qui constitue un pipeline de traitement

Visualisation des
données : ggplot2
• Le package ggplot a été créé en 2005, avant son
disparition en 2008, la deuxième version ggplot2 a
été mise en ligne en 2007
• Un package permettant de construire les
visualisations des données couche par couche,
d’une façon très personnalisée

Création de
Web App
dynamique :
shiny
• Un package créant des applications web sans
avoir à toucher au HTML, ni au CSS (pour des
bases)
• Divise l’application en deux parties : UI
(interface utilisateur) & serveur (contrôlleur)
• Les thèmes variés applicables pour construire
son propre tableau de bord
• La galerie pour s’inspirer de cas d’utilisation :
http://shiny.rstudio.com/gallery/

Et bien sûr
• Il existe un tas de packages pour les utilités différentes, comme
machine learning, connecteur des données, digestion des
programmes des autres langages etc.
• La possibilité est infinie, à exploiter avec plaisir

Comparaison
entre R et
Python
• Points communs :
• Gratuit et Open-Source
• Né au début de 90s
• Langage interprété
• Fréquemment utilisé dans le domaine de données
• Différence ?

Différence
entre R et
Python
R PYTHON
Surtout pour les analyses statistiques Langage de programmation généraliste
Domaine de recherche &
académique
Domaine industriel
Similaire aux autres langages de
traitement des données (ex. Matlab)
Similaire (voire plus intuitif) par rapport aux
autres langages de développement
Plus fort à la manipulation & la
visualisation des données
Plus fort à la collection des données & la
construction du modèle
Période de programmation plutôt
courte
Période de programmation plutôt longue

Pipeline de traitement de données
• Deep learning
(Python) VS
Statistical learning
(R)
• R (plus de packages
disponibles,
intégré dans des
services de
visualisation)
• R (supporté par le
core, les packages
tierces sont encore
plus puissants)
• Python (plus de
possibilités, plus de
packages, plus de
source de
données)
Collection Exploration
ModélisationVisualisation

Avec le langage R, prenez de la hauteur dans l’analyse de vos données !

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Avec le langage R, prenez de la hauteur dans l’analyse de vos données !

Similaire à Avec le langage R, prenez de la hauteur dans l’analyse de vos données ! (20)

Dernier

Dernier (10)

Avec le langage R, prenez de la hauteur dans l’analyse de vos données !