R versur Python

L’avenir de R s’´ecrit-il en Python ?
Alexis Eidelman
Institut des politiques publiques
FLtauR
Paris – 3 octobre 2013

Introduction
Pourquoi se limiter `a un langage de statistique ?

Introduction
• Parce qu’on fait des stats ! Patate !

Introduction
En fait, on ne fait pas que ¸ca → On fait des requêtes, de la
manipulation de données, des opérations élémentaires, la
vraie partie stat est parfois (souvent) très faible...

Introduction
• Parce qu’on est pas des programmeurs ! Banane !

Introduction
→ Python et pas C ou Fortran qui sont plus hard
→ On fait plus de programmation qu’on pense, autant le
faire dans un langage pr´evu pour ¸ca.

Introduction
→ Python et pas C ou Fortran qui sont plus hard
→ On fait plus de programmation qu’on pense, autant le
faire dans un langage pr´evu pour ¸ca.
• Finalement, n’est-ce pas un biais culturel qui nous pousse
ver R ?

Introduction
But de la pr´esentation

Introduction
But de la présentation
• Une saine critique : R ne doit pas être comparé qu’à SAS
• Présenter Python et ses atouts
• Parler de l’interface R et Python

Roadmap
1 Introduction
2 Pr´esentation de Python
3 Python pour les statisticiens
4 Plein de bonus avec Python
5 Une comparaison pratique : travail sur l’enquˆete patrimoine
2010

Python
C’est quoi ?
• Un langage de programmation simplifié.
• Libre et gratuit
• Utilisé plus par des physiciens, financiers que des biologistes
• Et utilisé pour générer des interfaces graphiques et des
applications

Python
Ses forces
• Lisible
• indentation obligatoire (pas d’accolade)
• conventions d’écriture bien partagées
• programmes courts
• noms explicites
• pas de déclaration de type

Python
Ses forces
• Lisible
• indentation obligatoire (pas d’accolade)
• conventions d’écriture bien partagées
• programmes courts
• noms explicites
• pas de déclaration de type
• Rapide
• Ne calcule que ce dont il a besoin (permet de renommer à
loisir)
• Spontanément rapide (aucune comparaison entre une
boucle R et une boucle Python)
• Rapide à écrire.

Python
Ses forces
• Facile `a apprendre

Python
Ses forces
• Possibilit´e de rentabiliser son travail
• La structure de classes

Python
Ses forces
• Possibilité de rentabiliser son travail
• La structure de classes
• Plein de petites choses
• assert
• travail simple sur les chaines de caractères
• bons éditeurs
• bonnes documentations ( + stackoverflow)

Python
Quelques faiblesses
Il faut parfois se battre avec Python...

Python
Quelques faiblesses
• Visualisation des tables
• Plusieurs éditeurs (a priori bons mais c’est plus simple
quand on n’a pas de choix, n’est-ce pas ?)
• Numérote à partir de zéro
• Deux versions 2.7 et 3.3
• Doit convaincre, comme R à ses débuts

Python pour les statisticiens
Les libraires in´evitable

• Numpy : la gestion des tableaux (tr`es rapide et l´eger)

• Numpy : la gestion des tableaux (très rapide et léger)
• Pandas
• Index
• Subset
• Pas de problème avec les valeurs manquantes
• Vecteur, DataFrame, TimeSeries
• et progresse

Python et R
• package : rpy2
• lecture ´ecriture de table
• Appeler les fonctions de R
• A l’inverse possibilit´e de lancer Python depuis R.

Plein de bonus avec Python
Des libraires

Plein de bonus avec Python
Des libraires
• Big Data
• Interface avec oﬃce (dont excel) : pywin32
• Utiliser Latex (Pytex)
• Webscrapping : scrapy
• Cartographie ?
• Ecrire en c, c++
• Interface avec YAML
• Documentation automatique (Sphinx)
• Analyse du temps de calcul (RunSnake)
Et ¸ca ´evolue sans cesse !

Une comparaison
Contexte
• Produire une statistique mais potentiellement à partir de
différents jeux de données

Une comparaison
Contexte
→ Dissocier ce dont on a besoin et ce qu’on a

Une comparaison
Contexte
→ Prévoir des imputations pour compléter les bases de
données

Une comparaison
Contexte
données
Concrètement :
• Enquête patrimoine 2010
• Base étendue (dupliquée) à plus de 11 millions de lignes

Une comparaison
Contexte
donn´ees
Concr`etement :
• Data cleaning

Une comparaison
Contexte
données
Concrètement :
• Data cleaning
• Imputation de déclarations fiscales, d’état de santé, etc.
• Fermeture de l’échantillon (associer à chaque enfants de la
base des parents fictifs dans la base).

Une comparaison
En R
• Un ﬁchier central qui en appelle d’autres

Une comparaison
En R
• Un fichier central qui en appelle d’autres
• Des lapply(as.integer)
• une boucle sur 15 variables (cydeb1-cydeb15) prend
beaucoup de temps
• Taille de la base de données limitante (pour un problème
quadratique)
• Galères innommables pour la duplication des ménages et la
gestions de identifiants (pour ne pas faire de groupby)
• Des load et des save un peu partout pour ne pas tout refaire
à zéro à chaque modif mais avec les différentes options c’est
pas génial

Une comparaison
En Python
• Une classe Data, les données nécessaires
• Contient certaines méthodes(=fonction) : extension de la
base, maitrise des formats de données,

Une comparaison
En Python
• Une sous-classe Patrimoine, l’année d’enquête est un
paramètre pour l’instant
• Contient la lecture, les corrections, le recodage de variables,
les imputations, etc.

Une comparaison
En Python
• Une sous-classe Patrimoine, l’année d’enquête est un
paramètre pour l’instant
• Contient la lecture, les corrections, le recodage de variables,
les imputations, etc.
• Pas de problème mémoire, ni de groupby bien gérés par
pandas.
• Des vérifications (assert) dans le programme bien rassurant
• Beaucoup plus rapide qu’en R (environ 1min30 contre
7min30)

Python pour les statisticiens - Conclusion
Mon ressenti

Python pour les statisticiens - Conclusion
Mon ressenti
• Pas plus compliqué que R du tout (peut-être même plus
simple)
• Moins de librairies orientée stat qu’en R
• Plus performant que R.
• Lecture des programmes beaucoup plus facile, même quand
ils sont complexes
Si je dois débuter un projet aujourd’hui, je préfère le
commencer en Python plutôt qu’en R.

R versur Python

Recommandé

Recommandé

Contenu connexe

Similaire à R versur Python

Similaire à R versur Python (20)

Dernier

Dernier (7)

R versur Python