Conférence #nwxtech5 : Django, du framework pour les perfectionnistes au pony...Normandie Web Xperts
Django est un framework web fullstack similaire à RoR ou Symfony mais en Python.
Inspiré comme il se doit par le Zen of Python, il permet de concevoir des applications web de qualité rapidement mais aussi (et surtout) avec du fun.
Support formation : Maîtriser les Data Sciences avec Python Language - Partie ISmartnSkilled
Les bases du langage Python : Apprenez les abc de Python pour bien démarrer
Les deux premières parties peuvent être destinées même aux informaticiens déjà familiarisés avec un ou plusieurs autres langages de programmation indépendamment du thème Data science ainsi que les scientistes qui ont le sens d’analyse remarquable.
La troisième partie va se concentrer surtout sur les techniques d’acquisition conventionnelle et non conventionnelle des données en vue de préparer le bon terrain de leur analyse et leur présentation au public concerné.
Formation en ligne :
https://www.smartnskilled.com/tutoriel/formation-en-ligne-maitriser-les-data-sciences-avec-python-language-partie-i
Quand python, pandas, scikit-learn et jupyter rencontrent Power BI.pdfSTAT4DECISION
Présentation lors de l'évènement communautaire Power365 à Lille le 29 septembre 2022 sur l'intégration de python dans Power BI et de Power BI dans Jupyter.
Avec le langage R, prenez de la hauteur dans l’analyse de vos données ! Yi YANG
En 2019, le machine learning est omniprésent, et depuis peu, l’analyse de la données est devenue un véritable métier et une formidable source de valeur pour l’entreprise ou pour les institutions. Au-delà de ces réalités, il y a un langage qui, s’il est petit par le nom, est immense par sa capacité de traitement de data et surtout par son utilisation dans la conception d’algorithmes basés sur les calculs vectoriels : le langage R. Ce slideware vous présente ses principales caractéristiques, son histoire, quelques notions techniques de base et les packages les plus couramment utilisés, avant de conclure par une comparaison avec Python. Maintenant évadez vous, prenez l’R !
Présentation interne chez Devolis : http://www.devolis.com/
Traduire une application n'est pas facile.
GetText est une solution efficace et robuste, souvent ignorée.
Ces slides datent un peu mais restent pertinents. J'y mentionne quelques casse-têtes récurrents : avant de choisir une solution d'I18N, vérifiez bien que vos alternatives gèrent ces cas.
Conférence #nwxtech5 : Django, du framework pour les perfectionnistes au pony...Normandie Web Xperts
Django est un framework web fullstack similaire à RoR ou Symfony mais en Python.
Inspiré comme il se doit par le Zen of Python, il permet de concevoir des applications web de qualité rapidement mais aussi (et surtout) avec du fun.
Support formation : Maîtriser les Data Sciences avec Python Language - Partie ISmartnSkilled
Les bases du langage Python : Apprenez les abc de Python pour bien démarrer
Les deux premières parties peuvent être destinées même aux informaticiens déjà familiarisés avec un ou plusieurs autres langages de programmation indépendamment du thème Data science ainsi que les scientistes qui ont le sens d’analyse remarquable.
La troisième partie va se concentrer surtout sur les techniques d’acquisition conventionnelle et non conventionnelle des données en vue de préparer le bon terrain de leur analyse et leur présentation au public concerné.
Formation en ligne :
https://www.smartnskilled.com/tutoriel/formation-en-ligne-maitriser-les-data-sciences-avec-python-language-partie-i
Quand python, pandas, scikit-learn et jupyter rencontrent Power BI.pdfSTAT4DECISION
Présentation lors de l'évènement communautaire Power365 à Lille le 29 septembre 2022 sur l'intégration de python dans Power BI et de Power BI dans Jupyter.
Avec le langage R, prenez de la hauteur dans l’analyse de vos données ! Yi YANG
En 2019, le machine learning est omniprésent, et depuis peu, l’analyse de la données est devenue un véritable métier et une formidable source de valeur pour l’entreprise ou pour les institutions. Au-delà de ces réalités, il y a un langage qui, s’il est petit par le nom, est immense par sa capacité de traitement de data et surtout par son utilisation dans la conception d’algorithmes basés sur les calculs vectoriels : le langage R. Ce slideware vous présente ses principales caractéristiques, son histoire, quelques notions techniques de base et les packages les plus couramment utilisés, avant de conclure par une comparaison avec Python. Maintenant évadez vous, prenez l’R !
Présentation interne chez Devolis : http://www.devolis.com/
Traduire une application n'est pas facile.
GetText est une solution efficace et robuste, souvent ignorée.
Ces slides datent un peu mais restent pertinents. J'y mentionne quelques casse-têtes récurrents : avant de choisir une solution d'I18N, vérifiez bien que vos alternatives gèrent ces cas.
Translations are hard.
GetText is an often overlooked solution, but it has many advantages.
These slides are a bit old but still relevant. They have some details about translations horror stories: before choosing any I18N solution, match these against your prospective answers.
http://chtijug.org/session-spring-batch-avec-ekino-le-29-novembre/
Nous avons le plaisir de vous annoncer que la prochaine session du Ch’ti JUG est prévue le 29 novembre 2011. Elle aura lieu à l’IUT A de Lille 1, boulevard Paul Langevin, à Villeneuve d’Ascq. Plan d’accès
Le thème de cette session est Spring Batch : un framework pour implémenter des traitements de masse en Java.
Cette présentation sera animée par Olivier Bazoud / @obazoud et Julien Jakubowski / @jak78.
Cette session est rendue possible grâce à Ekino / @3k1no.
Diginova - Session sur le machine learning avec ML.NETJulien Chable
Présentation de la bibliothèque open source ML.NET qui vous permettra de pouvoir intégrer du machine learning dans vos applications .NET. Nous avons également fait un point sur l'utilisation des autres framework/services ML de Microsoft pour savoir quoi utiliser dans quel contexte. Une session partagée avec Christopher MANEU (Microsoft France R&D) qui présentait les Cognitives Services pour sa part et pour laquelle je le remercie chaleureusement.
Créer un moteur de recherche avec des logiciels libresRobert Viseur
Lorsque l’on parle de moteur de recherche, les noms de Google, Bing ou Yahoo! viennent immédiatement à l’esprit. La taille de ces moteurs (plusieurs milliards de pages indexées), l’importance des infrastructures (grands centres de données) et la pertinence des résultats de recherche peuvent donner l’impression que les développements spécifiques sont devenus impossibles ou sans intérêt.
La création de moteurs de recherche spécialisés reste cependant possible, et utile pour certains usages particuliers (ex.: moteurs de recherche d’entreprise, mise en place de systèmes de veille, etc.). Pour ce faire, le développeur peut s’appuyer sur les interfaces de programmation (API) généralement mises à disposition par les moteurs de recherche commerciaux mais aussi sur les très nombreux composants et logiciels libres existants. Ces derniers couvrent la collecte des données textuelles, leur analyse, leur indexation et leur présentation.
La présentation détaille les différentes étapes de création d’un moteur de recherche. Les outils libres disponibles, ainsi que leurs limites et cadres d’utilisation privilégiés, sont ensuite présentés.
Introduction à la Data Science : régression, classification, , clustering, machine learning...vue d'ensemble, quelques techniques et des ressources pour creuser le sujet.
Slides présentés à l'occasion du premier meetup Paris R Addicts.
La présentation est destiné à ceux qui ne connaissent pas ou très peu. Elle montre les intérêts et les inconvénients du logiciel ainsi que des éléments de syntaxe et des liens qui aideront l'apprentissage.
Boostez votre recherche SharePoint grâce aux Microsoft Cognitive Services!Franck Cornu
La recherche a toujours été un élément central dans tous projets d'intranet SharePoint! En effet, n'avez-vous jamais entendu:"On ne trouve rien dans ce portail!"...Et bien saviez-vous qu'avec quelques configurations et un peu de développement, vous pouviez bénéficier des outils d'intelligence artificielle pour améliorer la pertinence de vos résultats? Dans cette session, nous verrons ainsi comment tirer profit de la suite Microsoft Cognitive Services avec la recherche SharePoint pour faciliter la vie de vos utilisateurs au quotidien.
Au delà de ce buzz word :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles.
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Laurent Speyser
(Conférence dessinée)
Vous êtes certainement à l’origine, ou impliqué, dans un changement au sein de votre organisation. Et peut être que cela ne se passe pas aussi bien qu’attendu…
Depuis plusieurs années, je fais régulièrement le constat de l’échec de l’adoption de l’Agilité, et plus globalement de grands changements, dans les organisations. Je vais tenter de vous expliquer pourquoi ils suscitent peu d'adhésion, peu d’engagement, et ils ne tiennent pas dans le temps.
Heureusement, il existe un autre chemin. Pour l'emprunter il s'agira de cultiver l'invitation, l'intelligence collective , la mécanique des jeux, les rites de passages, .... afin que l'agilité prenne racine.
Vous repartirez de cette conférence en ayant pris du recul sur le changement tel qu‘il est généralement opéré aujourd’hui, et en ayant découvert (ou redécouvert) le seul guide valable à suivre, à mon sens, pour un changement authentique, durable, et respectueux des individus! Et en bonus, 2 ou 3 trucs pratiques!
Translations are hard.
GetText is an often overlooked solution, but it has many advantages.
These slides are a bit old but still relevant. They have some details about translations horror stories: before choosing any I18N solution, match these against your prospective answers.
http://chtijug.org/session-spring-batch-avec-ekino-le-29-novembre/
Nous avons le plaisir de vous annoncer que la prochaine session du Ch’ti JUG est prévue le 29 novembre 2011. Elle aura lieu à l’IUT A de Lille 1, boulevard Paul Langevin, à Villeneuve d’Ascq. Plan d’accès
Le thème de cette session est Spring Batch : un framework pour implémenter des traitements de masse en Java.
Cette présentation sera animée par Olivier Bazoud / @obazoud et Julien Jakubowski / @jak78.
Cette session est rendue possible grâce à Ekino / @3k1no.
Diginova - Session sur le machine learning avec ML.NETJulien Chable
Présentation de la bibliothèque open source ML.NET qui vous permettra de pouvoir intégrer du machine learning dans vos applications .NET. Nous avons également fait un point sur l'utilisation des autres framework/services ML de Microsoft pour savoir quoi utiliser dans quel contexte. Une session partagée avec Christopher MANEU (Microsoft France R&D) qui présentait les Cognitives Services pour sa part et pour laquelle je le remercie chaleureusement.
Créer un moteur de recherche avec des logiciels libresRobert Viseur
Lorsque l’on parle de moteur de recherche, les noms de Google, Bing ou Yahoo! viennent immédiatement à l’esprit. La taille de ces moteurs (plusieurs milliards de pages indexées), l’importance des infrastructures (grands centres de données) et la pertinence des résultats de recherche peuvent donner l’impression que les développements spécifiques sont devenus impossibles ou sans intérêt.
La création de moteurs de recherche spécialisés reste cependant possible, et utile pour certains usages particuliers (ex.: moteurs de recherche d’entreprise, mise en place de systèmes de veille, etc.). Pour ce faire, le développeur peut s’appuyer sur les interfaces de programmation (API) généralement mises à disposition par les moteurs de recherche commerciaux mais aussi sur les très nombreux composants et logiciels libres existants. Ces derniers couvrent la collecte des données textuelles, leur analyse, leur indexation et leur présentation.
La présentation détaille les différentes étapes de création d’un moteur de recherche. Les outils libres disponibles, ainsi que leurs limites et cadres d’utilisation privilégiés, sont ensuite présentés.
Introduction à la Data Science : régression, classification, , clustering, machine learning...vue d'ensemble, quelques techniques et des ressources pour creuser le sujet.
Slides présentés à l'occasion du premier meetup Paris R Addicts.
La présentation est destiné à ceux qui ne connaissent pas ou très peu. Elle montre les intérêts et les inconvénients du logiciel ainsi que des éléments de syntaxe et des liens qui aideront l'apprentissage.
Boostez votre recherche SharePoint grâce aux Microsoft Cognitive Services!Franck Cornu
La recherche a toujours été un élément central dans tous projets d'intranet SharePoint! En effet, n'avez-vous jamais entendu:"On ne trouve rien dans ce portail!"...Et bien saviez-vous qu'avec quelques configurations et un peu de développement, vous pouviez bénéficier des outils d'intelligence artificielle pour améliorer la pertinence de vos résultats? Dans cette session, nous verrons ainsi comment tirer profit de la suite Microsoft Cognitive Services avec la recherche SharePoint pour faciliter la vie de vos utilisateurs au quotidien.
Au delà de ce buzz word :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles.
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Laurent Speyser
(Conférence dessinée)
Vous êtes certainement à l’origine, ou impliqué, dans un changement au sein de votre organisation. Et peut être que cela ne se passe pas aussi bien qu’attendu…
Depuis plusieurs années, je fais régulièrement le constat de l’échec de l’adoption de l’Agilité, et plus globalement de grands changements, dans les organisations. Je vais tenter de vous expliquer pourquoi ils suscitent peu d'adhésion, peu d’engagement, et ils ne tiennent pas dans le temps.
Heureusement, il existe un autre chemin. Pour l'emprunter il s'agira de cultiver l'invitation, l'intelligence collective , la mécanique des jeux, les rites de passages, .... afin que l'agilité prenne racine.
Vous repartirez de cette conférence en ayant pris du recul sur le changement tel qu‘il est généralement opéré aujourd’hui, et en ayant découvert (ou redécouvert) le seul guide valable à suivre, à mon sens, pour un changement authentique, durable, et respectueux des individus! Et en bonus, 2 ou 3 trucs pratiques!
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...OCTO Technology
Par Nicolas Bordier (Consultant numérique responsable @OCTO Technology) et Alaric Rougnon-Glasson (Sustainable Tech Consultant @OCTO Technology)
Sur un exemple très concret d’audit d’éco-conception de l’outil de bilan carbone C’Bilan développé par ICDC (Caisse des dépôts et consignations) nous allons expliquer en quoi l’ACV (analyse de cycle de vie) a été déterminante pour identifier les pistes d’actions pour réduire jusqu'à 82% de l’empreinte environnementale du service.
Vidéo Youtube : https://www.youtube.com/watch?v=7R8oL2P_DkU
Compte-rendu :
L'IA connaît une croissance rapide et son intégration dans le domaine éducatif soulève de nombreuses questions. Aujourd'hui, nous explorerons comment les étudiants utilisent l'IA, les perceptions des enseignants à ce sujet, et les mesures possibles pour encadrer ces usages.
Constat Actuel
L'IA est de plus en plus présente dans notre quotidien, y compris dans l'éducation. Certaines universités, comme Science Po en janvier 2023, ont interdit l'utilisation de l'IA, tandis que d'autres, comme l'Université de Prague, la considèrent comme du plagiat. Cette diversité de positions souligne la nécessité urgente d'une réponse institutionnelle pour encadrer ces usages et prévenir les risques de triche et de plagiat.
Enquête Nationale
Pour mieux comprendre ces dynamiques, une enquête nationale intitulée "L'IA dans l'enseignement" a été réalisée. Les auteurs de cette enquête sont Le Sphynx (sondage) et Compilatio (fraude académique). Elle a été diffusée dans les universités de Lyon et d'Aix-Marseille entre le 21 juin et le 15 août 2023, touchant 1242 enseignants et 4443 étudiants. Les questionnaires, conçus pour étudier les usages de l'IA et les représentations de ces usages, abordaient des thèmes comme les craintes, les opportunités et l'acceptabilité.
Résultats de l'Enquête
Les résultats montrent que 55 % des étudiants utilisent l'IA de manière occasionnelle ou fréquente, contre 34 % des enseignants. Cependant, 88 % des enseignants pensent que leurs étudiants utilisent l'IA, ce qui pourrait indiquer une surestimation des usages. Les usages identifiés incluent la recherche d'informations et la rédaction de textes, bien que ces réponses ne puissent pas être cumulées dans les choix proposés.
Analyse Critique
Une analyse plus approfondie révèle que les enseignants peinent à percevoir les bénéfices de l'IA pour l'apprentissage, contrairement aux étudiants. La question de savoir si l'IA améliore les notes sans développer les compétences reste débattue. Est-ce un dopage académique ou une opportunité pour un apprentissage plus efficace ?
Acceptabilité et Éthique
L'enquête révèle que beaucoup d'étudiants jugent acceptable d'utiliser l'IA pour rédiger leurs devoirs, et même un quart des enseignants partagent cet avis. Cela pose des questions éthiques cruciales : copier-coller est-il tricher ? Utiliser l'IA sous supervision ou pour des traductions est-il acceptable ? La réponse n'est pas simple et nécessite un débat ouvert.
Propositions et Solutions
Pour encadrer ces usages, plusieurs solutions sont proposées. Plutôt que d'interdire l'IA, il est suggéré de fixer des règles pour une utilisation responsable. Des innovations pédagogiques peuvent également être explorées, comme la création de situations de concurrence professionnelle ou l'utilisation de détecteurs d'IA.
Conclusion
En conclusion, bien que l'étude présente des limites, elle souligne un besoin urgent de régulation. Une charte institutionnelle pourrait fournir un cadre pour une utilisation éthique.
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...Horgix
This is the slide deck of a talk by Alexis "Horgix" Chotard and Laurentiu Capatina presented at the MongoDB Paris User Group in June 2024 about the feedback on how PayFit move away from a monolithic hell of a self-hosted MongoDB cluster to managed alternatives. Pitch below.
March 15, 2023, 6:59 AM: a MongoDB cluster collapses. Tough luck, this cluster contains 95% of user data and is absolutely vital for even minimal operation of our application. To worsen matters, this cluster is 7 years behind on versions, is not scalable, and barely observable. Furthermore, even the data model would quickly raise eyebrows: applications communicating with each other by reading/writing in the same MongoDB documents, documents reaching the maximum limit of 16MiB with hundreds of levels of nesting, and so forth. The incident will last several days and result in the loss of many users. We've seen better scenarios.
Let's explore how PayFit found itself in this hellish situation and, more importantly, how we managed to overcome it!
On the agenda: technical stabilization, untangling data models, breaking apart a Single Point of Failure (SPOF) into several elements with a more restricted blast radius, transitioning to managed services, improving internal accesses, regaining control over risky operations, and ultimately, approaching a technical migration when it impacts all development teams.
4. Introduction
Pourquoi se limiter `a un langage de statistique ?
• Parce qu’on fait des stats ! Patate !
En fait, on ne fait pas que ¸ca → On fait des requˆetes, de la
manipulation de donn´ees, des op´erations ´el´ementaires, la
vraie partie stat est parfois (souvent) tr`es faible...
5. Introduction
Pourquoi se limiter `a un langage de statistique ?
• Parce qu’on fait des stats ! Patate !
En fait, on ne fait pas que ¸ca → On fait des requˆetes, de la
manipulation de donn´ees, des op´erations ´el´ementaires, la
vraie partie stat est parfois (souvent) tr`es faible...
• Parce qu’on est pas des programmeurs ! Banane !
6. Introduction
Pourquoi se limiter `a un langage de statistique ?
• Parce qu’on fait des stats ! Patate !
En fait, on ne fait pas que ¸ca → On fait des requˆetes, de la
manipulation de donn´ees, des op´erations ´el´ementaires, la
vraie partie stat est parfois (souvent) tr`es faible...
• Parce qu’on est pas des programmeurs ! Banane !
→ Python et pas C ou Fortran qui sont plus hard
→ On fait plus de programmation qu’on pense, autant le
faire dans un langage pr´evu pour ¸ca.
7. Introduction
Pourquoi se limiter `a un langage de statistique ?
• Parce qu’on fait des stats ! Patate !
En fait, on ne fait pas que ¸ca → On fait des requˆetes, de la
manipulation de donn´ees, des op´erations ´el´ementaires, la
vraie partie stat est parfois (souvent) tr`es faible...
• Parce qu’on est pas des programmeurs ! Banane !
→ Python et pas C ou Fortran qui sont plus hard
→ On fait plus de programmation qu’on pense, autant le
faire dans un langage pr´evu pour ¸ca.
• Finalement, n’est-ce pas un biais culturel qui nous pousse
ver R ?
9. Introduction
But de la pr´esentation
• Une saine critique : R ne doit pas ˆetre compar´e qu’`a SAS
• Pr´esenter Python et ses atouts
• Parler de l’interface R et Python
10. Roadmap
1 Introduction
2 Pr´esentation de Python
3 Python pour les statisticiens
4 Plein de bonus avec Python
5 Une comparaison pratique : travail sur l’enquˆete patrimoine
2010
12. Python
C’est quoi ?
• Un langage de programmation simplifi´e.
• Libre et gratuit
• Utilis´e plus par des physiciens, financiers que des biologistes
• Et utilis´e pour g´en´erer des interfaces graphiques et des
applications
14. Python
Ses forces
• Lisible
• indentation obligatoire (pas d’accolade)
• conventions d’´ecriture bien partag´ees
• programmes courts
• noms explicites
• pas de d´eclaration de type
15. Python
Ses forces
• Lisible
• indentation obligatoire (pas d’accolade)
• conventions d’´ecriture bien partag´ees
• programmes courts
• noms explicites
• pas de d´eclaration de type
• Rapide
• Ne calcule que ce dont il a besoin (permet de renommer `a
loisir)
• Spontan´ement rapide (aucune comparaison entre une
boucle R et une boucle Python)
• Rapide `a ´ecrire.
18. Python
Ses forces
• Facile `a apprendre
• Possibilit´e de rentabiliser son travail
• La structure de classes
19. Python
Ses forces
• Facile `a apprendre
• Possibilit´e de rentabiliser son travail
• La structure de classes
• Plein de petites choses
• assert
• travail simple sur les chaines de caract`eres
• bons ´editeurs
• bonnes documentations ( + stackoverflow)
22. Python
Quelques faiblesses
• Visualisation des tables
• Plusieurs ´editeurs (a priori bons mais c’est plus simple
quand on n’a pas de choix, n’est-ce pas ?)
• Num´erote `a partir de z´ero
• Deux versions 2.7 et 3.3
• Doit convaincre, comme R `a ses d´ebuts
23. Roadmap
1 Introduction
2 Pr´esentation de Python
3 Python pour les statisticiens
4 Plein de bonus avec Python
5 Une comparaison pratique : travail sur l’enquˆete patrimoine
2010
25. Python pour les statisticiens
Les libraires in´evitable
• Numpy : la gestion des tableaux (tr`es rapide et l´eger)
26. Python pour les statisticiens
Les libraires in´evitable
• Numpy : la gestion des tableaux (tr`es rapide et l´eger)
• Pandas
• Index
• Subset
• Pas de probl`eme avec les valeurs manquantes
• Vecteur, DataFrame, TimeSeries
• et progresse
27. Python pour les statisticiens
Python et R
• package : rpy2
• lecture ´ecriture de table
• Appeler les fonctions de R
• A l’inverse possibilit´e de lancer Python depuis R.
28. Roadmap
1 Introduction
2 Pr´esentation de Python
3 Python pour les statisticiens
4 Plein de bonus avec Python
5 Une comparaison pratique : travail sur l’enquˆete patrimoine
2010
30. Plein de bonus avec Python
Des libraires
• Big Data
• Interface avec office (dont excel) : pywin32
• Utiliser Latex (Pytex)
• Webscrapping : scrapy
• Cartographie ?
• Ecrire en c, c++
• Interface avec YAML
• Documentation automatique (Sphinx)
• Analyse du temps de calcul (RunSnake)
Et ¸ca ´evolue sans cesse !
31. Roadmap
1 Introduction
2 Pr´esentation de Python
3 Python pour les statisticiens
4 Plein de bonus avec Python
5 Une comparaison pratique : travail sur l’enquˆete patrimoine
2010
34. Une comparaison
Contexte
• Produire une statistique mais potentiellement `a partir de
diff´erents jeux de donn´ees
→ Dissocier ce dont on a besoin et ce qu’on a
35. Une comparaison
Contexte
• Produire une statistique mais potentiellement `a partir de
diff´erents jeux de donn´ees
→ Dissocier ce dont on a besoin et ce qu’on a
→ Pr´evoir des imputations pour compl´eter les bases de
donn´ees
36. Une comparaison
Contexte
• Produire une statistique mais potentiellement `a partir de
diff´erents jeux de donn´ees
→ Dissocier ce dont on a besoin et ce qu’on a
→ Pr´evoir des imputations pour compl´eter les bases de
donn´ees
Concr`etement :
• Enquˆete patrimoine 2010
• Base ´etendue (dupliqu´ee) `a plus de 11 millions de lignes
37. Une comparaison
Contexte
• Produire une statistique mais potentiellement `a partir de
diff´erents jeux de donn´ees
→ Dissocier ce dont on a besoin et ce qu’on a
→ Pr´evoir des imputations pour compl´eter les bases de
donn´ees
Concr`etement :
• Enquˆete patrimoine 2010
• Base ´etendue (dupliqu´ee) `a plus de 11 millions de lignes
• Data cleaning
38. Une comparaison
Contexte
• Produire une statistique mais potentiellement `a partir de
diff´erents jeux de donn´ees
→ Dissocier ce dont on a besoin et ce qu’on a
→ Pr´evoir des imputations pour compl´eter les bases de
donn´ees
Concr`etement :
• Enquˆete patrimoine 2010
• Base ´etendue (dupliqu´ee) `a plus de 11 millions de lignes
• Data cleaning
• Imputation de d´eclarations fiscales, d’´etat de sant´e, etc.
• Fermeture de l’´echantillon (associer `a chaque enfants de la
base des parents fictifs dans la base).
40. Une comparaison
En R
• Un fichier central qui en appelle d’autres
• Des lapply(as.integer)
• une boucle sur 15 variables (cydeb1-cydeb15) prend
beaucoup de temps
• Taille de la base de donn´ees limitante (pour un probl`eme
quadratique)
• Gal`eres innommables pour la duplication des m´enages et la
gestions de identifiants (pour ne pas faire de groupby)
• Des load et des save un peu partout pour ne pas tout refaire
`a z´ero `a chaque modif mais avec les diff´erentes options c’est
pas g´enial
42. Une comparaison
En Python
• Une classe Data, les donn´ees n´ecessaires
• Contient certaines m´ethodes(=fonction) : extension de la
base, maitrise des formats de donn´ees,
43. Une comparaison
En Python
• Une classe Data, les donn´ees n´ecessaires
• Contient certaines m´ethodes(=fonction) : extension de la
base, maitrise des formats de donn´ees,
• Une sous-classe Patrimoine, l’ann´ee d’enquˆete est un
param`etre pour l’instant
• Contient la lecture, les corrections, le recodage de variables,
les imputations, etc.
44. Une comparaison
En Python
• Une classe Data, les donn´ees n´ecessaires
• Contient certaines m´ethodes(=fonction) : extension de la
base, maitrise des formats de donn´ees,
• Une sous-classe Patrimoine, l’ann´ee d’enquˆete est un
param`etre pour l’instant
• Contient la lecture, les corrections, le recodage de variables,
les imputations, etc.
• Pas de probl`eme m´emoire, ni de groupby bien g´er´es par
pandas.
• Des v´erifications (assert) dans le programme bien rassurant
• Beaucoup plus rapide qu’en R (environ 1min30 contre
7min30)
46. Python pour les statisticiens - Conclusion
Mon ressenti
• Pas plus compliqu´e que R du tout (peut-ˆetre mˆeme plus
simple)
• Moins de librairies orient´ee stat qu’en R
• Plus performant que R.
• Lecture des programmes beaucoup plus facile, mˆeme quand
ils sont complexes
Si je dois d´ebuter un projet aujourd’hui, je pr´ef`ere le
commencer en Python plutˆot qu’en R.
47. L’avenir de R s’´ecrit-il en Python ?
Alexis Eidelman
Institut des politiques publiques
FLtauR
Paris – 3 octobre 2013