SlideShare une entreprise Scribd logo
1  sur  10
Télécharger pour lire hors ligne
Data Science
Bootcamp
Commencez votre carrière
dans la Data
United Nations
Development
Challenge
Comprendre notre data
● Année 2000: les Nations Unies se mettent d’accord sur des buts pour mesurer le développement
mondial
● 8 objectifs principaux:
■ Réduire l’extrême pauvreté et la faim
■ Assurer à tous l’éducation primaire
■ Promouvoir l’égalité des sexes
■ Réduire la mortalité infantile
■ Améliorer la santé maternelle
■ Combattre le VIH/SIDA, le paludisme et les autres maladies
■ Assurer un environment humain durable
■ Construire un partenariat mondial pour le développement
● Mesurent l’avancée de ces objectifs avec des indicateurs précis
Explication des données
● 1 ligne contient:
○ Années 1972-2007
○ Nom du pays
○ Code de l’indicateur
○ Nom de l’indicateur
○ Ajout du continent pour pouvoir regrouper certains pays
● 67 indicateurs au total
● 214 pays évalués
Comparaison de modèles: ARIMA vs LSTM
● ARIMA
○ Derivé de regression linéaire
○ Auto Regressive Integrated Moving Average
○ Deux facettes importantes:
■ Composants autoregréssifs: depend des anciennes valeurs de la série
■ Composants de la moyenne mobile
○ Paramètres: p(number of autoregressive terms), d(degree of differencing), q(number of lagged forecast errors)
● LSTM
○ Réseau neuronal
○ Nombre d’exemples
○ Nombre de timestep
○ Nombre de features
ARIMA - Assurer à tous l’éducation primaire en France
Bleu: valeurs observées
Orange: valeurs prédites
LSTM – Assurer à tous l’éducation primaire en France
Bleu: valeurs observées
Orange: valeurs prédites
Résults: ARIMA vs LSTM
● RMSE
○ 12* plus grand pour LSTM
● ARIMA nettement mieux que LSTM
○ Limites de LSTM
■ Trop peu de données, impossible de créer un bon réseau
■ Imputation: Nombre d’exemple : 1, Nombre de timesteps: 35, nombre de features: x
○ Limites d’ARIMA
■ Assume la stationarité de la série (Dickey fuller Test) / sinon, regarder trend/seasonality
Dans quel but?
● Création d’un nouveau dataset
○ Valeurs prédites vs réelles: en perfectionnant le modèle l’utiliser pour comprendre ou et
comment organiser ses ressources
Post 2015
● Better data exists for the post-2015 development era

Contenu connexe

Plus de Jedha Bootcamp

Plus de Jedha Bootcamp (20)

Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De ForzanzEstimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
 
Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed ZebliTrouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
 
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed ZebliOptimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
 
Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle GuyotReconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot
 
Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie RossEstimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross
 
Workshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha ParisWorkshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha Paris
 
Les applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha LyonLes applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha Lyon
 
Optimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data ScienceOptimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data Science
 
Connaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiConnaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessi
 
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
 
Automatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéoAutomatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéo
 
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
 
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
 
Prédire les ventes d'un hôtel grâce à la Data Science
Prédire les ventes d'un hôtel grâce à la Data SciencePrédire les ventes d'un hôtel grâce à la Data Science
Prédire les ventes d'un hôtel grâce à la Data Science
 
Le Groupe PSA - Déterminer le renouvellement d'un client
Le Groupe PSA - Déterminer le renouvellement d'un clientLe Groupe PSA - Déterminer le renouvellement d'un client
Le Groupe PSA - Déterminer le renouvellement d'un client
 
Prédire le taux de churn grâce à la Data Science
Prédire le taux de churn grâce à la Data SciencePrédire le taux de churn grâce à la Data Science
Prédire le taux de churn grâce à la Data Science
 
Prédire les retards d'avions avec la Data Science
Prédire les retards d'avions avec la Data SciencePrédire les retards d'avions avec la Data Science
Prédire les retards d'avions avec la Data Science
 
Quelles start-ups recommander aux grands groupes ?
Quelles start-ups recommander aux grands groupes ?Quelles start-ups recommander aux grands groupes ?
Quelles start-ups recommander aux grands groupes ?
 
Starbucks Coffee - Déterminer l'emplacement idéal d'un entrepôt
Starbucks Coffee - Déterminer l'emplacement idéal d'un entrepôtStarbucks Coffee - Déterminer l'emplacement idéal d'un entrepôt
Starbucks Coffee - Déterminer l'emplacement idéal d'un entrepôt
 
Design & Data : Optimiser grâce à l'A/B TEST - Romain, Data Scientist
Design & Data : Optimiser grâce à l'A/B TEST - Romain, Data ScientistDesign & Data : Optimiser grâce à l'A/B TEST - Romain, Data Scientist
Design & Data : Optimiser grâce à l'A/B TEST - Romain, Data Scientist
 

Analyser l'impact de politiques sociales grâce à la Data Science - Anna Hercot

  • 1. Data Science Bootcamp Commencez votre carrière dans la Data
  • 3. Comprendre notre data ● Année 2000: les Nations Unies se mettent d’accord sur des buts pour mesurer le développement mondial ● 8 objectifs principaux: ■ Réduire l’extrême pauvreté et la faim ■ Assurer à tous l’éducation primaire ■ Promouvoir l’égalité des sexes ■ Réduire la mortalité infantile ■ Améliorer la santé maternelle ■ Combattre le VIH/SIDA, le paludisme et les autres maladies ■ Assurer un environment humain durable ■ Construire un partenariat mondial pour le développement ● Mesurent l’avancée de ces objectifs avec des indicateurs précis
  • 4. Explication des données ● 1 ligne contient: ○ Années 1972-2007 ○ Nom du pays ○ Code de l’indicateur ○ Nom de l’indicateur ○ Ajout du continent pour pouvoir regrouper certains pays ● 67 indicateurs au total ● 214 pays évalués
  • 5. Comparaison de modèles: ARIMA vs LSTM ● ARIMA ○ Derivé de regression linéaire ○ Auto Regressive Integrated Moving Average ○ Deux facettes importantes: ■ Composants autoregréssifs: depend des anciennes valeurs de la série ■ Composants de la moyenne mobile ○ Paramètres: p(number of autoregressive terms), d(degree of differencing), q(number of lagged forecast errors) ● LSTM ○ Réseau neuronal ○ Nombre d’exemples ○ Nombre de timestep ○ Nombre de features
  • 6. ARIMA - Assurer à tous l’éducation primaire en France Bleu: valeurs observées Orange: valeurs prédites
  • 7. LSTM – Assurer à tous l’éducation primaire en France Bleu: valeurs observées Orange: valeurs prédites
  • 8. Résults: ARIMA vs LSTM ● RMSE ○ 12* plus grand pour LSTM ● ARIMA nettement mieux que LSTM ○ Limites de LSTM ■ Trop peu de données, impossible de créer un bon réseau ■ Imputation: Nombre d’exemple : 1, Nombre de timesteps: 35, nombre de features: x ○ Limites d’ARIMA ■ Assume la stationarité de la série (Dickey fuller Test) / sinon, regarder trend/seasonality
  • 9. Dans quel but? ● Création d’un nouveau dataset ○ Valeurs prédites vs réelles: en perfectionnant le modèle l’utiliser pour comprendre ou et comment organiser ses ressources
  • 10. Post 2015 ● Better data exists for the post-2015 development era