Nos formations : www.jedha.co
Projet de Anna Hercot
Avec une base de données accessible de l'ONU, Anna évalue grâce aux outils de la Data Science les impacts, notamment éducatifs que peuvent avoir certaines politique publiques.
3. Comprendre notre data
● Année 2000: les Nations Unies se mettent d’accord sur des buts pour mesurer le développement
mondial
● 8 objectifs principaux:
■ Réduire l’extrême pauvreté et la faim
■ Assurer à tous l’éducation primaire
■ Promouvoir l’égalité des sexes
■ Réduire la mortalité infantile
■ Améliorer la santé maternelle
■ Combattre le VIH/SIDA, le paludisme et les autres maladies
■ Assurer un environment humain durable
■ Construire un partenariat mondial pour le développement
● Mesurent l’avancée de ces objectifs avec des indicateurs précis
4. Explication des données
● 1 ligne contient:
○ Années 1972-2007
○ Nom du pays
○ Code de l’indicateur
○ Nom de l’indicateur
○ Ajout du continent pour pouvoir regrouper certains pays
● 67 indicateurs au total
● 214 pays évalués
5. Comparaison de modèles: ARIMA vs LSTM
● ARIMA
○ Derivé de regression linéaire
○ Auto Regressive Integrated Moving Average
○ Deux facettes importantes:
■ Composants autoregréssifs: depend des anciennes valeurs de la série
■ Composants de la moyenne mobile
○ Paramètres: p(number of autoregressive terms), d(degree of differencing), q(number of lagged forecast errors)
● LSTM
○ Réseau neuronal
○ Nombre d’exemples
○ Nombre de timestep
○ Nombre de features
6. ARIMA - Assurer à tous l’éducation primaire en France
Bleu: valeurs observées
Orange: valeurs prédites
7. LSTM – Assurer à tous l’éducation primaire en France
Bleu: valeurs observées
Orange: valeurs prédites
8. Résults: ARIMA vs LSTM
● RMSE
○ 12* plus grand pour LSTM
● ARIMA nettement mieux que LSTM
○ Limites de LSTM
■ Trop peu de données, impossible de créer un bon réseau
■ Imputation: Nombre d’exemple : 1, Nombre de timesteps: 35, nombre de features: x
○ Limites d’ARIMA
■ Assume la stationarité de la série (Dickey fuller Test) / sinon, regarder trend/seasonality
9. Dans quel but?
● Création d’un nouveau dataset
○ Valeurs prédites vs réelles: en perfectionnant le modèle l’utiliser pour comprendre ou et
comment organiser ses ressources