Presentation during the Big Data Developers in Paris organized by IBM. Subject : Social Data (application of machine learning to a data challenge proposed by DrivenData (Data Science to save the world) ).
Abdellah Lamrani Alaoui & Samed Atouati
RMLL 2013: Projet rudder, retour sur 4 ans de Scala
Big Data Developers in Paris presentation : Social Data
1. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Pump it up !
Atouati Samed - Lamrani Alaoui Abdellah
Ecole Centrale Paris - IBM
March 20, 2017
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
2. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Qui sommes nous ?
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
3. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Présentation du projet
Contexte
Exploration du dataset
Notre approche
Data Science et Machine Learning
Feature engineering
Modèles de Machine Learning
Proposition d’améliorations
Visualisation
Feedback : Data Science Experience
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
4. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Contexte
Contexte
§ Data Challenge : https://www.drivendata.org/
§ Données fournies par le ministère des eaux de Tanzanie et
Taarifa (une plateforme web collaborative à caractère
sociale).
§ But : Prédire le caractère "fonctionnel", "fonctionnel mais a
besoin de réparation" et "non fonctionnel" de pompes à
eaux en Tanzanie.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
5. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Exploration du dataset
Exploration du dataset
§ Pour prédire la fonctionnalité des pompes nous avons à
notre disposition 40 variables dont :
§ la position géographique
§ l’installateur
§ le type de pompe
§ ... (exploration sur le notebook)
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
6. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Data Science et Machine Learning
La Data Science
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
7. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Feature engineering
Feature engineering
Présentation du feature engineering dans le notebook.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
8. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Feature engineering
Machine Learning
§ Apprentissage par l’exemple pour un but d’analyse
prédictive.
§ Principalement 2 types d’Apprentissage :
§ Apprentissage supervisé (Régression, Classification)
§ Apprentissage non supervisé (Clustering)
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
9. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Feature engineering
Méthodologie
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
10. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
SVM
§ Modèle basé sur la construction d’un hyperplan
séparateur. Le but est de trouver l’hyperplan qui sépare le
mieux les données avec la plus grande marge (pouvoir de
généralisation).
Figure: SVM : hyperplan séparateur
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
11. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
SVM (l’astuce du noyau)
Figure: SVM : astuce du noyau
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
12. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Résultats
Figure: SVM : Résultats - Crossvalidation
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
13. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Remarques
§ SVM est un modèle intéressant car facile d’utilisation est
qui permet de gérer des données non linéaires mais ...
§ Résultats sur le test set : 0.54 de précision.
§ SVM est meilleur quand il n’y a pas beaucoup de données.
Random Forest performe mieux quand le nombre de
données est élevé.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
14. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Random Forest (1)
§ Méthode basée sur des arbres décisionnels :
Figure: Exemple d’arbre de décision
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
15. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Random Forest (2)
§ Il s’agit alors d’un classifieur construit à partir des
décisions de nombreux arbres décisionnels générés.
§ Les arbres sont construits à partir de données générées
(bootstrap / bagging).
§ A partir des votes des différents arbres, une décision est
prise.
§ Les forêts aléatoires sont un type d’algorithme avec l’une
des meilleures performances de nos jours.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
16. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Résultats
Figure: Résultats sur le cross-validation set: Random Forest
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
17. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Remarques
§ Random Forest est un modèle très intéressant car permet
de directement prendre en compte les variables
catégoriques et s’adapte bien aux valeurs manquantes.
§ Il s’agit d’une application directe du bagging pour
diminuer la variance. L’idée derrière l’algorithme est
intuitive mais il n’y a pas de preuves théoriques de ses
performances.
§ Nous avons obtenu un résultat sur le test set de : 0.73.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
18. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Gradient Boosting Classifier (1)
§ Methode basée sur un algorithme d’optimisation :
Gradient Descent.
Figure: Gradient Descent
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
19. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Gradient Boosting Classifier (2)
§ On considère une famille de classifieurs, par exemple les
arbres décisionnels.
§ On considère aussi une fonction de coût fonction des
classifieurs:
J(F(x)) = 7errors
§ On applique l’algorithme gradient descent à la fonction de
coût et on aboutit au classifieur minimisant l’erreur.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
20. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Résultats
Figure: Résultats sur le cross-validation set: Gradient Boosting
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
21. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Remarques
§ Le modèle Gradient Boosting avec les arbres de décision
est intéressant car permet parfois d’obtenir de meilleurs
résultats que Random Forest.
§ L’inconvénient est que le modèle est séquentiel,
contrairement à Random Forest qui a l’avantage de
pouvoir être parallélisé.
§ Nous avons obtenu un résultat sur le test set de : 0.76.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
22. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Stacking
Figure: Stacking
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
23. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Résultats
Figure: Résultats des différents modèles sur le cross-validation set.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
24. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Commentaires
§ Le gradient boosting donne de meilleurs résultats que les
forêts aléatoires et la régression logistique. Et le stacking
améliore légèrement la performance obtenue par le
gradient boosting.
§ Cependant le modèle est pour l’homme riche qui a
beaucoup de données.
§ Nous avons obtenu un résultat sur le test set de : 0.7675.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
25. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Proposition d’améliorations
Proposition d’améliorations
§ Chercher à construire de nouvelles features, soit en
considérant les données d’origine, soit en combinant les
features déjà obtenues.
§ Essayer les techniques du type apprentissage de métrique
+ clustering. L’apprentissage de métrique permettrait de
rapprocher les observations ayant la même classe tout en
éloignant celles dont la classe diffère entre elles.
§ Avec plus de puissance de calcul, essayer les réseaux de
neurones et les combiner avec les autres modèles.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
26. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Application web
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
27. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Feedback
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
28. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Une plateforme prometteuse ...
§ Une collaboration facilitée.
§ Un accès rapide à différentes ressources (notebooks,
tutoriels, données).
§ Une boîte à outil adaptée au Data Scientist (Python,
Rstudio, Spark ..).
§ Un service d’aide réactive et efficace.
§ Un système facile à prendre en main.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
29. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
... à améliorer
§ Probleme de vitesse d’exécution des scripts.
§ Pas de collaboration possible sur Rstudio.
§ Il n’y a pas de moyens simples pour inclure directement
des images dans les notebooks.
§ Ecriture de fichiers n’est pas immédiate.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
30. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Merci pour votre attention
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
31. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Contacts :
§ Abdellah Lamrani Alaoui :
§ abdellah.lamrani-alaoui@student.ecp.fr
§ Samed Atouati :
§ samed.atouati@student.ecp.fr
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !