Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Pump it up !
Atouati Samed - Lamrani Alaoui Abdellah
Ecole Centrale Paris - IBM
March 20, 2017
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Qui sommes nous ?
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Présentation du projet
Contexte
Exploration du dataset
Notre approche
Data Science et Machine Learning
Feature engineering
Modèles de Machine Learning
Proposition d’améliorations
Visualisation
Feedback : Data Science Experience
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Contexte
Contexte
§ Data Challenge : https://www.drivendata.org/
§ Données fournies par le ministère des eaux de Tanzanie et
Taarifa (une plateforme web collaborative à caractère
sociale).
§ But : Prédire le caractère "fonctionnel", "fonctionnel mais a
besoin de réparation" et "non fonctionnel" de pompes à
eaux en Tanzanie.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Exploration du dataset
Exploration du dataset
§ Pour prédire la fonctionnalité des pompes nous avons à
notre disposition 40 variables dont :
§ la position géographique
§ l’installateur
§ le type de pompe
§ ... (exploration sur le notebook)
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Data Science et Machine Learning
La Data Science
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Feature engineering
Feature engineering
Présentation du feature engineering dans le notebook.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Feature engineering
Machine Learning
§ Apprentissage par l’exemple pour un but d’analyse
prédictive.
§ Principalement 2 types d’Apprentissage :
§ Apprentissage supervisé (Régression, Classification)
§ Apprentissage non supervisé (Clustering)
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Feature engineering
Méthodologie
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
SVM
§ Modèle basé sur la construction d’un hyperplan
séparateur. Le but est de trouver l’hyperplan qui sépare le
mieux les données avec la plus grande marge (pouvoir de
généralisation).
Figure: SVM : hyperplan séparateur
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
SVM (l’astuce du noyau)
Figure: SVM : astuce du noyau
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Résultats
Figure: SVM : Résultats - Crossvalidation
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Remarques
§ SVM est un modèle intéressant car facile d’utilisation est
qui permet de gérer des données non linéaires mais ...
§ Résultats sur le test set : 0.54 de précision.
§ SVM est meilleur quand il n’y a pas beaucoup de données.
Random Forest performe mieux quand le nombre de
données est élevé.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Random Forest (1)
§ Méthode basée sur des arbres décisionnels :
Figure: Exemple d’arbre de décision
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Random Forest (2)
§ Il s’agit alors d’un classifieur construit à partir des
décisions de nombreux arbres décisionnels générés.
§ Les arbres sont construits à partir de données générées
(bootstrap / bagging).
§ A partir des votes des différents arbres, une décision est
prise.
§ Les forêts aléatoires sont un type d’algorithme avec l’une
des meilleures performances de nos jours.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Résultats
Figure: Résultats sur le cross-validation set: Random Forest
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Remarques
§ Random Forest est un modèle très intéressant car permet
de directement prendre en compte les variables
catégoriques et s’adapte bien aux valeurs manquantes.
§ Il s’agit d’une application directe du bagging pour
diminuer la variance. L’idée derrière l’algorithme est
intuitive mais il n’y a pas de preuves théoriques de ses
performances.
§ Nous avons obtenu un résultat sur le test set de : 0.73.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Gradient Boosting Classifier (1)
§ Methode basée sur un algorithme d’optimisation :
Gradient Descent.
Figure: Gradient Descent
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Gradient Boosting Classifier (2)
§ On considère une famille de classifieurs, par exemple les
arbres décisionnels.
§ On considère aussi une fonction de coût fonction des
classifieurs:
J(F(x)) = 7errors
§ On applique l’algorithme gradient descent à la fonction de
coût et on aboutit au classifieur minimisant l’erreur.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Résultats
Figure: Résultats sur le cross-validation set: Gradient Boosting
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Remarques
§ Le modèle Gradient Boosting avec les arbres de décision
est intéressant car permet parfois d’obtenir de meilleurs
résultats que Random Forest.
§ L’inconvénient est que le modèle est séquentiel,
contrairement à Random Forest qui a l’avantage de
pouvoir être parallélisé.
§ Nous avons obtenu un résultat sur le test set de : 0.76.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Stacking
Figure: Stacking
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Résultats
Figure: Résultats des différents modèles sur le cross-validation set.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Commentaires
§ Le gradient boosting donne de meilleurs résultats que les
forêts aléatoires et la régression logistique. Et le stacking
améliore légèrement la performance obtenue par le
gradient boosting.
§ Cependant le modèle est pour l’homme riche qui a
beaucoup de données.
§ Nous avons obtenu un résultat sur le test set de : 0.7675.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Proposition d’améliorations
Proposition d’améliorations
§ Chercher à construire de nouvelles features, soit en
considérant les données d’origine, soit en combinant les
features déjà obtenues.
§ Essayer les techniques du type apprentissage de métrique
+ clustering. L’apprentissage de métrique permettrait de
rapprocher les observations ayant la même classe tout en
éloignant celles dont la classe diffère entre elles.
§ Avec plus de puissance de calcul, essayer les réseaux de
neurones et les combiner avec les autres modèles.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Application web
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Feedback
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Une plateforme prometteuse ...
§ Une collaboration facilitée.
§ Un accès rapide à différentes ressources (notebooks,
tutoriels, données).
§ Une boîte à outil adaptée au Data Scientist (Python,
Rstudio, Spark ..).
§ Un service d’aide réactive et efficace.
§ Un système facile à prendre en main.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
... à améliorer
§ Probleme de vitesse d’exécution des scripts.
§ Pas de collaboration possible sur Rstudio.
§ Il n’y a pas de moyens simples pour inclure directement
des images dans les notebooks.
§ Ecriture de fichiers n’est pas immédiate.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Merci pour votre attention
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Contacts :
§ Abdellah Lamrani Alaoui :
§ abdellah.lamrani-alaoui@student.ecp.fr
§ Samed Atouati :
§ samed.atouati@student.ecp.fr
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !

Big Data Developers in Paris presentation : Social Data

  • 1.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Pump it up ! Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM March 20, 2017 Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 2.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Qui sommes nous ? Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 3.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Présentation du projet Contexte Exploration du dataset Notre approche Data Science et Machine Learning Feature engineering Modèles de Machine Learning Proposition d’améliorations Visualisation Feedback : Data Science Experience Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 4.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Contexte Contexte § Data Challenge : https://www.drivendata.org/ § Données fournies par le ministère des eaux de Tanzanie et Taarifa (une plateforme web collaborative à caractère sociale). § But : Prédire le caractère "fonctionnel", "fonctionnel mais a besoin de réparation" et "non fonctionnel" de pompes à eaux en Tanzanie. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 5.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Exploration du dataset Exploration du dataset § Pour prédire la fonctionnalité des pompes nous avons à notre disposition 40 variables dont : § la position géographique § l’installateur § le type de pompe § ... (exploration sur le notebook) Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 6.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Data Science et Machine Learning La Data Science Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 7.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Feature engineering Feature engineering Présentation du feature engineering dans le notebook. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 8.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Feature engineering Machine Learning § Apprentissage par l’exemple pour un but d’analyse prédictive. § Principalement 2 types d’Apprentissage : § Apprentissage supervisé (Régression, Classification) § Apprentissage non supervisé (Clustering) Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 9.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Feature engineering Méthodologie Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 10.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning SVM § Modèle basé sur la construction d’un hyperplan séparateur. Le but est de trouver l’hyperplan qui sépare le mieux les données avec la plus grande marge (pouvoir de généralisation). Figure: SVM : hyperplan séparateur Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 11.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning SVM (l’astuce du noyau) Figure: SVM : astuce du noyau Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 12.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Résultats Figure: SVM : Résultats - Crossvalidation Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 13.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Remarques § SVM est un modèle intéressant car facile d’utilisation est qui permet de gérer des données non linéaires mais ... § Résultats sur le test set : 0.54 de précision. § SVM est meilleur quand il n’y a pas beaucoup de données. Random Forest performe mieux quand le nombre de données est élevé. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 14.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Random Forest (1) § Méthode basée sur des arbres décisionnels : Figure: Exemple d’arbre de décision Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 15.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Random Forest (2) § Il s’agit alors d’un classifieur construit à partir des décisions de nombreux arbres décisionnels générés. § Les arbres sont construits à partir de données générées (bootstrap / bagging). § A partir des votes des différents arbres, une décision est prise. § Les forêts aléatoires sont un type d’algorithme avec l’une des meilleures performances de nos jours. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 16.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Résultats Figure: Résultats sur le cross-validation set: Random Forest Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 17.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Remarques § Random Forest est un modèle très intéressant car permet de directement prendre en compte les variables catégoriques et s’adapte bien aux valeurs manquantes. § Il s’agit d’une application directe du bagging pour diminuer la variance. L’idée derrière l’algorithme est intuitive mais il n’y a pas de preuves théoriques de ses performances. § Nous avons obtenu un résultat sur le test set de : 0.73. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 18.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Gradient Boosting Classifier (1) § Methode basée sur un algorithme d’optimisation : Gradient Descent. Figure: Gradient Descent Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 19.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Gradient Boosting Classifier (2) § On considère une famille de classifieurs, par exemple les arbres décisionnels. § On considère aussi une fonction de coût fonction des classifieurs: J(F(x)) = 7errors § On applique l’algorithme gradient descent à la fonction de coût et on aboutit au classifieur minimisant l’erreur. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 20.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Résultats Figure: Résultats sur le cross-validation set: Gradient Boosting Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 21.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Remarques § Le modèle Gradient Boosting avec les arbres de décision est intéressant car permet parfois d’obtenir de meilleurs résultats que Random Forest. § L’inconvénient est que le modèle est séquentiel, contrairement à Random Forest qui a l’avantage de pouvoir être parallélisé. § Nous avons obtenu un résultat sur le test set de : 0.76. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 22.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Stacking Figure: Stacking Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 23.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Résultats Figure: Résultats des différents modèles sur le cross-validation set. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 24.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Commentaires § Le gradient boosting donne de meilleurs résultats que les forêts aléatoires et la régression logistique. Et le stacking améliore légèrement la performance obtenue par le gradient boosting. § Cependant le modèle est pour l’homme riche qui a beaucoup de données. § Nous avons obtenu un résultat sur le test set de : 0.7675. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 25.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Proposition d’améliorations Proposition d’améliorations § Chercher à construire de nouvelles features, soit en considérant les données d’origine, soit en combinant les features déjà obtenues. § Essayer les techniques du type apprentissage de métrique + clustering. L’apprentissage de métrique permettrait de rapprocher les observations ayant la même classe tout en éloignant celles dont la classe diffère entre elles. § Avec plus de puissance de calcul, essayer les réseaux de neurones et les combiner avec les autres modèles. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 26.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Application web Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 27.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Feedback Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 28.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Une plateforme prometteuse ... § Une collaboration facilitée. § Un accès rapide à différentes ressources (notebooks, tutoriels, données). § Une boîte à outil adaptée au Data Scientist (Python, Rstudio, Spark ..). § Un service d’aide réactive et efficace. § Un système facile à prendre en main. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 29.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience ... à améliorer § Probleme de vitesse d’exécution des scripts. § Pas de collaboration possible sur Rstudio. § Il n’y a pas de moyens simples pour inclure directement des images dans les notebooks. § Ecriture de fichiers n’est pas immédiate. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 30.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Merci pour votre attention Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 31.
    Présentation du projetNotre approche Visualisation Feedback : Data Science Experience Contacts : § Abdellah Lamrani Alaoui : § abdellah.lamrani-alaoui@student.ecp.fr § Samed Atouati : § samed.atouati@student.ecp.fr Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !