SlideShare une entreprise Scribd logo
1  sur  31
Télécharger pour lire hors ligne
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Pump it up !
Atouati Samed - Lamrani Alaoui Abdellah
Ecole Centrale Paris - IBM
March 20, 2017
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Qui sommes nous ?
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Présentation du projet
Contexte
Exploration du dataset
Notre approche
Data Science et Machine Learning
Feature engineering
Modèles de Machine Learning
Proposition d’améliorations
Visualisation
Feedback : Data Science Experience
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Contexte
Contexte
§ Data Challenge : https://www.drivendata.org/
§ Données fournies par le ministère des eaux de Tanzanie et
Taarifa (une plateforme web collaborative à caractère
sociale).
§ But : Prédire le caractère "fonctionnel", "fonctionnel mais a
besoin de réparation" et "non fonctionnel" de pompes à
eaux en Tanzanie.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Exploration du dataset
Exploration du dataset
§ Pour prédire la fonctionnalité des pompes nous avons à
notre disposition 40 variables dont :
§ la position géographique
§ l’installateur
§ le type de pompe
§ ... (exploration sur le notebook)
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Data Science et Machine Learning
La Data Science
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Feature engineering
Feature engineering
Présentation du feature engineering dans le notebook.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Feature engineering
Machine Learning
§ Apprentissage par l’exemple pour un but d’analyse
prédictive.
§ Principalement 2 types d’Apprentissage :
§ Apprentissage supervisé (Régression, Classification)
§ Apprentissage non supervisé (Clustering)
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Feature engineering
Méthodologie
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
SVM
§ Modèle basé sur la construction d’un hyperplan
séparateur. Le but est de trouver l’hyperplan qui sépare le
mieux les données avec la plus grande marge (pouvoir de
généralisation).
Figure: SVM : hyperplan séparateur
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
SVM (l’astuce du noyau)
Figure: SVM : astuce du noyau
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Résultats
Figure: SVM : Résultats - Crossvalidation
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Remarques
§ SVM est un modèle intéressant car facile d’utilisation est
qui permet de gérer des données non linéaires mais ...
§ Résultats sur le test set : 0.54 de précision.
§ SVM est meilleur quand il n’y a pas beaucoup de données.
Random Forest performe mieux quand le nombre de
données est élevé.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Random Forest (1)
§ Méthode basée sur des arbres décisionnels :
Figure: Exemple d’arbre de décision
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Random Forest (2)
§ Il s’agit alors d’un classifieur construit à partir des
décisions de nombreux arbres décisionnels générés.
§ Les arbres sont construits à partir de données générées
(bootstrap / bagging).
§ A partir des votes des différents arbres, une décision est
prise.
§ Les forêts aléatoires sont un type d’algorithme avec l’une
des meilleures performances de nos jours.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Résultats
Figure: Résultats sur le cross-validation set: Random Forest
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Remarques
§ Random Forest est un modèle très intéressant car permet
de directement prendre en compte les variables
catégoriques et s’adapte bien aux valeurs manquantes.
§ Il s’agit d’une application directe du bagging pour
diminuer la variance. L’idée derrière l’algorithme est
intuitive mais il n’y a pas de preuves théoriques de ses
performances.
§ Nous avons obtenu un résultat sur le test set de : 0.73.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Gradient Boosting Classifier (1)
§ Methode basée sur un algorithme d’optimisation :
Gradient Descent.
Figure: Gradient Descent
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Gradient Boosting Classifier (2)
§ On considère une famille de classifieurs, par exemple les
arbres décisionnels.
§ On considère aussi une fonction de coût fonction des
classifieurs:
J(F(x)) = 7errors
§ On applique l’algorithme gradient descent à la fonction de
coût et on aboutit au classifieur minimisant l’erreur.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Résultats
Figure: Résultats sur le cross-validation set: Gradient Boosting
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Remarques
§ Le modèle Gradient Boosting avec les arbres de décision
est intéressant car permet parfois d’obtenir de meilleurs
résultats que Random Forest.
§ L’inconvénient est que le modèle est séquentiel,
contrairement à Random Forest qui a l’avantage de
pouvoir être parallélisé.
§ Nous avons obtenu un résultat sur le test set de : 0.76.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Stacking
Figure: Stacking
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Résultats
Figure: Résultats des différents modèles sur le cross-validation set.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Commentaires
§ Le gradient boosting donne de meilleurs résultats que les
forêts aléatoires et la régression logistique. Et le stacking
améliore légèrement la performance obtenue par le
gradient boosting.
§ Cependant le modèle est pour l’homme riche qui a
beaucoup de données.
§ Nous avons obtenu un résultat sur le test set de : 0.7675.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Proposition d’améliorations
Proposition d’améliorations
§ Chercher à construire de nouvelles features, soit en
considérant les données d’origine, soit en combinant les
features déjà obtenues.
§ Essayer les techniques du type apprentissage de métrique
+ clustering. L’apprentissage de métrique permettrait de
rapprocher les observations ayant la même classe tout en
éloignant celles dont la classe diffère entre elles.
§ Avec plus de puissance de calcul, essayer les réseaux de
neurones et les combiner avec les autres modèles.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Application web
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Feedback
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Une plateforme prometteuse ...
§ Une collaboration facilitée.
§ Un accès rapide à différentes ressources (notebooks,
tutoriels, données).
§ Une boîte à outil adaptée au Data Scientist (Python,
Rstudio, Spark ..).
§ Un service d’aide réactive et efficace.
§ Un système facile à prendre en main.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
... à améliorer
§ Probleme de vitesse d’exécution des scripts.
§ Pas de collaboration possible sur Rstudio.
§ Il n’y a pas de moyens simples pour inclure directement
des images dans les notebooks.
§ Ecriture de fichiers n’est pas immédiate.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Merci pour votre attention
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Contacts :
§ Abdellah Lamrani Alaoui :
§ abdellah.lamrani-alaoui@student.ecp.fr
§ Samed Atouati :
§ samed.atouati@student.ecp.fr
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !

Contenu connexe

En vedette

SureHelp Cloud Based Help Desk, www.surehelp.co
SureHelp Cloud Based Help Desk, www.surehelp.coSureHelp Cloud Based Help Desk, www.surehelp.co
SureHelp Cloud Based Help Desk, www.surehelp.coEric Sadoun
 
A operação carne fraca levantou muitas dúvidas
A operação carne fraca levantou muitas dúvidasA operação carne fraca levantou muitas dúvidas
A operação carne fraca levantou muitas dúvidasDo outro lado da barricada
 
3 Things Every Sales Team Needs to Be Thinking About in 2017
3 Things Every Sales Team Needs to Be Thinking About in 20173 Things Every Sales Team Needs to Be Thinking About in 2017
3 Things Every Sales Team Needs to Be Thinking About in 2017Drift
 
Bloque 6. el tiempo geológico
Bloque 6. el tiempo geológicoBloque 6. el tiempo geológico
Bloque 6. el tiempo geológicosaragalanbiogeo
 

En vedette (7)

DIÁRIO OFICIAL DE ILHÉUS DO DIA 20-03-2017
DIÁRIO OFICIAL DE ILHÉUS DO DIA 20-03-2017DIÁRIO OFICIAL DE ILHÉUS DO DIA 20-03-2017
DIÁRIO OFICIAL DE ILHÉUS DO DIA 20-03-2017
 
Add boq tpa morowali
Add boq tpa morowaliAdd boq tpa morowali
Add boq tpa morowali
 
Lenguaje 3 r0 d
Lenguaje 3 r0 dLenguaje 3 r0 d
Lenguaje 3 r0 d
 
SureHelp Cloud Based Help Desk, www.surehelp.co
SureHelp Cloud Based Help Desk, www.surehelp.coSureHelp Cloud Based Help Desk, www.surehelp.co
SureHelp Cloud Based Help Desk, www.surehelp.co
 
A operação carne fraca levantou muitas dúvidas
A operação carne fraca levantou muitas dúvidasA operação carne fraca levantou muitas dúvidas
A operação carne fraca levantou muitas dúvidas
 
3 Things Every Sales Team Needs to Be Thinking About in 2017
3 Things Every Sales Team Needs to Be Thinking About in 20173 Things Every Sales Team Needs to Be Thinking About in 2017
3 Things Every Sales Team Needs to Be Thinking About in 2017
 
Bloque 6. el tiempo geológico
Bloque 6. el tiempo geológicoBloque 6. el tiempo geológico
Bloque 6. el tiempo geológico
 

Similaire à Big Data Developers in Paris presentation : Social Data

Convaincre grâce aux données - Kent Aquereburu Data Scientist chez Société Gé...
Convaincre grâce aux données - Kent Aquereburu Data Scientist chez Société Gé...Convaincre grâce aux données - Kent Aquereburu Data Scientist chez Société Gé...
Convaincre grâce aux données - Kent Aquereburu Data Scientist chez Société Gé...Jedha Bootcamp
 
Romuald deloumeaux 2015.06.27 - measure camp - aa
Romuald deloumeaux   2015.06.27 - measure camp - aa Romuald deloumeaux   2015.06.27 - measure camp - aa
Romuald deloumeaux 2015.06.27 - measure camp - aa measurecampparis
 
DataOps introduction : DataOps is not only DevOps applied to data!
DataOps introduction : DataOps is not only DevOps applied to data!DataOps introduction : DataOps is not only DevOps applied to data!
DataOps introduction : DataOps is not only DevOps applied to data!Adrien Blind
 
2013.04.12 Symfony et eZ Publish, embarquement immédiat - AFUP Lyon Conference
2013.04.12 Symfony et eZ Publish, embarquement immédiat - AFUP Lyon Conference2013.04.12 Symfony et eZ Publish, embarquement immédiat - AFUP Lyon Conference
2013.04.12 Symfony et eZ Publish, embarquement immédiat - AFUP Lyon ConferenceNicolas Pastorino
 
Alphorm.com Formation les fondamentaux de Matlab 2013 A
Alphorm.com  Formation les fondamentaux de Matlab 2013 AAlphorm.com  Formation les fondamentaux de Matlab 2013 A
Alphorm.com Formation les fondamentaux de Matlab 2013 AAlphorm
 
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...OCTO Technology
 
D’un modèle d'IA dans un notebook à un service temps réel : architecturons !
D’un modèle d'IA dans un notebook à un service temps réel : architecturons ! D’un modèle d'IA dans un notebook à un service temps réel : architecturons !
D’un modèle d'IA dans un notebook à un service temps réel : architecturons ! Marie-Alice Blete
 
Amina 2010 workshop slides final version
Amina 2010 workshop slides final versionAmina 2010 workshop slides final version
Amina 2010 workshop slides final versionRMwebsite
 
Éditeurs d'applications mobiles : augmentez la résolution des photos de vos c...
Éditeurs d'applications mobiles : augmentez la résolution des photos de vos c...Éditeurs d'applications mobiles : augmentez la résolution des photos de vos c...
Éditeurs d'applications mobiles : augmentez la résolution des photos de vos c...Scaleway
 
Propulsez votre architecture grâce au TDD et aux mocks (Agile Québec 2013)
Propulsez votre architecture grâce au TDD et aux mocks (Agile Québec 2013)Propulsez votre architecture grâce au TDD et aux mocks (Agile Québec 2013)
Propulsez votre architecture grâce au TDD et aux mocks (Agile Québec 2013)Elapse Technologies
 
TP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage MachineTP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage MachineBoubaker KHMILI
 
2018-10-18 J2 2C - REX Power BI comment transmettre la culture Data à votre b...
2018-10-18 J2 2C - REX Power BI comment transmettre la culture Data à votre b...2018-10-18 J2 2C - REX Power BI comment transmettre la culture Data à votre b...
2018-10-18 J2 2C - REX Power BI comment transmettre la culture Data à votre b...Modern Workplace Conference Paris
 
B5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olap
B5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olapB5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olap
B5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olapCERTyou Formation
 
Softshake 2015 comment tester et optimiser la performance d'un si
Softshake 2015   comment tester et optimiser la performance d'un siSoftshake 2015   comment tester et optimiser la performance d'un si
Softshake 2015 comment tester et optimiser la performance d'un siMarc Bojoly
 
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...OCTO Technology
 
Webcom Montreal 2008 Pascal Veilleux
Webcom Montreal 2008 Pascal VeilleuxWebcom Montreal 2008 Pascal Veilleux
Webcom Montreal 2008 Pascal Veilleuxgagnonc
 
Gaib19 ai intudstrialisation - azure machine learning services
Gaib19   ai intudstrialisation - azure machine learning servicesGaib19   ai intudstrialisation - azure machine learning services
Gaib19 ai intudstrialisation - azure machine learning servicesFabien Adato
 
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...I MT
 
RMLL 2013: Projet rudder, retour sur 4 ans de Scala
RMLL 2013: Projet rudder, retour sur 4 ans de ScalaRMLL 2013: Projet rudder, retour sur 4 ans de Scala
RMLL 2013: Projet rudder, retour sur 4 ans de ScalaRUDDER
 

Similaire à Big Data Developers in Paris presentation : Social Data (20)

Debuteraveclesmls
DebuteraveclesmlsDebuteraveclesmls
Debuteraveclesmls
 
Convaincre grâce aux données - Kent Aquereburu Data Scientist chez Société Gé...
Convaincre grâce aux données - Kent Aquereburu Data Scientist chez Société Gé...Convaincre grâce aux données - Kent Aquereburu Data Scientist chez Société Gé...
Convaincre grâce aux données - Kent Aquereburu Data Scientist chez Société Gé...
 
Romuald deloumeaux 2015.06.27 - measure camp - aa
Romuald deloumeaux   2015.06.27 - measure camp - aa Romuald deloumeaux   2015.06.27 - measure camp - aa
Romuald deloumeaux 2015.06.27 - measure camp - aa
 
DataOps introduction : DataOps is not only DevOps applied to data!
DataOps introduction : DataOps is not only DevOps applied to data!DataOps introduction : DataOps is not only DevOps applied to data!
DataOps introduction : DataOps is not only DevOps applied to data!
 
2013.04.12 Symfony et eZ Publish, embarquement immédiat - AFUP Lyon Conference
2013.04.12 Symfony et eZ Publish, embarquement immédiat - AFUP Lyon Conference2013.04.12 Symfony et eZ Publish, embarquement immédiat - AFUP Lyon Conference
2013.04.12 Symfony et eZ Publish, embarquement immédiat - AFUP Lyon Conference
 
Alphorm.com Formation les fondamentaux de Matlab 2013 A
Alphorm.com  Formation les fondamentaux de Matlab 2013 AAlphorm.com  Formation les fondamentaux de Matlab 2013 A
Alphorm.com Formation les fondamentaux de Matlab 2013 A
 
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
 
D’un modèle d'IA dans un notebook à un service temps réel : architecturons !
D’un modèle d'IA dans un notebook à un service temps réel : architecturons ! D’un modèle d'IA dans un notebook à un service temps réel : architecturons !
D’un modèle d'IA dans un notebook à un service temps réel : architecturons !
 
Amina 2010 workshop slides final version
Amina 2010 workshop slides final versionAmina 2010 workshop slides final version
Amina 2010 workshop slides final version
 
Éditeurs d'applications mobiles : augmentez la résolution des photos de vos c...
Éditeurs d'applications mobiles : augmentez la résolution des photos de vos c...Éditeurs d'applications mobiles : augmentez la résolution des photos de vos c...
Éditeurs d'applications mobiles : augmentez la résolution des photos de vos c...
 
Propulsez votre architecture grâce au TDD et aux mocks (Agile Québec 2013)
Propulsez votre architecture grâce au TDD et aux mocks (Agile Québec 2013)Propulsez votre architecture grâce au TDD et aux mocks (Agile Québec 2013)
Propulsez votre architecture grâce au TDD et aux mocks (Agile Québec 2013)
 
TP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage MachineTP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage Machine
 
2018-10-18 J2 2C - REX Power BI comment transmettre la culture Data à votre b...
2018-10-18 J2 2C - REX Power BI comment transmettre la culture Data à votre b...2018-10-18 J2 2C - REX Power BI comment transmettre la culture Data à votre b...
2018-10-18 J2 2C - REX Power BI comment transmettre la culture Data à votre b...
 
B5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olap
B5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olapB5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olap
B5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olap
 
Softshake 2015 comment tester et optimiser la performance d'un si
Softshake 2015   comment tester et optimiser la performance d'un siSoftshake 2015   comment tester et optimiser la performance d'un si
Softshake 2015 comment tester et optimiser la performance d'un si
 
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
 
Webcom Montreal 2008 Pascal Veilleux
Webcom Montreal 2008 Pascal VeilleuxWebcom Montreal 2008 Pascal Veilleux
Webcom Montreal 2008 Pascal Veilleux
 
Gaib19 ai intudstrialisation - azure machine learning services
Gaib19   ai intudstrialisation - azure machine learning servicesGaib19   ai intudstrialisation - azure machine learning services
Gaib19 ai intudstrialisation - azure machine learning services
 
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
 
RMLL 2013: Projet rudder, retour sur 4 ans de Scala
RMLL 2013: Projet rudder, retour sur 4 ans de ScalaRMLL 2013: Projet rudder, retour sur 4 ans de Scala
RMLL 2013: Projet rudder, retour sur 4 ans de Scala
 

Big Data Developers in Paris presentation : Social Data

  • 1. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Pump it up ! Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM March 20, 2017 Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 2. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Qui sommes nous ? Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 3. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Présentation du projet Contexte Exploration du dataset Notre approche Data Science et Machine Learning Feature engineering Modèles de Machine Learning Proposition d’améliorations Visualisation Feedback : Data Science Experience Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 4. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Contexte Contexte § Data Challenge : https://www.drivendata.org/ § Données fournies par le ministère des eaux de Tanzanie et Taarifa (une plateforme web collaborative à caractère sociale). § But : Prédire le caractère "fonctionnel", "fonctionnel mais a besoin de réparation" et "non fonctionnel" de pompes à eaux en Tanzanie. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 5. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Exploration du dataset Exploration du dataset § Pour prédire la fonctionnalité des pompes nous avons à notre disposition 40 variables dont : § la position géographique § l’installateur § le type de pompe § ... (exploration sur le notebook) Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 6. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Data Science et Machine Learning La Data Science Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 7. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Feature engineering Feature engineering Présentation du feature engineering dans le notebook. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 8. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Feature engineering Machine Learning § Apprentissage par l’exemple pour un but d’analyse prédictive. § Principalement 2 types d’Apprentissage : § Apprentissage supervisé (Régression, Classification) § Apprentissage non supervisé (Clustering) Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 9. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Feature engineering Méthodologie Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 10. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning SVM § Modèle basé sur la construction d’un hyperplan séparateur. Le but est de trouver l’hyperplan qui sépare le mieux les données avec la plus grande marge (pouvoir de généralisation). Figure: SVM : hyperplan séparateur Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 11. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning SVM (l’astuce du noyau) Figure: SVM : astuce du noyau Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 12. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Résultats Figure: SVM : Résultats - Crossvalidation Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 13. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Remarques § SVM est un modèle intéressant car facile d’utilisation est qui permet de gérer des données non linéaires mais ... § Résultats sur le test set : 0.54 de précision. § SVM est meilleur quand il n’y a pas beaucoup de données. Random Forest performe mieux quand le nombre de données est élevé. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 14. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Random Forest (1) § Méthode basée sur des arbres décisionnels : Figure: Exemple d’arbre de décision Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 15. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Random Forest (2) § Il s’agit alors d’un classifieur construit à partir des décisions de nombreux arbres décisionnels générés. § Les arbres sont construits à partir de données générées (bootstrap / bagging). § A partir des votes des différents arbres, une décision est prise. § Les forêts aléatoires sont un type d’algorithme avec l’une des meilleures performances de nos jours. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 16. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Résultats Figure: Résultats sur le cross-validation set: Random Forest Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 17. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Remarques § Random Forest est un modèle très intéressant car permet de directement prendre en compte les variables catégoriques et s’adapte bien aux valeurs manquantes. § Il s’agit d’une application directe du bagging pour diminuer la variance. L’idée derrière l’algorithme est intuitive mais il n’y a pas de preuves théoriques de ses performances. § Nous avons obtenu un résultat sur le test set de : 0.73. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 18. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Gradient Boosting Classifier (1) § Methode basée sur un algorithme d’optimisation : Gradient Descent. Figure: Gradient Descent Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 19. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Gradient Boosting Classifier (2) § On considère une famille de classifieurs, par exemple les arbres décisionnels. § On considère aussi une fonction de coût fonction des classifieurs: J(F(x)) = 7errors § On applique l’algorithme gradient descent à la fonction de coût et on aboutit au classifieur minimisant l’erreur. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 20. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Résultats Figure: Résultats sur le cross-validation set: Gradient Boosting Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 21. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Remarques § Le modèle Gradient Boosting avec les arbres de décision est intéressant car permet parfois d’obtenir de meilleurs résultats que Random Forest. § L’inconvénient est que le modèle est séquentiel, contrairement à Random Forest qui a l’avantage de pouvoir être parallélisé. § Nous avons obtenu un résultat sur le test set de : 0.76. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 22. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Stacking Figure: Stacking Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 23. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Résultats Figure: Résultats des différents modèles sur le cross-validation set. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 24. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Modèles de Machine Learning Commentaires § Le gradient boosting donne de meilleurs résultats que les forêts aléatoires et la régression logistique. Et le stacking améliore légèrement la performance obtenue par le gradient boosting. § Cependant le modèle est pour l’homme riche qui a beaucoup de données. § Nous avons obtenu un résultat sur le test set de : 0.7675. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 25. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Proposition d’améliorations Proposition d’améliorations § Chercher à construire de nouvelles features, soit en considérant les données d’origine, soit en combinant les features déjà obtenues. § Essayer les techniques du type apprentissage de métrique + clustering. L’apprentissage de métrique permettrait de rapprocher les observations ayant la même classe tout en éloignant celles dont la classe diffère entre elles. § Avec plus de puissance de calcul, essayer les réseaux de neurones et les combiner avec les autres modèles. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 26. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Application web Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 27. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Feedback Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 28. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Une plateforme prometteuse ... § Une collaboration facilitée. § Un accès rapide à différentes ressources (notebooks, tutoriels, données). § Une boîte à outil adaptée au Data Scientist (Python, Rstudio, Spark ..). § Un service d’aide réactive et efficace. § Un système facile à prendre en main. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 29. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience ... à améliorer § Probleme de vitesse d’exécution des scripts. § Pas de collaboration possible sur Rstudio. § Il n’y a pas de moyens simples pour inclure directement des images dans les notebooks. § Ecriture de fichiers n’est pas immédiate. Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 30. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Merci pour votre attention Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !
  • 31. Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Contacts : § Abdellah Lamrani Alaoui : § abdellah.lamrani-alaoui@student.ecp.fr § Samed Atouati : § samed.atouati@student.ecp.fr Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !