Valtech - Big Data en action

1 848 vues

Publié le

Le buzz est à son comble, tout le monde en parle, mais avez-vous déjà eu l'occasion de voir un Data Scientist travailler en temps réel sur des données Big Data ? Découvrez un cas d’utilisation basé sur des données Open Data et sur un modèle predictif.

Geraud Duge De Bernonville - Architecte Big Data, Valtech
geraud.dugedebernonville@valtech.fr

Pierre-Yves Koenig - Data Scientist, Valtech
pierre-yves.koenig@valtech.fr

Publié dans : Technologie
0 commentaire
5 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 848
Sur SlideShare
0
Issues des intégrations
0
Intégrations
269
Actions
Partages
0
Téléchargements
101
Commentaires
0
J’aime
5
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Valtech - Big Data en action

  1. 1. 2 Sommaire! •  Qu’est-ce que l’« Open Data Scientist »?! •  Cas d’étude « eReputation »! •  Cas d’étude « Recommandation »! •  Cas d’étude « Molécules »! •  Cas d’étude « Velib » ! •  Conclusion! ! Open! Data Scientist! Géraud Dugé De Bernonville! ‎Architecte Big Data! ‎Valtech Toulouse! Pierre Yves Koenig! ‎Data Scientist! ‎Valtech Toulouse!
  2. 2. 3 Big! Buzz!
  3. 3. 4 Big Data! Buzz! «  Big  data  is  like  teenage  sex:     everyone  talks  about  it,     nobody  really  knows  how  to  do  it,     everyone  thinks  everyone  else  is  doing  it,     so  everyone  claims  they  are  doing  it.  »   Dan  Ariely  
  4. 4. 10,2 M€ Reste du Monde! 36 M€ USA! 36,3 M€ EUROPE DU SUD! 5 Big Data! Quelles solutions?!
  5. 5. 6 Nouveaux outils pour l’organisation des données! •  « Schema-less »! •  Tolérants aux pannes! •  Disponibles! •  Distribués! ! Big Data! NoSQL!
  6. 6. 7 Temps réel! ! Vs.! ! Batch! ! ! Big Data! Architectures!
  7. 7. 8 •  Liste non exhaustive !!!! •  Chaque jour de nouveaux acteurs ! Big Data! En perpétuelle évolution!
  8. 8. 9 Répondre! à une problématique!
  9. 9. 10 Pour cela Valtech propose une démarche itérative! ! •  Data Architecte / Architecte SI! •  Rôle prédominant du « Data Scientist »! Big Data! Démarche Valtech!
  10. 10. 10,2 M€ Reste du Monde! 36 M€ USA! 36,3 M€ EUROPE DU SUD! 65,1 M€ EUROPE DU NORD! 11 “Data Scientist: The Sexiest Job of the 21st”! Open! Data Scientist! “Data  Scien@st’s  Salary:   $150,000  –  $250,000  a  year”   fortune.com  
  11. 11. 12 Un domaine pluri-disciplinaire! Data! Science!
  12. 12. 13 Data Science! Dangers !!
  13. 13. 14 Utilisation de KNIME pour le prototypage, la fouille de données! ! Déclinaison vers des implémentations Big Data adaptées! Big Data! Du POC à la mise en œuvre!
  14. 14. 10,2 M€ Reste du Monde! 36 M€ USA! 36,3 M€ EUROPE DU SUD! 65,1 M€ EUROPE DU NORD! 15 « Elle est diffusée de manière structurée selon une  méthodologie et une licence ouverte garantissant son libre accès et sa réutilisation par tous, sans restriction technique, juridique ou financière. »! Cas d’utilisation! Open Data!
  15. 15. 16 •  Source d’innovation! •  Tranquilien (SNCF)! •  Paris’Moov! •  …! •  Concours! Enjeux! Open Data!
  16. 16. 17 Data Scientist! ToolBox!
  17. 17. 18 Description! ToolBox! KNIME!
  18. 18. 19 Description! ToolBox! Tulip!
  19. 19. 20 Démarche! Data Scientist!
  20. 20. 21 • Collecte de l’information! • Pré-traitement! • Traitement! • Regroupement! • Présentation! ! Démarche! Case Study! Case Study :! •  eReputation! •  Recommandation! •  Molecules! •  Velib!
  21. 21. 22 Case study eReputation!
  22. 22. 65,1 M€ EUROPE DU NORD! 23 • Problématique! • Collecte d’information! • Pré-traitement! • Traitement! • Regroupement! • Présentation! ! Case study! eReputation!
  23. 23. 24 Du POC au Big Data! eReputation! •  Cloud Amazon! •  Elastic MapReduce! •  DynamoDB! •  Hadoop et Mahout! ! !
  24. 24. 25 Du POC au Big Data! eReputation!
  25. 25. 26 Case study Recommandation!
  26. 26. 27 Case study! Recommandation! • Problématique! • Collecte d’information! • Pré-traitement! • Traitement! • Regroupement! • Présentation! !
  27. 27. 28 Case study Molécules!
  28. 28. 29 Case study! Molécules! • Problématique! • Collecte d’information! • Pré-traitement! • Traitement! • Regroupement! • Présentation / Exploration! !
  29. 29. 30 Contexte! Problématique!
  30. 30. 31 Analyse et Structure de la donnée! Pré traitement des données !
  31. 31. 32 Case study! Molécules! Phase de traitement! ! Choix du type de distance :! •  euclidienne! •  cosinus ! •  Tanimoto! •  …! !
  32. 32. 33 Réseau de molécules! Filtres !
  33. 33. 34 Visualisation du réseau! Exploration !
  34. 34. 35 Case study! Molécules! Dessin de graphe : ! Algrithme force-resort!
  35. 35. 36 Case study! Molécules! Dessin de graphe : ! Treemap circulaire!
  36. 36. 37 Exploration! Par voisinage !
  37. 37. 38 Case study! Molécules! Demo! !
  38. 38. 39 Case study ! Velib!
  39. 39. 40 Case study! Velib’! •  Problématique! •  Collecte d’information! •  Pré-traitement! •  Traitement! •  Regroupement! •  Présentation! •  Définition d’un modèle ! prédictif!
  40. 40. 41 Case study! Velib’! Défini4on  d’un  model  prédic4f   •  Ajout  des  informa4ons  sur  la  météo   •  Evalua4on    
  41. 41. 42 Pour conclure!
  42. 42. 43 Positionnement de Valtech :! •  Brainstormings pour identifier les cas d’utilisations! •  Conseil en Architecture Big Data / Lambda ! •  Expertise NoSQL, Hadoop, Storm, Spark! •  Analyse de données / Data Mining! •  Formations Big Data, NoSQL, Hadoop! Pour aller plus loin! Positionnement Valtech!
  43. 43. 44 Petit-Déjeuner Bug Data et NoSQL le mardi 28 avril :! Valtech et Basho vous présenteront les différents modèles de base de donnée ainsi qu’un retour d’expérience sur la gestion en NoSQL des patients du système de santé anglais! ! Ce séminaire permettra d’aborder les points suivants :! •  Présentation des offres Big Data Valtech! •  Présentation des différentes modèles de bases de données NoSQL! •  Le cas National Health System! •  Présentation de Riak! Pour aller plus loin! Prochainement Valtech!
  44. 44. 45 Picto   sec)on   Merci! de votre attention!

×