Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Valtech - Big Data en action

1 850 vues

Publié le

Le buzz est à son comble, tout le monde en parle, mais avez-vous vu un Data Scientist travailler en temps réel sur des données Big Data ? Découvrez un cas d’utilisation basé sur des données Open Data et sur un modèle predictif.

Hervé Desaunois - Directeur technique, Valtech Toulouse
herve.desaunois@valtech.fr

Pierre-Yves Koenig – Data Scientist, Valtech Toulouse
pierre-yves.koenig@valtech.fr

Publié dans : Technologie
  • Soyez le premier à commenter

Valtech - Big Data en action

  1. 1. Pierre Yves Koenig Data Scientist Valtech Toulouse 2 Open Data Scientist Sommaire • Qu’est-ce que l’« Open Data Scientist »? • Cas d’étude « eReputation » • Cas d’étude « Recommandation » • Cas d’étude « Molécules » • Cas d’étude « Velib » (ébauche) • Conclusion Géraud Dugé de Bernonville Architecte Big Data Valtech Toulouse
  2. 2. 3 Big Buzz
  3. 3. 4 Big Data Buzz « Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it. » Dan Ariely
  4. 4. 10,2 M€ Reste du Monde 36 M€ USA 36,3 M€ EUROPE DU SUD 5 Big Data Quelles solutions?
  5. 5. Nouveaux outils pour l’organisation des données • « schema-less » • Tolérants aux pannes • Disponibles • Distribués 6 Big Data NoSQL
  6. 6. 7 Big Data Architectures Temps réel Vs. Batch
  7. 7. • Liste non exhaustive !!! • Chaque jour de nouveaux acteurs 8 Big Data En perpétuelle évolution
  8. 8. 9 Picto section Répondre à une problématique
  9. 9. 10 Big Data Démarche Valtech Pour cela Valtech propose une démarche itérative • Data architecte / architecte SI • Rôle prédominant du « Data Scientist »
  10. 10. 10,2 M€ Reste du Monde 36 M€ USA 36,3 M€ EUROPE DU SUD 65,1 M€ EUROPE DU NORD 11 Open Data Scientist “Data Scientist: The Sexiest Job of the 21st” “Data Scientist’s Salary: $150,000 – $250,000 a year” fortune.com
  11. 11. 12 Data Science Un domaine pluri-disciplinaire
  12. 12. 13 Data Science Dangers !
  13. 13. 14 Big Data Du POC à la mise en oeuvre Utilisation de KNIME pour le prototypage, la fouille de données Déclinaison vers des implémentations Big Data adaptées
  14. 14. 10,2 M€ Reste du Monde 36 M€ USA 36,3 M€ EUROPE DU SUD 65,1 M€ EUROPE DU NORD « Elle est diffusée de manière structurée selon une méthodologie et une licence ouverte garantissant son libre accès et sa réutilisation par tous, sans restriction technique, juridique ou financière. » 15 Cas d’utilisation Open Data
  15. 15. Enjeux Open Data • Source d’innovation 16 • Tranquilien (SNCF) • Paris’Moov • Concours
  16. 16. 17 Picto section Data Scientist ToolBox
  17. 17. 18 ToolBox KNIME Description
  18. 18. 19 ToolBox Tulip Description
  19. 19. 20 Picto section Démarche Data Scientist
  20. 20. 21 Démarche Case Study • Collecte de l’information • Pré-traitement • Traitement • Regroupement • Présentation Case Study : • eReputation • Recommandation • Molecules • Velib
  21. 21. 22 Picto section Case study eReputation
  22. 22. 65,1 M€ EUROPE DU NORD 23 Case study eReputation • Problématique • Collecte d’information • Pré-traitement • Traitement • Regroupement • Présentation
  23. 23. 24 Du POC au Big Data eReputation • Cloud Amazon • Elastic MapReduce • DynamoDB • Hadoop et Mahout
  24. 24. 25 Du POC au Big Data eReputation
  25. 25. 26 Picto section Case study Recommandation
  26. 26. 27 Case study Recommandation • Problématique • Collecte d’information • Pré-traitement • Traitement • Regroupement • Présentation
  27. 27. 28 Picto section Case study Molécules
  28. 28. 29 Case study Molécules • Problématique • Collecte d’information • Pré-traitement • Traitement • Regroupement • Présentation / Exploration
  29. 29. 30 Contexte Problématique
  30. 30. 31 Analyse et Structure de la donnée Pré traitement des données
  31. 31. 32 Case study Molécules Phase de traitement Choix du type de distance : • euclidienne • cosinus • Tanimoto • …
  32. 32. 33 Réseau de molécules Filtres
  33. 33. 34 Visualisation du réseau Exploration
  34. 34. 35 Case study Molécules Dessin de graphe : Algrithme force-resort
  35. 35. 36 Case study Molécules Dessin de graphe : Treemap circulaire
  36. 36. 37 Exploration Par voisinage
  37. 37. 38 Case study Molécules Demo
  38. 38. 39 Picto section Case study Velib’
  39. 39. 40 Case study Velib’ • Problématique • Collecte d’information • Pré-traitement • Traitement • Regroupement • Présentation • Définition d’un modèle prédictif
  40. 40. 41 Case study Velib’ Définition d’un model prédictif • Ajout des informations sur la météo • Evaluation
  41. 41. 42 Picto section Pour conclure
  42. 42. 43 Pour aller plus loin Positionnement Valtech Positionnement de Valtech : • Brainstormings pour identifier les cas d’utilisation • Conseil en Architecture Big Data • Expertise NoSQL, Hadoop • Analyse de données • Formations Big Data, NoSQL, Hadoop
  43. 43. 44 Picto section Merci de votre attention

×