Valtech - Big Data en action

1 690 vues

Publié le

Le buzz est à son comble, tout le monde en parle, mais avez-vous vu un Data Scientist travailler en temps réel sur des données Big Data ? Découvrez un cas d’utilisation basé sur des données Open Data et sur un modèle predictif.

Hervé Desaunois - Directeur technique, Valtech Toulouse
herve.desaunois@valtech.fr

Pierre-Yves Koenig – Data Scientist, Valtech Toulouse
pierre-yves.koenig@valtech.fr

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 690
Sur SlideShare
0
Issues des intégrations
0
Intégrations
355
Actions
Partages
0
Téléchargements
44
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Visuel à remplacer par une nouvelle photo montrant en premier plan net les nouveaux devices, et en arrière plan, flou, les hommes qui développent et utilisent ce objets.
  • À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
  • Ref — Dan Ariely
    Date de janvier 2013, depuis cela a évolué: il existe de véritables réalisation de Big Data
  • Ref : http://batman.wikia.com/wiki/The_Riddler_%28Frank_Gorshin%29

    Idéalement, il faut partir d’une problématique, pour aider, Valtech mets en place des sessions de Brainstorming basées sur des Innovation games afin de définir les cas d’utilisation
  • Salaire: https://datajobs.com/big-data-salary
  • Ref: http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

    Statistics helps by making sure your conclusions are valid. Machine learning helps by making your predictions of the future accurate. Math is a general skill that helps everything.

    Les dangers:
    Finding false causation
    Building bad models
    Bad A/B tests
    Telling bad stories

    Ref: http://www.quora.com/In-the-data-science-venn-diagram-why-is-the-common-region-of-Hacking-Skills-and-Substantive-Expertise-considered-as-danger-zone
  • Ref http://www.tylervigen.com/
  • Proto avec Knime: Knime plateforme dotée d’un ETL, permettant l’analyse de donnée et la visualisation.
    L’idée est de valider une méthologie avec KNIME qui permet un prototypage rapide
  • http://www.w3.org/DesignIssues/LinkedData.html
  • http://www.w3.org/DesignIssues/LinkedData.html
  • À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
  • À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.

  • Le datascientist intervient a different dans le processus d’analyse.
    Source -> validité
    Manipulation -> pourquoi filtrer des valeur qui sont par exemple statistiquement non significative
    Valarisation -> quels type d’algorithm est le mieux adapter à la question posée

    IL nous faut une question
    `
    Collect de l’information
    - Au choix : bd sql /nosql; fichier, des site internet, web service …

    Pre traitement des données
    Utilisation massive de knime
    Le pre traitement peut etre du text mining -> case study eReputation
    Recherche d’artefacts ou données non utiles-> recommandation
    Image : histogram des couleur
    Text : occurrence – filtre -> eReputation
    Filter -> velib

    Valorisation
    Suivant le type des données
    Image : feature inside, classification
    Text : mise en evidence de thematique, regroupement de document -> ereputaion
    Suivant la masse des données
    Regroupement -> molecules
    Suivant la complexité des données
    Structuration de la donnée
    Mise en graphe -> molecules
    Regroupement / clustering ou profilage
    Definitionde model predictif

    Presentation/ representation
    Information peut rester volumineuse
    Differentes representations
    Visualisation


  • À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
  • • problématique
    - visibilité
    - positionnement
    veille technologique
    • collect d’information
    - differentes source d’information (google,
    twitter …)
    - Nb rows?
    • pre traitement
    - text mining (stop word,
    pos filter, tf idf)

    - Nb words?
    • traitement
    - regroupement
    kmean

    - Nb words/cluster?

  • http://ereputation.ddns.net:8080/REST/index.html#resume
  • À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
  • • problematique​
    - amazon, .. wikipedia​
     - recommander un film​
     etant donné un film,  le​
      conseiller ou pas​
     j’aime les films que mes ​ voisins aiment.​
    Voisin?
    • regroupement​
     - profil
  • À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
  • Nous allons ici vous presenter un cas d’etude resultant d’une mission chez un groupe pharmasotique.
    Comme toujours nous allons suivre la demarche de definition de la problematique, les données,
    Les differents traitement réalisé …
  • Contexte : On se place dans un contexte de recherche en pharmacologie. Le développement d’un médicament est un processus long (une dizaine d’années) qui commence toujours par le choix de molécules à investiguer. Partant d’une collection importante de molécules, il faut choisir suivant différents critères un sous ensemble prometteur. Comment faire ?

    // to be add
    but :
    Trouver des nouveaux médicaments
    Améliorer des médicament existant Médicament = molécule
    Tester toutes les molécules : impossible ! $$ ! ( Collection de plus de 3 millions molécules)

    Comment choisir les bonnes molécules à tester?

  • Analyse et Structuration de la donnée :
    On peut pour chaque molécule calculer une empreinte digitale de par leur structure chimique. Ce calcul consiste à répertorier l’ensemble des sous graphes constituant les molécules. Pour chaque molécule on obtient un vecteur caractéristique. Cette opération est très couteuse et est souvent parallélisée. Ces vecteurs vont nous permettre de comparer les molécules entre elles en calculant une distance entre ces vecteurs. La distance qu’on utilise est une distance d’inclusion (Tanimoto), montrant ainsi combien deux molécules partagent une même structure.
  • Quelle distance choisir …
    Il existe enormement de distance et il convient de choisir la mieux adapter a notre cas :
    Euclidienne : les données sont projeter dans le plan euclidien suivant x et y et on calcule alors la distance entre (x1, y1) et (x2, y2)
    cosinus : le cosinus de l’angle formé par les deux vecteurs (souvant utilisé pour les vecteurs de mot avec ponderation tf idf)
    tanimoto : (A n B) / (A u B) -> distance ensembliste (peut etre pondérée)
    mahathan

    Dans notre cas ce qui nous interesse c’est le sous ensemble comun entre les molecules. On va donc s’orienter vers une distance ensembliste tel que Tanimoto
  • Réseau de molécules : On construit ainsi un réseau dans lequel les entités sont nos molécules et les relations entre elles sont pondérées par la distance de Tanimoto. Au début nous avons un graphe complet où toutes les molécules sont reliées entre elles. Une distance de Tanimoto inférieur à 0,7 est jugée comme non significative, un premier filtre est donc appliqué à notre réseau. Cette opération va nous déconnecter le réseau de molécule faisant ainsi apparaitre des groupes de molécules (séries chimiques). L’utilisateur expert du métier va vouloir une représentation de ce réseau afin de pouvoir l’explorer.
  • Visualisation du réseau : Il va pouvoir dans un premier temps valider ou non le découpage et le cas échéant l’affiner en jouant sur les filtres mis à sa disposition. Cette visualisation va lui permettre aussi de contrôler la véracité de l’information et modifier le réseau localement. La visualisation du réseau permet par des artifices visuels de rendre compte de propriétés des données. En effet sur une molécule, nous disposons de plus d’information que sa structure chimique. Comme par exemple l’ensemble des tests d’activité, de toxicités… . Ces informations peuvent être représentés par la couleur, la taille, ou encore la texture du cercle qui la représente.
  • Chaque composant connexte, ou serie chimique, est desinner a l’aide d’un algorithme force resort.
    Les molecules sont consideré comme des billes metlique ayant une charge electrique variable.
    Les liens entre molecule sont quant a eux considéré comme des resort ayant une taille initiale et une raideur.
    L’algorithme de dessin est inspiré de la phisque et de la loie d’equilibre des system.
    Negligeant les frotements , l’algorithme simule les attraction et repulsion des molecules jusqu’’atteindre l’equibre.
  • L’ensemble des composantes sont considerés par la suite comme des nœuds, on suit alors un algorithme de pavage de l’espace.
    Le plus souvant carré ou rectangulaire, la treemap choisie ici est la treemap circulaire.
    On choisi alors de placer la composante la plus grosse (ayant le plus de molecule) au centre du dessin.
    D’autre algorithme de dessin consiste a utiliser une treemap classique comme grille, on parle alors de packing component

    Cet algortihme de dessin a été concu dans un soucis de lisibilité, de taille et de vitesse.
  • Exploration par voisinage : L’activité d’une molécule décrit la quantité de produit nécessaire afin d’avoir un effet notable. Ainsi plus une molécule est active, plus sont absorption est facile jouant ainsi sur la posologie du médicament. Notre réseau peut être orienté en fonction de l’activité de ces molécules. Cela permet de par une navigation par voisinage d’affiner la sélection. Par exemple, pour une molécule dont l’activité est faible avec une posologie en intra veineuse, on peut vouloir cherche dans son voisinage une molécule plus active ayant le même principe actif avec une posologie moins contraignante. Une exploration par voisinage est donc ici nécessaire.
    Ce n’est pas la seul interaction que nous fournissons à l’utilisateur. Un calcul des plus court chemin peut par exemple renseigner sur le processus de synthèse de la molécule cible.
  • Dans cette demo, malheureusement vous ne pourez pas voir le logitiel qui a été utilisé pour les images, ce logitiel est la propriété du client.
    Par contre avec l’aide de knime et de tulip nous pouvons nous en approcher tres fortement, avec moins d’interaction specifique bien sure.
    Cependant, tulip offre des interacteur tres interessant pour une exploration de proche en proche … par voisinage.
  • À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
  • • Prédire l’occupation d’une station en terme de place disponible et de vélo disponible
    • Prévoir un itinéraire
  • • Stockage de la données (on ne stock
    que les changements)
    • Agrégation de l’information par 5, 10 minute,
    par heure, par jours

    • Open data : web service qui interoge toute les minute
    l’ensemble des stations de paris
    • Prevision meteo
    • Calendrier (weekend et jours feries)




  • À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
  • À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
  • Valtech - Big Data en action

    1. 1. Pierre Yves Koenig Data Scientist Valtech Toulouse 2 Open Data Scientist Sommaire • Qu’est-ce que l’« Open Data Scientist »? • Cas d’étude « eReputation » • Cas d’étude « Recommandation » • Cas d’étude « Molécules » • Cas d’étude « Velib » (ébauche) • Conclusion Géraud Dugé de Bernonville Architecte Big Data Valtech Toulouse
    2. 2. 3 Big Buzz
    3. 3. 4 Big Data Buzz « Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it. » Dan Ariely
    4. 4. 10,2 M€ Reste du Monde 36 M€ USA 36,3 M€ EUROPE DU SUD 5 Big Data Quelles solutions?
    5. 5. Nouveaux outils pour l’organisation des données • « schema-less » • Tolérants aux pannes • Disponibles • Distribués 6 Big Data NoSQL
    6. 6. 7 Big Data Architectures Temps réel Vs. Batch
    7. 7. • Liste non exhaustive !!! • Chaque jour de nouveaux acteurs 8 Big Data En perpétuelle évolution
    8. 8. 9 Picto section Répondre à une problématique
    9. 9. 10 Big Data Démarche Valtech Pour cela Valtech propose une démarche itérative • Data architecte / architecte SI • Rôle prédominant du « Data Scientist »
    10. 10. 10,2 M€ Reste du Monde 36 M€ USA 36,3 M€ EUROPE DU SUD 65,1 M€ EUROPE DU NORD 11 Open Data Scientist “Data Scientist: The Sexiest Job of the 21st” “Data Scientist’s Salary: $150,000 – $250,000 a year” fortune.com
    11. 11. 12 Data Science Un domaine pluri-disciplinaire
    12. 12. 13 Data Science Dangers !
    13. 13. 14 Big Data Du POC à la mise en oeuvre Utilisation de KNIME pour le prototypage, la fouille de données Déclinaison vers des implémentations Big Data adaptées
    14. 14. 10,2 M€ Reste du Monde 36 M€ USA 36,3 M€ EUROPE DU SUD 65,1 M€ EUROPE DU NORD « Elle est diffusée de manière structurée selon une méthodologie et une licence ouverte garantissant son libre accès et sa réutilisation par tous, sans restriction technique, juridique ou financière. » 15 Cas d’utilisation Open Data
    15. 15. Enjeux Open Data • Source d’innovation 16 • Tranquilien (SNCF) • Paris’Moov • Concours
    16. 16. 17 Picto section Data Scientist ToolBox
    17. 17. 18 ToolBox KNIME Description
    18. 18. 19 ToolBox Tulip Description
    19. 19. 20 Picto section Démarche Data Scientist
    20. 20. 21 Démarche Case Study • Collecte de l’information • Pré-traitement • Traitement • Regroupement • Présentation Case Study : • eReputation • Recommandation • Molecules • Velib
    21. 21. 22 Picto section Case study eReputation
    22. 22. 65,1 M€ EUROPE DU NORD 23 Case study eReputation • Problématique • Collecte d’information • Pré-traitement • Traitement • Regroupement • Présentation
    23. 23. 24 Du POC au Big Data eReputation • Cloud Amazon • Elastic MapReduce • DynamoDB • Hadoop et Mahout
    24. 24. 25 Du POC au Big Data eReputation
    25. 25. 26 Picto section Case study Recommandation
    26. 26. 27 Case study Recommandation • Problématique • Collecte d’information • Pré-traitement • Traitement • Regroupement • Présentation
    27. 27. 28 Picto section Case study Molécules
    28. 28. 29 Case study Molécules • Problématique • Collecte d’information • Pré-traitement • Traitement • Regroupement • Présentation / Exploration
    29. 29. 30 Contexte Problématique
    30. 30. 31 Analyse et Structure de la donnée Pré traitement des données
    31. 31. 32 Case study Molécules Phase de traitement Choix du type de distance : • euclidienne • cosinus • Tanimoto • …
    32. 32. 33 Réseau de molécules Filtres
    33. 33. 34 Visualisation du réseau Exploration
    34. 34. 35 Case study Molécules Dessin de graphe : Algrithme force-resort
    35. 35. 36 Case study Molécules Dessin de graphe : Treemap circulaire
    36. 36. 37 Exploration Par voisinage
    37. 37. 38 Case study Molécules Demo
    38. 38. 39 Picto section Case study Velib’
    39. 39. 40 Case study Velib’ • Problématique • Collecte d’information • Pré-traitement • Traitement • Regroupement • Présentation • Définition d’un modèle prédictif
    40. 40. 41 Case study Velib’ Définition d’un model prédictif • Ajout des informations sur la météo • Evaluation
    41. 41. 42 Picto section Pour conclure
    42. 42. 43 Pour aller plus loin Positionnement Valtech Positionnement de Valtech : • Brainstormings pour identifier les cas d’utilisation • Conseil en Architecture Big Data • Expertise NoSQL, Hadoop • Analyse de données • Formations Big Data, NoSQL, Hadoop
    43. 43. 44 Picto section Merci de votre attention

    ×