Pierre Yves Koenig 
Data Scientist 
Valtech Toulouse 
2 
Open 
Data Scientist 
Sommaire 
• Qu’est-ce que l’« Open Data Scientist »? 
• Cas d’étude « eReputation » 
• Cas d’étude « Recommandation » 
• Cas d’étude « Molécules » 
• Cas d’étude « Velib » (ébauche) 
• Conclusion 
Géraud Dugé de Bernonville 
Architecte Big Data 
Valtech Toulouse
3 
Big 
Buzz
4 
Big Data 
Buzz 
« Big data is like teenage sex: 
everyone talks about it, 
nobody really knows how to do it, 
everyone thinks everyone else is doing it, 
so everyone claims they are doing it. » 
Dan Ariely
10,2 M€ 
Reste 
du 
Monde 
36 M€ 
USA 
36,3 M€ 
EUROPE DU SUD 
5 
Big Data 
Quelles solutions?
Nouveaux outils pour l’organisation 
des données 
• « schema-less » 
• Tolérants aux pannes 
• Disponibles 
• Distribués 
6 
Big Data 
NoSQL
7 
Big Data 
Architectures 
Temps réel 
Vs. 
Batch
• Liste non exhaustive !!! 
• Chaque jour de nouveaux acteurs 
8 
Big Data 
En perpétuelle 
évolution
9 
Picto 
section 
Répondre 
à une 
problématique
10 
Big Data 
Démarche Valtech 
Pour cela Valtech propose une démarche itérative 
• Data architecte / architecte SI 
• Rôle prédominant du « Data Scientist »
10,2 M€ 
Reste 
du 
Monde 
36 M€ 
USA 
36,3 M€ 
EUROPE DU SUD 
65,1 M€ 
EUROPE 
DU NORD 
11 
Open 
Data Scientist 
“Data Scientist: The 
Sexiest Job of the 21st” 
“Data Scientist’s Salary: 
$150,000 – $250,000 a year” 
fortune.com
12 
Data 
Science 
Un domaine pluri-disciplinaire
13 
Data Science 
Dangers !
14 
Big Data 
Du POC à la mise en 
oeuvre 
Utilisation de KNIME pour le prototypage, la fouille de données 
Déclinaison vers des implémentations Big Data adaptées
10,2 M€ 
Reste 
du 
Monde 
36 M€ 
USA 
36,3 M€ 
EUROPE DU SUD 
65,1 M€ 
EUROPE 
DU NORD 
« Elle est diffusée de manière 
structurée selon une méthodologie et 
une licence ouverte garantissant son 
libre accès et sa réutilisation par tous, 
sans restriction technique, juridique 
ou financière. » 
15 
Cas d’utilisation 
Open Data
Enjeux 
Open Data 
• Source d’innovation 
16 
• Tranquilien (SNCF) 
• Paris’Moov 
• Concours
17 
Picto 
section 
Data Scientist 
ToolBox
18 
ToolBox 
KNIME 
Description
19 
ToolBox 
Tulip 
Description
20 
Picto 
section 
Démarche 
Data Scientist
21 
Démarche 
Case Study 
• Collecte de l’information 
• Pré-traitement 
• Traitement 
• Regroupement 
• Présentation 
Case Study : 
• eReputation 
• Recommandation 
• Molecules 
• Velib
22 
Picto 
section 
Case study 
eReputation
65,1 M€ 
EUROPE 
DU NORD 
23 
Case study 
eReputation 
• Problématique 
• Collecte d’information 
• Pré-traitement 
• Traitement 
• Regroupement 
• Présentation
24 
Du POC au Big Data 
eReputation 
• Cloud Amazon 
• Elastic MapReduce 
• DynamoDB 
• Hadoop et Mahout
25 
Du POC au Big Data 
eReputation
26 
Picto 
section 
Case study 
Recommandation
27 
Case study 
Recommandation 
• Problématique 
• Collecte d’information 
• Pré-traitement 
• Traitement 
• Regroupement 
• Présentation
28 
Picto 
section 
Case study 
Molécules
29 
Case study 
Molécules 
• Problématique 
• Collecte d’information 
• Pré-traitement 
• Traitement 
• Regroupement 
• Présentation / Exploration
30 
Contexte 
Problématique
31 
Analyse et Structure de la donnée 
Pré traitement des données
32 
Case study 
Molécules 
Phase de traitement 
Choix du type de distance : 
• euclidienne 
• cosinus 
• Tanimoto 
• …
33 
Réseau de molécules 
Filtres
34 
Visualisation du réseau 
Exploration
35 
Case study 
Molécules 
Dessin de graphe : 
Algrithme force-resort
36 
Case study 
Molécules 
Dessin de graphe : 
Treemap circulaire
37 
Exploration 
Par voisinage
38 
Case study 
Molécules 
Demo
39 
Picto 
section 
Case study 
Velib’
40 
Case study 
Velib’ 
• Problématique 
• Collecte d’information 
• Pré-traitement 
• Traitement 
• Regroupement 
• Présentation 
• Définition d’un modèle 
prédictif
41 
Case study 
Velib’ 
Définition d’un model prédictif 
• Ajout des informations sur la météo 
• Evaluation
42 
Picto 
section 
Pour conclure
43 
Pour aller plus loin 
Positionnement 
Valtech 
Positionnement de Valtech : 
• Brainstormings pour identifier les cas d’utilisation 
• Conseil en Architecture Big Data 
• Expertise NoSQL, Hadoop 
• Analyse de données 
• Formations Big Data, NoSQL, Hadoop
44 
Picto 
section 
Merci 
de votre 
attention

Valtech - Big Data en action

  • 2.
    Pierre Yves Koenig Data Scientist Valtech Toulouse 2 Open Data Scientist Sommaire • Qu’est-ce que l’« Open Data Scientist »? • Cas d’étude « eReputation » • Cas d’étude « Recommandation » • Cas d’étude « Molécules » • Cas d’étude « Velib » (ébauche) • Conclusion Géraud Dugé de Bernonville Architecte Big Data Valtech Toulouse
  • 3.
  • 4.
    4 Big Data Buzz « Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it. » Dan Ariely
  • 5.
    10,2 M€ Reste du Monde 36 M€ USA 36,3 M€ EUROPE DU SUD 5 Big Data Quelles solutions?
  • 6.
    Nouveaux outils pourl’organisation des données • « schema-less » • Tolérants aux pannes • Disponibles • Distribués 6 Big Data NoSQL
  • 7.
    7 Big Data Architectures Temps réel Vs. Batch
  • 8.
    • Liste nonexhaustive !!! • Chaque jour de nouveaux acteurs 8 Big Data En perpétuelle évolution
  • 9.
    9 Picto section Répondre à une problématique
  • 10.
    10 Big Data Démarche Valtech Pour cela Valtech propose une démarche itérative • Data architecte / architecte SI • Rôle prédominant du « Data Scientist »
  • 11.
    10,2 M€ Reste du Monde 36 M€ USA 36,3 M€ EUROPE DU SUD 65,1 M€ EUROPE DU NORD 11 Open Data Scientist “Data Scientist: The Sexiest Job of the 21st” “Data Scientist’s Salary: $150,000 – $250,000 a year” fortune.com
  • 12.
    12 Data Science Un domaine pluri-disciplinaire
  • 13.
    13 Data Science Dangers !
  • 14.
    14 Big Data Du POC à la mise en oeuvre Utilisation de KNIME pour le prototypage, la fouille de données Déclinaison vers des implémentations Big Data adaptées
  • 15.
    10,2 M€ Reste du Monde 36 M€ USA 36,3 M€ EUROPE DU SUD 65,1 M€ EUROPE DU NORD « Elle est diffusée de manière structurée selon une méthodologie et une licence ouverte garantissant son libre accès et sa réutilisation par tous, sans restriction technique, juridique ou financière. » 15 Cas d’utilisation Open Data
  • 16.
    Enjeux Open Data • Source d’innovation 16 • Tranquilien (SNCF) • Paris’Moov • Concours
  • 17.
    17 Picto section Data Scientist ToolBox
  • 18.
    18 ToolBox KNIME Description
  • 19.
    19 ToolBox Tulip Description
  • 20.
    20 Picto section Démarche Data Scientist
  • 21.
    21 Démarche CaseStudy • Collecte de l’information • Pré-traitement • Traitement • Regroupement • Présentation Case Study : • eReputation • Recommandation • Molecules • Velib
  • 22.
    22 Picto section Case study eReputation
  • 23.
    65,1 M€ EUROPE DU NORD 23 Case study eReputation • Problématique • Collecte d’information • Pré-traitement • Traitement • Regroupement • Présentation
  • 24.
    24 Du POCau Big Data eReputation • Cloud Amazon • Elastic MapReduce • DynamoDB • Hadoop et Mahout
  • 25.
    25 Du POCau Big Data eReputation
  • 26.
    26 Picto section Case study Recommandation
  • 27.
    27 Case study Recommandation • Problématique • Collecte d’information • Pré-traitement • Traitement • Regroupement • Présentation
  • 28.
    28 Picto section Case study Molécules
  • 29.
    29 Case study Molécules • Problématique • Collecte d’information • Pré-traitement • Traitement • Regroupement • Présentation / Exploration
  • 30.
  • 31.
    31 Analyse etStructure de la donnée Pré traitement des données
  • 32.
    32 Case study Molécules Phase de traitement Choix du type de distance : • euclidienne • cosinus • Tanimoto • …
  • 33.
    33 Réseau demolécules Filtres
  • 34.
    34 Visualisation duréseau Exploration
  • 35.
    35 Case study Molécules Dessin de graphe : Algrithme force-resort
  • 36.
    36 Case study Molécules Dessin de graphe : Treemap circulaire
  • 37.
  • 38.
    38 Case study Molécules Demo
  • 39.
    39 Picto section Case study Velib’
  • 40.
    40 Case study Velib’ • Problématique • Collecte d’information • Pré-traitement • Traitement • Regroupement • Présentation • Définition d’un modèle prédictif
  • 41.
    41 Case study Velib’ Définition d’un model prédictif • Ajout des informations sur la météo • Evaluation
  • 42.
    42 Picto section Pour conclure
  • 43.
    43 Pour allerplus loin Positionnement Valtech Positionnement de Valtech : • Brainstormings pour identifier les cas d’utilisation • Conseil en Architecture Big Data • Expertise NoSQL, Hadoop • Analyse de données • Formations Big Data, NoSQL, Hadoop
  • 44.
    44 Picto section Merci de votre attention

Notes de l'éditeur

  • #2 Visuel à remplacer par une nouvelle photo montrant en premier plan net les nouveaux devices, et en arrière plan, flou, les hommes qui développent et utilisent ce objets.
  • #3 À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
  • #5 Ref — Dan Ariely Date de janvier 2013, depuis cela a évolué: il existe de véritables réalisation de Big Data
  • #10 Ref : http://batman.wikia.com/wiki/The_Riddler_%28Frank_Gorshin%29 Idéalement, il faut partir d’une problématique, pour aider, Valtech mets en place des sessions de Brainstorming basées sur des Innovation games afin de définir les cas d’utilisation
  • #12 Salaire: https://datajobs.com/big-data-salary
  • #13 Ref: http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram Statistics helps by making sure your conclusions are valid. Machine learning helps by making your predictions of the future accurate. Math is a general skill that helps everything. Les dangers: Finding false causation Building bad models Bad A/B tests Telling bad stories Ref: http://www.quora.com/In-the-data-science-venn-diagram-why-is-the-common-region-of-Hacking-Skills-and-Substantive-Expertise-considered-as-danger-zone
  • #14 Ref http://www.tylervigen.com/
  • #15 Proto avec Knime: Knime plateforme dotée d’un ETL, permettant l’analyse de donnée et la visualisation. L’idée est de valider une méthologie avec KNIME qui permet un prototypage rapide
  • #16 http://www.w3.org/DesignIssues/LinkedData.html
  • #17 http://www.w3.org/DesignIssues/LinkedData.html
  • #18 À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
  • #21 À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
  • #22  Le datascientist intervient a different dans le processus d’analyse. Source -> validité Manipulation -> pourquoi filtrer des valeur qui sont par exemple statistiquement non significative Valarisation -> quels type d’algorithm est le mieux adapter à la question posée IL nous faut une question ` Collect de l’information - Au choix : bd sql /nosql; fichier, des site internet, web service … Pre traitement des données Utilisation massive de knime Le pre traitement peut etre du text mining -> case study eReputation Recherche d’artefacts ou données non utiles-> recommandation Image : histogram des couleur Text : occurrence – filtre -> eReputation Filter -> velib Valorisation Suivant le type des données Image : feature inside, classification Text : mise en evidence de thematique, regroupement de document -> ereputaion Suivant la masse des données Regroupement -> molecules Suivant la complexité des données Structuration de la donnée Mise en graphe -> molecules Regroupement / clustering ou profilage Definitionde model predictif Presentation/ representation Information peut rester volumineuse Differentes representations Visualisation
  • #23 À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
  • #24 • problématique - visibilité - positionnement veille technologique • collect d’information - differentes source d’information (google, twitter …) - Nb rows? • pre traitement - text mining (stop word, pos filter, tf idf) - Nb words? • traitement - regroupement kmean - Nb words/cluster?
  • #26 http://ereputation.ddns.net:8080/REST/index.html#resume
  • #27 À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
  • #28 • problematique​ - amazon, .. wikipedia​  - recommander un film​  etant donné un film,  le​   conseiller ou pas​  j’aime les films que mes ​ voisins aiment.​ Voisin? • regroupement​  - profil
  • #29 À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
  • #30 Nous allons ici vous presenter un cas d’etude resultant d’une mission chez un groupe pharmasotique. Comme toujours nous allons suivre la demarche de definition de la problematique, les données, Les differents traitement réalisé …
  • #31 Contexte : On se place dans un contexte de recherche en pharmacologie. Le développement d’un médicament est un processus long (une dizaine d’années) qui commence toujours par le choix de molécules à investiguer. Partant d’une collection importante de molécules, il faut choisir suivant différents critères un sous ensemble prometteur. Comment faire ? // to be add but : Trouver des nouveaux médicaments Améliorer des médicament existant Médicament = molécule Tester toutes les molécules : impossible ! $$ ! ( Collection de plus de 3 millions molécules) Comment choisir les bonnes molécules à tester?
  • #32 Analyse et Structuration de la donnée : On peut pour chaque molécule calculer une empreinte digitale de par leur structure chimique. Ce calcul consiste à répertorier l’ensemble des sous graphes constituant les molécules. Pour chaque molécule on obtient un vecteur caractéristique. Cette opération est très couteuse et est souvent parallélisée. Ces vecteurs vont nous permettre de comparer les molécules entre elles en calculant une distance entre ces vecteurs. La distance qu’on utilise est une distance d’inclusion (Tanimoto), montrant ainsi combien deux molécules partagent une même structure.
  • #33 Quelle distance choisir … Il existe enormement de distance et il convient de choisir la mieux adapter a notre cas : Euclidienne : les données sont projeter dans le plan euclidien suivant x et y et on calcule alors la distance entre (x1, y1) et (x2, y2) cosinus : le cosinus de l’angle formé par les deux vecteurs (souvant utilisé pour les vecteurs de mot avec ponderation tf idf) tanimoto : (A n B) / (A u B) -> distance ensembliste (peut etre pondérée) mahathan … Dans notre cas ce qui nous interesse c’est le sous ensemble comun entre les molecules. On va donc s’orienter vers une distance ensembliste tel que Tanimoto
  • #34 Réseau de molécules : On construit ainsi un réseau dans lequel les entités sont nos molécules et les relations entre elles sont pondérées par la distance de Tanimoto. Au début nous avons un graphe complet où toutes les molécules sont reliées entre elles. Une distance de Tanimoto inférieur à 0,7 est jugée comme non significative, un premier filtre est donc appliqué à notre réseau. Cette opération va nous déconnecter le réseau de molécule faisant ainsi apparaitre des groupes de molécules (séries chimiques). L’utilisateur expert du métier va vouloir une représentation de ce réseau afin de pouvoir l’explorer.
  • #35 Visualisation du réseau : Il va pouvoir dans un premier temps valider ou non le découpage et le cas échéant l’affiner en jouant sur les filtres mis à sa disposition. Cette visualisation va lui permettre aussi de contrôler la véracité de l’information et modifier le réseau localement. La visualisation du réseau permet par des artifices visuels de rendre compte de propriétés des données. En effet sur une molécule, nous disposons de plus d’information que sa structure chimique. Comme par exemple l’ensemble des tests d’activité, de toxicités… . Ces informations peuvent être représentés par la couleur, la taille, ou encore la texture du cercle qui la représente.
  • #36 Chaque composant connexte, ou serie chimique, est desinner a l’aide d’un algorithme force resort. Les molecules sont consideré comme des billes metlique ayant une charge electrique variable. Les liens entre molecule sont quant a eux considéré comme des resort ayant une taille initiale et une raideur. L’algorithme de dessin est inspiré de la phisque et de la loie d’equilibre des system. Negligeant les frotements , l’algorithme simule les attraction et repulsion des molecules jusqu’’atteindre l’equibre.
  • #37 L’ensemble des composantes sont considerés par la suite comme des nœuds, on suit alors un algorithme de pavage de l’espace. Le plus souvant carré ou rectangulaire, la treemap choisie ici est la treemap circulaire. On choisi alors de placer la composante la plus grosse (ayant le plus de molecule) au centre du dessin. D’autre algorithme de dessin consiste a utiliser une treemap classique comme grille, on parle alors de packing component Cet algortihme de dessin a été concu dans un soucis de lisibilité, de taille et de vitesse.
  • #38 Exploration par voisinage : L’activité d’une molécule décrit la quantité de produit nécessaire afin d’avoir un effet notable. Ainsi plus une molécule est active, plus sont absorption est facile jouant ainsi sur la posologie du médicament. Notre réseau peut être orienté en fonction de l’activité de ces molécules. Cela permet de par une navigation par voisinage d’affiner la sélection. Par exemple, pour une molécule dont l’activité est faible avec une posologie en intra veineuse, on peut vouloir cherche dans son voisinage une molécule plus active ayant le même principe actif avec une posologie moins contraignante. Une exploration par voisinage est donc ici nécessaire. Ce n’est pas la seul interaction que nous fournissons à l’utilisateur. Un calcul des plus court chemin peut par exemple renseigner sur le processus de synthèse de la molécule cible.
  • #39 Dans cette demo, malheureusement vous ne pourez pas voir le logitiel qui a été utilisé pour les images, ce logitiel est la propriété du client. Par contre avec l’aide de knime et de tulip nous pouvons nous en approcher tres fortement, avec moins d’interaction specifique bien sure. Cependant, tulip offre des interacteur tres interessant pour une exploration de proche en proche … par voisinage.
  • #40 À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
  • #41 • Prédire l’occupation d’une station en terme de place disponible et de vélo disponible • Prévoir un itinéraire
  • #42 • Stockage de la données (on ne stock que les changements) • Agrégation de l’information par 5, 10 minute, par heure, par jours • Open data : web service qui interoge toute les minute l’ensemble des stations de paris • Prevision meteo • Calendrier (weekend et jours feries)
  • #43 À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
  • #45 À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.