2
Sommaire!
•  Qu’est-ce que l’« Open Data Scientist »?!
•  Cas d’étude « eReputation »!
•  Cas d’étude « Recommandation »!
•  Cas d’étude « Molécules »!
•  Cas d’étude « Velib » !
•  Conclusion!
!
Open!
Data Scientist!
Géraud Dugé De Bernonville!
‎Architecte Big Data!
‎Valtech Toulouse!
Pierre Yves Koenig!
‎Data Scientist!
‎Valtech Toulouse!
3
Big!
Buzz!
4
Big Data!
Buzz!
«	
  Big	
  data	
  is	
  like	
  teenage	
  sex:	
  	
  
everyone	
  talks	
  about	
  it,	
  	
  
nobody	
  really	
  knows	
  how	
  to	
  do	
  it,	
  	
  
everyone	
  thinks	
  everyone	
  else	
  is	
  doing	
  it,	
  	
  
so	
  everyone	
  claims	
  they	
  are	
  doing	
  it.	
  »	
  
Dan	
  Ariely	
  
10,2 M€
Reste
du
Monde!
36 M€
USA!
36,3 M€
EUROPE DU SUD!
5
Big Data!
Quelles solutions?!
6
Nouveaux outils pour l’organisation
des données!
•  « Schema-less »!
•  Tolérants aux pannes!
•  Disponibles!
•  Distribués!
!
Big Data!
NoSQL!
7
Temps réel!
!
Vs.!
!
Batch!
!
!
Big Data!
Architectures!
8
•  Liste non exhaustive !!!!
•  Chaque jour de nouveaux acteurs !
Big Data!
En perpétuelle
évolution!
9
Répondre!
à une
problématique!
10
Pour cela Valtech propose une démarche itérative!
! •  Data Architecte / Architecte SI!
•  Rôle prédominant du « Data Scientist »!
Big Data!
Démarche Valtech!
10,2 M€
Reste
du
Monde!
36 M€
USA!
36,3 M€
EUROPE DU SUD!
65,1 M€
EUROPE
DU NORD!
11
“Data Scientist: The
Sexiest Job of the 21st”!
Open!
Data Scientist!
“Data	
  Scien@st’s	
  Salary:	
  
$150,000	
  –	
  $250,000	
  a	
  year”	
  
fortune.com	
  
12
Un domaine pluri-disciplinaire!
Data!
Science!
13
Data Science!
Dangers !!
14
Utilisation de KNIME pour le prototypage, la fouille de données!
!
Déclinaison vers des implémentations Big Data adaptées!
Big Data!
Du POC à la mise en
œuvre!
10,2 M€
Reste
du
Monde!
36 M€
USA!
36,3 M€
EUROPE DU SUD!
65,1 M€
EUROPE
DU NORD!
15
« Elle est diffusée de manière
structurée selon une  méthodologie et
une licence ouverte garantissant son
libre accès et sa réutilisation par
tous, sans restriction technique,
juridique ou financière. »!
Cas d’utilisation!
Open Data!
16
•  Source d’innovation!
•  Tranquilien (SNCF)!
•  Paris’Moov!
•  …!
•  Concours!
Enjeux!
Open Data!
17
Data Scientist!
ToolBox!
18
Description!
ToolBox!
KNIME!
19
Description!
ToolBox!
Tulip!
20
Démarche!
Data Scientist!
21
• Collecte de l’information!
• Pré-traitement!
• Traitement!
• Regroupement!
• Présentation!
!
Démarche!
Case Study!
Case Study :!
•  eReputation!
•  Recommandation!
•  Molecules!
•  Velib!
22
Case study
eReputation!
65,1 M€
EUROPE
DU NORD!
23
• Problématique!
• Collecte d’information!
• Pré-traitement!
• Traitement!
• Regroupement!
• Présentation!
!
Case study!
eReputation!
24
Du POC au Big Data!
eReputation!
•  Cloud Amazon!
•  Elastic MapReduce!
•  DynamoDB!
•  Hadoop et Mahout!
!
!
25
Du POC au Big Data!
eReputation!
26
Case study
Recommandation!
27
Case study!
Recommandation!
• Problématique!
• Collecte d’information!
• Pré-traitement!
• Traitement!
• Regroupement!
• Présentation!
!
28
Case study
Molécules!
29
Case study!
Molécules!
• Problématique!
• Collecte d’information!
• Pré-traitement!
• Traitement!
• Regroupement!
• Présentation / Exploration!
!
30
Contexte!
Problématique!
31
Analyse et Structure de la donnée!
Pré traitement des données
!
32
Case study!
Molécules!
Phase de traitement!
!
Choix du type de distance :!
•  euclidienne!
•  cosinus !
•  Tanimoto!
•  …!
!
33
Réseau de molécules!
Filtres
!
34
Visualisation du réseau!
Exploration
!
35
Case study!
Molécules!
Dessin de graphe : !
Algrithme force-resort!
36
Case study!
Molécules!
Dessin de graphe : !
Treemap circulaire!
37
Exploration!
Par voisinage
!
38
Case study!
Molécules!
Demo!
!
39
Case study !
Velib!
40
Case study!
Velib’!
•  Problématique!
•  Collecte d’information!
•  Pré-traitement!
•  Traitement!
•  Regroupement!
•  Présentation!
•  Définition d’un modèle !
prédictif!
41
Case study!
Velib’!
Défini4on	
  d’un	
  model	
  prédic4f	
  
•  Ajout	
  des	
  informa4ons	
  sur	
  la	
  météo	
  
•  Evalua4on	
  	
  
42
Pour conclure!
43
Positionnement de Valtech :!
•  Brainstormings pour identifier les cas d’utilisations!
•  Conseil en Architecture Big Data / Lambda !
•  Expertise NoSQL, Hadoop, Storm, Spark!
•  Analyse de données / Data Mining!
•  Formations Big Data, NoSQL, Hadoop!
Pour aller plus loin!
Positionnement
Valtech!
44
Petit-Déjeuner Bug Data et NoSQL le mardi 28 avril :!
Valtech et Basho vous présenteront les différents
modèles de base de donnée ainsi qu’un retour
d’expérience sur la gestion en NoSQL des patients
du système de santé anglais!
!
Ce séminaire permettra d’aborder les points suivants :!
•  Présentation des offres Big Data Valtech!
•  Présentation des différentes modèles de bases de
données NoSQL!
•  Le cas National Health System!
•  Présentation de Riak!
Pour aller plus loin!
Prochainement
Valtech!
45
Picto	
  
sec)on	
  
Merci!
de votre
attention!

Valtech - Big Data en action