SOUTENANCE 
DE 
FIN 
D’ÉTUDE 
STAGE 
EN 
BIG 
DATA 
Nelson 
Verdier 
-­‐ 
5 
Septembre 
2014
Plan 
• Ysance 
• Big 
data 
? 
• Proof 
of 
concept 
-­‐ 
Hadoop 
• R&D 
-­‐ 
Spark 
• DVP 
• Conclusion
! 
Stratégie digitale & Consulting IT! 
Conception, mise en oeuvre et animation 
ebusiness, Business Intelligence, Cloud Computing & 
Big Data
Le 
big 
data 
? 
• 3V 
• volume 
• vélocité 
• variété 
• Extraire 
des 
données 
valorisées 
• Architecture 
distribuée 
et 
extensible
MapReduce 
et 
Hadoop 
• MapReduce 
• processus 
de 
traitement 
parallèle 
sur 
cluster 
• originaire 
de 
chez 
Google 
en 
2004 
• Hadoop 
• implémentation 
en 
java 
du 
mapreduce 
• par 
Yahoo 
en 
2005 
• hdfs 
-­‐ 
hadoop 
distributed 
file 
system 
• namenode, 
datanode
Map 
Reduce 
-­‐ 
word 
count
Eco-­‐système 
Hadoop 
MapReduce 
-­‐ 
traitement 
HDFS 
-­‐ 
stockage 
Hive 
sql 
Mahout 
machine 
learning 
HBase 
clé/valeur 
Pig 
scripts
Proof 
of 
concept 
Hadoop 
• Mission 
pour 
un 
acteur 
dans 
la 
lunetterie 
• Contexte 
: 
• Ensemble 
de 
serveurs 
qui 
communiquent 
entre 
eux, 
produisent 
des 
logs 
• Extraire 
de 
ces 
logs 
des 
informations 
commerciales 
• clients, 
commandes, 
adresses, 
quantités… 
• Stocker 
ces 
données 
propres 
dans 
Amazon 
S3
Proof 
of 
concept 
Hadoop 
• Implémentation 
du 
job 
MapReduce 
en 
Java 
• Déploiement 
du 
job 
sur 
Amazon 
EMR 
• script 
de 
lancement 
de 
job 
• Première 
approche 
big 
data 
intéressante 
• api 
java 
bas 
niveau 
avec 
des 
classes 
Mapper 
et 
Reducer
R&D 
-­‐ 
Spark 
• Volonté 
de 
maitriser 
les 
technologies 
de 
demain 
• Apache 
Spark 
• framework 
de 
traitement 
distribué 
• chargement 
des 
données 
en 
mémoire 
• briques 
semi-­‐temps 
réel, 
machine 
learning, 
sql 
• Plusieurs 
applications 
développées 
pour 
tester 
Spark
twitter_pictures 
Images 
les 
plus 
populaires 
sur 
twitter 
sur 
une 
fenêtre 
de 
temps
twitter_streaming 
Déceler 
les 
utilisateurs 
les 
plus 
influents 
du 
moment 
sur 
un 
thème 
donné.
Applications 
spark 
• sentiment: 
catégorisation 
de 
tweets 
selon 
qu’ils 
soient 
à 
connotation 
positive 
ou 
négative 
• sql: 
prise 
en 
main 
de 
la 
brique 
Spark 
• Livrables: 
• codes 
sources 
• documentation 
sur 
le 
wiki 
ysance
DVP 
-­‐ 
data 
visualisation 
platform 
Data 
visualisation 
platform 
• Permet 
de 
suivre 
les 
partages 
d’urls 
d’un 
site 
web 
spécifique 
sur 
twitter, 
page 
par 
page 
et 
sur 
une 
fenêtre 
de 
temps.
DVP 
-­‐ 
data 
visualisation 
platform 
• Développement 
du 
backend 
• Spark 
Streaming 
• MongoDB 
• Hive 
+ 
user 
defined 
function 
• Hbase 
• Elasticsearch 
• Jusqu’a 
200 
urls 
par 
seconde
Conclusion 
• Big 
data, 
un 
environnement 
riche 
où 
tout 
reste 
à 
faire. 
Des 
challenges 
techniques 
comme 
fonctionnels 
• Volonté 
de 
gagner 
en 
expertise 
technique 
avant 
d’évoluer 
vers 
un 
poste 
plus 
haut 
niveau 
• Ysance, 
un 
investissement 
en 
R&D 
pour 
mieux 
accueillir 
les 
futurs 
besoins 
clients
MERCI 
DE 
VOTRE 
ATTENTION 
DES 
QUESTIONS?

Soutenance ysance

  • 1.
    SOUTENANCE DE FIN D’ÉTUDE STAGE EN BIG DATA Nelson Verdier -­‐ 5 Septembre 2014
  • 2.
    Plan • Ysance • Big data ? • Proof of concept -­‐ Hadoop • R&D -­‐ Spark • DVP • Conclusion
  • 3.
    ! Stratégie digitale& Consulting IT! Conception, mise en oeuvre et animation ebusiness, Business Intelligence, Cloud Computing & Big Data
  • 5.
    Le big data ? • 3V • volume • vélocité • variété • Extraire des données valorisées • Architecture distribuée et extensible
  • 6.
    MapReduce et Hadoop • MapReduce • processus de traitement parallèle sur cluster • originaire de chez Google en 2004 • Hadoop • implémentation en java du mapreduce • par Yahoo en 2005 • hdfs -­‐ hadoop distributed file system • namenode, datanode
  • 7.
    Map Reduce -­‐ word count
  • 8.
    Eco-­‐système Hadoop MapReduce -­‐ traitement HDFS -­‐ stockage Hive sql Mahout machine learning HBase clé/valeur Pig scripts
  • 9.
    Proof of concept Hadoop • Mission pour un acteur dans la lunetterie • Contexte : • Ensemble de serveurs qui communiquent entre eux, produisent des logs • Extraire de ces logs des informations commerciales • clients, commandes, adresses, quantités… • Stocker ces données propres dans Amazon S3
  • 10.
    Proof of concept Hadoop • Implémentation du job MapReduce en Java • Déploiement du job sur Amazon EMR • script de lancement de job • Première approche big data intéressante • api java bas niveau avec des classes Mapper et Reducer
  • 11.
    R&D -­‐ Spark • Volonté de maitriser les technologies de demain • Apache Spark • framework de traitement distribué • chargement des données en mémoire • briques semi-­‐temps réel, machine learning, sql • Plusieurs applications développées pour tester Spark
  • 12.
    twitter_pictures Images les plus populaires sur twitter sur une fenêtre de temps
  • 13.
    twitter_streaming Déceler les utilisateurs les plus influents du moment sur un thème donné.
  • 14.
    Applications spark •sentiment: catégorisation de tweets selon qu’ils soient à connotation positive ou négative • sql: prise en main de la brique Spark • Livrables: • codes sources • documentation sur le wiki ysance
  • 15.
    DVP -­‐ data visualisation platform Data visualisation platform • Permet de suivre les partages d’urls d’un site web spécifique sur twitter, page par page et sur une fenêtre de temps.
  • 16.
    DVP -­‐ data visualisation platform • Développement du backend • Spark Streaming • MongoDB • Hive + user defined function • Hbase • Elasticsearch • Jusqu’a 200 urls par seconde
  • 17.
    Conclusion • Big data, un environnement riche où tout reste à faire. Des challenges techniques comme fonctionnels • Volonté de gagner en expertise technique avant d’évoluer vers un poste plus haut niveau • Ysance, un investissement en R&D pour mieux accueillir les futurs besoins clients
  • 18.
    MERCI DE VOTRE ATTENTION DES QUESTIONS?