SlideShare une entreprise Scribd logo
1  sur  17
Télécharger pour lire hors ligne
Quel Hadoop ? 
Jeudi 12 Juin 2014
2 
Agenda 
1. Voyage au pays du Big Data 
L’initiative Big Data Chez Cdiscount 
2. Et pourquoi pas muscler la plateforme BI Legacy ? 
V+V+V = CPU+RAM+IO ? 
3. Choisir sa distribution Hadoop ! 
Comment le choix MAPR s’est imposé 
4. Et si c’était à refaire ? 
REX après 1 an en opérations
3 
Du POC à la réalité 
PROJET STAFFING (DSI) INFRA 
PHASE 1 
POC 
PHASE 2 
Adoption de la technologie 
PHASE 3 
Passage à l’échelle 
Q1 2013 Q2 2013 Q3 2013 Q4 2013 Q1 2014 Q2 2014 
Plateforme MAPR (M3) 
Plateforme HD-INSIGHT 
Plateforme MAPR (M3) 
3 puis 4 et enfin 6 
Noeuds MAPR (M3) 
Plateforme MAPR (M3) 
Plateforme MAPR (M5) 
3 Personnes Dédiées 
Accompagnement par 
Dataiku 
10 personnes pour assurer les développements 
3 Personnes pour l’administration de la plateforme 
Accompagnement continu (Dataiku, Ysance et MAPR) 
2 projets déployés 
(1 par POC) 
Déploiement progressif d’une quinzaine de projets, concernant le 
marketing, la régie pub, les achats, la logistique, … et bien sûr le 
site avec de la personnalisation
4 
Focus Architecture 
Technologies mises en oeuvre 
Log Files 
BizData 
(customers, orders, products, offers, …) 
Website 
Personalization 
Data Sharing 
(partners) 
Logistic 
Analytics 
Reporting & 
Data Sharing 
(customers) 
BI
5 
Agenda 
1. Voyage au pays du Big Data 
L’initiative Big Data Chez Cdiscount 
2. Et pourquoi pas muscler la plateforme BI Legacy ? 
V+V+V = CPU+RAM+IO ? 
3. Choisir sa distribution Hadoop ! 
Comment le choix MAPR s’est imposé 
4. Et si c’était à refaire ? 
REX après 1 an en opérations
6 
Le premier V : Volume 
Impact de l’augmentation des volumes 
HW 
HW 
HW 
L’augmentation exponentielle du TCO limite 
la capacité des systèmes traditionnels à gérer 
de gros volumes de données
7 
Le second V : Velocity 
Nécessité d’accélérer la mise à disposition des analyses 
HW 
SW 
HW 
HW 
L’augmentation exponentielle du TCO limite 
la capacité des systèmes traditionnels à gérer 
des performances accrue (Scale-Up only)
8 
Le troisième V : Variety 
Opportunité de traiter des sources de données hétérogènes 
HW 
SW 
HW 
HW 
HW 
L’augmentation exponentielle du TCO limite 
la capacité des systèmes traditionnels à gérer 
des données non structurées
9 
Le choix d’Hadoop 
 Volume, Velocity, Variety 
– Les systèmes traditionnels peuvent jusqu’à un certain point répondre à ces enjeux 
– Nous avons travaillé cette voie avec des accélérateurs d’infrastructure sur du décisionnel 
classique pour donner le temps à l’initiative BigData d’émerger tout en continuant de 
répondre aux enjeux métier court terme 
 Le choix d’Hadoop 
– Plusieurs éditeurs ont mis sur le marché des solutions de BI en scale-out (Parralel DWH 
chez Microsoft par exemple), faisant passer le TCO d’un modèle exponentiel vers un 
modèle linéaire … 
– … Mais seules les solutions construites sur le Framework Hadoop associées à du 
« Commodity Hardware » permettent de rendre le TCO asymptotique. 
 De nouveaux horizons 
– La rupture technologique apportée par ce genre de solutions permet aux DSI d’ouvrir de 
nouveaux horizons à l’ensemble de nos business line (et pas seulement aux data-scientist 
des équipes marketing)
10 
Agenda 
1. Voyage au pays du Big Data 
L’initiative Big Data Chez Cdiscount 
2. Et pourquoi pas muscler la plateforme BI Legacy ? 
V+V+V = CPU+RAM+IO ? 
3. Choisir sa distribution Hadoop ! 
Comment le choix MAPR s’est imposé 
4. Et si c’était à refaire ? 
REX après 1 an en opérations
11 
Hadoop : Les trois alternatives 
 Construire sa propre « distribution » sur la base du Framework 
– L’ensemble des composants du projet Apache Hadoop sont open-source 
– Construire sa propre distribution permet de disposer des dernières fonctionnalités 
publiées par la communauté 
– Nécessite d’avoir des équipes rompues à l’intégration de softwares open-source 
 Choisir une des trois distributions majeures 
– Trois distribution se partagent le marché (MAPR, Cloudera et HortonWorks) 
– Ces distributions garantissent pour une version donnée l’intégration de l’ensemble des 
composants du framework Hadoop (MapReduce, Zookeeper, Hbase, Hive, Pig, …) 
– Ces trois distribution contribuent de manière importante au projet Apache Hadoop 
– Ces trois distributions sont à l’origine de nombreuses améliorations du Framework 
 Choisir une solution intégrée (Package) 
– Ces solutions se basent souvent sur une des trois distributions précédentes 
– Elles apportent une intégration avancée avec l’infrastructure 
– En mode Cloud : HD-Insight, Elastic Map Reduce 
– En mode OnPremise : Pivotal, IBM InfoSphere BigInsights, Oracle, Microsoft, SAP
12 
Hadoop : Les critères de choix 
 Notre Enjeu Majeur 
– Haute-disponibilité et performance des systèmes : par construction, HDFS, bien que 
permettant de faire du scale-out, a un gros point faible (le name-node) 
 Les problématiques nouvelles 
– Backup et PRA : Le volume de données conséquent ne permet pas d’aborder la 
sécurisation des données avec les méthodes traditionnelles 
– Administration des systèmes : au démarrage de l’initiative BigData, 95% des systèmes 
(un millier d’instances de serveurs) exploités étaient des systèmes windows. Les équipes 
Cdiscount ne sont donc pas rompues à l’administration des systèmes linux et encore 
moins avec des systèmes de fichier non-POSIX (comme HDFS)
13 
Hadoop : notre choix 
 MAPRFS 
– Dépasse les contraintes de contention et de haute disponibilité du name-node d’HDFS 
– Système de fichier Full POSIX simplifiant l’administration des systèmes (commandes 
linux usuelles) 
– Accessibilité du filesystem en NFS (simplification des taches de maintenance sur les 
données : migration, copie d’archive, …) 
 Haute Disponibilité 
– Réplication native sur un second cluster (OnPremise ou dans le Cloud) 
– Gestion de bascule du service sur le réplicat 
– Capacité à faire des snapshots pour du fast-recovery 
 … Mais aussi 
– Une intégration propre avec l’ETL Talend 
– Un dashboard de métrologie et supervision permettant aux développeurs d’avoir un bon 
niveau d’information sur l’état du cluster 
– Une roadmap produit mettant en avant des enjeux qui nous parlent (Haute-dispo, 
performance et temps-réel)
14 
Agenda 
1. Voyage au pays du Big Data 
L’initiative Big Data Chez Cdiscount 
2. Et pourquoi pas muscler la plateforme BI Legacy ? 
V+V+V = CPU+RAM+IO ? 
3. Choisir sa distribution Hadoop ! 
Comment le choix MAPR s’est imposé 
4. Et si c’était à refaire ? 
REX après 1 an en opérations
15 
L’initiative BigData après un an 
 Les plus 
– Le ROI de la plateforme est supérieur aux attentes 
– Le déploiement de nouveaux périmètres a été plus rapide que prévu 
– La capacité de manipuler les données via NFS est un vrai plus pour les opérations de 
maintenance (migration, recopie d’environnement, …) 
– La plateforme dispose d’un PRA (ce qui n’est pas le cas de notre plateforme 
décisionnelle traditionnelle) 
 Les Moins 
– Le rapatriement de la plateforme OnPremise aurait du être accéléré en regard de 
l’accélération des déploiements de projets business 
– Malgré le choix d’une distribution réputée facile à administrer, le manque de maitrise 
technique de nos équipes (environnements linux) rend la gestion d’incident 
relativement complexe
16 
Les prochaines étapes 
– Temps Réel 
– Se donner la capacité à personnaliser la navigation sur des échelles de temps réduite (au sein 
même d’une session de navigation) 
– Se donner la capacité de mesurer l’efficacité de nos mises en avant produit sur des échelles de 
temps réduites (à l’heure près vs J+1 aujourd’hui) 
– Evaluation de Shark & Spark 
– Calculs complexes & Machine Learning 
– Affiner le matching entre nos segments clients et produits pour améliorer la performance des 
recommandations produits 
– Mécaniques d’élasticité des prix (en fonction des ventes, du stock, de la concurrence, …) 
– Gestion des risques et détection de la fraude 
– Mécaniques de prévision à destination de la logistique et de nos vendeurs Marketplace 
– Industrialisation du produit « Dataplatform by Cdiscount » 
– Accompagner l’internationalisation de la plateforme E-commerce (6 pays à fin juin 2014, 
objectif 20 pays d’ici 2016) avec un produit Dataplatform packagé 
– Normalisation des entrées/sortie
Questions / Réponses

Contenu connexe

Tendances

Introduction aux algorithmes map reduce
Introduction aux algorithmes map reduceIntroduction aux algorithmes map reduce
Introduction aux algorithmes map reduceMathieu Dumoulin
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016Julien BLAIZE
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherLilia Sfaxi
 
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...OCTO Technology
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
 
Microsoft TechDays 2012 France - BPOS301 La réversibilité des données dans le...
Microsoft TechDays 2012 France - BPOS301 La réversibilité des données dans le...Microsoft TechDays 2012 France - BPOS301 La réversibilité des données dans le...
Microsoft TechDays 2012 France - BPOS301 La réversibilité des données dans le...Arnaud A.
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draftEric Papet
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentariesRima Jamli Faidi
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Lilia Sfaxi
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataMicrosoft
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big dataRomain Jouin
 
20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessingPierre-Marie Brunet
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech
 
Vision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataVision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataBruno Patin
 
Croisière sur le data lake
Croisière sur le data lakeCroisière sur le data lake
Croisière sur le data lakeDavid Morel
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !OCTO Technology
 

Tendances (20)

Introduction aux algorithmes map reduce
Introduction aux algorithmes map reduceIntroduction aux algorithmes map reduce
Introduction aux algorithmes map reduce
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
Microsoft TechDays 2012 France - BPOS301 La réversibilité des données dans le...
Microsoft TechDays 2012 France - BPOS301 La réversibilité des données dans le...Microsoft TechDays 2012 France - BPOS301 La réversibilité des données dans le...
Microsoft TechDays 2012 France - BPOS301 La réversibilité des données dans le...
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draft
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
 
Pj hug 07_04_2016
Pj hug 07_04_2016Pj hug 07_04_2016
Pj hug 07_04_2016
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big data
 
20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
 
Vision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataVision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big data
 
lean development
lean developmentlean development
lean development
 
Croisière sur le data lake
Croisière sur le data lakeCroisière sur le data lake
Croisière sur le data lake
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
 

En vedette

Architectural Overview of MapR's Apache Hadoop Distribution
Architectural Overview of MapR's Apache Hadoop DistributionArchitectural Overview of MapR's Apache Hadoop Distribution
Architectural Overview of MapR's Apache Hadoop Distributionmcsrivas
 
Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Jean-Michel Franco
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - IntroductionBlandine Larbret
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataArrow Group
 
Lettre Exprimeo : les nouvelles fonctions des sondages (3/3)
Lettre Exprimeo : les nouvelles fonctions des sondages (3/3)Lettre Exprimeo : les nouvelles fonctions des sondages (3/3)
Lettre Exprimeo : les nouvelles fonctions des sondages (3/3)Newday
 
Gründer Garage - Geschäftsidee nuKING
Gründer Garage - Geschäftsidee nuKINGGründer Garage - Geschäftsidee nuKING
Gründer Garage - Geschäftsidee nuKINGSven Bartel
 
Información general 2013 Reciclando materiales
Información general 2013 Reciclando materialesInformación general 2013 Reciclando materiales
Información general 2013 Reciclando materialesmcarning
 
Caching - Hintergründe, Patterns und Best Practices
Caching - Hintergründe, Patterns und Best PracticesCaching - Hintergründe, Patterns und Best Practices
Caching - Hintergründe, Patterns und Best PracticesMichael Plöd
 
Ccpresentation
CcpresentationCcpresentation
Ccpresentationsigi_dietz
 
Utilisation diigo
Utilisation diigoUtilisation diigo
Utilisation diigoProfTice
 
Fatla bloque de cierre
Fatla bloque de cierreFatla bloque de cierre
Fatla bloque de cierreLinda Rueda
 

En vedette (20)

Architectural Overview of MapR's Apache Hadoop Distribution
Architectural Overview of MapR's Apache Hadoop DistributionArchitectural Overview of MapR's Apache Hadoop Distribution
Architectural Overview of MapR's Apache Hadoop Distribution
 
Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
 
Big Data, kesako ?
Big Data, kesako ?Big Data, kesako ?
Big Data, kesako ?
 
Caritas digital
Caritas digitalCaritas digital
Caritas digital
 
Lettre Exprimeo : les nouvelles fonctions des sondages (3/3)
Lettre Exprimeo : les nouvelles fonctions des sondages (3/3)Lettre Exprimeo : les nouvelles fonctions des sondages (3/3)
Lettre Exprimeo : les nouvelles fonctions des sondages (3/3)
 
Gründer Garage - Geschäftsidee nuKING
Gründer Garage - Geschäftsidee nuKINGGründer Garage - Geschäftsidee nuKING
Gründer Garage - Geschäftsidee nuKING
 
Fullet biblioteques amb DO Juneda
Fullet biblioteques amb DO JunedaFullet biblioteques amb DO Juneda
Fullet biblioteques amb DO Juneda
 
Información general 2013 Reciclando materiales
Información general 2013 Reciclando materialesInformación general 2013 Reciclando materiales
Información general 2013 Reciclando materiales
 
Caching - Hintergründe, Patterns und Best Practices
Caching - Hintergründe, Patterns und Best PracticesCaching - Hintergründe, Patterns und Best Practices
Caching - Hintergründe, Patterns und Best Practices
 
Ccpresentation
CcpresentationCcpresentation
Ccpresentation
 
Gesundheit
GesundheitGesundheit
Gesundheit
 
11septembre2
11septembre211septembre2
11septembre2
 
Utilisation diigo
Utilisation diigoUtilisation diigo
Utilisation diigo
 
Fatla bloque de cierre
Fatla bloque de cierreFatla bloque de cierre
Fatla bloque de cierre
 
Schlösser Deutschlands
Schlösser DeutschlandsSchlösser Deutschlands
Schlösser Deutschlands
 
Bebes igle
Bebes igleBebes igle
Bebes igle
 
Wie finde ich freie Materialien für meine Lehre?
Wie finde ich freie Materialien für meine Lehre? Wie finde ich freie Materialien für meine Lehre?
Wie finde ich freie Materialien für meine Lehre?
 
1
11
1
 

Similaire à Quel hadoop (#quelhadoop)

Morning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMorning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMongoDB
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSoft Computing
 
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]ANEO
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologyImad ALILAT
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaModern Data Stack France
 
Morning With MongoDB
Morning With MongoDBMorning With MongoDB
Morning With MongoDBFastConnect
 
Retour d'expérience BIG COMPUTE & HPC sur Windows Azure, par ANEO et SUPELEC
Retour d'expérience BIG COMPUTE & HPC sur Windows Azure, par ANEO et SUPELECRetour d'expérience BIG COMPUTE & HPC sur Windows Azure, par ANEO et SUPELEC
Retour d'expérience BIG COMPUTE & HPC sur Windows Azure, par ANEO et SUPELECMicrosoft Technet France
 
Bluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantesBluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantesBluestoneServices
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackALTIC Altic
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Microsoft Décideurs IT
 
Future of data center french
Future of data center frenchFuture of data center french
Future of data center frenchaditya panwar
 
Future of data center french
Future of data center frenchFuture of data center french
Future of data center frenchaditya panwar
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Converteo
 

Similaire à Quel hadoop (#quelhadoop) (20)

Morning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMorning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast Connect
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing Théâtre
 
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
 
Introduction à Hadoop
Introduction à HadoopIntroduction à Hadoop
Introduction à Hadoop
 
Morning With MongoDB
Morning With MongoDBMorning With MongoDB
Morning With MongoDB
 
Retour d'expérience BIG COMPUTE & HPC sur Windows Azure, par ANEO et SUPELEC
Retour d'expérience BIG COMPUTE & HPC sur Windows Azure, par ANEO et SUPELECRetour d'expérience BIG COMPUTE & HPC sur Windows Azure, par ANEO et SUPELEC
Retour d'expérience BIG COMPUTE & HPC sur Windows Azure, par ANEO et SUPELEC
 
BigData on change d'ère !
BigData on change d'ère ! BigData on change d'ère !
BigData on change d'ère !
 
Bluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantesBluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantes
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStack
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Big data
Big dataBig data
Big data
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
 
Future of data center french
Future of data center frenchFuture of data center french
Future of data center french
 
Future of data center french
Future of data center frenchFuture of data center french
Future of data center french
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
 
EDW Microsoft/Netezza
EDW Microsoft/NetezzaEDW Microsoft/Netezza
EDW Microsoft/Netezza
 

Quel hadoop (#quelhadoop)

  • 1. Quel Hadoop ? Jeudi 12 Juin 2014
  • 2. 2 Agenda 1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé 4. Et si c’était à refaire ? REX après 1 an en opérations
  • 3. 3 Du POC à la réalité PROJET STAFFING (DSI) INFRA PHASE 1 POC PHASE 2 Adoption de la technologie PHASE 3 Passage à l’échelle Q1 2013 Q2 2013 Q3 2013 Q4 2013 Q1 2014 Q2 2014 Plateforme MAPR (M3) Plateforme HD-INSIGHT Plateforme MAPR (M3) 3 puis 4 et enfin 6 Noeuds MAPR (M3) Plateforme MAPR (M3) Plateforme MAPR (M5) 3 Personnes Dédiées Accompagnement par Dataiku 10 personnes pour assurer les développements 3 Personnes pour l’administration de la plateforme Accompagnement continu (Dataiku, Ysance et MAPR) 2 projets déployés (1 par POC) Déploiement progressif d’une quinzaine de projets, concernant le marketing, la régie pub, les achats, la logistique, … et bien sûr le site avec de la personnalisation
  • 4. 4 Focus Architecture Technologies mises en oeuvre Log Files BizData (customers, orders, products, offers, …) Website Personalization Data Sharing (partners) Logistic Analytics Reporting & Data Sharing (customers) BI
  • 5. 5 Agenda 1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé 4. Et si c’était à refaire ? REX après 1 an en opérations
  • 6. 6 Le premier V : Volume Impact de l’augmentation des volumes HW HW HW L’augmentation exponentielle du TCO limite la capacité des systèmes traditionnels à gérer de gros volumes de données
  • 7. 7 Le second V : Velocity Nécessité d’accélérer la mise à disposition des analyses HW SW HW HW L’augmentation exponentielle du TCO limite la capacité des systèmes traditionnels à gérer des performances accrue (Scale-Up only)
  • 8. 8 Le troisième V : Variety Opportunité de traiter des sources de données hétérogènes HW SW HW HW HW L’augmentation exponentielle du TCO limite la capacité des systèmes traditionnels à gérer des données non structurées
  • 9. 9 Le choix d’Hadoop  Volume, Velocity, Variety – Les systèmes traditionnels peuvent jusqu’à un certain point répondre à ces enjeux – Nous avons travaillé cette voie avec des accélérateurs d’infrastructure sur du décisionnel classique pour donner le temps à l’initiative BigData d’émerger tout en continuant de répondre aux enjeux métier court terme  Le choix d’Hadoop – Plusieurs éditeurs ont mis sur le marché des solutions de BI en scale-out (Parralel DWH chez Microsoft par exemple), faisant passer le TCO d’un modèle exponentiel vers un modèle linéaire … – … Mais seules les solutions construites sur le Framework Hadoop associées à du « Commodity Hardware » permettent de rendre le TCO asymptotique.  De nouveaux horizons – La rupture technologique apportée par ce genre de solutions permet aux DSI d’ouvrir de nouveaux horizons à l’ensemble de nos business line (et pas seulement aux data-scientist des équipes marketing)
  • 10. 10 Agenda 1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé 4. Et si c’était à refaire ? REX après 1 an en opérations
  • 11. 11 Hadoop : Les trois alternatives  Construire sa propre « distribution » sur la base du Framework – L’ensemble des composants du projet Apache Hadoop sont open-source – Construire sa propre distribution permet de disposer des dernières fonctionnalités publiées par la communauté – Nécessite d’avoir des équipes rompues à l’intégration de softwares open-source  Choisir une des trois distributions majeures – Trois distribution se partagent le marché (MAPR, Cloudera et HortonWorks) – Ces distributions garantissent pour une version donnée l’intégration de l’ensemble des composants du framework Hadoop (MapReduce, Zookeeper, Hbase, Hive, Pig, …) – Ces trois distribution contribuent de manière importante au projet Apache Hadoop – Ces trois distributions sont à l’origine de nombreuses améliorations du Framework  Choisir une solution intégrée (Package) – Ces solutions se basent souvent sur une des trois distributions précédentes – Elles apportent une intégration avancée avec l’infrastructure – En mode Cloud : HD-Insight, Elastic Map Reduce – En mode OnPremise : Pivotal, IBM InfoSphere BigInsights, Oracle, Microsoft, SAP
  • 12. 12 Hadoop : Les critères de choix  Notre Enjeu Majeur – Haute-disponibilité et performance des systèmes : par construction, HDFS, bien que permettant de faire du scale-out, a un gros point faible (le name-node)  Les problématiques nouvelles – Backup et PRA : Le volume de données conséquent ne permet pas d’aborder la sécurisation des données avec les méthodes traditionnelles – Administration des systèmes : au démarrage de l’initiative BigData, 95% des systèmes (un millier d’instances de serveurs) exploités étaient des systèmes windows. Les équipes Cdiscount ne sont donc pas rompues à l’administration des systèmes linux et encore moins avec des systèmes de fichier non-POSIX (comme HDFS)
  • 13. 13 Hadoop : notre choix  MAPRFS – Dépasse les contraintes de contention et de haute disponibilité du name-node d’HDFS – Système de fichier Full POSIX simplifiant l’administration des systèmes (commandes linux usuelles) – Accessibilité du filesystem en NFS (simplification des taches de maintenance sur les données : migration, copie d’archive, …)  Haute Disponibilité – Réplication native sur un second cluster (OnPremise ou dans le Cloud) – Gestion de bascule du service sur le réplicat – Capacité à faire des snapshots pour du fast-recovery  … Mais aussi – Une intégration propre avec l’ETL Talend – Un dashboard de métrologie et supervision permettant aux développeurs d’avoir un bon niveau d’information sur l’état du cluster – Une roadmap produit mettant en avant des enjeux qui nous parlent (Haute-dispo, performance et temps-réel)
  • 14. 14 Agenda 1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé 4. Et si c’était à refaire ? REX après 1 an en opérations
  • 15. 15 L’initiative BigData après un an  Les plus – Le ROI de la plateforme est supérieur aux attentes – Le déploiement de nouveaux périmètres a été plus rapide que prévu – La capacité de manipuler les données via NFS est un vrai plus pour les opérations de maintenance (migration, recopie d’environnement, …) – La plateforme dispose d’un PRA (ce qui n’est pas le cas de notre plateforme décisionnelle traditionnelle)  Les Moins – Le rapatriement de la plateforme OnPremise aurait du être accéléré en regard de l’accélération des déploiements de projets business – Malgré le choix d’une distribution réputée facile à administrer, le manque de maitrise technique de nos équipes (environnements linux) rend la gestion d’incident relativement complexe
  • 16. 16 Les prochaines étapes – Temps Réel – Se donner la capacité à personnaliser la navigation sur des échelles de temps réduite (au sein même d’une session de navigation) – Se donner la capacité de mesurer l’efficacité de nos mises en avant produit sur des échelles de temps réduites (à l’heure près vs J+1 aujourd’hui) – Evaluation de Shark & Spark – Calculs complexes & Machine Learning – Affiner le matching entre nos segments clients et produits pour améliorer la performance des recommandations produits – Mécaniques d’élasticité des prix (en fonction des ventes, du stock, de la concurrence, …) – Gestion des risques et détection de la fraude – Mécaniques de prévision à destination de la logistique et de nos vendeurs Marketplace – Industrialisation du produit « Dataplatform by Cdiscount » – Accompagner l’internationalisation de la plateforme E-commerce (6 pays à fin juin 2014, objectif 20 pays d’ici 2016) avec un produit Dataplatform packagé – Normalisation des entrées/sortie