Quel Hadoop ? 
Jeudi 12 Juin 2014
2 
Agenda 
1. Voyage au pays du Big Data 
L’initiative Big Data Chez Cdiscount 
2. Et pourquoi pas muscler la plateforme B...
3 
Du POC à la réalité 
PROJET STAFFING (DSI) INFRA 
PHASE 1 
POC 
PHASE 2 
Adoption de la technologie 
PHASE 3 
Passage à...
4 
Focus Architecture 
Technologies mises en oeuvre 
Log Files 
BizData 
(customers, orders, products, offers, …) 
Website...
5 
Agenda 
1. Voyage au pays du Big Data 
L’initiative Big Data Chez Cdiscount 
2. Et pourquoi pas muscler la plateforme B...
6 
Le premier V : Volume 
Impact de l’augmentation des volumes 
HW 
HW 
HW 
L’augmentation exponentielle du TCO limite 
la...
7 
Le second V : Velocity 
Nécessité d’accélérer la mise à disposition des analyses 
HW 
SW 
HW 
HW 
L’augmentation expone...
8 
Le troisième V : Variety 
Opportunité de traiter des sources de données hétérogènes 
HW 
SW 
HW 
HW 
HW 
L’augmentation...
9 
Le choix d’Hadoop 
 Volume, Velocity, Variety 
– Les systèmes traditionnels peuvent jusqu’à un certain point répondre ...
10 
Agenda 
1. Voyage au pays du Big Data 
L’initiative Big Data Chez Cdiscount 
2. Et pourquoi pas muscler la plateforme ...
11 
Hadoop : Les trois alternatives 
 Construire sa propre « distribution » sur la base du Framework 
– L’ensemble des co...
12 
Hadoop : Les critères de choix 
 Notre Enjeu Majeur 
– Haute-disponibilité et performance des systèmes : par construc...
13 
Hadoop : notre choix 
 MAPRFS 
– Dépasse les contraintes de contention et de haute disponibilité du name-node d’HDFS ...
14 
Agenda 
1. Voyage au pays du Big Data 
L’initiative Big Data Chez Cdiscount 
2. Et pourquoi pas muscler la plateforme ...
15 
L’initiative BigData après un an 
 Les plus 
– Le ROI de la plateforme est supérieur aux attentes 
– Le déploiement d...
16 
Les prochaines étapes 
– Temps Réel 
– Se donner la capacité à personnaliser la navigation sur des échelles de temps r...
Questions / Réponses
Prochain SlideShare
Chargement dans…5
×

Quel hadoop (#quelhadoop)

1 062 vues

Publié le

http://quelhadoop.com - événement organisé par Ysance en collaboration avec MAPR

Publié dans : Données & analyses
0 commentaire
5 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 062
Sur SlideShare
0
Issues des intégrations
0
Intégrations
85
Actions
Partages
0
Téléchargements
12
Commentaires
0
J’aime
5
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Quel hadoop (#quelhadoop)

  1. 1. Quel Hadoop ? Jeudi 12 Juin 2014
  2. 2. 2 Agenda 1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé 4. Et si c’était à refaire ? REX après 1 an en opérations
  3. 3. 3 Du POC à la réalité PROJET STAFFING (DSI) INFRA PHASE 1 POC PHASE 2 Adoption de la technologie PHASE 3 Passage à l’échelle Q1 2013 Q2 2013 Q3 2013 Q4 2013 Q1 2014 Q2 2014 Plateforme MAPR (M3) Plateforme HD-INSIGHT Plateforme MAPR (M3) 3 puis 4 et enfin 6 Noeuds MAPR (M3) Plateforme MAPR (M3) Plateforme MAPR (M5) 3 Personnes Dédiées Accompagnement par Dataiku 10 personnes pour assurer les développements 3 Personnes pour l’administration de la plateforme Accompagnement continu (Dataiku, Ysance et MAPR) 2 projets déployés (1 par POC) Déploiement progressif d’une quinzaine de projets, concernant le marketing, la régie pub, les achats, la logistique, … et bien sûr le site avec de la personnalisation
  4. 4. 4 Focus Architecture Technologies mises en oeuvre Log Files BizData (customers, orders, products, offers, …) Website Personalization Data Sharing (partners) Logistic Analytics Reporting & Data Sharing (customers) BI
  5. 5. 5 Agenda 1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé 4. Et si c’était à refaire ? REX après 1 an en opérations
  6. 6. 6 Le premier V : Volume Impact de l’augmentation des volumes HW HW HW L’augmentation exponentielle du TCO limite la capacité des systèmes traditionnels à gérer de gros volumes de données
  7. 7. 7 Le second V : Velocity Nécessité d’accélérer la mise à disposition des analyses HW SW HW HW L’augmentation exponentielle du TCO limite la capacité des systèmes traditionnels à gérer des performances accrue (Scale-Up only)
  8. 8. 8 Le troisième V : Variety Opportunité de traiter des sources de données hétérogènes HW SW HW HW HW L’augmentation exponentielle du TCO limite la capacité des systèmes traditionnels à gérer des données non structurées
  9. 9. 9 Le choix d’Hadoop  Volume, Velocity, Variety – Les systèmes traditionnels peuvent jusqu’à un certain point répondre à ces enjeux – Nous avons travaillé cette voie avec des accélérateurs d’infrastructure sur du décisionnel classique pour donner le temps à l’initiative BigData d’émerger tout en continuant de répondre aux enjeux métier court terme  Le choix d’Hadoop – Plusieurs éditeurs ont mis sur le marché des solutions de BI en scale-out (Parralel DWH chez Microsoft par exemple), faisant passer le TCO d’un modèle exponentiel vers un modèle linéaire … – … Mais seules les solutions construites sur le Framework Hadoop associées à du « Commodity Hardware » permettent de rendre le TCO asymptotique.  De nouveaux horizons – La rupture technologique apportée par ce genre de solutions permet aux DSI d’ouvrir de nouveaux horizons à l’ensemble de nos business line (et pas seulement aux data-scientist des équipes marketing)
  10. 10. 10 Agenda 1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé 4. Et si c’était à refaire ? REX après 1 an en opérations
  11. 11. 11 Hadoop : Les trois alternatives  Construire sa propre « distribution » sur la base du Framework – L’ensemble des composants du projet Apache Hadoop sont open-source – Construire sa propre distribution permet de disposer des dernières fonctionnalités publiées par la communauté – Nécessite d’avoir des équipes rompues à l’intégration de softwares open-source  Choisir une des trois distributions majeures – Trois distribution se partagent le marché (MAPR, Cloudera et HortonWorks) – Ces distributions garantissent pour une version donnée l’intégration de l’ensemble des composants du framework Hadoop (MapReduce, Zookeeper, Hbase, Hive, Pig, …) – Ces trois distribution contribuent de manière importante au projet Apache Hadoop – Ces trois distributions sont à l’origine de nombreuses améliorations du Framework  Choisir une solution intégrée (Package) – Ces solutions se basent souvent sur une des trois distributions précédentes – Elles apportent une intégration avancée avec l’infrastructure – En mode Cloud : HD-Insight, Elastic Map Reduce – En mode OnPremise : Pivotal, IBM InfoSphere BigInsights, Oracle, Microsoft, SAP
  12. 12. 12 Hadoop : Les critères de choix  Notre Enjeu Majeur – Haute-disponibilité et performance des systèmes : par construction, HDFS, bien que permettant de faire du scale-out, a un gros point faible (le name-node)  Les problématiques nouvelles – Backup et PRA : Le volume de données conséquent ne permet pas d’aborder la sécurisation des données avec les méthodes traditionnelles – Administration des systèmes : au démarrage de l’initiative BigData, 95% des systèmes (un millier d’instances de serveurs) exploités étaient des systèmes windows. Les équipes Cdiscount ne sont donc pas rompues à l’administration des systèmes linux et encore moins avec des systèmes de fichier non-POSIX (comme HDFS)
  13. 13. 13 Hadoop : notre choix  MAPRFS – Dépasse les contraintes de contention et de haute disponibilité du name-node d’HDFS – Système de fichier Full POSIX simplifiant l’administration des systèmes (commandes linux usuelles) – Accessibilité du filesystem en NFS (simplification des taches de maintenance sur les données : migration, copie d’archive, …)  Haute Disponibilité – Réplication native sur un second cluster (OnPremise ou dans le Cloud) – Gestion de bascule du service sur le réplicat – Capacité à faire des snapshots pour du fast-recovery  … Mais aussi – Une intégration propre avec l’ETL Talend – Un dashboard de métrologie et supervision permettant aux développeurs d’avoir un bon niveau d’information sur l’état du cluster – Une roadmap produit mettant en avant des enjeux qui nous parlent (Haute-dispo, performance et temps-réel)
  14. 14. 14 Agenda 1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé 4. Et si c’était à refaire ? REX après 1 an en opérations
  15. 15. 15 L’initiative BigData après un an  Les plus – Le ROI de la plateforme est supérieur aux attentes – Le déploiement de nouveaux périmètres a été plus rapide que prévu – La capacité de manipuler les données via NFS est un vrai plus pour les opérations de maintenance (migration, recopie d’environnement, …) – La plateforme dispose d’un PRA (ce qui n’est pas le cas de notre plateforme décisionnelle traditionnelle)  Les Moins – Le rapatriement de la plateforme OnPremise aurait du être accéléré en regard de l’accélération des déploiements de projets business – Malgré le choix d’une distribution réputée facile à administrer, le manque de maitrise technique de nos équipes (environnements linux) rend la gestion d’incident relativement complexe
  16. 16. 16 Les prochaines étapes – Temps Réel – Se donner la capacité à personnaliser la navigation sur des échelles de temps réduite (au sein même d’une session de navigation) – Se donner la capacité de mesurer l’efficacité de nos mises en avant produit sur des échelles de temps réduites (à l’heure près vs J+1 aujourd’hui) – Evaluation de Shark & Spark – Calculs complexes & Machine Learning – Affiner le matching entre nos segments clients et produits pour améliorer la performance des recommandations produits – Mécaniques d’élasticité des prix (en fonction des ventes, du stock, de la concurrence, …) – Gestion des risques et détection de la fraude – Mécaniques de prévision à destination de la logistique et de nos vendeurs Marketplace – Industrialisation du produit « Dataplatform by Cdiscount » – Accompagner l’internationalisation de la plateforme E-commerce (6 pays à fin juin 2014, objectif 20 pays d’ici 2016) avec un produit Dataplatform packagé – Normalisation des entrées/sortie
  17. 17. Questions / Réponses

×