Successfully reported this slideshow.

Quel hadoop (#quelhadoop)

1 271 vues

Publié le

http://quelhadoop.com - événement organisé par Ysance en collaboration avec MAPR

Publié dans : Données & analyses
  • Soyez le premier à commenter

Quel hadoop (#quelhadoop)

  1. 1. Quel Hadoop ? Jeudi 12 Juin 2014
  2. 2. 2 Agenda 1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé 4. Et si c’était à refaire ? REX après 1 an en opérations
  3. 3. 3 Du POC à la réalité PROJET STAFFING (DSI) INFRA PHASE 1 POC PHASE 2 Adoption de la technologie PHASE 3 Passage à l’échelle Q1 2013 Q2 2013 Q3 2013 Q4 2013 Q1 2014 Q2 2014 Plateforme MAPR (M3) Plateforme HD-INSIGHT Plateforme MAPR (M3) 3 puis 4 et enfin 6 Noeuds MAPR (M3) Plateforme MAPR (M3) Plateforme MAPR (M5) 3 Personnes Dédiées Accompagnement par Dataiku 10 personnes pour assurer les développements 3 Personnes pour l’administration de la plateforme Accompagnement continu (Dataiku, Ysance et MAPR) 2 projets déployés (1 par POC) Déploiement progressif d’une quinzaine de projets, concernant le marketing, la régie pub, les achats, la logistique, … et bien sûr le site avec de la personnalisation
  4. 4. 4 Focus Architecture Technologies mises en oeuvre Log Files BizData (customers, orders, products, offers, …) Website Personalization Data Sharing (partners) Logistic Analytics Reporting & Data Sharing (customers) BI
  5. 5. 5 Agenda 1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé 4. Et si c’était à refaire ? REX après 1 an en opérations
  6. 6. 6 Le premier V : Volume Impact de l’augmentation des volumes HW HW HW L’augmentation exponentielle du TCO limite la capacité des systèmes traditionnels à gérer de gros volumes de données
  7. 7. 7 Le second V : Velocity Nécessité d’accélérer la mise à disposition des analyses HW SW HW HW L’augmentation exponentielle du TCO limite la capacité des systèmes traditionnels à gérer des performances accrue (Scale-Up only)
  8. 8. 8 Le troisième V : Variety Opportunité de traiter des sources de données hétérogènes HW SW HW HW HW L’augmentation exponentielle du TCO limite la capacité des systèmes traditionnels à gérer des données non structurées
  9. 9. 9 Le choix d’Hadoop  Volume, Velocity, Variety – Les systèmes traditionnels peuvent jusqu’à un certain point répondre à ces enjeux – Nous avons travaillé cette voie avec des accélérateurs d’infrastructure sur du décisionnel classique pour donner le temps à l’initiative BigData d’émerger tout en continuant de répondre aux enjeux métier court terme  Le choix d’Hadoop – Plusieurs éditeurs ont mis sur le marché des solutions de BI en scale-out (Parralel DWH chez Microsoft par exemple), faisant passer le TCO d’un modèle exponentiel vers un modèle linéaire … – … Mais seules les solutions construites sur le Framework Hadoop associées à du « Commodity Hardware » permettent de rendre le TCO asymptotique.  De nouveaux horizons – La rupture technologique apportée par ce genre de solutions permet aux DSI d’ouvrir de nouveaux horizons à l’ensemble de nos business line (et pas seulement aux data-scientist des équipes marketing)
  10. 10. 10 Agenda 1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé 4. Et si c’était à refaire ? REX après 1 an en opérations
  11. 11. 11 Hadoop : Les trois alternatives  Construire sa propre « distribution » sur la base du Framework – L’ensemble des composants du projet Apache Hadoop sont open-source – Construire sa propre distribution permet de disposer des dernières fonctionnalités publiées par la communauté – Nécessite d’avoir des équipes rompues à l’intégration de softwares open-source  Choisir une des trois distributions majeures – Trois distribution se partagent le marché (MAPR, Cloudera et HortonWorks) – Ces distributions garantissent pour une version donnée l’intégration de l’ensemble des composants du framework Hadoop (MapReduce, Zookeeper, Hbase, Hive, Pig, …) – Ces trois distribution contribuent de manière importante au projet Apache Hadoop – Ces trois distributions sont à l’origine de nombreuses améliorations du Framework  Choisir une solution intégrée (Package) – Ces solutions se basent souvent sur une des trois distributions précédentes – Elles apportent une intégration avancée avec l’infrastructure – En mode Cloud : HD-Insight, Elastic Map Reduce – En mode OnPremise : Pivotal, IBM InfoSphere BigInsights, Oracle, Microsoft, SAP
  12. 12. 12 Hadoop : Les critères de choix  Notre Enjeu Majeur – Haute-disponibilité et performance des systèmes : par construction, HDFS, bien que permettant de faire du scale-out, a un gros point faible (le name-node)  Les problématiques nouvelles – Backup et PRA : Le volume de données conséquent ne permet pas d’aborder la sécurisation des données avec les méthodes traditionnelles – Administration des systèmes : au démarrage de l’initiative BigData, 95% des systèmes (un millier d’instances de serveurs) exploités étaient des systèmes windows. Les équipes Cdiscount ne sont donc pas rompues à l’administration des systèmes linux et encore moins avec des systèmes de fichier non-POSIX (comme HDFS)
  13. 13. 13 Hadoop : notre choix  MAPRFS – Dépasse les contraintes de contention et de haute disponibilité du name-node d’HDFS – Système de fichier Full POSIX simplifiant l’administration des systèmes (commandes linux usuelles) – Accessibilité du filesystem en NFS (simplification des taches de maintenance sur les données : migration, copie d’archive, …)  Haute Disponibilité – Réplication native sur un second cluster (OnPremise ou dans le Cloud) – Gestion de bascule du service sur le réplicat – Capacité à faire des snapshots pour du fast-recovery  … Mais aussi – Une intégration propre avec l’ETL Talend – Un dashboard de métrologie et supervision permettant aux développeurs d’avoir un bon niveau d’information sur l’état du cluster – Une roadmap produit mettant en avant des enjeux qui nous parlent (Haute-dispo, performance et temps-réel)
  14. 14. 14 Agenda 1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé 4. Et si c’était à refaire ? REX après 1 an en opérations
  15. 15. 15 L’initiative BigData après un an  Les plus – Le ROI de la plateforme est supérieur aux attentes – Le déploiement de nouveaux périmètres a été plus rapide que prévu – La capacité de manipuler les données via NFS est un vrai plus pour les opérations de maintenance (migration, recopie d’environnement, …) – La plateforme dispose d’un PRA (ce qui n’est pas le cas de notre plateforme décisionnelle traditionnelle)  Les Moins – Le rapatriement de la plateforme OnPremise aurait du être accéléré en regard de l’accélération des déploiements de projets business – Malgré le choix d’une distribution réputée facile à administrer, le manque de maitrise technique de nos équipes (environnements linux) rend la gestion d’incident relativement complexe
  16. 16. 16 Les prochaines étapes – Temps Réel – Se donner la capacité à personnaliser la navigation sur des échelles de temps réduite (au sein même d’une session de navigation) – Se donner la capacité de mesurer l’efficacité de nos mises en avant produit sur des échelles de temps réduites (à l’heure près vs J+1 aujourd’hui) – Evaluation de Shark & Spark – Calculs complexes & Machine Learning – Affiner le matching entre nos segments clients et produits pour améliorer la performance des recommandations produits – Mécaniques d’élasticité des prix (en fonction des ventes, du stock, de la concurrence, …) – Gestion des risques et détection de la fraude – Mécaniques de prévision à destination de la logistique et de nos vendeurs Marketplace – Industrialisation du produit « Dataplatform by Cdiscount » – Accompagner l’internationalisation de la plateforme E-commerce (6 pays à fin juin 2014, objectif 20 pays d’ici 2016) avec un produit Dataplatform packagé – Normalisation des entrées/sortie
  17. 17. Questions / Réponses

×