1© OCTO 2013© OCTO 2012© OCTO 2013Réussir votre premier projetHadoop et passer à l’échelleEn partenariat avec
2© OCTO 2013OCTO et le Big DataUne offre cohérente entre technologie et analyse prédictiveCONSEIL EN SI BIG DATA Etude et...
3© OCTO 2013Une équipe dédiée, composée deExperts et architectes sur les clusters de stockage et de calculStatisticiens et...
4© OCTO 2013IntervenantsJulien CABOTDirecteur Big Data AnalyticsOCTOjcabot@octo.comGraham GearSystems EngineerClouderagrah...
5© OCTO 2013Introduction à Big Data et HadoopComment fournir une solution business de bout en bout avecHadoop?Questions/ré...
6© OCTO 2013© OCTO 2012© OCTO 2013Big Data et Hadoop
7© OCTO 2013Un concept devenant une réalité pour les entreprisesDes réflexions et prototypes activés dans les entreprises ...
8© OCTO 2013Il n’existe pas aujourd’hui de définition claire de Big DataIl s’agit à la foisd’une ambition métier et d’une ...
9© OCTO 2013Big Data, une ambition stratégiqueBig data est l’ambition de tirer unavantage économiquedel’analyse quantitati...
10© OCTO 2013Quelques usages de Big Data dans les entreprisesMarketingcomportementaldes clients retailsbancaire• Analyse d...
11© OCTO 2013Big Data, un univers technologique pour construiredes systèmes à haute performanceApplicationorientée Fluxévè...
12© OCTO 2013Evolution non uniforme de la capacité et du débit desdisques010203040506070Débit(MB/s)Gain : x9164 MB/s0,7 MB...
13© OCTO 2013Une limite structurelle à la loide Moore!Latences des composants technologiquesL’architecture client-serveur ...
14© OCTO 2013Evolution des architectures pour dépassercette limite structurelleArchitecture In Memory• Réduire la latence ...
15© OCTO 2013Hadoop dans l’univers BigdataApplicationorientée FluxévènementielsApplication orientéeTransactionsApplication...
16© OCTO 2013Hadoop s’impose comme une architecturede référence sur le marché• Apache HadoopOpen Source• Cloudera CDH• Hor...
17© OCTO 2013© OCTO 2012© OCTO 2013Comment fournir une solution businessde bout en bout avec Hadoop ?
18© OCTO 2013Hadoop, un écosystème richeet complexe
19© OCTO 2013Stockage de fichiers plus volumineux qu’un unique disqueRépartition des données sur plusieurs machinesRéplica...
20© OCTO 2013Paralléliser et distribuer les traitementsTraiter plus rapidement des volumes de données unitaires plus faibl...
21© OCTO 2013Hadoop est à la foisUn système de stockage distribué pour les grands fichiers (N x 64Mo)Un système d’agrégati...
22© OCTO 2013Data labOffloading d’entrepôts/applianceTraitement de flux d’informations (Hadoop asan ELT)Grille de calculsM...
23© OCTO 2013Le puzzle complet (une vision)HDFSMapReduceHive Pig MahoutHbaseCassandraData MiningData VisualizationCollecte...
24© OCTO 2013Collecte en stocksPUT HDFS natifSqoop pour les SGBDRTalend : ELT pour HadoopSyncsort : chargement de gros vol...
25© OCTO 2013Hadoop et les outils de BI et de Data mining
26© OCTO 2013L’architecture matérielle et logicielle d’un projet Hadoop dépenddes usages du clusterIl n’existe pas une arc...
27© OCTO 2013Discussion
28© OCTO 2013© OCTO 2012© OCTO 201310 best practices pourdimensionner et configurer uncluster Hadoop
29© OCTO 2013Piège 1 : la tentation des machines « monstres de guerre »Piège 2 : le réseau, mieux vaut 10Gb/s c’est plus s...
30© OCTO 2013Le piègeDes ressources inutiliséesUn niveau de parallélisme insuffisantUn surcoût aux performances non garant...
31© OCTO 2013Le piègePour garder de bonnes perfs, il faut éviter la sursouscriptionSwitchs de rack plus gros, donc plus ch...
32© OCTO 2013Le piègePas de détail sur les métriques internes d’HadoopLectures / écritures de HDFS par nœudConsommation mé...
33© OCTO 2013Le piègeUn petit cluster Hadoop, c’est 10 machinesConfiguration et maintenance à la main difficilePerte de te...
34© OCTO 2013Le piège500 mappers et 20 reducers520 fichiers de logs à collecter sur tout le clusterPeu d’informations util...
35© OCTO 2013Le piègeIls ne sont pas optimisés pour votre clusterSous utilisation des ressourcesÉchecs possibles de certai...
36© OCTO 2013Le piègePas optimisée pour un clusterLes paramètres dépendent de vos données, de votre réseau, …Best Practice...
37© OCTO 2013Le piègePas optimisée pour un clusterLes paramètres dépendent de votre utilisationBest PracticeUtiliser le Ca...
38© OCTO 2013Le piègeLenteur des jobs dû à un stockage inefficacePlus d’espace utilisé que nécessaireBest PracticeFormat d...
39© OCTO 2013Le piègeNon représentatif de l’usage réel du clusterBest PracticeUtiliser du code de productionPiège 10 : ben...
40© OCTO 2013Discussion
41© OCTO 2013© OCTO 2012© OCTO 2013Hadoop CDH4 sous YARN dansles télécoms. Retour dexpérience
42© OCTO 2013ContexteCaractéristiques du clusterDéroulement du projetDéploiement de HadoopDéploiement des outils supportLe...
43© OCTO 2013Durée : 3 moisEquipe opérationnelle : 8 personnesTrois enjeux majeurs :Construire une plateforme Big Data opé...
44© OCTO 20131 rack, 12 serveurs1 nœud pour les outils, 1 autre pour l’anonymisation2 nœuds masternamenode / resourcemanag...
45© OCTO 2013Déroulement du projet
46© OCTO 2013Réseau de production : utiliser un mirroir localConfiguration OS : compétences système et réseau requisesUtil...
47© OCTO 2013Relativement facile une fois Hadoop correctement installéPeu d’impact sur le cluster en lui mêmeNe déployer q...
48© OCTO 2013KISS : Keep It Simple StupidNe pas négliger le travail en amont de l’analyse !Les alimentations de données
49© OCTO 2013Beaucoup de travail en amontUn cluster s’optimise au contact de la réalitéLimites des outilsAjustement de l’o...
50© OCTO 2013Passage de CDH 4.0.1 à CDH 4.1.2Des leçonsDu travail en amontLe SCM aurait fait gagner du tempsSuivre les pré...
51© OCTO 2013Initialement en début de projet…Terasort ? Plutôt HiBenchAu final, le travail réalisé pendant le projet a été...
52© OCTO 2013Cluster YARN opérationnelPlusieurs outils testés au cours de l’explorationHDFS occupé à 70% : 1 427 251 fichi...
53© OCTO 2013Des points positifsYARN : stable et ouvre à d’autres frameworks que Map ReduceDes outils polyvalentsDes point...
54© OCTO 2013Discussion
55© OCTO 2013© OCTO 2013Présentation Cloudera
56© OCTO 2013© OCTO 2012© OCTO 2013Conclusion
57© OCTO 2013L’écosystème Hadoop est riche etcomplexe, en mouvementLes gains attendus sont sans précédentsL’usage a une in...
58© OCTO 2013Identifiez les use cases métiers applicables dans votre contexte, enbenchmarkant les projets lancés dans d’au...
59© OCTO 2013OCTO et le Big DataUne offre cohérente entre technologie et analyse prédictiveCONSEIL EN SI BIG DATA Etude e...
60© OCTO 201360Petit Déjeuner Hadoop - ClouderaGraham Gear | graham@cloudera.comAPRIL 2013
61© OCTO 201361CLOUDERATIMELINE2008CLOUDERA FOUNDEDBY MIKE OLSON,AMR AWADALLAH &JEFF HAMMERBACHER2009HADOOP CREATORDOUG CU...
62© OCTO 2013Pervasive in the Enterprise6220+ B events online perday are ingested byCloudera70% of all the smartphones in ...
63© OCTO 2013SIMPLIFIED, UNIFIED, EFFICIENT• Bulk of data stored on scalable low cost platform• Perform end-to-end workflo...
64© OCTO 2013A Complete Solution64CLOUDERAUNIVERSITYDEVELOPERTRAININGADMINISTRATORTRAININGDATA SCIENCETRAININGCERTIFICATIO...
65© OCTO 201365Cloudera Enterprise CoreIncludes Support & Management for all the CoreComponents of CDHINGEST STORE EXPLORE...
66© OCTO 201366Cloudera Enterprise RTDIncludes Support & Management for Apache HBaseINGEST STORE EXPLORE PROCESS ANALYZE S...
67© OCTO 201367Cloudera Enterprise RTQIncludes Support & Management for Cloudera ImpalaINGEST STORE EXPLORE PROCESS ANALYZ...
68© OCTO 201368Cloudera Enterprise BDRBackup & Disaster Recovery Module for ClouderaEnterpriseINGEST STORE EXPLORE PROCESS...
69© OCTO 201369Cloudera NavigatorData Audit & Access Control for Cloudera EnterpriseINGEST STORE EXPLORE PROCESS ANALYZE S...
70© OCTO 201370Customer Case Studies
71© OCTO 2013A multinational bank savesmillions by optimizing DW foranalytics & reducing datastorage costs by 99%.Ask Bigg...
72© OCTO 2013Cloudera optimizes the EDW, saves millions72The Challenge:• Teradata EDW at capacity: ETL processes consume 7...
73© OCTO 2013The quant risk LOB within amultinational bank savesmillions through better riskexposure analysis & fraudpreve...
74© OCTO 2013Cloudera delivers savings through fraud prevention74The Challenge:• Fraud detection is a cumbersome, multi-st...
75© OCTO 2013A Semiconductor Manufacturerusespredictive analytics to takepreventative action on chipslikely to fail.Ask Bi...
76© OCTO 2013Cloudera enables betterpredictions76The Challenge:• Want to capture greater granular and historical data for ...
77© OCTO 2013BlackBerry eliminates datasampling & simplifies dataprocessing for better, morecomprehensive analysis.Ask Big...
78© OCTO 2013Cloudera delivers ROI through storage alone78The Challenge:• BlackBerry Services generates .5PB (50-60TB comp...
79© OCTO 2013A leading manufacturer ofmobile devices gleans newinsights & delivers instantsoftware bug fixes.Ask Bigger Qu...
80© OCTO 2013Cloudera complements the data warehouse80The Challenge:• Fast-growing Oracle DW – difficult & expensive to ma...
81© OCTO 2013YellowPages enables newpublisher services throughfaster data processing.Ask Bigger Questions:How can we incre...
82© OCTO 2013The Challenge:• Want to keep 260M billable daily events for 13 mos. + 600M non-billabledaily events for 90 da...
Prochain SlideShare
Chargement dans…5
×

Petit-Déjeuner OCTO / Cloudera "Tout pour réussir votre premier projet Hadoop et passer à l’échelle industrielle"

5 171 vues

Publié le

Les promesses du Big Data sont séduisantes. Encore, faut-il savoir maîtriser l’écosystème d’Hadoop, son architecture et la configuration d’un cluster adapté aux besoins métiers. Dans ce petit-déjeuner, pas de théorie uniquement des retours d’expérience de projets en France, avec OCTO et aux USA avec Cloudera.

Les thèmes abordés seront :

Quels projets pilotes Hadoop lancés en 2013? YARN, Impala, MapReduce, HCatalog,...
Quels composants logiciels pour compléter le puzzle Hadoop pour offrir une solution Big Data utilisable par les métiers?
Comment dimensionner et configurer un cluster Hadoop adapté aux besoins?
Comment benchmarker les performances d’un cluster?
Quelles sont les best practices et les pièges à éviter en matière de développement
Retours d’expérience projets en France et aux USA


Au terme de ce petit-déjeuner :

Vous aurez une vision claire de ce qu'est Hadoop et son écosystème en 2013
Vous connaîtrez les best practices de dimensionnement de cluster
Vous saurez sélectionner les outils de l'écosystème correspondant à vos besoins
Vous saurez, au travers d'un retour d'expérience du terrain, comment réussir votre projet Big Data avec Hadoop

Publié dans : Technologie
  • Soyez le premier à commenter

Petit-Déjeuner OCTO / Cloudera "Tout pour réussir votre premier projet Hadoop et passer à l’échelle industrielle"

  1. 1. 1© OCTO 2013© OCTO 2012© OCTO 2013Réussir votre premier projetHadoop et passer à l’échelleEn partenariat avec
  2. 2. 2© OCTO 2013OCTO et le Big DataUne offre cohérente entre technologie et analyse prédictiveCONSEIL EN SI BIG DATA Etude et positionnement des solutionsen fonction de votre contexte Transformation de SI Décisionnel vers leBig Data Cadrage de projets Big DataARCHITECTURE DES SYSTÈMES BIG DATA POC sur Hadoop et NoSQL Conception et réalisation de systèmessous Hadoop et NoSQL Formation HadoopCONSEIL EN ANALYSE DE DONNÉES AVANCÉES Benchmarks de projets Big Data parsecteur Formation des équipes de dataminingaux techniques Big Data Accompagnent des projets pilotemétiersCOLLECTE DE DONNÉES EXTERNES Identification de sources de données Collecte et traitements de données nonstructurées Recherche de corrélations économiquesDIRECTION SI DIRECTION MÉTIER
  3. 3. 3© OCTO 2013Une équipe dédiée, composée deExperts et architectes sur les clusters de stockage et de calculStatisticiens et consultants en machine learningUne R&D spécifique sur Hadoop, NoSQL et le machine learningDes relations très approfondies avec les équipes R&D de nospartenairesCloudera10Gen MongodbDatastax CassandraL’équipe OCTO Big Data Analytics
  4. 4. 4© OCTO 2013IntervenantsJulien CABOTDirecteur Big Data AnalyticsOCTOjcabot@octo.comGraham GearSystems EngineerClouderagraham@cloudera.comRémy SAISSYArchitecte, expert HadoopOCTOrsaissy@octo.com
  5. 5. 5© OCTO 2013Introduction à Big Data et HadoopComment fournir une solution business de bout en bout avecHadoop?Questions/réponses10 Best practices pour dimensionner et configurer un clusterHadoop4 - Hadoop CDH4 sous YARN dans les coms. Retourd rienceQuestions/réponsesQuoi de neuf dans la Cloudera CDH en 2013?Retour d’expérience aux USQuestions/réponsesAgenda
  6. 6. 6© OCTO 2013© OCTO 2012© OCTO 2013Big Data et Hadoop
  7. 7. 7© OCTO 2013Un concept devenant une réalité pour les entreprisesDes réflexions et prototypes activés dans les entreprises françaisesBig Data, une écosystème multipleWebGoogle, Amazon,Facebook, Twitter,…Logiciel ITIBM, Teradata,Vmware, EMC,…ManagementMcKinsey,BCG, Deloitte,…
  8. 8. 8© OCTO 2013Il n’existe pas aujourd’hui de définition claire de Big DataIl s’agit à la foisd’une ambition métier et d’une opportunité technologiqueDéfinir Big DataSuper datawarehouse?Stockage low cost?NoSQL?Cloud?Internet Intelligence?Analyse en tempsréel?Non structuré? Open Data?
  9. 9. 9© OCTO 2013Big Data, une ambition stratégiqueBig data est l’ambition de tirer unavantage économiquedel’analyse quantitative desdonnéesinternes et externes de l’entreprise
  10. 10. 10© OCTO 2013Quelques usages de Big Data dans les entreprisesMarketingcomportementaldes clients retailsbancaire• Analyse des opérations degestion (CRE) bancairespour déterminer unesegmentation marketingbasée sur lecomportement des clientsretails et non sur unesegmentation par foyerfiscal• Recommandations deproduits financiersAnalyse prédictiveIARD exploitantles tendances descommunautésWeb• Identifier des corrélationsentre les sujets d’intérêtsdes communautés (patients, auto, habitation,épargne, …) et lessinistres• Enrichir les modèles dedatamining avec desindicateurs exogènesreflétant les facteurspsycho sociauxOff loading desentrepôts dedonnées• Réduire les coûts destockage desdatawarehouses par 100en déchargeantpartiellement les systèmesOracle ou Teradata versHadoop• Tirer profit d’unearchitecture cloudprivé/hybride, élastique àla demande
  11. 11. 11© OCTO 2013Big Data, un univers technologique pour construiredes systèmes à haute performanceApplicationorientée FluxévènementielApplication orientéeTransactionApplication orientéeStockageApplication orientéeCalculsUnivers« standard »SGBDR,Serveur d’application,ETL, ESBAu-delà de 10 To en ligne, lesarchitectures « classiques »nécessitent des adaptationslogiques et matérielles trèsimportantes.Au-delà de 1 000transactions/seconde, lesarchitectures « classiques » desadaptations logiques etmatérielles très importantesAu-delà de 10 threads/CoreCPU, la programmationséquentielle classique atteintses limites (I/O).Au-delà de 1 000évènements/seconde, lesarchitectures « classiques »nécessitent des adaptationslogiques et matérielles trèsimportantes.StockagedistribuéSharenothingXTPProgrammationparallèleEvent StreamProcessing
  12. 12. 12© OCTO 2013Evolution non uniforme de la capacité et du débit desdisques010203040506070Débit(MB/s)Gain : x9164 MB/s0,7 MB/sSeagateBarracuda7200.10SeagateBarracudaATA IVIBM DTTA35010Gain : x100 0001990 2010La croissance du débit reste très inférieure de celle de la capacité
  13. 13. 13© OCTO 2013Une limite structurelle à la loide Moore!Latences des composants technologiquesL’architecture client-serveur traditionnelle doit évoluer pour continuerà suivre la loi de Moore
  14. 14. 14© OCTO 2013Evolution des architectures pour dépassercette limite structurelleArchitecture In Memory• Réduire la latence en utilisantdes supports plus rapides(DRAM, SSD)• Bénéficier de l’évolution descapacités des composants• La limite structurelle n’est pasque déplacée• Pour évoluer, l’architecture doitdevenir une grille In MemoryArchitecture en grille• Paralléliser les accès I/O endivisant les volumes (sharding)• Bénéficier du différentiel decoût entre commodityhardware et haut de gamme• Le réseau de la grille devientun composantprincipal, nécessitant co-localisation des données etdes traitements• Permet de scaler à l’infini, c’estle Warehouse scalecomputing!
  15. 15. 15© OCTO 2013Hadoop dans l’univers BigdataApplicationorientée FluxévènementielsApplication orientéeTransactionsApplication orientéeStockageApplication orientéeCalculsParrallel databaseNoSQLNewSQLCEP, ESP HadoopHDFSMapReduceProjetsassociésCassandraPigHiveChuckwaHbaseMahoutPigZooKeeperIn Memory
  16. 16. 16© OCTO 2013Hadoop s’impose comme une architecturede référence sur le marché• Apache HadoopOpen Source• Cloudera CDH• Hortonworks• MapR• DataStax (Brisk)COTS• Greenplum (EMC)• IBM InfoSphere BigInsights (CDH)• Oracle Big data appliance (CDH)• NetApp Analytics (CDH)• …Editeurs• Amazon EMR (MapR)• VirtualScale (CDH)Cloud
  17. 17. 17© OCTO 2013© OCTO 2012© OCTO 2013Comment fournir une solution businessde bout en bout avec Hadoop ?
  18. 18. 18© OCTO 2013Hadoop, un écosystème richeet complexe
  19. 19. 19© OCTO 2013Stockage de fichiers plus volumineux qu’un unique disqueRépartition des données sur plusieurs machinesRéplication des données pour assurer le « fail-over » : « rackawareness »Hadoop Distributed File System(HDFS)
  20. 20. 20© OCTO 2013Paralléliser et distribuer les traitementsTraiter plus rapidement des volumes de données unitaires plus faiblesCo-localiser traitements / donnéesMapReduce, le système detraitement
  21. 21. 21© OCTO 2013Hadoop est à la foisUn système de stockage distribué pour les grands fichiers (N x 64Mo)Un système d’agrégation et de traitement parallèle en mode batchà la demande, reposant sur la grille de stockageHadoop n’est pas aujourd’huiUn système d’accès à la donnée unitaire (random access)Un système temps réel, mais batch à la demandeUn outils de visualisation graphique des donnéesUne librairie de traitements statistiques et text mining finaliséeMahout, Hama fournissent des algorithmes parallèlesHadoop nécessite des composants externes pour compléter lepuzzleLes mythes et réalités sur Hadoop
  22. 22. 22© OCTO 2013Data labOffloading d’entrepôts/applianceTraitement de flux d’informations (Hadoop asan ELT)Grille de calculsMachine learning temps réel (Online learning)Quels composants? Pour faire quoi?
  23. 23. 23© OCTO 2013Le puzzle complet (une vision)HDFSMapReduceHive Pig MahoutHbaseCassandraData MiningData VisualizationCollecte de stocksSystèmeopérationnelSystèmedécisionnelInfrastructure EvènementsWebCollecte de streamsGPUSystèmeopérationnelMétiers Data minersWeb ServicesCataloguededonnées
  24. 24. 24© OCTO 2013Collecte en stocksPUT HDFS natifSqoop pour les SGBDRTalend : ELT pour HadoopSyncsort : chargement de gros volumesETL via Connecteurs sur HiveCollecte en streamsFlume / Kafka : logsCassandraStorm : collecte et traitement en temps réel de gros volumesESB via Connecteurs sur HiveOutils de collecte
  25. 25. 25© OCTO 2013Hadoop et les outils de BI et de Data mining
  26. 26. 26© OCTO 2013L’architecture matérielle et logicielle d’un projet Hadoop dépenddes usages du clusterIl n’existe pas une architecture de référence pour tous lesusages, mais des architectures par classe d’utilisationL’architecture et la configuration du cluster sont les points lesplus critiques, qui nécessitent une expérience et une expertisepointueIl existe néanmoins des best practices et des pièges à éviterConcevoir une architecture Hadoop complète
  27. 27. 27© OCTO 2013Discussion
  28. 28. 28© OCTO 2013© OCTO 2012© OCTO 201310 best practices pourdimensionner et configurer uncluster Hadoop
  29. 29. 29© OCTO 2013Piège 1 : la tentation des machines « monstres de guerre »Piège 2 : le réseau, mieux vaut 10Gb/s c’est plus sûrPiège 3 : pour superviser, mes outils actuels suffisent !Piège 4 : un SCM ? Pas le temps, SSH fera l’affaire !Piège 5 : les logs c’est important, il faut tous les collecterPiège 6 : conserver les paramètres mémoire par défautPiège 7 : conserver la configuration par défaut de HDFSPiège 8 : conserver la configuration par défaut de MapReducePiège 9 : utiliser les formats de fichier par défautPiège 10 : benchmarker son cluster avec TeraSortSommaire
  30. 30. 30© OCTO 2013Le piègeDes ressources inutiliséesUn niveau de parallélisme insuffisantUn surcoût aux performances non garantiesBest PracticePenser parallélisationNotion de conteneur : 1 CPU physique / xGo de RAM / Disque durHDFSDimensionner pour du temps de traitementPiège 1 : la tentation des machines « monstres de guerre »
  31. 31. 31© OCTO 2013Le piègePour garder de bonnes perfs, il faut éviter la sursouscriptionSwitchs de rack plus gros, donc plus cher10Gb/s = 1Go/s = 40Go/s au niveau du switchBackbone encore plus gros, donc encore plus cher40Go/s * <nombre de racks> = ?Best PracticeUtiliser deux cartes 1Gb/s FDMoins de disque sur chaque serveurSuperviserPiège 2 : le réseau, mieux vaut 10Gb/s c’est plus sûr
  32. 32. 32© OCTO 2013Le piègePas de détail sur les métriques internes d’HadoopLectures / écritures de HDFS par nœudConsommation mémoire pendant les étapes d’un jobBest PracticePensez aux développeurs !Utiliser Ganglia pour des métriques finesPiège 3 : pour superviser, mes outils actuels suffisent !
  33. 33. 33© OCTO 2013Le piègeUn petit cluster Hadoop, c’est 10 machinesConfiguration et maintenance à la main difficilePerte de tempsBest PracticeUtiliser un SCMPiège 4 : un SCM ? Pas le temps, SSH fera l’affaire !
  34. 34. 34© OCTO 2013Le piège500 mappers et 20 reducers520 fichiers de logs à collecter sur tout le clusterPeu d’informations utiles à long termeBest PracticePas de collecte sur les slavesCollecte sur les mastersPiège 5 : les logs c’est important, il faut tous les collecter
  35. 35. 35© OCTO 2013Le piègeIls ne sont pas optimisés pour votre clusterSous utilisation des ressourcesÉchecs possibles de certains jobsBest Practice2Go pour les démons tasktracker et datanode4Go pour le démon JobTracker4Go + 1Go par million de bloc pour le namenodeUtiliser 4Go voire 8Go par tâche de map et de reduceSuperviserPiège 6 : conserver les paramètres mémoire par défaut
  36. 36. 36© OCTO 2013Le piègePas optimisée pour un clusterLes paramètres dépendent de vos données, de votre réseau, …Best PracticeConfigurer en pensant I/O vs mémoire vs réseauChaque cas d’utilisation a sa propre configuration optimiséeSuperviserPiège 7 : conserver la configuration par défaut de HDFS
  37. 37. 37© OCTO 2013Le piègePas optimisée pour un clusterLes paramètres dépendent de votre utilisationBest PracticeUtiliser le CapacitySchedulerConfigurer avec des règles de calculAuditer l’usage réel pour optimiser les configurationsPiège 8 : conserver la configuration par défaut de MapReduce
  38. 38. 38© OCTO 2013Le piègeLenteur des jobs dû à un stockage inefficacePlus d’espace utilisé que nécessaireBest PracticeFormat de stockage : distinguer les usagesBase de donnéesDonnées binairesCompression : quelle fréquence d’accès ?Donnée utiliséeArchivagePiège 9 : utiliser les formats de fichier par défaut
  39. 39. 39© OCTO 2013Le piègeNon représentatif de l’usage réel du clusterBest PracticeUtiliser du code de productionPiège 10 : benchmarker son cluster avec TeraSort
  40. 40. 40© OCTO 2013Discussion
  41. 41. 41© OCTO 2013© OCTO 2012© OCTO 2013Hadoop CDH4 sous YARN dansles télécoms. Retour dexpérience
  42. 42. 42© OCTO 2013ContexteCaractéristiques du clusterDéroulement du projetDéploiement de HadoopDéploiement des outils supportLes alimentations de donnéesL’analyse des donnéesLa migration du clusterLe benchmark du clusterCluster en fin de missionConclusionSommaire
  43. 43. 43© OCTO 2013Durée : 3 moisEquipe opérationnelle : 8 personnesTrois enjeux majeurs :Construire une plateforme Big Data opérationnelleMontée en compétence des équipesPréconisations pour une plateforme industrielleEquipe colocaliséeContexte
  44. 44. 44© OCTO 20131 rack, 12 serveurs1 nœud pour les outils, 1 autre pour l’anonymisation2 nœuds masternamenode / resourcemanagersecondary namenode8 nœuds slave : datanode et nodemanagerCaractéristiques du clusterSlavesMastersOutilsAccès Masters etOutils
  45. 45. 45© OCTO 2013Déroulement du projet
  46. 46. 46© OCTO 2013Réseau de production : utiliser un mirroir localConfiguration OS : compétences système et réseau requisesUtiliser un SCM pour déployerNécessité d’avoir des profils polyvalentsDéploiement de HadoopA l’attaque!
  47. 47. 47© OCTO 2013Relativement facile une fois Hadoop correctement installéPeu d’impact sur le cluster en lui mêmeNe déployer que le nécessaireDéploiement des outils support
  48. 48. 48© OCTO 2013KISS : Keep It Simple StupidNe pas négliger le travail en amont de l’analyse !Les alimentations de données
  49. 49. 49© OCTO 2013Beaucoup de travail en amontUn cluster s’optimise au contact de la réalitéLimites des outilsAjustement de l’ordonnanceurConfiguration mémoireConfiguration d’HDFSL’analyse des données
  50. 50. 50© OCTO 2013Passage de CDH 4.0.1 à CDH 4.1.2Des leçonsDu travail en amontLe SCM aurait fait gagner du tempsSuivre les préconisations !La migration du cluster
  51. 51. 51© OCTO 2013Initialement en début de projet…Terasort ? Plutôt HiBenchAu final, le travail réalisé pendant le projet a été le meilleurbenchmarkLe benchmark du cluster
  52. 52. 52© OCTO 2013Cluster YARN opérationnelPlusieurs outils testés au cours de l’explorationHDFS occupé à 70% : 1 427 251 fichiers, 280ToLes jobs ne saturent pas complètement le clusterCluster en fin de mission
  53. 53. 53© OCTO 2013Des points positifsYARN : stable et ouvre à d’autres frameworks que Map ReduceDes outils polyvalentsDes points à améliorerMaturité des outils et de leur environnement de travailComplexité de la configuration de Hadoop comme de ses outilsDes documentations et des abaquesMettre en place votre cluster ?une équipe pluri disciplinairede la polyvalence techniqueConclusion
  54. 54. 54© OCTO 2013Discussion
  55. 55. 55© OCTO 2013© OCTO 2013Présentation Cloudera
  56. 56. 56© OCTO 2013© OCTO 2012© OCTO 2013Conclusion
  57. 57. 57© OCTO 2013L’écosystème Hadoop est riche etcomplexe, en mouvementLes gains attendus sont sans précédentsL’usage a une incidence forte surl’architecture et la configurationConclusion
  58. 58. 58© OCTO 2013Identifiez les use cases métiers applicables dans votre contexte, enbenchmarkant les projets lancés dans d’autres secteurs en France etau-delàLancez un POC métier d’exploration des données, avec les métiers lesplus early adoptersMarketingDistributionInfrastructure industrielleTradingRisquesValorisez les résultats du POC en termes métiersDéfinissez une architecture cible de classe industrielle pour généraliserl’approche en réduisant les coûtsComment démarrer cet après midi?
  59. 59. 59© OCTO 2013OCTO et le Big DataUne offre cohérente entre technologie et analyse prédictiveCONSEIL EN SI BIG DATA Etude et positionnement des solutionsen fonction de votre contexte Transformation de SI Décisionnel vers leBig Data Cadrage de projets Big DataARCHITECTURE DES SYSTÈMES BIG DATA POC sur Hadoop et NoSQL Conception et réalisation de systèmessous Hadoop et NoSQL Formation HadoopCONSEIL EN ANALYSE DE DONNÉES AVANCÉES Benchmarks de projets Big Data parsecteur Formation des équipes de dataminingaux techniques Big Data Accompagnent des projets pilotesmétiersCOLLECTE DE DONNÉES EXTERNES Identification de sources de données Collecte et traitements de données nonstructurées Recherche de corrélations économiquesDIRECTION SI DIRECTION MÉTIER
  60. 60. 60© OCTO 201360Petit Déjeuner Hadoop - ClouderaGraham Gear | graham@cloudera.comAPRIL 2013
  61. 61. 61© OCTO 201361CLOUDERATIMELINE2008CLOUDERA FOUNDEDBY MIKE OLSON,AMR AWADALLAH &JEFF HAMMERBACHER2009HADOOP CREATORDOUG CUTTING JOINSCLOUDERA2009CDH:FIRST COMMERCIALAPACHE HADOOPDISTRIBUTION2010CLOUDERA MANAGER:FIRST MANAGEMENTAPPLICATION FORHADOOP2011CLOUDERA REACHES100 PRODUCTIONCUSTOMERS2011CLOUDERA UNIVERSITYEXPANDS TO 140COUNTRIES2012CLOUDERAENTERPRISE 4:THE STANDARD FORHADOOP IN THEENTERPRISE2012CLOUDERA CONNECTREACHES 300PARTNERSBEYOND…TRANSFORMINGHOW COMPANIESTHINK ABOUTDATACDH CLOUDERAMANAGERCLOUDERAENTERPRISE4CHANGINGTHE WORLDONE PETABYTEAT A TIME
  62. 62. 62© OCTO 2013Pervasive in the Enterprise6220+ B events online perday are ingested byCloudera70% of all the smartphones in the U.S. arepowered by Cloudera250 million Tweets per dayare filtered for actionablebusiness insights by Cloudera4 of the top 5 commercialbanks rely on Cloudera20 M householdslower their power billusing Cloudera3 of the top 5 organizations intelecoms, defense, media,banking and retail run ClouderaCONFIDENTIAL - RESTRICTED
  63. 63. 63© OCTO 2013SIMPLIFIED, UNIFIED, EFFICIENT• Bulk of data stored on scalable low cost platform• Perform end-to-end workflows• Specialized systems reserved for specialized workloads• Provides data access across departments or LOBCOMPLEX, FRAGMENTED, COSTLY•Data silos by department or LOB• Lots of data stored in expensive specializedsystems• Analysts pull select data into EDW• No one has a complete viewThe Cloudera Approach63Meet enterprise demands with a new way to think about data.THE CLOUDERA WAYTHE OLD WAYSingle data platform tosupport BI, Reporting &App ServingMultiple platformsfor multiple workloads
  64. 64. 64© OCTO 2013A Complete Solution64CLOUDERAUNIVERSITYDEVELOPERTRAININGADMINISTRATORTRAININGDATA SCIENCETRAININGCERTIFICATIONPROGRAMSPROFESSIONAL SERVICESUSE CASE DISCOVERY NEW HADOOPDEPLOYMENTPROOF-OF-CONCEPTDEPLOYMENTCERTIFICATIONPROCESS & TEAMDEVELOPMENTPRODUCTION PILOTSINGEST STOREEXPLOREPROCESSANALYZESERVECDH CLOUDERAMANAGERCLOUDERASUPPORTCLOUDERANAVIGATOR
  65. 65. 65© OCTO 201365Cloudera Enterprise CoreIncludes Support & Management for all the CoreComponents of CDHINGEST STORE EXPLORE PROCESS ANALYZE SERVECERTIFIED CONNECTORSCONNECTORS ARE COLORCODED TO THEIRCORRESPONDINGSUBSCRIPTION OPTIONCDHPROJECTS ARECOLOR CODED TOTHEIRCORRESPONDINGSUBCRIPTIONOPTIONSTORAGERESOURCE MGMT& COORDINATIONUSER INTERFACE WORKFLOW MGMT METADATACLOUDINTEGRATIONYAYARNZOZOOKEEPERHDFSHADOOP DFSHBHBASEHUHUEOOOOZIEWHWHIRRSQSQOOPFLFLUMEFILEFUSE-DFSRESTWEBHDFSHTTPFSSQLODBCJDBCMSMETASTOREACACCESSBI ETL RDBMSBATCH COMPUTEBATCH PROCESSING REAL-TIMEACCESS& COMPUTEMRMAPREDUCEMR2MAPREDUCE2HIHIVEPIPIGMAMAHOUTDFDATAFUIMIMPALAMANAGEMENTSOFTWARE &TECHNICAL SUPPORTSUBSCIPTION OPTIONSCLOUDERANAVIGATORCLOUDERAMANAGERCORE(REQUIRED)
  66. 66. 66© OCTO 201366Cloudera Enterprise RTDIncludes Support & Management for Apache HBaseINGEST STORE EXPLORE PROCESS ANALYZE SERVECERTIFIED CONNECTORSCONNECTORS ARE COLORCODED TO THEIRCORRESPONDINGSUBSCRIPTION OPTIONCDHPROJECTS ARECOLOR CODED TOTHEIRCORRESPONDINGSUBCRIPTIONOPTIONSTORAGERESOURCE MGMT& COORDINATIONUSER INTERFACE WORKFLOW MGMT METADATACLOUDINTEGRATIONYAYARNZOZOOKEEPERHDFSHADOOP DFSHBHBASEHUHUEOOOOZIEWHWHIRRSQSQOOPFLFLUMEFILEFUSE-DFSRESTWEBHDFSHTTPFSSQLODBCJDBCMSMETASTOREACACCESSBI ETL RDBMSBATCH COMPUTEBATCH PROCESSING REAL-TIMEACCESS& COMPUTEMRMAPREDUCEMR2MAPREDUCE2HIHIVEPIPIGMAMAHOUTDFDATAFUIMIMPALAMANAGEMENTSOFTWARE &TECHNICAL SUPPORTSUBSCIPTION OPTIONSCLOUDERANAVIGATORCLOUDERAMANAGERCORE(REQUIRED)RTD
  67. 67. 67© OCTO 201367Cloudera Enterprise RTQIncludes Support & Management for Cloudera ImpalaINGEST STORE EXPLORE PROCESS ANALYZE SERVECERTIFIED CONNECTORSCONNECTORS ARE COLORCODED TO THEIRCORRESPONDINGSUBSCRIPTION OPTIONCDHPROJECTS ARECOLOR CODED TOTHEIRCORRESPONDINGSUBCRIPTIONOPTIONSTORAGERESOURCE MGMT& COORDINATIONUSER INTERFACE WORKFLOW MGMT METADATACLOUDINTEGRATIONYAYARNZOZOOKEEPERHDFSHADOOP DFSHBHBASEHUHUEOOOOZIEWHWHIRRSQSQOOPFLFLUMEFILEFUSE-DFSRESTWEBHDFSHTTPFSSQLODBCJDBCMSMETASTOREACACCESSBI ETL RDBMSBATCH COMPUTEBATCH PROCESSING REAL-TIMEACCESS& COMPUTEMRMAPREDUCEMR2MAPREDUCE2HIHIVEPIPIGMAMAHOUTDFDATAFUIMIMPALAMANAGEMENTSOFTWARE &TECHNICAL SUPPORTSUBSCIPTION OPTIONSCLOUDERANAVIGATORCLOUDERAMANAGERCORE(REQUIRED)RTD RTQ
  68. 68. 68© OCTO 201368Cloudera Enterprise BDRBackup & Disaster Recovery Module for ClouderaEnterpriseINGEST STORE EXPLORE PROCESS ANALYZE SERVECERTIFIED CONNECTORSCONNECTORS ARE COLORCODED TO THEIRCORRESPONDINGSUBSCRIPTION OPTIONCDHPROJECTS ARECOLOR CODED TOTHEIRCORRESPONDINGSUBCRIPTIONOPTIONSTORAGERESOURCE MGMT& COORDINATIONUSER INTERFACE WORKFLOW MGMT METADATACLOUDINTEGRATIONYAYARNZOZOOKEEPERHDFSHADOOP DFSHUHUEOOOOZIEWHWHIRRSQSQOOPFLFLUMEFILEFUSE-DFSRESTWEBHDFSHTTPFSSQLODBCJDBCMSMETASTOREACACCESSBI ETL RDBMSBATCH COMPUTEBATCH PROCESSING REAL-TIMEACCESS& COMPUTEMRMAPREDUCEMR2MAPREDUCE2HIHIVEPIPIGMAMAHOUTDFDATAFUIMIMPALAMANAGEMENTSOFTWARE &TECHNICAL SUPPORTSUBSCIPTION OPTIONSCLOUDERANAVIGATORCLOUDERAMANAGERCORE(REQUIRED)RTD RTQBDRHBHBASE
  69. 69. 69© OCTO 201369Cloudera NavigatorData Audit & Access Control for Cloudera EnterpriseINGEST STORE EXPLORE PROCESS ANALYZE SERVECERTIFIED CONNECTORSCONNECTORS ARE COLORCODED TO THEIRCORRESPONDINGSUBSCRIPTION OPTIONCDHPROJECTS ARECOLOR CODED TOTHEIRCORRESPONDINGSUBCRIPTIONOPTIONSTORAGERESOURCE MGMT& COORDINATIONUSER INTERFACE WORKFLOW MGMT METADATACLOUDINTEGRATIONYAYARNZOZOOKEEPERHDFSHADOOP DFSHBHBASEHUHUEOOOOZIEWHWHIRRSQSQOOPFLFLUMEFILEFUSE-DFSRESTWEBHDFSHTTPFSSQLODBCJDBCMSMETASTOREACACCESSBI ETL RDBMSBATCH COMPUTEBATCH PROCESSING REAL-TIMEACCESS& COMPUTEMRMAPREDUCEMR2MAPREDUCE2HIHIVEPIPIGMAMAHOUTDFDATAFUIMIMPALAMANAGEMENTSOFTWARE &TECHNICAL SUPPORTSUBSCIPTION OPTIONSCLOUDERANAVIGATORCLOUDERAMANAGERCORE(REQUIRED)RTD RTQBDRAUDIT(v1.0)LINEAGEACCESS(v1.0)LIFECYCLEEXPLORE
  70. 70. 70© OCTO 201370Customer Case Studies
  71. 71. 71© OCTO 2013A multinational bank savesmillions by optimizing DW foranalytics & reducing datastorage costs by 99%.Ask Bigger Questions:How can we optimize ourdata warehouseinvestment?
  72. 72. 72© OCTO 2013Cloudera optimizes the EDW, saves millions72The Challenge:• Teradata EDW at capacity: ETL processes consume 7 days; takes 5weeks to make historical data available for analysis• Performance issues in business critical apps; little room for discovery,analytics, ROI from opportunitiesMultinational bank saves millionsby optimizing existing DW foranalytics & reducing data storagecosts by 99%.The Solution:• Cloudera Enterprise offloads datastorage, processing & someanalytics from EDW• Teradata can focus onoperational functions & analytics
  73. 73. 73© OCTO 2013The quant risk LOB within amultinational bank savesmillions through better riskexposure analysis & fraudprevention.Ask Bigger Questions:How can we preventfraud?
  74. 74. 74© OCTO 2013Cloudera delivers savings through fraud prevention74The Challenge:• Fraud detection is a cumbersome, multi-step analytic process requiringdata sampling• 2B transactions/month necessitate constant revisions to risk profiles• Highly tuned 100TB Teradata DW drives over-budget capital reserves &lower investment returnsQuant risk LOB in multinationalbank saves millions through betterrisk exposure analysis & fraudpreventionThe Solution:• Cloudera Enterprise data factoryfor fraud prevention, credit &operational risk analysis• Look at every incidence of fraudfor 5 years for each person• Reduced costs; expensive CPUno longer consumed by dataprocessing
  75. 75. 75© OCTO 2013A Semiconductor Manufacturerusespredictive analytics to takepreventative action on chipslikely to fail.Ask Bigger Questions:Which semiconductorchips will fail?
  76. 76. 76© OCTO 2013Cloudera enables betterpredictions76The Challenge:• Want to capture greater granular and historical data for more accuratepredictive yield modeling• Storing 9 months’ data on Oracle is expensiveSemiconductor manufacturer canprevent chip failure with moreaccurate predictive yield models.The Solution:•Dell | Cloudera solution for ApacheHadoop•53 nodes; plan to store up to 10years (~10PB)•Capturing & processing data fromeach phase of manufacturing processCONFIDENTIAL - RESTRICTED
  77. 77. 77© OCTO 2013BlackBerry eliminates datasampling & simplifies dataprocessing for better, morecomprehensive analysis.Ask Bigger Questions:How do we retaincustomers in a competitivemarket?
  78. 78. 78© OCTO 2013Cloudera delivers ROI through storage alone78The Challenge:• BlackBerry Services generates .5PB (50-60TB compressed) data per day• RDBMS is expensive – limited to 1% data sampling for analyticsBlackBerry can analyze all theirdata vs. relying on 1% sample forbetter network capacity trending &management.The Solution:• Cloudera Enterprise managesglobal data set of ~100PB• Collecting device content,machine-generated log data,audit details• 90% ETL code base reduction
  79. 79. 79© OCTO 2013A leading manufacturer ofmobile devices gleans newinsights & delivers instantsoftware bug fixes.Ask Bigger Questions:How do we preventmobile device returns?
  80. 80. 80© OCTO 2013Cloudera complements the data warehouse80The Challenge:• Fast-growing Oracle DW – difficult & expensive to maintain performanceat scale• Need to ingest massive volumes of unstructured data very quicklyMobile technology leader identifieda hidden software bug causingsudden spike in returns.The Solution:• Cloudera Enterprise + RTD: dataprocessing, storage & analysison 25 years data• Integrated with Oracle: closedloop analytical process• Collecting device data everymin., loading 1TB/day intoClouderaRead the case study:http://www.cloudera.com/content/cloudera/en/resources/library/casestudy/driving-innovation-in-mobile-devices-with-cloudera-and-oracle.html
  81. 81. 81© OCTO 2013YellowPages enables newpublisher services throughfaster data processing.Ask Bigger Questions:How can we increase thevalue we deliver topublishers?
  82. 82. 82© OCTO 2013The Challenge:• Want to keep 260M billable daily events for 13 mos. + 600M non-billabledaily events for 90 days• Performance & scale challenges on SQL ServerThe Solution:• Cloudera Enterprise – coreproduction traffic processing system• Integrated with HP Vertica – 315CDH nodes; 30TB on VerticaCloudera expedites dataprocessing from days to hours82 CONFIDENTIAL - RESTRICTEDYP deploys Cloudera to offloadthe data warehouse, enablingnew business functions.

×