SlideShare une entreprise Scribd logo
1  sur  29
Télécharger pour lire hors ligne
Hadoop as Service, 
OpenStack + Hadoop 
Charly CLAIRMONT 
CTO 
ALTIC 
@egwada
ma petite bio 
Depuis 10 ans Altic 
Une évolution permanente avec les 
technologies suivantes : 
Un des animateurs de l'écosystème Hadoop 
en France 
Un groupe de plus en plus actif ! 
(messages échangés sur l'année)
Altic 
Métier 
Informatique Décisionnelle 
Intégration de données 
Valeurs 
– Innovations 
– Open Source
Hadoop, Openstack 
Popularité 
http://www.google.com/trends/explore?hl=fr&q=openstack,+hadoop&cmpt=q&content=1
Vous connaissez ? 
Forcément !
Hadoop, en quelques 
mots 
● Fondé par Doug Cutting 
● Initialement développé chez Yahoo 
● Open source 
● Initialement stockage et traitements 
distribués de données 
● « Data OS » 
– Aujourd'hui Plateforme standard pour la 
gestion de données
Hadoop, est robuste 
● Stable 
– Testé - Yahoo!(40 000 noeuds) 
● Fiable 
– Tolérant à la panne 
● Flexible 
– Schéma à la lecture ! 
– Passage à l'échelle 
● Économique 
– Prédictibilité des coûts
Hadoop, 
Système d'exploitation de la données
Vous connaissez ? 
Forcément !
Openstack 
système d'exploitation pour le cloud 
– CPU / RAM 
– Disque 
– Réseau 
Standard du IAAS 
Simple 
– Tableau de bord d'administration 
– Provisionnement par les utilisteurs finaux 
API très riche
Openstack 
● Calcul - Nova 
● Réseau - Neutron 
● Object Storage - Swift 
● Block Storage - Cinder 
● Sécurité / Identité - Keystone 
● Gestion Image VM (iso) - Glance 
● Administration / Interface Web - 
Horizon 
● Monitoring - Ceilometer 
● Orchestration - Heat 
● Traitement de données - Sahara
Pourquoi 
Hadoop + Openstack ?
Des cas d'utilisation...
Hadoop as services, 
cas d'utilisation : 
Administrateur système 
● Faciliter les soucis d'installation, de 
gestion, de monitoring des clusters 
● Avoir un point central pour administrer 
l'infrastructure toute entière de 
l'entreprise 
● Supporter différentes versions d'Hadoo
Hadoop as services, 
cas d'utilisation : 
Développeur, QA 
● Créer différents environnements Hadoop 
simplement : 
– dev, test, pré-prod 
● Avoir une API pour construire et lancer 
son cluster à la volée, notamment lors 
des tests 
● Avoir la possibilité d'exploiter les 
mêmes données par plusieurs clusters
Hadoop as services, 
cas d'utilisation : 
Analystes 
● Isolation des environnements pour éviter 
la surcharge de la production 
– Bac à sable
Architecture
Architecture
Architecture 
● Auth component – responsable pour l'authentification et les autorisations , 
dialogue avec Keystone 
● Accès aux données (DAL) - référencé en base 
● Provisioning Engine - composant responsable de la communication avec Nova, 
Heat, Cinder and Glance 
● Vendor Plugins - mécanisme qui permet aux distribution Hadoop de 
provisionner les VM 
● Elastic Data Processing (EDP) - responsable de la planification et de la 
gestion des jobs Hadoop sur les clusters provisionnés par Sahara 
● REST API - expose les fonctionnalités de Sahara grâce à des services web 
REST 
● Client Python pour Sahara - similaire aux autres composants Openstack qui 
ont leur propre client python 
● Sahara pages - GUI pour Sahara intégré à Horizon
Sahara plugin 
● Très important dans l'architecture 
● Permet aux distributions Hadoop de se 
fondre (pluger) au sein de Sahara 
● Intégrations actuelles : 
– Vanilla (impl. de référence avec Apache 
Hadoop), 
– HDP (via Ambari), 
– IDH (via Intel Manager) ??? 
– et en test CDH et Spark
Elastic Data Processing 
(EDP) 
● permet l'exécution de jobs sur le cluster 
● Hive, Pig, MapReduce, et des jobs Java 
● Les jobs enregistrés sous forme de binaire dans 
Swift ou en base de données 
● configuration des jobs lors de leur soumission 
● exécution des job sur les clusters existants ou 
temporaires
Performance du 
provisionnement du cluster 
● Un cluster 
Hadoop de 200 
noeuds en peu 
plus de 6 min.
Roadmap
Feuille de route 
● Intégration de la première version stable au sein de 
Icehouse 
● Meilleure intégration avec l'écosystème d'Openstack 
– Heat 
– Tempest 
– Devstack 
– Ceilometer 
– Ironic 
● Amélioration d'EDP 
● Finition de l'api v2 
● Tests de performances
Démo
Démo 
https://www.youtube.com/watch?v=vmry_kXqn4c
Questions
Hadoop as Service, 
OpenStack + Hadoop 
Merci ! 
Charly CLAIRMONT 
CTO 
ALTIC 
@egwada

Contenu connexe

Tendances

Spark Streaming
Spark StreamingSpark Streaming
Spark Streaming
PALO IT
 

Tendances (20)

Analytics et Big Data, une histoire de cubes...
Analytics et Big Data, une histoire de cubes...Analytics et Big Data, une histoire de cubes...
Analytics et Big Data, une histoire de cubes...
 
OpenStack dans la pratique
OpenStack dans la pratiqueOpenStack dans la pratique
OpenStack dans la pratique
 
Introduction à Apache Cassandra — IppEvent chez OVH 2017-03-02
Introduction à Apache Cassandra — IppEvent chez OVH 2017-03-02Introduction à Apache Cassandra — IppEvent chez OVH 2017-03-02
Introduction à Apache Cassandra — IppEvent chez OVH 2017-03-02
 
Zenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_ml
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
 
Webinar Degetel DataStax
Webinar Degetel DataStaxWebinar Degetel DataStax
Webinar Degetel DataStax
 
Apache Cassandra - Concepts et fonctionnalités
Apache Cassandra - Concepts et fonctionnalitésApache Cassandra - Concepts et fonctionnalités
Apache Cassandra - Concepts et fonctionnalités
 
Spark Streaming
Spark StreamingSpark Streaming
Spark Streaming
 
HTTP2 : ce qui va changer par Julien Landuré
HTTP2 : ce qui va changer par Julien LanduréHTTP2 : ce qui va changer par Julien Landuré
HTTP2 : ce qui va changer par Julien Landuré
 
DataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoTDataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoT
 
Spark une alternative à Hadoop MapReduce pour le Datamining
Spark une alternative à Hadoop MapReduce pour le DataminingSpark une alternative à Hadoop MapReduce pour le Datamining
Spark une alternative à Hadoop MapReduce pour le Datamining
 
Hadoop unit
Hadoop unitHadoop unit
Hadoop unit
 
Apache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantApache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performant
 
OpenStack - open source au service du Cloud
OpenStack - open source au service du CloudOpenStack - open source au service du Cloud
OpenStack - open source au service du Cloud
 
Cassandra Ippevent 20 Juin 2013
Cassandra Ippevent 20 Juin 2013Cassandra Ippevent 20 Juin 2013
Cassandra Ippevent 20 Juin 2013
 
Introduction à Cassandra
Introduction à CassandraIntroduction à Cassandra
Introduction à Cassandra
 
Introduction à Hadoop
Introduction à HadoopIntroduction à Hadoop
Introduction à Hadoop
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
 
Présentation de Apache Zookeeper
Présentation de Apache ZookeeperPrésentation de Apache Zookeeper
Présentation de Apache Zookeeper
 
Architecture d'annuaire hautement disponible avec OpenLDAP
Architecture d'annuaire hautement disponible avec OpenLDAPArchitecture d'annuaire hautement disponible avec OpenLDAP
Architecture d'annuaire hautement disponible avec OpenLDAP
 

En vedette

Hong Kong OpenStack Summit: Savanna - Hadoop on OpenStack
Hong Kong OpenStack Summit: Savanna - Hadoop on OpenStackHong Kong OpenStack Summit: Savanna - Hadoop on OpenStack
Hong Kong OpenStack Summit: Savanna - Hadoop on OpenStack
Sergey Lukjanov
 
C'è un ragazzo che mi piace
C'è un ragazzo che mi piaceC'è un ragazzo che mi piace
C'è un ragazzo che mi piace
Maruzells zells
 
Sîrchle lokal new
Sîrchle lokal newSîrchle lokal new
Sîrchle lokal new
Daneli7
 
Irish National Strategic Research (INSTAR) programme findings from the first...
Irish National Strategic Research (INSTAR) programme  findings from the first...Irish National Strategic Research (INSTAR) programme  findings from the first...
Irish National Strategic Research (INSTAR) programme findings from the first...
Robert M Chapple
 
Modelo ontologico de muebles
Modelo ontologico de mueblesModelo ontologico de muebles
Modelo ontologico de muebles
riboo1973
 
Primer gobierno de yrigoyen
Primer gobierno de yrigoyenPrimer gobierno de yrigoyen
Primer gobierno de yrigoyen
Fede Gomez
 

En vedette (20)

Hong Kong OpenStack Summit: Savanna - Hadoop on OpenStack
Hong Kong OpenStack Summit: Savanna - Hadoop on OpenStackHong Kong OpenStack Summit: Savanna - Hadoop on OpenStack
Hong Kong OpenStack Summit: Savanna - Hadoop on OpenStack
 
Campaña "Sin techo" 2010
Campaña "Sin techo" 2010Campaña "Sin techo" 2010
Campaña "Sin techo" 2010
 
Menjawab tuntas polemik evolusi. indonesian. bahasa indonesia
Menjawab tuntas polemik evolusi. indonesian. bahasa indonesiaMenjawab tuntas polemik evolusi. indonesian. bahasa indonesia
Menjawab tuntas polemik evolusi. indonesian. bahasa indonesia
 
Going Mobile in the Retail Environment
Going Mobile in the Retail EnvironmentGoing Mobile in the Retail Environment
Going Mobile in the Retail Environment
 
C'è un ragazzo che mi piace
C'è un ragazzo che mi piaceC'è un ragazzo che mi piace
C'è un ragazzo che mi piace
 
Women Pursuing Leadership
Women Pursuing LeadershipWomen Pursuing Leadership
Women Pursuing Leadership
 
iPhone + Botnets = Fun
iPhone + Botnets = FuniPhone + Botnets = Fun
iPhone + Botnets = Fun
 
Sîrchle lokal new
Sîrchle lokal newSîrchle lokal new
Sîrchle lokal new
 
Panel de Emprendedores YUZZ Alicante
Panel de Emprendedores YUZZ AlicantePanel de Emprendedores YUZZ Alicante
Panel de Emprendedores YUZZ Alicante
 
Irish National Strategic Research (INSTAR) programme findings from the first...
Irish National Strategic Research (INSTAR) programme  findings from the first...Irish National Strategic Research (INSTAR) programme  findings from the first...
Irish National Strategic Research (INSTAR) programme findings from the first...
 
Modelo ontologico de muebles
Modelo ontologico de mueblesModelo ontologico de muebles
Modelo ontologico de muebles
 
Wiederherstellung von Daten im Rechenzentrum - OPITZ CONSULTING - Andreas Rei...
Wiederherstellung von Daten im Rechenzentrum - OPITZ CONSULTING - Andreas Rei...Wiederherstellung von Daten im Rechenzentrum - OPITZ CONSULTING - Andreas Rei...
Wiederherstellung von Daten im Rechenzentrum - OPITZ CONSULTING - Andreas Rei...
 
Tango cambalache 2011
Tango cambalache  2011Tango cambalache  2011
Tango cambalache 2011
 
Itinerari Literari per La Mar De La Frau
Itinerari Literari per La Mar De La FrauItinerari Literari per La Mar De La Frau
Itinerari Literari per La Mar De La Frau
 
Six sigma-black-belt-project-sample
Six sigma-black-belt-project-sampleSix sigma-black-belt-project-sample
Six sigma-black-belt-project-sample
 
SharePoint Designer 2013 Workflows - SP Intersection
SharePoint Designer 2013 Workflows - SP IntersectionSharePoint Designer 2013 Workflows - SP Intersection
SharePoint Designer 2013 Workflows - SP Intersection
 
Proyecto para las actuaciones ambientales en la explotación de la estación de...
Proyecto para las actuaciones ambientales en la explotación de la estación de...Proyecto para las actuaciones ambientales en la explotación de la estación de...
Proyecto para las actuaciones ambientales en la explotación de la estación de...
 
Primer gobierno de yrigoyen
Primer gobierno de yrigoyenPrimer gobierno de yrigoyen
Primer gobierno de yrigoyen
 
MLA
MLAMLA
MLA
 
Intergen Think! Seminar: Assesing your fit for ERP cloud
Intergen Think! Seminar: Assesing your fit for ERP cloudIntergen Think! Seminar: Assesing your fit for ERP cloud
Intergen Think! Seminar: Assesing your fit for ERP cloud
 

Similaire à Sahara : Hadoop as Service avec OpenStack

Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draft
Eric Papet
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Modern Data Stack France
 

Similaire à Sahara : Hadoop as Service avec OpenStack (20)

Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
 
Bluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantesBluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantes
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draft
 
Infrastructure as code drupal
Infrastructure as code drupalInfrastructure as code drupal
Infrastructure as code drupal
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
 
Solr + Hadoop - Fouillez facilement dans votre système Big Data
Solr + Hadoop - Fouillez facilement dans votre système Big DataSolr + Hadoop - Fouillez facilement dans votre système Big Data
Solr + Hadoop - Fouillez facilement dans votre système Big Data
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
 
PHP dans le cloud
PHP dans le cloudPHP dans le cloud
PHP dans le cloud
 
Php dans le cloud
Php dans le cloudPhp dans le cloud
Php dans le cloud
 
Annexe Big Data
Annexe Big DataAnnexe Big Data
Annexe Big Data
 
Presentation Hadoop Québec
Presentation Hadoop QuébecPresentation Hadoop Québec
Presentation Hadoop Québec
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing Théâtre
 
[GAB2016] Azure DocumentDB - Jean-Luc Boucho
[GAB2016] Azure DocumentDB - Jean-Luc Boucho[GAB2016] Azure DocumentDB - Jean-Luc Boucho
[GAB2016] Azure DocumentDB - Jean-Luc Boucho
 
Jean-Luc Boucho - Azure DocumentDB - Global Azure Bootcamp 2016 Paris
Jean-Luc Boucho - Azure DocumentDB - Global Azure Bootcamp 2016 Paris Jean-Luc Boucho - Azure DocumentDB - Global Azure Bootcamp 2016 Paris
Jean-Luc Boucho - Azure DocumentDB - Global Azure Bootcamp 2016 Paris
 
Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)
 
TIAD 2016 : Accenture Devops Platform dans Microsoft Azure
TIAD 2016 : Accenture Devops Platform dans Microsoft AzureTIAD 2016 : Accenture Devops Platform dans Microsoft Azure
TIAD 2016 : Accenture Devops Platform dans Microsoft Azure
 

Plus de ALTIC Altic

Spark Bi-Clustering - OW2 Big Data Initiative, altic
Spark Bi-Clustering - OW2 Big Data Initiative, alticSpark Bi-Clustering - OW2 Big Data Initiative, altic
Spark Bi-Clustering - OW2 Big Data Initiative, altic
ALTIC Altic
 
Présentation de Palo
Présentation de PaloPrésentation de Palo
Présentation de Palo
ALTIC Altic
 
Présentation de Redmine
Présentation de RedminePrésentation de Redmine
Présentation de Redmine
ALTIC Altic
 
Présentation de iScrib
Présentation de iScribPrésentation de iScrib
Présentation de iScrib
ALTIC Altic
 
2.3.open day8sep iscrib
2.3.open day8sep iscrib2.3.open day8sep iscrib
2.3.open day8sep iscrib
ALTIC Altic
 
Wiki Book, industrialisation de vos réponses à appel d'offre
Wiki Book, industrialisation de vos réponses à appel d'offreWiki Book, industrialisation de vos réponses à appel d'offre
Wiki Book, industrialisation de vos réponses à appel d'offre
ALTIC Altic
 
Presentation_Big_Data_Altic.pdf
Presentation_Big_Data_Altic.pdfPresentation_Big_Data_Altic.pdf
Presentation_Big_Data_Altic.pdf
ALTIC Altic
 

Plus de ALTIC Altic (13)

Spark Bi-Clustering - OW2 Big Data Initiative, altic
Spark Bi-Clustering - OW2 Big Data Initiative, alticSpark Bi-Clustering - OW2 Big Data Initiative, altic
Spark Bi-Clustering - OW2 Big Data Initiative, altic
 
Business Intelligence, where is the innovation?
Business Intelligence, where is the innovation?Business Intelligence, where is the innovation?
Business Intelligence, where is the innovation?
 
Présentation de Palo
Présentation de PaloPrésentation de Palo
Présentation de Palo
 
Présentation de Redmine
Présentation de RedminePrésentation de Redmine
Présentation de Redmine
 
Présentation de iScrib
Présentation de iScribPrésentation de iScrib
Présentation de iScrib
 
2.3.open day8sep iscrib
2.3.open day8sep iscrib2.3.open day8sep iscrib
2.3.open day8sep iscrib
 
Wiki Book, industrialisation de vos réponses à appel d'offre
Wiki Book, industrialisation de vos réponses à appel d'offreWiki Book, industrialisation de vos réponses à appel d'offre
Wiki Book, industrialisation de vos réponses à appel d'offre
 
Présentation d'Itaapy
Présentation d'ItaapyPrésentation d'Itaapy
Présentation d'Itaapy
 
2011 - Introduction OpenDay Smart Tools
2011 - Introduction OpenDay Smart Tools2011 - Introduction OpenDay Smart Tools
2011 - Introduction OpenDay Smart Tools
 
Presentation_Big_Data_Altic.pdf
Presentation_Big_Data_Altic.pdfPresentation_Big_Data_Altic.pdf
Presentation_Big_Data_Altic.pdf
 
Presentation Jaspersoft 4.0 par l'éditeur - Bénéfices et fonctionnalités
Presentation Jaspersoft 4.0 par l'éditeur - Bénéfices et fonctionnalitésPresentation Jaspersoft 4.0 par l'éditeur - Bénéfices et fonctionnalités
Presentation Jaspersoft 4.0 par l'éditeur - Bénéfices et fonctionnalités
 
Open day Business Intelligence spécial Jaspersoft 4
Open day Business Intelligence spécial Jaspersoft 4Open day Business Intelligence spécial Jaspersoft 4
Open day Business Intelligence spécial Jaspersoft 4
 
Retour d'expérience Ville de Châteauroux
Retour d'expérience Ville de ChâteaurouxRetour d'expérience Ville de Châteauroux
Retour d'expérience Ville de Châteauroux
 

Sahara : Hadoop as Service avec OpenStack

  • 1. Hadoop as Service, OpenStack + Hadoop Charly CLAIRMONT CTO ALTIC @egwada
  • 2. ma petite bio Depuis 10 ans Altic Une évolution permanente avec les technologies suivantes : Un des animateurs de l'écosystème Hadoop en France Un groupe de plus en plus actif ! (messages échangés sur l'année)
  • 3. Altic Métier Informatique Décisionnelle Intégration de données Valeurs – Innovations – Open Source
  • 4.
  • 5. Hadoop, Openstack Popularité http://www.google.com/trends/explore?hl=fr&q=openstack,+hadoop&cmpt=q&content=1
  • 6. Vous connaissez ? Forcément !
  • 7. Hadoop, en quelques mots ● Fondé par Doug Cutting ● Initialement développé chez Yahoo ● Open source ● Initialement stockage et traitements distribués de données ● « Data OS » – Aujourd'hui Plateforme standard pour la gestion de données
  • 8. Hadoop, est robuste ● Stable – Testé - Yahoo!(40 000 noeuds) ● Fiable – Tolérant à la panne ● Flexible – Schéma à la lecture ! – Passage à l'échelle ● Économique – Prédictibilité des coûts
  • 10. Vous connaissez ? Forcément !
  • 11. Openstack système d'exploitation pour le cloud – CPU / RAM – Disque – Réseau Standard du IAAS Simple – Tableau de bord d'administration – Provisionnement par les utilisteurs finaux API très riche
  • 12. Openstack ● Calcul - Nova ● Réseau - Neutron ● Object Storage - Swift ● Block Storage - Cinder ● Sécurité / Identité - Keystone ● Gestion Image VM (iso) - Glance ● Administration / Interface Web - Horizon ● Monitoring - Ceilometer ● Orchestration - Heat ● Traitement de données - Sahara
  • 13. Pourquoi Hadoop + Openstack ?
  • 15. Hadoop as services, cas d'utilisation : Administrateur système ● Faciliter les soucis d'installation, de gestion, de monitoring des clusters ● Avoir un point central pour administrer l'infrastructure toute entière de l'entreprise ● Supporter différentes versions d'Hadoo
  • 16. Hadoop as services, cas d'utilisation : Développeur, QA ● Créer différents environnements Hadoop simplement : – dev, test, pré-prod ● Avoir une API pour construire et lancer son cluster à la volée, notamment lors des tests ● Avoir la possibilité d'exploiter les mêmes données par plusieurs clusters
  • 17. Hadoop as services, cas d'utilisation : Analystes ● Isolation des environnements pour éviter la surcharge de la production – Bac à sable
  • 20. Architecture ● Auth component – responsable pour l'authentification et les autorisations , dialogue avec Keystone ● Accès aux données (DAL) - référencé en base ● Provisioning Engine - composant responsable de la communication avec Nova, Heat, Cinder and Glance ● Vendor Plugins - mécanisme qui permet aux distribution Hadoop de provisionner les VM ● Elastic Data Processing (EDP) - responsable de la planification et de la gestion des jobs Hadoop sur les clusters provisionnés par Sahara ● REST API - expose les fonctionnalités de Sahara grâce à des services web REST ● Client Python pour Sahara - similaire aux autres composants Openstack qui ont leur propre client python ● Sahara pages - GUI pour Sahara intégré à Horizon
  • 21. Sahara plugin ● Très important dans l'architecture ● Permet aux distributions Hadoop de se fondre (pluger) au sein de Sahara ● Intégrations actuelles : – Vanilla (impl. de référence avec Apache Hadoop), – HDP (via Ambari), – IDH (via Intel Manager) ??? – et en test CDH et Spark
  • 22. Elastic Data Processing (EDP) ● permet l'exécution de jobs sur le cluster ● Hive, Pig, MapReduce, et des jobs Java ● Les jobs enregistrés sous forme de binaire dans Swift ou en base de données ● configuration des jobs lors de leur soumission ● exécution des job sur les clusters existants ou temporaires
  • 23. Performance du provisionnement du cluster ● Un cluster Hadoop de 200 noeuds en peu plus de 6 min.
  • 25. Feuille de route ● Intégration de la première version stable au sein de Icehouse ● Meilleure intégration avec l'écosystème d'Openstack – Heat – Tempest – Devstack – Ceilometer – Ironic ● Amélioration d'EDP ● Finition de l'api v2 ● Tests de performances
  • 26. Démo
  • 29. Hadoop as Service, OpenStack + Hadoop Merci ! Charly CLAIRMONT CTO ALTIC @egwada