Hadoop as Service, 
OpenStack + Hadoop 
Charly CLAIRMONT 
CTO 
ALTIC 
@egwada
ma petite bio 
Depuis 10 ans Altic 
Une évolution permanente avec les 
technologies suivantes : 
Un des animateurs de l'écosystème Hadoop 
en France 
Un groupe de plus en plus actif ! 
(messages échangés sur l'année)
Altic 
Métier 
Informatique Décisionnelle 
Intégration de données 
Valeurs 
– Innovations 
– Open Source
Hadoop, Openstack 
Popularité 
http://www.google.com/trends/explore?hl=fr&q=openstack,+hadoop&cmpt=q&content=1
Vous connaissez ? 
Forcément !
Hadoop, en quelques 
mots 
● Fondé par Doug Cutting 
● Initialement développé chez Yahoo 
● Open source 
● Initialement stockage et traitements 
distribués de données 
● « Data OS » 
– Aujourd'hui Plateforme standard pour la 
gestion de données
Hadoop, est robuste 
● Stable 
– Testé - Yahoo!(40 000 noeuds) 
● Fiable 
– Tolérant à la panne 
● Flexible 
– Schéma à la lecture ! 
– Passage à l'échelle 
● Économique 
– Prédictibilité des coûts
Hadoop, 
Système d'exploitation de la données
Vous connaissez ? 
Forcément !
Openstack 
système d'exploitation pour le cloud 
– CPU / RAM 
– Disque 
– Réseau 
Standard du IAAS 
Simple 
– Tableau de bord d'administration 
– Provisionnement par les utilisteurs finaux 
API très riche
Openstack 
● Calcul - Nova 
● Réseau - Neutron 
● Object Storage - Swift 
● Block Storage - Cinder 
● Sécurité / Identité - Keystone 
● Gestion Image VM (iso) - Glance 
● Administration / Interface Web - 
Horizon 
● Monitoring - Ceilometer 
● Orchestration - Heat 
● Traitement de données - Sahara
Pourquoi 
Hadoop + Openstack ?
Des cas d'utilisation...
Hadoop as services, 
cas d'utilisation : 
Administrateur système 
● Faciliter les soucis d'installation, de 
gestion, de monitoring des clusters 
● Avoir un point central pour administrer 
l'infrastructure toute entière de 
l'entreprise 
● Supporter différentes versions d'Hadoo
Hadoop as services, 
cas d'utilisation : 
Développeur, QA 
● Créer différents environnements Hadoop 
simplement : 
– dev, test, pré-prod 
● Avoir une API pour construire et lancer 
son cluster à la volée, notamment lors 
des tests 
● Avoir la possibilité d'exploiter les 
mêmes données par plusieurs clusters
Hadoop as services, 
cas d'utilisation : 
Analystes 
● Isolation des environnements pour éviter 
la surcharge de la production 
– Bac à sable
Architecture
Architecture
Architecture 
● Auth component – responsable pour l'authentification et les autorisations , 
dialogue avec Keystone 
● Accès aux données (DAL) - référencé en base 
● Provisioning Engine - composant responsable de la communication avec Nova, 
Heat, Cinder and Glance 
● Vendor Plugins - mécanisme qui permet aux distribution Hadoop de 
provisionner les VM 
● Elastic Data Processing (EDP) - responsable de la planification et de la 
gestion des jobs Hadoop sur les clusters provisionnés par Sahara 
● REST API - expose les fonctionnalités de Sahara grâce à des services web 
REST 
● Client Python pour Sahara - similaire aux autres composants Openstack qui 
ont leur propre client python 
● Sahara pages - GUI pour Sahara intégré à Horizon
Sahara plugin 
● Très important dans l'architecture 
● Permet aux distributions Hadoop de se 
fondre (pluger) au sein de Sahara 
● Intégrations actuelles : 
– Vanilla (impl. de référence avec Apache 
Hadoop), 
– HDP (via Ambari), 
– IDH (via Intel Manager) ??? 
– et en test CDH et Spark
Elastic Data Processing 
(EDP) 
● permet l'exécution de jobs sur le cluster 
● Hive, Pig, MapReduce, et des jobs Java 
● Les jobs enregistrés sous forme de binaire dans 
Swift ou en base de données 
● configuration des jobs lors de leur soumission 
● exécution des job sur les clusters existants ou 
temporaires
Performance du 
provisionnement du cluster 
● Un cluster 
Hadoop de 200 
noeuds en peu 
plus de 6 min.
Roadmap
Feuille de route 
● Intégration de la première version stable au sein de 
Icehouse 
● Meilleure intégration avec l'écosystème d'Openstack 
– Heat 
– Tempest 
– Devstack 
– Ceilometer 
– Ironic 
● Amélioration d'EDP 
● Finition de l'api v2 
● Tests de performances
Démo
Démo 
https://www.youtube.com/watch?v=vmry_kXqn4c
Questions
Hadoop as Service, 
OpenStack + Hadoop 
Merci ! 
Charly CLAIRMONT 
CTO 
ALTIC 
@egwada

Sahara : Hadoop as Service avec OpenStack

  • 1.
    Hadoop as Service, OpenStack + Hadoop Charly CLAIRMONT CTO ALTIC @egwada
  • 2.
    ma petite bio Depuis 10 ans Altic Une évolution permanente avec les technologies suivantes : Un des animateurs de l'écosystème Hadoop en France Un groupe de plus en plus actif ! (messages échangés sur l'année)
  • 3.
    Altic Métier InformatiqueDécisionnelle Intégration de données Valeurs – Innovations – Open Source
  • 5.
    Hadoop, Openstack Popularité http://www.google.com/trends/explore?hl=fr&q=openstack,+hadoop&cmpt=q&content=1
  • 6.
    Vous connaissez ? Forcément !
  • 7.
    Hadoop, en quelques mots ● Fondé par Doug Cutting ● Initialement développé chez Yahoo ● Open source ● Initialement stockage et traitements distribués de données ● « Data OS » – Aujourd'hui Plateforme standard pour la gestion de données
  • 8.
    Hadoop, est robuste ● Stable – Testé - Yahoo!(40 000 noeuds) ● Fiable – Tolérant à la panne ● Flexible – Schéma à la lecture ! – Passage à l'échelle ● Économique – Prédictibilité des coûts
  • 9.
  • 10.
    Vous connaissez ? Forcément !
  • 11.
    Openstack système d'exploitationpour le cloud – CPU / RAM – Disque – Réseau Standard du IAAS Simple – Tableau de bord d'administration – Provisionnement par les utilisteurs finaux API très riche
  • 12.
    Openstack ● Calcul- Nova ● Réseau - Neutron ● Object Storage - Swift ● Block Storage - Cinder ● Sécurité / Identité - Keystone ● Gestion Image VM (iso) - Glance ● Administration / Interface Web - Horizon ● Monitoring - Ceilometer ● Orchestration - Heat ● Traitement de données - Sahara
  • 13.
    Pourquoi Hadoop +Openstack ?
  • 14.
  • 15.
    Hadoop as services, cas d'utilisation : Administrateur système ● Faciliter les soucis d'installation, de gestion, de monitoring des clusters ● Avoir un point central pour administrer l'infrastructure toute entière de l'entreprise ● Supporter différentes versions d'Hadoo
  • 16.
    Hadoop as services, cas d'utilisation : Développeur, QA ● Créer différents environnements Hadoop simplement : – dev, test, pré-prod ● Avoir une API pour construire et lancer son cluster à la volée, notamment lors des tests ● Avoir la possibilité d'exploiter les mêmes données par plusieurs clusters
  • 17.
    Hadoop as services, cas d'utilisation : Analystes ● Isolation des environnements pour éviter la surcharge de la production – Bac à sable
  • 18.
  • 19.
  • 20.
    Architecture ● Authcomponent – responsable pour l'authentification et les autorisations , dialogue avec Keystone ● Accès aux données (DAL) - référencé en base ● Provisioning Engine - composant responsable de la communication avec Nova, Heat, Cinder and Glance ● Vendor Plugins - mécanisme qui permet aux distribution Hadoop de provisionner les VM ● Elastic Data Processing (EDP) - responsable de la planification et de la gestion des jobs Hadoop sur les clusters provisionnés par Sahara ● REST API - expose les fonctionnalités de Sahara grâce à des services web REST ● Client Python pour Sahara - similaire aux autres composants Openstack qui ont leur propre client python ● Sahara pages - GUI pour Sahara intégré à Horizon
  • 21.
    Sahara plugin ●Très important dans l'architecture ● Permet aux distributions Hadoop de se fondre (pluger) au sein de Sahara ● Intégrations actuelles : – Vanilla (impl. de référence avec Apache Hadoop), – HDP (via Ambari), – IDH (via Intel Manager) ??? – et en test CDH et Spark
  • 22.
    Elastic Data Processing (EDP) ● permet l'exécution de jobs sur le cluster ● Hive, Pig, MapReduce, et des jobs Java ● Les jobs enregistrés sous forme de binaire dans Swift ou en base de données ● configuration des jobs lors de leur soumission ● exécution des job sur les clusters existants ou temporaires
  • 23.
    Performance du provisionnementdu cluster ● Un cluster Hadoop de 200 noeuds en peu plus de 6 min.
  • 24.
  • 25.
    Feuille de route ● Intégration de la première version stable au sein de Icehouse ● Meilleure intégration avec l'écosystème d'Openstack – Heat – Tempest – Devstack – Ceilometer – Ironic ● Amélioration d'EDP ● Finition de l'api v2 ● Tests de performances
  • 26.
  • 27.
  • 28.
  • 29.
    Hadoop as Service, OpenStack + Hadoop Merci ! Charly CLAIRMONT CTO ALTIC @egwada