Sahara : Hadoop as Service avec OpenStack

Hadoop as Service,
OpenStack + Hadoop
Charly CLAIRMONT
CTO
ALTIC
@egwada

ma petite bio
Depuis 10 ans Altic
Une évolution permanente avec les
technologies suivantes :
Un des animateurs de l'écosystème Hadoop
en France
Un groupe de plus en plus actif !
(messages échangés sur l'année)

Altic
Métier
Informatique Décisionnelle
Intégration de données
Valeurs
– Innovations
– Open Source

Hadoop, Openstack
Popularité
http://www.google.com/trends/explore?hl=fr&q=openstack,+hadoop&cmpt=q&content=1

Vous connaissez ?
Forcément !

Hadoop, en quelques
mots
● Fondé par Doug Cutting
● Initialement développé chez Yahoo
● Open source
● Initialement stockage et traitements
distribués de données
● « Data OS »
– Aujourd'hui Plateforme standard pour la
gestion de données

Hadoop, est robuste
● Stable
– Testé - Yahoo!(40 000 noeuds)
● Fiable
– Tolérant à la panne
● Flexible
– Schéma à la lecture !
– Passage à l'échelle
● Économique
– Prédictibilité des coûts

Hadoop,
Système d'exploitation de la données

Openstack
système d'exploitation pour le cloud
– CPU / RAM
– Disque
– Réseau
Standard du IAAS
Simple
– Tableau de bord d'administration
– Provisionnement par les utilisteurs finaux
API très riche

Openstack
● Calcul - Nova
● Réseau - Neutron
● Object Storage - Swift
● Block Storage - Cinder
● Sécurité / Identité - Keystone
● Gestion Image VM (iso) - Glance
● Administration / Interface Web -
Horizon
● Monitoring - Ceilometer
● Orchestration - Heat
● Traitement de données - Sahara

Pourquoi
Hadoop + Openstack ?

Hadoop as services,
cas d'utilisation :
Administrateur système
● Faciliter les soucis d'installation, de
gestion, de monitoring des clusters
● Avoir un point central pour administrer
l'infrastructure toute entière de
l'entreprise
● Supporter différentes versions d'Hadoo

Hadoop as services,
cas d'utilisation :
Développeur, QA
● Créer différents environnements Hadoop
simplement :
– dev, test, pré-prod
● Avoir une API pour construire et lancer
son cluster à la volée, notamment lors
des tests
● Avoir la possibilité d'exploiter les
mêmes données par plusieurs clusters

Hadoop as services,
cas d'utilisation :
Analystes
● Isolation des environnements pour éviter
la surcharge de la production
– Bac à sable

Architecture
● Auth component – responsable pour l'authentification et les autorisations ,
dialogue avec Keystone
● Accès aux données (DAL) - référencé en base
● Provisioning Engine - composant responsable de la communication avec Nova,
Heat, Cinder and Glance
● Vendor Plugins - mécanisme qui permet aux distribution Hadoop de
provisionner les VM
● Elastic Data Processing (EDP) - responsable de la planification et de la
gestion des jobs Hadoop sur les clusters provisionnés par Sahara
● REST API - expose les fonctionnalités de Sahara grâce à des services web
REST
● Client Python pour Sahara - similaire aux autres composants Openstack qui
ont leur propre client python
● Sahara pages - GUI pour Sahara intégré à Horizon

Sahara plugin
● Très important dans l'architecture
● Permet aux distributions Hadoop de se
fondre (pluger) au sein de Sahara
● Intégrations actuelles :
– Vanilla (impl. de référence avec Apache
Hadoop),
– HDP (via Ambari),
– IDH (via Intel Manager) ???
– et en test CDH et Spark

Elastic Data Processing
(EDP)
● permet l'exécution de jobs sur le cluster
● Hive, Pig, MapReduce, et des jobs Java
● Les jobs enregistrés sous forme de binaire dans
Swift ou en base de données
● configuration des jobs lors de leur soumission
● exécution des job sur les clusters existants ou
temporaires

Performance du
provisionnement du cluster
● Un cluster
Hadoop de 200
noeuds en peu
plus de 6 min.

Feuille de route
● Intégration de la première version stable au sein de
Icehouse
● Meilleure intégration avec l'écosystème d'Openstack
– Heat
– Tempest
– Devstack
– Ceilometer
– Ironic
● Amélioration d'EDP
● Finition de l'api v2
● Tests de performances

Démo
https://www.youtube.com/watch?v=vmry_kXqn4c

Hadoop as Service,
OpenStack + Hadoop
Merci !
Charly CLAIRMONT
CTO
ALTIC
@egwada

Sahara : Hadoop as Service avec OpenStack

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à Sahara : Hadoop as Service avec OpenStack

Similaire à Sahara : Hadoop as Service avec OpenStack (20)

Plus de ALTIC Altic

Plus de ALTIC Altic (13)

Sahara : Hadoop as Service avec OpenStack