Publicité

Sahara : Hadoop as Service avec OpenStack

Société de service en Logiciel Libre à Altic
1 Oct 2014
Publicité

Contenu connexe

Publicité
Publicité

Sahara : Hadoop as Service avec OpenStack

  1. Hadoop as Service, OpenStack + Hadoop Charly CLAIRMONT CTO ALTIC @egwada
  2. ma petite bio Depuis 10 ans Altic Une évolution permanente avec les technologies suivantes : Un des animateurs de l'écosystème Hadoop en France Un groupe de plus en plus actif ! (messages échangés sur l'année)
  3. Altic Métier Informatique Décisionnelle Intégration de données Valeurs – Innovations – Open Source
  4. Hadoop, Openstack Popularité http://www.google.com/trends/explore?hl=fr&q=openstack,+hadoop&cmpt=q&content=1
  5. Vous connaissez ? Forcément !
  6. Hadoop, en quelques mots ● Fondé par Doug Cutting ● Initialement développé chez Yahoo ● Open source ● Initialement stockage et traitements distribués de données ● « Data OS » – Aujourd'hui Plateforme standard pour la gestion de données
  7. Hadoop, est robuste ● Stable – Testé - Yahoo!(40 000 noeuds) ● Fiable – Tolérant à la panne ● Flexible – Schéma à la lecture ! – Passage à l'échelle ● Économique – Prédictibilité des coûts
  8. Hadoop, Système d'exploitation de la données
  9. Vous connaissez ? Forcément !
  10. Openstack système d'exploitation pour le cloud – CPU / RAM – Disque – Réseau Standard du IAAS Simple – Tableau de bord d'administration – Provisionnement par les utilisteurs finaux API très riche
  11. Openstack ● Calcul - Nova ● Réseau - Neutron ● Object Storage - Swift ● Block Storage - Cinder ● Sécurité / Identité - Keystone ● Gestion Image VM (iso) - Glance ● Administration / Interface Web - Horizon ● Monitoring - Ceilometer ● Orchestration - Heat ● Traitement de données - Sahara
  12. Pourquoi Hadoop + Openstack ?
  13. Des cas d'utilisation...
  14. Hadoop as services, cas d'utilisation : Administrateur système ● Faciliter les soucis d'installation, de gestion, de monitoring des clusters ● Avoir un point central pour administrer l'infrastructure toute entière de l'entreprise ● Supporter différentes versions d'Hadoo
  15. Hadoop as services, cas d'utilisation : Développeur, QA ● Créer différents environnements Hadoop simplement : – dev, test, pré-prod ● Avoir une API pour construire et lancer son cluster à la volée, notamment lors des tests ● Avoir la possibilité d'exploiter les mêmes données par plusieurs clusters
  16. Hadoop as services, cas d'utilisation : Analystes ● Isolation des environnements pour éviter la surcharge de la production – Bac à sable
  17. Architecture
  18. Architecture
  19. Architecture ● Auth component – responsable pour l'authentification et les autorisations , dialogue avec Keystone ● Accès aux données (DAL) - référencé en base ● Provisioning Engine - composant responsable de la communication avec Nova, Heat, Cinder and Glance ● Vendor Plugins - mécanisme qui permet aux distribution Hadoop de provisionner les VM ● Elastic Data Processing (EDP) - responsable de la planification et de la gestion des jobs Hadoop sur les clusters provisionnés par Sahara ● REST API - expose les fonctionnalités de Sahara grâce à des services web REST ● Client Python pour Sahara - similaire aux autres composants Openstack qui ont leur propre client python ● Sahara pages - GUI pour Sahara intégré à Horizon
  20. Sahara plugin ● Très important dans l'architecture ● Permet aux distributions Hadoop de se fondre (pluger) au sein de Sahara ● Intégrations actuelles : – Vanilla (impl. de référence avec Apache Hadoop), – HDP (via Ambari), – IDH (via Intel Manager) ??? – et en test CDH et Spark
  21. Elastic Data Processing (EDP) ● permet l'exécution de jobs sur le cluster ● Hive, Pig, MapReduce, et des jobs Java ● Les jobs enregistrés sous forme de binaire dans Swift ou en base de données ● configuration des jobs lors de leur soumission ● exécution des job sur les clusters existants ou temporaires
  22. Performance du provisionnement du cluster ● Un cluster Hadoop de 200 noeuds en peu plus de 6 min.
  23. Roadmap
  24. Feuille de route ● Intégration de la première version stable au sein de Icehouse ● Meilleure intégration avec l'écosystème d'Openstack – Heat – Tempest – Devstack – Ceilometer – Ironic ● Amélioration d'EDP ● Finition de l'api v2 ● Tests de performances
  25. Démo
  26. Démo https://www.youtube.com/watch?v=vmry_kXqn4c
  27. Questions
  28. Hadoop as Service, OpenStack + Hadoop Merci ! Charly CLAIRMONT CTO ALTIC @egwada
Publicité