Hortonworks
Architecture-Installation
A.Stitou Data Scientist
Project Manager
Sommaire
• Introduction
• Architecture
• Composants de la distribution
• Composants non Apach Hadoop
• Installation
Introduction
• Hortonworks a été formé en juin 2011 par des
membres de l’équipe Yahoo en charge du projet
Hadoop.
• but est de faciliter l’adoption de la plate-forme
Hadoop d’Apache, c’est pourquoi tous les
composants sont open source et sous licence
Apache.
• Cette distribution est la plus conforme à la plate-
forme Hadoop d’Apache et Hortonworks est le gros
contributeur Apache Hadoop.
Architecture
Architecture
Composants de la distribution
Hortonworks
• HDFS : stockage distribué. - MapReduce : Traitements parallélisés.
• HBase : Base NoSQL orientée colonnes sur HDFS.
• Pig : plate-forme de scripts d’interrogation HDFS.
• Hive : Requêtage et Méta-données HDFS.
• Oozie : Planification de traitements.
• ZooKeeper : Coordination du cluster.
• Ambari : Gestion et supervision.
• WebHDFS : Accès web aux données. - Ingestion de données :
• Talend Open Studio for Big Data.
• Sqoop : Interactions avec les SGBD.
• Flume : Gestion distribuée des logs.
• Mahout : Apprentissage
Composants non Apache Hadoop
• Hortonworks Cloudbreak (licence Apache) : Solution agnostique de
dimensionnement, de gestion et de monitoring d’un cluster HDP,
compatible avec Microsoft Azure, Amazon AWS, Google Cloud Platform,
OpenStack pour les offres cloud ainsi qu’Apache Ambari, Docker, Swarm et
Consul.
• Hortonworks SmartSense (nécessite une licence) : Maintenance
proactive d’un cluster HDP, recommandations, optimisation de l’utilisation
des ressources.
• Solr on YARN (licence Apache) : C’est une version entièrement
compatible avec Hadoop, ce qui permet de déployer Solr au sein du
cluster et évite de déployer des machines dédiées à Solr
Installation
Hortonwork
Hortonwork
Hortonwork
Hortonwork
Hortonwork
Hortonwork
Hortonwork
Hortonwork
Hortonwork
Hortonwork
Hortonwork
Hortonwork
Hortonwork
Hortonwork
Hortonwork
Hortonwork
Hortonwork
Hortonwork
Hortonwork

Hortonwork

  • 1.
  • 2.
    Sommaire • Introduction • Architecture •Composants de la distribution • Composants non Apach Hadoop • Installation
  • 3.
    Introduction • Hortonworks aété formé en juin 2011 par des membres de l’équipe Yahoo en charge du projet Hadoop. • but est de faciliter l’adoption de la plate-forme Hadoop d’Apache, c’est pourquoi tous les composants sont open source et sous licence Apache. • Cette distribution est la plus conforme à la plate- forme Hadoop d’Apache et Hortonworks est le gros contributeur Apache Hadoop.
  • 4.
  • 5.
  • 6.
    Composants de ladistribution Hortonworks • HDFS : stockage distribué. - MapReduce : Traitements parallélisés. • HBase : Base NoSQL orientée colonnes sur HDFS. • Pig : plate-forme de scripts d’interrogation HDFS. • Hive : Requêtage et Méta-données HDFS. • Oozie : Planification de traitements. • ZooKeeper : Coordination du cluster. • Ambari : Gestion et supervision. • WebHDFS : Accès web aux données. - Ingestion de données : • Talend Open Studio for Big Data. • Sqoop : Interactions avec les SGBD. • Flume : Gestion distribuée des logs. • Mahout : Apprentissage
  • 7.
    Composants non ApacheHadoop • Hortonworks Cloudbreak (licence Apache) : Solution agnostique de dimensionnement, de gestion et de monitoring d’un cluster HDP, compatible avec Microsoft Azure, Amazon AWS, Google Cloud Platform, OpenStack pour les offres cloud ainsi qu’Apache Ambari, Docker, Swarm et Consul. • Hortonworks SmartSense (nécessite une licence) : Maintenance proactive d’un cluster HDP, recommandations, optimisation de l’utilisation des ressources. • Solr on YARN (licence Apache) : C’est une version entièrement compatible avec Hadoop, ce qui permet de déployer Solr au sein du cluster et évite de déployer des machines dédiées à Solr
  • 8.