SlideShare une entreprise Scribd logo
1  sur  21
Télécharger pour lire hors ligne
Mme Amal ABID - GI3 - ENIS 1
Annexe A
Etapes d’un projet Big Data
Mme Amal ABID - GI3 - ENIS 2
3
4
5
6
7
Références: http://www.slideshare.net/jimmy_lai/when-big-data-meet-python
Annexe B
Schéma général de
l’Algorithme MapReduce
Mme Amal ABID - GI3 - ENIS
Mme Amal ABID - GI3 - ENIS 10
Annexe C
OpenStack & Hadoop
Mme Amal ABID - GI3 - ENIS 11
Explication
 Dans la partie du cours Big Data, nous avons utilisé Hadoop sur une seule machine et pas dans un cluster.
L’objectif était de comprendre Hadoop, le tester, écrire du code MapReduce et utiliser HBase.
 Afin d’analyser les données massives, il est impératifs d’utiliser Hadoop dans un cluster (plusieurs machines qui
fonctionnent ensemble d’une façon distribuée et parallèle).
 Puisque la manipulation et la gestion des systèmes distribués est relativement délicate et a besoin de compétences
techniques avancées, les frameworks Big Data sont utilisés généralement dans un environnement Cloud
Computing. En particulier, on utilise Hadoop-as-a-Service dans plusieurs fournisseurs de Cloud comme Amazon
et Windows Azure.
 Gestionnaire de Cloud (ou encore Cloud Manager) : C’est la couche la plus importante dans l’infrastructure
Cloud. C’est à travers le gestionnaire de Cloud que nous pouvons passer d’un environnement distribué à la notion du
Cloud Computing.
 En effet, le gestionnaire de Cloud présente la couche d’orchestration et automatisation qui :
 lie l’ensemble de l’infrastructure
 gère l’allocation des ressources de manière dynamique et assure la scalabilité.
 permet par la suite de construire une architecture Cloud
Mme Amal ABID - GI3 - ENIS 12
OpenStack : Sahara
 Sahara est le composant d'OpenStack pour le Big Data. Il permet d'utiliser Hadoop avec OpenStack.
 Sahara a pour but de fournir aux utilisateurs les moyens simples de provisionner des clusters de Hadoop en
spécifiant plusieurs paramètres comme la version, la topologie du cluster ou d'autres. Après avoir rempli ces
paramètres, Sahara déploie le cluster en quelques minutes.
 Sahara fournit aussi les moyens d'évolution du cluster en rajoutant des nœuds à la demande.
 Sahara : Hadoop dans OpenStack
 Facilite les soucis d'installation, de gestion, de monitoring des clusters
 Supporte différentes versions d'Hadoop
 Crée différents environnements Hadoop simplement : dev, test, pré-prod
 A une API pour construire et lancer un cluster à la volée, notamment lors des tests
 A la possibilité d'exploiter les mêmes données par plusieurs clusters
 Lien d’un démo vidéo : https://www.youtube.com/watch?v=vmry_kXqn4c
Mme Amal ABID - GI3 - ENIS
Mme Amal ABID - GI3 - ENIS 14
Mme Amal ABID - GI3 - ENIS 15
Mme Amal ABID - GI3 - ENIS 16
Mme Amal ABID - GI3 - ENIS 17
Mme Amal ABID - GI3 - ENIS 18
Mme Amal ABID - GI3 - ENIS 19
Annexe D
Mahout
Mme Amal ABID - GI3 - ENIS 20
Mahout : Présentation
 Apache Mahout est un projet de la fondation Apache visant à créer des implémentations d'algorithmes
d'apprentissage automatique (Machine Learning) distribués.
 D'abord développé au-dessus de la plate-forme Hadoop, Mahout a ensuite utilisé Apache Spark.
 Les algorithmes principaux proposés par Mahout pour faire du partitionnement de données et de la classification
automatique sont implémentés avec Apache Hadoop en utilisant le paradigme MapReduce.
 L’utilisation de Mahout sur Hadoop est simple.
 Par exemple si nous voulons faire du clustering avec K-means, il suffit de lancer une (ou des) commande(s) qui
contiennent quelques paramètres tels que :
 input : le chemin de votre dataset.
 clusters : les centroïdes d'entrée, en tant que vecteurs.
 output : le chemin du repertoire de sortie.
 distanceMeasure : Le nom de classe de la mesure de distance. La valeur par défaut est SquaredEuclidean.
 k : Le k dans k-Means. Si spécifié, une sélection aléatoire de k vecteurs sera choisie comme centroïde et écrite
dans le chemin d'entrée des clusters.
 Lien : https://mahout.apache.org/users/clustering/k-means-commandline.html
 Tuto exemple
 Lien : https://www.youtube.com/watch?v=Vub7ffAkn7Q

Contenu connexe

Tendances

Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopBenoît de CHATEAUVIEUX
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - IntroductionBlandine Larbret
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5Amal Abid
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : SparkLilia Sfaxi
 
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introNosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introOlivier Mallassi
 
Spark une alternative à Hadoop MapReduce pour le Datamining
Spark une alternative à Hadoop MapReduce pour le DataminingSpark une alternative à Hadoop MapReduce pour le Datamining
Spark une alternative à Hadoop MapReduce pour le DataminingModern Data Stack France
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystèmeKhanh Maudoux
 
Spark, ou comment traiter des données à la vitesse de l'éclair
Spark, ou comment traiter des données à la vitesse de l'éclairSpark, ou comment traiter des données à la vitesse de l'éclair
Spark, ou comment traiter des données à la vitesse de l'éclairAlexis Seigneurin
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Alexis Seigneurin
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : CassandraLilia Sfaxi
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaModern Data Stack France
 

Tendances (20)

Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
Chapitre 3 spark
Chapitre 3 sparkChapitre 3 spark
Chapitre 3 spark
 
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introNosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
 
Hortonwork
HortonworkHortonwork
Hortonwork
 
Spark une alternative à Hadoop MapReduce pour le Datamining
Spark une alternative à Hadoop MapReduce pour le DataminingSpark une alternative à Hadoop MapReduce pour le Datamining
Spark une alternative à Hadoop MapReduce pour le Datamining
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
Spark, ou comment traiter des données à la vitesse de l'éclair
Spark, ou comment traiter des données à la vitesse de l'éclairSpark, ou comment traiter des données à la vitesse de l'éclair
Spark, ou comment traiter des données à la vitesse de l'éclair
 
Une introduction à Hive
Une introduction à HiveUne introduction à Hive
Une introduction à Hive
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
Une introduction à HBase
Une introduction à HBaseUne introduction à HBase
Une introduction à HBase
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)
 
Introduction spark
Introduction sparkIntroduction spark
Introduction spark
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
 

Similaire à Annexe Big Data

Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draftEric Papet
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackALTIC Altic
 
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )Hamza Ben Marzouk
 
160813-technology-template-16x9.pptx
160813-technology-template-16x9.pptx160813-technology-template-16x9.pptx
160813-technology-template-16x9.pptxmajdoulineaitabdelal
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !OCTO Technology
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSoft Computing
 
Open Source et Microsoft Azure, rêve ou réalité ?
Open Source et Microsoft Azure, rêve ou réalité ?Open Source et Microsoft Azure, rêve ou réalité ?
Open Source et Microsoft Azure, rêve ou réalité ?Microsoft
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016Julien BLAIZE
 
BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)BlueData, Inc.
 
Cloud rasberryfinal
Cloud rasberryfinal Cloud rasberryfinal
Cloud rasberryfinal yacine sebihi
 
TIAD 2016 : Accenture Devops Platform dans Microsoft Azure
TIAD 2016 : Accenture Devops Platform dans Microsoft AzureTIAD 2016 : Accenture Devops Platform dans Microsoft Azure
TIAD 2016 : Accenture Devops Platform dans Microsoft AzureThe Incredible Automation Day
 
Cy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoopCy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoopCERTyou Formation
 
Open source et microsoft azure reve ou realite ?
Open source et microsoft azure reve ou realite ?Open source et microsoft azure reve ou realite ?
Open source et microsoft azure reve ou realite ?Christophe Villeneuve
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologyImad ALILAT
 
Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009Olivier Grisel
 
Big Data Visualization PowerPoint Templates.pptx
Big Data Visualization PowerPoint Templates.pptxBig Data Visualization PowerPoint Templates.pptx
Big Data Visualization PowerPoint Templates.pptxKhadijaHaddaoui
 

Similaire à Annexe Big Data (20)

Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draft
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStack
 
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
 
160813-technology-template-16x9.pptx
160813-technology-template-16x9.pptx160813-technology-template-16x9.pptx
160813-technology-template-16x9.pptx
 
Apache giraph
Apache giraphApache giraph
Apache giraph
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing Théâtre
 
Open Source et Microsoft Azure, rêve ou réalité ?
Open Source et Microsoft Azure, rêve ou réalité ?Open Source et Microsoft Azure, rêve ou réalité ?
Open Source et Microsoft Azure, rêve ou réalité ?
 
Hadoop
HadoopHadoop
Hadoop
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
Hadoop
HadoopHadoop
Hadoop
 
BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)
 
Cloud rasberryfinal
Cloud rasberryfinal Cloud rasberryfinal
Cloud rasberryfinal
 
TIAD 2016 : Accenture Devops Platform dans Microsoft Azure
TIAD 2016 : Accenture Devops Platform dans Microsoft AzureTIAD 2016 : Accenture Devops Platform dans Microsoft Azure
TIAD 2016 : Accenture Devops Platform dans Microsoft Azure
 
Cy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoopCy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoop
 
Open source et microsoft azure reve ou realite ?
Open source et microsoft azure reve ou realite ?Open source et microsoft azure reve ou realite ?
Open source et microsoft azure reve ou realite ?
 
Hadoop
HadoopHadoop
Hadoop
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
 
Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009
 
Big Data Visualization PowerPoint Templates.pptx
Big Data Visualization PowerPoint Templates.pptxBig Data Visualization PowerPoint Templates.pptx
Big Data Visualization PowerPoint Templates.pptx
 

Annexe Big Data

  • 1. Mme Amal ABID - GI3 - ENIS 1
  • 2. Annexe A Etapes d’un projet Big Data Mme Amal ABID - GI3 - ENIS 2
  • 3. 3
  • 4. 4
  • 5. 5
  • 6. 6
  • 7. 7
  • 9. Annexe B Schéma général de l’Algorithme MapReduce Mme Amal ABID - GI3 - ENIS
  • 10. Mme Amal ABID - GI3 - ENIS 10
  • 11. Annexe C OpenStack & Hadoop Mme Amal ABID - GI3 - ENIS 11
  • 12. Explication  Dans la partie du cours Big Data, nous avons utilisé Hadoop sur une seule machine et pas dans un cluster. L’objectif était de comprendre Hadoop, le tester, écrire du code MapReduce et utiliser HBase.  Afin d’analyser les données massives, il est impératifs d’utiliser Hadoop dans un cluster (plusieurs machines qui fonctionnent ensemble d’une façon distribuée et parallèle).  Puisque la manipulation et la gestion des systèmes distribués est relativement délicate et a besoin de compétences techniques avancées, les frameworks Big Data sont utilisés généralement dans un environnement Cloud Computing. En particulier, on utilise Hadoop-as-a-Service dans plusieurs fournisseurs de Cloud comme Amazon et Windows Azure.  Gestionnaire de Cloud (ou encore Cloud Manager) : C’est la couche la plus importante dans l’infrastructure Cloud. C’est à travers le gestionnaire de Cloud que nous pouvons passer d’un environnement distribué à la notion du Cloud Computing.  En effet, le gestionnaire de Cloud présente la couche d’orchestration et automatisation qui :  lie l’ensemble de l’infrastructure  gère l’allocation des ressources de manière dynamique et assure la scalabilité.  permet par la suite de construire une architecture Cloud Mme Amal ABID - GI3 - ENIS 12
  • 13. OpenStack : Sahara  Sahara est le composant d'OpenStack pour le Big Data. Il permet d'utiliser Hadoop avec OpenStack.  Sahara a pour but de fournir aux utilisateurs les moyens simples de provisionner des clusters de Hadoop en spécifiant plusieurs paramètres comme la version, la topologie du cluster ou d'autres. Après avoir rempli ces paramètres, Sahara déploie le cluster en quelques minutes.  Sahara fournit aussi les moyens d'évolution du cluster en rajoutant des nœuds à la demande.  Sahara : Hadoop dans OpenStack  Facilite les soucis d'installation, de gestion, de monitoring des clusters  Supporte différentes versions d'Hadoop  Crée différents environnements Hadoop simplement : dev, test, pré-prod  A une API pour construire et lancer un cluster à la volée, notamment lors des tests  A la possibilité d'exploiter les mêmes données par plusieurs clusters  Lien d’un démo vidéo : https://www.youtube.com/watch?v=vmry_kXqn4c Mme Amal ABID - GI3 - ENIS
  • 14. Mme Amal ABID - GI3 - ENIS 14
  • 15. Mme Amal ABID - GI3 - ENIS 15
  • 16. Mme Amal ABID - GI3 - ENIS 16
  • 17. Mme Amal ABID - GI3 - ENIS 17
  • 18. Mme Amal ABID - GI3 - ENIS 18
  • 19. Mme Amal ABID - GI3 - ENIS 19
  • 20. Annexe D Mahout Mme Amal ABID - GI3 - ENIS 20
  • 21. Mahout : Présentation  Apache Mahout est un projet de la fondation Apache visant à créer des implémentations d'algorithmes d'apprentissage automatique (Machine Learning) distribués.  D'abord développé au-dessus de la plate-forme Hadoop, Mahout a ensuite utilisé Apache Spark.  Les algorithmes principaux proposés par Mahout pour faire du partitionnement de données et de la classification automatique sont implémentés avec Apache Hadoop en utilisant le paradigme MapReduce.  L’utilisation de Mahout sur Hadoop est simple.  Par exemple si nous voulons faire du clustering avec K-means, il suffit de lancer une (ou des) commande(s) qui contiennent quelques paramètres tels que :  input : le chemin de votre dataset.  clusters : les centroïdes d'entrée, en tant que vecteurs.  output : le chemin du repertoire de sortie.  distanceMeasure : Le nom de classe de la mesure de distance. La valeur par défaut est SquaredEuclidean.  k : Le k dans k-Means. Si spécifié, une sélection aléatoire de k vecteurs sera choisie comme centroïde et écrite dans le chemin d'entrée des clusters.  Lien : https://mahout.apache.org/users/clustering/k-means-commandline.html  Tuto exemple  Lien : https://www.youtube.com/watch?v=Vub7ffAkn7Q