Publicité
Publicité

Contenu connexe

Plus de Alphorm(20)

Publicité

Alphorm.com Formation Big Data & Hadoop : Le Guide Complet

  1. Formation Big Data & Hadoop Le Guide Complet Une formation Fatma SIALA
  2. Une formation Introduction 1. Présentation du Big Data 2. Présentation d’Hadoop 3. Eléments de base d’Hadoop 4. Ecosystème d’Hadoop Conclusion Plan
  3. Plan de l’écosystème Hadoop 1 2 3 4 6 ZEPPELIN 5
  4. Objectifs Comprendre Hadoop et son périmètre Maîtriser la nouvelle manière de traiter les données Faire de la pratique
  5. Une formation Public concerné Toutes personnes souhaitant Se lancer dans le Big Data Découvrir l'écosystème d’Hadoop Travailler sur un projet avec plusieurs outils d'Hadoop Consolider des connaissances Hadoop
  6. Une formation Connaissances requises Avec ou sans connaissance, il est possible de suivre le cours Une connaissance du SQL pourrait être un plus
  7. Big Data ! C’est quoi ? Le Big Data fait référence au volume énorme de données qui ne peuvent pas être stockées et traitées avec l'approche traditionnelle en un temps précis Gartner
  8. Avoir un aperçu sur le Big Data Fatma SIALA
  9. Quelques chiffres
  10. Le déluge continu de données
  11. Big Data ETS 2017.07 - Philippe Laflamme
  12. Une formation Pourquoi le Big Data ? Augmentation exponentielle de la quantité de données non structurées Augmentation de la capacité de stockage et d’analyse L’utilisation de plusieurs machines en parallèle devient accessible Les technologies existantes ne sont pas conçues pour ingérer ces données
  13. Différentes sources Capteurs température, pression… IOT montre connectées, balances, Smartphone.. Autres Gps, email, sms… Messages sur les réseaux sociaux tweet, Posts .. Transaction et logs banque, e-commerce Images, vidéos et sons Instagram, youtube, snapshat,
  14. Classification de la Big Data Données structurées Données semi-structurées Données non-structurées
  15. Connaître les enjeux et les défis du Big Data Fatma SIALA
  16. Importance des données Tirer des conclusions et prise des décisions Automatiser les systèmes et les processus
  17. Big Data et BD
  18. Bases de données Big Data
  19. Optimisation du stockage => optimisation du temps de réponse
  20. Une formation Big data et analytique : un marché promis à une croissance à deux chiffres Le marché des solutions et services du Big data et de l’analyse de données devrait croître en moyenne de 12,8% par an d’ici 2025 Les investissements mondiaux des entreprises dans les solutions de traitement et analyse avancée de mégadonnées devraient croître de plus 10% Le segment des services devrait attirer plus de la moitié des investissements BDA (Big data & Business Analytics) des organisations Devant le matériel dédié, les logiciels du Big data, devraient peser 82 Md$ https://www.idc.com/
  21. Connaître les caractéristiques du Big Data Fatma SIALA
  22. Caractéristiques du Big Data Gartner 2001
  23. Caractéristiques du Big Data
  24. Volume Des données non structurées incompatibles avec des bases de données classiques
  25. Variété Des données non structurées incompatibles avec des bases de données classiques
  26. Vitesse Être capable de traiter et analyser ce flux continu de données
  27. Les 5 V
  28. La valeur Les entreprises qui s'appuient sur leurs données pour générer de la valeur sont les meilleures sur leur marché *Aberdeen:Angling for Insight in Today’s DataLake, MichaelLock, Analytics andBusiness Intelligence,2017
  29. Découvrir les cas d'usage réels du Big Data Fatma SIALA
  30. Cas d’usage réels du Big Data
  31. Analyse Découverte Traitement
  32. Énergie Amélioration de la production et distribution d’énergie Transport et distribution Optimisation des trajets et réduction des coûts E-Commerce Amélioration des stocks et de l’expérience Services publics et banques Prédire des tremblements de terre, Lute contre la fraude et abus Sécurité Étude des déplacements de population Santé Traitement
  33. Produits de Luxe et de grandes consommations Recommandations Découverte
  34. Défis du Big Data Stockage et gestion d'un el volume de données Traitement et extraction de la valeur de cet énorme volume de données dans un laps de temps prédéfini
  35. Besoins Paralléliser Données non structurées Montée en charge Flux continu
  36. Voir un cas pratique du Big Data Fatma SIALA
  37. Application du Big Data
  38. Définir les défis et cerner les technologies mises en jeu Fatma SIALA
  39. Défis 1 : Stockage des données
  40. Défis 2 : Traitement des données
  41. Phases d’un projet Big Data
  42. Phases d’un projet Big Data
  43. Profils liés au Big Data Chief Data Officer Data Scientist Data Engineer Big Data Developer Big Data Administrator Chief Data Architect
  44. Avoir un aperçu sur Hadoop Fatma SIALA
  45. Introduction Doug Cutting + Mike Cafarella 1997 Projet Lucene 2000 Projet Nutch
  46. Historique d’Apache Hadoop Google a publié un article en 2003 décrivant un Framework appelant Google File System  NDFS En 2004, Google a fait un autre papier contenant la description de la solution Map Reduce  HDFS Nutch Distributed File System NDFS HDFS Hadoop Distributed File System
  47. Apache Hadoop
  48. Apache Hadoop https://hadoop.apache.org/
  49. Une formation Présentation d’Apache Hadoop Hadoop est un framework open source qui repose sur Java Facilite l'utilisation d'un réseau de plusieurs ordinateurs (cluster) Résout des problèmes de Big Data
  50. Découvrir l’écosystème d’Hadoop et son utilisation Fatma SIALA
  51. Ecosystème d’Hadoop
  52. Versions de Hadoop Hadoop 1.0.0 ( 2011) HDFS (système de fichier distribué) Hadoop 2.0.0 ( 2012) / Hadoop 3.0.0 (2017) HDFS (système de fichier distribué) Map Reduce (Framework de calcul distribué) YARN (gestionnaire de ressources de cluster)
  53. Découvrir ce qu’on peut faire avec Hadoop
  54. 1ère fonction : Traitement de type ETL (Extract/Transform/Load)
  55. 1ère fonction : Traitement de type ETL (Extract/Transform/Load)
  56. 2ème fonction : Analyse de temps réel
  57. 3ème fonction : Analyses exploratoires
  58. Installer Hadoop Fatma SIALA
  59. Installation d’Hadoop
  60. H a do op 3.3 : https://hadoop.apache.org/docs/r3.3.0/
  61. https://fr.cloudera.com/products/discover-cloudera-data-platform.html
  62. https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/cm_ig_non_production.html#install_embedded_db
  63. https://www.cloudera.com/downloads/hortonworks-sandbox/hdp.html
  64. MapR : HP
  65. Installer Hadoop en pratique Fatma SIALA
  66. Administrer graphiquement Hadoop avec Ambari Fatma SIALA
  67. Plan 1 2 3 4 5 6
  68. L'administration graphique d'Hadoop avec Ambari
  69. Configurer son cluster avec Ambari Une formation Fatma SIALA
  70. Connaître HDFS Une formation Fatma SIALA
  71. Composant 1 : HDFS ZEPPELIN
  72. Une formation HDFS H : Hadoop Le nom de plate-forme D : Distributed distribué F : File (fichier), créer, copier, renommer, couper des répertoires et fichiers S : System Contrôle la manière dont les données sont stockées et récupérées
  73. Architecture physique de HDFS
  74. Architecture logique de HDFS nœud Stocker les données et y accéder comme un seul grand ordinateur Cluster nœud nœud nœud Métadonnées
  75. Stockage d’un fichier Hadoop client Name Node 1. Créer un fichier $ hadoop fs –put myfile.txt /mydir/ 4. succès 7.DN-3 is allocated 2. Vérification Dossier existe Fichier n’existe pas Le client possède 6. Block Allocation Request Data Nodes DN-1 DN-2 DN-3 DN-4 Block Data 128 MB 3. Fsimage en mémoire 128 MB 5. FSDataOutputStream Data Myfile.txt 270 MO Bloc C 14 MO Bloc B 128 MO Bloc A 128 MO Bloc A1 128 MO Bloc A2 128 MO Bloc A3 128 MO
  76. Les commandes les plus utilisées dans HDFS hadoop fs –ls Afficher le contenu du répertoire racine hadoop fs –put file.txt Upload un fichier dans hadoop (à partir du répertoire courant linux) hadoop fs –get file.txt Download un fichier à partir de hadoop sur votre disque local hadoop fs –tail file.txt Lire les dernières lignes du fichier hadoop fs –cat file.txt Affiche tout le contenu du fichier hadoop fs –mv file.txt newfile.txt Renommer le fichier hadoop fs –rm newfile.txt Supprimer le fichier hadoop fs –mkdir myinput Créer un répertoire hadoop fs –cat file.txt | less Lire le fichier page par page
  77. Caractéristiques de HDFS SCALABLE (Montée en charge) COST EFFECTIVE (Rentable) FAULT TOLERANT (Tolérant aux pannes)
  78. Manipuler des fichiers sur HDFS avec la sandbox Une formation Fatma SIALA
  79. Manipuler des fichiers sur HDFS avec cloudera Une formation Fatma SIALA
  80. Connaître MapReduce Une formation Fatma SIALA
  81. Composant 2 : Map Reduce ZEPPELIN
  82. Map Reduce
  83. Map-Reduce : Exemple But : Calculer le nombre d’occurrences des mots constituant le texte
  84. Map Reduce : Utilité MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées
  85. Exécuter un code MapReduce Une formation Fatma SIALA
  86. Connaître YARN Une formation Fatma SIALA
  87. Composant 3 : YARN ZEPPELIN
  88. Les avantages de Yarn Sépare la gestion des ressources/ordonnancement des job du traitement des données Permet à Hadoop de supporter d’autres applications de traitement de données
  89. MapReduce et Yarn La nouvelle génération du framework MapReduce est une application qui s’exécute avec Yarn
  90. Gérer les ressources avec YARN Une formation Fatma SIALA
  91. Comprendre la structure de nos données Une formation Fatma SIALA
  92. Plan 1 2 3 4 5 ZEPPELIN 6
  93. Données structurées / non structurées
  94. 2006 BigTable de de 2007 2009 Not Only SQL 2017
  95. Scalabilité verticale Scalabilité horizontale
  96. Bases de données NoSQL
  97. Pas de jointure Scalable horizontalement (cluster de serveurs) Pas de schéma Manipule toute sorte de données Données non structurées Pas de gestion de transaction Données non-structurées
  98. Théorème CAP Eric Brewer
  99. Le NoSQL : cas d'usages
  100. Découvrir les cas d’usage du NoSQL Une formation Fatma SIALA
  101. Bases de données NoSQL Interrogation de données volumineuses Traitement en mémoire des données Types de moteurs de bases de données
  102. Modèles d’architectures Maître esclave Sans maître Modèles d’architectures
  103. Voir un exemple de NoSQL HBASE Une formation Fatma SIALA
  104. Plan 1 2 3 4 5 ZEPPELIN 6
  105. HBASE BD orientée colonnes
  106. HBASE BD orientée colonnes
  107. Une formation Possibilités d’accès aux données avec HBASE Shell HBASE API REST API Java N’importe quelle application (en passant par les composants Apache Thrift ou Avro)
  108. Manipuler une base de données NoSQL avec HBASE Une formation Fatma SIALA
  109. Voir un exemple de NoSQL MongDB Une formation Fatma SIALA
  110. Présentation de MongDB
  111. L’élasticité des environnements
  112. Manipuler une base de données NoSQL avec MongoDB Une formation Fatma SIALA
  113. Comprendre Hive Une formation Fatma SIALA
  114. Plan 1 2 3 4 5 ZEPPELIN 6
  115. Apache Hive Fonction prédéfinie : + BIG + DATA B I G D A T A
  116. Une formation Apache Hive Outil d'infrastructure d'entrepôt de données Fournit un langage de requête similaire au SQL nommé HiveQL
  117. Apache Hive X
  118. Une formation Quelques commandes HiveQL Création de base de données CREATE DATABASE|SCHEMA [IF NOT EXISTS] <database name> hive> CREATE DATABASE [IF NOT EXISTS] userdb; hive> CREATE SCHEMA userdb; Lister les base de données hive> SHOW DATABASES;
  119. Une formation Quelques commandes HiveQL Création de table hive> CREATE TABLE posts (user STRING, post STRING, time BIGINT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',’ STORED AS TEXTFILE; Afficher la liste des tables hive> show tables;Décrire une table hive> describe posts;
  120. Exécuter des requêtes HiveQL avec Hive Une formation Fatma SIALA
  121. Etapes Hive Création base de données hive> create database dbventes; hive> use dbventes; Création de table pour le stockage des données qui existent dans le fichier /ventes.txt hive> CREATE TABLE ventes (ptvente STRING, article STRING, montant BIGINT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; hive> show tables; (Afficher la liste des tables) hive> describe ventes; (Description de la table posts) hive> LOAD DATA LOCAL INPATH '/home/cloudera/Desktop/ventesf.txt' OVERWRITE INTO TABLE ventes; hive> select count (1) from ventes; hive> select * from ventes where ptvente=“pointdevente1"; hive> select * from ventes where montant<=600 limit 2; Une formation
  122. Comprendre Pig Une formation Fatma SIALA
  123. Plan 1 2 3 4 5 ZEPPELIN 6
  124. Une formation Présentation d’Apache Pig Pig est une plateforme haut niveau pour la création de programme Map Reduce utilisé avec Hadoop Le langage de cette plateforme est appelé le Pig Latin
  125. Apache Pig YARN
  126. Une formation Commandes PIG LOAD TRANSFORM Opérateurs relationnels DUMP / STORE
  127. Une formation Modes de fonctionnement Pig Mode intéractif ( ligne de commande ) $ pig grunt> … Mode script ( un fichier) $ pig myscript.pig Mode intégré
  128. Manipuler des données avec Pig Une formation Fatma SIALA
  129. Découvrir Apache Spark Une formation Fatma SIALA
  130. Plan 1 2 3 4 5 ZEPPELIN 6
  131. Présentation d’Apache Spark Matei Zaharia Projet Apache depuis 2013 avec plus de 1000 contributeurs
  132. https://www.lemondeinformatique.fr/
  133. Composants de Spark Standalone YARN spark.apache.org
  134. Architecture de Spark https://www.researchgate.net/
  135. Spark
  136. Une formation SPARK RDD : principe Transformations Créent un nouveau RDD à partir d’un existant Actions Des fonctions qui permettent d’extraire des informations des RDD
  137. Une formation SPARK RDD : Actions RDD.collect() RDD.count() RDD.first() RDD.take(n) RDD.reduce(fonction) RDD.persist() ou RDD.cache()
  138. Une formation SPARK RDD : Transformations RDD.map(fonction) RDD.flatMap(fonction) parallelize() RDD.filter(fonction)
  139. Une formation RDD : Transformations ensemblistes RDD.distinct() RDD.distinct().collect() RDD1.union(RDD2) RDD1.intersection(RDD2)
  140. Une formation RDD : Sauvegarde saveAsTextFile(path) saveAsSequenceFile(path) saveAsObjectFile(path)
  141. Une formation SPARK : comment créer des RDD ? Paralléliser la collection déjà existante dans le programme pilote Référencer un ensemble de données dans un système de stockage externe Créer un RDD à partir de RDD déjà existant
  142. Manipuler des RDD avec Spark Une formation Fatma SIALA
  143. Découvrir Apache Tez Une formation Fatma SIALA
  144. Plan 1 2 3 4 5 ZEPPELIN 6
  145. TEZ
  146. https://mesos.apache.org/ Hive MapReduce
  147. https://mesos.apache.org/
  148. Faire un traitement avec Tez Une formation Fatma SIALA
  149. Hadoop et le temps réel Une formation Fatma SIALA
  150. Plan 1 2 3 4 5 ZEPPELIN 6
  151. Hadoop et le temps réel
  152. Bus d’ingestion de messages en temps réel Traitement du flux de données Magasin de données analytiques Outils d’analyse et de reporting
  153. https://docs.cloudera.com/
  154. Ingestion de données avec Kafka et Apache Flume
  155. Utilisation de Kafka avec Apache Spark streamming
  156. Découvrir Apache Flume Une formation Fatma SIALA
  157. Plan 1 2 3 4 5 ZEPPELIN 6
  158. Apache Flume https://flume.apache.org/
  159. Apache kafka Elastic.co
  160. Visualiser un flux en temps réel avec Flume Une formation Fatma SIALA
  161. Découvrir Apache Spark Streaming Une formation Fatma SIALA
  162. Plan 1 2 3 4 5 ZEPPELIN 6
  163. Apache SPARK streaming HDS Logiciel BD HDS
  164. Une formation Spark streaming : DStream Transformations des DStreams Map (fonction) flatMap (fonction) Filter (fonction) Reduce (fonction Transform (fonction)
  165. Spark streaming : DStream https://spark.apache.org/
  166. Comprendre Apache STORM & comparaison avec Spark Streaming Une formation Fatma SIALA
  167. Plan 1 2 3 4 5 ZEPPELIN 6
  168. Apache STORM https://storm.apache.org/
  169. Une formation STORM Un tuple est une liste nommée de valeurs (la valeur est de n’importe quel type) Le flux (stream) est une séquence illimitée de tuples Le Spout lit les tuples à partir d’une source externe Le Bolt traite les tuples
  170. SPARK Streaming VS STORM Année de création 2009 2011 Origine Twitter Université de Berkeley Système de traitement temps réel Micro-batch Evénements Langages supportés Scala, Java, Python, R Clojure, Java, Python Architecture Lambda (batch et temps réel) Oui Non Communauté open source Importante Moyenne Présence offre Cloud native Amazon EMR Azure HDInsight Google Dataproc Azure HDInsight Intégré dans HortonWorks Oui Oui
  171. Comprendre le fonctionnement de YARN Une formation Fatma SIALA
  172. Plan 1 2 3 4 5 ZEPPELIN 6
  173. Fonctionnement de YARN
  174. Une formation YARN 3 types de scheduler FIFO Capacity scheduler Fair scheduler
  175. Découvrir Apache MESOS Une formation Fatma SIALA
  176. Plan 1 2 3 4 5 ZEPPELIN 6
  177. Apache MESOS https://mesos.apache.org/
  178. Apache MESOS https://mesos.apache.org/
  179. Apache MESOS https://mesos.apache.org/
  180. MESOS : Architecture https://mesos.apache.org/
  181. Découvrir Apache Zookeeper Une formation Fatma SIALA
  182. Plan 1 2 3 4 5 ZEPPELIN 6
  183. Apache ZOKEEPER ZooKeeper est un outil distribué utilisé pour la configuration et la synchronisation de larges services distribués
  184. Apache ZOKEEPER
  185. Fonctionnement d’Apache ZOKEEPER Apache.zookeeper.org
  186. Faire de la visualisation avec Zeppelin Une formation Fatma SIALA
  187. Plan 1 2 3 4 5 ZEPPELIN 6
  188. Apache ZEPPELIN
  189. Une formation Apache ZEPPELIN Interpréteurs par défaut Angular JDBC Livy2 Md (Markdown) Spark2 Possiblité d’ajouter d’autres interpréteurs /usr/hdp/current/zeppelin-server/bin/install-interpreter.sh –all dans /usr/hdp/current/zeppelin-server/bin
  190. Découvrir Apache Hue Cas Pratique Une formation Fatma SIALA
  191. Plan 1 2 3 4 5 ZEPPELIN 6
  192. Comprendre le fonctionnement de Apache SQOOP Une formation Fatma SIALA
  193. Plan 1 2 3 4 5 ZEPPELIN 6
  194. Fonctionnement d’Apache SQOOP
  195. Apache SQOOP Export Job Merge Importation des données dans Hadoop Exportation des données de Hadoop Création de jobs pour exécution différée Combinaison de plusieurs sources de données Import
  196. Une formation Apache SQOOP sqoop import --connect jdbc:mysql://localhost/naissances --driver com.mysql.jdbc.Driver --table departement -m 1 -username maria_dev -P
  197. Importer une table avec SQOOP Une formation Fatma SIALA
  198. Conclusion Une formation Fatma SIALA
  199. Une formation Bilan Maîtriser Hadoop et son périmètre Comprendre la nouvelle manière de traiter les données Elaborer de la pratique sur plusieurs technologies
Publicité