Alphorm.com Formation Big Data & Hadoop : Le Guide Complet

Formation
Big Data & Hadoop
Le Guide Complet
Une formation
Fatma SIALA

Une formation
Introduction
1. Présentation du Big Data
2. Présentation d’Hadoop
3. Eléments de base d’Hadoop
4. Ecosystème d’Hadoop
Conclusion
Plan

Plan de l’écosystème Hadoop
1
2
3
4
6
ZEPPELIN
5

Objectifs
Comprendre Hadoop et son périmètre
Maîtriser la nouvelle manière de traiter les
données
Faire de la pratique

Une formation
Public concerné
Toutes personnes souhaitant
Se lancer dans le Big Data
Découvrir l'écosystème d’Hadoop
Travailler sur un projet avec plusieurs outils
d'Hadoop
Consolider des connaissances Hadoop

Une formation
Connaissances requises
Avec ou sans connaissance, il est possible de suivre
le cours
Une connaissance du SQL pourrait être un plus

Big Data ! C’est quoi ?
Le Big Data fait référence au volume énorme de données qui ne peuvent pas être
stockées et traitées avec l'approche traditionnelle en un temps précis
Gartner

Avoir un aperçu
sur le Big Data
Fatma SIALA

Le déluge continu de données

Big Data
ETS 2017.07 - Philippe Laflamme

Une formation
Pourquoi le Big Data ?
Augmentation exponentielle de la quantité de
données non structurées
Augmentation de la capacité de stockage et
d’analyse
L’utilisation de plusieurs machines en parallèle
devient accessible
Les technologies existantes ne sont pas conçues
pour ingérer ces données

Différentes sources
Capteurs
température, pression…
IOT
montre connectées, balances, Smartphone..
Autres
Gps, email, sms…
Messages sur les réseaux sociaux
tweet, Posts ..
Transaction et logs
banque, e-commerce
Images, vidéos et sons
Instagram, youtube, snapshat,

Classification de la Big Data
Données
structurées
Données
semi-structurées
Données
non-structurées

Connaître les enjeux
et les défis du Big Data
Fatma SIALA

Importance des données
Tirer des conclusions et prise des décisions
Automatiser les systèmes et les processus

Optimisation du stockage => optimisation du temps de réponse

Une formation
Big data et analytique : un marché
promis à une croissance à deux chiffres
Le marché des solutions et services du Big data et de l’analyse
de données devrait croître en moyenne de 12,8% par an d’ici
2025
Les investissements mondiaux des entreprises dans les
solutions de traitement et analyse avancée de mégadonnées
devraient croître de plus 10%
Le segment des services devrait attirer plus de la moitié des
investissements BDA (Big data & Business Analytics) des
organisations
Devant le matériel dédié, les logiciels du Big data, devraient
peser 82 Md$
https://www.idc.com/

Connaître les caractéristiques
du Big Data
Fatma SIALA

Caractéristiques du Big Data
Gartner 2001

Volume
Des données non structurées incompatibles avec des bases de données classiques

Variété
Des données non structurées incompatibles avec des bases de données classiques

Vitesse
Être capable de traiter et analyser ce flux continu de données

La valeur
Les entreprises qui s'appuient sur leurs données pour générer de la valeur sont les
meilleures sur leur marché
*Aberdeen:Angling for Insight in Today’s DataLake, MichaelLock, Analytics andBusiness Intelligence,2017

Découvrir les cas d'usage
réels du Big Data
Fatma SIALA

Cas d’usage réels du Big Data

Analyse Découverte
Traitement

Énergie
Amélioration de la production et distribution d’énergie
Transport et distribution
Optimisation des trajets et réduction des coûts
E-Commerce
Amélioration des stocks et de l’expérience
Services publics et banques
Prédire des tremblements de terre, Lute contre la fraude et abus
Sécurité
Étude des déplacements de population
Santé
Traitement

Produits de Luxe et de grandes consommations
Recommandations
Découverte

Défis du Big Data
Stockage et gestion
d'un el volume de
données
Traitement et extraction de
la valeur de cet énorme
volume de données dans un
laps de temps prédéfini

Besoins
Paralléliser
Données non
structurées
Montée en
charge
Flux continu

Voir un cas pratique
du Big Data
Fatma SIALA

Définir les défis et cerner
les technologies mises en jeu
Fatma SIALA

Défis 1 : Stockage des données

Défis 2 : Traitement des données

Profils liés au Big Data
Chief Data
Officer
Data Scientist
Data Engineer
Big Data
Developer
Big Data
Administrator
Chief Data
Architect

Avoir un aperçu
sur Hadoop
Fatma SIALA

Introduction
Doug Cutting
+
Mike Cafarella
1997
Projet Lucene
2000
Projet Nutch

Historique d’Apache Hadoop
Google a publié un article en 2003 décrivant un Framework appelant Google File
System  NDFS
En 2004, Google a fait un autre papier contenant la description de la solution Map
Reduce  HDFS
Nutch
Distributed
File System
NDFS
HDFS
Hadoop
Distributed
File System

Apache Hadoop
https://hadoop.apache.org/

Une formation
Présentation d’Apache Hadoop
Hadoop est un framework open source qui repose
sur Java
Facilite l'utilisation d'un réseau de plusieurs
ordinateurs (cluster)
Résout des problèmes de Big Data

Découvrir l’écosystème
d’Hadoop et son utilisation
Fatma SIALA

Versions de Hadoop
Hadoop 1.0.0 ( 2011)
HDFS (système de fichier distribué)
Hadoop 2.0.0 ( 2012) / Hadoop 3.0.0 (2017)
HDFS (système de fichier distribué)
Map Reduce (Framework de calcul distribué)
YARN (gestionnaire de ressources de cluster)

Découvrir ce qu’on peut
faire avec Hadoop

1ère fonction : Traitement de type ETL
(Extract/Transform/Load)

2ème fonction : Analyse de temps réel

3ème fonction : Analyses exploratoires

H a do op 3.3 :
https://hadoop.apache.org/docs/r3.3.0/

https://fr.cloudera.com/products/discover-cloudera-data-platform.html

https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/cm_ig_non_production.html#install_embedded_db

https://www.cloudera.com/downloads/hortonworks-sandbox/hdp.html

Installer Hadoop en pratique
Fatma SIALA

Administrer graphiquement
Hadoop avec Ambari
Fatma SIALA

L'administration graphique d'Hadoop avec Ambari

Configurer son cluster
avec Ambari
Une formation
Fatma SIALA

Connaître HDFS
Une formation
Fatma SIALA

Une formation
HDFS
H : Hadoop
Le nom de plate-forme
D : Distributed
distribué
F : File
(fichier), créer, copier, renommer, couper des répertoires
et fichiers
S : System
Contrôle la manière dont les données sont stockées et
récupérées

Architecture logique de HDFS
nœud
Stocker les données et y
accéder comme un seul
grand ordinateur
Cluster
nœud nœud
nœud
Métadonnées

Stockage d’un fichier
Hadoop client
Name Node
1. Créer un fichier $ hadoop fs –put
myfile.txt /mydir/
4. succès
7.DN-3 is
allocated
2. Vérification
Dossier existe
Fichier n’existe pas
Le client possède
6. Block
Allocation
Request
Data
Nodes
DN-1 DN-2 DN-3 DN-4
Block Data
128 MB
3. Fsimage
en mémoire
128 MB
5. FSDataOutputStream
Data
Myfile.txt
270 MO
Bloc C
14 MO
Bloc B
128 MO
Bloc A
128 MO
Bloc A1
128 MO
Bloc A2
128 MO
Bloc A3
128 MO

Les commandes les plus utilisées dans HDFS
hadoop fs –ls Afficher le contenu du répertoire racine
hadoop fs –put file.txt Upload un fichier dans hadoop (à partir du répertoire
courant linux)
hadoop fs –get file.txt Download un fichier à partir de hadoop sur votre
disque local
hadoop fs –tail file.txt Lire les dernières lignes du fichier
hadoop fs –cat file.txt Affiche tout le contenu du fichier
hadoop fs –mv file.txt newfile.txt Renommer le fichier
hadoop fs –rm newfile.txt Supprimer le fichier
hadoop fs –mkdir myinput Créer un répertoire
hadoop fs –cat file.txt | less Lire le fichier page par page

Caractéristiques de HDFS
SCALABLE
(Montée en charge)
COST EFFECTIVE
(Rentable)
FAULT TOLERANT
(Tolérant aux pannes)

Manipuler des fichiers
sur HDFS avec la sandbox
Une formation
Fatma SIALA

Manipuler des fichiers
sur HDFS avec cloudera
Une formation
Fatma SIALA

Connaître MapReduce
Une formation
Fatma SIALA

Composant 2 : Map Reduce
ZEPPELIN

Map-Reduce : Exemple
But : Calculer le nombre d’occurrences des mots constituant le texte

Map Reduce : Utilité
MapReduce permet de manipuler de grandes quantités de données en les distribuant
dans un cluster de machines pour être traitées

Exécuter un code MapReduce
Une formation
Fatma SIALA

Connaître YARN
Une formation
Fatma SIALA

Les avantages de Yarn
Sépare la gestion des ressources/ordonnancement des job du traitement des données
Permet à Hadoop de supporter d’autres applications de traitement de données

MapReduce et Yarn
La nouvelle génération du framework MapReduce est une application qui s’exécute
avec Yarn

Gérer les ressources
avec YARN
Une formation
Fatma SIALA

Comprendre la structure
de nos données
Une formation
Fatma SIALA

Données structurées / non structurées

2006
BigTable de
de
2007 2009
Not Only SQL
2017

Scalabilité verticale
Scalabilité horizontale

Pas de jointure
Scalable horizontalement (cluster de serveurs)
Pas de schéma
Manipule toute sorte de données
Données non structurées
Pas de gestion de transaction
Données non-structurées

Découvrir les cas d’usage
du NoSQL
Une formation
Fatma SIALA

Bases de données NoSQL
Interrogation de données
volumineuses
Traitement en mémoire
des données
Types de moteurs de
bases de données

Modèles d’architectures
Maître esclave
Sans maître
Modèles
d’architectures

Voir un exemple de NoSQL
HBASE
Une formation
Fatma SIALA

Une formation
Possibilités d’accès aux données avec HBASE
Shell HBASE
API REST
API Java
N’importe quelle application (en passant par les
composants Apache Thrift ou Avro)

Manipuler une base
de données NoSQL avec HBASE
Une formation
Fatma SIALA

Voir un exemple de NoSQL
MongDB
Une formation
Fatma SIALA

L’élasticité des environnements

Manipuler une base de données
NoSQL avec MongoDB
Une formation
Fatma SIALA

Comprendre Hive
Une formation
Fatma SIALA

Apache Hive
Fonction prédéfinie : +
BIG + DATA
B I G D A T A

Une formation
Apache Hive
Outil d'infrastructure d'entrepôt
de données
Fournit un langage de requête similaire au
SQL nommé HiveQL

Une formation
Quelques commandes HiveQL
Création de base de données
CREATE DATABASE|SCHEMA [IF NOT EXISTS] <database name>
hive> CREATE DATABASE [IF NOT EXISTS] userdb;
hive> CREATE SCHEMA userdb;
Lister les base de données
hive> SHOW DATABASES;

Une formation
Quelques commandes HiveQL
Création de table
hive> CREATE TABLE posts (user STRING, post STRING, time
BIGINT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',’
STORED AS TEXTFILE;
Afficher la liste des tables
hive> show tables;Décrire une table
hive> describe posts;

Exécuter des requêtes
HiveQL avec Hive
Une formation
Fatma SIALA

Etapes Hive
Création base de données
hive> create database dbventes;
hive> use dbventes;
Création de table pour le stockage des données qui existent dans le fichier
/ventes.txt
hive> CREATE TABLE ventes (ptvente STRING, article STRING, montant BIGINT) ROW
FORMAT DELIMITED
FIELDS TERMINATED BY ',' STORED
AS TEXTFILE;
hive> show tables; (Afficher la liste des tables)
hive> describe ventes; (Description de la table posts)
hive> LOAD DATA LOCAL INPATH '/home/cloudera/Desktop/ventesf.txt' OVERWRITE
INTO TABLE ventes;
hive> select count (1) from ventes;
hive> select * from ventes where ptvente=“pointdevente1";
hive> select * from ventes where montant<=600 limit 2;
Une formation

Comprendre Pig
Une formation
Fatma SIALA

Une formation
Présentation d’Apache Pig
Pig est une plateforme haut niveau pour la création
de programme Map Reduce utilisé avec Hadoop
Le langage de cette plateforme est appelé le Pig
Latin

Une formation
Commandes PIG
LOAD
TRANSFORM
Opérateurs relationnels
DUMP / STORE

Une formation
Modes de fonctionnement Pig
Mode intéractif ( ligne de commande )
$ pig
grunt> …
Mode script ( un fichier)
$ pig myscript.pig
Mode intégré

Manipuler des données
avec Pig
Une formation
Fatma SIALA

Découvrir Apache Spark
Une formation
Fatma SIALA

Présentation d’Apache Spark
Matei Zaharia
Projet Apache depuis 2013 avec plus de 1000 contributeurs

https://www.lemondeinformatique.fr/

Composants de Spark
Standalone
YARN
spark.apache.org

Architecture de Spark
https://www.researchgate.net/

Une formation
SPARK RDD : principe
Transformations
Créent un nouveau RDD à partir d’un existant
Actions
Des fonctions qui permettent d’extraire des
informations des RDD

Une formation
SPARK RDD : Actions
RDD.collect()
RDD.count()
RDD.first()
RDD.take(n)
RDD.reduce(fonction)
RDD.persist() ou RDD.cache()

Une formation
SPARK RDD : Transformations
RDD.map(fonction)
RDD.flatMap(fonction)
parallelize()
RDD.filter(fonction)

Une formation
RDD : Transformations ensemblistes
RDD.distinct()
RDD.distinct().collect()
RDD1.union(RDD2)
RDD1.intersection(RDD2)

Une formation
RDD : Sauvegarde
saveAsTextFile(path)
saveAsSequenceFile(path)
saveAsObjectFile(path)

Une formation
SPARK : comment créer des RDD ?
Paralléliser la collection déjà existante dans le
programme pilote
Référencer un ensemble de données dans un
système de stockage externe
Créer un RDD à partir de RDD déjà existant

Manipuler des RDD
avec Spark
Une formation
Fatma SIALA

Découvrir Apache Tez
Une formation
Fatma SIALA

https://mesos.apache.org/
Hive
MapReduce

Faire un traitement avec Tez
Une formation
Fatma SIALA

Hadoop et le temps réel
Une formation
Fatma SIALA

Bus d’ingestion de
messages en temps réel
Traitement du flux de
données
Magasin de données
analytiques
Outils d’analyse et de
reporting

Ingestion de données avec Kafka et Apache Flume

Utilisation de Kafka avec Apache Spark streamming

Découvrir Apache Flume
Une formation
Fatma SIALA

Apache Flume
https://flume.apache.org/

Visualiser un flux en temps
réel avec Flume
Une formation
Fatma SIALA

Découvrir Apache Spark
Streaming
Une formation
Fatma SIALA

Apache SPARK streaming
HDS
Logiciel
BD HDS

Une formation
Spark streaming : DStream
Transformations des DStreams
Map (fonction)
flatMap (fonction)
Filter (fonction)
Reduce (fonction
Transform (fonction)

Spark streaming : DStream
https://spark.apache.org/

Comprendre Apache STORM
& comparaison avec Spark Streaming
Une formation
Fatma SIALA

Apache STORM
https://storm.apache.org/

Une formation
STORM
Un tuple est une liste nommée de valeurs (la valeur
est de n’importe quel type)
Le flux (stream) est une séquence illimitée de tuples
Le Spout lit les tuples à partir d’une source externe
Le Bolt traite les tuples

SPARK Streaming VS STORM
Année de création 2009 2011
Origine Twitter Université de Berkeley
Système de traitement
temps réel
Micro-batch Evénements
Langages supportés Scala, Java, Python, R Clojure, Java, Python
Architecture Lambda
(batch et temps réel)
Oui Non
Communauté open
source
Importante Moyenne
Présence offre Cloud
native
Amazon EMR Azure
HDInsight Google
Dataproc
Azure HDInsight
Intégré dans
HortonWorks
Oui Oui

Comprendre
le fonctionnement de YARN
Une formation
Fatma SIALA

Une formation
YARN
3 types de scheduler
FIFO
Capacity scheduler
Fair scheduler

Découvrir Apache MESOS
Une formation
Fatma SIALA

Apache MESOS

MESOS : Architecture

Découvrir
Apache Zookeeper
Une formation
Fatma SIALA

Apache ZOKEEPER
ZooKeeper est un outil distribué utilisé pour la configuration et la
synchronisation de larges services distribués

Fonctionnement d’Apache ZOKEEPER
Apache.zookeeper.org

Faire de la visualisation
avec Zeppelin
Une formation
Fatma SIALA

Une formation
Apache ZEPPELIN
Interpréteurs par défaut
Angular
JDBC
Livy2
Md (Markdown)
Spark2
Possiblité d’ajouter d’autres interpréteurs
/usr/hdp/current/zeppelin-server/bin/install-interpreter.sh –all
dans /usr/hdp/current/zeppelin-server/bin

Découvrir Apache Hue
Cas Pratique
Une formation
Fatma SIALA

Comprendre le fonctionnement
de Apache SQOOP
Une formation
Fatma SIALA

Fonctionnement d’Apache SQOOP

Apache SQOOP
Export
Job
Merge
Importation des données dans Hadoop
Exportation des données de Hadoop
Création de jobs pour exécution différée
Combinaison de plusieurs sources de données
Import

Une formation
Apache SQOOP
sqoop import
--connect jdbc:mysql://localhost/naissances
--driver com.mysql.jdbc.Driver
--table departement
-m 1
-username maria_dev
-P

Importer une table
avec SQOOP
Une formation
Fatma SIALA

Conclusion
Une formation
Fatma SIALA

Une formation
Bilan
Maîtriser Hadoop et son périmètre
Comprendre la nouvelle manière de traiter
les données
Elaborer de la pratique sur plusieurs
technologies

Alphorm.com Formation Big Data & Hadoop : Le Guide Complet

Alphorm.com Formation Big Data & Hadoop : Le Guide Complet

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Alphorm.com Formation Big Data & Hadoop : Le Guide Complet

Similaire à Alphorm.com Formation Big Data & Hadoop : Le Guide Complet (20)

Plus de Alphorm

Plus de Alphorm (20)

Alphorm.com Formation Big Data & Hadoop : Le Guide Complet