Distributed
programing
(HADOOP && JAVA)
Elaboré par :
Maaroufi Mohamed Amine
Chemkhi Mohamed Rebai
Ahmed
Les Problèmes du Big Data
Les Solutions du Big Data
Hadoop
Motivation pour le Big Data
Depuis l'aube de la civilisation jusqu'en 2003, l'homme a
généré 5 exabytes de données. Maintenant, nous
produisons 5 exabytes de données tous les deux jours .. et
le rythme accélère.
Eric Schmidit,
Executive Chairman, Google
“ “
Les problèmes du Big Data
L’explosion quantitative des données
numériques a obligé les chercheurs à
trouver de nouvelles manières de voir et
d’analyser le monde.
Il s’agit de découvrir de nouveaux ordres
de grandeur concernant la capture, la
recherche, le partage, le stockage, l’analyse
et la présentation de données.
c'est le principe du big data qui
révolutionne peu à peu notre quotidien.
Les Solutions de Big Data
Le Big Data est un concept global que l’on peut
définir comme un ensemble d’outils et
d’algorithmes qui permettent de stocker,
visualiser et analyser des quantités très
importantes de données non structurées grâce à
des milliers de machines capables de les traiter.
Définition
Les caractéristiques du Big Data
Volume Variété Vitesse
Base de Données NOSQL
implémentent des
systèmes de stockage
considérés comme plus
performants que le
traditionnel SQL pour
l'analyse de données en
masse (orienté clé/valeur,
document, colonne ou
graphe).
Cloud Computing
le Big Data exige une
capacité matérielle
hors du commun, que
soit pour le stockage
comme pour les
ressources
processeurs
nécessaires au
traitement.
Le Cloud est la pour
cela.
Les principales technologies de Big Data
Les infrastructures
de serveurs
pour distribuer les
traitements , sur des
dizaines, centaines,
voire milliers de
nœuds. C'est ce qu'on
appelle le traitement
massivement parallèle
Map Reduce
Est un modèle de
programmation
conçu
spécifiquement pour
lire, traiter et écrire
des volumes de
données très
importants.
›La capacité de stockage des disques
durs augmente mais le temps de
lecture croît également,
›Il devient alors nécessaire de
paralléliser les traitements en
stockant sur plusieurs unités de
disques durs.
La Solution Hadoop ?
› Apache Hadoop (High-availability distributed
object-oriented platform) est un système
distribué qui répond à ces problématiques,
› Hadoop est capable de stocker et traiter de
manière efficace un grand nombre de
donnés, en reliant plusieurs serveurs.
yahoo utilise
Hadoop pour
gérer son
système de
contrôle des
spams. Il analyse
environ 20,5
milliards de
Hadoop est la
base de Facebook
Messaging, et de
même, il est
utilisé pour gérer
les messages
envoyés à partir
de PC ou
téléphone mobile.
Moteur de
recommandatio
n de produits
(ex : Amazon,
Netflix).
Domaines d’utilisation du Hadoop
› Hadoop
Distributed File
System (HDFS)
Le système de
gestion de fichiers
distribués permet
de stocker les
données sur les
machines du
cluster.
› Hadoop
Common
Contient les
bibliothèques
et les utilitaires
nécessaires
aux autres
modules
Hadoop
› Hadoop
YARN
Une
plate-forme
chargée de la
gestion des
ressources
informatiques
du clusters
Composition Hadoop
★ HDFS est développé pour
supporter les applications avec
de grands volumes de données,
comme les fichiers individuels
dont la quantité peut se compter
en teraoctets.
★ HDFS utilise des tailles de blocs largement
supérieures à ceux des systèmes classiques
(la taille est fixée à 64 Mo. Il est toutefois
possible de monter à 128 Mo, 256 Mo, 512 Mo
voire 1 Go)
Hadoop Distributed FileSystem (HDFS)
★ Par défaut, les données chargée
dans un cluster Hadoop sont
stockées en trois exemplaires, sur
des nœuds différents
★ chaque nœud d'un cluster correspond à
un sous-ensemble du volume global de
données du cluster. Pour augmenter ce
volume global, il suffira d'ajouter de
nouveaux nœuds
› Un Namenode est un service central
(généralement appelé aussi maître) qui
s'occupe de gérer l'état du système de fichiers,
› Association entre fichiers et blocs de données,
› Association entre blocs et emplacement sur
les DataNodes,
› Moteur de réplication des blocs.
HDFS (Namenode)
› Le Namenode dans l'architecture Hadoop est un point unique
de défaillance (Single Point of Failure en anglais). Si ce
service est arrêté, il n'y a pas moyen de pouvoir extraire les
blocs d'un fichier donné,
› Son fonctionnement est relativement simple puisque le
Namenode secondaire vérifie périodiquement l'état du
Namenode principal et copier les métadonnées,
› Si le Namenode principal est indisponible, le Namenode
secondaire prend sa place.
HDFS (Secondary Namenode)
› Est un Serveur de Bloc permet:
-Stocker les données sur le système de fichier,
-Stocker les métadonnées des blocs,
-Fournir les métadonnées et les données aux clients.
› Les Datanodes sont sous les ordres du Namenode et sont
surnommés les Workers.
HDFS (DataNode)
HDFS architecture
http://www.wingnity.com/blog/hadoop-hdfs-common-interview-questions-and-answers/
› MapReduce est une stratégie de parallélisation et
lorsqu’on parle de MapReduce dans Hadoop, il s’agit
de son implémentation.
› Map : est la fonction qui permet de
découper les données en plusieurs
pièces.
› Reduce : est la fonction permet
d’assembler tous ces résultats en un
résultat final.
Map Reduce
MapReduce && Hadoop
Hadoop avec java
Démo
HBase est une base NoSQL distribuée orienté
colonne, horizontalement scalable et tolérante
aux pannes où la charge de travail en terme de
mémoire et de calcul (CPU) ainsi que le
stockage est distribué sur toutes les machines
du cluster HBase.
HBase la base NoSQL de Hadoop
HBase est inspirée des publications de
Google sur BigTable. Comme BigTable, elle est
une base de données orientée colonnes.
Basées sur une architecture maître/esclave,
les bases de données de ce type sont capables
de gérer d’énormes quantités d’informations
(plusieurs milliards de lignes par table).
Table : dans HBase les données sont
organisées dans des tables.
Row : dans chaque table les données sont
organisées dans des ligne. Une lignes est
identifiée par une clé unique (RowKey).
Column Family : Les données au sein d’une ligne
sont regroupées par column family.
Le modèle de données
Column qualifier : L’accès aux données au
sein d’une column family se fait via le
column qualifier ou column. Ce dernier n’est
pas spécifié à la création de la table mais
plus tôt à l’insertion de la donnée.
Cell : La combinaison du RowKey, de la
Column Family ainsi que la Column qualifier
identifie d’une manière unique une cellule.
Motivation Pour le Big Data
★ Chief Data Officer (CDO) : Il est le Directeur de la data
,Le salaire annuel brut, avec 10-15 années
d’expérience, est aux alentours de 120 000 euros,
★ Business Intelligence Manager :Son travail consiste à
faciliter les prises de décision,
★ Data Scientist : Il est responsable de la collecte, du
traitement, de l’évaluation et de l’analyse des
données massives,
★ Le Data Miner :le Sherlock Holmes de la data.
Métiers Créés par le Big Data
40 ZetaOctet
Données numérique
crées dans le monde
en 2020
48,6 milliards de dollars
seront dépensés dans le
Big Data en 2019
Conclusion
Hadoop n’est pas la solution que l’on va
sortir à tout bout de champ. Le but est de
manipuler de très gros volumes de données.
C’est clairement un outil qui va devenir de
plus en plus utile avec l’explosion des
données récoltées par les objets
connectées ou toutes les traces que nous
laissons sur Internet.
Merci pour votre attention
✓ https://fr.slideshare.net/hugfrance/introduction-hdfs
✓ http://www.journaldunet.com/developpeur/outils/mapreduce.shtml
✓ http://mbaron.developpez.com/tutoriels/bigdata/hadoop/introduction-hdfs-map-reduce/
#LIII-A
✓ https://www.france-science.org/Hadoop-une-technologie-en-plein.html
✓ http://www.lemagit.fr/definition/Hadoop-Distributed-File-System-HDFS
✓ https://www.slideshare.net/narangv43/seminar-presentation-hadoop
✓ http://substance.etsmtl.ca/hadoop-larchitecte-du-big-data/
✓ https://blog.groupe-sii.com/presentation-hadoop-distributed-file-system
✓ https://www.lcl.com/guides-pratiques/zooms-economiques/big-data-banque.jsp
Les réferences

Distributed programing (hadoop && java) version finale.pptx

  • 1.
    Distributed programing (HADOOP && JAVA) Elaborépar : Maaroufi Mohamed Amine Chemkhi Mohamed Rebai Ahmed
  • 2.
    Les Problèmes duBig Data Les Solutions du Big Data Hadoop Motivation pour le Big Data
  • 3.
    Depuis l'aube dela civilisation jusqu'en 2003, l'homme a généré 5 exabytes de données. Maintenant, nous produisons 5 exabytes de données tous les deux jours .. et le rythme accélère. Eric Schmidit, Executive Chairman, Google “ “
  • 4.
  • 5.
    L’explosion quantitative desdonnées numériques a obligé les chercheurs à trouver de nouvelles manières de voir et d’analyser le monde.
  • 6.
    Il s’agit dedécouvrir de nouveaux ordres de grandeur concernant la capture, la recherche, le partage, le stockage, l’analyse et la présentation de données. c'est le principe du big data qui révolutionne peu à peu notre quotidien.
  • 7.
  • 8.
    Le Big Dataest un concept global que l’on peut définir comme un ensemble d’outils et d’algorithmes qui permettent de stocker, visualiser et analyser des quantités très importantes de données non structurées grâce à des milliers de machines capables de les traiter. Définition
  • 9.
    Les caractéristiques duBig Data Volume Variété Vitesse
  • 10.
    Base de DonnéesNOSQL implémentent des systèmes de stockage considérés comme plus performants que le traditionnel SQL pour l'analyse de données en masse (orienté clé/valeur, document, colonne ou graphe). Cloud Computing le Big Data exige une capacité matérielle hors du commun, que soit pour le stockage comme pour les ressources processeurs nécessaires au traitement. Le Cloud est la pour cela. Les principales technologies de Big Data
  • 11.
    Les infrastructures de serveurs pourdistribuer les traitements , sur des dizaines, centaines, voire milliers de nœuds. C'est ce qu'on appelle le traitement massivement parallèle Map Reduce Est un modèle de programmation conçu spécifiquement pour lire, traiter et écrire des volumes de données très importants.
  • 12.
    ›La capacité destockage des disques durs augmente mais le temps de lecture croît également, ›Il devient alors nécessaire de paralléliser les traitements en stockant sur plusieurs unités de disques durs.
  • 13.
  • 14.
    › Apache Hadoop(High-availability distributed object-oriented platform) est un système distribué qui répond à ces problématiques, › Hadoop est capable de stocker et traiter de manière efficace un grand nombre de donnés, en reliant plusieurs serveurs.
  • 15.
    yahoo utilise Hadoop pour gérerson système de contrôle des spams. Il analyse environ 20,5 milliards de Hadoop est la base de Facebook Messaging, et de même, il est utilisé pour gérer les messages envoyés à partir de PC ou téléphone mobile. Moteur de recommandatio n de produits (ex : Amazon, Netflix). Domaines d’utilisation du Hadoop
  • 16.
    › Hadoop Distributed File System(HDFS) Le système de gestion de fichiers distribués permet de stocker les données sur les machines du cluster. › Hadoop Common Contient les bibliothèques et les utilitaires nécessaires aux autres modules Hadoop › Hadoop YARN Une plate-forme chargée de la gestion des ressources informatiques du clusters Composition Hadoop
  • 17.
    ★ HDFS estdéveloppé pour supporter les applications avec de grands volumes de données, comme les fichiers individuels dont la quantité peut se compter en teraoctets. ★ HDFS utilise des tailles de blocs largement supérieures à ceux des systèmes classiques (la taille est fixée à 64 Mo. Il est toutefois possible de monter à 128 Mo, 256 Mo, 512 Mo voire 1 Go) Hadoop Distributed FileSystem (HDFS)
  • 18.
    ★ Par défaut,les données chargée dans un cluster Hadoop sont stockées en trois exemplaires, sur des nœuds différents ★ chaque nœud d'un cluster correspond à un sous-ensemble du volume global de données du cluster. Pour augmenter ce volume global, il suffira d'ajouter de nouveaux nœuds
  • 19.
    › Un Namenodeest un service central (généralement appelé aussi maître) qui s'occupe de gérer l'état du système de fichiers, › Association entre fichiers et blocs de données, › Association entre blocs et emplacement sur les DataNodes, › Moteur de réplication des blocs. HDFS (Namenode)
  • 20.
    › Le Namenodedans l'architecture Hadoop est un point unique de défaillance (Single Point of Failure en anglais). Si ce service est arrêté, il n'y a pas moyen de pouvoir extraire les blocs d'un fichier donné, › Son fonctionnement est relativement simple puisque le Namenode secondaire vérifie périodiquement l'état du Namenode principal et copier les métadonnées, › Si le Namenode principal est indisponible, le Namenode secondaire prend sa place. HDFS (Secondary Namenode)
  • 21.
    › Est unServeur de Bloc permet: -Stocker les données sur le système de fichier, -Stocker les métadonnées des blocs, -Fournir les métadonnées et les données aux clients. › Les Datanodes sont sous les ordres du Namenode et sont surnommés les Workers. HDFS (DataNode)
  • 22.
  • 23.
    › MapReduce estune stratégie de parallélisation et lorsqu’on parle de MapReduce dans Hadoop, il s’agit de son implémentation. › Map : est la fonction qui permet de découper les données en plusieurs pièces. › Reduce : est la fonction permet d’assembler tous ces résultats en un résultat final. Map Reduce
  • 24.
  • 25.
  • 26.
    HBase est unebase NoSQL distribuée orienté colonne, horizontalement scalable et tolérante aux pannes où la charge de travail en terme de mémoire et de calcul (CPU) ainsi que le stockage est distribué sur toutes les machines du cluster HBase. HBase la base NoSQL de Hadoop
  • 27.
    HBase est inspiréedes publications de Google sur BigTable. Comme BigTable, elle est une base de données orientée colonnes. Basées sur une architecture maître/esclave, les bases de données de ce type sont capables de gérer d’énormes quantités d’informations (plusieurs milliards de lignes par table).
  • 28.
    Table : dansHBase les données sont organisées dans des tables. Row : dans chaque table les données sont organisées dans des ligne. Une lignes est identifiée par une clé unique (RowKey). Column Family : Les données au sein d’une ligne sont regroupées par column family. Le modèle de données
  • 29.
    Column qualifier :L’accès aux données au sein d’une column family se fait via le column qualifier ou column. Ce dernier n’est pas spécifié à la création de la table mais plus tôt à l’insertion de la donnée. Cell : La combinaison du RowKey, de la Column Family ainsi que la Column qualifier identifie d’une manière unique une cellule.
  • 30.
  • 31.
    ★ Chief DataOfficer (CDO) : Il est le Directeur de la data ,Le salaire annuel brut, avec 10-15 années d’expérience, est aux alentours de 120 000 euros, ★ Business Intelligence Manager :Son travail consiste à faciliter les prises de décision, ★ Data Scientist : Il est responsable de la collecte, du traitement, de l’évaluation et de l’analyse des données massives, ★ Le Data Miner :le Sherlock Holmes de la data. Métiers Créés par le Big Data
  • 32.
  • 33.
    48,6 milliards dedollars seront dépensés dans le Big Data en 2019
  • 34.
  • 35.
    Hadoop n’est pasla solution que l’on va sortir à tout bout de champ. Le but est de manipuler de très gros volumes de données. C’est clairement un outil qui va devenir de plus en plus utile avec l’explosion des données récoltées par les objets connectées ou toutes les traces que nous laissons sur Internet.
  • 36.
  • 37.
    ✓ https://fr.slideshare.net/hugfrance/introduction-hdfs ✓ http://www.journaldunet.com/developpeur/outils/mapreduce.shtml ✓http://mbaron.developpez.com/tutoriels/bigdata/hadoop/introduction-hdfs-map-reduce/ #LIII-A ✓ https://www.france-science.org/Hadoop-une-technologie-en-plein.html ✓ http://www.lemagit.fr/definition/Hadoop-Distributed-File-System-HDFS ✓ https://www.slideshare.net/narangv43/seminar-presentation-hadoop ✓ http://substance.etsmtl.ca/hadoop-larchitecte-du-big-data/ ✓ https://blog.groupe-sii.com/presentation-hadoop-distributed-file-system ✓ https://www.lcl.com/guides-pratiques/zooms-economiques/big-data-banque.jsp Les réferences