Distributed programing (hadoop && java) version finale.pptx

Distributed
programing
(HADOOP && JAVA)
Elaboré par :
Maaroufi Mohamed Amine
Chemkhi Mohamed Rebai
Ahmed

Les Problèmes du Big Data
Les Solutions du Big Data
Hadoop
Motivation pour le Big Data

Depuis l'aube de la civilisation jusqu'en 2003, l'homme a
généré 5 exabytes de données. Maintenant, nous
produisons 5 exabytes de données tous les deux jours .. et
le rythme accélère.
Eric Schmidit,
Executive Chairman, Google
“ “

L’explosion quantitative des données
numériques a obligé les chercheurs à
trouver de nouvelles manières de voir et
d’analyser le monde.

Il s’agit de découvrir de nouveaux ordres
de grandeur concernant la capture, la
recherche, le partage, le stockage, l’analyse
et la présentation de données.
c'est le principe du big data qui
révolutionne peu à peu notre quotidien.

Le Big Data est un concept global que l’on peut
définir comme un ensemble d’outils et
d’algorithmes qui permettent de stocker,
visualiser et analyser des quantités très
importantes de données non structurées grâce à
des milliers de machines capables de les traiter.
Définition

Les caractéristiques du Big Data
Volume Variété Vitesse

Base de Données NOSQL
implémentent des
systèmes de stockage
considérés comme plus
performants que le
traditionnel SQL pour
l'analyse de données en
masse (orienté clé/valeur,
document, colonne ou
graphe).
Cloud Computing
le Big Data exige une
capacité matérielle
hors du commun, que
soit pour le stockage
comme pour les
ressources
processeurs
nécessaires au
traitement.
Le Cloud est la pour
cela.
Les principales technologies de Big Data

Les infrastructures
de serveurs
pour distribuer les
traitements , sur des
dizaines, centaines,
voire milliers de
nœuds. C'est ce qu'on
appelle le traitement
massivement parallèle
Map Reduce
Est un modèle de
programmation
conçu
spécifiquement pour
lire, traiter et écrire
des volumes de
données très
importants.

›La capacité de stockage des disques
durs augmente mais le temps de
lecture croît également,
›Il devient alors nécessaire de
paralléliser les traitements en
stockant sur plusieurs unités de
disques durs.

› Apache Hadoop (High-availability distributed
object-oriented platform) est un système
distribué qui répond à ces problématiques,
› Hadoop est capable de stocker et traiter de
manière efficace un grand nombre de
donnés, en reliant plusieurs serveurs.

yahoo utilise
Hadoop pour
gérer son
système de
contrôle des
spams. Il analyse
environ 20,5
milliards de
Hadoop est la
base de Facebook
Messaging, et de
même, il est
utilisé pour gérer
les messages
envoyés à partir
de PC ou
téléphone mobile.
Moteur de
recommandatio
n de produits
(ex : Amazon,
Netflix).
Domaines d’utilisation du Hadoop

› Hadoop
Distributed File
System (HDFS)
Le système de
gestion de fichiers
distribués permet
de stocker les
données sur les
machines du
cluster.
› Hadoop
Common
Contient les
bibliothèques
et les utilitaires
nécessaires
aux autres
modules
Hadoop
› Hadoop
YARN
Une
plate-forme
chargée de la
gestion des
ressources
informatiques
du clusters
Composition Hadoop

★ HDFS est développé pour
supporter les applications avec
de grands volumes de données,
comme les fichiers individuels
dont la quantité peut se compter
en teraoctets.
★ HDFS utilise des tailles de blocs largement
supérieures à ceux des systèmes classiques
(la taille est fixée à 64 Mo. Il est toutefois
possible de monter à 128 Mo, 256 Mo, 512 Mo
voire 1 Go)
Hadoop Distributed FileSystem (HDFS)

★ Par défaut, les données chargée
dans un cluster Hadoop sont
stockées en trois exemplaires, sur
des nœuds différents
★ chaque nœud d'un cluster correspond à
un sous-ensemble du volume global de
données du cluster. Pour augmenter ce
volume global, il suffira d'ajouter de
nouveaux nœuds

› Un Namenode est un service central
(généralement appelé aussi maître) qui
s'occupe de gérer l'état du système de fichiers,
› Association entre fichiers et blocs de données,
› Association entre blocs et emplacement sur
les DataNodes,
› Moteur de réplication des blocs.
HDFS (Namenode)

› Le Namenode dans l'architecture Hadoop est un point unique
de défaillance (Single Point of Failure en anglais). Si ce
service est arrêté, il n'y a pas moyen de pouvoir extraire les
blocs d'un fichier donné,
› Son fonctionnement est relativement simple puisque le
Namenode secondaire vérifie périodiquement l'état du
Namenode principal et copier les métadonnées,
› Si le Namenode principal est indisponible, le Namenode
secondaire prend sa place.
HDFS (Secondary Namenode)

› Est un Serveur de Bloc permet:
-Stocker les données sur le système de fichier,
-Stocker les métadonnées des blocs,
-Fournir les métadonnées et les données aux clients.
› Les Datanodes sont sous les ordres du Namenode et sont
surnommés les Workers.
HDFS (DataNode)

HDFS architecture
http://www.wingnity.com/blog/hadoop-hdfs-common-interview-questions-and-answers/

› MapReduce est une stratégie de parallélisation et
lorsqu’on parle de MapReduce dans Hadoop, il s’agit
de son implémentation.
› Map : est la fonction qui permet de
découper les données en plusieurs
pièces.
› Reduce : est la fonction permet
d’assembler tous ces résultats en un
résultat final.
Map Reduce

HBase est une base NoSQL distribuée orienté
colonne, horizontalement scalable et tolérante
aux pannes où la charge de travail en terme de
mémoire et de calcul (CPU) ainsi que le
stockage est distribué sur toutes les machines
du cluster HBase.
HBase la base NoSQL de Hadoop

HBase est inspirée des publications de
Google sur BigTable. Comme BigTable, elle est
une base de données orientée colonnes.
Basées sur une architecture maître/esclave,
les bases de données de ce type sont capables
de gérer d’énormes quantités d’informations
(plusieurs milliards de lignes par table).

Table : dans HBase les données sont
organisées dans des tables.
Row : dans chaque table les données sont
organisées dans des ligne. Une lignes est
identifiée par une clé unique (RowKey).
Column Family : Les données au sein d’une ligne
sont regroupées par column family.
Le modèle de données

Column qualifier : L’accès aux données au
sein d’une column family se fait via le
column qualifier ou column. Ce dernier n’est
pas spécifié à la création de la table mais
plus tôt à l’insertion de la donnée.
Cell : La combinaison du RowKey, de la
Column Family ainsi que la Column qualifier
identifie d’une manière unique une cellule.

★ Chief Data Officer (CDO) : Il est le Directeur de la data
,Le salaire annuel brut, avec 10-15 années
d’expérience, est aux alentours de 120 000 euros,
★ Business Intelligence Manager :Son travail consiste à
faciliter les prises de décision,
★ Data Scientist : Il est responsable de la collecte, du
traitement, de l’évaluation et de l’analyse des
données massives,
★ Le Data Miner :le Sherlock Holmes de la data.
Métiers Créés par le Big Data

40 ZetaOctet
Données numérique
crées dans le monde
en 2020

48,6 milliards de dollars
seront dépensés dans le
Big Data en 2019

Hadoop n’est pas la solution que l’on va
sortir à tout bout de champ. Le but est de
manipuler de très gros volumes de données.
C’est clairement un outil qui va devenir de
plus en plus utile avec l’explosion des
données récoltées par les objets
connectées ou toutes les traces que nous
laissons sur Internet.

✓ https://fr.slideshare.net/hugfrance/introduction-hdfs
✓ http://www.journaldunet.com/developpeur/outils/mapreduce.shtml
✓ http://mbaron.developpez.com/tutoriels/bigdata/hadoop/introduction-hdfs-map-reduce/
#LIII-A
✓ https://www.france-science.org/Hadoop-une-technologie-en-plein.html
✓ http://www.lemagit.fr/definition/Hadoop-Distributed-File-System-HDFS
✓ https://www.slideshare.net/narangv43/seminar-presentation-hadoop
✓ http://substance.etsmtl.ca/hadoop-larchitecte-du-big-data/
✓ https://blog.groupe-sii.com/presentation-hadoop-distributed-file-system
✓ https://www.lcl.com/guides-pratiques/zooms-economiques/big-data-banque.jsp
Les réferences

Distributed programing (hadoop &amp;&amp; java) version finale.pptx

Contenu connexe

Tendances

Similaire à Distributed programing (hadoop &amp;&amp; java) version finale.pptx

Plus de Ahmed rebai

Distributed programing (hadoop &amp;&amp; java) version finale.pptx

Distributed programing (hadoop && java) version finale.pptx

Similaire à Distributed programing (hadoop && java) version finale.pptx

Distributed programing (hadoop && java) version finale.pptx