ESSALIFI Mohamed Faiçal
mf.essalifi@gmail.com
1
by Alexey Evmenkov
2
I. Introduction
• Pourquoi Big Data?
• Historique
• Les fournisseurs du Big Data (Hortonworks,
Cloudera, Microsoft HDInsight, MapR,…)
II. Les composantes principales de Hadoop
• L'architecture Hadoop
• HDFS
• MapReduce
• YARN
• MySQL vs MongoDB
• Hive
• Autres……
III. Planifier son cluster Hadoop
• Choisir le bon matériel
• Réseau
• Atelier 1 : Mise en place d'une architecture
Hadoop
• Atelier 2 : Manipuler les fichiers de
configuration
IV. Gestion de Clusters
• Stocker les données dans HDFS
• Le Namenode et le Datanode
• Commandes HDFS
• Atelier 3 : Rajouter et retirer des « Cluster Nodes »
• Atelier 4 : Optimiser un Cluster
V. Manipuler les données
• Manipuler les données avec différents formats de
fichiers
• Créer des bases de données et des tables Hive
• Analyser les données avec Pig (script)
• Transformer les ensembles de données avec Pig et
Hive
• Traitement parallèle avec Impala
• Réduire le temps d'accès aux données avec Shark
• Atelier 5 : Import d’un CSV et manipulation via Hive
• Atelier 6 : Analyser les données avec Pig
• Atelier 7 : Activer Impala et Shark pour des
requêtes plus rapides
Table de matière
3
1.1. Pourquoi Big Data?
1 : Introduction
2 : Les composantes principales de Hadoop
3 : Les fournisseurs du Big Data
4 : Planifier son cluster Hadoop
5 : Gestion de Clusters
6 : Manipuler les données
4
Introduction
5
C’est quoi une transformation digitale
Votre Site Web E-Commerce Réseaux sociauxInteraction
INTRODUCTION
DATA
BIG DATA
6
C’est quoi une transformation digitale
Votre Site Web E-Commerce Réseaux sociauxInteraction
INTRODUCTION
DATA
BIG DATA
7
C’est quoi une transformation digitale
INTRODUCTION
DATA
BIG DATA
Transformation digitale
8
Donnée
C’est quoi une transformation digitale
INTRODUCTION
DATA
BIG DATA
9
Donnée
C’est quoi une transformation digitale
INTRODUCTION
DATA
BIG DATA
10
C’est quoi une transformation digitale
INTRODUCTION
DATA
BIG DATA
Prediction
11
Les données le nouveau pétrole
INTRODUCTION
DATA
BIG DATA
12
Big Data analysis of the 2012 US presidential elections
13
Big Data analysis of the 2012 US presidential elections
14
Les données le nouveau pétrole
INTRODUCTION
DATA
BIG DATA
15
Les données le nouveau pétrole
INTRODUCTION
DATA
BIG DATA
Où se trouve les sources de ce nouveau pétrole?
16
Big Data Source : Internet
INTRODUCTION
DATA
BIG DATA
17
Big Data Source : Open Data
INTRODUCTION
DATA
BIG DATA
https://fr.wikipedia.org/wiki/Open_data
L'ouverture des données (open data) représente à la fois un mouvement, une
philosophie d'accès à l'information et une pratique de publication de données
librement accessibles et exploitables.
18
Big Data Source : Open Data
https://fr.wikipedia.org/wiki/Open_data
INTRODUCTION
DATA
BIG DATA
19
Big Data Source : Open Data
INTRODUCTION
DATA
BIG DATA
20
Big Data Source : Open Data
INTRODUCTION
DATA
BIG DATA
21
Pourquoi le Big Data?
INTRODUCTION
DATA
BIG DATA
22
Pourquoi le Big Data?
INTRODUCTION
DATA
BIG DATA
23
Big Data
INTRODUCTION
DATA
BIG DATA
Concept
Donnée
Analyse et
Innovation
?
Valeur
Et prediction
24
Big Data (éthique, déontologique et sociétal)
INTRODUCTION
DATA
BIG DATA
Concept
Donnée
Analyse et
Innovation
éthique,
déontologique
et sociétal
Valeur
Et prediction
25
Big Data (Pour quel domaine)
INTRODUCTION
DATA
BIG DATA
Partout
Finance
Gestion de stock
SanteEnergie
26
Big Data (Pour quel domaine)
INTRODUCTION
DATA
BIG DATA
5 exemples concrets d’application du Big Data
http://www.data-business.fr/5-exemples-concrets-dapplication-du-big-data/
1. Le Big Data prédit les conflits mondiaux
L’outil GDELT (Global Database of Events, Languages and Tones), développé par l’université de Georgetown et accessible
de manière open source, compile toutes les actualités (communiqués de presse, articles, discours…) parues depuis 1979.
Il applique ensuite des techniques d’analyse sémantique et des algorithmes auto-apprenants pour faciliter la compréhension
des événements récents et des principes de cause à effet pour arriver à prédire les conflits mondiaux.
2. Le Big Data aide la recherche contre le cancer
Project Data Sphere met à disposition de tous des données de tests cliniques passés pour permettre à chacun de conduire ses
propres analyses, et, dans l’esprit du Crowd-Innovation, d’améliorer les méthodes ou de découvrir des corrélations encore
inconnues.
3. Le Big Data nous aide à comprendre le monde
L’entreprise Kaggle, qui met à disposition sa communauté de 150 000 data-scientists pour aider les entreprises à résoudre
des défis liés à l’analyse de données, vient de lancer un concours visant à définir un algorithme capable de comprendre les
facteurs qui influencent la création d’un boson de Higgs lors de la collision de deux atomes. Le projet est mandaté par le
CERN et a été élaboré par deux chercheurs du CNRS.
4. Le Big Data permet de gérer les catastrophes naturelles
En utilisant des outils de tracking, d’analyse sémantique et de visualisation en temps réel, l’Organisation Mondiale de la
Migration a pu assister les forces locales en dégageant les urgences sanitaires, la localisation des ressources clés et en
optimisant l’allocation des ressources sur le terrain lors du typhon qui a frappé les Philippines en 2013
5. Le Big Data aide à éradiquer les épidémies
Des scientifiques de l’université de Bringhma Youns essaient de simuler la localisation des mouches tsé-tsé dans le but
d’aider à contrôler la propagation d’épidémises. De la même manière, la police de Chicago utilise le Big Data et la
visualisation de données pour contrôler les populations de rats dans la ville.
27
Big Data (Pour quel domaine)
INTRODUCTION
DATA
BIG DATA
BIG DATA. Neuf jours avant que la
propagation d'Ebola soit officiellement
déclarée par l'OMS le 23 mars comme
étant une épidémie, un groupe de
chercheurs et de spécialistes informatiques
à Boston avait déjà remarqué la diffusion
du virus de la fièvre hémorragique en
Guinée.
http://www.sciencesetavenir.fr/sante/les-big-data-nouvel-outil-contre-les-
epidemies-comme-ebola_28006
Le Big Data réconcilie « l’assuré et
son assureur »
« pay how you drive », c'est-à-dire
l'utilisation de la télématique pour
moduler la prime en fonction du
comportement au volant, débarque à
peine en France et n'a pas vraiment
décollé aux Etat-Unis.
http://www.lebigdata.fr/business/sante
28
1.2. Historique?
1 : Introduction
2 : Les composantes principales de Hadoop
3 : Les fournisseurs du Big Data
4 : Planifier son cluster Hadoop
5 : Gestion de Clusters
6 : Manipuler les données
29
Historique des Technologies Big Data
INTRODUCTION
DATA
BIG DATA
30
Historique des Technologies Big Data
INTRODUCTION
DATA
BIG DATA
Cluster partagé
31
Historique des Technologies Big Data
INTRODUCTION
DATA
BIG DATA
Google Nutch Project
Haut Disponibilité ??????
Réplication ????
Nutch est une initiative visant à construire un moteur de recherche open source. Il
utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche,
le robot de collecte a été créé spécifiquement pour ce projet.
L'architecture de Nutch est hautement modulaire et permet à des développeurs de créer
des plugins pour différentes phases du processus : récupération des données, analyse des
documents, recherche, etc.
Doug Cutting est l'initiateur et le coordinateur de ce projet.
Il est entièrement développé en langage Java, mais les données qu'il manipule sont dans
un format de données indépendant de tout langage de programmation. En juin 2003 a été
présenté une version opérationnelle d'une démonstration de Nutch sur une base regroupant
100 millions de documents.
32
Historique des Technologies Big Data
INTRODUCTION
DATA
BIG DATA
Google GFS
Base sur la réplication
33
Historique des Technologies Big Data
INTRODUCTION
DATA
BIG DATA
Google Map Reduce
Dispatching de charge
34
Historique des Technologies Big Data
INTRODUCTION
DATA
BIG DATA
Yahoo! Hadoop
35
Historique des Technologies Big Data
INTRODUCTION
DATA
BIG DATA
36
1.3. Les fournisseurs du Big Data
1 : Introduction
2 : Les composantes principales de Hadoop
3 : Les fournisseurs du Big Data
4 : Planifier son cluster Hadoop
5 : Gestion de Clusters
6 : Manipuler les données
37
Solution Big Data
INTRODUCTION
DATA
BIG DATA
38
Hortonworks
Cloudera
Microsoft HDInsight
Les fournisseurs du Big Data
39
HortonWorks vs Cloudera
40
Q and A
ESSALIFI Mohamed Faiçal
Mf.essalifi@gmail.com 40

Cours Big Data Part I

  • 1.
  • 2.
    2 I. Introduction • PourquoiBig Data? • Historique • Les fournisseurs du Big Data (Hortonworks, Cloudera, Microsoft HDInsight, MapR,…) II. Les composantes principales de Hadoop • L'architecture Hadoop • HDFS • MapReduce • YARN • MySQL vs MongoDB • Hive • Autres…… III. Planifier son cluster Hadoop • Choisir le bon matériel • Réseau • Atelier 1 : Mise en place d'une architecture Hadoop • Atelier 2 : Manipuler les fichiers de configuration IV. Gestion de Clusters • Stocker les données dans HDFS • Le Namenode et le Datanode • Commandes HDFS • Atelier 3 : Rajouter et retirer des « Cluster Nodes » • Atelier 4 : Optimiser un Cluster V. Manipuler les données • Manipuler les données avec différents formats de fichiers • Créer des bases de données et des tables Hive • Analyser les données avec Pig (script) • Transformer les ensembles de données avec Pig et Hive • Traitement parallèle avec Impala • Réduire le temps d'accès aux données avec Shark • Atelier 5 : Import d’un CSV et manipulation via Hive • Atelier 6 : Analyser les données avec Pig • Atelier 7 : Activer Impala et Shark pour des requêtes plus rapides Table de matière
  • 3.
    3 1.1. Pourquoi BigData? 1 : Introduction 2 : Les composantes principales de Hadoop 3 : Les fournisseurs du Big Data 4 : Planifier son cluster Hadoop 5 : Gestion de Clusters 6 : Manipuler les données
  • 4.
  • 5.
    5 C’est quoi unetransformation digitale Votre Site Web E-Commerce Réseaux sociauxInteraction INTRODUCTION DATA BIG DATA
  • 6.
    6 C’est quoi unetransformation digitale Votre Site Web E-Commerce Réseaux sociauxInteraction INTRODUCTION DATA BIG DATA
  • 7.
    7 C’est quoi unetransformation digitale INTRODUCTION DATA BIG DATA Transformation digitale
  • 8.
    8 Donnée C’est quoi unetransformation digitale INTRODUCTION DATA BIG DATA
  • 9.
    9 Donnée C’est quoi unetransformation digitale INTRODUCTION DATA BIG DATA
  • 10.
    10 C’est quoi unetransformation digitale INTRODUCTION DATA BIG DATA Prediction
  • 11.
    11 Les données lenouveau pétrole INTRODUCTION DATA BIG DATA
  • 12.
    12 Big Data analysisof the 2012 US presidential elections
  • 13.
    13 Big Data analysisof the 2012 US presidential elections
  • 14.
    14 Les données lenouveau pétrole INTRODUCTION DATA BIG DATA
  • 15.
    15 Les données lenouveau pétrole INTRODUCTION DATA BIG DATA Où se trouve les sources de ce nouveau pétrole?
  • 16.
    16 Big Data Source: Internet INTRODUCTION DATA BIG DATA
  • 17.
    17 Big Data Source: Open Data INTRODUCTION DATA BIG DATA https://fr.wikipedia.org/wiki/Open_data L'ouverture des données (open data) représente à la fois un mouvement, une philosophie d'accès à l'information et une pratique de publication de données librement accessibles et exploitables.
  • 18.
    18 Big Data Source: Open Data https://fr.wikipedia.org/wiki/Open_data INTRODUCTION DATA BIG DATA
  • 19.
    19 Big Data Source: Open Data INTRODUCTION DATA BIG DATA
  • 20.
    20 Big Data Source: Open Data INTRODUCTION DATA BIG DATA
  • 21.
    21 Pourquoi le BigData? INTRODUCTION DATA BIG DATA
  • 22.
    22 Pourquoi le BigData? INTRODUCTION DATA BIG DATA
  • 23.
  • 24.
    24 Big Data (éthique,déontologique et sociétal) INTRODUCTION DATA BIG DATA Concept Donnée Analyse et Innovation éthique, déontologique et sociétal Valeur Et prediction
  • 25.
    25 Big Data (Pourquel domaine) INTRODUCTION DATA BIG DATA Partout Finance Gestion de stock SanteEnergie
  • 26.
    26 Big Data (Pourquel domaine) INTRODUCTION DATA BIG DATA 5 exemples concrets d’application du Big Data http://www.data-business.fr/5-exemples-concrets-dapplication-du-big-data/ 1. Le Big Data prédit les conflits mondiaux L’outil GDELT (Global Database of Events, Languages and Tones), développé par l’université de Georgetown et accessible de manière open source, compile toutes les actualités (communiqués de presse, articles, discours…) parues depuis 1979. Il applique ensuite des techniques d’analyse sémantique et des algorithmes auto-apprenants pour faciliter la compréhension des événements récents et des principes de cause à effet pour arriver à prédire les conflits mondiaux. 2. Le Big Data aide la recherche contre le cancer Project Data Sphere met à disposition de tous des données de tests cliniques passés pour permettre à chacun de conduire ses propres analyses, et, dans l’esprit du Crowd-Innovation, d’améliorer les méthodes ou de découvrir des corrélations encore inconnues. 3. Le Big Data nous aide à comprendre le monde L’entreprise Kaggle, qui met à disposition sa communauté de 150 000 data-scientists pour aider les entreprises à résoudre des défis liés à l’analyse de données, vient de lancer un concours visant à définir un algorithme capable de comprendre les facteurs qui influencent la création d’un boson de Higgs lors de la collision de deux atomes. Le projet est mandaté par le CERN et a été élaboré par deux chercheurs du CNRS. 4. Le Big Data permet de gérer les catastrophes naturelles En utilisant des outils de tracking, d’analyse sémantique et de visualisation en temps réel, l’Organisation Mondiale de la Migration a pu assister les forces locales en dégageant les urgences sanitaires, la localisation des ressources clés et en optimisant l’allocation des ressources sur le terrain lors du typhon qui a frappé les Philippines en 2013 5. Le Big Data aide à éradiquer les épidémies Des scientifiques de l’université de Bringhma Youns essaient de simuler la localisation des mouches tsé-tsé dans le but d’aider à contrôler la propagation d’épidémises. De la même manière, la police de Chicago utilise le Big Data et la visualisation de données pour contrôler les populations de rats dans la ville.
  • 27.
    27 Big Data (Pourquel domaine) INTRODUCTION DATA BIG DATA BIG DATA. Neuf jours avant que la propagation d'Ebola soit officiellement déclarée par l'OMS le 23 mars comme étant une épidémie, un groupe de chercheurs et de spécialistes informatiques à Boston avait déjà remarqué la diffusion du virus de la fièvre hémorragique en Guinée. http://www.sciencesetavenir.fr/sante/les-big-data-nouvel-outil-contre-les- epidemies-comme-ebola_28006 Le Big Data réconcilie « l’assuré et son assureur » « pay how you drive », c'est-à-dire l'utilisation de la télématique pour moduler la prime en fonction du comportement au volant, débarque à peine en France et n'a pas vraiment décollé aux Etat-Unis. http://www.lebigdata.fr/business/sante
  • 28.
    28 1.2. Historique? 1 :Introduction 2 : Les composantes principales de Hadoop 3 : Les fournisseurs du Big Data 4 : Planifier son cluster Hadoop 5 : Gestion de Clusters 6 : Manipuler les données
  • 29.
    29 Historique des TechnologiesBig Data INTRODUCTION DATA BIG DATA
  • 30.
    30 Historique des TechnologiesBig Data INTRODUCTION DATA BIG DATA Cluster partagé
  • 31.
    31 Historique des TechnologiesBig Data INTRODUCTION DATA BIG DATA Google Nutch Project Haut Disponibilité ?????? Réplication ???? Nutch est une initiative visant à construire un moteur de recherche open source. Il utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche, le robot de collecte a été créé spécifiquement pour ce projet. L'architecture de Nutch est hautement modulaire et permet à des développeurs de créer des plugins pour différentes phases du processus : récupération des données, analyse des documents, recherche, etc. Doug Cutting est l'initiateur et le coordinateur de ce projet. Il est entièrement développé en langage Java, mais les données qu'il manipule sont dans un format de données indépendant de tout langage de programmation. En juin 2003 a été présenté une version opérationnelle d'une démonstration de Nutch sur une base regroupant 100 millions de documents.
  • 32.
    32 Historique des TechnologiesBig Data INTRODUCTION DATA BIG DATA Google GFS Base sur la réplication
  • 33.
    33 Historique des TechnologiesBig Data INTRODUCTION DATA BIG DATA Google Map Reduce Dispatching de charge
  • 34.
    34 Historique des TechnologiesBig Data INTRODUCTION DATA BIG DATA Yahoo! Hadoop
  • 35.
    35 Historique des TechnologiesBig Data INTRODUCTION DATA BIG DATA
  • 36.
    36 1.3. Les fournisseursdu Big Data 1 : Introduction 2 : Les composantes principales de Hadoop 3 : Les fournisseurs du Big Data 4 : Planifier son cluster Hadoop 5 : Gestion de Clusters 6 : Manipuler les données
  • 37.
  • 38.
  • 39.
  • 40.
    40 Q and A ESSALIFIMohamed Faiçal Mf.essalifi@gmail.com 40