2. 2
I. Introduction
• Pourquoi Big Data?
• Historique
• Les fournisseurs du Big Data (Hortonworks,
Cloudera, Microsoft HDInsight, MapR,…)
II. Les composantes principales de Hadoop
• L'architecture Hadoop
• HDFS
• MapReduce
• YARN
• MySQL vs MongoDB
• Hive
• Autres……
III. Planifier son cluster Hadoop
• Choisir le bon matériel
• Réseau
• Atelier 1 : Mise en place d'une architecture
Hadoop
• Atelier 2 : Manipuler les fichiers de
configuration
IV. Gestion de Clusters
• Stocker les données dans HDFS
• Le Namenode et le Datanode
• Commandes HDFS
• Atelier 3 : Rajouter et retirer des « Cluster Nodes »
• Atelier 4 : Optimiser un Cluster
V. Manipuler les données
• Manipuler les données avec différents formats de
fichiers
• Créer des bases de données et des tables Hive
• Analyser les données avec Pig (script)
• Transformer les ensembles de données avec Pig et
Hive
• Traitement parallèle avec Impala
• Réduire le temps d'accès aux données avec Shark
• Atelier 5 : Import d’un CSV et manipulation via Hive
• Atelier 6 : Analyser les données avec Pig
• Atelier 7 : Activer Impala et Shark pour des
requêtes plus rapides
Table de matière
3. 3
1.1. Pourquoi Big Data?
1 : Introduction
2 : Les composantes principales de Hadoop
3 : Les fournisseurs du Big Data
4 : Planifier son cluster Hadoop
5 : Gestion de Clusters
6 : Manipuler les données
17. 17
Big Data Source : Open Data
INTRODUCTION
DATA
BIG DATA
https://fr.wikipedia.org/wiki/Open_data
L'ouverture des données (open data) représente à la fois un mouvement, une
philosophie d'accès à l'information et une pratique de publication de données
librement accessibles et exploitables.
18. 18
Big Data Source : Open Data
https://fr.wikipedia.org/wiki/Open_data
INTRODUCTION
DATA
BIG DATA
24. 24
Big Data (éthique, déontologique et sociétal)
INTRODUCTION
DATA
BIG DATA
Concept
Donnée
Analyse et
Innovation
éthique,
déontologique
et sociétal
Valeur
Et prediction
25. 25
Big Data (Pour quel domaine)
INTRODUCTION
DATA
BIG DATA
Partout
Finance
Gestion de stock
SanteEnergie
26. 26
Big Data (Pour quel domaine)
INTRODUCTION
DATA
BIG DATA
5 exemples concrets d’application du Big Data
http://www.data-business.fr/5-exemples-concrets-dapplication-du-big-data/
1. Le Big Data prédit les conflits mondiaux
L’outil GDELT (Global Database of Events, Languages and Tones), développé par l’université de Georgetown et accessible
de manière open source, compile toutes les actualités (communiqués de presse, articles, discours…) parues depuis 1979.
Il applique ensuite des techniques d’analyse sémantique et des algorithmes auto-apprenants pour faciliter la compréhension
des événements récents et des principes de cause à effet pour arriver à prédire les conflits mondiaux.
2. Le Big Data aide la recherche contre le cancer
Project Data Sphere met à disposition de tous des données de tests cliniques passés pour permettre à chacun de conduire ses
propres analyses, et, dans l’esprit du Crowd-Innovation, d’améliorer les méthodes ou de découvrir des corrélations encore
inconnues.
3. Le Big Data nous aide à comprendre le monde
L’entreprise Kaggle, qui met à disposition sa communauté de 150 000 data-scientists pour aider les entreprises à résoudre
des défis liés à l’analyse de données, vient de lancer un concours visant à définir un algorithme capable de comprendre les
facteurs qui influencent la création d’un boson de Higgs lors de la collision de deux atomes. Le projet est mandaté par le
CERN et a été élaboré par deux chercheurs du CNRS.
4. Le Big Data permet de gérer les catastrophes naturelles
En utilisant des outils de tracking, d’analyse sémantique et de visualisation en temps réel, l’Organisation Mondiale de la
Migration a pu assister les forces locales en dégageant les urgences sanitaires, la localisation des ressources clés et en
optimisant l’allocation des ressources sur le terrain lors du typhon qui a frappé les Philippines en 2013
5. Le Big Data aide à éradiquer les épidémies
Des scientifiques de l’université de Bringhma Youns essaient de simuler la localisation des mouches tsé-tsé dans le but
d’aider à contrôler la propagation d’épidémises. De la même manière, la police de Chicago utilise le Big Data et la
visualisation de données pour contrôler les populations de rats dans la ville.
27. 27
Big Data (Pour quel domaine)
INTRODUCTION
DATA
BIG DATA
BIG DATA. Neuf jours avant que la
propagation d'Ebola soit officiellement
déclarée par l'OMS le 23 mars comme
étant une épidémie, un groupe de
chercheurs et de spécialistes informatiques
à Boston avait déjà remarqué la diffusion
du virus de la fièvre hémorragique en
Guinée.
http://www.sciencesetavenir.fr/sante/les-big-data-nouvel-outil-contre-les-
epidemies-comme-ebola_28006
Le Big Data réconcilie « l’assuré et
son assureur »
« pay how you drive », c'est-à-dire
l'utilisation de la télématique pour
moduler la prime en fonction du
comportement au volant, débarque à
peine en France et n'a pas vraiment
décollé aux Etat-Unis.
http://www.lebigdata.fr/business/sante
28. 28
1.2. Historique?
1 : Introduction
2 : Les composantes principales de Hadoop
3 : Les fournisseurs du Big Data
4 : Planifier son cluster Hadoop
5 : Gestion de Clusters
6 : Manipuler les données
31. 31
Historique des Technologies Big Data
INTRODUCTION
DATA
BIG DATA
Google Nutch Project
Haut Disponibilité ??????
Réplication ????
Nutch est une initiative visant à construire un moteur de recherche open source. Il
utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche,
le robot de collecte a été créé spécifiquement pour ce projet.
L'architecture de Nutch est hautement modulaire et permet à des développeurs de créer
des plugins pour différentes phases du processus : récupération des données, analyse des
documents, recherche, etc.
Doug Cutting est l'initiateur et le coordinateur de ce projet.
Il est entièrement développé en langage Java, mais les données qu'il manipule sont dans
un format de données indépendant de tout langage de programmation. En juin 2003 a été
présenté une version opérationnelle d'une démonstration de Nutch sur une base regroupant
100 millions de documents.
36. 36
1.3. Les fournisseurs du Big Data
1 : Introduction
2 : Les composantes principales de Hadoop
3 : Les fournisseurs du Big Data
4 : Planifier son cluster Hadoop
5 : Gestion de Clusters
6 : Manipuler les données