chap1-big-data.pps pour comprendre le problème de big data

NB: Ce document doit être complété par les notes du cours
Big Data
Elaboré par Dr. Souheyl MALLAT
Souheyl.mallat@gmail.com
2024-2025

Plan
● Chapitre 1 : Introduction au Big Data
● Chapitre 2: BD Nosql: MongoDB-Réplication et Sharding, Redis
● Chapitre 3 : Hadoop, MapReduce et le Big Data
● Chapitre 4 : Traitement de données et requêtage:
Pig,
Hive,
spark,
Kafka,
Elasticsearch,
Kibana,
Nifi,
Zeppelin

Architecture d’ingestion de données
airports.csv
carriers.csv
plane-data.csv
Python
script
HDFS
path=/user/<prenom>/projet
Kafka NiFi
NiFi
Elasticsearch
index=<prenom>_pane-data
index=<prenom>_airports
index=<prenom>_carriers
Topic = <prenom>_projet

Apache Spark / Apache Zeppelin
Développer le code spark dans un notebook Zeppelin afin de répondre à ces questions :
● l'état (US state) qui a eu le plus de vols d'arrivée en 2005
● Nombre de vols par jour de la semaine (lundi,mardi,mercredi,jeudi,vendredi,samedi,dimanche) en 2005

Apache Hive
Créer les tables Hive et développer les requêtes HiveQL permettant de répondre à
ces questions :
● Quel aéroport a enregistré le plus de vols d’arrivée en 2003
● Top 5 des transporteurs avec le plus grand nombre d'annulations en 2003

Elasticsearch / Kibana
Créer un dashboard Kibana contenant les visualisations suivantes (en 2007):
● Metric
○ nombre total de vols
● Metric
○ nombre de vols annulés
● map :
○ nombre de vols par Etat (départ)
● vertical bar chart
○ nombre de vols par mois
● pie chart
○ nombre de vols par transporteur
(top5)
● vertical bar chart
○ les causes des annulations par an
● search (tableau)
○ affichant le détail des vols

Elasticsearch / Kibana
HDFS
path=/user/<prenom>/
path=/big_data_project/flights
Spark
(data
processing)
Elasticsearch
index=<prenom>_flights_insights
load write
Kibana
dashboard=<prenom>_flights_insights

3 Problématiques majeures pour les données massives
Volume 
Vélocité 
Variété
BIG DATA: Caractéristiques

Volume stockage
Vélocité -Traitement
Variétécollecte
BIG DATA: Caractéristiques

17
Les 5 V de Big Data
Question: Comment déterminer les données qui méritent d’être stockées? :
 Les données de Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales?
Volume
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
Le volume
 Le prix de stockage des données a beaucoup diminué ces 30 dernières années:
De $100,000 / Go (1980) à $0.10 / Go (2013)
 Les lieux de stockage fiables (comme des SAN: Storage Area Network) ou réseaux
de stockage peuvent être très coûteux !
Choisir de ne stocker que certaines données, jugées sensibles
Perte de données, pouvant être très utiles.
Problèmes:
▪ Comment stocker les données dans un endroit fiable, qui soit moins cher?
▪ Comment parcourir ces données et en extraire des informations facilement et rapidement?
Réponse: Aucune donnée n’est inutile.! Certaines n’ont juste pas encore servi!

18
 Des volumes qui relèvent du Big Data à partir du
moment où ces données ne peuvent plus être traitées
en un temps "raisonnables " ou "utiles« par des
systèmes constitués d’un seul nœud.
Le volume

20
Les 5 V de Big Data
Volume
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
La variété (Variety)
Variété
- Structurées
- Non structurées
- Probabilistes
 Pour un stockage dans des bases de données ou
dans des entrepôts de données, les données
doivent respecter un format prédéfini!
Mais!
 La plupart des données existantes sont non-structurées ou semi structurées,
 Les données sont sous plusieurs formats et types (fichiers xml, json, txt, base de
données relationnelle, etc),

Données structurées versus Données non structurées
La variété (Variety)

Données structurées: Exemple

Semi-structuré
Exemple: fichier XML

Données non structurées: Exemple

30
Pourquoi utiliser le Big
Data? Un exemple pour illustrer tout ça!
06:00 10:00
temps
Tableau de
bord
x
y
z

32
C’est quoi le Big Data ?
Les 5 V de Big Data
 La fréquence d’arrivée des données,
 La vitesse de traitement des données,
Volume
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
La vélocité /vitesse (Velocity)
« Au cœur du Time to Market »
Variété
- Structurées
- Non structurées
- Probabilistes
Vélocité
- Batch
- Temps réel
- Processus
- Flot de données
 Les données doivent être stockées à l’arrivée,
parfois même des Teraoctets par jour!
 Sinon, risque de les perdre!
 Les entreprises se trouvent de plus en plus au milieu d’un flux continuel
de données

Big Data
BIG DATA = V3 = VOLUME, VELOCITE, VARIETE – source Gartner
Volume : Dans les systèmes d’information en place dans les entreprises, les volumes de données traités
se mesurent en téraoctets. Le challenge immédiat de l’IT traditionnel est d’être en capacité de traiter des
Pétaoctets et bientôt des Exaoctets puis des Zettaoctets.
Vélocité : L’importance de l’immédiateté et de l’instantanéité pour recevoir ou émettre des
informations par chacun d’entre nous et pour toutes les activités, professionnelles ou personnelles, du
quotidien contraigne les organisations à améliorer leurs vitesses de réaction et d’anticipation.
L’information n’est plus statique, mais elle devient un facteur de changement dynamique
Variété : Texte, images, vidéos, quel que soit le format de l’information, les données, structurées ou
non structurées, requièrent un nouveau savoir-faire pour être assimilées puis analysées. L’exploitation
et le traitement de l’information aussi variée, tant par la forme que par le contenu, sont difficilement
réalisables en dehors du support initial.

Au-delà du relationnel ...
Le « big bang » data – commencé au début des années 2000 – a nécessité des
solutions différentes, comme des appliances des éditeurs (Oracle/Teradata …)
mais aussi des solutions NoSQL qui privilégient la haute disponibilité et la
simplicité au détriment de la cohérence
Nous allons maintenant parler du NoSQL, puis d’Hadoop qui essaye – grâce à un
écosystème de solutions sans cesse amélioré et grossi – de se positionner sur
toutes les facettes du Big Data et de devenir un « Data OS » open-
source.

Bases de données NOSQL
● Le terme NOSQL (Not Only SQL) a été popularisé début 2009 par Johan
Oskarsson (commiter Apache, software engineer chez Slack aujourd’hui)
● Les BD NoSQL ne respectent pas forcément les propriétés ACID (Atomicité,
Cohérence, Isolation, Durabilité) des BD relationnelles
● Les BD NoSQL n’ont donc pas vocation à remplacer les BD relationnelles
● Afin d’éviter les jointures, elles poussent la dénormalisation
● Caractéristiques des Bases de Données distribuées
○ Extensibilité (Scalability)
○ Sharding
○ Théorème du CAP

Extensibilité (Scalability)
Définition : L’extensibilité est la propriété d’un système, d’un réseau ou d’un
processus qui témoigne de sa capacité à gérer des charges de travail
importantes en toute souplesse ou à être agrandi sans difficultés.
Deux types:
● Extensibilité vertical (scale up)
● Etensibilité horizontale (scale out)

Sharding (partitionnement de données)
Un shard (partition) est une division logique d'une base de données en plusieurs
parties indépendantes. Cela permet d'obtenir une capacité de stockage
supérieure à la taille des disques durs locaux ou d'effectuer des requêtes en
parallèle sur plusieurs partitions.
2 types :
● Sharding Vertical
● Sharding Horizontal

Sharding (partitionnement de données)
Sharding Horizontal : Chaque serveur stocke un
sous ensemble des données (identifié par un
intervalle de clés) d’une même table
Sharding Vertical : Les serveurs stockent
différentes tables d’une base de données

Le théorème du CAP
Théorème de Eric Brewer (VP Infrastructure @Google) évoqué lorsque l’on parle de données massivement
distribuées :
● La cohérence
● La disponibilité (Availability)
● La tolérance au partitionnement (Partition Tolerance)
⇒ seulement deux de ces postulats peuvent être appliqués en même temps en environnement distribué
Dans le cas du NOSQL : privilégier la haute disponibilité grâce à de puissantes capacités de
partitionnement, au détriment de la cohérence des données

Classification des BD NOSQL
● Clé/valeur
○ Ex: Redis, Memcached
● Orientées colonne:
○ Ex: BigTable, HBase, Cassandra, HyperTable

Classification des BD NOSQL
● Orientées document:
○ Ex: CouchDB, MongoDB, Elasticsearch
● Orientées graphe: fondées sur la théorie des graphes et basées sur des
concepts de noeuds, relations et propriétés.
○ Ex: Neo4J, FlockDB (de Twitter), OrientDB

chap1-big-data.pps pour comprendre le problème de big data

chap1-big-data.pps pour comprendre le problème de big data

Contenu connexe

Similaire à chap1-big-data.pps pour comprendre le problème de big data

chap1-big-data.pps pour comprendre le problème de big data

Notes de l'éditeur