SlideShare une entreprise Scribd logo
Thinking Big
Big Data: The (Rather) New Phenomenon
21/04/2017
Lilia SFAXI
liliasfaxi@gmail.com
LIP2 Laboratory - Team MASTER
Department of Software Engineering and Mathematics, INSAT, Tunis
Tunisia
l
.pLaboratoire d'Informatique, de Parallelisme et de Productiqu
Équipe MASTER
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Plan
Le Phénomène Big Data
Un peu d’Histoire
Notions
Les Problématiques des Big Data
Challenges & Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de Recherche
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
2Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Il était une fois ...
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
2Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Il était une fois ...
World Wide WEB
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
3Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Web 1.0: Web Passif
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
4Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Web 2.0: Web Collaboratif
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
5Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Web 3.0: Web Sémantique (?)
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
6Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Big Data
Terme apparu en premier en 1997
Décrit les défis technologiques à relever pour visualiser un
grand ensemble de données
A pris toute son ampleur avec l’avènement du Web 2.0
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
7Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Big Data = Big + Data
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
7Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Big Data = Big + Data
Données:
Deuxième bien le plus précieux au monde après l’Information
Différences:
Valeur Ajoutée
Exploitation
Interprétation
DATA
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
8Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Big Data = Big + Data
Big: Volume énorme
Question Fréquente
Les systèmes traditionnels ne gèrent-ils pas des données
volumineuses?
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
8Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Big Data = Big + Data
Big: Volume énorme
Question Fréquente
Les systèmes traditionnels ne gèrent-ils pas des données
volumineuses?
IMPORTANT
L’objectif n’est pas de remplacer les systèmes existants
avec les systèmes Big Data, mais de les intégrer
ensemble!
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
8Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Big Data = Big + Data
Big: Volume énorme
Question Fréquente
Les systèmes traditionnels ne gèrent-ils pas des données
volumineuses?
Données Massives ou Megadonnées
Exaoctets (1018 o) voire Zettaoctets (1021 o)
90% des données récoltées depuis le début de l’humanité
ont été générées les deux dernières années
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
9Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Et là, ce n’est que le premier V...
Volume Vélocité
Variété
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
9Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Volume Vélocité
Variété
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
9Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Volume
Variété
Vélocité
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
10Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Mais encore...
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
10Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Mais encore...
Valeur
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
10Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Mais encore...
Valeur
Véracité
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
10Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Mais encore...
Valeur
Véracité
Visibilité
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
11Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Challenges
Stocker d’abord, réfléchir ensuite
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
11Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Challenges
Stocker d’abord, réfléchir ensuite
Ce sont les données qui pilotent le traitement (et pas le
contraire)
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
11Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Challenges
Stocker d’abord, réfléchir ensuite
Ce sont les données qui pilotent le traitement (et pas le
contraire)
Arrêter de réfléchir en relationnel!
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
11Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Challenges
Stocker d’abord, réfléchir ensuite
Ce sont les données qui pilotent le traitement (et pas le
contraire)
Arrêter de réfléchir en relationnel!
Absolument TOUTES les données sont importantes
(même si elle ne le paraissent pas tout de suite)
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
12Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Problématiques
3 Problématiques majeures pour les données massives
Volume
Vélocité
Variété
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
12Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Problématiques
3 Problématiques majeures pour les données massives
Volume → Stockage
Vélocité
Variété
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
12Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Problématiques
3 Problématiques majeures pour les données massives
Volume → Stockage
Vélocité → Traitement
Variété
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
12Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Problématiques
3 Problématiques majeures pour les données massives
Volume → Stockage
Vélocité → Traitement
Variété → Collecte
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
⇒ Favoriser le partitionnement
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
14Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématiques du Partitionnement
Problème
Étant donné un système de stockage partitionné (sous
forme de cluster), comment assurer:
La répartition de charges
La tolérance aux fautes
La haute disponibilité
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
14Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématiques du Partitionnement
Problème
Étant donné un système de stockage partitionné (sous
forme de cluster), comment assurer:
La répartition de charges
La tolérance aux fautes
La haute disponibilité
Solution: Répartition de charges
Données réparties sur l’ensemble des noeuds du cluster,
selon une stratégie de partitionnement choisie (aléatoire,
ordonnée..)
Co-localisation du traitement et du stockage
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
14Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématiques du Partitionnement
Problème
Étant donné un système de stockage partitionné (sous
forme de cluster), comment assurer:
La répartition de charges
La tolérance aux fautes
La haute disponibilité
Solution: Tolérance aux fautes
Duplication de toutes les données un nombre donné de
fois
Définition d’une stratégie de réplication (simple, par
topologie de réseau..)
Principe de Rack Awareness
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
14Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématiques du Partitionnement
Problème
Étant donné un système de stockage partitionné (sous
forme de cluster), comment assurer:
La répartition de charges
La tolérance aux fautes
La haute disponibilité
Solution: Haute disponibilité
Assurer une lecture et écriture instantanée des données
Read and Write Anywhere, dans certains systèmes
Éviter les jointures et les transactions, tolérer les
redondances
Favoriser les traitements côté client pour décharger le
système de stockage
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
15Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Théorème CAP
Problème
Théorème CAP : Seules deux des trois propriétés
suivantes peuvent être assurées
Consistancy
Availability
Partitionning
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
15Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Théorème CAP
Problème
Théorème CAP : Seules deux des trois propriétés
suivantes peuvent être assurées
Consistancy
Availability
Partitionning
Solution
Tolérer une certaine perte de la consistance au profit du
paritionnement et de la haute disponibilité
Remplacer les propriétés ACID par les propriétés BASE
Basically Available
Soft State
Eventual Consistancy
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
16Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Systèmes de Stockage
Apparition d’autres types de systèmes de stockages:
Systèmes de fichiers distribués
Bases de données hautement distribuées (NOSQL)
Bases de données NewSQL
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
17Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Principes Fondamentaux
Déplacer le traitement vers les données
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
17Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Principes Fondamentaux
Déplacer le traitement vers les données
Principe de In-Memory Processing
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
17Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Principes Fondamentaux
Déplacer le traitement vers les données
Principe de In-Memory Processing
Savoir être polyglotte
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
17Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Principes Fondamentaux
Déplacer le traitement vers les données
Principe de In-Memory Processing
Savoir être polyglotte
* Polyglot Programming: Plusieurs langages et paradigmes
de programmation dans une seule application
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
17Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Principes Fondamentaux
Déplacer le traitement vers les données
Principe de In-Memory Processing
Savoir être polyglotte
* Polyglot Programming: Plusieurs langages et paradigmes
de programmation dans une seule application
* Polyglot Persistance: Plusieurs technologies de stockage
dans une seule application
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
18Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Types de Traitements
Plusieurs types de traitement:
Batch Processing
Stream Processing
Micro-Batch Processing
Real-time Processing
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
19Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Batch Processing
Batch Processing
Données collectées, stockées, traitées puis les résultats
fournis
Traitement réalisé sur l’ensemble des données
* Vision globale sur les données stockées
* Traitement peut être lourd et complexe
Plus concentré sur le débit (nb d’actions/unité de temps)
que la latence (temps requis pour obtenir une réponse)
Cible les caractéristiques Volume et Variété
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
19Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Batch Processing
Batch Processing
Données collectées, stockées, traitées puis les résultats
fournis
Traitement réalisé sur l’ensemble des données
* Vision globale sur les données stockées
* Traitement peut être lourd et complexe
Plus concentré sur le débit (nb d’actions/unité de temps)
que la latence (temps requis pour obtenir une réponse)
Cible les caractéristiques Volume et Variété
Inconvénients
Faire des traitements récursifs ou itératifs est coûteux
Les données doivent être prêtes avant le début du job
Produit des résultats sur des données anciennes
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
20Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Stream Processing
Stream Processing
Traitement sur un élément ou un petit nombre d’éléments
récents
Traitement doit être simple, fait presque en temps réel
Traitements indépendants
Asynchrone
Latence faible
Cible les caractéristiques Vélocité et Variété
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
20Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Stream Processing
Stream Processing
Traitement sur un élément ou un petit nombre d’éléments
récents
Traitement doit être simple, fait presque en temps réel
Traitements indépendants
Asynchrone
Latence faible
Cible les caractéristiques Vélocité et Variété
Inconvénients
Pas de visibilité sur l’ensemble de données
Complexe à maintenir: Système doit être toujours prêt,
toujours connecté, avoir des temps de réponse courts
Risque de perte de données
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
21Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
µ-batch et Real-time Processing
µ-batch Processing
Alternative entre Batch et Stream Processing
Traitement du stream comme séquence de petits batchs
Utilisation de files d’attentes
Permet un traitement de données au fil de l’eau, sans
risque de perte de données
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
21Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
µ-batch et Real-time Processing
µ-batch Processing
Alternative entre Batch et Stream Processing
Traitement du stream comme séquence de petits batchs
Utilisation de files d’attentes
Permet un traitement de données au fil de l’eau, sans
risque de perte de données
Real-Time Processing
Plutôt approprié pour les traitements synchrones
Réponse du système en temps réel
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
22Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Collecte des Données
Problèmes
Collecte de données de sources, formats et types
différents
Homogénéisation et fusion des données
Considération de la vélocité des données
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
22Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Collecte des Données
Problèmes
Collecte de données de sources, formats et types
différents
Homogénéisation et fusion des données
Considération de la vélocité des données
Solution
Extraction de données et stockage dans des structures de
données réparties en mémoire en attendant leur
traitement
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
23Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Choix du Type de Traitement
Souvent, un seul type de traitement n’est pas suffisant
pour une analyse poussée des données
Batch Processing pour une vue globale mais différée
Stream Processing pour des résultats instantanés
Certaines architectures permettent de combiner les deux
types de traitements
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
24Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Lambda Architecture
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
25Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
25Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Dans le domaine des Big Data,
TOUT est encore à faire...
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
26Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Optimisation
Optimisation du temps de traitement
Optimisation des tailles des données stockées
Optimisation des accès aux données
Tradeoffs entre consistance et disponibilité
Stratégies de partitionnement et de réplication
In-memory vs. persistance
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
26Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Optimisation
Optimisation du temps de traitement
Optimisation des tailles des données stockées
Optimisation des accès aux données
Tradeoffs entre consistance et disponibilité
Stratégies de partitionnement et de réplication
In-memory vs. persistance
Data Science
Algorithmes pour la visualisation des données
Data mining, data prediction, data analytics
Analyse des sentiments et analyse sémantique
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
27Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Big Data Design
Méthodologies de conception pour les systèmes Big Data
Définition d’architectures de stockages et traitement
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
27Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Big Data Design
Méthodologies de conception pour les systèmes Big Data
Définition d’architectures de stockages et traitement
Big Data Security
Sécurité des traitements dans les environnements
distribués
Sécurité des bases de données non-relationnelles
Sécurité des logs
Validation et filtrage des données en entrée
Contrôle d’accès et cryptographie
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
28Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Big Data and Other New Trends
Big Data et Business Intelligence
Big Data et Cloud Computing
Big Data et Internet of Things
Big Data et Mobile
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
28Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Big Data and Other New Trends
Big Data et Business Intelligence
Big Data et Cloud Computing
Big Data et Internet of Things
Big Data et Mobile
Big Data and Other Fields
Big Data in Education
Big Data in Health
Big Data in Arts
...
29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
29Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Conclusion
Big Data is here to stay!
Thinking Big
Big Data: The (Rather) New Phenomenon
21/04/2017
Lilia SFAXI
liliasfaxi@gmail.com
LIP2 Laboratory - Team MASTER
Department of Software Engineering and Mathematics, INSAT, Tunis
Tunisia
l
.pLaboratoire d'Informatique, de Parallelisme et de Productiqu
Équipe MASTER

Contenu connexe

Tendances

Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big dataAbdelghani Azri
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 
Spark RDD : Transformations & Actions
Spark RDD : Transformations & ActionsSpark RDD : Transformations & Actions
Spark RDD : Transformations & ActionsMICHRAFY MUSTAFA
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : SparkLilia Sfaxi
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduceAmal Abid
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : CassandraLilia Sfaxi
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Alexis Seigneurin
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
 
Introduction à la big data v3
Introduction à la big data v3 Introduction à la big data v3
Introduction à la big data v3 Mehdi TAZI
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3Amal Abid
 

Tendances (20)

Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big data
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Spark RDD : Transformations & Actions
Spark RDD : Transformations & ActionsSpark RDD : Transformations & Actions
Spark RDD : Transformations & Actions
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduce
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Introduction à la big data v3
Introduction à la big data v3 Introduction à la big data v3
Introduction à la big data v3
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Big data
Big dataBig data
Big data
 
Chapitre 4 no sql
Chapitre 4 no sqlChapitre 4 no sql
Chapitre 4 no sql
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
 
Chapitre i-intro
Chapitre i-introChapitre i-intro
Chapitre i-intro
 

Similaire à Thinking Big - Big data: principes et architecture

Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Micropole Group
 
Valtech - Big Data en action
Valtech - Big Data en actionValtech - Big Data en action
Valtech - Big Data en actionValtech
 
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelmanslides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelmanshuai wang
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
 
02 big data definition
02 big data definition02 big data definition
02 big data definitionPatrick Bury
 
02 big data definition
02 big data definition02 big data definition
02 big data definitionPatrick Bury
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurMicrosoft Ideas
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
Jamespot Les RéSeaux Sociaux P2 P Prospectives Et Usages Alain Garnier
Jamespot   Les RéSeaux Sociaux P2 P Prospectives Et Usages   Alain GarnierJamespot   Les RéSeaux Sociaux P2 P Prospectives Et Usages   Alain Garnier
Jamespot Les RéSeaux Sociaux P2 P Prospectives Et Usages Alain GarnierAlain GARNIER
 
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioComment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioHervé Bourdon
 
Ce que nous apprend l'histoire de l'informatique
Ce que nous apprend l'histoire de l'informatiqueCe que nous apprend l'histoire de l'informatique
Ce que nous apprend l'histoire de l'informatiqueAlain Lefebvre
 
Qu'est ce que le big data - Présentation AIMM 30 octobre
Qu'est ce que le big data - Présentation AIMM 30 octobreQu'est ce que le big data - Présentation AIMM 30 octobre
Qu'est ce que le big data - Présentation AIMM 30 octobreSimon Boucher
 
Baina bigdata le futur eldorado
Baina bigdata le futur eldoradoBaina bigdata le futur eldorado
Baina bigdata le futur eldoradoKarim Baïna
 

Similaire à Thinking Big - Big data: principes et architecture (20)

Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017
 
Seminaire
SeminaireSeminaire
Seminaire
 
Valtech - Big Data en action
Valtech - Big Data en actionValtech - Big Data en action
Valtech - Big Data en action
 
Cours Big Data Part I
Cours Big Data Part ICours Big Data Part I
Cours Big Data Part I
 
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelmanslides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
 
02 big data definition
02 big data definition02 big data definition
02 big data definition
 
02 big data definition
02 big data definition02 big data definition
02 big data definition
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeur
 
Introduction
IntroductionIntroduction
Introduction
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Jamespot Les RéSeaux Sociaux P2 P Prospectives Et Usages Alain Garnier
Jamespot   Les RéSeaux Sociaux P2 P Prospectives Et Usages   Alain GarnierJamespot   Les RéSeaux Sociaux P2 P Prospectives Et Usages   Alain Garnier
Jamespot Les RéSeaux Sociaux P2 P Prospectives Et Usages Alain Garnier
 
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioComment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
 
Comprendre Web 2.0
Comprendre Web 2.0Comprendre Web 2.0
Comprendre Web 2.0
 
Datamining damien-jubeau
Datamining damien-jubeauDatamining damien-jubeau
Datamining damien-jubeau
 
Ce que nous apprend l'histoire de l'informatique
Ce que nous apprend l'histoire de l'informatiqueCe que nous apprend l'histoire de l'informatique
Ce que nous apprend l'histoire de l'informatique
 
Qu'est ce que le big data - Présentation AIMM 30 octobre
Qu'est ce que le big data - Présentation AIMM 30 octobreQu'est ce que le big data - Présentation AIMM 30 octobre
Qu'est ce que le big data - Présentation AIMM 30 octobre
 
Baina bigdata le futur eldorado
Baina bigdata le futur eldoradoBaina bigdata le futur eldorado
Baina bigdata le futur eldorado
 

Plus de Lilia Sfaxi

chp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfchp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfLilia Sfaxi
 
Plan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfPlan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfLilia Sfaxi
 
Lab1-DB-Cassandra
Lab1-DB-CassandraLab1-DB-Cassandra
Lab1-DB-CassandraLilia Sfaxi
 
TP2-UML-Correction
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-CorrectionLilia Sfaxi
 
TP1-UML-Correction
TP1-UML-CorrectionTP1-UML-Correction
TP1-UML-CorrectionLilia Sfaxi
 
TP0-UML-Correction
TP0-UML-CorrectionTP0-UML-Correction
TP0-UML-CorrectionLilia Sfaxi
 
TD4-UML-Correction
TD4-UML-CorrectionTD4-UML-Correction
TD4-UML-CorrectionLilia Sfaxi
 
TD3-UML-Séquences
TD3-UML-SéquencesTD3-UML-Séquences
TD3-UML-SéquencesLilia Sfaxi
 
TD3-UML-Correction
TD3-UML-CorrectionTD3-UML-Correction
TD3-UML-CorrectionLilia Sfaxi
 
TD2 - UML - Correction
TD2 - UML - CorrectionTD2 - UML - Correction
TD2 - UML - CorrectionLilia Sfaxi
 
TD1-UML-correction
TD1-UML-correctionTD1-UML-correction
TD1-UML-correctionLilia Sfaxi
 
Android - Tp1 - installation et démarrage
Android - Tp1 -   installation et démarrageAndroid - Tp1 -   installation et démarrage
Android - Tp1 - installation et démarrageLilia Sfaxi
 
Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Lilia Sfaxi
 
Android - Tp3 - intents
Android - Tp3 -  intentsAndroid - Tp3 -  intents
Android - Tp3 - intentsLilia Sfaxi
 
Android - TPBonus - web services
Android - TPBonus - web servicesAndroid - TPBonus - web services
Android - TPBonus - web servicesLilia Sfaxi
 
Android - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancésAndroid - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancésLilia Sfaxi
 

Plus de Lilia Sfaxi (20)

chp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfchp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdf
 
Plan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfPlan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdf
 
Lab3-DB_Neo4j
Lab3-DB_Neo4jLab3-DB_Neo4j
Lab3-DB_Neo4j
 
Lab2-DB-Mongodb
Lab2-DB-MongodbLab2-DB-Mongodb
Lab2-DB-Mongodb
 
Lab1-DB-Cassandra
Lab1-DB-CassandraLab1-DB-Cassandra
Lab1-DB-Cassandra
 
TP2-UML-Correction
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-Correction
 
TP1-UML-Correction
TP1-UML-CorrectionTP1-UML-Correction
TP1-UML-Correction
 
TP0-UML-Correction
TP0-UML-CorrectionTP0-UML-Correction
TP0-UML-Correction
 
TD4-UML
TD4-UMLTD4-UML
TD4-UML
 
TD4-UML-Correction
TD4-UML-CorrectionTD4-UML-Correction
TD4-UML-Correction
 
TD3-UML-Séquences
TD3-UML-SéquencesTD3-UML-Séquences
TD3-UML-Séquences
 
TD3-UML-Correction
TD3-UML-CorrectionTD3-UML-Correction
TD3-UML-Correction
 
TD2 - UML - Correction
TD2 - UML - CorrectionTD2 - UML - Correction
TD2 - UML - Correction
 
TD1 - UML - DCU
TD1 - UML - DCUTD1 - UML - DCU
TD1 - UML - DCU
 
TD1-UML-correction
TD1-UML-correctionTD1-UML-correction
TD1-UML-correction
 
Android - Tp1 - installation et démarrage
Android - Tp1 -   installation et démarrageAndroid - Tp1 -   installation et démarrage
Android - Tp1 - installation et démarrage
 
Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques
 
Android - Tp3 - intents
Android - Tp3 -  intentsAndroid - Tp3 -  intents
Android - Tp3 - intents
 
Android - TPBonus - web services
Android - TPBonus - web servicesAndroid - TPBonus - web services
Android - TPBonus - web services
 
Android - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancésAndroid - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancés
 

Thinking Big - Big data: principes et architecture

  • 1. Thinking Big Big Data: The (Rather) New Phenomenon 21/04/2017 Lilia SFAXI liliasfaxi@gmail.com LIP2 Laboratory - Team MASTER Department of Software Engineering and Mathematics, INSAT, Tunis Tunisia l .pLaboratoire d'Informatique, de Parallelisme et de Productiqu Équipe MASTER
  • 2. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Plan Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche
  • 3. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data 2Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Un peu d’Histoire Il était une fois ...
  • 4. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data 2Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Un peu d’Histoire Il était une fois ... World Wide WEB
  • 5. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data 3Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Un peu d’Histoire Web 1.0: Web Passif
  • 6. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data 4Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Un peu d’Histoire Web 2.0: Web Collaboratif
  • 7. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data 5Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Un peu d’Histoire Web 3.0: Web Sémantique (?)
  • 8. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data 6Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Un peu d’Histoire Big Data Terme apparu en premier en 1997 Décrit les défis technologiques à relever pour visualiser un grand ensemble de données A pris toute son ampleur avec l’avènement du Web 2.0
  • 9. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire 7Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Notions Big Data = Big + Data
  • 10. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire 7Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Notions Big Data = Big + Data Données: Deuxième bien le plus précieux au monde après l’Information Différences: Valeur Ajoutée Exploitation Interprétation DATA
  • 11. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire 8Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Notions Big Data = Big + Data Big: Volume énorme Question Fréquente Les systèmes traditionnels ne gèrent-ils pas des données volumineuses?
  • 12. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire 8Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Notions Big Data = Big + Data Big: Volume énorme Question Fréquente Les systèmes traditionnels ne gèrent-ils pas des données volumineuses? IMPORTANT L’objectif n’est pas de remplacer les systèmes existants avec les systèmes Big Data, mais de les intégrer ensemble!
  • 13. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire 8Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Notions Big Data = Big + Data Big: Volume énorme Question Fréquente Les systèmes traditionnels ne gèrent-ils pas des données volumineuses? Données Massives ou Megadonnées Exaoctets (1018 o) voire Zettaoctets (1021 o) 90% des données récoltées depuis le début de l’humanité ont été générées les deux dernières années
  • 14. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire 9Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Notions Et là, ce n’est que le premier V... Volume Vélocité Variété
  • 15. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire 9Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Notions Volume Vélocité Variété
  • 16. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire 9Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Notions Volume Variété Vélocité
  • 17. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire 10Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Notions Mais encore...
  • 18. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire 10Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Notions Mais encore... Valeur
  • 19. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire 10Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Notions Mais encore... Valeur Véracité
  • 20. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire 10Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Big Data: Notions Mais encore... Valeur Véracité Visibilité
  • 21. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data 11Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Challenges Stocker d’abord, réfléchir ensuite
  • 22. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data 11Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Challenges Stocker d’abord, réfléchir ensuite Ce sont les données qui pilotent le traitement (et pas le contraire)
  • 23. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data 11Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Challenges Stocker d’abord, réfléchir ensuite Ce sont les données qui pilotent le traitement (et pas le contraire) Arrêter de réfléchir en relationnel!
  • 24. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data 11Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Challenges Stocker d’abord, réfléchir ensuite Ce sont les données qui pilotent le traitement (et pas le contraire) Arrêter de réfléchir en relationnel! Absolument TOUTES les données sont importantes (même si elle ne le paraissent pas tout de suite)
  • 25. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data 12Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Problématiques 3 Problématiques majeures pour les données massives Volume Vélocité Variété
  • 26. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data 12Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Problématiques 3 Problématiques majeures pour les données massives Volume → Stockage Vélocité Variété
  • 27. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data 12Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Problématiques 3 Problématiques majeures pour les données massives Volume → Stockage Vélocité → Traitement Variété
  • 28. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data 12Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Problématiques 3 Problématiques majeures pour les données massives Volume → Stockage Vélocité → Traitement Variété → Collecte
  • 29. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques 13Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Stockage Problématique du Volume Problème Comment stocker ces données dont le volume ne cesse d’augmenter?
  • 30. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques 13Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Stockage Problématique du Volume Problème Comment stocker ces données dont le volume ne cesse d’augmenter? Solution Scale UP vs Scale OUT
  • 31. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques 13Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Stockage Problématique du Volume Problème Comment stocker ces données dont le volume ne cesse d’augmenter? Solution Scale UP vs Scale OUT
  • 32. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques 13Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Stockage Problématique du Volume Problème Comment stocker ces données dont le volume ne cesse d’augmenter? Solution Scale UP vs Scale OUT
  • 33. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques 13Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Stockage Problématique du Volume Problème Comment stocker ces données dont le volume ne cesse d’augmenter? Solution Scale UP vs Scale OUT
  • 34. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques 13Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Stockage Problématique du Volume Problème Comment stocker ces données dont le volume ne cesse d’augmenter? Solution Scale UP vs Scale OUT
  • 35. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques 13Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Stockage Problématique du Volume Problème Comment stocker ces données dont le volume ne cesse d’augmenter? Solution Scale UP vs Scale OUT
  • 36. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques 13Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Stockage Problématique du Volume Problème Comment stocker ces données dont le volume ne cesse d’augmenter? Solution Scale UP vs Scale OUT ⇒ Favoriser le partitionnement
  • 37. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques 14Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Stockage Problématiques du Partitionnement Problème Étant donné un système de stockage partitionné (sous forme de cluster), comment assurer: La répartition de charges La tolérance aux fautes La haute disponibilité
  • 38. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques 14Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Stockage Problématiques du Partitionnement Problème Étant donné un système de stockage partitionné (sous forme de cluster), comment assurer: La répartition de charges La tolérance aux fautes La haute disponibilité Solution: Répartition de charges Données réparties sur l’ensemble des noeuds du cluster, selon une stratégie de partitionnement choisie (aléatoire, ordonnée..) Co-localisation du traitement et du stockage
  • 39. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques 14Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Stockage Problématiques du Partitionnement Problème Étant donné un système de stockage partitionné (sous forme de cluster), comment assurer: La répartition de charges La tolérance aux fautes La haute disponibilité Solution: Tolérance aux fautes Duplication de toutes les données un nombre donné de fois Définition d’une stratégie de réplication (simple, par topologie de réseau..) Principe de Rack Awareness
  • 40. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques 14Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Stockage Problématiques du Partitionnement Problème Étant donné un système de stockage partitionné (sous forme de cluster), comment assurer: La répartition de charges La tolérance aux fautes La haute disponibilité Solution: Haute disponibilité Assurer une lecture et écriture instantanée des données Read and Write Anywhere, dans certains systèmes Éviter les jointures et les transactions, tolérer les redondances Favoriser les traitements côté client pour décharger le système de stockage
  • 41. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques 15Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Stockage Théorème CAP Problème Théorème CAP : Seules deux des trois propriétés suivantes peuvent être assurées Consistancy Availability Partitionning
  • 42. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques 15Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Stockage Théorème CAP Problème Théorème CAP : Seules deux des trois propriétés suivantes peuvent être assurées Consistancy Availability Partitionning Solution Tolérer une certaine perte de la consistance au profit du paritionnement et de la haute disponibilité Remplacer les propriétés ACID par les propriétés BASE Basically Available Soft State Eventual Consistancy
  • 43. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques 16Stockage Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Stockage Systèmes de Stockage Apparition d’autres types de systèmes de stockages: Systèmes de fichiers distribués Bases de données hautement distribuées (NOSQL) Bases de données NewSQL
  • 44. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage 17Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Traitement des Données Massives Principes Fondamentaux Déplacer le traitement vers les données
  • 45. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage 17Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Traitement des Données Massives Principes Fondamentaux Déplacer le traitement vers les données Principe de In-Memory Processing
  • 46. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage 17Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Traitement des Données Massives Principes Fondamentaux Déplacer le traitement vers les données Principe de In-Memory Processing Savoir être polyglotte
  • 47. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage 17Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Traitement des Données Massives Principes Fondamentaux Déplacer le traitement vers les données Principe de In-Memory Processing Savoir être polyglotte * Polyglot Programming: Plusieurs langages et paradigmes de programmation dans une seule application
  • 48. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage 17Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Traitement des Données Massives Principes Fondamentaux Déplacer le traitement vers les données Principe de In-Memory Processing Savoir être polyglotte * Polyglot Programming: Plusieurs langages et paradigmes de programmation dans une seule application * Polyglot Persistance: Plusieurs technologies de stockage dans une seule application
  • 49. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage 18Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Traitement des Données Massives Types de Traitements Plusieurs types de traitement: Batch Processing Stream Processing Micro-Batch Processing Real-time Processing
  • 50. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage 19Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Traitement des Données Massives Batch Processing Batch Processing Données collectées, stockées, traitées puis les résultats fournis Traitement réalisé sur l’ensemble des données * Vision globale sur les données stockées * Traitement peut être lourd et complexe Plus concentré sur le débit (nb d’actions/unité de temps) que la latence (temps requis pour obtenir une réponse) Cible les caractéristiques Volume et Variété
  • 51. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage 19Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Traitement des Données Massives Batch Processing Batch Processing Données collectées, stockées, traitées puis les résultats fournis Traitement réalisé sur l’ensemble des données * Vision globale sur les données stockées * Traitement peut être lourd et complexe Plus concentré sur le débit (nb d’actions/unité de temps) que la latence (temps requis pour obtenir une réponse) Cible les caractéristiques Volume et Variété Inconvénients Faire des traitements récursifs ou itératifs est coûteux Les données doivent être prêtes avant le début du job Produit des résultats sur des données anciennes
  • 52. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage 20Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Traitement des Données Massives Stream Processing Stream Processing Traitement sur un élément ou un petit nombre d’éléments récents Traitement doit être simple, fait presque en temps réel Traitements indépendants Asynchrone Latence faible Cible les caractéristiques Vélocité et Variété
  • 53. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage 20Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Traitement des Données Massives Stream Processing Stream Processing Traitement sur un élément ou un petit nombre d’éléments récents Traitement doit être simple, fait presque en temps réel Traitements indépendants Asynchrone Latence faible Cible les caractéristiques Vélocité et Variété Inconvénients Pas de visibilité sur l’ensemble de données Complexe à maintenir: Système doit être toujours prêt, toujours connecté, avoir des temps de réponse courts Risque de perte de données
  • 54. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage 21Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Traitement des Données Massives µ-batch et Real-time Processing µ-batch Processing Alternative entre Batch et Stream Processing Traitement du stream comme séquence de petits batchs Utilisation de files d’attentes Permet un traitement de données au fil de l’eau, sans risque de perte de données
  • 55. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage 21Traitement Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Traitement des Données Massives µ-batch et Real-time Processing µ-batch Processing Alternative entre Batch et Stream Processing Traitement du stream comme séquence de petits batchs Utilisation de files d’attentes Permet un traitement de données au fil de l’eau, sans risque de perte de données Real-Time Processing Plutôt approprié pour les traitements synchrones Réponse du système en temps réel
  • 56. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement 22Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Collecte des Données Problèmes Collecte de données de sources, formats et types différents Homogénéisation et fusion des données Considération de la vélocité des données
  • 57. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement 22Collecte Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Collecte des Données Problèmes Collecte de données de sources, formats et types différents Homogénéisation et fusion des données Considération de la vélocité des données Solution Extraction de données et stockage dans des structures de données réparties en mémoire en attendant leur traitement
  • 58. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte 23Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Choix du Type de Traitement Souvent, un seul type de traitement n’est pas suffisant pour une analyse poussée des données Batch Processing pour une vue globale mais différée Stream Processing pour des résultats instantanés Certaines architectures permettent de combiner les deux types de traitements
  • 59. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte 24Lambda Architecture Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Lambda Architecture
  • 60. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture 25Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Domaines de Recherche
  • 61. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture 25Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Domaines de Recherche Dans le domaine des Big Data, TOUT est encore à faire...
  • 62. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture 26Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Domaines de Recherche Optimisation Optimisation du temps de traitement Optimisation des tailles des données stockées Optimisation des accès aux données Tradeoffs entre consistance et disponibilité Stratégies de partitionnement et de réplication In-memory vs. persistance
  • 63. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture 26Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Domaines de Recherche Optimisation Optimisation du temps de traitement Optimisation des tailles des données stockées Optimisation des accès aux données Tradeoffs entre consistance et disponibilité Stratégies de partitionnement et de réplication In-memory vs. persistance Data Science Algorithmes pour la visualisation des données Data mining, data prediction, data analytics Analyse des sentiments et analyse sémantique
  • 64. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture 27Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Domaines de Recherche Big Data Design Méthodologies de conception pour les systèmes Big Data Définition d’architectures de stockages et traitement
  • 65. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture 27Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Domaines de Recherche Big Data Design Méthodologies de conception pour les systèmes Big Data Définition d’architectures de stockages et traitement Big Data Security Sécurité des traitements dans les environnements distribués Sécurité des bases de données non-relationnelles Sécurité des logs Validation et filtrage des données en entrée Contrôle d’accès et cryptographie
  • 66. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture 28Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Domaines de Recherche Big Data and Other New Trends Big Data et Business Intelligence Big Data et Cloud Computing Big Data et Internet of Things Big Data et Mobile
  • 67. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture 28Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Domaines de Recherche Big Data and Other New Trends Big Data et Business Intelligence Big Data et Cloud Computing Big Data et Internet of Things Big Data et Mobile Big Data and Other Fields Big Data in Education Big Data in Health Big Data in Arts ...
  • 68. 29 Thinking Big Lilia SFAXI Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture 29Domaines de Recherche LIP2 - MASTER INSAT, Tunis Tunisie l .p Conclusion Big Data is here to stay!
  • 69. Thinking Big Big Data: The (Rather) New Phenomenon 21/04/2017 Lilia SFAXI liliasfaxi@gmail.com LIP2 Laboratory - Team MASTER Department of Software Engineering and Mathematics, INSAT, Tunis Tunisia l .pLaboratoire d'Informatique, de Parallelisme et de Productiqu Équipe MASTER