Chp3 – Traitement de Données
Batch vs. Streaming Processing
Big Data
GL4 (Option Management des Systèmes d'Information) - ...
Traitement par lot: Batch Processing
•  Moyen efficace de traiter de grands volumes de données
•  Les données sont collect...
Traitement par lot: Batch Processing
•  A accès à toutes les données
•  Peut réaliser des traitements lourds et complexes
...
Traitement par lot: Batch Processing
•  Il n’est pas possible d’exécuter des travaux récursifs ou itératifs de
manière inh...
Traitement par lot: Batch Processing
•  Les chèques de dépôt dans une banque sont accumulés et traités
chaque jour
•  Les ...
Traitement par Streaming
•  Les traitements se font sur un élément ou un petit nombre de données
récentes
•  Le traitement...
Traitement par Streaming
•  Pas de visibilité sur l’ensemble des données
§  Certains types de traitements ne peuvent pas ...
Traitement par Streaming
•  Recommandations en temps réel
§  Prise en compte de navigation récente, géolocalisation
§  P...
Traitement en Temps réel
•  Réponse du système en quelques millisecondes
•  Plus approprié pour les APIs synchrones
Dr. Li...
Lambda Architecture
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 10
Architecture
Lambda Architecture
•  Batch Layer
§  Gérer l’unité de stockage principale: des données brutes, immuables et
complètes
§...
Lambda Architecture
•  Stockage maître + Traitements Batch
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 12
Batc...
Lambda Architecture
•  Besoins:
§  Stockage scalable
o  Haute distribution
o  Support de la charge et du volume
§  Tolér...
Lambda Architecture
•  Mise à jour des vues en continu, de manière incrémentale
•  Latence: ~10ms -> qq secondes
Dr. Lilia...
Lambda Architecture
•  Besoins:
§  Traitement en continu (stream processing)
§  Architecture asynchrone, distribuée et s...
Lambda Architecture
•  Vues précalculées
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 16
Serving Layer : Batch ...
Lambda Architecture
•  Besoins:
§  Écritures massives
§  Lectures indexées, accès aléatoire à faible temps de réponse
§...
Lambda Architecture
•  Vues doivent être requêtées de façon intensive et performante
•  Temps de réponse court, fort débit...
Lambda Architecture
•  Besoins
§  Support de fortes sollicitations en lecture et écriture (mise à jour
incrémentale)
§  ...
Lambda Architecture
•  Logique de fusion développée selon les vues et leur modélisation
•  Peut s’avérer difficile
§  Exp...
Lambda Architecture
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 21
Proposition d’Implémentation (MapR)
Lambda Architecture
Avantages
•  Données de base sont immuables et conservées en entier
•  Grande tolérance aux fautes con...
•  Encore des lettres grecques…
§  Kappa :
http://radar.oreilly.com/2014/07/questioning-the-lambda-
architecture.html
§ ...
En Conclusion…
•  Tout est dans l’art d’être polyglotte…
§  Polyglot Programming
o  Utilisation de plusieurs langages et ...
Sources
•  Présentations
§  Lambda Architecture: comment réconcilier Big Data et temps réel, Mathieu
Despriee
•  Articles...
Prochain SlideShare
Chargement dans…5
×

BigData_Chp3: Data Processing

11 413 vues

Publié le

Visitez http://liliasfaxi.wix.com/liliasfaxi !

Publié dans : Technologie
0 commentaire
12 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
11 413
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1 699
Actions
Partages
0
Téléchargements
1 261
Commentaires
0
J’aime
12
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

BigData_Chp3: Data Processing

  1. 1. Chp3 – Traitement de Données Batch vs. Streaming Processing Big Data GL4 (Option Management des Systèmes d'Information) - 2016 Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 1
  2. 2. Traitement par lot: Batch Processing •  Moyen efficace de traiter de grands volumes de données •  Les données sont collectées, stockées, traitées, puis les résultats fournis •  Les systèmes de batch processing ont besoin de programmes différents pour l’entrée, le traitement et la génération des données •  Le traitement est réalisé sur l’ensemble des données •  Traitement de Données Complexes (CEP: Complex Event Processing) §  Concept de traitement des évènements pour identifier les évènements significatifs §  Détection de schémas complexes, corrélation, abstraction et hiérarchie entre évènements •  Hadoop Map-Reduce est un exemple de système utilisant le traitement par lot Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 2 Présentation
  3. 3. Traitement par lot: Batch Processing •  A accès à toutes les données •  Peut réaliser des traitements lourds et complexes •  Est en général plus concerné par le débit (nombre d’actions réalisées en une unité de temps) que par la latence (temps requis pour réaliser l’action) des différents composants du traitement •  Sa latence est calculée en minutes (voire plus) •  Cible les caractéristiques volume et variété des Big Data Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 3 Caractéristiques
  4. 4. Traitement par lot: Batch Processing •  Il n’est pas possible d’exécuter des travaux récursifs ou itératifs de manière inhérente •  Toutes les données doivent être prêtes avant le début du job §  N’est pas approprié pour des traitements en ligne ou temps réel •  Latence d’exécution élevée §  Produit des résultats sur des données relativement anciennes Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 4 Inconvénients
  5. 5. Traitement par lot: Batch Processing •  Les chèques de dépôt dans une banque sont accumulés et traités chaque jour •  Les statistiques par mois/jour/année •  Factures générées pour les cartes de crédit (en général mensuelles) Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 5 Cas d’utilisation
  6. 6. Traitement par Streaming •  Les traitements se font sur un élément ou un petit nombre de données récentes •  Le traitement est relativement simple •  Doit compléter chaque traitement en un temps proche du temps-réel •  Les traitements sont généralement indépendants •  Asynchrone: les sources de données n’interagissent pas directement avec l’unité de traitement en streaming, en attendant une réponse par exemple •  La latence de traitement est estimée en secondes Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 6 Caractéristiques
  7. 7. Traitement par Streaming •  Pas de visibilité sur l’ensemble des données §  Certains types de traitements ne peuvent pas être réalisés •  Complexité opérationnelle élevée §  Plus complexes à maintenir que les traitements batch §  Le système doit être toujours connecté, toujours prêt, avoir des temps de réponses courts, et gérer les données à l’arrivée •  Risque de perte de données Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 7 Inconvénients
  8. 8. Traitement par Streaming •  Recommandations en temps réel §  Prise en compte de navigation récente, géolocalisation §  Publicité en ligne, re-marketing •  Surveillance de larges infrastructures •  Agrégation de données financières à l’échelle d’une banque •  Internet des objets •  … Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 8 Cas d’Utilisation
  9. 9. Traitement en Temps réel •  Réponse du système en quelques millisecondes •  Plus approprié pour les APIs synchrones Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 9 Caractéristiques
  10. 10. Lambda Architecture Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 10 Architecture
  11. 11. Lambda Architecture •  Batch Layer §  Gérer l’unité de stockage principale: des données brutes, immuables et complètes §  Permet de précalculer et conserver les résultats de requêtes appelées batch Views •  Serving Layer §  Permet d’indexer les batch views pour qu’elles soient requêtées au besoin avec une faible latence •  Speed Layer §  Permet d’accommoder toutes les requêtes sujettes à des besoins de faible latence §  Utilisation d’algorithmes rapides et incrémentaux §  Gère les données récentes uniquement Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 11 Couches
  12. 12. Lambda Architecture •  Stockage maître + Traitements Batch Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 12 Batch Layer
  13. 13. Lambda Architecture •  Besoins: §  Stockage scalable o  Haute distribution o  Support de la charge et du volume §  Tolérance aux pannes o  Système de réplication et distribution des données §  Robustesse o  Surtout concernant les évolutions du schéma §  Permettant tout type de traitement •  Technologies §  Hadoop §  Avro : Système de sérialisation des données §  Hive §  … Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 13 Batch Layer
  14. 14. Lambda Architecture •  Mise à jour des vues en continu, de manière incrémentale •  Latence: ~10ms -> qq secondes Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 14 Speed Layer
  15. 15. Lambda Architecture •  Besoins: §  Traitement en continu (stream processing) §  Architecture asynchrone, distribuée et scalable §  Tolérance aux pannes §  Garanties de traitement si possible o  Rejeu possible des message en cas de perte d’un noeud •  Technologies §  Kafka : collecte temps réel §  Akka : message-driven applications §  Storm : Stream processing §  Spark : Micro-batch processing §  … Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 15 Speed Layer
  16. 16. Lambda Architecture •  Vues précalculées Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 16 Serving Layer : Batch Views
  17. 17. Lambda Architecture •  Besoins: §  Écritures massives §  Lectures indexées, accès aléatoire à faible temps de réponse §  Scalabilité et tolérance aux pannes •  Technologies §  Cassandra §  Hbase §  SploutSQL : requêtage SQL à faible latence §  … Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 17 Serving Layer : Batch Views
  18. 18. Lambda Architecture •  Vues doivent être requêtées de façon intensive et performante •  Temps de réponse court, fort débit de requête supporté Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 18 Serving Layer: Realtime Views
  19. 19. Lambda Architecture •  Besoins §  Support de fortes sollicitations en lecture et écriture (mise à jour incrémentale) §  Scalabilité et tolérance aux pannes •  Technologies §  Cassandra §  Hbase §  Redis §  ElasticSearch Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 19 Serving Layer: Realtime Views
  20. 20. Lambda Architecture •  Logique de fusion développée selon les vues et leur modélisation •  Peut s’avérer difficile §  Expiration des vues §  Recouvrement (intersection) possible entre les données batch et temps-réel Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 20 Serving Layer: Fusion
  21. 21. Lambda Architecture Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 21 Proposition d’Implémentation (MapR)
  22. 22. Lambda Architecture Avantages •  Données de base sont immuables et conservées en entier •  Grande tolérance aux fautes contre les pannes matérielles et les erreurs humaines •  Supporte une variété de cas d’utilisation qui incluent un requêtage à faible latence tout autant que des mises à jour •  Capacité de « scaling out » linéaire •  Facilement extensible Inconvénients •  Peut s’avérer coûteuse en terme de mise en place et expertise Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 22 Caractéristiques
  23. 23. •  Encore des lettres grecques… §  Kappa : http://radar.oreilly.com/2014/07/questioning-the-lambda- architecture.html §  Zeta : http://fr.slideshare.net/MapRTechnologies/next-generation- enterprise-architecture-41966097 §  ιot-a : http://iot-a.info/ Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 23 Autres Architectures
  24. 24. En Conclusion… •  Tout est dans l’art d’être polyglotte… §  Polyglot Programming o  Utilisation de plusieurs langages et paradigmes de programmation dans une seule application §  Polyglot Persistence o  Utilisation de plusieurs technologies de stockage Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 24
  25. 25. Sources •  Présentations §  Lambda Architecture: comment réconcilier Big Data et temps réel, Mathieu Despriee •  Articles §  Lambda-Architecture, MapR Developer Center: https://www.mapr.com/developercentral/lambda-architecture Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi 25

×