Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
La deuxième partie sur le cours Business Intelligence et Data warehouse.
Si vous avez des questions, des remarques ou des propositions afin d’améliorer le contenu et la qualité de ce cours, n' hésitez pas à me contacter via mon email:
pr.azizdarouichi@gmail.com.
Bonne lecture.
A. DAROUICHI
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
C'est la troisième partie du cours Business Intelligence et Data warehouse.
Si vous avez des questions, des remarques ou des propositions, n'hésitez pas de me les envoyer via mon email:
pr.azizdarouichi@gmail.com.
Bonne lecture
La deuxième partie sur le cours Business Intelligence et Data warehouse.
Si vous avez des questions, des remarques ou des propositions afin d’améliorer le contenu et la qualité de ce cours, n' hésitez pas à me contacter via mon email:
pr.azizdarouichi@gmail.com.
Bonne lecture.
A. DAROUICHI
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
C'est la troisième partie du cours Business Intelligence et Data warehouse.
Si vous avez des questions, des remarques ou des propositions, n'hésitez pas de me les envoyer via mon email:
pr.azizdarouichi@gmail.com.
Bonne lecture
Rapide introduction à Hadoop lors du lancement du Casablanca Hadoop & Big Data Meetup.
En partenariat avec Hortonworks
http://www.meetup.com/Casablanca-Hadoop-et-Big-Data-Meetup
Big Data Analytics for connected home: a few usecases, some important messages and a little example. Presentation given at CEA Cadarache - Cité des Nouvelles Energies at the strategic comittee of ARCSIS (http://www.arcsis.org/missions.html)
Les modes de licences de nos principaux produits ont considérablement évolué ces derniers mois. Cette session permettra de revenir rapidement sur les changements intervenus sur SQL Server 2012, System Center 2012, Windows Server 2012, Windows 8… L'arrivée du Nouvel Office s'accompagnant également de changements profonds sur la façon d’acheter, mixant références on-premise et services en ligne, venez découvrir les solutions qui accompagnent cette évolution.
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France
Hadoop User Group du lundi 6 oct 2014:
Talk #3: Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes).
Ce support explique les concepts de base de Big Data Processing. Elle aborde les parties suivantes :
Série de vidéos : https://www.youtube.com/watch?v=1JAljjxpm-Q
- Introduction au Big Data
- Système de stockage en Big Data
- Batch Processing et Stream Processing en Big Data
- Aperçu bref de l’écosystème de Hadoop
- Aperçu de l’écosystème des outils du Bid Gata
- Big data stream processing avec Kafka écosystème
- Architecture de Kafka (Brokers, Zookeeper, Procuder, Consumer, Kafka Streams, Connecteurs)
- Comment démarrer un cluster de brokers KAFKA
- Création et configuration des Topics
- Création d’un Java Kafka consumer
- Création d’un Java Kafka Produder
- Kafka Producer et Kafka Consumer dans une application basée sur Spring
- Kafka Streams
- Intégration de Kafka dans Spring Cloud.
Mot clés : Big data, Big Data Processing, Stream Processing, Kafka, Kafka Streams, Java, Spring
Bon apprentissage
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/3lnhMel
Découvrez la Data Virtualization lors d'un atelier organisé à distance pour les professionnels de la donnée le 26 novembre. Quel que soit votre rôle, responsables IT, architectes, data scientists, analystes ou CDO, vous découvrirez comment la Data Virtualization permet de livrer des données en temps réel et accéder à tout type de source de données pour en tirer de la valeur.
Cette session débutera par la présentation de la stratégie Software Defined Storage (SDN) de Microsoft en balayant les aspects privés, hybrides et publiques. Nous continuerons tout le long de la session par des cas d’usage fonctionnel s’appuyant sur les services de stockage Azure. Vous appréhenderez ainsi les critères de choix à prendre en compte pour concevoir une architecture cible. C’est dans cette démarche que nous clôturerons la session par un retour d’expérience client sur la traçabilité de production et packaging industriel s’appuyant sur les services Azure Tables & Blobs
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/36m3hmX
Découvrez la Data Virtualization lors d'un atelier organisé à distance pour les professionnels de la donnée mardi 29 septembre. Quel que soit votre rôle, responsables IT, architectes, data scientists, analystes ou CDO, vous découvrirez comment la Data Virtualization permet de livrer des données en temps réel et accéder à tout type de source de données pour en tirer de la valeur. Découvrez l'agenda complet!
AWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévuAmazon Web Services
Le Cloud Computing offre de nombreux avantages, tels que la possibilité de passer vos applications à l'échelle en fonction de vos besoins. Si vous avez une nouvelle application et que vous souhaitez utiliser le Cloud AWS, vous serez amené à vous poser la question suivante : "Par où dois-je commencer ?". Rejoignez-nous sur cette session pour comprendre les bonnes pratiques qui vous permettront de passer de 0 à plusieurs millions d'utilisateurs. Nous vous montrerons comment combiner au mieux les services AWS, prendre les bonnes décisions pour architecturer vos applications et déployer des infrastructure scalables dans le Cloud.
This talk explain how Delta Lake can be used as a reference architecture for data lakehouse. It gives the main concepts and principles behind Delta lake
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...Julien Cognet
J'ai eu l'occasion de mettre en œuvre :
- 4 solutions techniques différentes de data streaming (Apache Nifi, Apache Flink, Apache Spark Streaming et Apache Kafka Streams)
- 3 solutions de stockage de forte volumétrie (Apache Cassandra, TimescaleDB et Oracle DB)
- sur 3 projets différents de télécollecte IoT et de traitements de données Big Data.
Cela représente 8 ans de recul sur le traitement de données de forte volumétrie. Cette expérience s'est construite "grâce" à des dizaines de problèmes de performances, de cohérence des données, d'engorgement de nos systèmes distribués... J'ai donc de belles histoires techniques à vous raconter sur le pire et le meilleur de ces différentes solutions. Vous voulez savoir quelle est la meilleure et celle que je vous recommande ? Je suis sûr que vous connaissez la réponse courte "ça dépend". Pour la réponse longue, consultez nous...
Alphorm.com Formation Microsoft HyperconvergenceAlphorm
Formation complète ici:
http://www.alphorm.com/tutoriel/formation-en-ligne-microsoft-hyperconvergence
Cette formation a pour but de vous présenter la solution hyperconvergée de Microsoft Avec Windows Server 2016. Cette formation introduit d’abord le modèle hyperconvergé pour bien saisir les tenants et les aboutissants de celui-ci. Les avantages et inconvénients sont aussi abordés.
Ensuite cette formation présente techniquement chaque couche de la stack de Storage Spaces Direct et quelles sont les prérequis matérielles pour le bon fonctionnement de la solution. Des démonstrations sont présentés pour le déploiement et la configuration du cluster hyperconvergé de Microsoft.
Après la formation introduit comment maintenir et dépanner la solution via PowerShell. Enfin des solutions de PRA comme Storage Replica et Azure Site Recovery sont présentées.
Cette formation vous permettra d’acquérir des compétences dans le déploiement la maintenance d’un cluster hyperconvergé Microsoft.
Stockage et analyse temps réel d'événements avec Riak chez Booking.comDamien Krotkine
Chez Booking.com, un flux constant d'événements provient des différents systèmes et applications internes. Ces "events" sont des données critiques, et doivent être stockés pour être analysés en temps réel, ou bien sur du moyen et long terme. Ces données sont très peu structurées et de nature changeante, rendant difficile l'utilisation d'outils standards d'analyse.
Cette présentation montre comment fut construit un système de stockage complet avec analyse temps-réel, basé sur Riak.
Riak est une base de donnée NoSQL distribuée hybride très robuste et rapide.
Les points abordés seront: sérialisation et aggrégation des données, la configuration de Riak, les solutions pour diminuer la consommation de bande passante du cluster, l'implémentation de l'analyse temps-réel grace aux fonctions avancées de Riak: MapReduce, Secondary Indexes, commit-hooks.
1. Chp3 – Traitement de Données
Batch vs. Streaming Processing
Big Data
GL4 (Option Management des Systèmes d'Information) - 2016
Dr. Lilia SFAXI
www.liliasfaxi.wix.com/liliasfaxi
Slide 1
2. Traitement par lot: Batch Processing
• Moyen efficace de traiter de grands volumes de données
• Les données sont collectées, stockées, traitées, puis les résultats
fournis
• Les systèmes de batch processing ont besoin de programmes
différents pour l’entrée, le traitement et la génération des données
• Le traitement est réalisé sur l’ensemble des données
• Traitement de Données Complexes (CEP: Complex Event Processing)
§ Concept de traitement des évènements pour identifier les évènements
significatifs
§ Détection de schémas complexes, corrélation, abstraction et hiérarchie
entre évènements
• Hadoop Map-Reduce est un exemple de système utilisant le
traitement par lot
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 2
Présentation
3. Traitement par lot: Batch Processing
• A accès à toutes les données
• Peut réaliser des traitements lourds et complexes
• Est en général plus concerné par le débit (nombre d’actions réalisées
en une unité de temps) que par la latence (temps requis pour réaliser
l’action) des différents composants du traitement
• Sa latence est calculée en minutes (voire plus)
• Cible les caractéristiques volume et variété des Big Data
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 3
Caractéristiques
4. Traitement par lot: Batch Processing
• Il n’est pas possible d’exécuter des travaux récursifs ou itératifs de
manière inhérente
• Toutes les données doivent être prêtes avant le début du job
§ N’est pas approprié pour des traitements en ligne ou temps réel
• Latence d’exécution élevée
§ Produit des résultats sur des données relativement anciennes
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 4
Inconvénients
5. Traitement par lot: Batch Processing
• Les chèques de dépôt dans une banque sont accumulés et traités
chaque jour
• Les statistiques par mois/jour/année
• Factures générées pour les cartes de crédit (en général mensuelles)
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 5
Cas d’utilisation
6. Traitement par Streaming
• Les traitements se font sur un élément ou un petit nombre de données
récentes
• Le traitement est relativement simple
• Doit compléter chaque traitement en un temps proche du temps-réel
• Les traitements sont généralement indépendants
• Asynchrone: les sources de données n’interagissent pas directement
avec l’unité de traitement en streaming, en attendant une réponse par
exemple
• La latence de traitement est estimée en secondes
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 6
Caractéristiques
7. Traitement par Streaming
• Pas de visibilité sur l’ensemble des données
§ Certains types de traitements ne peuvent pas être réalisés
• Complexité opérationnelle élevée
§ Plus complexes à maintenir que les traitements batch
§ Le système doit être toujours connecté, toujours prêt, avoir des temps de
réponses courts, et gérer les données à l’arrivée
• Risque de perte de données
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 7
Inconvénients
8. Traitement par Streaming
• Recommandations en temps réel
§ Prise en compte de navigation récente, géolocalisation
§ Publicité en ligne, re-marketing
• Surveillance de larges infrastructures
• Agrégation de données financières à l’échelle d’une banque
• Internet des objets
• …
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 8
Cas d’Utilisation
9. Traitement en Temps réel
• Réponse du système en quelques millisecondes
• Plus approprié pour les APIs synchrones
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 9
Caractéristiques
11. Lambda Architecture
• Batch Layer
§ Gérer l’unité de stockage principale: des données brutes, immuables et
complètes
§ Permet de précalculer et conserver les résultats de requêtes appelées batch
Views
• Serving Layer
§ Permet d’indexer les batch views pour qu’elles soient requêtées au besoin
avec une faible latence
• Speed Layer
§ Permet d’accommoder toutes les requêtes sujettes à des besoins de faible
latence
§ Utilisation d’algorithmes rapides et incrémentaux
§ Gère les données récentes uniquement
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 11
Couches
13. Lambda Architecture
• Besoins:
§ Stockage scalable
o Haute distribution
o Support de la charge et du volume
§ Tolérance aux pannes
o Système de réplication et distribution des données
§ Robustesse
o Surtout concernant les évolutions du schéma
§ Permettant tout type de traitement
• Technologies
§ Hadoop
§ Avro : Système de sérialisation des données
§ Hive
§ …
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 13
Batch Layer
14. Lambda Architecture
• Mise à jour des vues en continu, de manière incrémentale
• Latence: ~10ms -> qq secondes
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 14
Speed Layer
15. Lambda Architecture
• Besoins:
§ Traitement en continu (stream processing)
§ Architecture asynchrone, distribuée et scalable
§ Tolérance aux pannes
§ Garanties de traitement si possible
o Rejeu possible des message en cas de perte d’un noeud
• Technologies
§ Kafka : collecte temps réel
§ Akka : message-driven applications
§ Storm : Stream processing
§ Spark : Micro-batch processing
§ …
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 15
Speed Layer
17. Lambda Architecture
• Besoins:
§ Écritures massives
§ Lectures indexées, accès aléatoire à faible temps de réponse
§ Scalabilité et tolérance aux pannes
• Technologies
§ Cassandra
§ Hbase
§ SploutSQL : requêtage SQL à faible latence
§ …
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 17
Serving Layer : Batch Views
18. Lambda Architecture
• Vues doivent être requêtées de façon intensive et performante
• Temps de réponse court, fort débit de requête supporté
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 18
Serving Layer: Realtime Views
19. Lambda Architecture
• Besoins
§ Support de fortes sollicitations en lecture et écriture (mise à jour
incrémentale)
§ Scalabilité et tolérance aux pannes
• Technologies
§ Cassandra
§ Hbase
§ Redis
§ ElasticSearch
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 19
Serving Layer: Realtime Views
20. Lambda Architecture
• Logique de fusion développée selon les vues et leur modélisation
• Peut s’avérer difficile
§ Expiration des vues
§ Recouvrement (intersection) possible entre les données batch et temps-réel
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 20
Serving Layer: Fusion
22. Lambda Architecture
Avantages
• Données de base sont immuables et conservées en entier
• Grande tolérance aux fautes contre les pannes matérielles et les
erreurs humaines
• Supporte une variété de cas d’utilisation qui incluent un requêtage à
faible latence tout autant que des mises à jour
• Capacité de « scaling out » linéaire
• Facilement extensible
Inconvénients
• Peut s’avérer coûteuse en terme de mise en place et expertise
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 22
Caractéristiques
23. • Encore des lettres grecques…
§ Kappa :
http://radar.oreilly.com/2014/07/questioning-the-lambda-
architecture.html
§ Zeta :
http://fr.slideshare.net/MapRTechnologies/next-generation-
enterprise-architecture-41966097
§ ιot-a :
http://iot-a.info/
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 23
Autres Architectures
24. En Conclusion…
• Tout est dans l’art d’être polyglotte…
§ Polyglot Programming
o Utilisation de plusieurs langages et paradigmes de programmation dans une
seule application
§ Polyglot Persistence
o Utilisation de plusieurs technologies de stockage
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 24
25. Sources
• Présentations
§ Lambda Architecture: comment réconcilier Big Data et temps réel, Mathieu
Despriee
• Articles
§ Lambda-Architecture, MapR Developer Center:
https://www.mapr.com/developercentral/lambda-architecture
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi 25