634092592-Untitledddddddddddddddddd.pptx

CHAPITRE1: INTRODUCTION
Dr. MALKI Abdelhamid @: a.malki@esi-sba.dz
Ecole Supérieure d’Informatique de Sidi Bel Abbes (ESI-SBA) 2022/2023
Module SIW/ISI: BIG DATA

OBJECTIFS
• Fournir les notions essentielles des bases de données
standard et présenter les bases de type NoSQL et les
concepts associés.
• Fournir les outils informatiques pour la mise en œuvre d’une
architecture dédiée aux traitements des données massives
(Big Data).
• Intégrer des composants appropriés de l’écosystème
Hadoop/Spark pour une solution de Big Data

CONTENU DU MODULE(1)
• 1. Introduction aux Systèmes NoSQL et Aspects méthodologiques
• Modèles d'agrégats
• Modèles de données spécifiques (relations, graphes, base de données
sans schéma)
• Modèles distribués, Tables et fonctions de hachage, Consistance
• 2. Les différents types de bases de données NoSQL
• Orienté clé/valeur (Redis)
• Orienté document (MongoDB)
• Orienté colonne (Cassandra)
• Orienté graph (Neo4j)

CONTENU DU MODULE(2)
• 3. Traitement massivement parallèle
• Concepts & Modèle de programmation MapReduce
• 4. Ecosystème Hadoop
• Formalisme de stockage distribué (HDFS, Avro, Parquet, Hive)
• Design Pattern: Map-Reduce
• 5. Ecosystème SPARK
• SPARK vs HADOOP
• PySpark (transformation et action)
• Outils pour le traitement distribué SQL (Spark SQL)
• Traitement distribué Machine learning (Spark MLlib, Spark R )
• Traitement distribué Streaming (Spark Streaming, Apache Storm)

ORGANISATION ET ÉVALUATION
• Volume Horaire
• 10 semaines *2h : (cours + TP)
• Evaluation
• Examen1 : ?%
• Note de TP : ?%
• Crédits: 5
• Coefficient: 5

BIBLIOGRAPHIE
• Hadoop, Devenez opérationnel dans le monde du Big Data, Juvénal
CHOKOGOUE, eni, 2017
• Les bases de données NoSQL et le Big Data Comprendre et mettre en
œuvre, Rudi Bruchez, Eyrolles, 2015

DONNÉES MASSIVES
• Les Données Massives ou Big Data sont des collections d’informations
qui auraient été considérées comme gigantesques, impossible à
stocker et à traiter, il y a une dizaine d’années.
• Internet :
• Google en 2015 : 10 Eo (10 milliards de Go),
• Facebook en 2014 : 300 Po de données (300 millions de Go), 4 Po de
nouvelles données par jour,
• Amazon : 1 Eo.
• BigScience : télescopes (1 Po/jour), CERN (500 To/jour, 140 Po de
stockage), génome, environnement. . .
• La raison est que tout est enregistré sans discernement, dans l’idée
que ça pourra être exploité.

BIG DATA: MOTIVATION
• Data Torrent
• Open data
• Social network
• IoT
• SmartPhone
• Super-Computer
• Multi Core/Node
‐
• RAM ~ 1 To
• GPU/TPU
• Disk ~ 24 To SSD
• Cloud Computing
BIG DATA
ERA

BIG DATA: DÉFINITION
• Big Data ∈ Data Science
• ou bien
• Big Data ∋ Data Science
• « Data Science » : plutôt Math & Stats
• « Big Data » : plutôt Informatique
?

BIG DATA: DÉFINITION
• «Mathématique» :
• Stats & Probas, Machine Learning, Deep Learning, Analyse de
Graphes…
• Informatique distribuée (et parallèle) :
• Paradigme de programmation Map Reduce
‐
• « amener les codes de calcul sur les nœuds de données »
• « traitements large échelle » ou même « web scale »
‐
• Sur cluster Hadoop, sur matériel standard
• Paradigmes du Calcul à Haute Performance (HPC)
• Pour accélérer les algorithmes de « data analytics » ou de « machine
learning »
• Sur cluster de calcul intensif, sur GPU, sur SuperCalculateurs

BIG DATA: LES 5 V
• Extraction d’informations et décisions à partir de données,
caractérisées par les 5 V:
• Volume (Volume )
• Variété (Variety )
• Vitesse (Velocity )
• Véracité (Veracity)
• Valeur (Value)

BIG DATA: VOLUME
• Chaque jour, des trillions d’octets de données sont générées.
• 90% des données créées dans le monde l’ont été au cours des 6
dernières années.
• Comment déterminer les données qui méritent d’être stockées?
• Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales?
Sociales?
• Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi.
• Problèmes:
• Comment stocker les données dans un endroit fiable, qui soit moins cher ?
• Comment parcourir ces données et en extraire des informations
facilement et rapidement ?

BIG DATA: VOLUME
• Volumes de données estimées
• Google: 15 000PB (=15 Exabytes)
• Facebook: 300PB
• Volumes de données par jour:
• Google: 100 PB (5 milliards de requêtes par jour)
• Facebook: 600 TB
• …

BIG DATA: VARIÉTÉ
• Traitement des données sous forme structurée
• bases de données structurée, feuilles de calcul, …
• Et semi-structurée voire non-structurée
• Textes, sons, images, vidéos, données de capteurs, fichiers
journaux, medias sociaux, signaux,…
• qui doivent faire l’objet d’une analyse collective.

BIG DATA: VITESSE (VELOCITY)
• Utilisation des données en temps réel (pour la détection de fraudes,
analyse des données, face recognition, …).
• DATA STREAMING:
 Fait référence à la vitesse à laquelle de nouvelles données sont générées,
capturées et partagées
 Et la vitesse à laquelle les données sont traitées et restituées de manière
compréhensible par le système pour être bien analysées.

BIG DATA: VÉRACITÉ
• Cela fait référence au désordre ou la fiabilité des données.
• Avec l’augmentation de la quantité, la qualité et la précision se
perdent
• abréviations, typos, déformations, source peu fiable, redondance…
• Les solutions Big Data doivent remédier à cela en se référant au
volume des données existantes
• Nécessité d’une (très) grande rigueur dans l’organisation de la
collecte et le recoupement, croisement, enrichissement des données
• Data Cleaning
• Data Wrangling

BIG DATA: VALEUR
• Le V le plus important
• Il faut transformer toutes les données en valeurs exploitables: les
données sans valeur sont inutiles
• Le succès d’un projet Big Data n'a d'intérêt aux utilisateurs que s'il
apporte de la valeur ajoutée et de nouvelles connaissances.

CAS D’UTILISATION:
HEALTHCARE

BIG DATA FOR CUSTOMER SENTIMENT
ANALYSIS: NESTLÉ
• Un portfolio de 2000 marques (nutrition, santé, bien-être)
• 2010 : crise liée à l’huile de palme utilisée dans les produits KitKat
(campagne virale de Greenpeace)
• Depuis, une équipe de 15 personnes (Digital Acceleration
Team) surveille 24h/24 les échanges concernant les produits
Nestlé sur les réseaux sociaux avec le but d’engager le dialogue
et de transformer les sentiments négatifs

CAS D’UTILISATION :
TRAFFIC CONTROL USING BIG DATA
• Batch/RealTime processing
• Traffic Crashes
• Red Light Camera Violations
• Speed Camera Violations
• etc

BIG DATA:
ACTEURS ET SOLUTIONS
• Les grands acteurs du web tel que Google, Yahoo, Facebook, Twitter,
LinkedIn… ont été les premiers à être confrontés à des volumétries de
données extrêmement importantes et ont été à l’origine des
premières innovations en la matière portées principalement sur deux
types de technologies:
• Les plateformes de développement et de traitement des données:
GFS, Hadoop, HDFS, Spark,…
• Les bases de données NoSql

BIG DATA:
ACTEURS ET SOLUTIONS

BIG DATA: TECHNOLOGIES
• Processing
• Hadoop, Spark, Hive, Pig, mrjob, Caffeine
• NoSQL Databases
• Hbase, MongoDB, Vertica, Cassandra, Neo4j, etc.
• Servers
• EC2, Google App Engine, Elastic, Beanstalk, Heroku
• Analytics
• R, SAS, Python scikit-learn, SparkMLLib, Apache Mahout
• Search
• Solr/Lucene, ElasticSearch

634092592-Untitledddddddddddddddddd.pptx

Contenu connexe

Similaire à 634092592-Untitledddddddddddddddddd.pptx

Plus de RihabBENLAMINE

Dernier

634092592-Untitledddddddddddddddddd.pptx