CHAPITRE1: INTRODUCTION
Dr. MALKI Abdelhamid @: a.malki@esi-sba.dz
Ecole Supérieure d’Informatique de Sidi Bel Abbes (ESI-SBA) 2022/2023
Module SIW/ISI: BIG DATA
OBJECTIFS
• Fournir les notions essentielles des bases de données
standard et présenter les bases de type NoSQL et les
concepts associés.
• Fournir les outils informatiques pour la mise en œuvre d’une
architecture dédiée aux traitements des données massives
(Big Data).
• Intégrer des composants appropriés de l’écosystème
Hadoop/Spark pour une solution de Big Data
CONTENU DU MODULE(1)
• 1. Introduction aux Systèmes NoSQL et Aspects méthodologiques
• Modèles d'agrégats
• Modèles de données spécifiques (relations, graphes, base de données
sans schéma)
• Modèles distribués, Tables et fonctions de hachage, Consistance
• 2. Les différents types de bases de données NoSQL
• Orienté clé/valeur (Redis)
• Orienté document (MongoDB)
• Orienté colonne (Cassandra)
• Orienté graph (Neo4j)
CONTENU DU MODULE(2)
• 3. Traitement massivement parallèle
• Concepts & Modèle de programmation MapReduce
• 4. Ecosystème Hadoop
• Formalisme de stockage distribué (HDFS, Avro, Parquet, Hive)
• Design Pattern: Map-Reduce
• 5. Ecosystème SPARK
• SPARK vs HADOOP
• PySpark (transformation et action)
• Outils pour le traitement distribué SQL (Spark SQL)
• Traitement distribué Machine learning (Spark MLlib, Spark R )
• Traitement distribué Streaming (Spark Streaming, Apache Storm)
ORGANISATION ET ÉVALUATION
• Volume Horaire
• 10 semaines *2h : (cours + TP)
• Evaluation
• Examen1 : ?%
• Note de TP : ?%
• Crédits: 5
• Coefficient: 5
BIBLIOGRAPHIE
• Hadoop, Devenez opérationnel dans le monde du Big Data, Juvénal
CHOKOGOUE, eni, 2017
• Les bases de données NoSQL et le Big Data Comprendre et mettre en
œuvre, Rudi Bruchez, Eyrolles, 2015
INTRODUCTION
À BIG DATA
DONNÉES MASSIVES
• Les Données Massives ou Big Data sont des collections d’informations
qui auraient été considérées comme gigantesques, impossible à
stocker et à traiter, il y a une dizaine d’années.
• Internet :
• Google en 2015 : 10 Eo (10 milliards de Go),
• Facebook en 2014 : 300 Po de données (300 millions de Go), 4 Po de
nouvelles données par jour,
• Amazon : 1 Eo.
• BigScience : télescopes (1 Po/jour), CERN (500 To/jour, 140 Po de
stockage), génome, environnement. . .
• La raison est que tout est enregistré sans discernement, dans l’idée
que ça pourra être exploité.
BIG DATA: MOTIVATION
• Data Torrent
• Open data
• Social network
• IoT
• SmartPhone
• Super-Computer
• Multi Core/Node
‐
• RAM ~ 1 To
• GPU/TPU
• Disk ~ 24 To SSD
• Cloud Computing
BIG DATA
ERA
BIG DATA: DÉFINITION
• Big Data ∈ Data Science
• ou bien
• Big Data ∋ Data Science
• « Data Science » : plutôt Math & Stats
• « Big Data » : plutôt Informatique
?
BIG DATA: DÉFINITION
• «Mathématique» :
• Stats & Probas, Machine Learning, Deep Learning, Analyse de
Graphes…
• Informatique distribuée (et parallèle) :
• Paradigme de programmation Map Reduce
‐
• « amener les codes de calcul sur les nœuds de données »
• « traitements large échelle » ou même « web scale »
‐
• Sur cluster Hadoop, sur matériel standard
• Paradigmes du Calcul à Haute Performance (HPC)
• Pour accélérer les algorithmes de « data analytics » ou de « machine
learning »
• Sur cluster de calcul intensif, sur GPU, sur SuperCalculateurs
BIG DATA: LES 5 V
• Extraction d’informations et décisions à partir de données,
caractérisées par les 5 V:
• Volume (Volume )
• Variété (Variety )
• Vitesse (Velocity )
• Véracité (Veracity)
• Valeur (Value)
BIG DATA: VOLUME
• Chaque jour, des trillions d’octets de données sont générées.
• 90% des données créées dans le monde l’ont été au cours des 6
dernières années.
• Comment déterminer les données qui méritent d’être stockées?
• Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales?
Sociales?
• Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi.
• Problèmes:
• Comment stocker les données dans un endroit fiable, qui soit moins cher ?
• Comment parcourir ces données et en extraire des informations
facilement et rapidement ?
BIG DATA: VOLUME
• Volumes de données estimées
• Google: 15 000PB (=15 Exabytes)
• Facebook: 300PB
• Volumes de données par jour:
• Google: 100 PB (5 milliards de requêtes par jour)
• Facebook: 600 TB
• …
BIG DATA: VARIÉTÉ
• Traitement des données sous forme structurée
• bases de données structurée, feuilles de calcul, …
• Et semi-structurée voire non-structurée
• Textes, sons, images, vidéos, données de capteurs, fichiers
journaux, medias sociaux, signaux,…
• qui doivent faire l’objet d’une analyse collective.
VOLUME & VARIÉTÉ
BIG DATA: VITESSE (VELOCITY)
• Utilisation des données en temps réel (pour la détection de fraudes,
analyse des données, face recognition, …).
• DATA STREAMING:
 Fait référence à la vitesse à laquelle de nouvelles données sont générées,
capturées et partagées
 Et la vitesse à laquelle les données sont traitées et restituées de manière
compréhensible par le système pour être bien analysées.
BIG DATA: VÉRACITÉ
• Cela fait référence au désordre ou la fiabilité des données.
• Avec l’augmentation de la quantité, la qualité et la précision se
perdent
• abréviations, typos, déformations, source peu fiable, redondance…
• Les solutions Big Data doivent remédier à cela en se référant au
volume des données existantes
• Nécessité d’une (très) grande rigueur dans l’organisation de la
collecte et le recoupement, croisement, enrichissement des données
• Data Cleaning
• Data Wrangling
BIG DATA: VALEUR
• Le V le plus important
• Il faut transformer toutes les données en valeurs exploitables: les
données sans valeur sont inutiles
• Le succès d’un projet Big Data n'a d'intérêt aux utilisateurs que s'il
apporte de la valeur ajoutée et de nouvelles connaissances.
CAS D’UTILISATION:
HEALTHCARE
BIG DATA FOR CUSTOMER SENTIMENT
ANALYSIS: NESTLÉ
• Un portfolio de 2000 marques (nutrition, santé, bien-être)
• 2010 : crise liée à l’huile de palme utilisée dans les produits KitKat
(campagne virale de Greenpeace)
• Depuis, une équipe de 15 personnes (Digital Acceleration
Team) surveille 24h/24 les échanges concernant les produits
Nestlé sur les réseaux sociaux avec le but d’engager le dialogue
et de transformer les sentiments négatifs
CAS D’UTILISATION :
TRAFFIC CONTROL USING BIG DATA
• Batch/RealTime processing
• Traffic Crashes
• Red Light Camera Violations
• Speed Camera Violations
• etc
BIG DATA:
ACTEURS ET SOLUTIONS
• Les grands acteurs du web tel que Google, Yahoo, Facebook, Twitter,
LinkedIn… ont été les premiers à être confrontés à des volumétries de
données extrêmement importantes et ont été à l’origine des
premières innovations en la matière portées principalement sur deux
types de technologies:
• Les plateformes de développement et de traitement des données:
GFS, Hadoop, HDFS, Spark,…
• Les bases de données NoSql
BIG DATA:
ACTEURS ET SOLUTIONS
BIG DATA: TECHNOLOGIES
• Processing
• Hadoop, Spark, Hive, Pig, mrjob, Caffeine
• NoSQL Databases
• Hbase, MongoDB, Vertica, Cassandra, Neo4j, etc.
• Servers
• EC2, Google App Engine, Elastic, Beanstalk, Heroku
• Analytics
• R, SAS, Python scikit-learn, SparkMLLib, Apache Mahout
• Search
• Solr/Lucene, ElasticSearch
BIG DATA: TECHNOLOGIES
BIG DATA: LANDSCAPE 2019
BIG DATA: LANDSCAPE 2021

634092592-Untitledddddddddddddddddd.pptx

  • 1.
    CHAPITRE1: INTRODUCTION Dr. MALKIAbdelhamid @: a.malki@esi-sba.dz Ecole Supérieure d’Informatique de Sidi Bel Abbes (ESI-SBA) 2022/2023 Module SIW/ISI: BIG DATA
  • 2.
    OBJECTIFS • Fournir lesnotions essentielles des bases de données standard et présenter les bases de type NoSQL et les concepts associés. • Fournir les outils informatiques pour la mise en œuvre d’une architecture dédiée aux traitements des données massives (Big Data). • Intégrer des composants appropriés de l’écosystème Hadoop/Spark pour une solution de Big Data
  • 3.
    CONTENU DU MODULE(1) •1. Introduction aux Systèmes NoSQL et Aspects méthodologiques • Modèles d'agrégats • Modèles de données spécifiques (relations, graphes, base de données sans schéma) • Modèles distribués, Tables et fonctions de hachage, Consistance • 2. Les différents types de bases de données NoSQL • Orienté clé/valeur (Redis) • Orienté document (MongoDB) • Orienté colonne (Cassandra) • Orienté graph (Neo4j)
  • 4.
    CONTENU DU MODULE(2) •3. Traitement massivement parallèle • Concepts & Modèle de programmation MapReduce • 4. Ecosystème Hadoop • Formalisme de stockage distribué (HDFS, Avro, Parquet, Hive) • Design Pattern: Map-Reduce • 5. Ecosystème SPARK • SPARK vs HADOOP • PySpark (transformation et action) • Outils pour le traitement distribué SQL (Spark SQL) • Traitement distribué Machine learning (Spark MLlib, Spark R ) • Traitement distribué Streaming (Spark Streaming, Apache Storm)
  • 5.
    ORGANISATION ET ÉVALUATION •Volume Horaire • 10 semaines *2h : (cours + TP) • Evaluation • Examen1 : ?% • Note de TP : ?% • Crédits: 5 • Coefficient: 5
  • 6.
    BIBLIOGRAPHIE • Hadoop, Devenezopérationnel dans le monde du Big Data, Juvénal CHOKOGOUE, eni, 2017 • Les bases de données NoSQL et le Big Data Comprendre et mettre en œuvre, Rudi Bruchez, Eyrolles, 2015
  • 7.
  • 8.
    DONNÉES MASSIVES • LesDonnées Massives ou Big Data sont des collections d’informations qui auraient été considérées comme gigantesques, impossible à stocker et à traiter, il y a une dizaine d’années. • Internet : • Google en 2015 : 10 Eo (10 milliards de Go), • Facebook en 2014 : 300 Po de données (300 millions de Go), 4 Po de nouvelles données par jour, • Amazon : 1 Eo. • BigScience : télescopes (1 Po/jour), CERN (500 To/jour, 140 Po de stockage), génome, environnement. . . • La raison est que tout est enregistré sans discernement, dans l’idée que ça pourra être exploité.
  • 11.
    BIG DATA: MOTIVATION •Data Torrent • Open data • Social network • IoT • SmartPhone • Super-Computer • Multi Core/Node ‐ • RAM ~ 1 To • GPU/TPU • Disk ~ 24 To SSD • Cloud Computing BIG DATA ERA
  • 12.
    BIG DATA: DÉFINITION •Big Data ∈ Data Science • ou bien • Big Data ∋ Data Science • « Data Science » : plutôt Math & Stats • « Big Data » : plutôt Informatique ?
  • 13.
    BIG DATA: DÉFINITION •«Mathématique» : • Stats & Probas, Machine Learning, Deep Learning, Analyse de Graphes… • Informatique distribuée (et parallèle) : • Paradigme de programmation Map Reduce ‐ • « amener les codes de calcul sur les nœuds de données » • « traitements large échelle » ou même « web scale » ‐ • Sur cluster Hadoop, sur matériel standard • Paradigmes du Calcul à Haute Performance (HPC) • Pour accélérer les algorithmes de « data analytics » ou de « machine learning » • Sur cluster de calcul intensif, sur GPU, sur SuperCalculateurs
  • 14.
    BIG DATA: LES5 V • Extraction d’informations et décisions à partir de données, caractérisées par les 5 V: • Volume (Volume ) • Variété (Variety ) • Vitesse (Velocity ) • Véracité (Veracity) • Valeur (Value)
  • 15.
    BIG DATA: VOLUME •Chaque jour, des trillions d’octets de données sont générées. • 90% des données créées dans le monde l’ont été au cours des 6 dernières années. • Comment déterminer les données qui méritent d’être stockées? • Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales? • Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi. • Problèmes: • Comment stocker les données dans un endroit fiable, qui soit moins cher ? • Comment parcourir ces données et en extraire des informations facilement et rapidement ?
  • 16.
    BIG DATA: VOLUME •Volumes de données estimées • Google: 15 000PB (=15 Exabytes) • Facebook: 300PB • Volumes de données par jour: • Google: 100 PB (5 milliards de requêtes par jour) • Facebook: 600 TB • …
  • 17.
    BIG DATA: VARIÉTÉ •Traitement des données sous forme structurée • bases de données structurée, feuilles de calcul, … • Et semi-structurée voire non-structurée • Textes, sons, images, vidéos, données de capteurs, fichiers journaux, medias sociaux, signaux,… • qui doivent faire l’objet d’une analyse collective.
  • 18.
  • 19.
    BIG DATA: VITESSE(VELOCITY) • Utilisation des données en temps réel (pour la détection de fraudes, analyse des données, face recognition, …). • DATA STREAMING:  Fait référence à la vitesse à laquelle de nouvelles données sont générées, capturées et partagées  Et la vitesse à laquelle les données sont traitées et restituées de manière compréhensible par le système pour être bien analysées.
  • 20.
    BIG DATA: VÉRACITÉ •Cela fait référence au désordre ou la fiabilité des données. • Avec l’augmentation de la quantité, la qualité et la précision se perdent • abréviations, typos, déformations, source peu fiable, redondance… • Les solutions Big Data doivent remédier à cela en se référant au volume des données existantes • Nécessité d’une (très) grande rigueur dans l’organisation de la collecte et le recoupement, croisement, enrichissement des données • Data Cleaning • Data Wrangling
  • 21.
    BIG DATA: VALEUR •Le V le plus important • Il faut transformer toutes les données en valeurs exploitables: les données sans valeur sont inutiles • Le succès d’un projet Big Data n'a d'intérêt aux utilisateurs que s'il apporte de la valeur ajoutée et de nouvelles connaissances.
  • 22.
  • 23.
    BIG DATA FORCUSTOMER SENTIMENT ANALYSIS: NESTLÉ • Un portfolio de 2000 marques (nutrition, santé, bien-être) • 2010 : crise liée à l’huile de palme utilisée dans les produits KitKat (campagne virale de Greenpeace) • Depuis, une équipe de 15 personnes (Digital Acceleration Team) surveille 24h/24 les échanges concernant les produits Nestlé sur les réseaux sociaux avec le but d’engager le dialogue et de transformer les sentiments négatifs
  • 24.
    CAS D’UTILISATION : TRAFFICCONTROL USING BIG DATA • Batch/RealTime processing • Traffic Crashes • Red Light Camera Violations • Speed Camera Violations • etc
  • 25.
    BIG DATA: ACTEURS ETSOLUTIONS • Les grands acteurs du web tel que Google, Yahoo, Facebook, Twitter, LinkedIn… ont été les premiers à être confrontés à des volumétries de données extrêmement importantes et ont été à l’origine des premières innovations en la matière portées principalement sur deux types de technologies: • Les plateformes de développement et de traitement des données: GFS, Hadoop, HDFS, Spark,… • Les bases de données NoSql
  • 26.
  • 27.
    BIG DATA: TECHNOLOGIES •Processing • Hadoop, Spark, Hive, Pig, mrjob, Caffeine • NoSQL Databases • Hbase, MongoDB, Vertica, Cassandra, Neo4j, etc. • Servers • EC2, Google App Engine, Elastic, Beanstalk, Heroku • Analytics • R, SAS, Python scikit-learn, SparkMLLib, Apache Mahout • Search • Solr/Lucene, ElasticSearch
  • 28.
  • 30.
  • 31.