Cours Big Data
Master Recherche en Informatique Décisionnelle et
Vision Intelligente (MIDVI)
Université Sidi Mohamed Ben Abdellah
Faculté des Sciences Dhar El Mahraz
Fès
Préparé par :
Pr. Noura AHERRAHROU
Du SGBD SQL au SGBD NoSQL
En effet, avec l’explosion de l’information, les entreprises ont de plus
en plus de mal à gérer des données qui arrivent sous des formes de
plus en plus variées et qui sont produites de plus en plus rapidement.
Les géants du Web ont très tôt ressenti ce problème et le besoin
pressant de gérer efficacement ce flux important de données.
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Du SGBD SQL au SGBD NoSQL
 L’approche traditionnelle consiste à centraliser le stockage et
l’exploitation des données sur un serveur de SGBDR. Cependant,
avec l’explosion phénoménale des données, les SGBDR ont montré
très rapidement leurs limites face, d’une part, à la forte volumétrie
des données, et d’autre part à la diversité des types de données.
 En effet, les SGBDR sont conçus pour gérer uniquement des
données structurées (tabulaires). De plus, l’augmentation du
volume des données accroît le temps de latence des requêtes.
Cette latence est préjudiciable dans le cadre de nombreux métiers
nécessitant des réponses en temps quasi réel.
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Du SGBD SQL au SGBD NoSQL
 Dès lors, la solution n’est plus de centraliser la gestion des données
sur ce seul serveur (SGBDR), mais de distribuer leur stockage et
leur requêtage sur plusieurs machines (un cluster d’ordinateurs).
 Or, les SGBDR ne sont pas par essence des systèmes distribués.
C’est pour répondre à ces nouvelles exigences de montée en charge,
de disponibilité et de distribution du stockage que les SGBD dits «
NoSQL » ont émergé.
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Les bases de données NoSQL
 Beaucoup traduisent NoSQL par « No SQL », d’autres par « Not
Only SQL », pour faire référence à des SGBD qui n’utilisent pas
(ou presque) le SQL. En réalité, le débat n’est pas là. Le terme «
NoSQL » n’a rien avoir avec la présence ou l’absence du SQL dans
le SGBD. Il renvoie plutôt à un changement d’approche dans la
conception du système et de la base de données (passage de
l’approche relationnelle à l’approche non relationnelle).
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Les Bases de données NoSQL
 Principaux atouts
o Évolutivité
o Disponibilité
o Tolérance aux pannes
 Caractéristiques
o Architecture distribuée
o Modèle de données sans schéma
oUtilisation de langages et
interfaces qui ne sont pas
uniquement du SQL
o Les SGBD NoSQL ne replacent
pas les SGBDR mais les complètent
en palliant leurs faiblesses
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Panorama des SGBD NoSQL
La relation (ou table) n’est pas adaptée au contexte du big data. En
réponse à cette limite, de nouvelles approches de stockage, plus
souples, ont été élaborées et ont donné naissance à quatre catégories
de SGBD NoSQL : orientés clé/valeur, orientés colonnes, orientés
documents, orientés graphes.
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Les SGBD orientés clé/valeur
 Le type le plus élémentaire de base de
données NoSQL.
 Conçues pour sauvegarder les données sans
définir de schéma
 Toutes les données sont sous forme de
clef/valeur
o La valeur peut être une chaîne de caractères,
un objet,…
o La donnée est opaque au système: il n’est
pas possible d’y accéder sans passer par la clef
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Les SGBD orientés clé/valeur
Voici quelques exemples d'application
de cette règle (clé/valeur).
 Sur un site de réseau social, à partir d'un
utilisateur (la clé), je veux obtenir une liste
de ses amis (la valeur).
 Dans un catalogue de livres, le numéro ISBN (la clé)
donne accès à tous les détails sur le livre (la valeur).
 Dans un journal d'activités, la date d'un événement
(la clé) indexe les détails de ce qui s'est passé à ce
moment (la valeur).
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Les SGBD Clé/valeur
Cas d’utilisation
Logiciels
 Amazon Dynamo (Riak est l’implémentation open
source).
 Redis (projet sponsorisé par VMWare).
 Oracle NoSQL Database
Les moteurs de recherche tels que Google utilisent ces SGBD
pour stocker simplement des sites web entiers sous la forme
clé/valeur.
Amazon utilise aussi ce type de système pour gérer le
stockage des images et vidéos dans son offre Cloud
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
 Ce sont des SGBD clé/valeur, à la différence que les valeurs sur
lesquelles pointent les clés, sont des
documents JSON le plus souvent.
 Valeur de type simple
ou composée de plusieurs couples
(clé, valeur).
 Les documents ne sont pas généralement forcés d'avoir un
schéma. Ils sont donc flexibles et faciles à modifier.
 Chaque document contient une clé unique qui l'identifie.
Les SGBD orientés documents
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Les SGBD orientés documents
Exemple
 Un document JSON pourrait, par exemple, prendre toutes
les données stockées dans une ligne qui s'étend sur 20 tables
d'une base de données relationnelle et de les regrouper dans
un seul document/objet.
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
 outils de gestion de contenu (Content
Management System(CMS)), catalogues
de produits,web analytique, analyse
temps réel, enregistrement
d’événements, stockage de profils
utilisateurs, systèmes d’exploitation,
gestion de données semi-structurées
Cas d’utilisation
Logiciels
 CouchDB, RavenDB, MongoDB, Terrastore
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Les SGBD orientés documents
Les SGBD orientés colonnes
 Données stockées en colonnes.
 Modèle proche d’une table dans un SGBDR
mais ici le nombre de colonnes:
o Est dynamique.
o Peut varier d’un enregistrement à un autre ce qui évite de
retrouver des colonnes ayant des valeurs NULL.
 Les stockages orientés colonnes peuvent améliorer les
performances des requêtes
car ils peuvent accéder à des
données spécifiques d’une colonne.
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Les SGBD orientés colonnes
Exemple
ID Nom Prénom
1 Salmi Sara
2 Talebi Adil
3 Alaoui Hanane
Orientée ligne Orientée colonne
1,Salmi,Sara,DEUG;2,Talebi, Adil,
DUT; 3,Alaoui,Hanane,DUT;
1,2,3;Salmi, Talebi, Alaoui;
Sara,Adil, Hanane;DEUG, DUT,
DUT.
Diplôme
DEUG
DUT
DUT
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Les SGBD orientés colonnes
 Analyse de données, traitement analytique en ligne (OnLine
Analytical Processing(OLAP)), exploration de données(data
mining),entrepôt de données(data warehouse), gestion de
données semi-structurées, jeux de données scientifiques,
génomique fonctionnelle, journalisation d’événements et de
compteurs, analyses de clientèle et recommandation,
stockage de listes (messages, posts, commentaires,...),
traitements massifs.
Cas d’utilisation
Logiciels
 BigTable, HBase, Cassandra, SimpleDB
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Les SGBD orientés graphes
 Elle est basée sur les théories
des graphes.
 Elle est capable de représenter élégamment
n'importe quel type de données d'une
manière hautement accessible.
 La gestion d’un graphe (apriori orienté)c.-à-d. la
modélisation, le stockage et la manipulation de données
complexes liées par des relations non-triviales ou variables
 Chaque nœud représente une entité (comme un étudiant ou
une entreprise) et chaque arc représente un lien ou relation
entre deux noeuds.
 Une base de données de
type graphe stocke les
données dans un graphe.
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Les SGBD orientés graphes
 Quand le nombre de nœuds
augmente, le coût d'une étape
local(ou hop) reste le même.
 Conçues pour les données dont
les relations sont représentées
comme graphes,et ayant des
éléments interconnectés, avec
un nombre indéterminé de
relations entre elles.
 Adapté aux traitements des données
des réseaux sociaux
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Les SGBD orientés graphes
Exemple
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Les SGBD orientés graphes
 Moteurs de recommandation, informatique décisionnelle,
web sémantique, internet des objets(internet of things (IoT)),
sciences de la vie et calcul scientifique(bioinformatique,…),
données géospatiales, données liées, données
hiérarchiques(catalogue des produits, généalogie,…), réseaux
sociaux, réseaux de transport, services de routage et
d’expédition,services financiers (chaîne de financement,
dépendances, gestion des risques, détection des
fraudes,…),données ouvertes(opendata)
Cas d’utilisation
Logiciels
 Neo4J, OrientDB,Titan
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Mini Projet1 :
Analyse des tweets
L’application permet d’analyser les Tweets afin d’en
extraire des informations tels que:
• Les Hashtags les plus utilisés.
• Les statistiques des sentiments concernant les Tweets.
• Les mots les plus fréquents.
• Les meilleurs et les pires Tweets.
• La géolocalisation des tweets sur une carte
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Mini Projet2
La recherche géographique ou géolocalisation
 Ce type de recherche consiste à géolocaliser des points par
rapport à un point de référence.
 Les résultats sont retournés du plus proche
du point de référence au plus éloigné.
Exemples
 Trouver les hôtels qui sont situés à cinq minutes de votre
localisation actuelle.
 Trouver la Pharmacie de garde la plus proche à votre domicile.
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Mini Projet3 :
Etude et analyse prédictive de COVID-19 au Maroc.
L’objectif de ce projet est de faire une analyse des données des
patients afin de suivre l’évolution, de chercher des solutions, et
de faire des prédictions pour une meilleure prise en charge de
l’Epidémie de COVID19 au Maroc.
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
L’idée de base est d’analyser les informations des patients : âge,
sexe, taux de mortalité, les gens les plus vulnérables …
On cherche surtout à mieux comprendre la pénétration et la
propagation de l’épidémie du Coronavirus au Maroc, d’avoir des
réponses à certaines questions :
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Mini Projet3 :
Etude et analyse prédictive de COVID-19 au Maroc.
 Qui peut survivre au temps du Corona (Cas du Maroc)??
 Quel sont les gens les plus vulnérables (Cas du Maroc)??
 Quelles sont les régions les plus vulnérables (Cas du Maroc)??
 Quels sont les causes de mortalité chez les patients décédés
(Cas du Maroc)??
 L’évolution de COVID19 au cours de l’année 2019/2020 (taux
de mortalité, taux de guérison, …).
 Quand COVID19 va-t-il disparaitre ?
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Mini Projet3 :
Etude et analyse prédictive de COVID-19 au Maroc.
Mini projet 4:
Analyse des données d’un site de e-Commerce
Un site de e-Commerce souhaite, pouvoir remonter et traiter
en temps réel des données telles que le parcours utilisateur sur
son site e-commerce (suivi des actions client sur le site e-
commerce (clics, pages vues)). Par exemple, il souhaite
pouvoir obtenir en temps réel la performance du chiffre
d’affaire de chacune des catégories de produits comparée au
même jour de la semaine précédente de sorte à pouvoir
déclencher des actions marketing avec une bonne réactivité.
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Sources
Cours
 Big Data. Amal ABID, Ecole Nationale d’Ingénieurs de Sfax
(ENIS).
Cours disponible ici :
https://fr.slideshare.net/AmalAbid1/
 BigData_cours. Lilia Sfaxi . INSATunisia.
Cours disponible ici :
https://liliasfaxi.wixsite.com/liliasfaxi/big-data
 M2 MBDS - Hadoop / Big Data. Benjamin Renaut
Cours disponible ici :
http://cours.tokidev.fr/bigdata/
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL
Sources
Livres
Introduction
au Big Data
L’écosystème
Hadoop
Batch vs.
Streaming
Processing
Le moteur in-
memory
distribué :
Spark
Bases de
données
NoSQL

Bases de données no sql.pdf

  • 1.
    Cours Big Data MasterRecherche en Informatique Décisionnelle et Vision Intelligente (MIDVI) Université Sidi Mohamed Ben Abdellah Faculté des Sciences Dhar El Mahraz Fès Préparé par : Pr. Noura AHERRAHROU
  • 2.
    Du SGBD SQLau SGBD NoSQL En effet, avec l’explosion de l’information, les entreprises ont de plus en plus de mal à gérer des données qui arrivent sous des formes de plus en plus variées et qui sont produites de plus en plus rapidement. Les géants du Web ont très tôt ressenti ce problème et le besoin pressant de gérer efficacement ce flux important de données. Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 3.
    Du SGBD SQLau SGBD NoSQL  L’approche traditionnelle consiste à centraliser le stockage et l’exploitation des données sur un serveur de SGBDR. Cependant, avec l’explosion phénoménale des données, les SGBDR ont montré très rapidement leurs limites face, d’une part, à la forte volumétrie des données, et d’autre part à la diversité des types de données.  En effet, les SGBDR sont conçus pour gérer uniquement des données structurées (tabulaires). De plus, l’augmentation du volume des données accroît le temps de latence des requêtes. Cette latence est préjudiciable dans le cadre de nombreux métiers nécessitant des réponses en temps quasi réel. Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 4.
    Du SGBD SQLau SGBD NoSQL  Dès lors, la solution n’est plus de centraliser la gestion des données sur ce seul serveur (SGBDR), mais de distribuer leur stockage et leur requêtage sur plusieurs machines (un cluster d’ordinateurs).  Or, les SGBDR ne sont pas par essence des systèmes distribués. C’est pour répondre à ces nouvelles exigences de montée en charge, de disponibilité et de distribution du stockage que les SGBD dits « NoSQL » ont émergé. Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 5.
    Les bases dedonnées NoSQL  Beaucoup traduisent NoSQL par « No SQL », d’autres par « Not Only SQL », pour faire référence à des SGBD qui n’utilisent pas (ou presque) le SQL. En réalité, le débat n’est pas là. Le terme « NoSQL » n’a rien avoir avec la présence ou l’absence du SQL dans le SGBD. Il renvoie plutôt à un changement d’approche dans la conception du système et de la base de données (passage de l’approche relationnelle à l’approche non relationnelle). Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 6.
    Les Bases dedonnées NoSQL  Principaux atouts o Évolutivité o Disponibilité o Tolérance aux pannes  Caractéristiques o Architecture distribuée o Modèle de données sans schéma oUtilisation de langages et interfaces qui ne sont pas uniquement du SQL o Les SGBD NoSQL ne replacent pas les SGBDR mais les complètent en palliant leurs faiblesses Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 7.
    Panorama des SGBDNoSQL La relation (ou table) n’est pas adaptée au contexte du big data. En réponse à cette limite, de nouvelles approches de stockage, plus souples, ont été élaborées et ont donné naissance à quatre catégories de SGBD NoSQL : orientés clé/valeur, orientés colonnes, orientés documents, orientés graphes. Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 8.
    Les SGBD orientésclé/valeur  Le type le plus élémentaire de base de données NoSQL.  Conçues pour sauvegarder les données sans définir de schéma  Toutes les données sont sous forme de clef/valeur o La valeur peut être une chaîne de caractères, un objet,… o La donnée est opaque au système: il n’est pas possible d’y accéder sans passer par la clef Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 9.
    Les SGBD orientésclé/valeur Voici quelques exemples d'application de cette règle (clé/valeur).  Sur un site de réseau social, à partir d'un utilisateur (la clé), je veux obtenir une liste de ses amis (la valeur).  Dans un catalogue de livres, le numéro ISBN (la clé) donne accès à tous les détails sur le livre (la valeur).  Dans un journal d'activités, la date d'un événement (la clé) indexe les détails de ce qui s'est passé à ce moment (la valeur). Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 10.
    Les SGBD Clé/valeur Casd’utilisation Logiciels  Amazon Dynamo (Riak est l’implémentation open source).  Redis (projet sponsorisé par VMWare).  Oracle NoSQL Database Les moteurs de recherche tels que Google utilisent ces SGBD pour stocker simplement des sites web entiers sous la forme clé/valeur. Amazon utilise aussi ce type de système pour gérer le stockage des images et vidéos dans son offre Cloud Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 11.
     Ce sontdes SGBD clé/valeur, à la différence que les valeurs sur lesquelles pointent les clés, sont des documents JSON le plus souvent.  Valeur de type simple ou composée de plusieurs couples (clé, valeur).  Les documents ne sont pas généralement forcés d'avoir un schéma. Ils sont donc flexibles et faciles à modifier.  Chaque document contient une clé unique qui l'identifie. Les SGBD orientés documents Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 12.
    Les SGBD orientésdocuments Exemple  Un document JSON pourrait, par exemple, prendre toutes les données stockées dans une ligne qui s'étend sur 20 tables d'une base de données relationnelle et de les regrouper dans un seul document/objet. Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 13.
     outils degestion de contenu (Content Management System(CMS)), catalogues de produits,web analytique, analyse temps réel, enregistrement d’événements, stockage de profils utilisateurs, systèmes d’exploitation, gestion de données semi-structurées Cas d’utilisation Logiciels  CouchDB, RavenDB, MongoDB, Terrastore Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL Les SGBD orientés documents
  • 14.
    Les SGBD orientéscolonnes  Données stockées en colonnes.  Modèle proche d’une table dans un SGBDR mais ici le nombre de colonnes: o Est dynamique. o Peut varier d’un enregistrement à un autre ce qui évite de retrouver des colonnes ayant des valeurs NULL.  Les stockages orientés colonnes peuvent améliorer les performances des requêtes car ils peuvent accéder à des données spécifiques d’une colonne. Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 15.
    Les SGBD orientéscolonnes Exemple ID Nom Prénom 1 Salmi Sara 2 Talebi Adil 3 Alaoui Hanane Orientée ligne Orientée colonne 1,Salmi,Sara,DEUG;2,Talebi, Adil, DUT; 3,Alaoui,Hanane,DUT; 1,2,3;Salmi, Talebi, Alaoui; Sara,Adil, Hanane;DEUG, DUT, DUT. Diplôme DEUG DUT DUT Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 16.
    Les SGBD orientéscolonnes  Analyse de données, traitement analytique en ligne (OnLine Analytical Processing(OLAP)), exploration de données(data mining),entrepôt de données(data warehouse), gestion de données semi-structurées, jeux de données scientifiques, génomique fonctionnelle, journalisation d’événements et de compteurs, analyses de clientèle et recommandation, stockage de listes (messages, posts, commentaires,...), traitements massifs. Cas d’utilisation Logiciels  BigTable, HBase, Cassandra, SimpleDB Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 17.
    Les SGBD orientésgraphes  Elle est basée sur les théories des graphes.  Elle est capable de représenter élégamment n'importe quel type de données d'une manière hautement accessible.  La gestion d’un graphe (apriori orienté)c.-à-d. la modélisation, le stockage et la manipulation de données complexes liées par des relations non-triviales ou variables  Chaque nœud représente une entité (comme un étudiant ou une entreprise) et chaque arc représente un lien ou relation entre deux noeuds.  Une base de données de type graphe stocke les données dans un graphe. Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 18.
    Les SGBD orientésgraphes  Quand le nombre de nœuds augmente, le coût d'une étape local(ou hop) reste le même.  Conçues pour les données dont les relations sont représentées comme graphes,et ayant des éléments interconnectés, avec un nombre indéterminé de relations entre elles.  Adapté aux traitements des données des réseaux sociaux Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 19.
    Les SGBD orientésgraphes Exemple Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 20.
    Les SGBD orientésgraphes  Moteurs de recommandation, informatique décisionnelle, web sémantique, internet des objets(internet of things (IoT)), sciences de la vie et calcul scientifique(bioinformatique,…), données géospatiales, données liées, données hiérarchiques(catalogue des produits, généalogie,…), réseaux sociaux, réseaux de transport, services de routage et d’expédition,services financiers (chaîne de financement, dépendances, gestion des risques, détection des fraudes,…),données ouvertes(opendata) Cas d’utilisation Logiciels  Neo4J, OrientDB,Titan Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 21.
    Mini Projet1 : Analysedes tweets L’application permet d’analyser les Tweets afin d’en extraire des informations tels que: • Les Hashtags les plus utilisés. • Les statistiques des sentiments concernant les Tweets. • Les mots les plus fréquents. • Les meilleurs et les pires Tweets. • La géolocalisation des tweets sur une carte Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 22.
    Mini Projet2 La recherchegéographique ou géolocalisation  Ce type de recherche consiste à géolocaliser des points par rapport à un point de référence.  Les résultats sont retournés du plus proche du point de référence au plus éloigné. Exemples  Trouver les hôtels qui sont situés à cinq minutes de votre localisation actuelle.  Trouver la Pharmacie de garde la plus proche à votre domicile. Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 23.
    Mini Projet3 : Etudeet analyse prédictive de COVID-19 au Maroc. L’objectif de ce projet est de faire une analyse des données des patients afin de suivre l’évolution, de chercher des solutions, et de faire des prédictions pour une meilleure prise en charge de l’Epidémie de COVID19 au Maroc. Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 24.
    L’idée de baseest d’analyser les informations des patients : âge, sexe, taux de mortalité, les gens les plus vulnérables … On cherche surtout à mieux comprendre la pénétration et la propagation de l’épidémie du Coronavirus au Maroc, d’avoir des réponses à certaines questions : Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL Mini Projet3 : Etude et analyse prédictive de COVID-19 au Maroc.
  • 25.
     Qui peutsurvivre au temps du Corona (Cas du Maroc)??  Quel sont les gens les plus vulnérables (Cas du Maroc)??  Quelles sont les régions les plus vulnérables (Cas du Maroc)??  Quels sont les causes de mortalité chez les patients décédés (Cas du Maroc)??  L’évolution de COVID19 au cours de l’année 2019/2020 (taux de mortalité, taux de guérison, …).  Quand COVID19 va-t-il disparaitre ? Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL Mini Projet3 : Etude et analyse prédictive de COVID-19 au Maroc.
  • 26.
    Mini projet 4: Analysedes données d’un site de e-Commerce Un site de e-Commerce souhaite, pouvoir remonter et traiter en temps réel des données telles que le parcours utilisateur sur son site e-commerce (suivi des actions client sur le site e- commerce (clics, pages vues)). Par exemple, il souhaite pouvoir obtenir en temps réel la performance du chiffre d’affaire de chacune des catégories de produits comparée au même jour de la semaine précédente de sorte à pouvoir déclencher des actions marketing avec une bonne réactivité. Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 27.
    Sources Cours  Big Data.Amal ABID, Ecole Nationale d’Ingénieurs de Sfax (ENIS). Cours disponible ici : https://fr.slideshare.net/AmalAbid1/  BigData_cours. Lilia Sfaxi . INSATunisia. Cours disponible ici : https://liliasfaxi.wixsite.com/liliasfaxi/big-data  M2 MBDS - Hadoop / Big Data. Benjamin Renaut Cours disponible ici : http://cours.tokidev.fr/bigdata/ Introduction au Big Data L’écosystème Hadoop Batch vs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL
  • 28.
    Sources Livres Introduction au Big Data L’écosystème Hadoop Batchvs. Streaming Processing Le moteur in- memory distribué : Spark Bases de données NoSQL