SlideShare une entreprise Scribd logo
1  sur  33
Télécharger pour lire hors ligne
Big Data: NoSQL comme solution
Jemli Fathi
3éme année ingénierie génie logiciel à ISSATSo
jemlifathi2013@gmail.com
Je me présente
Plan
Définition
Historique
NoSQL: c'est quoi?
Pourquoi le NoSQL?
Les types des moteurs NoSQL
Perspective pour l'avenir du Big Data
Définition du Big Data
90% des données d'aujourd'hui
ont été crée dans les 2
dernières années.
Loi de Moore: le volume des
données double tous les 18
mois.
YouTube: 13 millions d'heures et
700 milliards de vues en 2010.
Facebook: 20 To / jour
(compressé).
CERN / LHC: 40 TB / jour (15PB /
an).
Wikipédia:
Les big data, littéralement les "grosses
données", ou méga-données, désignent
des ensembles de données qui
deviennent tellement volumineuses
qu'ils en deviennent difficiles à
travailler avec des outils classiques de
gestion de base de données ou de
gestion de l'information.
Les Big Data sont caractérisées par:
Le volume: de l'ordre de Péta-Octets.
La variété: ils viennent de sources hétéroclites.
La vélocité: ils exigent un temps record pour les explorer et les analyser.
Les centres de données (Data center)
Un data center est un emplacement physique ou ils sont regroupés des
équipements informatiques (des serveurs, des "mainframes"...).
Il permet pour l'entreprise de stocker des données, les traiter et les protéger.
Cet espace doit être protégé contre les incendies, équipé d'un système
d'alimentation d'urgence, et surveillé par des spécialistes pour éviter les
intrusions et agir rapidement en cas de panne.
Les centres de données sont très gourmands en énergie (2% de la consommation
mondiale).
Mobiles
Dans la mer
Sur des navires
Le plus grand centre de données dans le monde (en 2012)
Google
Données traitées:
Des pages Web.
Les données stockées sur les différents services
offerts par Google(Drive, Calendar, Gmail...).
Besoin:
Gérer un volume de données de l'ordre de Péta-octets.
Indexer et chercher des mots spécifiques dans
des milliards de pages Web.
Générer du contenu Web dans un temps très réduit.
Historique
La problématique
Les données stockées et les
traitements demandés ne peuvent
pas être satisfaits sur une seule
machine quelque soit sa puissance,
même en utilisant un réseau de
machines, les communications
entre les machines rendent les
traitements très lents.
Solution: approche centralisée
Map Reduce: 2003
Map:
Distribuer le travail sur plusieurs machines
Reduce:
Récupérer le résultat de chaque machine
et le regrouper
Les limites de la solution adoptée
A l'époque, ni les systèmes de
fichiers, ni les bases de données
permettent l'implémentation d'un
tel patron d'architecture.
Google File System(GFS)
Un gigantesque système de fichiers
pouvant contenir plusieurs
machines.
Big Table
Une base de données pour stocker
les fichiers structurés et qui est
adaptée à GFS.
L'architecture innovante adoptée
par Google a inspiré beaucoup de
personnes et a été suivie par
plusieurs solutions, par
exemple(Hadoop, Accumulo,
Cassandra...).
Amazon
Données traitées:
Les produits
Les utilisateurs
Les paniers
Besoin:
Stockage et gestion de données très volumineuses.
Historique
Solution: approche décentralisée
Dynamo DB:
Un système de base de données
distribué. Conçu pour gérer des
entrepôts de paires clé-valeur.
NoSQL: c'est quoi?
NoSQL(Not Only SQL) ≠ SGBDR.
L'unité logique n'y est plus la table.
Les données ne sont en général pas manipulées avec SQL.
Les systèmes NoSQL sont conçues pour répondre
aux contraintes suivantes:
Cohérence : tous les nœuds du système voient exactement les mêmes données
au même moment.
Haute disponibilité (Availability) : en cas de panne, les données restent
accessibles.
Tolérance au Partitionnement : le système peut être partitionné
Pourquoi le NoSQL?
Des opérateurs, des sites et des entreprises qui ont un besoin excessif pour stocker
et gérer des données massives => il faut trouver de nouvelles solutions!
Des solutions pour gérer les données
Les contraintes des moteurs relationnels les rendent très lourdes.
L'évolution du matériel(serveurs...).
La charge associée à l'usage du Web ou du Mobile qui est impossible à prévoir.
Des solutions pour faciliter la tache des
développeurs
Le "Web Scale": pouvoir mettre à l'échelle des applications.
Eviter les jointures pour pouvoir distribuer les données.
Eviter le langage SQL qui est un langage déclaratif difficile à maîtriser.
Esprit "Open Source": solutions NoSQL gratuits en les comparant avec les SGBD
relationnels très coûteux.
Les solutions NoSQL sont bâtis pour être distribués.
Utilisation de la mémoire vive pour stocker les données => rapidité d’accès.
+
=
Les types des moteurs NoSQL
Les moteurs à clé/valeur
Les données sont représentés par des couples clé-valeur
La valeur peut être une simple chaîne de caractères, un objet sérialisé…
La communication avec la BD se résume aux opérateursGET, PUT, DELETE...
Les solutions les plus connues sont Redis(Salvatore Sanfilippo et Pieter Noordhuis),
Riak(Apache) et Voldemort(LinkedIn).
Les types des moteurs NoSQL
Les moteurs orienté document
Ce modèle est basé sur le paradigme clé-valeur, sauf que la valeur ici est un fichier
JSON ou XML.
Les implémentations les plus populaires sont CouchDB (Apache), RavenDB (destiné
aux plateformes .NET/Windows) et MongoDB(10Gen).
Les types des moteurs NoSQL
Les moteurs orienté colonne
Ce modèle ressemble à une table dans un SGBDR, mais un nombre de colonnes
dynamique.
=>Le nombre de colonnes varie d'un enregistrement à un autre, ce qui évite les
valeurs nulles.
Comme solutions, on retrouve principalement HBase (solution inspirée par Google
BigTable) ainsi que Cassandra (solution inspirée par Dynamo d’Amazon et BigTable
de Google).
Les types des moteurs NoSQL
Les moteurs orienté graphe
Ce modèle est basé sur la théorie des graphes.
Il s'appuie sur les notions de nœuds, de relations et de propriétés.
Il facilite la modélisation du monde réel.
La principale solution est Neo4J.
Perspective pour l'avenir du Big Data
Apparition de plusieurs métiers et disciplines en relation directe avec les Big
Data, par exemple "Data Analyst", "Data Scientist"...
Les Etats-Unis, en 2017, auront besoin de 500 000 Data Scientist
supplémentaires.
Le marché du Big Data: 125 milliards de dollars en 2015.
Dans les 3 prochaines années, toutes les entreprises auront intégré des solutions
data en Cloud.
Merci pour votre attention

Contenu connexe

Tendances

Un exemple élémentaire d'application MVC en PHP
Un exemple élémentaire d'application MVC en PHPUn exemple élémentaire d'application MVC en PHP
Un exemple élémentaire d'application MVC en PHPKristen Le Liboux
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : SparkLilia Sfaxi
 
Les modèles NoSQL
Les modèles NoSQLLes modèles NoSQL
Les modèles NoSQLebiznext
 
Chp1- Introduction aux Technologies Web et SOA
Chp1- Introduction aux Technologies Web et SOAChp1- Introduction aux Technologies Web et SOA
Chp1- Introduction aux Technologies Web et SOALilia Sfaxi
 
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Hatim CHAHDI
 
Android-Tp3: fragments et menus
Android-Tp3: fragments et menusAndroid-Tp3: fragments et menus
Android-Tp3: fragments et menusLilia Sfaxi
 
P3 listes et elements graphiques avancés
P3 listes et elements graphiques avancésP3 listes et elements graphiques avancés
P3 listes et elements graphiques avancésLilia Sfaxi
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4JLilia Sfaxi
 
Les Base de Données NOSQL
Les Base de Données NOSQLLes Base de Données NOSQL
Les Base de Données NOSQLkamar MEDDAH
 
Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -IliasAEA
 
Android-Tp1: éléments graphiques de base et intents
Android-Tp1: éléments graphiques de base et intentsAndroid-Tp1: éléments graphiques de base et intents
Android-Tp1: éléments graphiques de base et intentsLilia Sfaxi
 
Neo4j et ses cas d'usages
Neo4j et ses cas d'usagesNeo4j et ses cas d'usages
Neo4j et ses cas d'usagesNeo4j
 

Tendances (20)

Un exemple élémentaire d'application MVC en PHP
Un exemple élémentaire d'application MVC en PHPUn exemple élémentaire d'application MVC en PHP
Un exemple élémentaire d'application MVC en PHP
 
Introduction à React
Introduction à ReactIntroduction à React
Introduction à React
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Une introduction à Hive
Une introduction à HiveUne introduction à Hive
Une introduction à Hive
 
MongoDB.pptx
MongoDB.pptxMongoDB.pptx
MongoDB.pptx
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
Introduction à Node.js
Introduction à Node.js Introduction à Node.js
Introduction à Node.js
 
Les modèles NoSQL
Les modèles NoSQLLes modèles NoSQL
Les modèles NoSQL
 
Chp1- Introduction aux Technologies Web et SOA
Chp1- Introduction aux Technologies Web et SOAChp1- Introduction aux Technologies Web et SOA
Chp1- Introduction aux Technologies Web et SOA
 
Presentation cassandra
Presentation cassandraPresentation cassandra
Presentation cassandra
 
Cours Big Data Part I
Cours Big Data Part ICours Big Data Part I
Cours Big Data Part I
 
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
 
Android-Tp3: fragments et menus
Android-Tp3: fragments et menusAndroid-Tp3: fragments et menus
Android-Tp3: fragments et menus
 
P3 listes et elements graphiques avancés
P3 listes et elements graphiques avancésP3 listes et elements graphiques avancés
P3 listes et elements graphiques avancés
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4J
 
Les Base de Données NOSQL
Les Base de Données NOSQLLes Base de Données NOSQL
Les Base de Données NOSQL
 
Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -
 
Android-Tp1: éléments graphiques de base et intents
Android-Tp1: éléments graphiques de base et intentsAndroid-Tp1: éléments graphiques de base et intents
Android-Tp1: éléments graphiques de base et intents
 
Neo4j et ses cas d'usages
Neo4j et ses cas d'usagesNeo4j et ses cas d'usages
Neo4j et ses cas d'usages
 

En vedette

Découverte de Elastic search
Découverte de Elastic searchDécouverte de Elastic search
Découverte de Elastic searchJEMLI Fathi
 
Getting started with docker
Getting started with dockerGetting started with docker
Getting started with dockerJEMLI Fathi
 
A Gentle Introduction To Docker And All Things Containers
A Gentle Introduction To Docker And All Things ContainersA Gentle Introduction To Docker And All Things Containers
A Gentle Introduction To Docker And All Things ContainersJérôme Petazzoni
 
Docker introduction
Docker introductionDocker introduction
Docker introductiondotCloud
 
Deuxquestionssurapparences
DeuxquestionssurapparencesDeuxquestionssurapparences
Deuxquestionssurapparenceslyago
 
Charla Valor Pymes Officenet 2010
Charla Valor Pymes Officenet 2010Charla Valor Pymes Officenet 2010
Charla Valor Pymes Officenet 2010Juan Carlos Lucas
 
2010 09-sitra-organisation et-chiffres
2010 09-sitra-organisation et-chiffres2010 09-sitra-organisation et-chiffres
2010 09-sitra-organisation et-chiffresKarine Feige
 
Printemps des poètes classe cm2a
Printemps des poètes classe cm2aPrintemps des poètes classe cm2a
Printemps des poètes classe cm2alyceebonsoleil
 
Infographie : Utilisation des réseaux sociaux par les grandes écoles de commerce
Infographie : Utilisation des réseaux sociaux par les grandes écoles de commerceInfographie : Utilisation des réseaux sociaux par les grandes écoles de commerce
Infographie : Utilisation des réseaux sociaux par les grandes écoles de commerceYupeek
 
Death is enough as an admonition
Death is enough as an admonitionDeath is enough as an admonition
Death is enough as an admonitionIffu Slides
 
Pilates Cerebral
Pilates CerebralPilates Cerebral
Pilates CerebralHJTandil66
 
Hombres de conocimiento
Hombres de conocimientoHombres de conocimiento
Hombres de conocimientoEuler
 

En vedette (20)

Découverte de Elastic search
Découverte de Elastic searchDécouverte de Elastic search
Découverte de Elastic search
 
Getting started with docker
Getting started with dockerGetting started with docker
Getting started with docker
 
A Gentle Introduction To Docker And All Things Containers
A Gentle Introduction To Docker And All Things ContainersA Gentle Introduction To Docker And All Things Containers
A Gentle Introduction To Docker And All Things Containers
 
Docker introduction
Docker introductionDocker introduction
Docker introduction
 
Aprendiendo GnuPG
Aprendiendo GnuPGAprendiendo GnuPG
Aprendiendo GnuPG
 
Herramientasutiles
HerramientasutilesHerramientasutiles
Herramientasutiles
 
Deuxquestionssurapparences
DeuxquestionssurapparencesDeuxquestionssurapparences
Deuxquestionssurapparences
 
Charla Valor Pymes Officenet 2010
Charla Valor Pymes Officenet 2010Charla Valor Pymes Officenet 2010
Charla Valor Pymes Officenet 2010
 
2010 09-sitra-organisation et-chiffres
2010 09-sitra-organisation et-chiffres2010 09-sitra-organisation et-chiffres
2010 09-sitra-organisation et-chiffres
 
Printemps des poètes classe cm2a
Printemps des poètes classe cm2aPrintemps des poètes classe cm2a
Printemps des poètes classe cm2a
 
Infographie : Utilisation des réseaux sociaux par les grandes écoles de commerce
Infographie : Utilisation des réseaux sociaux par les grandes écoles de commerceInfographie : Utilisation des réseaux sociaux par les grandes écoles de commerce
Infographie : Utilisation des réseaux sociaux par les grandes écoles de commerce
 
Economia digital
Economia digitalEconomia digital
Economia digital
 
Tecnologia
TecnologiaTecnologia
Tecnologia
 
Death is enough as an admonition
Death is enough as an admonitionDeath is enough as an admonition
Death is enough as an admonition
 
Pilates Cerebral
Pilates CerebralPilates Cerebral
Pilates Cerebral
 
La Coquille
La CoquilleLa Coquille
La Coquille
 
Colocación verbal metafórica
Colocación verbal metafóricaColocación verbal metafórica
Colocación verbal metafórica
 
Hombres de conocimiento
Hombres de conocimientoHombres de conocimiento
Hombres de conocimiento
 
Web acteur final
Web acteur finalWeb acteur final
Web acteur final
 
Cafe Con Amor
Cafe Con AmorCafe Con Amor
Cafe Con Amor
 

Similaire à Big data: NoSQL comme solution

Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - IntroductionBlandine Larbret
 
cours06-nosql.pdf
cours06-nosql.pdfcours06-nosql.pdf
cours06-nosql.pdfhbadir
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptxAhmed rebai
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016Julien BLAIZE
 
Big_Data_Cours.pdf
Big_Data_Cours.pdfBig_Data_Cours.pdf
Big_Data_Cours.pdfGonnaBe1
 
Bases de données no sql.pdf
Bases de données no sql.pdfBases de données no sql.pdf
Bases de données no sql.pdfZkSadrati
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQLAntoine Augusti
 
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTBenchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTCHAKER ALLAOUI
 
EuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTechnologies
 
Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)BorderCloud
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopJoseph Glorieux
 
No Sql - Olivier Mallassi - September 2010
No Sql - Olivier Mallassi - September 2010No Sql - Olivier Mallassi - September 2010
No Sql - Olivier Mallassi - September 2010JUG Lausanne
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataArrow Group
 
Morning With MongoDB
Morning With MongoDBMorning With MongoDB
Morning With MongoDBFastConnect
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big dataAbdelghani Azri
 

Similaire à Big data: NoSQL comme solution (20)

Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
Big data
Big dataBig data
Big data
 
cours06-nosql.pdf
cours06-nosql.pdfcours06-nosql.pdf
cours06-nosql.pdf
 
Big data
Big dataBig data
Big data
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptx
 
Bigdata opensource
Bigdata opensourceBigdata opensource
Bigdata opensource
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
Big_Data_Cours.pdf
Big_Data_Cours.pdfBig_Data_Cours.pdf
Big_Data_Cours.pdf
 
Bases de données no sql.pdf
Bases de données no sql.pdfBases de données no sql.pdf
Bases de données no sql.pdf
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
 
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTBenchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
 
EuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTech Trends : Big Data
EuraTech Trends : Big Data
 
Big data
Big dataBig data
Big data
 
Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 
No Sql - Olivier Mallassi - September 2010
No Sql - Olivier Mallassi - September 2010No Sql - Olivier Mallassi - September 2010
No Sql - Olivier Mallassi - September 2010
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
 
Morning With MongoDB
Morning With MongoDBMorning With MongoDB
Morning With MongoDB
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big data
 

Plus de JEMLI Fathi

Why docker is taking over the world (docker birthday 2019)
Why docker is taking over the world (docker birthday 2019)Why docker is taking over the world (docker birthday 2019)
Why docker is taking over the world (docker birthday 2019)JEMLI Fathi
 
Mean Stack for Beginners
Mean Stack for BeginnersMean Stack for Beginners
Mean Stack for BeginnersJEMLI Fathi
 
Getting started with docker (2017)
Getting started with docker (2017)Getting started with docker (2017)
Getting started with docker (2017)JEMLI Fathi
 
Analyse des reseaux sociaux et détection des communautés en ligne
Analyse des reseaux sociaux et détection des communautés en ligneAnalyse des reseaux sociaux et détection des communautés en ligne
Analyse des reseaux sociaux et détection des communautés en ligneJEMLI Fathi
 
Découverte de Redis
Découverte de RedisDécouverte de Redis
Découverte de RedisJEMLI Fathi
 

Plus de JEMLI Fathi (6)

Why docker is taking over the world (docker birthday 2019)
Why docker is taking over the world (docker birthday 2019)Why docker is taking over the world (docker birthday 2019)
Why docker is taking over the world (docker birthday 2019)
 
Gitlab CI/CD
Gitlab CI/CDGitlab CI/CD
Gitlab CI/CD
 
Mean Stack for Beginners
Mean Stack for BeginnersMean Stack for Beginners
Mean Stack for Beginners
 
Getting started with docker (2017)
Getting started with docker (2017)Getting started with docker (2017)
Getting started with docker (2017)
 
Analyse des reseaux sociaux et détection des communautés en ligne
Analyse des reseaux sociaux et détection des communautés en ligneAnalyse des reseaux sociaux et détection des communautés en ligne
Analyse des reseaux sociaux et détection des communautés en ligne
 
Découverte de Redis
Découverte de RedisDécouverte de Redis
Découverte de Redis
 

Big data: NoSQL comme solution

  • 1. Big Data: NoSQL comme solution
  • 2. Jemli Fathi 3éme année ingénierie génie logiciel à ISSATSo jemlifathi2013@gmail.com Je me présente
  • 3. Plan Définition Historique NoSQL: c'est quoi? Pourquoi le NoSQL? Les types des moteurs NoSQL Perspective pour l'avenir du Big Data
  • 4. Définition du Big Data 90% des données d'aujourd'hui ont été crée dans les 2 dernières années. Loi de Moore: le volume des données double tous les 18 mois. YouTube: 13 millions d'heures et 700 milliards de vues en 2010. Facebook: 20 To / jour (compressé). CERN / LHC: 40 TB / jour (15PB / an). Wikipédia: Les big data, littéralement les "grosses données", ou méga-données, désignent des ensembles de données qui deviennent tellement volumineuses qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information.
  • 5. Les Big Data sont caractérisées par: Le volume: de l'ordre de Péta-Octets. La variété: ils viennent de sources hétéroclites. La vélocité: ils exigent un temps record pour les explorer et les analyser.
  • 6. Les centres de données (Data center) Un data center est un emplacement physique ou ils sont regroupés des équipements informatiques (des serveurs, des "mainframes"...). Il permet pour l'entreprise de stocker des données, les traiter et les protéger. Cet espace doit être protégé contre les incendies, équipé d'un système d'alimentation d'urgence, et surveillé par des spécialistes pour éviter les intrusions et agir rapidement en cas de panne. Les centres de données sont très gourmands en énergie (2% de la consommation mondiale).
  • 7.
  • 8.
  • 12. Le plus grand centre de données dans le monde (en 2012)
  • 13. Google Données traitées: Des pages Web. Les données stockées sur les différents services offerts par Google(Drive, Calendar, Gmail...). Besoin: Gérer un volume de données de l'ordre de Péta-octets. Indexer et chercher des mots spécifiques dans des milliards de pages Web. Générer du contenu Web dans un temps très réduit. Historique
  • 14. La problématique Les données stockées et les traitements demandés ne peuvent pas être satisfaits sur une seule machine quelque soit sa puissance, même en utilisant un réseau de machines, les communications entre les machines rendent les traitements très lents.
  • 15. Solution: approche centralisée Map Reduce: 2003 Map: Distribuer le travail sur plusieurs machines Reduce: Récupérer le résultat de chaque machine et le regrouper
  • 16. Les limites de la solution adoptée A l'époque, ni les systèmes de fichiers, ni les bases de données permettent l'implémentation d'un tel patron d'architecture.
  • 17. Google File System(GFS) Un gigantesque système de fichiers pouvant contenir plusieurs machines.
  • 18. Big Table Une base de données pour stocker les fichiers structurés et qui est adaptée à GFS.
  • 19. L'architecture innovante adoptée par Google a inspiré beaucoup de personnes et a été suivie par plusieurs solutions, par exemple(Hadoop, Accumulo, Cassandra...).
  • 20. Amazon Données traitées: Les produits Les utilisateurs Les paniers Besoin: Stockage et gestion de données très volumineuses. Historique
  • 21. Solution: approche décentralisée Dynamo DB: Un système de base de données distribué. Conçu pour gérer des entrepôts de paires clé-valeur.
  • 22. NoSQL: c'est quoi? NoSQL(Not Only SQL) ≠ SGBDR. L'unité logique n'y est plus la table. Les données ne sont en général pas manipulées avec SQL.
  • 23. Les systèmes NoSQL sont conçues pour répondre aux contraintes suivantes: Cohérence : tous les nœuds du système voient exactement les mêmes données au même moment. Haute disponibilité (Availability) : en cas de panne, les données restent accessibles. Tolérance au Partitionnement : le système peut être partitionné
  • 24. Pourquoi le NoSQL? Des opérateurs, des sites et des entreprises qui ont un besoin excessif pour stocker et gérer des données massives => il faut trouver de nouvelles solutions!
  • 25. Des solutions pour gérer les données Les contraintes des moteurs relationnels les rendent très lourdes. L'évolution du matériel(serveurs...). La charge associée à l'usage du Web ou du Mobile qui est impossible à prévoir.
  • 26. Des solutions pour faciliter la tache des développeurs Le "Web Scale": pouvoir mettre à l'échelle des applications. Eviter les jointures pour pouvoir distribuer les données. Eviter le langage SQL qui est un langage déclaratif difficile à maîtriser. Esprit "Open Source": solutions NoSQL gratuits en les comparant avec les SGBD relationnels très coûteux. Les solutions NoSQL sont bâtis pour être distribués. Utilisation de la mémoire vive pour stocker les données => rapidité d’accès.
  • 27. + =
  • 28. Les types des moteurs NoSQL Les moteurs à clé/valeur Les données sont représentés par des couples clé-valeur La valeur peut être une simple chaîne de caractères, un objet sérialisé… La communication avec la BD se résume aux opérateursGET, PUT, DELETE... Les solutions les plus connues sont Redis(Salvatore Sanfilippo et Pieter Noordhuis), Riak(Apache) et Voldemort(LinkedIn).
  • 29. Les types des moteurs NoSQL Les moteurs orienté document Ce modèle est basé sur le paradigme clé-valeur, sauf que la valeur ici est un fichier JSON ou XML. Les implémentations les plus populaires sont CouchDB (Apache), RavenDB (destiné aux plateformes .NET/Windows) et MongoDB(10Gen).
  • 30. Les types des moteurs NoSQL Les moteurs orienté colonne Ce modèle ressemble à une table dans un SGBDR, mais un nombre de colonnes dynamique. =>Le nombre de colonnes varie d'un enregistrement à un autre, ce qui évite les valeurs nulles. Comme solutions, on retrouve principalement HBase (solution inspirée par Google BigTable) ainsi que Cassandra (solution inspirée par Dynamo d’Amazon et BigTable de Google).
  • 31. Les types des moteurs NoSQL Les moteurs orienté graphe Ce modèle est basé sur la théorie des graphes. Il s'appuie sur les notions de nœuds, de relations et de propriétés. Il facilite la modélisation du monde réel. La principale solution est Neo4J.
  • 32. Perspective pour l'avenir du Big Data Apparition de plusieurs métiers et disciplines en relation directe avec les Big Data, par exemple "Data Analyst", "Data Scientist"... Les Etats-Unis, en 2017, auront besoin de 500 000 Data Scientist supplémentaires. Le marché du Big Data: 125 milliards de dollars en 2015. Dans les 3 prochaines années, toutes les entreprises auront intégré des solutions data en Cloud.
  • 33. Merci pour votre attention