SlideShare une entreprise Scribd logo
1  sur  24
Introduction au Big Data
Présentée par: Abdelghani Azri
Expert Java/JEE/Hybris
Sqli Rabat
5/14/2017 1
Sommaire
• C’est quoi le Big Data ?
• Exploitation du Big Data
• Limitation des SGBDR
• Bases de données NoSQL
• Exemples de Bases de données NoSQL
• Open Data
• Conclusion
5/14/2017 2
Big Data c’est quoi ?
• Big Data n’est pas:
• une technologie
• une technique
• une initiative isolée
• Ce qui est Big Data:
• Ensemble de technologies et
d’initiatives portant sur les données
• Ces données sont assez:
• Volumineuses
• Diverses
• Changeantes que les
infrastructures, technologies et
compétences traditionnelles
sont totalement dépassées
5/14/2017 3
Big Data c’est quoi ?
• Big Data a trait à la création, au
stockage, à l'accès et à l'analyse de flux
de données se caractérisant par les
fameux trois V :
Volume
Vélocité
Variété.
5/14/2017 4
Volume
• En 2000, un ordinateur lambda stockait
en moyenne 10 Go de données.
• À nos jour, on parle de To Ex:
• Facebook ingère 500 To de données par
jour
• Boeing 737 génère en moyenne 240 To de
données sur un vol intra-européen.
5/14/2017 5
Vélocité
• Les flux de clics (clickstreams) et les
impressions publicitaires
• Millions d'événements à la seconde pour
mieux cerner les comportements des
internautes.
• Les algorithmes de trading
• haute fréquence
• les fluctuations des marchés à la
microseconde près.
• Les infrastructures et capteurs
• Quantités colossales de logs en temps réel.
• Les plateformes de jeu en ligne
• Millions d'utilisateurs, à raison de multiples
flux à la seconde pour chacun d’entre eux.
5/14/2017 6
Variété
• Le Big Data n'est pas qu'une histoire de chiffres,
de dates et de chaînes de données.
• Le phénomène s’étend aussi aux éléments:
• géospatiaux,
• 3D,
• audio, vidéo
• Et autres données texte non structurées,:
• les fichiers log
• les données de réseaux sociaux
5/14/2017 7
Limitation des Bases de
données relationnelles
• Les bases de données traditionnelles ont été
conçues pour le stockage d'ensembles
structurés:
• peu volumineux,
• peu changeants,
• structure plus prévisible et plus cohérente.
• Modèle « une base, un serveur », rendant par là
même l'extension de capacités coûteuse et
limitée.
• Alors que les applications voient leurs bases
d’utilisateurs exploser et que la méthode agile
s'ancre dans les pratiques de développement,
les bases de données relationnelles apportent
plus de problèmes que de solutions.
• NoSQL: Relever le défi du Big Data pour en
libérer toute la valeur.
5/14/2017 8
La transformation du Big Data
• Sources du Big Data: Sites, réseaux sociaux, sensors, bases de
données…
• L’enjeu est transformer et structurer ces données
• Créer de la valeur à partir l’exploitation et l’analyse de ces données
• Améliorer la santé
• Améliorer l’environnement
• Analyse vocale, reconnaissance vocale
• Analyse des données en temps réel
• Marketing: Savoir la tendance des consommateurs. Ex: sites e-Commerce
• Les élections: Voting intentions (Flux twitter…)
5/14/2017 9
Migration vers Bases de données NoSQL
• NoSQL signifie “Not Only SQL”, littéralement “pas seulement SQL”.
• NoSQL ne vient pas remplacer les BD relationnelles
• Mais les compléter
5/14/2017 10
Pourquoi la NoSQL ?
• Performance
• Cohérence
• Haute disponibilité (Availability)
• Tolérance au Partitionnement
Théorème CAP
5/14/2017 11
Exemples de bases de données NoSQL
5/14/2017 12
Type Clé / valeur Orienté Document Orienté colonne Orienté Graph
Définition Hashmap distribuée
Pas de structure
Requête par clé
Ce modèle se base
sur le paradigme clé
valeur.
un document de type
JSON ou XML
Ce modèle ressemble
à première vue à une
table dans un SGBDR.
Le nombre de
colonnes est
dynamique
Ce modèle de
représentation des
données se base sur
la théorie des
graphes.
Notions de noeuds,
de relations et de
propriétés qui leur
sont rattachées
Exemples Redis, Riak ,
Voldemort
MongoDB,
CouchDB d’Apache,
RavenDB (.NET)
Cassandra
BigTable (google)
HBase
La principale solution
est Neo4J
Avantages la communication
avec la BD se
résumera aux
opérations PUT, GET
et DELETE
L’avantage est de
pouvoir récupérer, via
une seule clé, un
ensemble
d’informations
structurées de
manière hiérarchique
Le nombre de
colonnes peut varier
d’un enregistrement à
un autre ce qui évite
de retrouver des
colonnes ayant des
valeurs NULL
Ce modèle facilite la
représentation du
monde réel, ce qui le
rend adapté au
traitement des
données des réseaux
sociaux
Clients Linkedin Met Life, Facebook,
Google, Expedia
Facebook, Netflix,
IBM, Reddit, Twitter…
InfoJobs, gamesys…
5/14/2017 13
Exemples: Clé Valeur
5/14/2017 14
Exemples: Document
5/14/2017 15
Exemples: Colonne
5/14/2017 16
Exemples: Graphe
5/14/2017 17
Exemple mapping Mongo DB
SQL Terms/Concepts MongoDB Terms/Concepts
database database
table collection
row document or BSON document
column field
index index
table joins $lookup, embedded documents
primary key
Specify any unique column or column combination as
primary key.
primary key
In MongoDB, the primary key is automatically set to
the _id field.
5/14/2017 18
Open Data C’est quoi ?
• Il s’agit de données auxquelles tout le monde peut accéder et que
tout le monde peut utiliser et partager.
• On peut accéder aux données car elles sont disponibles en ligne.
• On peut utiliser les données car elles sont disponibles sous une forme
commune et lisible par des machines.
5/14/2017 19
• L’open data permet une plus grande transparence pour les
gouvernements.
• Il peut aider à prouver que les fonds publics sont dépensés à bon
escient et que les politiques sont bien implémentées.
5/14/2017 20
Conclusion
• On a vu c’est quoi la Big Data: tendance, concept
• Les trois V: Volume, Variété, Vélocité
• Les bases de données du NoSQL
• Les quatre types des bases de données NoSQL
• L’utilité du NoSQL
5/14/2017 21
Conclusion
• Nouvelles sciences
• Science de données
• Machine Learning
• Data analytics
5/14/2017 22
Références
 https://www.mongodb.com/fr/big-data-explained
 https://www.thoughtworks.com/insights/blog/nosql-databases-
overview
 https://www.datastax.com/nosql-databases/benchmarks-cassandra-
vs-mongodb-vs-Hbase
 http://nosql-database.org/
https://neo4j.com/
http://cassandra.apache.org/
https://www.mongodb.com/
https://www.data.gov/
https://www.data.gov/open-gov/5/14/2017 23
Contact
Merci pour votre attention
• Emails:
• aazri@sqli.com
• Abdelghani.azri@gmail.com
• LinkedIn:
• https://www.linkedin.com/in/abdelghaniazri/
5/14/2017 24

Contenu connexe

Tendances

Tendances (20)

Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
 
Introduction NoSql 201406 - lbroudoux
Introduction NoSql 201406 - lbroudouxIntroduction NoSql 201406 - lbroudoux
Introduction NoSql 201406 - lbroudoux
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Big data
Big dataBig data
Big data
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2
 
Bddwdm
BddwdmBddwdm
Bddwdm
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
Big data
Big dataBig data
Big data
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
 

Similaire à Introduction au big data

Morning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMorning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast Connect
MongoDB
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solution
JEMLI Fathi
 

Similaire à Introduction au big data (20)

Big data
Big dataBig data
Big data
 
Big data
Big dataBig data
Big data
 
Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdf
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdf
 
Morning With MongoDB
Morning With MongoDBMorning With MongoDB
Morning With MongoDB
 
Morning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMorning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast Connect
 
introNoSQL.pdf
introNoSQL.pdfintroNoSQL.pdf
introNoSQL.pdf
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solution
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
 
Big Data - Quel usage au sein des projets internet
Big Data - Quel usage au sein des projets internetBig Data - Quel usage au sein des projets internet
Big Data - Quel usage au sein des projets internet
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociaux
 
BigData on change d'ère !
BigData on change d'ère ! BigData on change d'ère !
BigData on change d'ère !
 
1-Intro to DB.pptx
1-Intro to DB.pptx1-Intro to DB.pptx
1-Intro to DB.pptx
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Big_Data_Cours.pdf
Big_Data_Cours.pdfBig_Data_Cours.pdf
Big_Data_Cours.pdf
 

Introduction au big data

  • 1. Introduction au Big Data Présentée par: Abdelghani Azri Expert Java/JEE/Hybris Sqli Rabat 5/14/2017 1
  • 2. Sommaire • C’est quoi le Big Data ? • Exploitation du Big Data • Limitation des SGBDR • Bases de données NoSQL • Exemples de Bases de données NoSQL • Open Data • Conclusion 5/14/2017 2
  • 3. Big Data c’est quoi ? • Big Data n’est pas: • une technologie • une technique • une initiative isolée • Ce qui est Big Data: • Ensemble de technologies et d’initiatives portant sur les données • Ces données sont assez: • Volumineuses • Diverses • Changeantes que les infrastructures, technologies et compétences traditionnelles sont totalement dépassées 5/14/2017 3
  • 4. Big Data c’est quoi ? • Big Data a trait à la création, au stockage, à l'accès et à l'analyse de flux de données se caractérisant par les fameux trois V : Volume Vélocité Variété. 5/14/2017 4
  • 5. Volume • En 2000, un ordinateur lambda stockait en moyenne 10 Go de données. • À nos jour, on parle de To Ex: • Facebook ingère 500 To de données par jour • Boeing 737 génère en moyenne 240 To de données sur un vol intra-européen. 5/14/2017 5
  • 6. Vélocité • Les flux de clics (clickstreams) et les impressions publicitaires • Millions d'événements à la seconde pour mieux cerner les comportements des internautes. • Les algorithmes de trading • haute fréquence • les fluctuations des marchés à la microseconde près. • Les infrastructures et capteurs • Quantités colossales de logs en temps réel. • Les plateformes de jeu en ligne • Millions d'utilisateurs, à raison de multiples flux à la seconde pour chacun d’entre eux. 5/14/2017 6
  • 7. Variété • Le Big Data n'est pas qu'une histoire de chiffres, de dates et de chaînes de données. • Le phénomène s’étend aussi aux éléments: • géospatiaux, • 3D, • audio, vidéo • Et autres données texte non structurées,: • les fichiers log • les données de réseaux sociaux 5/14/2017 7
  • 8. Limitation des Bases de données relationnelles • Les bases de données traditionnelles ont été conçues pour le stockage d'ensembles structurés: • peu volumineux, • peu changeants, • structure plus prévisible et plus cohérente. • Modèle « une base, un serveur », rendant par là même l'extension de capacités coûteuse et limitée. • Alors que les applications voient leurs bases d’utilisateurs exploser et que la méthode agile s'ancre dans les pratiques de développement, les bases de données relationnelles apportent plus de problèmes que de solutions. • NoSQL: Relever le défi du Big Data pour en libérer toute la valeur. 5/14/2017 8
  • 9. La transformation du Big Data • Sources du Big Data: Sites, réseaux sociaux, sensors, bases de données… • L’enjeu est transformer et structurer ces données • Créer de la valeur à partir l’exploitation et l’analyse de ces données • Améliorer la santé • Améliorer l’environnement • Analyse vocale, reconnaissance vocale • Analyse des données en temps réel • Marketing: Savoir la tendance des consommateurs. Ex: sites e-Commerce • Les élections: Voting intentions (Flux twitter…) 5/14/2017 9
  • 10. Migration vers Bases de données NoSQL • NoSQL signifie “Not Only SQL”, littéralement “pas seulement SQL”. • NoSQL ne vient pas remplacer les BD relationnelles • Mais les compléter 5/14/2017 10
  • 11. Pourquoi la NoSQL ? • Performance • Cohérence • Haute disponibilité (Availability) • Tolérance au Partitionnement Théorème CAP 5/14/2017 11
  • 12. Exemples de bases de données NoSQL 5/14/2017 12
  • 13. Type Clé / valeur Orienté Document Orienté colonne Orienté Graph Définition Hashmap distribuée Pas de structure Requête par clé Ce modèle se base sur le paradigme clé valeur. un document de type JSON ou XML Ce modèle ressemble à première vue à une table dans un SGBDR. Le nombre de colonnes est dynamique Ce modèle de représentation des données se base sur la théorie des graphes. Notions de noeuds, de relations et de propriétés qui leur sont rattachées Exemples Redis, Riak , Voldemort MongoDB, CouchDB d’Apache, RavenDB (.NET) Cassandra BigTable (google) HBase La principale solution est Neo4J Avantages la communication avec la BD se résumera aux opérations PUT, GET et DELETE L’avantage est de pouvoir récupérer, via une seule clé, un ensemble d’informations structurées de manière hiérarchique Le nombre de colonnes peut varier d’un enregistrement à un autre ce qui évite de retrouver des colonnes ayant des valeurs NULL Ce modèle facilite la représentation du monde réel, ce qui le rend adapté au traitement des données des réseaux sociaux Clients Linkedin Met Life, Facebook, Google, Expedia Facebook, Netflix, IBM, Reddit, Twitter… InfoJobs, gamesys… 5/14/2017 13
  • 18. Exemple mapping Mongo DB SQL Terms/Concepts MongoDB Terms/Concepts database database table collection row document or BSON document column field index index table joins $lookup, embedded documents primary key Specify any unique column or column combination as primary key. primary key In MongoDB, the primary key is automatically set to the _id field. 5/14/2017 18
  • 19. Open Data C’est quoi ? • Il s’agit de données auxquelles tout le monde peut accéder et que tout le monde peut utiliser et partager. • On peut accéder aux données car elles sont disponibles en ligne. • On peut utiliser les données car elles sont disponibles sous une forme commune et lisible par des machines. 5/14/2017 19
  • 20. • L’open data permet une plus grande transparence pour les gouvernements. • Il peut aider à prouver que les fonds publics sont dépensés à bon escient et que les politiques sont bien implémentées. 5/14/2017 20
  • 21. Conclusion • On a vu c’est quoi la Big Data: tendance, concept • Les trois V: Volume, Variété, Vélocité • Les bases de données du NoSQL • Les quatre types des bases de données NoSQL • L’utilité du NoSQL 5/14/2017 21
  • 22. Conclusion • Nouvelles sciences • Science de données • Machine Learning • Data analytics 5/14/2017 22
  • 23. Références  https://www.mongodb.com/fr/big-data-explained  https://www.thoughtworks.com/insights/blog/nosql-databases- overview  https://www.datastax.com/nosql-databases/benchmarks-cassandra- vs-mongodb-vs-Hbase  http://nosql-database.org/ https://neo4j.com/ http://cassandra.apache.org/ https://www.mongodb.com/ https://www.data.gov/ https://www.data.gov/open-gov/5/14/2017 23
  • 24. Contact Merci pour votre attention • Emails: • aazri@sqli.com • Abdelghani.azri@gmail.com • LinkedIn: • https://www.linkedin.com/in/abdelghaniazri/ 5/14/2017 24

Notes de l'éditeur

  1. Cohérence : tous les noeuds du système voient exactement les mêmes données au même moment Haute disponibilité (Availability) : en cas de panne, les données restent accessibles Tolérance au Partitionnement : le système peut être partitionné