SlideShare une entreprise Scribd logo

Introduction à la big data V2

Quelque slides de la formation initiation a la big data

1  sur  101
Formation Big Data
Initiation, concepts, architectures,
administration et développements
pour architecte et consultant
✘ Veuillez vous présenter :
✗ Vôtre nom et prénom
✗ Fonction, société
✗ Avez vous une expérience Big Data? Qu’avez vous fait ?
✗ Quelles sont vos attentes de ce cours ?
Tour de table
TOUR DE TABLE
Mehdi TAZI
✘ Architecte BigData
✘ Freelancer, ex OCTO
✘AXA, BNP, EDF, LA
POSTE, AL BARID BANK,
✘ ARCHI, DEV, ADMIN,
ORGA...
✘ Contact :
> twitter : @t_mehdi
> web : tazimehdi.com
> mail : mehdi@tazimehdi.com
✘ Communication interactive par
thème
Déroulement
✘ Osez poser vos questions de façon interactive
> des termes utilisés, sujets non compris
> des problématiques liées à votre travail
> des questions d’ordre générale par thème
Technologique, Méthodologique, Organisationnelle…
Outils nécessaires
Cassandra Server : http://cassandra.apache.org/download/
Cassandra Dev Center : http://www.datastax.com/what-we-offer/products-services/devcenter
MongoDB server : https://www.mongodb.com/download-center#community
Horntonworks HDP : http://hortonworks.com/downloads/
Cloudera CDH : https://www.cloudera.com/downloads/quickstart_vms/5-10.html
VirtualBox
https://www.virtualbox.org/wiki/Downloads
Programme

Recommandé

Contenu connexe

Tendances

Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5Amal Abid
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business IntelligenceLilia Sfaxi
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduceAmal Abid
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -IliasAEA
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingLilia Sfaxi
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQLAntoine Augusti
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesJean-Michel Franco
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - IntroductionBlandine Larbret
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehousenzuguem
 
Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.arnaudm
 
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Hatim CHAHDI
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQLLilia Sfaxi
 

Tendances (20)

Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
 
Bi
BiBi
Bi
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduce
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
 
Partie2BI-DW2019
Partie2BI-DW2019Partie2BI-DW2019
Partie2BI-DW2019
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehouse
 
Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.
 
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligence
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 

Similaire à Introduction à la big data V2

Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
Webinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud DatabasesWebinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud DatabasesOVHcloud
 
Cours de Vente Grands Comptes Compaq - Gv06 (2001)
Cours de Vente Grands Comptes Compaq - Gv06 (2001)Cours de Vente Grands Comptes Compaq - Gv06 (2001)
Cours de Vente Grands Comptes Compaq - Gv06 (2001)Eric Herschkorn
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 OCTO Technology
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computingsenejug
 
Les nouveautés stockage dans Windows Server 2012 R2
Les nouveautés stockage dans Windows Server 2012 R2Les nouveautés stockage dans Windows Server 2012 R2
Les nouveautés stockage dans Windows Server 2012 R2Georgeot Cédric
 
Architecture des SI et enjeux du Big Data
Architecture des  SI et enjeux du Big DataArchitecture des  SI et enjeux du Big Data
Architecture des SI et enjeux du Big DataNyami Ronald
 
Comment securiser votre annuaire Active Directory contre les attaques de malw...
Comment securiser votre annuaire Active Directory contre les attaques de malw...Comment securiser votre annuaire Active Directory contre les attaques de malw...
Comment securiser votre annuaire Active Directory contre les attaques de malw...Sylvain Cortes
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleMedhi Corneille Famibelle*
 
Virtualisation? Convergence? Cloud? Soyons pragmatique
Virtualisation? Convergence? Cloud? Soyons pragmatique Virtualisation? Convergence? Cloud? Soyons pragmatique
Virtualisation? Convergence? Cloud? Soyons pragmatique Microsoft Ideas
 
Big Data by Soft Computing - Lille
Big Data by Soft Computing - LilleBig Data by Soft Computing - Lille
Big Data by Soft Computing - LilleSoft Computing
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxExcelerate Systems
 

Similaire à Introduction à la big data V2 (20)

Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Mon Stockage a la Cloud Attitude
Mon Stockage a la Cloud Attitude Mon Stockage a la Cloud Attitude
Mon Stockage a la Cloud Attitude
 
Webinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud DatabasesWebinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud Databases
 
Cours de Vente Grands Comptes Compaq - Gv06 (2001)
Cours de Vente Grands Comptes Compaq - Gv06 (2001)Cours de Vente Grands Comptes Compaq - Gv06 (2001)
Cours de Vente Grands Comptes Compaq - Gv06 (2001)
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computing
 
Les nouveautés stockage dans Windows Server 2012 R2
Les nouveautés stockage dans Windows Server 2012 R2Les nouveautés stockage dans Windows Server 2012 R2
Les nouveautés stockage dans Windows Server 2012 R2
 
Architecture des SI et enjeux du Big Data
Architecture des  SI et enjeux du Big DataArchitecture des  SI et enjeux du Big Data
Architecture des SI et enjeux du Big Data
 
Comment securiser votre annuaire Active Directory contre les attaques de malw...
Comment securiser votre annuaire Active Directory contre les attaques de malw...Comment securiser votre annuaire Active Directory contre les attaques de malw...
Comment securiser votre annuaire Active Directory contre les attaques de malw...
 
Big data
Big dataBig data
Big data
 
BigData on change d'ère !
BigData on change d'ère ! BigData on change d'ère !
BigData on change d'ère !
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence Artificielle
 
Virtualisation? Convergence? Cloud? Soyons pragmatique
Virtualisation? Convergence? Cloud? Soyons pragmatique Virtualisation? Convergence? Cloud? Soyons pragmatique
Virtualisation? Convergence? Cloud? Soyons pragmatique
 
Base de données
Base de donnéesBase de données
Base de données
 
Big Data by Soft Computing - Lille
Big Data by Soft Computing - LilleBig Data by Soft Computing - Lille
Big Data by Soft Computing - Lille
 
Big data
Big dataBig data
Big data
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
 

Introduction à la big data V2

  • 1. Formation Big Data Initiation, concepts, architectures, administration et développements pour architecte et consultant
  • 2. ✘ Veuillez vous présenter : ✗ Vôtre nom et prénom ✗ Fonction, société ✗ Avez vous une expérience Big Data? Qu’avez vous fait ? ✗ Quelles sont vos attentes de ce cours ? Tour de table TOUR DE TABLE
  • 3. Mehdi TAZI ✘ Architecte BigData ✘ Freelancer, ex OCTO ✘AXA, BNP, EDF, LA POSTE, AL BARID BANK, ✘ ARCHI, DEV, ADMIN, ORGA... ✘ Contact : > twitter : @t_mehdi > web : tazimehdi.com > mail : mehdi@tazimehdi.com
  • 4. ✘ Communication interactive par thème Déroulement ✘ Osez poser vos questions de façon interactive > des termes utilisés, sujets non compris > des problématiques liées à votre travail > des questions d’ordre générale par thème Technologique, Méthodologique, Organisationnelle…
  • 5. Outils nécessaires Cassandra Server : http://cassandra.apache.org/download/ Cassandra Dev Center : http://www.datastax.com/what-we-offer/products-services/devcenter MongoDB server : https://www.mongodb.com/download-center#community Horntonworks HDP : http://hortonworks.com/downloads/ Cloudera CDH : https://www.cloudera.com/downloads/quickstart_vms/5-10.html VirtualBox https://www.virtualbox.org/wiki/Downloads
  • 7. Programme ✘ Introduction à la Big Data ✘ Vue d’ensemble ✘ Concepts architecturaux ✘ Couches et technologies ✘ Le NoSQL ✘ Datalake & Datalab ✘ Information generales & Atelier questions/reponses
  • 9. Big data is like teenage sex : everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it... Dan Ariely
  • 10. C’est quoi selon vous le big data ?
  • 12. Introduction à la Big Data ✘ Traitement et stockage massives des gros volumes de données ✘ Explosion quantitative des données numériques C’est quoi la Big Data? (1/2)
  • 13. Introduction à la Big Data ✘ Données provenant de plusieurs sources : ✗ Capteurs : température, pression… ✗ IOT : montres connectées, balances, Smartphones… ✗ Messages sur les réseaux sociaux : tweet, posts… ✗ Transactions et logs : banques, e-commerce… ✗ Images, vidéos et sons : instagram, youtube, snapchat, deezer, spotify… ✗ Autres : GPS, email, sms… C’est quoi la Big Data? (2/2)
  • 14. Introduction à la Big Data Qu’est ce qui se passe chaque minute sur Internet? Source : Qmee log Storage RT Processing ex : pic tag, batch concu adds RT Processing
  • 15. Introduction à la Big Data ✘ Les solutions actuelles coûtent cher : archivage et traitement ✘ Répondre à des problématiques métiers avec plus de précision et de rapidité. ✘ Améliorer la prise de décision basée sur l’analyse de très gros volumes de données. ✘ Tirer un avantage concurrentiel à travers la collecte, l’analyse, la prédiction et l’exploitation des données sur de grandes profondeurs. ( DDC ) ✘ La création de nouveaux cas d’usages et de valeurs business basées sur la données et la technologie. ( cloud , données …) ✘ Un outil au service du métier  Une offre de service à part entière (AXA/ ERDF) Quel est l’intérêt d’adopter le big data?
  • 16. Introduction à la Big Data ✘ Au début c’était destiné aux gros acteurs du web et les grandes multinationales : ✗ Facebook, Google, Amazon… ✗ Fedex, Walmart, Citi… ✘ Maintenant de plus en plus de monde y est concerné : ✗ De gros Acteurs : Axa, BNP Paribas, La Poste, EDF… ✗ Des nouveaux : Snapchat, whatsapp, pokemon go … ✗ Vous ? Pour qui ?
  • 17. Introduction à la Big Data ✘ Energie ✗ Amélioration de la production et distribution d’énergie ✗ Information en temps réel sur les débits et la qualité ✗ Détection des problèmes de réseaux ✗ Automatisation du processus de collecte de données ✘ Transport et distribution ✗ Optimisation des trajets et réductions des coûts ✗ Ajustement d’offre et de demande par zone géographique ✘ Produits de Luxe et grandes consommations ✗ Analyse de sentiments et retour produits * ✗ Amélioration de la satisfaction des clients ✗ Identification de nouveaux besoins et désirs * ✗ Recommandations Cas d’usage réel (1/2)
  • 18. Introduction à la Big Data ✘ E-Commerce ✗ Amélioration des stocks et de l’expérience clients. ✗ Gestion plus fine et dynamique des prix de vente ✗ Personnalisation des offres ✗ Pricing dynamique * ✗ Marketing ciblé ✘ Services publics et banques ✗ Archivage et données publiques ✗ Lute contre la fraude et abus * ✗ Amélioration des processus ✗ Sécurité ✘ Autres ✗ Fidéliser les clients des casinos en intervenant avant que les pertes des joueurs ne soit trop élevées ✗ Détecter les potentiel futures boxs en pannes : météo, géolocalisation, état box.. * Cas d’usage réel (2/2)
  • 20. Introduction à la Big Data Big Data, Fast Data, Smart Data et Open Data Big Data Fast Data Smart Data Open Data
  • 22. Questions / Réponses > Comment définir le Big data en une seule phrase ? > Pourquoi adopter le Big data ? > Qu’est ce que la smart data ? > Qu’est ce que le fast data ? > Qu’est ce que l’open data ? > A quelles problématiques répond le big data ? > A quelles problématiques répond le fast data ?
  • 23. J’entend souvent parler des 3V, mais c’est quoi exactement ?
  • 24. Introduction à la Big Data Les 3V Variété File Json, CSV, Texte, Png, Log ... Vélocité Batch Periodic Near RT RealTime 100 ms, 30 min, 7h, 1j, 30000 events/time unit … Volume Mb Gb Tb Pb 10Gb, 10Tb, 2Pb …
  • 25. Et c’est quoi cette histoire de 5V ?
  • 26. Introduction à la Big Data Propriété d’un Système big data - Les 5V Variété File Json, CSV, Texte, Png, Log ... Vélocité Batch Periodic Near RT RealTime 100 ms, 30 min, 7h, 1j, 30000 events/time unit … Volume Mb Gb Tb Pb 10Gb, 10Tb, 2Pb … Véracité 31 2 Valeur
  • 28. Questions / Réponses > Citez les 3 principales propriétés d’un systèmes big data > Citez deux autres propriétés > Qu’elles sont les problématiques liées à la volumétries ? > Qu’elles sont les problématiques liée à la vélocité ? > Qu’elles sont les problématiques liée à véracité ?
  • 30. VUE D’ENSEMBLE – ARCHITECTURE FONCTIONELLE Processing Exchange Storage Data Management Consume
  • 32. Questions / Réponses > Quelles sont les 5 grandes briques fonctionnelles d’un système bigdata ? > Quelles sont les 4 grandes fonctionnalités que gère la brique de stockage ? > Quelles sont les 3 grandes fonctionnalités que gère la brique de traitement ? > Quelles sont les 3 grandes fonctionnalités que gère la brique de sécurité ? > Où se positionne un système Big Data par rapport au reste du SI ?
  • 34. Concepts architecturaux ✘ Besoin : Traitement et stockage massif des gros volumes de données ✘ Limites : Ajouter plus de puissance aux machines : ✗ Stockage: Disque dur, mémoire … ✗ Traitement: CPU, parallélisme … ✘ Solution : Archiver et traiter l’information de façon distribuée afin de bénéficier de plus de capacité de puissance ✘ Le Big data repose principalement sur les notions des systèmes distribués! Limitations & Besoin
  • 36. Concepts architecturaux Scalabilité verticale vs Scalabilité horizontale 16 GB 8 CPU 32 GB 16 CPU Hardware limitation !Scale-up Scale-up Augmenter la puissance d’un système en ajoutant du matériels plus puissants
  • 37. Concepts architecturaux Scalabilité verticale vs Scalabilité horizontale 16 GB 8 CPU Scale out 24 CPU, 48 GO Augmenter la puissance d’un systèmes en ajoutant de nouvelles machines 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU Scale out X CPU, Y GO 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU
  • 38. Concepts architecturaux Scalabilité verticale vs Scalabilité horizontale 16 GB 8 CPU 32 GB 16 CPU Limit ! 16 GB 8 CPU Scale-up Scale-out Scale-out 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU Scale-up 24 CPU, 48 GO X CPU, Y GO Augmenter la puissance d’un système en ajoutant du matériels plus puissants Augmenter la puissance d’un systèmes en ajoutant de nouvelles machines
  • 40. Concepts architecturaux Partitionnement - Sharding Collection A File File1 TB Nœud 1 Nœud 2 Nœud 3 Nœud 4 256 GB 256 GB 256 GB 256 GB ✘ Répartir les données et traitements sur de multiples serveurs sur un cluster ✘ Le partitionnement permet d’absorber la charge (de stockage ou de traitement). Serveur logique Cluster
  • 41. Concepts architecturaux Réplication Collection A BA C Nœud 1 Nœud 2 Nœud 3 CA BA B C Nœud 4 BA C RF = 3 ✘ Copier la donnée en de multiples exemplaires sur plusieurs nœuds du cluster ✘ Permet de garantir la disponibilité de l’ensemble des données même quand un nœud du cluster disparaît (maintenance, crash, …) ✘ La probabilité de perte d’un nœud croît avec la taille du cluster ✘ Meilleur performance et sécurité.
  • 43. Concepts architecturaux Architecture des disques (1/3) ✘ JBOD vs RAID ✗ JBOD : Just a Bunch Of Disks (3 disques de 1T = 3To de stockage) ✗ RAID : Redundant Array of Independent Disks (réplication physique) ✘ Quand utiliser quoi ? ✗ JBOD : Système avec redondance  nœuds worker et de données ✗ RAID : Système sans redondance  Nœuds Master, gestion du système ✘ Avantage : ✗ JBOD : Gagner de l‘espace disque, facile a mettre en place… ✗ RAID : Fiabilité de données, mais coûte plus cher...
  • 44. Concepts architecturaux Architecture des disques (2/3) striping mirroring single parity double parity distribution réplication
  • 47. Concepts architecturaux Architecture des nœuds - Master / Slave – Sans HA Nœud Master Nœud Slave Nœud Slave Application Driver writeread SPOF ✘ Les nœuds master sont soit impliquer dans les opérations, soit ils ont simplement un rôle mendiant d’acheminement, d’orchestration des opérations read > peut s’occuper du sharding/replication > A connaissance de la topologies
  • 48. Concepts architecturaux Architecture des nœuds - Multi-Master Master active Slave Slave Master active Slave Slave Master active SlaveSlave Synchronisation
  • 49. Concepts architecturaux Architecture des nœuds - Peer to Peer / En noeuds Nœud 1 Nœud 2 Nœud 3 Nœud 4 ✘ Tout les nœuds sont égaux ✘ Topologie connu par chaque nœud et non par le master 0-24 25-49 75-99 50-74 Masterless architecture Application Driver R/W
  • 51. Concepts architecturaux Election des nœuds (1/4) Nœud Primaire Master Nœud Secondaire Slave Nœud Secondaire Slave Réplication Réplication Heartbeats Election d’un nouveau nœud primaire
  • 52. Concepts architecturaux Election des nœuds (2/4) Nœud Primaire Master Nœud Secondaire Slave Heartbeats Réplication
  • 53. Concepts architecturaux Election des nœuds (3/4) Nœud Primaire Master Nœud Secondaire Slave Arbiter Réplication Heartbeat Election d’un nouveau nœud primaire Utilisé simplement pour le vote
  • 54. Concepts architecturaux Election des nœuds (4/4) Nœud Primaire Master Arbiter Heartbeat
  • 56. Concepts architecturaux Théorème de CAP Consistency The data is the same across the cluster, at the same given time X X X
  • 57. Concepts architecturaux Théorème de CAP Consistency The data is the same across the cluster, at the same given time Most P2P
  • 59. Concepts architecturaux Cartographie des technologies par couches REALTIME & BATCH PROCESSING SECURITY,&GOUVERNANCE CNavigator ApacheRanger QUERYING, ANALYTICS & DATASCIENCE USER PRESENTATION & REPORTING MANAGEMENT&ADMINISTRATION Clouderamanager EXTERNAL INPUTS : FS / WS STORAGE : FILE SYSTEMS, DATABASES, FILETYPES & SEARCH ENGINES DATA ACQUISITION, INGESTION & INTEGRATION MESSAGING, BROKERS & COORDINATION
  • 60. Concepts architecturaux Cartographie des technologies par couches DATA ACQUISITION, INGESTION & INTEGRATION REALTIME & BATCH PROCESSING SECURITY, & GOUVERNA NCE C Navigator QUERYING, ANALYTICS & DATASCIENCE USER PRESENTATION & REPORTING MANAGEME NT & ADMINISTRA TION Cloudera manager STORAGE : FILE SYSTEMS, DATABASES, FILETYPES & SEARCH ENGINE MESSAGING, BROKERS & COORDINATION Spark Flume Hadoop Sqoop Talend Scala Java Kafka RabbitMQ ActiveMQ IronMQ Zookeeper TalendNifiFlinkStormHadoopSpark HBaseHadoop MongoDB CouchBase RedisNeo4J CassandraTitan Parquet Orc Avro Elastic search Teradata Solr Spark Jupyter Zepplin R Phyton HAWQ Teradata Hive Impala PolymapsHTML/CSSExcelQlik TableauHue Sentry Falcon Atlas Knox Ranger Ambari Ganglia Oozie Nagios AMQ Pentaho
  • 62. Déjà le NoSQL n’est pas :
  • 64. Lab MongoDB - Introduction sources : https://docs.mongodb.com et https://www.mongodb.com/mongodb-architecture ✘ Analyse de la solution : > Section Introduction > Technologie de stockage BigData (Database) > Scalable horizontalement > Section DataModel > Schema design Orienté document > Format BSON > Section Réplication : > Architecture Master/Slave > Élection des nœuds avec/sans Arbiter > Section Sharding > Distribution par élément (Document) > Distribution aléatoire et ordonnée (RangeBased/HashBased) > Section MongoDB CRUD Operations > Le write level est paramétrable (write concen) > Architecture + Web CAP Théorème > MongoDB est « CA » et « CP » si on utilise le safe=true ( besoin de creuser )
  • 65. Lab MongoDB - Introduction ✘ Base de données open-source ✘ Base de données orientée documents ✘ Répond aux besoins de volumétries et de performances ✘ Réplication et Failover pour une haute disponibilité ✘ Auto Sharding pour une scalabilité horizontale ✘ Accepte le paradigme Map/Reduce ✘ Gestion facile des données géo-spatiales
  • 66. Lab MongoDB – Qui l’utilise
  • 67. Lab MongoDB – Connecteurs
  • 68. Lab MongoDB RDBMS MongoDB Database Database Table, View Collection Row Document (JSON, BSON) Column Field Index Index Primary Key Row Key / Partion Key Foreign Key Reference Partition Shard Table de correspondence
  • 70. LAB MongoDB Hands on Query Language CRUD Operations
  • 71. LAB MongoDB Hands on Schema Design Application design
  • 72. LAB MongoDB Hands on Java Driver Application programming
  • 74. Lab MongoDB Absence de la Shard Key Lecture dans MongoDB
  • 76. Lab MongoDB Sharding et replication MongoD
  • 78. Lab Cassandra - Introduction ✘ Base de données open-source ✘ Base de données orientée colonnes ✘ Répond aux besoins de volumétrie et de performance ✘ Réplication et Failover pour une haute disponibilité ✘ Auto Sharding pour une scalabilité horizontale ✘ Gestion automatique de la réplication des Datacenter ✘ Gestion facile des données timeseries
  • 79. Lab Cassandra – Qui l’utilise?
  • 80. Lab Cassandra – Connecteurs
  • 81. Lab Casssandra RDBMS Cassandra Schema/Database Schema/Keyspace Table Table/Column Family Row Row Column Column(name,value) Index Index Table de correspondance
  • 82. LAB Cassandra Impact de créations des tables sur l’architecture technique Points critiques, performances et limitations
  • 83. LAB Cassandra Hands on CQL Application design/Schema design, Querying and design by query
  • 84. LAB Cassandra What really happened Read/Write Path, Write level, nodes elections, data distribution
  • 86. Datalake Introduction Définition, Natures et types des données, schema on read/write
  • 87. Datalake Définition Réseaux sociaux et streaming Fichiers et logs Bases de Données DATA LAKE Données structurées Données semi-structurées Données non structurées STAGING ARCHIVING TRANSFORMING HISTORISATION Capteurs ANALYTICS PREDICTIONS Pas performante pour du traitement opérationnel
  • 88. Hadoop Introduction à Hadoop Batch processing RealTime processing
  • 89. Hadoop Distribution et technologies 3 grandes distributions sur le marché : > Hortonworks : Expedia, ebay, Samsung, Spotify,... > Cloudera : Cisco, Mastercard, Siemens, WesterUnion… > MapR : HP , American express, Beats music, Ericsson... BNP Parisbas La Poste Credit agricole
  • 91. Datalake Cartographie logique / technologique HDP Datalake Services (accès aux données, traitements…) Traitements ( ETL, ELT, …) Données brutes, temporaires, à valeurs ajoutées Gouvernance,Securité… Pointsd’accèsPointd’Expositions Falcon Atlas HDFS HBase Phoenix MapReduce Spark Hive Pig Hive Solr Ranger Storm Zeppelin Ambari views WS Hive SparkKnox Spark SQL Avro ORC Hadoop Kafka Sqoop Yarn Tez
  • 92. Hadoop Distribution et technologies Hortonworks : version des technologies de la stack
  • 94. Datalake Cartographie logique / technologique CDH Polyglot-persistenceDonnées de référence Datalake Services (accès aux données, traitements…) Traitements ( ETL, ELT, …) Données brutes, temporaires, à valeurs ajoutées Gouvernance, sécurité, catalogue, métadata, traçabilité, cycle de vie… Gouvernance,Securité… Pointsd’accès Ingestion, Accès données : temps réel, batch, MicroBatch Pointd’Expositions Webservices, API Record service Cloudera navigator HDFS HBase Kudu MapReduce Spark Hive/Impala Pig Hive/Impala Solr Sentry Storm Zeppelin Hue WS Knox Spark SQL Avro Parquet Hadoop Hive/Impala Spark Kafka Sqoop Yarn Tez
  • 95. Hadoop Hadoop Core – Master / Slave Master nodes NameNode Secondary NameNode Ressource Manager Worker nodes DataNode Node Manager
  • 99. ✘ Designe a la fois le Framework et l’algorithme ✘ MapReduce est un framework pour traiter les données en parallèle sur plusieurs machines  algorithme distribués ✘ Les programmes MapReduce scalent sur des milliers de machines. Hadoop MapReduceFILEA split #1 SPLITSDATA <k,v> paire RESULT split #2 split #3 <k,v> paire <k,v> paire map map map reduce reduce reduce MAPPERS SHUFFLING SORTING REDUCERS RESULT

Notes de l'éditeur

  1. Ce sont 3 propriétés fondamentales des systèmes bigdata