SlideShare une entreprise Scribd logo
1  sur  16
Télécharger pour lire hors ligne
Chp5 – ”Putting it All Together"
Big Data, BI, NOSQL
Big Data
GL4 (Option Management des Systèmes d'Information) - 2016
Dr. Lilia SFAXI
www.liliasfaxi.wix.com/liliasfaxi
Slide 1
Big Data, BI, NOSQL
• Pas de solution miracle qui fonctionne dans toutes les situations
• Le métier et le type des données définissent la solution adéquate
§ Si la compagnie X réussit à gérer ses 500M utilisateurs avec MySQL, cela ne
veut pas dire que vous arriverez à bien gérer vos 100M d’utilisateurs avec
MySQL
§ Si la compagnie Y utilise MongoDB pour gérer ses 100M utilisateurs, cela ne
veut pas dire que vous y arriverez aussi!
• A good engineer can make bad product to work
• A bad engineer can make good product to suck
• Il faut tout d’abord comprendre le métier:
§ Sources, types et croissance des données
§ Consommation des données
o Utilisateur final, API, outils de reporting, interne…
§ SLA (Service Level Agreement), temps de réponse,
§ Coût
§ Penser à faire évoluer l’architecture avec la croissance de votre entreprise, ne
pas penser trop gros depuis le jour 1
2
Que choisir?
Big Data, BI, NOSQL
• SQL:
§ Relationnel et transactionnel
• NOSQL
§ Non-relationnel, distribué, haute performance, et hautement évolutif
• Analytiques et Business Intelligence
§ Entrepôt de données centralisé et unique, analyses métier, reporting
• Big Data, Hadoop et MapReduce
§ Distribué, hautement évolutif, tolérance aux fautes et traitement des
données parallèle
• Combinaison des quatre:
§ Commencer avec SQL et/ou NOSQL, et envisager ensuite BigData/Analytiques
3
D’abord, comprendre les objectifs des différentes technologies…
Big Data, BI, NOSQL
• Choix entre deux classes de technologie :
§ Systèmes fournissant des capacités opérationnelles pour des charges de
travail quotidiennes, interactives et en temps réel, où les données sont
principalement capturées et sauvegardées
§ Systèmes fournissant des capacités analytiques pour une analyse
rétrospective et complexe qui peut toucher toutes ou la plupart des données.
• Deux classes complémentaires et en général utilisées ensemble
• Systèmes opérationnels : Bases de données SQL et NOSQL
§ Satisfaire des requêtes concurrentes
§ Exhiber une latence faible (temps de réponse très rapide)
• Systèmes analytiques : Entrepôts de données et MapReduce
§ Se concentrent sur un grand débit
§ Requêtes peuvent être très complexes et toucher plusieurs sinon toutes les
données du système à tout moment
4
Ensuite, savoir ce qu’on veut!
BIG DATA & NOSQL
Chp5: Putting it all together
5
Big Data & NOSQL
• HDFS représente l’un des atouts majeurs de Hadoop car:
§ Distribué, en cluster
§ Facilement extensible
§ Offre une haute disponibilité
• Mais, il offre certains désavantages:
§ Utilise un système de stockage direct (DAS: Direct Attached Storage), pas
de SAN (Storage Area Network)
§ Problème de disponibilité pour les utilisateurs des anciennes versions de
Hadoop, où le NameNode n’est pas dupliqué
§ Les utilisateurs utilisent déjà une base de données distribuée, et ne
veulent pas perdre du temps à copier les données d’un système à un autre
• Plusieurs options sont proposées pour remplacer HDFS, dont
l’utilisation de bases NOSQL
6
Remplacer HDFS par NOSQL
Big Data & NOSQL
• C’est l’approche la plus utilisée
• NOSQL offrent des données diversifiées, en grand nombre et de divers types,
regroupées dans un endroit unique.
• Map Reduce pourra parcourir ces données, les filtrer, les traiter et afficher les
résultats
§ Profiter des capacités de stockage des bases NOSQL
§ Profiter de la tolérance aux pannes pour éviter la perte de données
§ Extraction facile des données, plus facile qu’une manipulation d’un fichier textuel
§ Moins de risques de données erronées ou non conformes
• Les résultats obtenus pourront être stockés:
§ Dans un fichier texte, excel…
§ Dans une base NOSQL, pour profiter de la capacité de stockage
§ Dans une base SQL pour faciliter le reporting
7
Utiliser le MapReduce pour interroger les bases NOSQL
BIG DATA & BUSINESS INTELLIGENCE
Chp5: Putting it all together
8
9
Sources Statistiques
Extraction
Transformation
Chargement
Affichage
Reporting
Bases	de	Données
Fichiers
ERP/CRM
DW
Entrepôt	de	Données Serveur	OLAP
Requête
Analyse
Exploration
Structured’un SystèmeDécisionnel
Big Data & BI
• Big Data s’impose pour les technologies touchant à l’analytique
• « La BI traditionnelle est morte, vive la Big BI! »
• Données peu structurées, de plus en plus nombreuses et diversifiées
(Variété)
§ Impossible d’exploiter cette volumétrie de données avec les techniques de BI
traditionnelle
§ Risque d’obtenir des infrastructures très complexes
• Données doit être traitées à chaud (Vélocité)
§ Opération d’ETL en BI se fait périodiquement, dans des moments où le système
opérationnel est au repos
§ Impossible de rafraîchir les tableaux de bord d’aide à la décision plus qu’une
fois par jour, ce qui est maintenant requis pour certains métiers (e-
commerçants, par ex.)
§ Outils décisionnels sont, certes, robustes, mais paraissent trop figés pour les
besoins actuels
• Données publiques
10
BI Traditionnelle, morte?
Approches d’Intégration
• D’après [Roe-2012], il existe 6 approches pour
combiner NOSQL avec BI
• Approche 1: Rapports NOSQL
§ Payer un développeur pour construire des applications
de reporting sur les systèmes NOSQL
§ Profite des avantages de NOSQL, mais coûteuse car
besoin d’un développeur spécialisé
§ Pas besoin d’outils BI, a seulement une seule source de
données
• Approche 2: Rapports NOSQL configurables
§ Plus flexible que l’approche 1, car offre à l’utilisateur la
possibilité de configurer son propre rapport
§ Systèmes plus ad-hoc, mais plus coûteux que
l’approche 1
§ Problème d’intégration avec les autres données SQL-
centric
11
NOSQL/BIG Data avec SQL/BI (1/3)
Application	
Reporting NOSQL
Application	 Reporting
Avancée
Config
+
Approches d’Intégration
• Approche 3: NOSQL + MySQL
§ Développement d’une application ETL pour
transporter les données d’une base NOSQL
vers la base MySQL, utilisée par les outils de
BI riches comme Pentaho et Jasper.
§ Moins coûteuse que 1 et 2, car pas besoin
de développeur pour un outil de reporting
spécifique
§ Mais, manque de fraîcheur de données, perte
de la richesse offerte par NOSQL
• Approche 4: NOSQL comme source de
données ETL
§ Données extraites à partir des bases NOSQL
et systèmes Big Data, et intégrées avec les
autres données de l’entreprise dans
l’entrepôt
§ Première architecture permettant d’intégrer
les données
§ Perte de l’expressivité de NOSQL pendant la
phase ETL
12
NOSQL/BIG Data avec SQL/BI (2/3)
Outil	BI
ETL
ETL
ERP
Outil	BI
Entrepôt
Approches d’Intégration
• Approche 5 : Programmes NOSQL dans les
outils BI
§ Développement d’un programme pour
l’outil BI qui le connecte à la base NOSQL
§ Pas besoin de définir les rapports un à un
comme dans Approche 1, mais étaler les
données NOSQL pour les rendre
compréhensibles par l’outil de reporting
• Approche 6 : Système d’intégration
§ Ajout d’un système tiers EII (Enterprise
Information Integration) entre l’outil BI et
le système NOSQL/BigData, qui agit comme
intermédiaire
§ Peut discuter avec les deux parties,
traduit les données en modèles utilisables
par l’outil BI
13
NOSQL/BIG Data avec SQL/BI (3/3)
Outil	BI
Outil	BI
EII
BI & NOSQL
• Avantages du NOSQL
§ Stockage efficace et évolutif
§ La possibilité de toujours stocker plus de données
§ Coûts réduits des outils
§ Outils analytiques plus riches: utilisation de l’analyse de graphes, des
frameworks Map-Reduce… au lieu du filtrage classique et « group by » de
SQL
§ Structures de données flexibles tolérance aux fautes
• Mais
§ NOSQL n’est pas « propre », car la structure est évolutive, donc facilement
modifiable, alors la BI cherche avant tout à rendre les différentes sources
de données (en général des bases de production plutôt anarchiques)
structurées, solides et faites pour durer
§ NOSQL surtout pratique pour les analyses ponctuelles
14
Entrepôts de données NOSQL?
BI & NOSQL
• On pourra utiliser NOSQL comme entrepôt de données, pour profiter de :
§ Sa capacité de stockage
§ Son évolutivité
§ Sa tolérance aux fautes
§ Sa rapidité d’insertion
§ Peut-être même de la flexibilité de sa structure dans le cas d’un besoin
d’évolution de l’entrepôt.
• Mais:
§ On ne pourra pas (trop) bénéficier de la diversité des formats de données
supportées
§ L’utilisateur sera pénalisé par les restrictions de requêtage des bases NOSQL,
et leur manque de flexibilité et de consistance.
• Les Bases orientées colonnes pourraient s’avérer être les plus appropriées
pour un entrepôt de données, car:
§ Elles définissent un schéma clair
§ Elles supportent de très grands volumes de données,
§ Elles sont très rapides en terme d’écriture par rapport aux autres
15
Entrepôts de données NOSQL?
• Présentations
§ Venu Anuganti, « SQL, NOSQL and Big Data in Architecture », 2012
• Sites
§ MongoDB, BigData Explained, http://www.mongodb.com/big-data-explained
• Articles
§ Romain Chaumais, “Le Big Data ou la mort annoncée de la BI traditionnelles”,
http://technologies.lesechos.fr/business-intelligence/le-big-data-ou-la-
mort-annoncee-de-la-bi-traditionnelle-_a-41-681.html , juin 2013
§ Charles Roe, « BI/Analytics on NoSQL: Review of architectures »,
http://www.dataversity.net/bianalytics-on-nosql-review-of-architectures-
part-1/ Février 2012
16
Sources

Contenu connexe

Tendances

Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5Amal Abid
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big dataAbdelghani Azri
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4JLilia Sfaxi
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Lilia Sfaxi
 
Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -IliasAEA
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : CassandraLilia Sfaxi
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystèmeKhanh Maudoux
 
Spark - Alexis Seigneurin (Français)
Spark - Alexis Seigneurin (Français)Spark - Alexis Seigneurin (Français)
Spark - Alexis Seigneurin (Français)Alexis Seigneurin
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
Les Base de Données NOSQL
Les Base de Données NOSQLLes Base de Données NOSQL
Les Base de Données NOSQLkamar MEDDAH
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - IntroductionBlandine Larbret
 

Tendances (20)

Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
 
Big data
Big dataBig data
Big data
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big data
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4J
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture
 
Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
Spark - Alexis Seigneurin (Français)
Spark - Alexis Seigneurin (Français)Spark - Alexis Seigneurin (Français)
Spark - Alexis Seigneurin (Français)
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Les Base de Données NOSQL
Les Base de Données NOSQLLes Base de Données NOSQL
Les Base de Données NOSQL
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
Hive ppt (1)
Hive ppt (1)Hive ppt (1)
Hive ppt (1)
 

En vedette

BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business IntelligenceLilia Sfaxi
 
Javascript Design Patterns
Javascript Design PatternsJavascript Design Patterns
Javascript Design PatternsLilia Sfaxi
 
Introduction au Web
Introduction au WebIntroduction au Web
Introduction au WebLilia Sfaxi
 
Client-side JavaScript
Client-side JavaScriptClient-side JavaScript
Client-side JavaScriptLilia Sfaxi
 
Server-side JS with NodeJS
Server-side JS with NodeJSServer-side JS with NodeJS
Server-side JS with NodeJSLilia Sfaxi
 
Mobile developement
Mobile developementMobile developement
Mobile developementLilia Sfaxi
 
Enquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Enquête RegionsJob : emploi et réseaux sociaux, deuxième éditionEnquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Enquête RegionsJob : emploi et réseaux sociaux, deuxième éditionHelloWork
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic
 
NoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationNoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationMicrosoft Technet France
 
Big Data Analytics for connected home
Big Data Analytics for connected homeBig Data Analytics for connected home
Big Data Analytics for connected homeHéloïse Nonne
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopBenoît de CHATEAUVIEUX
 
Bases de données NoSQL
Bases de données NoSQLBases de données NoSQL
Bases de données NoSQLSamy Dindane
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopJoseph Glorieux
 

En vedette (20)

BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Thinking BIG
Thinking BIGThinking BIG
Thinking BIG
 
Javascript Design Patterns
Javascript Design PatternsJavascript Design Patterns
Javascript Design Patterns
 
Introduction au Web
Introduction au WebIntroduction au Web
Introduction au Web
 
Core JavaScript
Core JavaScriptCore JavaScript
Core JavaScript
 
Client-side JavaScript
Client-side JavaScriptClient-side JavaScript
Client-side JavaScript
 
Angular
AngularAngular
Angular
 
Testing Angular
Testing AngularTesting Angular
Testing Angular
 
Server-side JS with NodeJS
Server-side JS with NodeJSServer-side JS with NodeJS
Server-side JS with NodeJS
 
Mobile developement
Mobile developementMobile developement
Mobile developement
 
Enquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Enquête RegionsJob : emploi et réseaux sociaux, deuxième éditionEnquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Enquête RegionsJob : emploi et réseaux sociaux, deuxième édition
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
NoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationNoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisation
 
Big Data Analytics for connected home
Big Data Analytics for connected homeBig Data Analytics for connected home
Big Data Analytics for connected home
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
 
Bases de données NoSQL
Bases de données NoSQLBases de données NoSQL
Bases de données NoSQL
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 
Une introduction à MapReduce
Une introduction à MapReduceUne introduction à MapReduce
Une introduction à MapReduce
 
Hadopp Vue d'ensemble
Hadopp Vue d'ensembleHadopp Vue d'ensemble
Hadopp Vue d'ensemble
 

Similaire à BigData_Chp5: Putting it all together

Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Converteo
 
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETICNoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETICLa FeWeb
 
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data LakeGUSS
 
Introduction nosql
Introduction nosqlIntroduction nosql
Introduction nosqlInes Slimene
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationDenodo
 
Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Denodo
 
[Café techno] Optimiser le coût de vos données avec DB2 distribué
[Café techno] Optimiser le coût de vos données avec DB2 distribué[Café techno] Optimiser le coût de vos données avec DB2 distribué
[Café techno] Optimiser le coût de vos données avec DB2 distribuéGroupe D.FI
 
Morning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMorning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMongoDB
 
DataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le CloudDataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le CloudVictor Coustenoble
 
No Sql - Olivier Mallassi - September 2010
No Sql - Olivier Mallassi - September 2010No Sql - Olivier Mallassi - September 2010
No Sql - Olivier Mallassi - September 2010JUG Lausanne
 
Stockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le mondeStockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le mondeMicrosoft Technet France
 
Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022Denodo
 

Similaire à BigData_Chp5: Putting it all together (20)

Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
 
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETICNoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
 
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
 
Introduction nosql
Introduction nosqlIntroduction nosql
Introduction nosql
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
 
Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...
 
[Café techno] Optimiser le coût de vos données avec DB2 distribué
[Café techno] Optimiser le coût de vos données avec DB2 distribué[Café techno] Optimiser le coût de vos données avec DB2 distribué
[Café techno] Optimiser le coût de vos données avec DB2 distribué
 
Base de données
Base de donnéesBase de données
Base de données
 
Morning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMorning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast Connect
 
DataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le CloudDataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le Cloud
 
No Sql - Olivier Mallassi - September 2010
No Sql - Olivier Mallassi - September 2010No Sql - Olivier Mallassi - September 2010
No Sql - Olivier Mallassi - September 2010
 
chap4.pdf
chap4.pdfchap4.pdf
chap4.pdf
 
Stockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le mondeStockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le monde
 
Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022
 
Webinar Degetel DataStax
Webinar Degetel DataStaxWebinar Degetel DataStax
Webinar Degetel DataStax
 

Plus de Lilia Sfaxi

chp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfchp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfLilia Sfaxi
 
Plan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfPlan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfLilia Sfaxi
 
Lab1-DB-Cassandra
Lab1-DB-CassandraLab1-DB-Cassandra
Lab1-DB-CassandraLilia Sfaxi
 
TP2-UML-Correction
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-CorrectionLilia Sfaxi
 
TP1-UML-Correction
TP1-UML-CorrectionTP1-UML-Correction
TP1-UML-CorrectionLilia Sfaxi
 
TP0-UML-Correction
TP0-UML-CorrectionTP0-UML-Correction
TP0-UML-CorrectionLilia Sfaxi
 
TD4-UML-Correction
TD4-UML-CorrectionTD4-UML-Correction
TD4-UML-CorrectionLilia Sfaxi
 
TD3-UML-Séquences
TD3-UML-SéquencesTD3-UML-Séquences
TD3-UML-SéquencesLilia Sfaxi
 
TD3-UML-Correction
TD3-UML-CorrectionTD3-UML-Correction
TD3-UML-CorrectionLilia Sfaxi
 
TD2 - UML - Correction
TD2 - UML - CorrectionTD2 - UML - Correction
TD2 - UML - CorrectionLilia Sfaxi
 
TD1-UML-correction
TD1-UML-correctionTD1-UML-correction
TD1-UML-correctionLilia Sfaxi
 
Android - Tp1 - installation et démarrage
Android - Tp1 -   installation et démarrageAndroid - Tp1 -   installation et démarrage
Android - Tp1 - installation et démarrageLilia Sfaxi
 
Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Lilia Sfaxi
 
Android - Tp3 - intents
Android - Tp3 -  intentsAndroid - Tp3 -  intents
Android - Tp3 - intentsLilia Sfaxi
 
Android - TPBonus - web services
Android - TPBonus - web servicesAndroid - TPBonus - web services
Android - TPBonus - web servicesLilia Sfaxi
 
Android - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancésAndroid - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancésLilia Sfaxi
 

Plus de Lilia Sfaxi (20)

chp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfchp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdf
 
Plan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfPlan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdf
 
Lab3-DB_Neo4j
Lab3-DB_Neo4jLab3-DB_Neo4j
Lab3-DB_Neo4j
 
Lab2-DB-Mongodb
Lab2-DB-MongodbLab2-DB-Mongodb
Lab2-DB-Mongodb
 
Lab1-DB-Cassandra
Lab1-DB-CassandraLab1-DB-Cassandra
Lab1-DB-Cassandra
 
TP2-UML-Correction
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-Correction
 
TP1-UML-Correction
TP1-UML-CorrectionTP1-UML-Correction
TP1-UML-Correction
 
TP0-UML-Correction
TP0-UML-CorrectionTP0-UML-Correction
TP0-UML-Correction
 
TD4-UML
TD4-UMLTD4-UML
TD4-UML
 
TD4-UML-Correction
TD4-UML-CorrectionTD4-UML-Correction
TD4-UML-Correction
 
TD3-UML-Séquences
TD3-UML-SéquencesTD3-UML-Séquences
TD3-UML-Séquences
 
TD3-UML-Correction
TD3-UML-CorrectionTD3-UML-Correction
TD3-UML-Correction
 
TD2 - UML - Correction
TD2 - UML - CorrectionTD2 - UML - Correction
TD2 - UML - Correction
 
TD1 - UML - DCU
TD1 - UML - DCUTD1 - UML - DCU
TD1 - UML - DCU
 
TD1-UML-correction
TD1-UML-correctionTD1-UML-correction
TD1-UML-correction
 
Android - Tp1 - installation et démarrage
Android - Tp1 -   installation et démarrageAndroid - Tp1 -   installation et démarrage
Android - Tp1 - installation et démarrage
 
Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques
 
Android - Tp3 - intents
Android - Tp3 -  intentsAndroid - Tp3 -  intents
Android - Tp3 - intents
 
Android - TPBonus - web services
Android - TPBonus - web servicesAndroid - TPBonus - web services
Android - TPBonus - web services
 
Android - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancésAndroid - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancés
 

BigData_Chp5: Putting it all together

  • 1. Chp5 – ”Putting it All Together" Big Data, BI, NOSQL Big Data GL4 (Option Management des Systèmes d'Information) - 2016 Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 1
  • 2. Big Data, BI, NOSQL • Pas de solution miracle qui fonctionne dans toutes les situations • Le métier et le type des données définissent la solution adéquate § Si la compagnie X réussit à gérer ses 500M utilisateurs avec MySQL, cela ne veut pas dire que vous arriverez à bien gérer vos 100M d’utilisateurs avec MySQL § Si la compagnie Y utilise MongoDB pour gérer ses 100M utilisateurs, cela ne veut pas dire que vous y arriverez aussi! • A good engineer can make bad product to work • A bad engineer can make good product to suck • Il faut tout d’abord comprendre le métier: § Sources, types et croissance des données § Consommation des données o Utilisateur final, API, outils de reporting, interne… § SLA (Service Level Agreement), temps de réponse, § Coût § Penser à faire évoluer l’architecture avec la croissance de votre entreprise, ne pas penser trop gros depuis le jour 1 2 Que choisir?
  • 3. Big Data, BI, NOSQL • SQL: § Relationnel et transactionnel • NOSQL § Non-relationnel, distribué, haute performance, et hautement évolutif • Analytiques et Business Intelligence § Entrepôt de données centralisé et unique, analyses métier, reporting • Big Data, Hadoop et MapReduce § Distribué, hautement évolutif, tolérance aux fautes et traitement des données parallèle • Combinaison des quatre: § Commencer avec SQL et/ou NOSQL, et envisager ensuite BigData/Analytiques 3 D’abord, comprendre les objectifs des différentes technologies…
  • 4. Big Data, BI, NOSQL • Choix entre deux classes de technologie : § Systèmes fournissant des capacités opérationnelles pour des charges de travail quotidiennes, interactives et en temps réel, où les données sont principalement capturées et sauvegardées § Systèmes fournissant des capacités analytiques pour une analyse rétrospective et complexe qui peut toucher toutes ou la plupart des données. • Deux classes complémentaires et en général utilisées ensemble • Systèmes opérationnels : Bases de données SQL et NOSQL § Satisfaire des requêtes concurrentes § Exhiber une latence faible (temps de réponse très rapide) • Systèmes analytiques : Entrepôts de données et MapReduce § Se concentrent sur un grand débit § Requêtes peuvent être très complexes et toucher plusieurs sinon toutes les données du système à tout moment 4 Ensuite, savoir ce qu’on veut!
  • 5. BIG DATA & NOSQL Chp5: Putting it all together 5
  • 6. Big Data & NOSQL • HDFS représente l’un des atouts majeurs de Hadoop car: § Distribué, en cluster § Facilement extensible § Offre une haute disponibilité • Mais, il offre certains désavantages: § Utilise un système de stockage direct (DAS: Direct Attached Storage), pas de SAN (Storage Area Network) § Problème de disponibilité pour les utilisateurs des anciennes versions de Hadoop, où le NameNode n’est pas dupliqué § Les utilisateurs utilisent déjà une base de données distribuée, et ne veulent pas perdre du temps à copier les données d’un système à un autre • Plusieurs options sont proposées pour remplacer HDFS, dont l’utilisation de bases NOSQL 6 Remplacer HDFS par NOSQL
  • 7. Big Data & NOSQL • C’est l’approche la plus utilisée • NOSQL offrent des données diversifiées, en grand nombre et de divers types, regroupées dans un endroit unique. • Map Reduce pourra parcourir ces données, les filtrer, les traiter et afficher les résultats § Profiter des capacités de stockage des bases NOSQL § Profiter de la tolérance aux pannes pour éviter la perte de données § Extraction facile des données, plus facile qu’une manipulation d’un fichier textuel § Moins de risques de données erronées ou non conformes • Les résultats obtenus pourront être stockés: § Dans un fichier texte, excel… § Dans une base NOSQL, pour profiter de la capacité de stockage § Dans une base SQL pour faciliter le reporting 7 Utiliser le MapReduce pour interroger les bases NOSQL
  • 8. BIG DATA & BUSINESS INTELLIGENCE Chp5: Putting it all together 8
  • 10. Big Data & BI • Big Data s’impose pour les technologies touchant à l’analytique • « La BI traditionnelle est morte, vive la Big BI! » • Données peu structurées, de plus en plus nombreuses et diversifiées (Variété) § Impossible d’exploiter cette volumétrie de données avec les techniques de BI traditionnelle § Risque d’obtenir des infrastructures très complexes • Données doit être traitées à chaud (Vélocité) § Opération d’ETL en BI se fait périodiquement, dans des moments où le système opérationnel est au repos § Impossible de rafraîchir les tableaux de bord d’aide à la décision plus qu’une fois par jour, ce qui est maintenant requis pour certains métiers (e- commerçants, par ex.) § Outils décisionnels sont, certes, robustes, mais paraissent trop figés pour les besoins actuels • Données publiques 10 BI Traditionnelle, morte?
  • 11. Approches d’Intégration • D’après [Roe-2012], il existe 6 approches pour combiner NOSQL avec BI • Approche 1: Rapports NOSQL § Payer un développeur pour construire des applications de reporting sur les systèmes NOSQL § Profite des avantages de NOSQL, mais coûteuse car besoin d’un développeur spécialisé § Pas besoin d’outils BI, a seulement une seule source de données • Approche 2: Rapports NOSQL configurables § Plus flexible que l’approche 1, car offre à l’utilisateur la possibilité de configurer son propre rapport § Systèmes plus ad-hoc, mais plus coûteux que l’approche 1 § Problème d’intégration avec les autres données SQL- centric 11 NOSQL/BIG Data avec SQL/BI (1/3) Application Reporting NOSQL Application Reporting Avancée Config +
  • 12. Approches d’Intégration • Approche 3: NOSQL + MySQL § Développement d’une application ETL pour transporter les données d’une base NOSQL vers la base MySQL, utilisée par les outils de BI riches comme Pentaho et Jasper. § Moins coûteuse que 1 et 2, car pas besoin de développeur pour un outil de reporting spécifique § Mais, manque de fraîcheur de données, perte de la richesse offerte par NOSQL • Approche 4: NOSQL comme source de données ETL § Données extraites à partir des bases NOSQL et systèmes Big Data, et intégrées avec les autres données de l’entreprise dans l’entrepôt § Première architecture permettant d’intégrer les données § Perte de l’expressivité de NOSQL pendant la phase ETL 12 NOSQL/BIG Data avec SQL/BI (2/3) Outil BI ETL ETL ERP Outil BI Entrepôt
  • 13. Approches d’Intégration • Approche 5 : Programmes NOSQL dans les outils BI § Développement d’un programme pour l’outil BI qui le connecte à la base NOSQL § Pas besoin de définir les rapports un à un comme dans Approche 1, mais étaler les données NOSQL pour les rendre compréhensibles par l’outil de reporting • Approche 6 : Système d’intégration § Ajout d’un système tiers EII (Enterprise Information Integration) entre l’outil BI et le système NOSQL/BigData, qui agit comme intermédiaire § Peut discuter avec les deux parties, traduit les données en modèles utilisables par l’outil BI 13 NOSQL/BIG Data avec SQL/BI (3/3) Outil BI Outil BI EII
  • 14. BI & NOSQL • Avantages du NOSQL § Stockage efficace et évolutif § La possibilité de toujours stocker plus de données § Coûts réduits des outils § Outils analytiques plus riches: utilisation de l’analyse de graphes, des frameworks Map-Reduce… au lieu du filtrage classique et « group by » de SQL § Structures de données flexibles tolérance aux fautes • Mais § NOSQL n’est pas « propre », car la structure est évolutive, donc facilement modifiable, alors la BI cherche avant tout à rendre les différentes sources de données (en général des bases de production plutôt anarchiques) structurées, solides et faites pour durer § NOSQL surtout pratique pour les analyses ponctuelles 14 Entrepôts de données NOSQL?
  • 15. BI & NOSQL • On pourra utiliser NOSQL comme entrepôt de données, pour profiter de : § Sa capacité de stockage § Son évolutivité § Sa tolérance aux fautes § Sa rapidité d’insertion § Peut-être même de la flexibilité de sa structure dans le cas d’un besoin d’évolution de l’entrepôt. • Mais: § On ne pourra pas (trop) bénéficier de la diversité des formats de données supportées § L’utilisateur sera pénalisé par les restrictions de requêtage des bases NOSQL, et leur manque de flexibilité et de consistance. • Les Bases orientées colonnes pourraient s’avérer être les plus appropriées pour un entrepôt de données, car: § Elles définissent un schéma clair § Elles supportent de très grands volumes de données, § Elles sont très rapides en terme d’écriture par rapport aux autres 15 Entrepôts de données NOSQL?
  • 16. • Présentations § Venu Anuganti, « SQL, NOSQL and Big Data in Architecture », 2012 • Sites § MongoDB, BigData Explained, http://www.mongodb.com/big-data-explained • Articles § Romain Chaumais, “Le Big Data ou la mort annoncée de la BI traditionnelles”, http://technologies.lesechos.fr/business-intelligence/le-big-data-ou-la- mort-annoncee-de-la-bi-traditionnelle-_a-41-681.html , juin 2013 § Charles Roe, « BI/Analytics on NoSQL: Review of architectures », http://www.dataversity.net/bianalytics-on-nosql-review-of-architectures- part-1/ Février 2012 16 Sources