BI and Big Data:
practical experience
Future Of Data
Mathias Kluba
Architecte Technique Data Management
SGCIB
Busines Intelligence (BI)
et
Big Data ?
Staging / ODS
Source data
Data Sources
EL
Datawarehouse
Single aggregated view
ETL ETL
DataMarts
Specific views
Data Quality - Data Cleansing Data Quality – Completeness
Ad Hoc Query
Reporting
Data Quality – Data Accuracy
Ad Hoc Query
Reporting
Reporting
Data Mining
Staging / ODS
Source data
Data Sources
EL
Datawarehouse
Single aggregated view
ETL ETL
DataMarts
Specific views
Big Data – BI Offloading
Reporting
Data Mining
Ad Hoc Query
Reporting
Staging / ODS
Source data
Data Sources
EL
Datawarehouse
Single aggregated view
ETL ETL
DataMarts
Specific views
Reporting
Data Mining
Ad Hoc Query
Reporting
http://hortonworks.com/blog/how-pioneering-banks-adopt-hadoop-for-enterprise-data-management/
ODBC Driver compatibility ?
Hive QL specificity ?
Kerberos ?
Low Latency ? Indexes ?
Spark SQL
- Pas d’intégration Ranger
- Pas réussi à l’intégrer à Knox
- Compatibilité Kerberos+Tableau impossible
Phoenix
- Compatible Microstrategy
- Pas d’impersonation/authentification sur le Query Server
- Pas de support des HBase Namespaces*
*en 4.7.0 avec HDP 2.5, support depuis la 4.8.0
Solr
- Compatible Microstrategy mais pas Tableau
Hawq
- Protocol/SQL de PostgreSQL… mais pas tout à fait
Drill
- Peut-être la bonne solution, pas assez de tests…
https://github.com/airbnb/supersethttps://github.com/Quantiply/grafana-plugins/tree/master/features/druid
- Pas de SQL!! Utilisable uniquement avec les IHMs Web
- Pas de sécurité !!! Difficile de faire du Multi-tenant
- Uniquement time-series
- Certaines fonctions d’agrégations difficile à implémenter
- Performance du « orienté colonne » !
- Scalabilité
- Utilise HDFS pour le stockage historique
- Ingestion temps réel depuis Kafka
- L’IHM… c’est un bon début…
- Bug sur l’authentification LDAP
- Bug sur la gestion des Namespaces HBase
- Configuration du Cube parfois complexe
- Tableau fonctionne bien, pas Microstrategy
- Driver ODBC uniquement Windows
- Pas trop multi-tenant
- Scalabilité, supporte de gros volume de cube
- SQL!! Et API REST!
- Facile à installer: utilise les composants de la stack Hadoop
Staging / ODS
Source data
Data Sources
EL
Datawarehouse
Single aggregated view
ETL ETL
DataMarts
Specific views
- SSAS Tabular Models: limité à la RAM
- Temps de chargement de Hadoop vers le cube
- Très bonnes performances avec l’orienté colonne in-memory
- Technologie mature
- Compatibilité Excel / PowerBI
- Fonctions d’agrégations complexes
- Modèle de visibilité puissant
Future Of Data Paris - BI and Big Data

Future Of Data Paris - BI and Big Data

  • 1.
    BI and BigData: practical experience Future Of Data
  • 2.
  • 3.
  • 4.
    Staging / ODS Sourcedata Data Sources EL Datawarehouse Single aggregated view ETL ETL DataMarts Specific views Data Quality - Data Cleansing Data Quality – Completeness Ad Hoc Query Reporting Data Quality – Data Accuracy Ad Hoc Query Reporting Reporting Data Mining
  • 5.
    Staging / ODS Sourcedata Data Sources EL Datawarehouse Single aggregated view ETL ETL DataMarts Specific views Big Data – BI Offloading Reporting Data Mining Ad Hoc Query Reporting
  • 6.
    Staging / ODS Sourcedata Data Sources EL Datawarehouse Single aggregated view ETL ETL DataMarts Specific views Reporting Data Mining Ad Hoc Query Reporting
  • 7.
  • 10.
    ODBC Driver compatibility? Hive QL specificity ? Kerberos ? Low Latency ? Indexes ?
  • 12.
    Spark SQL - Pasd’intégration Ranger - Pas réussi à l’intégrer à Knox - Compatibilité Kerberos+Tableau impossible Phoenix - Compatible Microstrategy - Pas d’impersonation/authentification sur le Query Server - Pas de support des HBase Namespaces* *en 4.7.0 avec HDP 2.5, support depuis la 4.8.0 Solr - Compatible Microstrategy mais pas Tableau Hawq - Protocol/SQL de PostgreSQL… mais pas tout à fait Drill - Peut-être la bonne solution, pas assez de tests…
  • 14.
  • 15.
    - Pas deSQL!! Utilisable uniquement avec les IHMs Web - Pas de sécurité !!! Difficile de faire du Multi-tenant - Uniquement time-series - Certaines fonctions d’agrégations difficile à implémenter - Performance du « orienté colonne » ! - Scalabilité - Utilise HDFS pour le stockage historique - Ingestion temps réel depuis Kafka
  • 17.
    - L’IHM… c’estun bon début… - Bug sur l’authentification LDAP - Bug sur la gestion des Namespaces HBase - Configuration du Cube parfois complexe - Tableau fonctionne bien, pas Microstrategy - Driver ODBC uniquement Windows - Pas trop multi-tenant - Scalabilité, supporte de gros volume de cube - SQL!! Et API REST! - Facile à installer: utilise les composants de la stack Hadoop
  • 19.
    Staging / ODS Sourcedata Data Sources EL Datawarehouse Single aggregated view ETL ETL DataMarts Specific views
  • 20.
    - SSAS TabularModels: limité à la RAM - Temps de chargement de Hadoop vers le cube - Très bonnes performances avec l’orienté colonne in-memory - Technologie mature - Compatibilité Excel / PowerBI - Fonctions d’agrégations complexes - Modèle de visibilité puissant