© Copyright 2015 – Keyrus 1
© Copyright 2015 – Keyrus 2© Copyright 2015 – Keyrus 2
CLOUD BI  GOOGLE & AMAZON
Focus Bigquery & Redshift
Olivier Breton – Responsable Innovation
&
Pierre Coste – Leader Technique BI & Search & Cloud
© Copyright 2015 – Keyrus 3
CLOUD : UNE OFFRE DE SERVICE
A LA DEMANDE
© Copyright 2015 – Keyrus 4
LES DONNÉES DANS LE CLOUD
• Données secrètes : ne doivent pas être dans le cloud
• Données confidentielles : Ne mettent pas en péril la société
• Données normales : Peu de valeur pour la société
Cloud Souverain ?
stockage US / EU ?
© Copyright 2015 – Keyrus 5
PRÉSENTATION AMAZON REDSHIFT
© Copyright 2015 – Keyrus 6
PRÉSENTATION BIGQUERY
• Un modèle qui ne peut pas être reproduit en local, une requête
peut engendrer l’utilisation de 10 000 cœurs
• Pas d’installation, pas d’administration, pas d’index
• Scalable : répondra aussi vite peu importe le nombre d’utilisateurs
et la données
• Temps réel – Stream data
table
dataset
PROJET
LES COMPOSANTS
∕ UTF-8 & ISO-8859-1
∕ Support du SQL standard et étendu
par Bigquery
∕ Modèles normalisés & dénormalisés
∕ Streaming
∕ Chargements parallélisés
∕ Interface graphique de gestion
© Copyright 2015 – Keyrus 7
PRÉSENTATION BIGQUERY
• Stockage en colonne VS stockage en ligne
• Full scan de la table à chaque requête
• Mise en cache de chaque requête
Les colonnes
∕ Strings
∕ integers
∕ booleans
∕ floats
∕ timestamps,
∕ Nested
∕ records
© Copyright 2015 – Keyrus 8
PRÉSENTATION BIGQUERY
• Chargement des données
• Par Fichier en CSV ou en JSON
• Streaming pour chargement en temps réel (via API)
Les données
∕ Une table alimentée est immuable
∕ Pas de modification au niveau ligne
∕ Pas d’update, pas de delete
© Copyright 2015 – Keyrus 9
PRÉSENTATION BIGQUERY
• Décorateur pour diminuer les coûts
• @time : le snapshot
• TABLE_DATE_RANGE(prefix, timestamp1, timestamp2)
• TABLE_QUERY(dateset, expr) 'table_id CONTAINS "oo" AND
length(table_id) >= 4')
Les cout
∕ Stockage : $0.020 per GB, per
month
∕ Requête : $5 per TB (1er TB gratuit)
∕ Chargement / Copie / Export gratuit
Les cout
∕ 750 heures gratuites pendant 2 Mois
∕ 0,25$/heure/node au moins cher
pour 2 cpu / 15gb Ram /
© Copyright 2015 – Keyrus 10
CONNEXION
• Une interface pour gérer Bigquery
• Connexion via l’utilitaire BQ
• Connexion avec des API
Connexion API
∕ Java, Python, JavaScript, Ruby,
PHP, …
∕ Google Apps Script
∕ Connexion OAuth2
Connexions
∕ Connexion ODBC / JDBC
∕ API class
© Copyright 2015 – Keyrus 11
BIGQUERY VS REDSHIFT
Requête sur 1 milliard de ligne
• A1 : Sans rien faire
• A2 : Avec un index trié
• A3 : Tri + données distribuées
Requête sur 5 milliards de ligne
• Sans rien faire
• La même requête quelques temps plus tard
© Copyright 2015 – Keyrus 12
Un cout du stockagé divisé par deux !
Chaque table non modifié depuis plus de 90 jours verra son prix de stockage divisé par
deux, soit 1 centime par GB.
• Réduction automatique
• Le cout du requétage est le même
• Pas d'impact sur les perfs
• Une modification sur la table remet à 0 le compteur
UPDATE GCPNEXT 2016
© Copyright 2015 – Keyrus 13
Capacitor Storage Engine
Google a amélioré sa façon de stocker et requéter les donnés sur sons sytème et
principalement une meilleure gestion des données compréssés. Pour faire simple, Google est
maintenant capable de filter directement sur des données compréssées sans étapes de
décompression.
UPDATE GCPNEXT 2016
MaintenantAvant
© Copyright 2015 – Keyrus 14
Optimisation de l'import
Google a revu son système d'import de données et annonce des temps d'insertion diminué par
5. A investiguer entre autre sur le format Avro
https://cloud.google.com/blog/big-data/2016/03/improve-bigquery-ingestion-times-10x-by-
using-avro-source-format
Partitionnement automatique
En version Alpha, Google BigQuery va proposer un partitionnement automatique au sein d'une
seule table physique, qui pourrait avoir pour intérêt d'éviter de faire uen table par jour et se
rapprocherait du partitionnement standard dans les bases de données classiques.
Toutes les infos ici en Anglais : https://cloud.google.com/blog/big-data/2016/03/google-
bigquery-cuts-historical-data-storage-cost-in-half-and-accelerates-many-queries-by-10x
UPDATE GCPNEXT 2016

Présentation BigQuery et comparatif avec RedShift

  • 1.
    © Copyright 2015– Keyrus 1
  • 2.
    © Copyright 2015– Keyrus 2© Copyright 2015 – Keyrus 2 CLOUD BI GOOGLE & AMAZON Focus Bigquery & Redshift Olivier Breton – Responsable Innovation & Pierre Coste – Leader Technique BI & Search & Cloud
  • 3.
    © Copyright 2015– Keyrus 3 CLOUD : UNE OFFRE DE SERVICE A LA DEMANDE
  • 4.
    © Copyright 2015– Keyrus 4 LES DONNÉES DANS LE CLOUD • Données secrètes : ne doivent pas être dans le cloud • Données confidentielles : Ne mettent pas en péril la société • Données normales : Peu de valeur pour la société Cloud Souverain ? stockage US / EU ?
  • 5.
    © Copyright 2015– Keyrus 5 PRÉSENTATION AMAZON REDSHIFT
  • 6.
    © Copyright 2015– Keyrus 6 PRÉSENTATION BIGQUERY • Un modèle qui ne peut pas être reproduit en local, une requête peut engendrer l’utilisation de 10 000 cœurs • Pas d’installation, pas d’administration, pas d’index • Scalable : répondra aussi vite peu importe le nombre d’utilisateurs et la données • Temps réel – Stream data table dataset PROJET LES COMPOSANTS ∕ UTF-8 & ISO-8859-1 ∕ Support du SQL standard et étendu par Bigquery ∕ Modèles normalisés & dénormalisés ∕ Streaming ∕ Chargements parallélisés ∕ Interface graphique de gestion
  • 7.
    © Copyright 2015– Keyrus 7 PRÉSENTATION BIGQUERY • Stockage en colonne VS stockage en ligne • Full scan de la table à chaque requête • Mise en cache de chaque requête Les colonnes ∕ Strings ∕ integers ∕ booleans ∕ floats ∕ timestamps, ∕ Nested ∕ records
  • 8.
    © Copyright 2015– Keyrus 8 PRÉSENTATION BIGQUERY • Chargement des données • Par Fichier en CSV ou en JSON • Streaming pour chargement en temps réel (via API) Les données ∕ Une table alimentée est immuable ∕ Pas de modification au niveau ligne ∕ Pas d’update, pas de delete
  • 9.
    © Copyright 2015– Keyrus 9 PRÉSENTATION BIGQUERY • Décorateur pour diminuer les coûts • @time : le snapshot • TABLE_DATE_RANGE(prefix, timestamp1, timestamp2) • TABLE_QUERY(dateset, expr) 'table_id CONTAINS "oo" AND length(table_id) >= 4') Les cout ∕ Stockage : $0.020 per GB, per month ∕ Requête : $5 per TB (1er TB gratuit) ∕ Chargement / Copie / Export gratuit Les cout ∕ 750 heures gratuites pendant 2 Mois ∕ 0,25$/heure/node au moins cher pour 2 cpu / 15gb Ram /
  • 10.
    © Copyright 2015– Keyrus 10 CONNEXION • Une interface pour gérer Bigquery • Connexion via l’utilitaire BQ • Connexion avec des API Connexion API ∕ Java, Python, JavaScript, Ruby, PHP, … ∕ Google Apps Script ∕ Connexion OAuth2 Connexions ∕ Connexion ODBC / JDBC ∕ API class
  • 11.
    © Copyright 2015– Keyrus 11 BIGQUERY VS REDSHIFT Requête sur 1 milliard de ligne • A1 : Sans rien faire • A2 : Avec un index trié • A3 : Tri + données distribuées Requête sur 5 milliards de ligne • Sans rien faire • La même requête quelques temps plus tard
  • 12.
    © Copyright 2015– Keyrus 12 Un cout du stockagé divisé par deux ! Chaque table non modifié depuis plus de 90 jours verra son prix de stockage divisé par deux, soit 1 centime par GB. • Réduction automatique • Le cout du requétage est le même • Pas d'impact sur les perfs • Une modification sur la table remet à 0 le compteur UPDATE GCPNEXT 2016
  • 13.
    © Copyright 2015– Keyrus 13 Capacitor Storage Engine Google a amélioré sa façon de stocker et requéter les donnés sur sons sytème et principalement une meilleure gestion des données compréssés. Pour faire simple, Google est maintenant capable de filter directement sur des données compréssées sans étapes de décompression. UPDATE GCPNEXT 2016 MaintenantAvant
  • 14.
    © Copyright 2015– Keyrus 14 Optimisation de l'import Google a revu son système d'import de données et annonce des temps d'insertion diminué par 5. A investiguer entre autre sur le format Avro https://cloud.google.com/blog/big-data/2016/03/improve-bigquery-ingestion-times-10x-by- using-avro-source-format Partitionnement automatique En version Alpha, Google BigQuery va proposer un partitionnement automatique au sein d'une seule table physique, qui pourrait avoir pour intérêt d'éviter de faire uen table par jour et se rapprocherait du partitionnement standard dans les bases de données classiques. Toutes les infos ici en Anglais : https://cloud.google.com/blog/big-data/2016/03/google- bigquery-cuts-historical-data-storage-cost-in-half-and-accelerates-many-queries-by-10x UPDATE GCPNEXT 2016