Bigquery
Meetup
Pierre Coste
Lead Tech BI & Cloud
Des meetup ?
Meetup sur tous les sujets autour de Google Cloud de près ou de loin
10 meetup : IA, GKE, Google Container Tools, Google Cloud Composer, Apache Beam /
Dataflow
La suite : Google Run ? Google IOT … ?
3
Le programme
Description en quelques mots
Quelques KPI
Pourquoi
Bigquery?
Soft , Charcuterie & fromage,
Vins
Et combien ca coute ?
Concept Bigquery Perf Apéro
DémoRetour
d’expérience
Comment Bigquery ? Bigquery,
ca scale ?
11/25/2019 4
Pour avoir des informations Bigquery
Datasience & Biguery
Co-Auteur du livre
“Bigquery definitive
Guide”
Directeur du
programme Bigquery
Google Bigquery
Product Manager
Un Googlers Bigquery Developper Advocate
5
Bigquery en quelques mots
Disponible sur demande. Pas
d’infrastructure à provisionner etc..
TB-Scale et plus
Paiement à la consommation
Très peu de management
Partage de la données
Fédéré avec tous les services
Google Cloud : ML, GIS,
Dataflow…
Temps Réel
01
02
03
04
05
06
Base de données analytique
https://cloud.google.com/bigquery/docs/release-notes
Un peu d’histoire
2012 2016 2018 2019
Lancement du
produit public.
Performant sur
des grands
volume mais
trop technique
Sortie du StandardSQL
respectant les normes
SQL.
Permet d’avoir un
produit plus dans
logique des produits
BI
Fonction DML!
Amélioration des
performances
Clustering des données
Plannificateur de
requêtes
Bigquery ML
Fonction Géographiques
Nouvelle Interface
Bigquery Sandbox
pour tester sans CB
Bigquery Storage API
Support du MERGE
Scripting &Procédure
Stockée
7
Bigquery dans l’écosystème GCP
ETL
8
Concepts Bigquery
Un projet
de
facturation
Un Projet
Un Dataset
Une Table
• Les droits sont mis au niveau Projet / Dataset mais pas au niveau table
• Pour donner un accès à une table en particulier, il est possible d’utiliser les vues sécurisées
• Les utilisateurs ont des rôles (DataViewer, DataWriter…)
Le « coût »
de la requête
Listing des
requêtes
exécutées
Requêtes
« favoris »
Une tâche est
tout ce qui
n’est pas SQL
Transfert
depuis des
services
Google
(Adwords …)
Crontab des
requêtes
Stockage « In-
memory » pour
DataStudio
9
Les coûts Bigquery
Type Cout Détails
Stockage Actif 0,02$ / GB Sur toutes les données modifiées
depuis 90 jours
Stockage Long Terme 0,01$ / GB Sur les partitions/tables non
modifiées depuis 90 jours
Requête 5$/TB (Europe) ou Flat Rate Premier TB est gratuit
Streaming 0,01$ / 200 Mb Donnés insérés en stream dans
les tables
10
Combien coûte une requête ?
.
L e cout d’une requête dépend des données
consommés.
Col1
(partition)
col4 Col3 Col4
2019/01/01 z z as
2019/02/01 f d s
2019/03/01 a x s
Total Colonne
: 10 GB
Total Colonne
: 10 GB
Total Colonne
: 100Mb
Total Colonne
: 1 Gb
Un select * sera facturé 21,1G
Un select col3 sera facturé 100Mb
Un select col3 where col1 = 2019/01/01 quelques MB (le coût
des données de la partition)
Total Table : 21,1 GB
11
Et ca fait combien pour de vrai ?
Consommation / mois (TB) Coût Mensuel ($) Coût Annuel ($)
200 TB 1 245 $ / mois 15 000 $
500 TB 2 500 $ / mois 30 000 $
1 PB 5 000 $ / mois 60 000 $
2 PB 10 000 $ / mois 120 000 $
5 PB 25 500 $ / mois 306 000 $
.
C Comme Cache ! Car non facturés !
P Comme Pays as you go !
12
Et si j’ai beaucoup de Peta ?
.
J Comme Jupiter : le réseau mondial de Google à 1
PB/s
D Comme Dremel: le cluster de Compute Google géré
par Borg
C Comme comme Colossus : File System de chez
Google
S Comme SLOT : 2000 slots en mode Pay as You Go
Type Abonnement Mensuel Abonnement Annuel
500 10 000$ / mois 8 500$ / mois
1000 20 000$ / mois 17 000$ / mois
2000 40 000$ / mois 34 000$ / mois
13
Retour d’expérience
11/25/2019 14
Le client
Souhaite un
investissement
progressif
Enormément de
données dans le “web”.
Beaucoup de services
type Adwords, Adsense,
Omniture…
En souhait d’avoir un
système qui pourra
gérer sa croissance
Pas d’infrastructure
Pas d’outils
Besoin d’avoir un
système fiable et
performant
Pas de SI
Solution
Evolutive
Domaine Pub Investissement Performance
Un DWH dans le cloud depuis
2015
11/25/2019 15
Bigquery depuis 2015
Le produit a énormément changé depuis 2015, du Legacy au
strandard SQL. Beaucoup de nouvelles fonctionnalités
Des performances qui se sont vraiment améliorés. Passer d’un
temps minimum de quelques secondes à un temps inférieur à
0,5s
Un coût qui reste finalement assez constant sauf…
16
Un rapport lance des
requêtes à 8$ sur
1,5Tb de données
Sauf quand …
11/25/2019 17
Passage de quelques GB stockées et “requêter” à plusieurs TB depuis
2015
40 GB
to 25TB
90 Gb
to 60TB
Augmentation des données
Avec un coût qui varie d’une année à l’autre
2019 : 50% de la facturation 2018 malgré plus de données
18
BigQuery Audit Dashboard sur Data Studio
Monitoring & suivi
https://datastudio.google.com/u/0/reporting/1kwNFt05J8_GCju5T
BH1v4IlBmmAU74Nu/page/nSaN
https://github.com/GoogleCloudPlatform/professional-
services/tree/master/examples/bigquery-audit-log
Dashboard créé par la team PF de Google
Cloud
Nécessite d’activer l’audit l’export
d’audit et la création de vues
19
Export des logs
Création de l’export au niveau de chaque projet
Au niveau d’une organisation, il est possible de le faire en
ligne de commande
gcloud logging sinks create GCPLogs bigquery.googleapis.com/projects/projet_export/datasets/GCPLogs --
organization=1051XXXX --include-children
20
ARCHITECTURE
TMC
Cloud
Server
Consultation
Envoie des rapports /mail
API Centric
Chargement des données
Des Requêtes
Des Enchères
Bulk via GS
ELT pour
construire les
tables consolidés
21
ORGANISATION DES DONNÉES
Datalake / ODS DWH / Datamart
L’ODS est partitionné par
Date de chargement qui
peut contenir plusieurs
dates d’évènements
(ex : date création
/ date modification) en J-1
Le DWH est partitionné par date d’évènement
(ex : date de facturation …)
• Pas de split de l’environnement par projet mais DEV_ODS, DEV_DWH… pour simplifier l’accès
22
Quelques Metriques
Seulement en live lors du meetup
Merci !

Meetup Google Cloud Bigquery

  • 1.
  • 2.
    Des meetup ? Meetupsur tous les sujets autour de Google Cloud de près ou de loin 10 meetup : IA, GKE, Google Container Tools, Google Cloud Composer, Apache Beam / Dataflow La suite : Google Run ? Google IOT … ?
  • 3.
    3 Le programme Description enquelques mots Quelques KPI Pourquoi Bigquery? Soft , Charcuterie & fromage, Vins Et combien ca coute ? Concept Bigquery Perf Apéro DémoRetour d’expérience Comment Bigquery ? Bigquery, ca scale ?
  • 4.
    11/25/2019 4 Pour avoirdes informations Bigquery Datasience & Biguery Co-Auteur du livre “Bigquery definitive Guide” Directeur du programme Bigquery Google Bigquery Product Manager Un Googlers Bigquery Developper Advocate
  • 5.
    5 Bigquery en quelquesmots Disponible sur demande. Pas d’infrastructure à provisionner etc.. TB-Scale et plus Paiement à la consommation Très peu de management Partage de la données Fédéré avec tous les services Google Cloud : ML, GIS, Dataflow… Temps Réel 01 02 03 04 05 06 Base de données analytique
  • 6.
    https://cloud.google.com/bigquery/docs/release-notes Un peu d’histoire 20122016 2018 2019 Lancement du produit public. Performant sur des grands volume mais trop technique Sortie du StandardSQL respectant les normes SQL. Permet d’avoir un produit plus dans logique des produits BI Fonction DML! Amélioration des performances Clustering des données Plannificateur de requêtes Bigquery ML Fonction Géographiques Nouvelle Interface Bigquery Sandbox pour tester sans CB Bigquery Storage API Support du MERGE Scripting &Procédure Stockée
  • 7.
  • 8.
    8 Concepts Bigquery Un projet de facturation UnProjet Un Dataset Une Table • Les droits sont mis au niveau Projet / Dataset mais pas au niveau table • Pour donner un accès à une table en particulier, il est possible d’utiliser les vues sécurisées • Les utilisateurs ont des rôles (DataViewer, DataWriter…) Le « coût » de la requête Listing des requêtes exécutées Requêtes « favoris » Une tâche est tout ce qui n’est pas SQL Transfert depuis des services Google (Adwords …) Crontab des requêtes Stockage « In- memory » pour DataStudio
  • 9.
    9 Les coûts Bigquery TypeCout Détails Stockage Actif 0,02$ / GB Sur toutes les données modifiées depuis 90 jours Stockage Long Terme 0,01$ / GB Sur les partitions/tables non modifiées depuis 90 jours Requête 5$/TB (Europe) ou Flat Rate Premier TB est gratuit Streaming 0,01$ / 200 Mb Donnés insérés en stream dans les tables
  • 10.
    10 Combien coûte unerequête ? . L e cout d’une requête dépend des données consommés. Col1 (partition) col4 Col3 Col4 2019/01/01 z z as 2019/02/01 f d s 2019/03/01 a x s Total Colonne : 10 GB Total Colonne : 10 GB Total Colonne : 100Mb Total Colonne : 1 Gb Un select * sera facturé 21,1G Un select col3 sera facturé 100Mb Un select col3 where col1 = 2019/01/01 quelques MB (le coût des données de la partition) Total Table : 21,1 GB
  • 11.
    11 Et ca faitcombien pour de vrai ? Consommation / mois (TB) Coût Mensuel ($) Coût Annuel ($) 200 TB 1 245 $ / mois 15 000 $ 500 TB 2 500 $ / mois 30 000 $ 1 PB 5 000 $ / mois 60 000 $ 2 PB 10 000 $ / mois 120 000 $ 5 PB 25 500 $ / mois 306 000 $ . C Comme Cache ! Car non facturés ! P Comme Pays as you go !
  • 12.
    12 Et si j’aibeaucoup de Peta ? . J Comme Jupiter : le réseau mondial de Google à 1 PB/s D Comme Dremel: le cluster de Compute Google géré par Borg C Comme comme Colossus : File System de chez Google S Comme SLOT : 2000 slots en mode Pay as You Go Type Abonnement Mensuel Abonnement Annuel 500 10 000$ / mois 8 500$ / mois 1000 20 000$ / mois 17 000$ / mois 2000 40 000$ / mois 34 000$ / mois
  • 13.
  • 14.
    11/25/2019 14 Le client Souhaiteun investissement progressif Enormément de données dans le “web”. Beaucoup de services type Adwords, Adsense, Omniture… En souhait d’avoir un système qui pourra gérer sa croissance Pas d’infrastructure Pas d’outils Besoin d’avoir un système fiable et performant Pas de SI Solution Evolutive Domaine Pub Investissement Performance Un DWH dans le cloud depuis 2015
  • 15.
    11/25/2019 15 Bigquery depuis2015 Le produit a énormément changé depuis 2015, du Legacy au strandard SQL. Beaucoup de nouvelles fonctionnalités Des performances qui se sont vraiment améliorés. Passer d’un temps minimum de quelques secondes à un temps inférieur à 0,5s Un coût qui reste finalement assez constant sauf…
  • 16.
    16 Un rapport lancedes requêtes à 8$ sur 1,5Tb de données Sauf quand …
  • 17.
    11/25/2019 17 Passage dequelques GB stockées et “requêter” à plusieurs TB depuis 2015 40 GB to 25TB 90 Gb to 60TB Augmentation des données Avec un coût qui varie d’une année à l’autre 2019 : 50% de la facturation 2018 malgré plus de données
  • 18.
    18 BigQuery Audit Dashboardsur Data Studio Monitoring & suivi https://datastudio.google.com/u/0/reporting/1kwNFt05J8_GCju5T BH1v4IlBmmAU74Nu/page/nSaN https://github.com/GoogleCloudPlatform/professional- services/tree/master/examples/bigquery-audit-log Dashboard créé par la team PF de Google Cloud Nécessite d’activer l’audit l’export d’audit et la création de vues
  • 19.
    19 Export des logs Créationde l’export au niveau de chaque projet Au niveau d’une organisation, il est possible de le faire en ligne de commande gcloud logging sinks create GCPLogs bigquery.googleapis.com/projects/projet_export/datasets/GCPLogs -- organization=1051XXXX --include-children
  • 20.
    20 ARCHITECTURE TMC Cloud Server Consultation Envoie des rapports/mail API Centric Chargement des données Des Requêtes Des Enchères Bulk via GS ELT pour construire les tables consolidés
  • 21.
    21 ORGANISATION DES DONNÉES Datalake/ ODS DWH / Datamart L’ODS est partitionné par Date de chargement qui peut contenir plusieurs dates d’évènements (ex : date création / date modification) en J-1 Le DWH est partitionné par date d’évènement (ex : date de facturation …) • Pas de split de l’environnement par projet mais DEV_ODS, DEV_DWH… pour simplifier l’accès
  • 22.
  • 23.