Através de uma abordagem prática com exemplos reais, serão comentados os pontos fortes e fracos dos serviços Google BigQuery, Amazon EMR com Presto e Amazon Athena. O objetivo é compartilhar com o espectador a experiência com esses serviços, mostrando como eles podem viabilizar análises com o melhor custo-benefício para ambientes de todos os tamanhos.
13. Amazon S3
Simple Storage Service
Durabilidade de 99.999999999%
Disponibilidade de 99.99%
Transferência de dados usando SSL
Criptografia automática dos dados
Integrado com outros serviços da AWS
$0.023/GB
$0.0125/GB
$0.004/GB
14. Google Cloud Storage (GCS)
Durabilidade de 99.999999999%
Disponibilidade de 99.95%
Transferência de dados usando SSL
Criptografia automática dos dados
Integrado com outros serviços do Google
Acesso instantâneo a todas classes de storage
$0.026/GB $0.023/GB
$0.016/GB $0.010/GB
15. Cloud Storages - Temperaturas
HOT COLDCOOLWARM
AWS S3
Standard
GCS
Multiregional
GCS
Regional
AWS S3
Standard I/A
GCS
Nearline
AWS
Glacier
GCS
Coldline
AWS S3
Standard
Ideal para dados
acessados com
frequência.
Baixa latência.
Ideal para dados
acessados com
frequência.
Baixa latência.
Dados replicados para
datacenters da mesma
região (GCS).
Ideal para dados
acessados
esporadicamente.
Baixa latência.
Custo adicional por
volume de dados
recuperado.
Ideal para dados quase
nunca acessados.
Propostas diferentes de
acesso aos dados.
Custo adicional alto por
volume de dados
recuperado.
16. A Movile
Líder em marketplaces móveis
Nosso sonho é fazer a vida de 1 bilhão de pessoas melhor por meio dos nossos apps
100 milhões de pessoas utilizam os serviços da Movile todo mês
Estamos conectados a mais de 70 operadoras em toda América
17. Comparativo entre cloud storages
Tabela: event_YYYYMM - 380 GB/mês
9 meses
2017
5 anos (event_201201 - event_201612)
3 meses
2017
Coldline Nearline Regional
18.2 TB 3.4 TB 1.1 TBGCS: $ 184,68 / mês
9 meses
2017
5 anos (event_201201 - event_201612)
IA Standard
18.2 TB 3.4 TB 1.1 TB
Glacier
12 meses
2017
5 anos (event_201201 - event_201612)
Standard
18.2 TB 4.5 TB
IA
S3: $ 141,81 / mês
S3: $ 296,97 / mês
18. Presto
Engine SQL distribuído e In-memory
Desenvolvido pelo Facebook em 2012
Suporte ANSI SQL com funções analíticas
Combina dados de várias fontes em uma única query
Hive, Kafka, Cassandra, PostgreSQL, SQL Server, Redis, MySQL, MongoDB
Extensível
Conectores JDBC e ODBC para ferramentas de BI
22. Amazon Elastic Map Reduce (EMR)
Facilita a configuração e gerenciamento de clusters Hadoop
EMR File System (EMRFS) para compatibilidade entre S3 e HDFS
Possibilidade de alocar instâncias Spot
Substituição automática de nós do cluster
Monitoramento com CloudWatch
23. Presto + EMR
Prós
Arquivos do S3 disponíveis para consulta SQL
Escalabilidade de verdade (up/down)
Suporte SQL suficiente para ferramentas analíticas
Junção de dados de diferentes fontes
Alocação de custo controlada (processamento, memória e disco)
Otimização de custos com instâncias Spot
Contras
Cobrado por hora
~20 minutos para provisionar um cluster
Requer particionamento de dados no S3 para melhorar performance
Necessária a conversão para outros formatos de arquivo e compactações para melhorar
performance (Text, Parquet, ORC)
Suporte a CSV limitado
24. Presto - Spark - Hive - EMR
Text Gzip Parquet Snappy Parquet Gzip ORC
Tempo de conversão do arquivo 93 min 37 min 78 min
Tamanho do arquivo no S3 61.4 GB +197.1 GB +45.1 GB +42.3 GB
Tempo de count 3:35 min 1:01 min 11 sec 16 sec
Tempo de query com agregação 3:40 min 47 sec 2:19 min 22 sec
Linhas transferidas por segundo 1.72M rows/s 6.12M rows/s 34.7M rows/s 19.7M rows/s
Taxa de transferência 292MB/s 1.85GB/s 2.93GB/s 14.6MB/s
Tamanho dos dados varridos 61.4 GB 112 GB 31.3 GB 274 MB
25. Presto - Estimativa de custo mensal
Serviço AWS $/hora Horas/mês Custo/mês
1 EMR EC2 m4.xlarge full time (MASTER) $0,30 720 $218,87
15 EMR EC2 m4.xlarge full time (CORE + TASK) $0,30 10800 $3.283,05
Extra S3 Storage (ORC) $230,52
1 RDS PostgreSQL db.t2.micro para os metadados $0,019 720 $14,33
Retorno de dados S3/IA $262,15
$4.008,92
Serviço AWS $/hora Horas/mês Custo/mês
1 EMR EC2 m4.xlarge full time (MASTER) $0,30 720 $218,87
5 EMR EC2 m4.xlarge full time (CORE + TASK) $0,30 3600 $1.094,35
10 EMR EC2 m3.xlarge SPOT (TASK) $0,06 7200 $467,32
Extra S3 Storage (ORC) $230,52
1 RDS PosgreSQL db.t2.micro para os metadados $0,019 720 $14,33
Retorno de dados S3/IA $262,15
$296,97 + $2.287,54
-$1.721,38
Storage Processamento
26. Bigquery
SQL as a Service
Baseado no Dremel
Suporte a operações batch ou stream
Suporte ANSI SQL limitado
Permite o mapeamento de arquivos no GCS
28. Bigquery e GCS
Suporte a dados externos:
Google Cloud Storage
Google Bigtable
Google Drive
Consulta todas as temperaturas do Cloud Storage
CSV
JSON
Avro
Cloud Datastore backups
bq mk --external_table_definition=/tmp/event.json@CSV=gs://movile-de/events/ kiwi.event_201704
bq query 'SELECT event_type, count(*) FROM kiwi.event_201704 GROUP BY event_type'
31. Amazon Athena
Serviço de SQL sobre dados armazenados S3
“Presto as a Service”
Alta disponibilidade
Escalabilidade transparente
Suporte SQL ANSI
Sistema de cobrança semelhante ao Google Bigquery
33. Amazon Athena
Prós
Provisionamento automático
Disponibilidade
Nenhum esforço de manutenção
Suporte SQL completo
Driver de conexão JDBC oficial e gratuito
Parse de arquivos texto com expressão regular
Contras
Requer particionamento de dados no S3 para melhorar performance
Necessária a conversão para outros formatos de arquivo e compactação para melhorar
performance (Parquet, ORC)
Suporte a CSV limitado
Limitação de 5 conexões simultâneas por conta
35. Novas tecnologias, novas possibilidades
Redshift Spectrum
Lançado em Abril/2017
Permite mapeamento de tabelas do Athena a partir do Redshift
Presto no Google Cloud Dataproc
Hardware com melhor custo-benefício
Referências:
https://cloud.google.com/blog/big-data/2016/05/bigquery-and-dataproc-shine-in-independent-big-data-platform-comparison
http://tech.marksblogg.com/faster-queries-google-cloud-dataproc.html