SlideShare une entreprise Scribd logo
1  sur  36
Télécharger pour lire hors ligne
DATA LAKE AS A SERVICE?
Comparativo entre BigQuery, Presto e Athena
Matheus Espanhol
2 de Junho de 2017
Data Lake é um repositório que armazena um
grande e variado volume de dados,
estruturados e não estruturados, em seu
formato natural
Data Swamp
data lake não necessariamente
substitui data warehouse
Por que Cloud?
Por que Cloud?
Por que Cloud Storage?
Cloud Storage
Escalabilidade
Custo
Redundância
Performance
Segurança
Amazon S3
Simple Storage Service
Durabilidade de 99.999999999%
Disponibilidade de 99.99%
Transferência de dados usando SSL
Criptografia automática dos dados
Integrado com outros serviços da AWS
$0.023/GB
$0.0125/GB
$0.004/GB
Google Cloud Storage (GCS)
Durabilidade de 99.999999999%
Disponibilidade de 99.95%
Transferência de dados usando SSL
Criptografia automática dos dados
Integrado com outros serviços do Google
Acesso instantâneo a todas classes de storage
$0.026/GB $0.023/GB
$0.016/GB $0.010/GB
Cloud Storages - Temperaturas
HOT COLDCOOLWARM
AWS S3
Standard
GCS
Multiregional
GCS
Regional
AWS S3
Standard I/A
GCS
Nearline
AWS
Glacier
GCS
Coldline
AWS S3
Standard
Ideal para dados
acessados com
frequência.
Baixa latência.
Ideal para dados
acessados com
frequência.
Baixa latência.
Dados replicados para
datacenters da mesma
região (GCS).
Ideal para dados
acessados
esporadicamente.
Baixa latência.
Custo adicional por
volume de dados
recuperado.
Ideal para dados quase
nunca acessados.
Propostas diferentes de
acesso aos dados.
Custo adicional alto por
volume de dados
recuperado.
A Movile
Líder em marketplaces móveis
Nosso sonho é fazer a vida de 1 bilhão de pessoas melhor por meio dos nossos apps
100 milhões de pessoas utilizam os serviços da Movile todo mês
Estamos conectados a mais de 70 operadoras em toda América
Comparativo entre cloud storages
Tabela: event_YYYYMM - 380 GB/mês
9 meses
2017
5 anos (event_201201 - event_201612)
3 meses
2017
Coldline Nearline Regional
18.2 TB 3.4 TB 1.1 TBGCS: $ 184,68 / mês
9 meses
2017
5 anos (event_201201 - event_201612)
IA Standard
18.2 TB 3.4 TB 1.1 TB
Glacier
12 meses
2017
5 anos (event_201201 - event_201612)
Standard
18.2 TB 4.5 TB
IA
S3: $ 141,81 / mês
S3: $ 296,97 / mês
Presto
Engine SQL distribuído e In-memory
Desenvolvido pelo Facebook em 2012
Suporte ANSI SQL com funções analíticas
Combina dados de várias fontes em uma única query
Hive, Kafka, Cassandra, PostgreSQL, SQL Server, Redis, MySQL, MongoDB
Extensível
Conectores JDBC e ODBC para ferramentas de BI
Presto
Presto - Monitoramento
Presto - Airpal
Amazon Elastic Map Reduce (EMR)
Facilita a configuração e gerenciamento de clusters Hadoop
EMR File System (EMRFS) para compatibilidade entre S3 e HDFS
Possibilidade de alocar instâncias Spot
Substituição automática de nós do cluster
Monitoramento com CloudWatch
Presto + EMR
Prós
Arquivos do S3 disponíveis para consulta SQL
Escalabilidade de verdade (up/down)
Suporte SQL suficiente para ferramentas analíticas
Junção de dados de diferentes fontes
Alocação de custo controlada (processamento, memória e disco)
Otimização de custos com instâncias Spot
Contras
Cobrado por hora
~20 minutos para provisionar um cluster
Requer particionamento de dados no S3 para melhorar performance
Necessária a conversão para outros formatos de arquivo e compactações para melhorar
performance (Text, Parquet, ORC)
Suporte a CSV limitado
Presto - Spark - Hive - EMR
Text Gzip Parquet Snappy Parquet Gzip ORC
Tempo de conversão do arquivo 93 min 37 min 78 min
Tamanho do arquivo no S3 61.4 GB +197.1 GB +45.1 GB +42.3 GB
Tempo de count 3:35 min 1:01 min 11 sec 16 sec
Tempo de query com agregação 3:40 min 47 sec 2:19 min 22 sec
Linhas transferidas por segundo 1.72M rows/s 6.12M rows/s 34.7M rows/s 19.7M rows/s
Taxa de transferência 292MB/s 1.85GB/s 2.93GB/s 14.6MB/s
Tamanho dos dados varridos 61.4 GB 112 GB 31.3 GB 274 MB
Presto - Estimativa de custo mensal
Serviço AWS $/hora Horas/mês Custo/mês
1 EMR EC2 m4.xlarge full time (MASTER) $0,30 720 $218,87
15 EMR EC2 m4.xlarge full time (CORE + TASK) $0,30 10800 $3.283,05
Extra S3 Storage (ORC) $230,52
1 RDS PostgreSQL db.t2.micro para os metadados $0,019 720 $14,33
Retorno de dados S3/IA $262,15
$4.008,92
Serviço AWS $/hora Horas/mês Custo/mês
1 EMR EC2 m4.xlarge full time (MASTER) $0,30 720 $218,87
5 EMR EC2 m4.xlarge full time (CORE + TASK) $0,30 3600 $1.094,35
10 EMR EC2 m3.xlarge SPOT (TASK) $0,06 7200 $467,32
Extra S3 Storage (ORC) $230,52
1 RDS PosgreSQL db.t2.micro para os metadados $0,019 720 $14,33
Retorno de dados S3/IA $262,15
$296,97 + $2.287,54
-$1.721,38
Storage Processamento
Bigquery
SQL as a Service
Baseado no Dremel
Suporte a operações batch ou stream
Suporte ANSI SQL limitado
Permite o mapeamento de arquivos no GCS
Bigquery
Bigquery e GCS
Suporte a dados externos:
Google Cloud Storage
Google Bigtable
Google Drive
Consulta todas as temperaturas do Cloud Storage
CSV
JSON
Avro
Cloud Datastore backups
bq mk --external_table_definition=/tmp/event.json@CSV=gs://movile-de/events/ kiwi.event_201704
bq query 'SELECT event_type, count(*) FROM kiwi.event_201704 GROUP BY event_type'
Bigquery
Prós
Realmente rápido
Provisionamento automático
Disponibilidade
Nenhum esforço de manutenção
Contras
Suporte SQL ANSI limitado
Suporte limitado a alterações em registros
Não possui driver de conexão JDBC/ODBC oficial e gratuito
Curva de aprendizado para usuário final
BigQuery + GCS - Estimativa de custo mensal
Período / GCS CSV Gzip (TB) Usuários Consultas/mês TBs processados Custo Bigquery Custo leitura GCS
3 meses (Regional) 1.1 10 150 7.10 $35,50
9 meses (Nearline) 3.4 3 2 17.8 $50,60 $219,28
5 anos (Coldline) 18.2 3 0,2 8.11 $47,50 $109,53
$133,60 $328,81
$462,41
Storage Processamento
$184,68
$647,09
Amazon Athena
Serviço de SQL sobre dados armazenados S3
“Presto as a Service”
Alta disponibilidade
Escalabilidade transparente
Suporte SQL ANSI
Sistema de cobrança semelhante ao Google Bigquery
Amazon Athena
Amazon Athena
Prós
Provisionamento automático
Disponibilidade
Nenhum esforço de manutenção
Suporte SQL completo
Driver de conexão JDBC oficial e gratuito
Parse de arquivos texto com expressão regular
Contras
Requer particionamento de dados no S3 para melhorar performance
Necessária a conversão para outros formatos de arquivo e compactação para melhorar
performance (Parquet, ORC)
Suporte a CSV limitado
Limitação de 5 conexões simultâneas por conta
Athena - Estimativa de custo mensal
Período / S3 CSV Gzip (TB) Usuários Consultas/mês TBs processados Custo Athena Custo leitura S3
12 meses (Standard) 4.5 13 152 24.9 $86.10
5 anos (I/A) 18.2 3 0,2 8.11 $47,50 $83,05
$133,60 $83,05
$216,65$296,97
Storage Processamento
$513,62
Novas tecnologias, novas possibilidades
Redshift Spectrum
Lançado em Abril/2017
Permite mapeamento de tabelas do Athena a partir do Redshift
Presto no Google Cloud Dataproc
Hardware com melhor custo-benefício
Referências:
https://cloud.google.com/blog/big-data/2016/05/bigquery-and-dataproc-shine-in-independent-big-data-platform-comparison
http://tech.marksblogg.com/faster-queries-google-cloud-dataproc.html
Contato
twitter.com/matheusespanhol
linkedin.com/in/matheusespanhol
slideshare.net/matheus.espanhol
matheusespanhol@gmail.com

Contenu connexe

Plus de DevCamp Campinas

Eduardo Merighi - Escalabilidade tecnológica de uma fintech: como a Neon faz?
Eduardo Merighi - Escalabilidade tecnológica de uma fintech: como a Neon faz?Eduardo Merighi - Escalabilidade tecnológica de uma fintech: como a Neon faz?
Eduardo Merighi - Escalabilidade tecnológica de uma fintech: como a Neon faz?DevCamp Campinas
 
Erick Zanardo - Desenvolvimento de Jogos em Flutter
Erick Zanardo - Desenvolvimento de Jogos em FlutterErick Zanardo - Desenvolvimento de Jogos em Flutter
Erick Zanardo - Desenvolvimento de Jogos em FlutterDevCamp Campinas
 
Davi Silva e Izabela Amaral - Oferecendo soluções de negócio mais assertivas ...
Davi Silva e Izabela Amaral - Oferecendo soluções de negócio mais assertivas ...Davi Silva e Izabela Amaral - Oferecendo soluções de negócio mais assertivas ...
Davi Silva e Izabela Amaral - Oferecendo soluções de negócio mais assertivas ...DevCamp Campinas
 
Andre Fossa - Reinventando a Nextel: como a transformação digital ajudou a qu...
Andre Fossa - Reinventando a Nextel: como a transformação digital ajudou a qu...Andre Fossa - Reinventando a Nextel: como a transformação digital ajudou a qu...
Andre Fossa - Reinventando a Nextel: como a transformação digital ajudou a qu...DevCamp Campinas
 
Alceu Bravo - Intraempreendedorismo – desafios da inovação para quem tem base...
Alceu Bravo - Intraempreendedorismo – desafios da inovação para quem tem base...Alceu Bravo - Intraempreendedorismo – desafios da inovação para quem tem base...
Alceu Bravo - Intraempreendedorismo – desafios da inovação para quem tem base...DevCamp Campinas
 
Fábio Lima Santos - Desenhando aplicações que evoluem
Fábio Lima Santos - Desenhando aplicações que evoluemFábio Lima Santos - Desenhando aplicações que evoluem
Fábio Lima Santos - Desenhando aplicações que evoluemDevCamp Campinas
 
João Emilio Santos Bento da Silva - Estratégia de APIs
João Emilio Santos Bento da Silva - Estratégia de APIsJoão Emilio Santos Bento da Silva - Estratégia de APIs
João Emilio Santos Bento da Silva - Estratégia de APIsDevCamp Campinas
 
José Guedes - Como encaramos quando as coisas dão errado
José Guedes - Como encaramos quando as coisas dão erradoJosé Guedes - Como encaramos quando as coisas dão errado
José Guedes - Como encaramos quando as coisas dão erradoDevCamp Campinas
 
Rafael Calsaverini - Inteligência Artificial para recrutar pessoas – Tecnolog...
Rafael Calsaverini - Inteligência Artificial para recrutar pessoas – Tecnolog...Rafael Calsaverini - Inteligência Artificial para recrutar pessoas – Tecnolog...
Rafael Calsaverini - Inteligência Artificial para recrutar pessoas – Tecnolog...DevCamp Campinas
 
Isac Sacchi e Souza - Migrando uma infraestrutura mutável para imutável e Kub...
Isac Sacchi e Souza - Migrando uma infraestrutura mutável para imutável e Kub...Isac Sacchi e Souza - Migrando uma infraestrutura mutável para imutável e Kub...
Isac Sacchi e Souza - Migrando uma infraestrutura mutável para imutável e Kub...DevCamp Campinas
 
Ingrid Barth - Blockchain, Criptomoedas e a nova maneira de entender o dinheiro
Ingrid Barth - Blockchain, Criptomoedas e a nova maneira de entender o dinheiroIngrid Barth - Blockchain, Criptomoedas e a nova maneira de entender o dinheiro
Ingrid Barth - Blockchain, Criptomoedas e a nova maneira de entender o dinheiroDevCamp Campinas
 
Igor Hjelmstrom Ribeiro - Bitcoin: desafios de segurança frente à ataques de...
Igor Hjelmstrom Ribeiro -  Bitcoin: desafios de segurança frente à ataques de...Igor Hjelmstrom Ribeiro -  Bitcoin: desafios de segurança frente à ataques de...
Igor Hjelmstrom Ribeiro - Bitcoin: desafios de segurança frente à ataques de...DevCamp Campinas
 
Fabio De Santi e Thiago Urtaran - Smart cities: um caso real, a arquitetura d...
Fabio De Santi e Thiago Urtaran - Smart cities: um caso real, a arquitetura d...Fabio De Santi e Thiago Urtaran - Smart cities: um caso real, a arquitetura d...
Fabio De Santi e Thiago Urtaran - Smart cities: um caso real, a arquitetura d...DevCamp Campinas
 
Raphael Moraes - Large-Scale Javascript Arquitetura de componentes genéricos...
Raphael Moraes - Large-Scale Javascript Arquitetura de componentes genéricos...Raphael Moraes - Large-Scale Javascript Arquitetura de componentes genéricos...
Raphael Moraes - Large-Scale Javascript Arquitetura de componentes genéricos...DevCamp Campinas
 
Renan Rossi - Desmistificando a implementação para Smart TVs
Renan Rossi - Desmistificando a implementação para Smart TVsRenan Rossi - Desmistificando a implementação para Smart TVs
Renan Rossi - Desmistificando a implementação para Smart TVsDevCamp Campinas
 
Rodrigo Romero - Armadilhas no processo de contratação de um projeto ágil: de...
Rodrigo Romero - Armadilhas no processo de contratação de um projeto ágil: de...Rodrigo Romero - Armadilhas no processo de contratação de um projeto ágil: de...
Rodrigo Romero - Armadilhas no processo de contratação de um projeto ágil: de...DevCamp Campinas
 
Rafael Figueroa - Cloud Machine Learning for Telediagnostics
Rafael Figueroa - Cloud Machine Learning for TelediagnosticsRafael Figueroa - Cloud Machine Learning for Telediagnostics
Rafael Figueroa - Cloud Machine Learning for TelediagnosticsDevCamp Campinas
 
No universo de ideias, por que a sua vale mais?
No universo de ideias, por que a sua vale mais?No universo de ideias, por que a sua vale mais?
No universo de ideias, por que a sua vale mais?DevCamp Campinas
 
[Palestras] machine learning gênesis ao apocalipse
[Palestras] machine learning   gênesis ao apocalipse[Palestras] machine learning   gênesis ao apocalipse
[Palestras] machine learning gênesis ao apocalipseDevCamp Campinas
 
Microservices reativos e a experiência do iFood
Microservices reativos e a experiência do iFoodMicroservices reativos e a experiência do iFood
Microservices reativos e a experiência do iFoodDevCamp Campinas
 

Plus de DevCamp Campinas (20)

Eduardo Merighi - Escalabilidade tecnológica de uma fintech: como a Neon faz?
Eduardo Merighi - Escalabilidade tecnológica de uma fintech: como a Neon faz?Eduardo Merighi - Escalabilidade tecnológica de uma fintech: como a Neon faz?
Eduardo Merighi - Escalabilidade tecnológica de uma fintech: como a Neon faz?
 
Erick Zanardo - Desenvolvimento de Jogos em Flutter
Erick Zanardo - Desenvolvimento de Jogos em FlutterErick Zanardo - Desenvolvimento de Jogos em Flutter
Erick Zanardo - Desenvolvimento de Jogos em Flutter
 
Davi Silva e Izabela Amaral - Oferecendo soluções de negócio mais assertivas ...
Davi Silva e Izabela Amaral - Oferecendo soluções de negócio mais assertivas ...Davi Silva e Izabela Amaral - Oferecendo soluções de negócio mais assertivas ...
Davi Silva e Izabela Amaral - Oferecendo soluções de negócio mais assertivas ...
 
Andre Fossa - Reinventando a Nextel: como a transformação digital ajudou a qu...
Andre Fossa - Reinventando a Nextel: como a transformação digital ajudou a qu...Andre Fossa - Reinventando a Nextel: como a transformação digital ajudou a qu...
Andre Fossa - Reinventando a Nextel: como a transformação digital ajudou a qu...
 
Alceu Bravo - Intraempreendedorismo – desafios da inovação para quem tem base...
Alceu Bravo - Intraempreendedorismo – desafios da inovação para quem tem base...Alceu Bravo - Intraempreendedorismo – desafios da inovação para quem tem base...
Alceu Bravo - Intraempreendedorismo – desafios da inovação para quem tem base...
 
Fábio Lima Santos - Desenhando aplicações que evoluem
Fábio Lima Santos - Desenhando aplicações que evoluemFábio Lima Santos - Desenhando aplicações que evoluem
Fábio Lima Santos - Desenhando aplicações que evoluem
 
João Emilio Santos Bento da Silva - Estratégia de APIs
João Emilio Santos Bento da Silva - Estratégia de APIsJoão Emilio Santos Bento da Silva - Estratégia de APIs
João Emilio Santos Bento da Silva - Estratégia de APIs
 
José Guedes - Como encaramos quando as coisas dão errado
José Guedes - Como encaramos quando as coisas dão erradoJosé Guedes - Como encaramos quando as coisas dão errado
José Guedes - Como encaramos quando as coisas dão errado
 
Rafael Calsaverini - Inteligência Artificial para recrutar pessoas – Tecnolog...
Rafael Calsaverini - Inteligência Artificial para recrutar pessoas – Tecnolog...Rafael Calsaverini - Inteligência Artificial para recrutar pessoas – Tecnolog...
Rafael Calsaverini - Inteligência Artificial para recrutar pessoas – Tecnolog...
 
Isac Sacchi e Souza - Migrando uma infraestrutura mutável para imutável e Kub...
Isac Sacchi e Souza - Migrando uma infraestrutura mutável para imutável e Kub...Isac Sacchi e Souza - Migrando uma infraestrutura mutável para imutável e Kub...
Isac Sacchi e Souza - Migrando uma infraestrutura mutável para imutável e Kub...
 
Ingrid Barth - Blockchain, Criptomoedas e a nova maneira de entender o dinheiro
Ingrid Barth - Blockchain, Criptomoedas e a nova maneira de entender o dinheiroIngrid Barth - Blockchain, Criptomoedas e a nova maneira de entender o dinheiro
Ingrid Barth - Blockchain, Criptomoedas e a nova maneira de entender o dinheiro
 
Igor Hjelmstrom Ribeiro - Bitcoin: desafios de segurança frente à ataques de...
Igor Hjelmstrom Ribeiro -  Bitcoin: desafios de segurança frente à ataques de...Igor Hjelmstrom Ribeiro -  Bitcoin: desafios de segurança frente à ataques de...
Igor Hjelmstrom Ribeiro - Bitcoin: desafios de segurança frente à ataques de...
 
Fabio De Santi e Thiago Urtaran - Smart cities: um caso real, a arquitetura d...
Fabio De Santi e Thiago Urtaran - Smart cities: um caso real, a arquitetura d...Fabio De Santi e Thiago Urtaran - Smart cities: um caso real, a arquitetura d...
Fabio De Santi e Thiago Urtaran - Smart cities: um caso real, a arquitetura d...
 
Raphael Moraes - Large-Scale Javascript Arquitetura de componentes genéricos...
Raphael Moraes - Large-Scale Javascript Arquitetura de componentes genéricos...Raphael Moraes - Large-Scale Javascript Arquitetura de componentes genéricos...
Raphael Moraes - Large-Scale Javascript Arquitetura de componentes genéricos...
 
Renan Rossi - Desmistificando a implementação para Smart TVs
Renan Rossi - Desmistificando a implementação para Smart TVsRenan Rossi - Desmistificando a implementação para Smart TVs
Renan Rossi - Desmistificando a implementação para Smart TVs
 
Rodrigo Romero - Armadilhas no processo de contratação de um projeto ágil: de...
Rodrigo Romero - Armadilhas no processo de contratação de um projeto ágil: de...Rodrigo Romero - Armadilhas no processo de contratação de um projeto ágil: de...
Rodrigo Romero - Armadilhas no processo de contratação de um projeto ágil: de...
 
Rafael Figueroa - Cloud Machine Learning for Telediagnostics
Rafael Figueroa - Cloud Machine Learning for TelediagnosticsRafael Figueroa - Cloud Machine Learning for Telediagnostics
Rafael Figueroa - Cloud Machine Learning for Telediagnostics
 
No universo de ideias, por que a sua vale mais?
No universo de ideias, por que a sua vale mais?No universo de ideias, por que a sua vale mais?
No universo de ideias, por que a sua vale mais?
 
[Palestras] machine learning gênesis ao apocalipse
[Palestras] machine learning   gênesis ao apocalipse[Palestras] machine learning   gênesis ao apocalipse
[Palestras] machine learning gênesis ao apocalipse
 
Microservices reativos e a experiência do iFood
Microservices reativos e a experiência do iFoodMicroservices reativos e a experiência do iFood
Microservices reativos e a experiência do iFood
 

Data Lake As a Service? Comparativo entre BigQuery, Presto e Athena

  • 1. DATA LAKE AS A SERVICE? Comparativo entre BigQuery, Presto e Athena Matheus Espanhol 2 de Junho de 2017
  • 2.
  • 3. Data Lake é um repositório que armazena um grande e variado volume de dados, estruturados e não estruturados, em seu formato natural
  • 5. data lake não necessariamente substitui data warehouse
  • 6.
  • 7.
  • 8.
  • 11. Por que Cloud Storage?
  • 13. Amazon S3 Simple Storage Service Durabilidade de 99.999999999% Disponibilidade de 99.99% Transferência de dados usando SSL Criptografia automática dos dados Integrado com outros serviços da AWS $0.023/GB $0.0125/GB $0.004/GB
  • 14. Google Cloud Storage (GCS) Durabilidade de 99.999999999% Disponibilidade de 99.95% Transferência de dados usando SSL Criptografia automática dos dados Integrado com outros serviços do Google Acesso instantâneo a todas classes de storage $0.026/GB $0.023/GB $0.016/GB $0.010/GB
  • 15. Cloud Storages - Temperaturas HOT COLDCOOLWARM AWS S3 Standard GCS Multiregional GCS Regional AWS S3 Standard I/A GCS Nearline AWS Glacier GCS Coldline AWS S3 Standard Ideal para dados acessados com frequência. Baixa latência. Ideal para dados acessados com frequência. Baixa latência. Dados replicados para datacenters da mesma região (GCS). Ideal para dados acessados esporadicamente. Baixa latência. Custo adicional por volume de dados recuperado. Ideal para dados quase nunca acessados. Propostas diferentes de acesso aos dados. Custo adicional alto por volume de dados recuperado.
  • 16. A Movile Líder em marketplaces móveis Nosso sonho é fazer a vida de 1 bilhão de pessoas melhor por meio dos nossos apps 100 milhões de pessoas utilizam os serviços da Movile todo mês Estamos conectados a mais de 70 operadoras em toda América
  • 17. Comparativo entre cloud storages Tabela: event_YYYYMM - 380 GB/mês 9 meses 2017 5 anos (event_201201 - event_201612) 3 meses 2017 Coldline Nearline Regional 18.2 TB 3.4 TB 1.1 TBGCS: $ 184,68 / mês 9 meses 2017 5 anos (event_201201 - event_201612) IA Standard 18.2 TB 3.4 TB 1.1 TB Glacier 12 meses 2017 5 anos (event_201201 - event_201612) Standard 18.2 TB 4.5 TB IA S3: $ 141,81 / mês S3: $ 296,97 / mês
  • 18. Presto Engine SQL distribuído e In-memory Desenvolvido pelo Facebook em 2012 Suporte ANSI SQL com funções analíticas Combina dados de várias fontes em uma única query Hive, Kafka, Cassandra, PostgreSQL, SQL Server, Redis, MySQL, MongoDB Extensível Conectores JDBC e ODBC para ferramentas de BI
  • 22. Amazon Elastic Map Reduce (EMR) Facilita a configuração e gerenciamento de clusters Hadoop EMR File System (EMRFS) para compatibilidade entre S3 e HDFS Possibilidade de alocar instâncias Spot Substituição automática de nós do cluster Monitoramento com CloudWatch
  • 23. Presto + EMR Prós Arquivos do S3 disponíveis para consulta SQL Escalabilidade de verdade (up/down) Suporte SQL suficiente para ferramentas analíticas Junção de dados de diferentes fontes Alocação de custo controlada (processamento, memória e disco) Otimização de custos com instâncias Spot Contras Cobrado por hora ~20 minutos para provisionar um cluster Requer particionamento de dados no S3 para melhorar performance Necessária a conversão para outros formatos de arquivo e compactações para melhorar performance (Text, Parquet, ORC) Suporte a CSV limitado
  • 24. Presto - Spark - Hive - EMR Text Gzip Parquet Snappy Parquet Gzip ORC Tempo de conversão do arquivo 93 min 37 min 78 min Tamanho do arquivo no S3 61.4 GB +197.1 GB +45.1 GB +42.3 GB Tempo de count 3:35 min 1:01 min 11 sec 16 sec Tempo de query com agregação 3:40 min 47 sec 2:19 min 22 sec Linhas transferidas por segundo 1.72M rows/s 6.12M rows/s 34.7M rows/s 19.7M rows/s Taxa de transferência 292MB/s 1.85GB/s 2.93GB/s 14.6MB/s Tamanho dos dados varridos 61.4 GB 112 GB 31.3 GB 274 MB
  • 25. Presto - Estimativa de custo mensal Serviço AWS $/hora Horas/mês Custo/mês 1 EMR EC2 m4.xlarge full time (MASTER) $0,30 720 $218,87 15 EMR EC2 m4.xlarge full time (CORE + TASK) $0,30 10800 $3.283,05 Extra S3 Storage (ORC) $230,52 1 RDS PostgreSQL db.t2.micro para os metadados $0,019 720 $14,33 Retorno de dados S3/IA $262,15 $4.008,92 Serviço AWS $/hora Horas/mês Custo/mês 1 EMR EC2 m4.xlarge full time (MASTER) $0,30 720 $218,87 5 EMR EC2 m4.xlarge full time (CORE + TASK) $0,30 3600 $1.094,35 10 EMR EC2 m3.xlarge SPOT (TASK) $0,06 7200 $467,32 Extra S3 Storage (ORC) $230,52 1 RDS PosgreSQL db.t2.micro para os metadados $0,019 720 $14,33 Retorno de dados S3/IA $262,15 $296,97 + $2.287,54 -$1.721,38 Storage Processamento
  • 26. Bigquery SQL as a Service Baseado no Dremel Suporte a operações batch ou stream Suporte ANSI SQL limitado Permite o mapeamento de arquivos no GCS
  • 28. Bigquery e GCS Suporte a dados externos: Google Cloud Storage Google Bigtable Google Drive Consulta todas as temperaturas do Cloud Storage CSV JSON Avro Cloud Datastore backups bq mk --external_table_definition=/tmp/event.json@CSV=gs://movile-de/events/ kiwi.event_201704 bq query 'SELECT event_type, count(*) FROM kiwi.event_201704 GROUP BY event_type'
  • 29. Bigquery Prós Realmente rápido Provisionamento automático Disponibilidade Nenhum esforço de manutenção Contras Suporte SQL ANSI limitado Suporte limitado a alterações em registros Não possui driver de conexão JDBC/ODBC oficial e gratuito Curva de aprendizado para usuário final
  • 30. BigQuery + GCS - Estimativa de custo mensal Período / GCS CSV Gzip (TB) Usuários Consultas/mês TBs processados Custo Bigquery Custo leitura GCS 3 meses (Regional) 1.1 10 150 7.10 $35,50 9 meses (Nearline) 3.4 3 2 17.8 $50,60 $219,28 5 anos (Coldline) 18.2 3 0,2 8.11 $47,50 $109,53 $133,60 $328,81 $462,41 Storage Processamento $184,68 $647,09
  • 31. Amazon Athena Serviço de SQL sobre dados armazenados S3 “Presto as a Service” Alta disponibilidade Escalabilidade transparente Suporte SQL ANSI Sistema de cobrança semelhante ao Google Bigquery
  • 33. Amazon Athena Prós Provisionamento automático Disponibilidade Nenhum esforço de manutenção Suporte SQL completo Driver de conexão JDBC oficial e gratuito Parse de arquivos texto com expressão regular Contras Requer particionamento de dados no S3 para melhorar performance Necessária a conversão para outros formatos de arquivo e compactação para melhorar performance (Parquet, ORC) Suporte a CSV limitado Limitação de 5 conexões simultâneas por conta
  • 34. Athena - Estimativa de custo mensal Período / S3 CSV Gzip (TB) Usuários Consultas/mês TBs processados Custo Athena Custo leitura S3 12 meses (Standard) 4.5 13 152 24.9 $86.10 5 anos (I/A) 18.2 3 0,2 8.11 $47,50 $83,05 $133,60 $83,05 $216,65$296,97 Storage Processamento $513,62
  • 35. Novas tecnologias, novas possibilidades Redshift Spectrum Lançado em Abril/2017 Permite mapeamento de tabelas do Athena a partir do Redshift Presto no Google Cloud Dataproc Hardware com melhor custo-benefício Referências: https://cloud.google.com/blog/big-data/2016/05/bigquery-and-dataproc-shine-in-independent-big-data-platform-comparison http://tech.marksblogg.com/faster-queries-google-cloud-dataproc.html