7. Arquitetura do Amazon Redshift - MPP
Leader node
Simple SQL endpoint
Armazenamento de metadados (nome de tabelas, colunas, objetos)
Otimização do plano de execução de queries
Coordenação da execução de queries
Compute nodes
Storage local por colunas
Execução paralela/distribuída de todas as queries, carga de dados,
backups, recuperação e redimensionamento
Comece com $0.25/hora, cresça até 2 PB
DC1: SSD; escala de 160 GB até 326 TB (Dense compute)
DS2: HDD; escala de 2 TB até 2 PB (Dense storage)
Ingestion/Backup
Backup
Restore
JDBC/ODBC
10 GigE
(HPC)
10. Redimensionamento
• Redimensionamento com o cluster
online (somente leitura)
• Um novo cluster é provisionado em
background
• Cópia de dados ocorre em paralelo
nó a nó
• Somente é cobrado pelo cluster de
origem
12. Dataset está armazenado em um bucket público do S3 (redshift-
demo localizado em us-east-1).
Vários arquivos .gz
Utilizará comando copy com múltiplos arquivos em paralelo
copy lineitem from 's3://redshift-demo/tpc-
h/100/lineitem/lineitem.tbl.' CREDENTIALS
'aws_access_key_id=XXXXX;aws_secret_access_key=YYYYYY' gzip delimiter
'|';
Carga de dados – Dataset público
15. Use o comando COPY
Cada slice pode carregar um
arquivo por vez
Um único arquivo significa que
somente um slice está
carregando dados
Ao invés de 100MB/s, você
somente consegue 6.25MB/s
Use múltiplos arquivos de entrada para
maximizar o throughput
16. Use o comando COPY
Você precisa tantos arquivos
quanto o número de slices
Com 16 arquivos, todos os slides
estão trabalhando, assim você
maximiza o throughput
Consiga 100MB/s por nó; escale
linearmente conforme você
adiciona nós
Use múltiplos arquivos de entrada para
maximizar o throughput
20. Query que localiza qual fornecedor deve ser selecionada para fazer um
pedido para uma determinada parte de uma determinada região.
Fazendo consultas – Jasper Reports