Mais conteúdo relacionado Semelhante a AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório de dados de maneira segura e seguindo boas práticas de governança (20) Mais de Amazon Web Services LATAM (20) AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório de dados de maneira segura e seguindo boas práticas de governança1. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Sergio Zaccarelli
Arquiteto de Soluções - Out/2020
Criando um repositório de dados de
maneira segura seguindo boas práticas
Data Immersion Month
2. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Tendências de um mundo
orientado a dados
3. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
No passado, o processo de decisão …
OLTP
ERP CRM
LOB
Enterprise data warehouse
Business intelligence
…era orientado ao redor do data warehouse
4. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Como comportar tantos dados?
Dados
cada 5 anos
Existem mais dados do
que se imagina
15
ano
existir por
Repositórios de dados
necessitam
1,000x
escalar
>10x
crescem
Dados mais diversos
5. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Cargas de trabalho diversas
Existem mais pessoas
acessando dados…
…querendo analisar de
diferentes formas
Cientistas de Dados
Analistas
Usuários de Negócio
Aplicações
Machine
learning
Análises SQL
Científico
Tempo real,
streaming
6. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Maior pressão regulatória
Democratização
dos Dados
Governança
& controle
…cumprir com regulações e
requisitos de governança?
Como democratizar o acesso
ao dado e ao mesmo tempo…
7. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
O que é um data lake
8. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Data lake: o novo ponto central de informação
Um repositório centralizado, seguro que permite
você governar, descobrir, compartilhar e analisar
dados estruturados e não-estruturados em escala
9. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Porque data lakes?
Data Lakes permitem:
Comportar dados relacionais e não-relationais
Escalar em nível de Exabytes (EB)
Diverso conjunto de ferramentas de análise e ML
Trabalhar com dados sem necessitar mover
Utilizar armazenagem e analytics de baixo custo
OLTP ERP CRM LOB
Data Warehouse
Business
Intelligence
Data Lake
1001100001001010111001
0101011100101010000101
1111011010
0011110010110010110
0100011000010
Devices Web Sensors Social
Catalog
Machine
Learning
DW Queries Big data
processing
Interactive Real-time
10. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Evolução: data lakes na nuvem
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
On-premises,
Batch
Real-time,
Streaming
Amazon S3: armazenamento de
objetos que permite centralizar
conjuntos de dados
Habilita um único local de controle
Múltiplos motores de análise
disponíveis sob demanda,
pay-as-you-go
Amazon S3
Data Lake Storage
11. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Princípios de Arquitetura
e design
12. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Princípios de arquitetura e design de um data lake
Princípio: Disrupção mínima
Afirmação: Minimizar disrupção nos produtores de dados no modo em que entregam
Princípio: Configuração (Regra 80/20)
Afirmação: Enfoque em 80% dos casos de uso que podem ser atendidos com componentes configurados
Princípio: Ferramenta certa para a tarefa certa
Afirmação: Os processos devem orientar a ferramenta, e não o contrário
Princípio: Desacoplagem consciente
Afirmação: A ferramenta certa de hoje pode não ser a de amanhã
Princípio: Residência de dados
Afirmação: Usuário acessa o dado onde ESTE reside não importa onde ELES residam
13. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Sete princípios de gestão de dados & governança
Accountability
• Identifique domínios de dados
• Identifique donos dos dados
• Popule o catálogo de dados
Data Accuracy
• Validação das ingestões
• Certificação dos dados
• Lógica de padronização
• Use modelos conceitual e
lógico orientando a criação do
modelo de dados físico
Data Quality
• Defina categorias de DQ
• Qualidade de operação
• Lógica de integração –
identifique, categorize e corrija.
• Defina processos de
remediação
Operational Excellence
• Defina SLAs e notificação e
remediação apropriadas
• Defina ciclo de vida dos dados
• Identifique processos de
gestão do conteúdo
Security
• Proteção de Dados
• Direitos do usuário
• Monitoração granular (quem, que,
onde, quando)
Data Privacy
• Classifique todos dados coletados e retidos
• Identifique leis e regulações aplicáveis
• Implemente controles de compliance automatizados
• Aplique e mantenha procedimentos e prática de
seguranças razoáveis
Data Lineage
• Defina linhagem de dados
• Esclareça quais as saídas
• Considere ETL self-service
14. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Arquitetura Conceitual
15. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Arquitetura Lógica
16. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Desafios ao construir
um data lake
17. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Construindo data lakes saneados e seguros
podem levar meses
18. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Passos típicos na construção de um data lake
Configurar
Armazenamento
1
Mover dados2
Limpar, preparar e
catalogar dados
3
Configurar e reforçar
segurança e políticas de
compliance
4
Deixar o dado disponível
para analytics5
Ingestão & Limpeza Segurança Analytics & ML
Engenheiro
de Dados
Segurança de
Informação
Analista
de Dados
19. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Uma solução open source possível
• Hadoop Cluster (static/multi tenant)
• Apache NiFi for ingestion workflows
• Sqoop to ingest data from RDBMS
• HDFS to store the data (tied to the Hadoop cluster)
• Hive/HCatalog for data Catalog
• Apache Spark for complex ETL –with Apache Livy for REST
• Hive for batch workloads with SQL
• Presto for interactive queries with SQL
• Kafka for streaming ingest
• Apache Spark/Apache Flink for streaming analytics
• Apache Hbase (or maybe Cassandra) to store streaming data
• Prometheus (or fluentd/collectd/ganglia/Nagios…) for logs and monitoring. Maybe with Elastic Search/Kibana
• Airflow/Oozie to schedule workflows
• Superset for business dashboards
• Jupyter/JupyterHub/Zeppelin for data science
• Security (Apache Sentry for Roles, Ranger for configuration, Knox as a firewall)
• YARN to coordinate resources
• Ambari for cluster administration
• Terraform/chef/puppet for provisioning
20. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Alguns problemas possivelmente encontrados
• Meu time leva mais tempo mantendo o cluster que incorporando funções
• Securança e monitoração são difíceis
• Maioria do tempo meu cluster está inativo, e surgem gargalos em momentos de pico
• Não tenho tempo para experimentações
• Papéis altamente especializados: Nichos de conhecimento e problemas de talento
21. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Uma solução nascida na cloud AWS
Amazon
S3
Interfaces de acesso
AWS
AppSync
Amazon
API Gateway
Amazon
Cognito
Gerencie & controle
Armazenamento:
Escalável, seguro e de
custo efetivo
AWS Key
Management
Service
AWS Identity and
Access Management
Amazon
CloudWatch
AWS CloudTrail
AWS
Snowball
AWS Storage
Gateway
Amazon
Kinesis Data
Firehose
AWS Direct
Connect
AWS Database
Migration
Service
Ingestão de dados
Catálogo & busca
Amazon
DynamoDB
Amazon Elasticsearch
Service
AWS
Glue
AWS Lake
Formation
Analytics, machine learning
& serviços de dados
Amazon
Athena
Amazon
EMR
AWS
Glue
Amazon
Redshift
Amazon
DynamoDBAmazon
QuickSight
Amazon
Kinesis
Amazon
Elasticsearch
Service
Amazon
Neptune
Amazon
RDS
Amazon
Rekognition
Amazon
SageMaker
22. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Lake Formation facilita
a gestão do data lake
23. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Serviço totalmente gerenciado que habilita
engenheiros de dados segurança de informação analistas de dados
a construir data lakes seguros e saneados em dias
24. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Lake Formation – visão da solução
Amazon S3
Data Lake Storage
Armazenamento de custo efetivo e
durável com função de replicação global
Ingestão e limpeza simplificadas
habilitam engenheiros de dados com
velocidade
Gestão centralizada de permissões
detalhadas suportando a segurança
Ferramentas de descoberta, distribuição
e integração para todos usuáriosAmazon
Athena
Amazon
QuickSight
Amazon
Redshift
AWS
Glue
Amazon
EMR
Lake Formation
AWS Glue Blueprints ML
Transforms
Data
Catalog
Access
Control
AWS
SageMaker
25. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Construindo data lakes com AWS Lake Formation
Ingestão & limpeza Segurança Analytics & ML
Blueprints simplificam
ML transformam para
saneamento de dados
Permissões centrais
Monitoramento em
tempo real e auditoria
Ferramenta orientada a uso
Amplo portfolio de
ferramentas
Data
Engineer
Segurança de
Informação
Data
Analyst
26. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Demo Passo 1: Registrar localização S3 para o data lake
Data
Engineer
27. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Demo Passos 2 & 3: Carga de dados via blueprint
Data
Engineer
28. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Realize ingestão fácil para o data lake com blueprints
Logs
DBs
Templates prontos para caso de uso de
ingestão mais frequentes
Gera Workflows AWS Glue
configurando triggers, crawlers , jobs, data formats
gera código e ajusta partições
preenche o Data Catalog
carga única ou contínua
Customize para suas necessidades
29. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Lake Formation utiliza o AWS Glue
Blueprints
Glue ETL Jobs
Workflow
Glue Crawlers
Glue Data Catalog
Conexões,
Databases, Tabelas
Monitoramento
Segurança, busca,
colaboração
AWS Glue
AWS Lake Formation
30. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Orquestre triggers,
crawlers & jobs
Crie & monitore
fluxos completos
Alertas integrados
AWS Glue provê componentes serverless escaláveis
Data Catalog Serverless ETL
Compatível com
Apache Hive Metastore
Integra com serviços
AWS de analytics
Crawlers Workflows Flexíveis
Deriva schemas
automaticamente
Preenche data catalog
Desenvolvimento
interativo
Apache Spark / Python
shell jobs
Execução serverless
31. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Blueprints criam workflows no AWS Glue
32. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Glue workflow: Orquestrando pipelines de dados
Modo fácil de criar e
visualizar suas regras de
transformação de dados
Permite compartilhar
parâmetros e fase de
estado dentre estágios
Visões dinâmicas permitem
inspeções de fluxos em
execução para diagnóstico
e busca de estado atual
33. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Construindo data lakes com AWS Lake Formation
Ingestão & limpeza Segurança Analytics & ML
Blueprints simplificam
ML transformam para
saneamento de dados
Permissões centrais
Monitoramento em
tempo real e auditoria
Ferramenta orientada a uso
Amplo portfolio de
ferramentas
Data
Engineer
Data
Analyst
Segurança de
Informação
34. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Utilize machine learning para resolver problemas
Combinação de registros
Encontrando relacionamentos entre múltiplos
datasets, mesmo quando nao compartilham um
identificador (ou este não é confiável)
De-duplicação
Transformando um dataset onde múltiplas linhas
referem-se a uma mesma entidade, em um
dataset de referências únicas por linha.
ML FindMatches
35. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Centralizando segurança nos Data Lakes
Ingestão & limpeza Segurança Analytics & ML
Blueprints simplificam
ML transformam para
saneamento de dados
Permissões centrais
Monitoramento em
tempo real e auditoria
Ferramenta orientada a uso
Amplo portfolio de
ferramentas
Data
Engineer
Data
Analyst
Segurança de
Informação
36. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Permissões centralizadas
Lake Formation
Amazon S3
Data Lake Storage
Data
Analyst
Data
Catalog
Access
Control
Amazon
Athena
Amazon
Redshift
AWS
Glue
Amazon
EMR
Segurança de
Informação
37. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Permissões no AWS Lake Formation
Controle o acesso ao dado com ações
simples de concessão e bloqueio
Especifique permissões em DBs, tabelas e
colunas ao invés de buckets e objetos
Facilmente veja permissões concedidas a
usuários específicos
Audite todo acesso ao dado em um local
User 1
User 2
38. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Lake Formation – modelo de segurança
Trabalha em conjunto com IAM
Legislators database
members events
IAM
permissions
Lake Formation
permissions
Amazon S3
Requisite credencial temp.
Requisite objetos S3
Novas permissões Credenciais temporárias
persons organizations
AWS Lake Formation
Amazon
Athena
Amazon
Redshift
AWS
Glue
Amazon
EMR
39. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Demo passo 4: Conceda permissões aos usuários
Segurança de
Informação
40. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Construindo data lakes com AWS Lake Formation
Ingestão & limpeza Segurança Analytics & ML
Blueprints simplificam
ML transformam para
saneamento de dados
Permissões centrais
Monitoramento em
tempo real e auditoria
Ferramenta orientada a uso
Amplo portfolio de
ferramentas
Data
Engineer
Data
Analyst
Segurança de
Informação
41. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Demo passo 5: Execute queries nas ferramentas de análise
Data admin usa Redshift
Responsável em criar data sets
derivados
Tem acesso a todas as colunas
Analista de negócios usa Amazon
Athena
Responsável pela análise de
comportamento
Acessa colunas específicas de usuário
Cientista de dados usa EMR
Responsável por insights para gerar
crescimento
Acessa a todas colunas exceto PII
Data
Analyst
Amazon EMRAmazon Redshift Amazon Athena
42. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Centralizando segurança nos Data Lakes
Ingestão & limpeza Segurança Analytics & ML
Blueprints simplificam
ML transformam para
saneamento de dados
Permissões centrais
Monitoramento em
tempo real e auditoria
Ferramenta orientada a uso
Amplo portfolio de
ferramentas
Data
Engineer
Data
Analyst
Segurança de
Informação
43. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Demo passo 6: Audite o acesso dos usuários
Veja atividades detalhadas no console
Analise logs de auditoria no CloudTrail
usando Amazon Athena
Notificações de ingestão de dados e
catálogo são também publicadas no
Amazon CloudWatch events
Segurança de
Informação
44. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Gestão do Data Catalog e Metadata
Busca baseada em texto
sobre todo metadata
Adicione atributos como
data owners, stewards, e
outros como propriedades
de tabela
Adicione nível de
sensibilidade, definições
de colunas, e outros como
propriedades de coluna
Busca e
filtragem de
textos
Consultas no
Amazon Athena
45. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Lake Formation
Construa em dia um data lake seguro e governado
Gerencie a segurança de
forma simples
Defina de forma central políticas de
segurança, governança e auditoria
Reforce políticas de forma consistente
dentre serviços
Integrado com IAM e KMS
Forneça acesso
self-service aos dados
Construa um catálogo que
descreva seus dados
Possibilite que consumidores encontrem
facilmente dados relevantes
Análise através de múltiplos serviços
sem necessidade de mover dados
Construa data lakes
rapidamente
Mova, armazene, registre e
limpe seu data lake de forma rápida
Transforme para formatos abertos
como Parquet e ORC
Deduplicação e combinação de registros
com base em ML
https://aws.amazon.com/pt/lake-formation/
46. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Q&A
47. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Seu feedback é importante!
http://bit.ly/dataimmersion_day2
Sergio Zaccarelli (szacca@amazon.com)
Arquiteto de Soluções