SlideShare une entreprise Scribd logo
1  sur  58
Télécharger pour lire hors ligne
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Data Lakes e Analytics na
AWS
Hugo Rozestraten
AWS Solutions Architect – Database and Analytics
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
• Visão Geral de Data Lake
• Ingestão de Dados
• Trabalhando com o Data Lake
• Consumo do Lake - Análise, Visualização e Machine Learning
• Demo
Agenda
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
• Visão Geral de Data Lake
• Ingestão de Dados
• Trabalhando com o Data Lake
• Consumo do Lake - Análise, Visualização e Machine Learning
• Demo
Agenda
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Organizações que geram valor para
os negócios à partir da análise de
dados, ultrapassam seus
competidores. Um estudo da
Aberdeen verificou que empresas que
implementaram um Data Lake tiveram
um crescimento orgânico de 9% a
mais do que outras empresas do
mesmo ramo.
24%
15%
Líderes Seguidores
Crescimento orgânico de Receita
*Aberdeen: Angling for Insight in Today’s Data Lake, Michael Lock, SVP Analytics and Business Intelligence
Para ser Líder, Dados podem fazer a diferença
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Para que os dados sejam diferencial as empresas
precisam ser capazes de…
• Obter e armazenar novos dados não
relacionais, em escala de PB-EB em
tempo real
• Novos tipos de análises além do “batch
reporting” para incorporar análises em
tempo real, predições, reconhecimento de
imagem e voz
• Democratizar acesso para os dados de
maneira segura e com governança
Novos tipos de análises
Dashboards Predictive Image
Recognition
VoiceReal-time
Novos tipos de dados
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Tradicionalmente, Analytics se assemelham com
isto
OLTP ERP CRM LOB
Data Warehouse
Business Intelligence • Dados Relacionais
• Escala de TBs
• Schema definido antes da carga
• Relatórios operacionais ad hoc
• Investimento inicial CAPEX + $10K–
$50K/TB/Year
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Data Lakes estendem esta abordagem tradicional
Data Warehouse
Business Intelligence
OLTP ERP CRM LOB
• Dados Relacionais e não-Relacionais
• Escala de TBs–EBs
• Diversos motores para análises
• Armazenamento e analytics de baixo custo
Devices Web Sensors Social
Big Data processing,
real-time, Machine Learning
Data Lake
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Data Lakes e Analytics na AWS
Eficiente em custos
Escalável e durável
Seguro
Aberto e abrangenteAnalyticsMachine Learning
Real-time Data
Movement
On-premises
Data Movement
Data Lake
on AWS
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon S3
Amazon Glacier
AWS Glue
Armazene no formato de Dados que você queira
Aberto e Abrangente
• Armazene dados no formato que
quiser:
• Arquivo texto como CSV
• JSON (simples, nested), AVRO
• Logstash como Grok
• Colunar como Apache Parquet, e Apache
ORC
• e outros…
CSV
ORC
Grok
Avro
Parquet
JSON
mp4
AVI
jpg
“Raw data” Dados crús
Dados Otimizados
para performance
gzip
bzip
lzo
snappy
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Analise com o grupo de ferramentas analíticas mais
abrangente
Aberto e abrangente • Utilize a melhor ferramenta para o melhor
resultado
• Data warehousing
• Interactive SQL queries
• Big Data processing
• Real-time analytics
• Dashboards & Visualizations
• Machine Learning
• “Query in place” sem mover o dado para
um sistema analítico
• Até 400% mais rápido com S3 Select e
Glacier Select
• Maior ecossistema de ISVs com integração
nativa
• Garante atingir objetivos de casos atuais e
futuros, minimizando risco
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch service
Amazon Kinesis
Amazon QuickSight
Analytics
Machine
Learning
Amazon S3
Amazon Glacier
AWS Glue
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Data Lakes from AWS
Data Lake
on AWS
AnalyticsMachine Learning
Real-time Data
Movement
On-premises
Data Movement
Eficiente em custos
Escalável e durável
Seguro
Aberto e abrangente
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Provê o mais alto nível de segurança
Seguro
Compliance
AWS Artifact
Amazon Inspector
Amazon Cloud HSM
Amazon Cognito
AWS CloudTrail
Segurança
Amazon GuardDuty
AWS Shield
AWS WAF
Amazon Macie
VPC
Criptografia
AWS Certification Manager
AWS Key Management
Service
Encryption at rest
Encryption in transit
Bring your own keys, HSM
support
Identidade
AWS IAM
AWS SSO
Amazon Cloud Directory
AWS Directory Service
AWS Organizations
Níveis de segurança, gestão de acesso e identidade, criptografia, e compliance para
segurança do data lake
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Várias formas de levar seu dado para o Data Lake
Aberto e abrangente
• Movimentação de dados do seu Data Center
local
• Conexão de Fibra dedicada
• “Appliances” seguros
• Migração de Bases de Dados
• Gateway que permitem escrever na nuvem
• Dados de Realtime
• “Connect Devices” enviando dados para AWS
• Real-time Data Streams
• Real-time Video Streams
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS Storage Gateway
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Dados de RealtimeMovimentação de dados
do seu Data Center local
Amazon S3
Amazon Glacier
AWS Glue
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Segurança: Machine Learning-Powered Security
Seguro
• Machine learning para descobrir, classificar e
proteger dados
• Continuamente monitora acesso a dados para
detecção de anomalias
• Gera alertas quando detecta acesso não
autorizado
• Reconhece informações PII e/ou propriedade
intelectual
Amazon Macie
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Criptografia: Dados em repouso ou movimento
Seguro
• Única cloud que prove três formas de criptografia
• Server-side encryption
• Encryption with keys managed by the
AWS Key Management Service
• Encryption with keys that customers manage
• Única cloud que criptografa dados em trânsito quando
replicando entre regiões
• Serviço de movimentação de dados pode usar o mesmo
Key Management Service
• SSL endpoints
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Compliance: Log e Auditoria de todas as atividades
AWS
Seguro
• Registra e monitora
continuamente todas as
chamadas de API com
CloudTrail
• Aumenta a visibilidade entre
seus usuários e a atividade dos
serviços
• Habilita governança,
compliance, e auditoria
operacional e de risco
Store data in S3 Account event
occurs generating
API activity
CloudTrail captures
and records the
API activity
A log of API calls
is delivered to
S3 bucket and
optionally delivered
to CloudWatch Logs
and CloudWatch
Events
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Compliance: Normas e agências regulatórias
CSA
Cloud Security
Alliance Controls
ISO 9001
Global Quality
Standard
ISO 27001
Security Management
Controls
ISO 27017
Cloud Specific
Controls
ISO 27018
Personal Data
Protection
PCI DSS Level 1
Payment Card
Standards
SOC 1
Audit Controls
Report
SOC 2
Security, Availability, &
Confidentiality Report
SOC 3
General Controls
Report
Global United States
CJIS
Criminal Justice
Information Services
DoD SRG
DoD Data
Processing
FedRAMP
Government Data
Standards
FERPA
Educational
Privacy Act
FIPS
Government Security
Standards
FISMA
Federal Information
Security Management
GxP
Quality Guidelines
and Regulations
ISO FFIEC
Financial Institutions
Regulation
HIPPA
Protected Health
Information
ITAR
International Arms
Regulations
MPAA
Protected Media
Content
NIST
National Institute of
Standards and Technology
SEC Rule 17a-4(f)
Financial Data
Standards
VPAT/Section 508
Accountability
Standards
Asia Pacific
FISC [Japan]
Financial Industry
Information Systems
IRAP [Australia]
Australian Security
Standards
K-ISMS [Korea]
Korean Information
Security
MTCS Tier 3 [Singapore]
Multi-Tier Cloud
Security Standard
My Number Act [Japan]
Personal Information
Protection
Europe
C5 [Germany]
Operational Security
Attestation
Cyber Essentials
Plus [UK]
Cyber Threat
Protection
G-Cloud [UK]
UK Government
Standards
IT-Grundschutz
[Germany]
Baseline Protection
Methodology
X P
G
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Data Lakes from AWS
Data Lake
on AWS
AnalyticsMachine Learning
Real-time Data
Movement
On-premises
Data Movement
Eficiente em custos
Escalável e durável
Seguro
Aberto e abrangente
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
For example: Amazon S3 holds trillions of objects and
regularly peaks at millions of requests per second
TIME
CUSTOMERDATA
“…the scale at which AWS operates its public
cloud storage services dwarfs the other vendors
in this Magic Quadrant.”
- Gartner Magic Quadrant for Public Cloud Storage Services, Worldwide
Raj Bala, Arun Chandrasekaran, John McArthur, July 24, 2017
AWS roda a maior Infrastrutura Global de Cloud
Escalável e durável
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Qualquer escala
Escalável e durável
• S3 tem trilhões de objetos e exabytes de dados
• Construída para qualquer volume de dado
• Roda motores analíticos em alta escala,
lançando qualquer quantidade de recursos a
qualquer momento
• Maior infrastrutura de Cloud Global
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Durabilidade e Disponibilidade em igual
Escalável e durável
• Desenhado para entregar 99.999999999% de
durabilidade
• Redundância geográfica e replicação automática
• Armazena dados em múltiplos data centers
distribuídos em 3 AZs em uma mesma região
• Permite replica dados facilmente de qualquer
região
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Data Lakes na AWS
Data Lake
on AWS
AnalyticsMachine Learning
Real-time Data
Movement
On-premises
Data Movement
Eficiente em custos
Escalável e durável
Seguro
Aberto e abrangente
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Camadas de armazenamento para otimizar Preço /
Performance
Eficiente em custos
• Camadas de storage price/performance
• S3 Standard
• S3 Standard—Infrequent Access
• S3 One Zone—Infrequent Access
• Amazon Glacier
• Migra entre camadas através de políticas de ciclo
de vida de objetos
• Armazene dados a $0.023/GB/mês com S3
• Armazene dados $0.004/GB/mês com Glacier
S3
Standard
S3 Standard
Infrequent Access
S3 One Zone-IA
Glacier
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Pague só pelos recursos utilizados enquanto
escala
Eficiente em custos
• Pague o quanto consumir somente
• Tão baixo quanto $0.05/GB escaneado com
Athena
• EMR e Athena podem escalar para baixo
automaticamente quando completam um job,
economizando recursos
• Reserve uma instância quando tiver certeza que
irá consumer e economize até 75%
• Use capacidade ociosa com até 90% de desconto
nas Spot Instances com EMR
Tradicional: capacidade ociosa ou faltante
Traditional: Rigid
AWS: Elastic
Capacity
Demand
Demand
Servers
Unmet demand
upset players
missed revenue
Excess capacity
wasted $$$
AWS : Paque pelo que usa
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Menor “Total Cost of Ownership” (TCO)
Eficiente em custos
• Menos tempo gasto com
administração e suporte
• Sem custos up-front
costs, aquisição ou
instalaçao
• Economia de custos
operacionais – espaço
em data center, power,
cooling
• Valor para o negócio:
custo por atraso,
habilidades competitivas,
tempo de entrega etc.
Licensing Fees
Support Costs
Subscription Fee
Support Costs
On-premises AWS
Server Costs
Hardware—Server, Rack, Chassis,
PDUs, Tor Switches (+Maintenance)
Software—OS, Virtualization Licenses
(+Maintenance)
Network Costs
Network Hardware—LAN Switches,
Load Balancer Bandwidth costs
Software—Network Monitoring
IT Labor Costs
Server admin, virtualization admin,
storage admin, network admin,
support team
Extras
Project planning, advisors, legal,
contractors, managed services,
training, cost of capital
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
• Visão Geral de Data Lake
• Ingestão de Dados
• Trabalhando com o Data Lake
• Consumo do Lake - Análise, Visualização e Machine Learning
• Demo
Agenda
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Ingestão de Dados no Data Lake
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch service
Amazon Kinesis
Amazon QuickSight
Analytics
Machine Learning
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS Storage Gateway
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Real-time
Data Movement
On-premises
Data Movement
Data Lake on AWS
Storage | Archival Storage | Data Catalog
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Ingestão de Dados no Data Lake
Movimentação de dados do Data Center local até
AWS
AWS Snowball,
Snowball Edge and
Snowmobile
Escala de Petabyte e
Exabyte de transporte de
dados, usando appliances
seguros para transferir
grande volume de dados
para a nuvem da AWS
AWS Direct Connect
Estabelece uma conexão
de rede dedicada física
do seu Data Center com a
AWS; reduz custo de
rede, aumenta largura de
banda e prove uma
experiência consistente e
conhecida
AWS Storage
Gateway
Permite que suas
aplicações on-premises
utilizem o Storage na
AWS, utilizando uma
transferência otimizada
com baixo consume de
banda com cache local
AWS Database
Migration Service
Migra bases de dados
comerciais ou Open
Sources de maneira
segura para AWS
minimizando downtime e
esforço
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Ingestão de Dados no Data Lake
Movimentação de Dados com fontes Real-time
Amazon Kinesis
Video Streams
Streaming Seguro de
video para AWS para
analytics, machine
learning (ML), e outros
tipos de processamento
Amazon Kinesis Data
Firehose
Captura, transforma, e
carrega dados de stream
para a AWS e
disponibiliza no Data
Lake para consumo
analítico, de near realt-
ime e ferramentas de
business intelligence
Amazon Kinesis Data
Streams
Construa aplicações
analíticas para processar
com frameworks
conhecidos em real-time
streams ou utilize Kinesis
Data Analytics para
funções prontas de
agregação e análise
AWS IoT Core
Suporta bilhões de
devices e trilhões de
mensagens, pode
processar e rotear as
mensagens para
diferentes serviços na
AWS, com segurança e
integração
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Armazenamento
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch service
Amazon Kinesis
Amazon QuickSight
Analytics
Machine Learning
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS Storage Gateway
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Real-time
Data Movement
On-premises
Data Movement
Data Lake on AWS
Storage | Archival Storage | Data Catalog
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon S3— Storage de Objetos
Segurança e
Compliance
Três formas de
criptografia em repouso;
criptografia em trânsito;;
log e monitoramento
com CloudTrail, usa ML
para descobrir e proteger
dados sensíveis com
Macie
Gestão Flexível
Classifique, gerencie,
visualize o uso e
tendências; objtos pode
ser “tag” marcados para
avaliar uso, custo, e
segurança; implemente o
ciclo de vida automático
entre as camadas de
storage
Durabilidade,
Disponibilidade &
Escalabilidade
Construído para 11 9’s de
durabilidade, distribuído
em 3 data centers
distintos em uma mesma
região; replicado
internamente e replicado
automaticamente para
outra região
Query in Place
Rode queries analíticas
sobre o Data Lake sem
movimentar o dado; S3
Select pode explorer
subset de dados
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Glacier—Backup e Archive
Durabilidade,
Disponibilidade &
Escalabilidade
Construído para 11 9’s de
durabilidade, distribuído
em 3 data centers
distintos em uma mesma
região; replicado
internamente e replicado
automaticamente para
outra região
Seguro
Log and monitor with
CloudTrail, Vault Lock
enables WORM storage
capabilities, helping
satisfy compliance
requirements
Recuperação em
minutos
Três opções de tempo
recuperação de acordo
com a necessidade de
velocidade na
recuperação
Baixo Custo
Menor custo na AWS
permite arquivar
petabytes de dados a um
custo de USD$ 0.004 por
gigabyte
$
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Armazenamento não é suficiente os dados precisam ser
descobertos e catalogados
Dark data are the information
assets organizations collect,
process, and store during
regular business activities,
but generally fail to use for
other purposes (for example,
analytics, business relationships
and direct monetizing).
CRM ERP Data warehouse Mainframe
data
Web Social Log
files
Machine
data
Semi-
structured
Unstructured
“
”Gartner IT Glossary, 2018
https://www.gartner.com/it-glossary/dark-data
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Glue—Data Catalog
Faça descoberta dos seus dados
• Descobre automaticamente dados e armazena o
schema de forma centralizada e disponível
• Catálogo deixa os dados disponíveis para ETL e
catalogados através de metadados
• Catálogo contém definições de tabelas e jobs
• Calcula estatísticas para tornar as “queries” eficientes
Glue
Data Catalog
Discover data and
extract schema
Compliance
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
“Data Preparation” ~80% do trabalho
Building training sets
Cleaning and organizing data
Collecting data sets
Mining data for patterns
Refining algorithms
Other
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Glue— Serviço de ETL
Faça o desenvolvimento e deploy de scripts de ETL simples
• Gera códigos de ETL automaticamente
• Códigos customizáveis em Python e Spark
• Endpoints de desenvolvimento
• Agendamento de jobs baseados em
eventos
• Serverless
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
• Visão Geral de Data Lake
• Ingestão de Dados
• Trabalhando com o Data Lake
• Consumo do Lake - Análise, Visualização e Machine Learning
• Demo
Agenda
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Data Lakes, Analytics, e portifolio de ML na AWS
Mais abrangente conjunto de serviços de analytics
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch service
Amazon Kinesis
Amazon QuickSight
Analytics
Machine Learning
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS Storage Gateway
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Real-time
Data Movement
On-premises
Data Movement
Data Lake on AWS
Storage | Archival Storage | Data Catalog
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift—Data Warehousing
Rápido para Escalar
Armazenamento colunar,
tecnologia que aumenta
a eficiência de I/O e
escala performance de
query
Seguro
Auditoria; criptografia
end-to-end; extensa lista
de certificações de
compliance
Formato aberto de
arquivos
Analise dados em
formatos otimizados
com SSD, e formatos
abertos no S3
Baixo custo
$1,000 por terabyte por
ano, 1/10th do custo dos
DW tradicionais; comece
com $0.25 por hora
$
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift Spectrum
Estende o DW para exabytes de dados no Data Lake no S3
S3 data lakeRedshift data
Redshift Spectrum
query engine • Exabyte Redshift SQL queries sobre S3
• Join de dados com Redshift e S3
• Escala computação e storage de maneira separada
• Escala a performance das queries e permite
concorrência
• Formatos CSV, ORC, Grok, Avro, & Parquet
• Para somente pelo dado scaneado
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon EMR— Processamento Big Data
Baixo Custo
Billing flexível por
segundo, EC2 spot,
reserved instances e
auto-scaling para reduzir
de 50–80%
$
Fácil
Lançar o cluster de
Hadoop & Spark em
minutos; totalmente
automatizado, por APIs
ou pela console
Últimas versões
Atualizado com a verão
mais nova dos
frameworks open sources
em 30 dias do release
Usa armazenamento
do S3
Processa dados
diretamente no S3 de
forma segura e com
altíssima performance
usando EMRFS
Data Lake
100110000100101011
100101010111001010
100000111100101100
101010001100001
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Elasticsearch Service
Fácil de usar
Totalmente gerenciados;
deploy em minutos
Seguro
Acesso Seguro pela VPC
para manter o tráfego
dentro de sua rede
segura
Padrão aberto
Acesso direto à APIs
open-source do
Elasticsearch APIs;
Suporta Logstash e
Kibana
Disponível
Replica dados por duas
AZs; monitora
automaticamente e repõe
nós que possam falhar
$
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Kinesis—Real Time
Carrega dados de
stream para o S3,
RedShift,
ElasticSearch ou
Splunk
Kinesis Data
Firehose
Constrói aplicações
customizadas para
análise de dados
Kinesis Data
Streams
Capura, armazena,
processa e armazena
streaming de video
para análises
Kinesis Video
Streams
Analyze data streams
with SQL
Kinesis Data
Analytics
SQL
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Athena—Análise interativa, exploratória
Serviço de query interativa em dados no Amazon S3 usando SQL standard
Sem infrastrutura para gerenciar, sem carga de dados
Query instantânea
Custo zero para setup;
Aponte para o S3 e
faça queries
SQL
Aberto
Interface ANSI SQL,
JDBC/ODBC drivers,
múltiplos formatos,
Joins complexos e
data types
Fácil
Serverless: zero
infrastrutura, zero
administração
Integrado com
QuickSight
Pague por query
Paga somente pela
execução; economia
de 30–90% usando
compressão
$
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
• Visão Geral de Data Lake
• Ingestão de Dados
• Trabalhando com o Data Lake
• Consumo do Lake - Análise, Visualização e Machine Learning
• Demo
Agenda
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon QuickSight
Empoderamento
Do usuário
Conectividade
Análises Rápidas Serverless
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Data Lakes, Analytics, e Portifolio ML da AWS
Mais abrangente conjunto de serviços de analytics
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch service
Amazon Kinesis
Amazon QuickSight
Analytics
Machine Learning
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS Storage Gateway
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Real-time
Data Movement
On-premises
Data Movement
Data Lake on AWS
Storage | Archival Storage | Data Catalog
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon SageMaker
Maneira mais rápida e fácil de colocar modelos de Machine Learning em
produção
Zero
setup
Modelo flexível de
treinamento
Plataforma End-to-
End Machine
Learning
Pago por segundo
$
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Deep Learning AMI
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
More Data Lakes & Analytics on AWS than Anywhere Else
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Airbnb is a community
marketplace that allows
property owners and travelers
to connect with each other.
Challenge:
Grows data 3x every year with PBs
of data stored. Use Hadoop/HDFS,
but experienced bottlenecks in
performance and high costs.
Solution:
• Created a tiered storage system:
Land hot data in HDFS, and all
warm/cold data in S3 data lake
• S3 provides infinite storage at
lower costs
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Airbnb Uses AWS for data lake and analytics
• Land hot data in HDFS
• Warm/cold data in S3
• Brings the best of both—
performance, scalability, cost
• Analyze data with Hive,
Presto, Spark, etc.
Hive on EMR
HDFS Cluster
S3
Spark on EMR
Presto on EMR
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
FINRA oversees > 3,000
securities firms doing
business in the United States.
Challenge:
FINRA’s legacy system did not
scale well
• Up to 75 billion events per day
• Run complex surveillance queries
over 20+ PB of data
Solution:
• Migrated their big data appliance
to a S3 Data Lake and used EMR
for ingestion and processing
• Migrated to RDS and testing Aurora
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
FINRA uses S3 to Build Data Lake with EMR
• Required fast access
across trillions of trade
records (20PB+)
• Migrated from
on-premises system
• Use Apache HBase on
Amazon EMR to store
and serve this data
• Use EMR engines—
Spark, Presto, and Hive
to process data
• Lower costs by 60% over
on-premises system
Spark
on EMR
Presto
on EMR
Hive
on EMR
S3
Herd
Metastore
HBase
on EMR
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
• Visão Geral de Data Lake
• Ingestão de Dados
• Trabalhando com o Data Lake
• Consumo do Lake - Análise, Visualização e Machine Learning
• Demo
Agenda
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Demo
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Data Lakes, Analytics, e ML na AWS
Mais abrangente conjunto de serviços de analytics
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch service
Amazon Kinesis
Amazon QuickSight
Analytics
Machine Learning
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Real-time
Data Movement
On-premises
Data Movement
Data Lake on AWS
Storage | Archival Storage | Data Catalog
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Obrigado

Contenu connexe

Tendances

Threat detection and mitigation at AWS - SEC301 - São Paulo AWS Summit
Threat detection and mitigation at AWS - SEC301 - São Paulo AWS SummitThreat detection and mitigation at AWS - SEC301 - São Paulo AWS Summit
Threat detection and mitigation at AWS - SEC301 - São Paulo AWS SummitAmazon Web Services
 
Twelve-Factor serverless applications - MAD302 - São Paulo AWS Summit
Twelve-Factor serverless applications - MAD302 - São Paulo AWS SummitTwelve-Factor serverless applications - MAD302 - São Paulo AWS Summit
Twelve-Factor serverless applications - MAD302 - São Paulo AWS SummitAmazon Web Services
 
AWS layered security services - SEC302 - São Paulo AWS Summit
AWS layered security services - SEC302 - São Paulo AWS SummitAWS layered security services - SEC302 - São Paulo AWS Summit
AWS layered security services - SEC302 - São Paulo AWS SummitAmazon Web Services
 
AWS Initiate - AWS & IoT (Internet das Coisas) - Smart Cities
AWS Initiate - AWS & IoT (Internet das Coisas) - Smart CitiesAWS Initiate - AWS & IoT (Internet das Coisas) - Smart Cities
AWS Initiate - AWS & IoT (Internet das Coisas) - Smart CitiesAmazon Web Services LATAM
 
Creating your secure cloud journey - SVC303 - São Paulo AWS Summit.pdf
Creating your secure cloud journey - SVC303 - São Paulo AWS Summit.pdfCreating your secure cloud journey - SVC303 - São Paulo AWS Summit.pdf
Creating your secure cloud journey - SVC303 - São Paulo AWS Summit.pdfAmazon Web Services
 
Developing intelligent robots with AWS RoboMaker - SVC206 - São Paulo AWS Summit
Developing intelligent robots with AWS RoboMaker - SVC206 - São Paulo AWS SummitDeveloping intelligent robots with AWS RoboMaker - SVC206 - São Paulo AWS Summit
Developing intelligent robots with AWS RoboMaker - SVC206 - São Paulo AWS SummitAmazon Web Services
 
Databases on AWS- Using the right tool for the job - ADB203 - São Paulo AWS S...
Databases on AWS- Using the right tool for the job - ADB203 - São Paulo AWS S...Databases on AWS- Using the right tool for the job - ADB203 - São Paulo AWS S...
Databases on AWS- Using the right tool for the job - ADB203 - São Paulo AWS S...Amazon Web Services
 
Cost-management journey- Where did Nubank start - CMP202 - São Paulo AWS Summit
Cost-management journey- Where did Nubank start - CMP202 - São Paulo AWS SummitCost-management journey- Where did Nubank start - CMP202 - São Paulo AWS Summit
Cost-management journey- Where did Nubank start - CMP202 - São Paulo AWS SummitAmazon Web Services
 
AWS Webinar Series Brasil: Inteligência Artificial em Serviços Financeiros
AWS Webinar Series Brasil: Inteligência Artificial em Serviços FinanceirosAWS Webinar Series Brasil: Inteligência Artificial em Serviços Financeiros
AWS Webinar Series Brasil: Inteligência Artificial em Serviços FinanceirosAmazon Web Services LATAM
 
Industry 4.0- Managing the protocol zoo - SVC204 - São Paulo AWS Summit
Industry 4.0- Managing the protocol zoo - SVC204 - São Paulo AWS SummitIndustry 4.0- Managing the protocol zoo - SVC204 - São Paulo AWS Summit
Industry 4.0- Managing the protocol zoo - SVC204 - São Paulo AWS SummitAmazon Web Services
 
Webinar Introdução à Arquitetura de Aplicações VMware, Microsoft, e SAP na Nu...
Webinar Introdução à Arquitetura de Aplicações VMware, Microsoft, e SAP na Nu...Webinar Introdução à Arquitetura de Aplicações VMware, Microsoft, e SAP na Nu...
Webinar Introdução à Arquitetura de Aplicações VMware, Microsoft, e SAP na Nu...Amazon Web Services LATAM
 
Accelerate and secure your applications running on AWS - SVC207 - São Paulo A...
Accelerate and secure your applications running on AWS - SVC207 - São Paulo A...Accelerate and secure your applications running on AWS - SVC207 - São Paulo A...
Accelerate and secure your applications running on AWS - SVC207 - São Paulo A...Amazon Web Services
 
Tech deep dive- Cloud data management with Veeam and AWS - SVC210-S - São Pau...
Tech deep dive- Cloud data management with Veeam and AWS - SVC210-S - São Pau...Tech deep dive- Cloud data management with Veeam and AWS - SVC210-S - São Pau...
Tech deep dive- Cloud data management with Veeam and AWS - SVC210-S - São Pau...Amazon Web Services
 
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...Amazon Web Services
 
VMware Cloud on AWS Hybrid cloud made easy - CMP203 - São Paulo AWS Summit.pdf
VMware Cloud on AWS Hybrid cloud made easy - CMP203 - São Paulo AWS Summit.pdfVMware Cloud on AWS Hybrid cloud made easy - CMP203 - São Paulo AWS Summit.pdf
VMware Cloud on AWS Hybrid cloud made easy - CMP203 - São Paulo AWS Summit.pdfAmazon Web Services
 
Analisando Dados de Streaming em Tempo Real com Amazon Kinesis - BDA303 - Sa...
Analisando Dados de Streaming em Tempo Real com Amazon Kinesis -  BDA303 - Sa...Analisando Dados de Streaming em Tempo Real com Amazon Kinesis -  BDA303 - Sa...
Analisando Dados de Streaming em Tempo Real com Amazon Kinesis - BDA303 - Sa...Amazon Web Services
 
Agile development with Amazon Linux WorkSpaces and Amazon WorkLink - SVC202 -...
Agile development with Amazon Linux WorkSpaces and Amazon WorkLink - SVC202 -...Agile development with Amazon Linux WorkSpaces and Amazon WorkLink - SVC202 -...
Agile development with Amazon Linux WorkSpaces and Amazon WorkLink - SVC202 -...Amazon Web Services
 
Scale fearlessly with Amazon DynamoDB adaptive capacity - ADB302 - São Paulo ...
Scale fearlessly with Amazon DynamoDB adaptive capacity - ADB302 - São Paulo ...Scale fearlessly with Amazon DynamoDB adaptive capacity - ADB302 - São Paulo ...
Scale fearlessly with Amazon DynamoDB adaptive capacity - ADB302 - São Paulo ...Amazon Web Services
 

Tendances (20)

Threat detection and mitigation at AWS - SEC301 - São Paulo AWS Summit
Threat detection and mitigation at AWS - SEC301 - São Paulo AWS SummitThreat detection and mitigation at AWS - SEC301 - São Paulo AWS Summit
Threat detection and mitigation at AWS - SEC301 - São Paulo AWS Summit
 
Twelve-Factor serverless applications - MAD302 - São Paulo AWS Summit
Twelve-Factor serverless applications - MAD302 - São Paulo AWS SummitTwelve-Factor serverless applications - MAD302 - São Paulo AWS Summit
Twelve-Factor serverless applications - MAD302 - São Paulo AWS Summit
 
AWS layered security services - SEC302 - São Paulo AWS Summit
AWS layered security services - SEC302 - São Paulo AWS SummitAWS layered security services - SEC302 - São Paulo AWS Summit
AWS layered security services - SEC302 - São Paulo AWS Summit
 
AWS Initiate - AWS & IoT (Internet das Coisas) - Smart Cities
AWS Initiate - AWS & IoT (Internet das Coisas) - Smart CitiesAWS Initiate - AWS & IoT (Internet das Coisas) - Smart Cities
AWS Initiate - AWS & IoT (Internet das Coisas) - Smart Cities
 
Creating your secure cloud journey - SVC303 - São Paulo AWS Summit.pdf
Creating your secure cloud journey - SVC303 - São Paulo AWS Summit.pdfCreating your secure cloud journey - SVC303 - São Paulo AWS Summit.pdf
Creating your secure cloud journey - SVC303 - São Paulo AWS Summit.pdf
 
Developing intelligent robots with AWS RoboMaker - SVC206 - São Paulo AWS Summit
Developing intelligent robots with AWS RoboMaker - SVC206 - São Paulo AWS SummitDeveloping intelligent robots with AWS RoboMaker - SVC206 - São Paulo AWS Summit
Developing intelligent robots with AWS RoboMaker - SVC206 - São Paulo AWS Summit
 
Databases on AWS- Using the right tool for the job - ADB203 - São Paulo AWS S...
Databases on AWS- Using the right tool for the job - ADB203 - São Paulo AWS S...Databases on AWS- Using the right tool for the job - ADB203 - São Paulo AWS S...
Databases on AWS- Using the right tool for the job - ADB203 - São Paulo AWS S...
 
Cost-management journey- Where did Nubank start - CMP202 - São Paulo AWS Summit
Cost-management journey- Where did Nubank start - CMP202 - São Paulo AWS SummitCost-management journey- Where did Nubank start - CMP202 - São Paulo AWS Summit
Cost-management journey- Where did Nubank start - CMP202 - São Paulo AWS Summit
 
AWS Webinar Series Brasil: Inteligência Artificial em Serviços Financeiros
AWS Webinar Series Brasil: Inteligência Artificial em Serviços FinanceirosAWS Webinar Series Brasil: Inteligência Artificial em Serviços Financeiros
AWS Webinar Series Brasil: Inteligência Artificial em Serviços Financeiros
 
Industry 4.0- Managing the protocol zoo - SVC204 - São Paulo AWS Summit
Industry 4.0- Managing the protocol zoo - SVC204 - São Paulo AWS SummitIndustry 4.0- Managing the protocol zoo - SVC204 - São Paulo AWS Summit
Industry 4.0- Managing the protocol zoo - SVC204 - São Paulo AWS Summit
 
Webinar Introdução à Arquitetura de Aplicações VMware, Microsoft, e SAP na Nu...
Webinar Introdução à Arquitetura de Aplicações VMware, Microsoft, e SAP na Nu...Webinar Introdução à Arquitetura de Aplicações VMware, Microsoft, e SAP na Nu...
Webinar Introdução à Arquitetura de Aplicações VMware, Microsoft, e SAP na Nu...
 
Accelerate and secure your applications running on AWS - SVC207 - São Paulo A...
Accelerate and secure your applications running on AWS - SVC207 - São Paulo A...Accelerate and secure your applications running on AWS - SVC207 - São Paulo A...
Accelerate and secure your applications running on AWS - SVC207 - São Paulo A...
 
Tech deep dive- Cloud data management with Veeam and AWS - SVC210-S - São Pau...
Tech deep dive- Cloud data management with Veeam and AWS - SVC210-S - São Pau...Tech deep dive- Cloud data management with Veeam and AWS - SVC210-S - São Pau...
Tech deep dive- Cloud data management with Veeam and AWS - SVC210-S - São Pau...
 
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...
 
O Novo Normal
O Novo NormalO Novo Normal
O Novo Normal
 
VMware Cloud on AWS Hybrid cloud made easy - CMP203 - São Paulo AWS Summit.pdf
VMware Cloud on AWS Hybrid cloud made easy - CMP203 - São Paulo AWS Summit.pdfVMware Cloud on AWS Hybrid cloud made easy - CMP203 - São Paulo AWS Summit.pdf
VMware Cloud on AWS Hybrid cloud made easy - CMP203 - São Paulo AWS Summit.pdf
 
Analisando Dados de Streaming em Tempo Real com Amazon Kinesis - BDA303 - Sa...
Analisando Dados de Streaming em Tempo Real com Amazon Kinesis -  BDA303 - Sa...Analisando Dados de Streaming em Tempo Real com Amazon Kinesis -  BDA303 - Sa...
Analisando Dados de Streaming em Tempo Real com Amazon Kinesis - BDA303 - Sa...
 
Agile development with Amazon Linux WorkSpaces and Amazon WorkLink - SVC202 -...
Agile development with Amazon Linux WorkSpaces and Amazon WorkLink - SVC202 -...Agile development with Amazon Linux WorkSpaces and Amazon WorkLink - SVC202 -...
Agile development with Amazon Linux WorkSpaces and Amazon WorkLink - SVC202 -...
 
Webinar: Containers
Webinar: ContainersWebinar: Containers
Webinar: Containers
 
Scale fearlessly with Amazon DynamoDB adaptive capacity - ADB302 - São Paulo ...
Scale fearlessly with Amazon DynamoDB adaptive capacity - ADB302 - São Paulo ...Scale fearlessly with Amazon DynamoDB adaptive capacity - ADB302 - São Paulo ...
Scale fearlessly with Amazon DynamoDB adaptive capacity - ADB302 - São Paulo ...
 

Similaire à Data Lakes e Analytics na AWS

Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]Amazon Web Services
 
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...Amazon Web Services LATAM
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM
 
É Tudo sobre Dados - ARC202 - Sao Paulo Summit
É Tudo sobre Dados -  ARC202 - Sao Paulo SummitÉ Tudo sobre Dados -  ARC202 - Sao Paulo Summit
É Tudo sobre Dados - ARC202 - Sao Paulo SummitAmazon Web Services
 
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo SummitConstruindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo SummitAmazon Web Services
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Amazon Web Services
 
Arquiteturas de E Commerce da próxima geração
Arquiteturas de E Commerce da próxima geraçãoArquiteturas de E Commerce da próxima geração
Arquiteturas de E Commerce da próxima geraçãoAmazon Web Services LATAM
 
Webinar - Inicie sua jornada de migração para nuvem com a AWS (Português)
Webinar - Inicie sua jornada de migração para nuvem com a AWS (Português)Webinar - Inicie sua jornada de migração para nuvem com a AWS (Português)
Webinar - Inicie sua jornada de migração para nuvem com a AWS (Português)Amazon Web Services LATAM
 
Migre seus Desktops e Apps para a AWS com Amazon WorkSpaces e AppStream 2 - ...
Migre seus Desktops e Apps para a AWS com Amazon WorkSpaces e AppStream 2 -  ...Migre seus Desktops e Apps para a AWS com Amazon WorkSpaces e AppStream 2 -  ...
Migre seus Desktops e Apps para a AWS com Amazon WorkSpaces e AppStream 2 - ...Amazon Web Services
 
Segurança - 10 regras que você deve saber antes de migrar sua infraestrutura ...
Segurança - 10 regras que você deve saber antes de migrar sua infraestrutura ...Segurança - 10 regras que você deve saber antes de migrar sua infraestrutura ...
Segurança - 10 regras que você deve saber antes de migrar sua infraestrutura ...Amazon Web Services LATAM
 
Webinar: Ask the Experts - Big Data (Português)
Webinar: Ask the Experts - Big Data (Português)Webinar: Ask the Experts - Big Data (Português)
Webinar: Ask the Experts - Big Data (Português)Amazon Web Services LATAM
 
A culture of rapid innovation with DevOps, microservices, and serverless - MA...
A culture of rapid innovation with DevOps, microservices, and serverless - MA...A culture of rapid innovation with DevOps, microservices, and serverless - MA...
A culture of rapid innovation with DevOps, microservices, and serverless - MA...Amazon Web Services
 
A culture of rapid innovation with DevOps, microservices, and serverless - MA...
A culture of rapid innovation with DevOps, microservices, and serverless - MA...A culture of rapid innovation with DevOps, microservices, and serverless - MA...
A culture of rapid innovation with DevOps, microservices, and serverless - MA...Amazon Web Services
 
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...Amazon Web Services
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftAmazon Web Services LATAM
 

Similaire à Data Lakes e Analytics na AWS (20)

Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]
 
[Webinar] AWS Storage Day - Português
[Webinar] AWS Storage Day - Português[Webinar] AWS Storage Day - Português
[Webinar] AWS Storage Day - Português
 
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
É Tudo sobre Dados - ARC202 - Sao Paulo Summit
É Tudo sobre Dados -  ARC202 - Sao Paulo SummitÉ Tudo sobre Dados -  ARC202 - Sao Paulo Summit
É Tudo sobre Dados - ARC202 - Sao Paulo Summit
 
AWS Segurança e Conformidade
AWS Segurança e ConformidadeAWS Segurança e Conformidade
AWS Segurança e Conformidade
 
Segurança na AWS
Segurança na AWSSegurança na AWS
Segurança na AWS
 
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo SummitConstruindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
 
Segurança na AWS
Segurança na AWS Segurança na AWS
Segurança na AWS
 
Tech Talks Webinar- Armazenamento na AWS
Tech Talks Webinar- Armazenamento na AWSTech Talks Webinar- Armazenamento na AWS
Tech Talks Webinar- Armazenamento na AWS
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
 
Arquiteturas de E Commerce da próxima geração
Arquiteturas de E Commerce da próxima geraçãoArquiteturas de E Commerce da próxima geração
Arquiteturas de E Commerce da próxima geração
 
Webinar - Inicie sua jornada de migração para nuvem com a AWS (Português)
Webinar - Inicie sua jornada de migração para nuvem com a AWS (Português)Webinar - Inicie sua jornada de migração para nuvem com a AWS (Português)
Webinar - Inicie sua jornada de migração para nuvem com a AWS (Português)
 
Migre seus Desktops e Apps para a AWS com Amazon WorkSpaces e AppStream 2 - ...
Migre seus Desktops e Apps para a AWS com Amazon WorkSpaces e AppStream 2 -  ...Migre seus Desktops e Apps para a AWS com Amazon WorkSpaces e AppStream 2 -  ...
Migre seus Desktops e Apps para a AWS com Amazon WorkSpaces e AppStream 2 - ...
 
Segurança - 10 regras que você deve saber antes de migrar sua infraestrutura ...
Segurança - 10 regras que você deve saber antes de migrar sua infraestrutura ...Segurança - 10 regras que você deve saber antes de migrar sua infraestrutura ...
Segurança - 10 regras que você deve saber antes de migrar sua infraestrutura ...
 
Webinar: Ask the Experts - Big Data (Português)
Webinar: Ask the Experts - Big Data (Português)Webinar: Ask the Experts - Big Data (Português)
Webinar: Ask the Experts - Big Data (Português)
 
A culture of rapid innovation with DevOps, microservices, and serverless - MA...
A culture of rapid innovation with DevOps, microservices, and serverless - MA...A culture of rapid innovation with DevOps, microservices, and serverless - MA...
A culture of rapid innovation with DevOps, microservices, and serverless - MA...
 
A culture of rapid innovation with DevOps, microservices, and serverless - MA...
A culture of rapid innovation with DevOps, microservices, and serverless - MA...A culture of rapid innovation with DevOps, microservices, and serverless - MA...
A culture of rapid innovation with DevOps, microservices, and serverless - MA...
 
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon Redshift
 

Plus de Amazon Web Services LATAM

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAmazon Web Services LATAM
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAmazon Web Services LATAM
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSAmazon Web Services LATAM
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSAmazon Web Services LATAM
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAmazon Web Services LATAM
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAmazon Web Services LATAM
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosAmazon Web Services LATAM
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSAmazon Web Services LATAM
 

Plus de Amazon Web Services LATAM (20)

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWS
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWS
 
Cómo empezar con Amazon EKS
Cómo empezar con Amazon EKSCómo empezar con Amazon EKS
Cómo empezar con Amazon EKS
 
Como começar com Amazon EKS
Como começar com Amazon EKSComo começar com Amazon EKS
Como começar com Amazon EKS
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWS
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWS
 
Ransomware: Estratégias de Mitigação
Ransomware: Estratégias de MitigaçãoRansomware: Estratégias de Mitigação
Ransomware: Estratégias de Mitigação
 
Ransomware: Estratégias de Mitigación
Ransomware: Estratégias de MitigaciónRansomware: Estratégias de Mitigación
Ransomware: Estratégias de Mitigación
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWS
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administrados
 
Simplifique su BI con AWS
Simplifique su BI con AWSSimplifique su BI con AWS
Simplifique su BI con AWS
 
Simplifique o seu BI com a AWS
Simplifique o seu BI com a AWSSimplifique o seu BI com a AWS
Simplifique o seu BI com a AWS
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWS
 

Data Lakes e Analytics na AWS

  • 1. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Data Lakes e Analytics na AWS Hugo Rozestraten AWS Solutions Architect – Database and Analytics
  • 2. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. • Visão Geral de Data Lake • Ingestão de Dados • Trabalhando com o Data Lake • Consumo do Lake - Análise, Visualização e Machine Learning • Demo Agenda
  • 3. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. • Visão Geral de Data Lake • Ingestão de Dados • Trabalhando com o Data Lake • Consumo do Lake - Análise, Visualização e Machine Learning • Demo Agenda
  • 4. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Organizações que geram valor para os negócios à partir da análise de dados, ultrapassam seus competidores. Um estudo da Aberdeen verificou que empresas que implementaram um Data Lake tiveram um crescimento orgânico de 9% a mais do que outras empresas do mesmo ramo. 24% 15% Líderes Seguidores Crescimento orgânico de Receita *Aberdeen: Angling for Insight in Today’s Data Lake, Michael Lock, SVP Analytics and Business Intelligence Para ser Líder, Dados podem fazer a diferença
  • 5. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Para que os dados sejam diferencial as empresas precisam ser capazes de… • Obter e armazenar novos dados não relacionais, em escala de PB-EB em tempo real • Novos tipos de análises além do “batch reporting” para incorporar análises em tempo real, predições, reconhecimento de imagem e voz • Democratizar acesso para os dados de maneira segura e com governança Novos tipos de análises Dashboards Predictive Image Recognition VoiceReal-time Novos tipos de dados
  • 6. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Tradicionalmente, Analytics se assemelham com isto OLTP ERP CRM LOB Data Warehouse Business Intelligence • Dados Relacionais • Escala de TBs • Schema definido antes da carga • Relatórios operacionais ad hoc • Investimento inicial CAPEX + $10K– $50K/TB/Year
  • 7. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Data Lakes estendem esta abordagem tradicional Data Warehouse Business Intelligence OLTP ERP CRM LOB • Dados Relacionais e não-Relacionais • Escala de TBs–EBs • Diversos motores para análises • Armazenamento e analytics de baixo custo Devices Web Sensors Social Big Data processing, real-time, Machine Learning Data Lake
  • 8. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Data Lakes e Analytics na AWS Eficiente em custos Escalável e durável Seguro Aberto e abrangenteAnalyticsMachine Learning Real-time Data Movement On-premises Data Movement Data Lake on AWS
  • 9. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon S3 Amazon Glacier AWS Glue Armazene no formato de Dados que você queira Aberto e Abrangente • Armazene dados no formato que quiser: • Arquivo texto como CSV • JSON (simples, nested), AVRO • Logstash como Grok • Colunar como Apache Parquet, e Apache ORC • e outros… CSV ORC Grok Avro Parquet JSON mp4 AVI jpg “Raw data” Dados crús Dados Otimizados para performance gzip bzip lzo snappy
  • 10. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Analise com o grupo de ferramentas analíticas mais abrangente Aberto e abrangente • Utilize a melhor ferramenta para o melhor resultado • Data warehousing • Interactive SQL queries • Big Data processing • Real-time analytics • Dashboards & Visualizations • Machine Learning • “Query in place” sem mover o dado para um sistema analítico • Até 400% mais rápido com S3 Select e Glacier Select • Maior ecossistema de ISVs com integração nativa • Garante atingir objetivos de casos atuais e futuros, minimizando risco Amazon SageMaker AWS Deep Learning AMIs Amazon Rekognition Amazon Lex AWS DeepLens Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Amazon Athena Amazon EMR Amazon Redshift Amazon Elasticsearch service Amazon Kinesis Amazon QuickSight Analytics Machine Learning Amazon S3 Amazon Glacier AWS Glue
  • 11. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Data Lakes from AWS Data Lake on AWS AnalyticsMachine Learning Real-time Data Movement On-premises Data Movement Eficiente em custos Escalável e durável Seguro Aberto e abrangente
  • 12. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS Provê o mais alto nível de segurança Seguro Compliance AWS Artifact Amazon Inspector Amazon Cloud HSM Amazon Cognito AWS CloudTrail Segurança Amazon GuardDuty AWS Shield AWS WAF Amazon Macie VPC Criptografia AWS Certification Manager AWS Key Management Service Encryption at rest Encryption in transit Bring your own keys, HSM support Identidade AWS IAM AWS SSO Amazon Cloud Directory AWS Directory Service AWS Organizations Níveis de segurança, gestão de acesso e identidade, criptografia, e compliance para segurança do data lake
  • 13. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Várias formas de levar seu dado para o Data Lake Aberto e abrangente • Movimentação de dados do seu Data Center local • Conexão de Fibra dedicada • “Appliances” seguros • Migração de Bases de Dados • Gateway que permitem escrever na nuvem • Dados de Realtime • “Connect Devices” enviando dados para AWS • Real-time Data Streams • Real-time Video Streams AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS Storage Gateway AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams Dados de RealtimeMovimentação de dados do seu Data Center local Amazon S3 Amazon Glacier AWS Glue
  • 14. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Segurança: Machine Learning-Powered Security Seguro • Machine learning para descobrir, classificar e proteger dados • Continuamente monitora acesso a dados para detecção de anomalias • Gera alertas quando detecta acesso não autorizado • Reconhece informações PII e/ou propriedade intelectual Amazon Macie
  • 15. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Criptografia: Dados em repouso ou movimento Seguro • Única cloud que prove três formas de criptografia • Server-side encryption • Encryption with keys managed by the AWS Key Management Service • Encryption with keys that customers manage • Única cloud que criptografa dados em trânsito quando replicando entre regiões • Serviço de movimentação de dados pode usar o mesmo Key Management Service • SSL endpoints
  • 16. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Compliance: Log e Auditoria de todas as atividades AWS Seguro • Registra e monitora continuamente todas as chamadas de API com CloudTrail • Aumenta a visibilidade entre seus usuários e a atividade dos serviços • Habilita governança, compliance, e auditoria operacional e de risco Store data in S3 Account event occurs generating API activity CloudTrail captures and records the API activity A log of API calls is delivered to S3 bucket and optionally delivered to CloudWatch Logs and CloudWatch Events
  • 17. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Compliance: Normas e agências regulatórias CSA Cloud Security Alliance Controls ISO 9001 Global Quality Standard ISO 27001 Security Management Controls ISO 27017 Cloud Specific Controls ISO 27018 Personal Data Protection PCI DSS Level 1 Payment Card Standards SOC 1 Audit Controls Report SOC 2 Security, Availability, & Confidentiality Report SOC 3 General Controls Report Global United States CJIS Criminal Justice Information Services DoD SRG DoD Data Processing FedRAMP Government Data Standards FERPA Educational Privacy Act FIPS Government Security Standards FISMA Federal Information Security Management GxP Quality Guidelines and Regulations ISO FFIEC Financial Institutions Regulation HIPPA Protected Health Information ITAR International Arms Regulations MPAA Protected Media Content NIST National Institute of Standards and Technology SEC Rule 17a-4(f) Financial Data Standards VPAT/Section 508 Accountability Standards Asia Pacific FISC [Japan] Financial Industry Information Systems IRAP [Australia] Australian Security Standards K-ISMS [Korea] Korean Information Security MTCS Tier 3 [Singapore] Multi-Tier Cloud Security Standard My Number Act [Japan] Personal Information Protection Europe C5 [Germany] Operational Security Attestation Cyber Essentials Plus [UK] Cyber Threat Protection G-Cloud [UK] UK Government Standards IT-Grundschutz [Germany] Baseline Protection Methodology X P G
  • 18. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Data Lakes from AWS Data Lake on AWS AnalyticsMachine Learning Real-time Data Movement On-premises Data Movement Eficiente em custos Escalável e durável Seguro Aberto e abrangente
  • 19. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. For example: Amazon S3 holds trillions of objects and regularly peaks at millions of requests per second TIME CUSTOMERDATA “…the scale at which AWS operates its public cloud storage services dwarfs the other vendors in this Magic Quadrant.” - Gartner Magic Quadrant for Public Cloud Storage Services, Worldwide Raj Bala, Arun Chandrasekaran, John McArthur, July 24, 2017 AWS roda a maior Infrastrutura Global de Cloud Escalável e durável
  • 20. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Qualquer escala Escalável e durável • S3 tem trilhões de objetos e exabytes de dados • Construída para qualquer volume de dado • Roda motores analíticos em alta escala, lançando qualquer quantidade de recursos a qualquer momento • Maior infrastrutura de Cloud Global
  • 21. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Durabilidade e Disponibilidade em igual Escalável e durável • Desenhado para entregar 99.999999999% de durabilidade • Redundância geográfica e replicação automática • Armazena dados em múltiplos data centers distribuídos em 3 AZs em uma mesma região • Permite replica dados facilmente de qualquer região
  • 22. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Data Lakes na AWS Data Lake on AWS AnalyticsMachine Learning Real-time Data Movement On-premises Data Movement Eficiente em custos Escalável e durável Seguro Aberto e abrangente
  • 23. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Camadas de armazenamento para otimizar Preço / Performance Eficiente em custos • Camadas de storage price/performance • S3 Standard • S3 Standard—Infrequent Access • S3 One Zone—Infrequent Access • Amazon Glacier • Migra entre camadas através de políticas de ciclo de vida de objetos • Armazene dados a $0.023/GB/mês com S3 • Armazene dados $0.004/GB/mês com Glacier S3 Standard S3 Standard Infrequent Access S3 One Zone-IA Glacier
  • 24. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Pague só pelos recursos utilizados enquanto escala Eficiente em custos • Pague o quanto consumir somente • Tão baixo quanto $0.05/GB escaneado com Athena • EMR e Athena podem escalar para baixo automaticamente quando completam um job, economizando recursos • Reserve uma instância quando tiver certeza que irá consumer e economize até 75% • Use capacidade ociosa com até 90% de desconto nas Spot Instances com EMR Tradicional: capacidade ociosa ou faltante Traditional: Rigid AWS: Elastic Capacity Demand Demand Servers Unmet demand upset players missed revenue Excess capacity wasted $$$ AWS : Paque pelo que usa
  • 25. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Menor “Total Cost of Ownership” (TCO) Eficiente em custos • Menos tempo gasto com administração e suporte • Sem custos up-front costs, aquisição ou instalaçao • Economia de custos operacionais – espaço em data center, power, cooling • Valor para o negócio: custo por atraso, habilidades competitivas, tempo de entrega etc. Licensing Fees Support Costs Subscription Fee Support Costs On-premises AWS Server Costs Hardware—Server, Rack, Chassis, PDUs, Tor Switches (+Maintenance) Software—OS, Virtualization Licenses (+Maintenance) Network Costs Network Hardware—LAN Switches, Load Balancer Bandwidth costs Software—Network Monitoring IT Labor Costs Server admin, virtualization admin, storage admin, network admin, support team Extras Project planning, advisors, legal, contractors, managed services, training, cost of capital
  • 26. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. • Visão Geral de Data Lake • Ingestão de Dados • Trabalhando com o Data Lake • Consumo do Lake - Análise, Visualização e Machine Learning • Demo Agenda
  • 27. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Ingestão de Dados no Data Lake Amazon SageMaker AWS Deep Learning AMIs Amazon Rekognition Amazon Lex AWS DeepLens Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Amazon Athena Amazon EMR Amazon Redshift Amazon Elasticsearch service Amazon Kinesis Amazon QuickSight Analytics Machine Learning AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS Storage Gateway AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams Real-time Data Movement On-premises Data Movement Data Lake on AWS Storage | Archival Storage | Data Catalog
  • 28. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Ingestão de Dados no Data Lake Movimentação de dados do Data Center local até AWS AWS Snowball, Snowball Edge and Snowmobile Escala de Petabyte e Exabyte de transporte de dados, usando appliances seguros para transferir grande volume de dados para a nuvem da AWS AWS Direct Connect Estabelece uma conexão de rede dedicada física do seu Data Center com a AWS; reduz custo de rede, aumenta largura de banda e prove uma experiência consistente e conhecida AWS Storage Gateway Permite que suas aplicações on-premises utilizem o Storage na AWS, utilizando uma transferência otimizada com baixo consume de banda com cache local AWS Database Migration Service Migra bases de dados comerciais ou Open Sources de maneira segura para AWS minimizando downtime e esforço
  • 29. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Ingestão de Dados no Data Lake Movimentação de Dados com fontes Real-time Amazon Kinesis Video Streams Streaming Seguro de video para AWS para analytics, machine learning (ML), e outros tipos de processamento Amazon Kinesis Data Firehose Captura, transforma, e carrega dados de stream para a AWS e disponibiliza no Data Lake para consumo analítico, de near realt- ime e ferramentas de business intelligence Amazon Kinesis Data Streams Construa aplicações analíticas para processar com frameworks conhecidos em real-time streams ou utilize Kinesis Data Analytics para funções prontas de agregação e análise AWS IoT Core Suporta bilhões de devices e trilhões de mensagens, pode processar e rotear as mensagens para diferentes serviços na AWS, com segurança e integração
  • 30. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Armazenamento Amazon SageMaker AWS Deep Learning AMIs Amazon Rekognition Amazon Lex AWS DeepLens Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Amazon Athena Amazon EMR Amazon Redshift Amazon Elasticsearch service Amazon Kinesis Amazon QuickSight Analytics Machine Learning AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS Storage Gateway AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams Real-time Data Movement On-premises Data Movement Data Lake on AWS Storage | Archival Storage | Data Catalog
  • 31. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon S3— Storage de Objetos Segurança e Compliance Três formas de criptografia em repouso; criptografia em trânsito;; log e monitoramento com CloudTrail, usa ML para descobrir e proteger dados sensíveis com Macie Gestão Flexível Classifique, gerencie, visualize o uso e tendências; objtos pode ser “tag” marcados para avaliar uso, custo, e segurança; implemente o ciclo de vida automático entre as camadas de storage Durabilidade, Disponibilidade & Escalabilidade Construído para 11 9’s de durabilidade, distribuído em 3 data centers distintos em uma mesma região; replicado internamente e replicado automaticamente para outra região Query in Place Rode queries analíticas sobre o Data Lake sem movimentar o dado; S3 Select pode explorer subset de dados
  • 32. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Glacier—Backup e Archive Durabilidade, Disponibilidade & Escalabilidade Construído para 11 9’s de durabilidade, distribuído em 3 data centers distintos em uma mesma região; replicado internamente e replicado automaticamente para outra região Seguro Log and monitor with CloudTrail, Vault Lock enables WORM storage capabilities, helping satisfy compliance requirements Recuperação em minutos Três opções de tempo recuperação de acordo com a necessidade de velocidade na recuperação Baixo Custo Menor custo na AWS permite arquivar petabytes de dados a um custo de USD$ 0.004 por gigabyte $
  • 33. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Armazenamento não é suficiente os dados precisam ser descobertos e catalogados Dark data are the information assets organizations collect, process, and store during regular business activities, but generally fail to use for other purposes (for example, analytics, business relationships and direct monetizing). CRM ERP Data warehouse Mainframe data Web Social Log files Machine data Semi- structured Unstructured “ ”Gartner IT Glossary, 2018 https://www.gartner.com/it-glossary/dark-data
  • 34. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS Glue—Data Catalog Faça descoberta dos seus dados • Descobre automaticamente dados e armazena o schema de forma centralizada e disponível • Catálogo deixa os dados disponíveis para ETL e catalogados através de metadados • Catálogo contém definições de tabelas e jobs • Calcula estatísticas para tornar as “queries” eficientes Glue Data Catalog Discover data and extract schema Compliance
  • 35. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. “Data Preparation” ~80% do trabalho Building training sets Cleaning and organizing data Collecting data sets Mining data for patterns Refining algorithms Other
  • 36. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS Glue— Serviço de ETL Faça o desenvolvimento e deploy de scripts de ETL simples • Gera códigos de ETL automaticamente • Códigos customizáveis em Python e Spark • Endpoints de desenvolvimento • Agendamento de jobs baseados em eventos • Serverless
  • 37. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. • Visão Geral de Data Lake • Ingestão de Dados • Trabalhando com o Data Lake • Consumo do Lake - Análise, Visualização e Machine Learning • Demo Agenda
  • 38. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Data Lakes, Analytics, e portifolio de ML na AWS Mais abrangente conjunto de serviços de analytics Amazon SageMaker AWS Deep Learning AMIs Amazon Rekognition Amazon Lex AWS DeepLens Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Amazon Athena Amazon EMR Amazon Redshift Amazon Elasticsearch service Amazon Kinesis Amazon QuickSight Analytics Machine Learning AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS Storage Gateway AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams Real-time Data Movement On-premises Data Movement Data Lake on AWS Storage | Archival Storage | Data Catalog
  • 39. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift—Data Warehousing Rápido para Escalar Armazenamento colunar, tecnologia que aumenta a eficiência de I/O e escala performance de query Seguro Auditoria; criptografia end-to-end; extensa lista de certificações de compliance Formato aberto de arquivos Analise dados em formatos otimizados com SSD, e formatos abertos no S3 Baixo custo $1,000 por terabyte por ano, 1/10th do custo dos DW tradicionais; comece com $0.25 por hora $
  • 40. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift Spectrum Estende o DW para exabytes de dados no Data Lake no S3 S3 data lakeRedshift data Redshift Spectrum query engine • Exabyte Redshift SQL queries sobre S3 • Join de dados com Redshift e S3 • Escala computação e storage de maneira separada • Escala a performance das queries e permite concorrência • Formatos CSV, ORC, Grok, Avro, & Parquet • Para somente pelo dado scaneado
  • 41. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon EMR— Processamento Big Data Baixo Custo Billing flexível por segundo, EC2 spot, reserved instances e auto-scaling para reduzir de 50–80% $ Fácil Lançar o cluster de Hadoop & Spark em minutos; totalmente automatizado, por APIs ou pela console Últimas versões Atualizado com a verão mais nova dos frameworks open sources em 30 dias do release Usa armazenamento do S3 Processa dados diretamente no S3 de forma segura e com altíssima performance usando EMRFS Data Lake 100110000100101011 100101010111001010 100000111100101100 101010001100001
  • 42. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Elasticsearch Service Fácil de usar Totalmente gerenciados; deploy em minutos Seguro Acesso Seguro pela VPC para manter o tráfego dentro de sua rede segura Padrão aberto Acesso direto à APIs open-source do Elasticsearch APIs; Suporta Logstash e Kibana Disponível Replica dados por duas AZs; monitora automaticamente e repõe nós que possam falhar $
  • 43. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Kinesis—Real Time Carrega dados de stream para o S3, RedShift, ElasticSearch ou Splunk Kinesis Data Firehose Constrói aplicações customizadas para análise de dados Kinesis Data Streams Capura, armazena, processa e armazena streaming de video para análises Kinesis Video Streams Analyze data streams with SQL Kinesis Data Analytics SQL
  • 44. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Athena—Análise interativa, exploratória Serviço de query interativa em dados no Amazon S3 usando SQL standard Sem infrastrutura para gerenciar, sem carga de dados Query instantânea Custo zero para setup; Aponte para o S3 e faça queries SQL Aberto Interface ANSI SQL, JDBC/ODBC drivers, múltiplos formatos, Joins complexos e data types Fácil Serverless: zero infrastrutura, zero administração Integrado com QuickSight Pague por query Paga somente pela execução; economia de 30–90% usando compressão $
  • 45. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. • Visão Geral de Data Lake • Ingestão de Dados • Trabalhando com o Data Lake • Consumo do Lake - Análise, Visualização e Machine Learning • Demo Agenda
  • 46. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon QuickSight Empoderamento Do usuário Conectividade Análises Rápidas Serverless
  • 47. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Data Lakes, Analytics, e Portifolio ML da AWS Mais abrangente conjunto de serviços de analytics Amazon SageMaker AWS Deep Learning AMIs Amazon Rekognition Amazon Lex AWS DeepLens Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Amazon Athena Amazon EMR Amazon Redshift Amazon Elasticsearch service Amazon Kinesis Amazon QuickSight Analytics Machine Learning AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS Storage Gateway AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams Real-time Data Movement On-premises Data Movement Data Lake on AWS Storage | Archival Storage | Data Catalog
  • 48. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon SageMaker Maneira mais rápida e fácil de colocar modelos de Machine Learning em produção Zero setup Modelo flexível de treinamento Plataforma End-to- End Machine Learning Pago por segundo $
  • 49. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS Deep Learning AMI
  • 50. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. More Data Lakes & Analytics on AWS than Anywhere Else
  • 51. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Airbnb is a community marketplace that allows property owners and travelers to connect with each other. Challenge: Grows data 3x every year with PBs of data stored. Use Hadoop/HDFS, but experienced bottlenecks in performance and high costs. Solution: • Created a tiered storage system: Land hot data in HDFS, and all warm/cold data in S3 data lake • S3 provides infinite storage at lower costs
  • 52. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Airbnb Uses AWS for data lake and analytics • Land hot data in HDFS • Warm/cold data in S3 • Brings the best of both— performance, scalability, cost • Analyze data with Hive, Presto, Spark, etc. Hive on EMR HDFS Cluster S3 Spark on EMR Presto on EMR
  • 53. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. FINRA oversees > 3,000 securities firms doing business in the United States. Challenge: FINRA’s legacy system did not scale well • Up to 75 billion events per day • Run complex surveillance queries over 20+ PB of data Solution: • Migrated their big data appliance to a S3 Data Lake and used EMR for ingestion and processing • Migrated to RDS and testing Aurora
  • 54. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. FINRA uses S3 to Build Data Lake with EMR • Required fast access across trillions of trade records (20PB+) • Migrated from on-premises system • Use Apache HBase on Amazon EMR to store and serve this data • Use EMR engines— Spark, Presto, and Hive to process data • Lower costs by 60% over on-premises system Spark on EMR Presto on EMR Hive on EMR S3 Herd Metastore HBase on EMR
  • 55. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. • Visão Geral de Data Lake • Ingestão de Dados • Trabalhando com o Data Lake • Consumo do Lake - Análise, Visualização e Machine Learning • Demo Agenda
  • 56. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Demo
  • 57. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Data Lakes, Analytics, e ML na AWS Mais abrangente conjunto de serviços de analytics Amazon SageMaker AWS Deep Learning AMIs Amazon Rekognition Amazon Lex AWS DeepLens Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Amazon Athena Amazon EMR Amazon Redshift Amazon Elasticsearch service Amazon Kinesis Amazon QuickSight Analytics Machine Learning AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams Real-time Data Movement On-premises Data Movement Data Lake on AWS Storage | Archival Storage | Data Catalog
  • 58. © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Obrigado