SlideShare une entreprise Scribd logo
1  sur  44
Télécharger pour lire hors ligne
ANALISADOR DE DADOS
AUTOMATIZADO UTILIZANDO
MACHINE LEARNING
Eiti Kimura
DevFest Agosto 19
com Apache Spark
1
● IT Coordinator and Software Architect at Movile
● Msc. in Electrical Engineering
● Apache Cassandra MVP (2014/2015 e 2015/2016)
● Cassandra Summit Speaker (2014 e 2015)
● Strata Hadoop World Singapore Speaker (2016)
● Spark Summit Speaker (2017)
● RedisConf Speaker (2018)
Eiti Kimura
eitikimura
2
3
+1 Bilhão
De mensagens por mês
4
13140-580
40199
Alerta SMS Defesa Civil
Gratuito!
13140-580
40199
Cadastro realizado com
sucesso. Você receberá
alertas de chuvas e
tempestades.
13140-580
40199
Cadastro realizado com
sucesso. Você receberá
alertas de chuvas e
tempestades.
13140-580
40199
Defesa civil informa:
Chuvas fortes e raios na
região, Campinas e
Paulínia. Evite lugares
abertos busque abrigo.
Não arrisque sua vida.
Cadastro realizado com
sucesso. Você receberá
alertas de chuvas e
tempestades.
BALANCE
INFORMATION
Account: X3254
Balance: $1,564.20
100852
A deposit of $95.00
was made to your
account on April
23th at 7:59pm.
Your balance is:
$1,659.20. Text
STOP to cancel or
HELP for more
information.
O que veremos hoje?
Caso do sistema de tarifação
Introdução sobre o sistema distribuído para tarifação de usuários
dos nossos produtos
Análise de dados
Analisando os dados de tentativas de tarifação com as operadoras,
consolidando
Solução usando aprendizado de máquina
Criando uma analisador de dados automático usando técnicas de
aprendizado de máquina e treinamento do modelo com Apache Spark
Resultados do projeto
Sistema de Tarifação e Controle de Assinaturas
SBS
11
ENTRADA
12
PROCESSAMENTO
13
SAÍDA / VISUALIZAÇÃO
14
Arquitetura simplificada plataforma de tarifação
15
Desafio: Monitoramento
Como verificar se a plataforma está
integralmente funcional baseado
somente em análise de dados?
Que tal pedir ajuda a um sistema inteligente?
16
Análise de dados por volumetria
● + 150 Milhões de tentativas de tarifação por dia
● 4 operadoras principais no Brasil que geram os dados
17
Entendendo o problema
18
Amostra dos dados (previsão do número de sucessos)
featureslabel/target
# success carrier_weight hour week response_time #no_credit #errors # attempts
61.083, [4.0, 17h, 3.0, 1259.0, 24.751.650, 2.193.67, 26.314.551]
APRENDIZADO SUPERVISIONADO
Regressão Linear
Padrões de tentativas de tarifação
19
Feature Engineering
É o processo de usar o domínio do conhecimento
dos dados para criar novos atributos para que os
algoritmos de aprendizado de máquina possam
funcionar com melhor desempenho.
20
Diferença de Padrões por semana
21
Apache Spark é um motor de análise
unificado para processamento de dados distribuídos em
larga escala.
22
Fluxo de Treinamento do Modelo
23
Training Data
Testing Data
Feature
Extraction
Train
Score
Model
Evaluation
Dataset
24
http://spark-notebook.io/
SPARK NOTEBOOK
DEMO
Avaliando resultado dos Modelos
25
Machine Learning Tested Model Accuracy RMSE
Lasso with SGD Model 35% 0.32
Ridge Regression with SGD Model 87.5% 0.13
Elastic Net with SGD Model 35% 0.32
Decision Tree Model 93.4% 0.05
Watcher-ai
26
Olá, eu sou Watcher-ai muito
prazer!
27
Watcher-ai Treinamento dos Modelos
28
Watcher-ai utilização dos modelos
29
Watcher-ai fazendo as previsões
30
Watcher-ai canais de notificação
31
Watcher-ai Architecture
32
Lições Aprendidas
● Tentar prever e controlar os dados de séries temporais
usando simples limiares não funcionaram bem no
passado devido a fatores externos
● Nós evitamos (removemos) análises e controles
baseados em limiares fixos baseados em desvios
padrão, por exemplo
Questão com Séries Temporais
33
Porque mudamos de RDD para Dataframe?
34
RDD
(2011)
DataFrame
(2013)
coleção distribuída
de objetos na JVM
operadores
funcionais (map,
filter, etc)
coleção de objetos Row
distribuídos
Planos de execução e
otimização
Representação de dados
internos de forma
eficiente
Mudança de desempenho de RDD para Dataframe
● É possível implementar mais facilmente técnicas de grid-search
● Código menor, mais legível, mais simples de fazer debug, aumento de
desempenho considerável
35
Sobre os modelos treinados
36
● criar um modelo único não
funcionou
● cada operadora tem um
comportamento específico
● foi preciso criar um modelo
diferente para cada operadora
Padrões de sucesso na tarifação distintos por operadora
37
CARRIER 1
CARRIER 2
CARRIER 4
CARRIER 5
38
Resultados Obtidos
Registro de Alertas Enviados
39
CARRIER 1
CARRIER 2
CARRIER 4
CARRIER 5
40
CARRIER 1
CARRIER 2
CARRIER 4
CARRIER 5
Notificações no Slack
41
2
42
Evitamos perda de receita
> U$ 2M dólares
economia de mais de
500 horas de trabalho
Tempo de detecção de
problemas caiu de 6 horas
para 1 hora
● Prevenção de queda de receita
● Um dos sistemas principais de monitoramento
● Caso de uso de sucesso de Machine Learning
● Solução simples usando o Apache Spark
Resultados Obtidos
43
Obrigado
Perguntas?
github.com/eitikimura/qconsp-18
eitikimura

Contenu connexe

Similaire à Eiti Kimura - Analisador de dados automatizado utilizando machine learning

Similaire à Eiti Kimura - Analisador de dados automatizado utilizando machine learning (20)

IA e Aplicação em Logística na ArcelorMittal Brasil - UFABC e UFSCar
IA e Aplicação em Logística na ArcelorMittal Brasil - UFABC e UFSCarIA e Aplicação em Logística na ArcelorMittal Brasil - UFABC e UFSCar
IA e Aplicação em Logística na ArcelorMittal Brasil - UFABC e UFSCar
 
ABC da Aprendizagem de Máquinas
ABC da Aprendizagem de MáquinasABC da Aprendizagem de Máquinas
ABC da Aprendizagem de Máquinas
 
Integrando Azure Machine Learning na prática
Integrando Azure Machine Learning na práticaIntegrando Azure Machine Learning na prática
Integrando Azure Machine Learning na prática
 
Big Data como Serviço: da captura à visualização de dados com alto desempenho
Big Data como Serviço: da captura à visualização de dados com alto desempenhoBig Data como Serviço: da captura à visualização de dados com alto desempenho
Big Data como Serviço: da captura à visualização de dados com alto desempenho
 
Application insights + ASP.NET Core
Application insights + ASP.NET CoreApplication insights + ASP.NET Core
Application insights + ASP.NET Core
 
Clientes Splunk Brasil
Clientes Splunk BrasilClientes Splunk Brasil
Clientes Splunk Brasil
 
Mainframe Performance Review
Mainframe Performance ReviewMainframe Performance Review
Mainframe Performance Review
 
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
 
Vtex - Splunk live! 2014 São Paulo
Vtex - Splunk live! 2014 São Paulo Vtex - Splunk live! 2014 São Paulo
Vtex - Splunk live! 2014 São Paulo
 
VTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São PauloVTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São Paulo
 
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
 
Entrega Contínua aplicada a Machine Learning
Entrega Contínua aplicada a Machine LearningEntrega Contínua aplicada a Machine Learning
Entrega Contínua aplicada a Machine Learning
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?
 
PIF2019 - A10 - Henrique Eduardo Souza e Vinícius Biscolla - Rakkun
PIF2019 - A10 - Henrique Eduardo Souza e Vinícius Biscolla - RakkunPIF2019 - A10 - Henrique Eduardo Souza e Vinícius Biscolla - Rakkun
PIF2019 - A10 - Henrique Eduardo Souza e Vinícius Biscolla - Rakkun
 
Matando web forms e modernizando um grande varejista
Matando web forms e modernizando um grande varejistaMatando web forms e modernizando um grande varejista
Matando web forms e modernizando um grande varejista
 
Estaleiro o uso de kubernetes no serpro
Estaleiro   o uso de kubernetes no serproEstaleiro   o uso de kubernetes no serpro
Estaleiro o uso de kubernetes no serpro
 
AutomationEdge Quality Nextech
AutomationEdge Quality NextechAutomationEdge Quality Nextech
AutomationEdge Quality Nextech
 
5 dicas para estruturar seu teste de performance
5 dicas para estruturar seu teste de performance5 dicas para estruturar seu teste de performance
5 dicas para estruturar seu teste de performance
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
Premier IT Produtividade em Foco
Premier IT Produtividade em FocoPremier IT Produtividade em Foco
Premier IT Produtividade em Foco
 

Plus de DevCamp Campinas

Dylan Butler & Oliver Hager - Building a cross platform cryptocurrency app
Dylan Butler & Oliver Hager - Building a cross platform cryptocurrency appDylan Butler & Oliver Hager - Building a cross platform cryptocurrency app
Dylan Butler & Oliver Hager - Building a cross platform cryptocurrency app
DevCamp Campinas
 
Thaissa Bueno - Implantando modelos Deep Learning em cluster Kubernetes com G...
Thaissa Bueno - Implantando modelos Deep Learning em cluster Kubernetes com G...Thaissa Bueno - Implantando modelos Deep Learning em cluster Kubernetes com G...
Thaissa Bueno - Implantando modelos Deep Learning em cluster Kubernetes com G...
DevCamp Campinas
 
Gabriel Pacheco e Felipe Cardoso - Nextel + React Native: Lições aprendidas a...
Gabriel Pacheco e Felipe Cardoso - Nextel + React Native: Lições aprendidas a...Gabriel Pacheco e Felipe Cardoso - Nextel + React Native: Lições aprendidas a...
Gabriel Pacheco e Felipe Cardoso - Nextel + React Native: Lições aprendidas a...
DevCamp Campinas
 
Everton Gago - Ciência de Dados: O melhor caminho para alinhar o produto com ...
Everton Gago - Ciência de Dados: O melhor caminho para alinhar o produto com ...Everton Gago - Ciência de Dados: O melhor caminho para alinhar o produto com ...
Everton Gago - Ciência de Dados: O melhor caminho para alinhar o produto com ...
DevCamp Campinas
 
Bárbara Silveira e Giovanna Victorino - Desenvolva também para TVs (AppleTV e...
Bárbara Silveira e Giovanna Victorino - Desenvolva também para TVs (AppleTV e...Bárbara Silveira e Giovanna Victorino - Desenvolva também para TVs (AppleTV e...
Bárbara Silveira e Giovanna Victorino - Desenvolva também para TVs (AppleTV e...
DevCamp Campinas
 
Eduardo Merighi - Escalabilidade tecnológica de uma fintech: como a Neon faz?
Eduardo Merighi - Escalabilidade tecnológica de uma fintech: como a Neon faz?Eduardo Merighi - Escalabilidade tecnológica de uma fintech: como a Neon faz?
Eduardo Merighi - Escalabilidade tecnológica de uma fintech: como a Neon faz?
DevCamp Campinas
 

Plus de DevCamp Campinas (20)

Dylan Butler & Oliver Hager - Building a cross platform cryptocurrency app
Dylan Butler & Oliver Hager - Building a cross platform cryptocurrency appDylan Butler & Oliver Hager - Building a cross platform cryptocurrency app
Dylan Butler & Oliver Hager - Building a cross platform cryptocurrency app
 
Thaissa Bueno - Implantando modelos Deep Learning em cluster Kubernetes com G...
Thaissa Bueno - Implantando modelos Deep Learning em cluster Kubernetes com G...Thaissa Bueno - Implantando modelos Deep Learning em cluster Kubernetes com G...
Thaissa Bueno - Implantando modelos Deep Learning em cluster Kubernetes com G...
 
Gabriel Pacheco e Felipe Cardoso - Nextel + React Native: Lições aprendidas a...
Gabriel Pacheco e Felipe Cardoso - Nextel + React Native: Lições aprendidas a...Gabriel Pacheco e Felipe Cardoso - Nextel + React Native: Lições aprendidas a...
Gabriel Pacheco e Felipe Cardoso - Nextel + React Native: Lições aprendidas a...
 
Everton Gago - Ciência de Dados: O melhor caminho para alinhar o produto com ...
Everton Gago - Ciência de Dados: O melhor caminho para alinhar o produto com ...Everton Gago - Ciência de Dados: O melhor caminho para alinhar o produto com ...
Everton Gago - Ciência de Dados: O melhor caminho para alinhar o produto com ...
 
Bárbara Silveira e Giovanna Victorino - Desenvolva também para TVs (AppleTV e...
Bárbara Silveira e Giovanna Victorino - Desenvolva também para TVs (AppleTV e...Bárbara Silveira e Giovanna Victorino - Desenvolva também para TVs (AppleTV e...
Bárbara Silveira e Giovanna Victorino - Desenvolva também para TVs (AppleTV e...
 
Leonardo Zamariola - High Order Functions e Functional Interfaces
Leonardo Zamariola - High Order Functions e Functional InterfacesLeonardo Zamariola - High Order Functions e Functional Interfaces
Leonardo Zamariola - High Order Functions e Functional Interfaces
 
Lara Rejane - Gestão ágil de pessoas
Lara Rejane - Gestão ágil de pessoasLara Rejane - Gestão ágil de pessoas
Lara Rejane - Gestão ágil de pessoas
 
Eduardo Merighi - Escalabilidade tecnológica de uma fintech: como a Neon faz?
Eduardo Merighi - Escalabilidade tecnológica de uma fintech: como a Neon faz?Eduardo Merighi - Escalabilidade tecnológica de uma fintech: como a Neon faz?
Eduardo Merighi - Escalabilidade tecnológica de uma fintech: como a Neon faz?
 
Erick Zanardo - Desenvolvimento de Jogos em Flutter
Erick Zanardo - Desenvolvimento de Jogos em FlutterErick Zanardo - Desenvolvimento de Jogos em Flutter
Erick Zanardo - Desenvolvimento de Jogos em Flutter
 
Davi Silva e Izabela Amaral - Oferecendo soluções de negócio mais assertivas ...
Davi Silva e Izabela Amaral - Oferecendo soluções de negócio mais assertivas ...Davi Silva e Izabela Amaral - Oferecendo soluções de negócio mais assertivas ...
Davi Silva e Izabela Amaral - Oferecendo soluções de negócio mais assertivas ...
 
Andre Fossa - Reinventando a Nextel: como a transformação digital ajudou a qu...
Andre Fossa - Reinventando a Nextel: como a transformação digital ajudou a qu...Andre Fossa - Reinventando a Nextel: como a transformação digital ajudou a qu...
Andre Fossa - Reinventando a Nextel: como a transformação digital ajudou a qu...
 
Alceu Bravo - Intraempreendedorismo – desafios da inovação para quem tem base...
Alceu Bravo - Intraempreendedorismo – desafios da inovação para quem tem base...Alceu Bravo - Intraempreendedorismo – desafios da inovação para quem tem base...
Alceu Bravo - Intraempreendedorismo – desafios da inovação para quem tem base...
 
Fábio Lima Santos - Desenhando aplicações que evoluem
Fábio Lima Santos - Desenhando aplicações que evoluemFábio Lima Santos - Desenhando aplicações que evoluem
Fábio Lima Santos - Desenhando aplicações que evoluem
 
João Emilio Santos Bento da Silva - Estratégia de APIs
João Emilio Santos Bento da Silva - Estratégia de APIsJoão Emilio Santos Bento da Silva - Estratégia de APIs
João Emilio Santos Bento da Silva - Estratégia de APIs
 
José Guedes - Como encaramos quando as coisas dão errado
José Guedes - Como encaramos quando as coisas dão erradoJosé Guedes - Como encaramos quando as coisas dão errado
José Guedes - Como encaramos quando as coisas dão errado
 
Rafael Calsaverini - Inteligência Artificial para recrutar pessoas – Tecnolog...
Rafael Calsaverini - Inteligência Artificial para recrutar pessoas – Tecnolog...Rafael Calsaverini - Inteligência Artificial para recrutar pessoas – Tecnolog...
Rafael Calsaverini - Inteligência Artificial para recrutar pessoas – Tecnolog...
 
Isac Sacchi e Souza - Migrando uma infraestrutura mutável para imutável e Kub...
Isac Sacchi e Souza - Migrando uma infraestrutura mutável para imutável e Kub...Isac Sacchi e Souza - Migrando uma infraestrutura mutável para imutável e Kub...
Isac Sacchi e Souza - Migrando uma infraestrutura mutável para imutável e Kub...
 
Ingrid Barth - Blockchain, Criptomoedas e a nova maneira de entender o dinheiro
Ingrid Barth - Blockchain, Criptomoedas e a nova maneira de entender o dinheiroIngrid Barth - Blockchain, Criptomoedas e a nova maneira de entender o dinheiro
Ingrid Barth - Blockchain, Criptomoedas e a nova maneira de entender o dinheiro
 
Igor Hjelmstrom Ribeiro - Bitcoin: desafios de segurança frente à ataques de...
Igor Hjelmstrom Ribeiro -  Bitcoin: desafios de segurança frente à ataques de...Igor Hjelmstrom Ribeiro -  Bitcoin: desafios de segurança frente à ataques de...
Igor Hjelmstrom Ribeiro - Bitcoin: desafios de segurança frente à ataques de...
 
Fabio De Santi e Thiago Urtaran - Smart cities: um caso real, a arquitetura d...
Fabio De Santi e Thiago Urtaran - Smart cities: um caso real, a arquitetura d...Fabio De Santi e Thiago Urtaran - Smart cities: um caso real, a arquitetura d...
Fabio De Santi e Thiago Urtaran - Smart cities: um caso real, a arquitetura d...
 

Dernier

Dernier (6)

Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 

Eiti Kimura - Analisador de dados automatizado utilizando machine learning