Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
Combate a Fraude com Cloudera
Everton Fernandes
Gerente de Soluções Emergentes
everton.fernandes@compwire.com.br
Paulo Con...
Sobre
Estado do Mato Grosso
Localizado no Centro Oeste do Brasil
População de 3,4 Milhões de Habitantes
141 Municípios
Eco...
Volume de Dados de NFe
Volume Atual
NF-e
1 Milhão Diário
30 Milhões Mensais
Histórico
NF-e
18 Milhões
50 Bilhões de
Itens ...
Problema: Relatório de Agregação
Tabelas
Oracle
Bilhões de itens de NFe e
NFc armazendos em tabelas
na Database Relacional...
Cluster para POC
• Hardware do Cluster Hadoop de POC;
3 Servidores x86;
24 Cores no Total do Cluster;
96GB de Memória n...
Ferramentas Utilizadas na POC
Carregamento 1 Ano ~ 5hs
Produto_servico t_Produto_servico
Consumidor
Oracle
Sqoop
t_Consumidor
Normalização/Ingestão ~ 24 hs
Consumidor
Produto_servico
t_Consumidor
t_Produto_servico
HQL
HQL
Resultados da POC
Tabelas
Relatório Anual
Relatório Mensal
2 Horas
1 Hora
Mensal
25 Milhões de XML
125 Milhões de Itens
An...
Agora, em Produção...
Cluster de Produção
NN1 NN2 HA Edge
Rede 1Gbp/s
DN1 DN2 DN3 DN4 DN5 DN6
• Hardware do Cluster Hadoop de POC;
10 Servidore...
Cluster de Produção
• Agora podemos usar o Impala!
• Carregamos e ingerimos todo o Histórico 2007 – 2017 em 3 dias!
Resultados em Produção
Tabelas
Relatório Anual
Relatório Mensal
Mensais de todas as
Nfes de 2007 a 2017
9 Minutos
1 Minuto...
Aprofundando a Utilização da Solucão para Prevenção e Combate a
Fraudes…
Case 1 Prevenção de Fraude: Identificar Empresas contribuintes com
faturamento incompatível
Enquadramento do
Simples Nacio...
Case 2 Fraude de NFe: Localizar Empresas que emitem NFe frias
Empresas Falsas Documentos
Fraudados
Empresa Falsa 1 Empresa Falsa 2 Empresa Falsa N
...
Case 2 Fraude de NFe: Localizar Empresas que emitem NFe frias
Problema: Fraudadores mais ágeis do que a análise!
Suspeita de Fraude! Análise
Quais?
Onde?
Auditor Fiscal
Suspeita de Fraude! Análise
Auditor Fiscal
Problema: Fraudadores mais ágeis do que a análise!
Suspeita de Fraude! Análise
Auditor Fiscal
Mudança Física de Endereço
Problema: Fraudadores mais ágeis do que a análise!
Solução Implementada
NFe Item
Ref1 Ref2 RefN
Tabelas Database Relacional Tabelas Impala MPP
DB
NFe Item
Ref1 Ref2 RefN
• C...
Case 1: Calculo de Enquadramento Resolvido!
Base de Dados NFCe
Consolidada na Plataforma
de Analytics
Calculos rápidos do
...
Como Localizar Fraudadores
• Quais Nfes São Fraudes?
• Ação Manual com Heurísitica Fuzzy (feeling do auditor) + Análise de...
Como Localizar Fraudadores
• Onde?
• Informações da NFe
• Nome Empresa = Donos Fakes!
• Endereço = Fake!
• Hora da Emissão...
Ingerindo outros dados de outras origens…
NFe Item
Ref1 Ref2 RefN
Tabelas Database Relacional Tabelas Impala MPP
DB
NFe It...
Case 2: Fraudadores Localizados em poucos minutos!
Base de Dados NFe
Acessos do log Tomcat
NFe Suspeitas
Endereço IPs Susp...
Próximos Passos
• Implementar a lógica de separação de casos via Machine Learning
utilizando Spark Mlib.
• Implementar aná...
Resumo
• Ganhos Reais em Analytics
• Cruzamento de dados em um Data Lake permitiu viabilizar novas
estratégias de Analytic...
Relato do Cliente
“Com o poder de processamento e cruzamento dos dados da solução cloudera
foi possível ajudar os auditore...
Contatos
• Especialista Big Data – Compwire – Paulo Contopoulos:
paulo.contopoulos@compwire.com.br
• Gerente Novas Iniciat...
Prochain SlideShare
Chargement dans…5
×

Combate a fraude com Cloudera - Estado do Mato Grosso

254 vues

Publié le

Nesta apresentação, aprede como o Estado do Mato Grosso esta utilizando Cloudera para combater a fraude pelas empresas.
(Translated)
In this presentation, learn how the State of Mato Grosso, Brazil, is using Cloudera to combate fraud by local companies.

Publié dans : Données & analyses
  • Soyez le premier à commenter

Combate a fraude com Cloudera - Estado do Mato Grosso

  1. 1. Combate a Fraude com Cloudera Everton Fernandes Gerente de Soluções Emergentes everton.fernandes@compwire.com.br Paulo Contopoulos Especialista em Big Data paulo.contopoulos@compwire.com.br
  2. 2. Sobre Estado do Mato Grosso Localizado no Centro Oeste do Brasil População de 3,4 Milhões de Habitantes 141 Municípios Economia baseada na Agropecuário principalmente na Produção de Soja e Criação de Gado Secretaria de Estado de Fazenda do Mato Grosso Localizada na Capital em Cuiabá Área de Atuação e Atribuição: Gestão Operacional de Mercadorias em trânsito, através do controle de fronteiras e da fiscalização de mercadorias, bens e serviços.
  3. 3. Volume de Dados de NFe Volume Atual NF-e 1 Milhão Diário 30 Milhões Mensais Histórico NF-e 18 Milhões 50 Bilhões de Itens de NFe
  4. 4. Problema: Relatório de Agregação Tabelas Oracle Bilhões de itens de NFe e NFc armazendos em tabelas na Database Relacional do AmbienteRelatórios de agregação Anual Relatórios de Agregação Mensal
  5. 5. Cluster para POC • Hardware do Cluster Hadoop de POC; 3 Servidores x86; 24 Cores no Total do Cluster; 96GB de Memória no Total do Cluster; 12 Discos SATA no Total do Cluster; Rede Ethernet Gigabit; Grajaú 01 DN 02 DN 03Ethernet Gigabit DN 01
  6. 6. Ferramentas Utilizadas na POC
  7. 7. Carregamento 1 Ano ~ 5hs Produto_servico t_Produto_servico Consumidor Oracle Sqoop t_Consumidor
  8. 8. Normalização/Ingestão ~ 24 hs Consumidor Produto_servico t_Consumidor t_Produto_servico HQL HQL
  9. 9. Resultados da POC Tabelas Relatório Anual Relatório Mensal 2 Horas 1 Hora Mensal 25 Milhões de XML 125 Milhões de Itens Anual 300 Milhões de XML 1,5 Bilhões de Itens
  10. 10. Agora, em Produção...
  11. 11. Cluster de Produção NN1 NN2 HA Edge Rede 1Gbp/s DN1 DN2 DN3 DN4 DN5 DN6 • Hardware do Cluster Hadoop de POC; 10 Servidores x86 (4 Manager Nodes); 72 Cores no Total do Cluster; 768GB de Memória no Total do Cluster; 72 Discos SATA no Total no Total do Cluster; Rede Ethernet Gigabit;
  12. 12. Cluster de Produção • Agora podemos usar o Impala! • Carregamos e ingerimos todo o Histórico 2007 – 2017 em 3 dias!
  13. 13. Resultados em Produção Tabelas Relatório Anual Relatório Mensal Mensais de todas as Nfes de 2007 a 2017 9 Minutos 1 Minuto 25 Milhões de XML 125 Milhões de Itens
  14. 14. Aprofundando a Utilização da Solucão para Prevenção e Combate a Fraudes…
  15. 15. Case 1 Prevenção de Fraude: Identificar Empresas contribuintes com faturamento incompatível Enquadramento do Simples Nacional R$ 3.6 Milhões Empresas fora do Enquadramento do Simples Nacional Benefícios do Simples Nacional Acima de R$ 3.6 Milhões
  16. 16. Case 2 Fraude de NFe: Localizar Empresas que emitem NFe frias Empresas Falsas Documentos Fraudados
  17. 17. Empresa Falsa 1 Empresa Falsa 2 Empresa Falsa N ... Case 2 Fraude de NFe: Localizar Empresas que emitem NFe frias
  18. 18. Problema: Fraudadores mais ágeis do que a análise! Suspeita de Fraude! Análise Quais? Onde? Auditor Fiscal
  19. 19. Suspeita de Fraude! Análise Auditor Fiscal Problema: Fraudadores mais ágeis do que a análise!
  20. 20. Suspeita de Fraude! Análise Auditor Fiscal Mudança Física de Endereço Problema: Fraudadores mais ágeis do que a análise!
  21. 21. Solução Implementada NFe Item Ref1 Ref2 RefN Tabelas Database Relacional Tabelas Impala MPP DB NFe Item Ref1 Ref2 RefN • Carregamento inicial de Nfe de 2002 a 2017 • Entrada diária de dados, via sqoop incremental, duração de poucos minutos
  22. 22. Case 1: Calculo de Enquadramento Resolvido! Base de Dados NFCe Consolidada na Plataforma de Analytics Calculos rápidos do Enquadramento de Faturamento+ = Controle de Faturamento das Empresas Auditor Fiscal
  23. 23. Como Localizar Fraudadores • Quais Nfes São Fraudes? • Ação Manual com Heurísitica Fuzzy (feeling do auditor) + Análise de dados via queries dos casos suspeitos.
  24. 24. Como Localizar Fraudadores • Onde? • Informações da NFe • Nome Empresa = Donos Fakes! • Endereço = Fake! • Hora da Emissão – Via Sistema, OK!
  25. 25. Ingerindo outros dados de outras origens… NFe Item Ref1 Ref2 RefN Tabelas Database Relacional Tabelas Impala MPP DB NFe Item Ref1 Ref2 RefN Tabelas Hive AcessosLogs Acessos
  26. 26. Case 2: Fraudadores Localizados em poucos minutos! Base de Dados NFe Acessos do log Tomcat NFe Suspeitas Endereço IPs Suspeitos+ = Empresas Fraudulentas Busca e Apreensão Auditor Fiscal
  27. 27. Próximos Passos • Implementar a lógica de separação de casos via Machine Learning utilizando Spark Mlib. • Implementar análises de fraude em Streaming utilizando Spark + Flume.
  28. 28. Resumo • Ganhos Reais em Analytics • Cruzamento de dados em um Data Lake permitiu viabilizar novas estratégias de Analytics • Agilidade que o Data Lake trouxe permitiu controlar os faturamentos e surpreender fruadadores de NFe
  29. 29. Relato do Cliente “Com o poder de processamento e cruzamento dos dados da solução cloudera foi possível ajudar os auditores fiscais da SEFAZ a identificar contribuintes com faturamento incompatível ao seu enquadramento de Microempresa de forma muito rápida. Uma atividade que demorava semanas para ser finalizada, agora pode ser executada em menos de 10 minutos.” Ricardo Crudo Coordenador de Tecnologia da Informação Secretária da Fazendo do Mato Grosso
  30. 30. Contatos • Especialista Big Data – Compwire – Paulo Contopoulos: paulo.contopoulos@compwire.com.br • Gerente Novas Iniciativas – Compwire – Everton Fernandes: everton.fernantes@compwire.com.br • Especialista Cloudera - Claudio Takamiya ct@cloudera.com

×