SlideShare une entreprise Scribd logo
1  sur  16
Introdução
Objetivo
Estrutura de Prevenção a Fraude
Metodologia de Análise
Resultados Preliminares
Considerações
Objetivo
Este estudo tem o objetivo de demonstrar as potencialidades das
metodologias e tecnologias em análise de dados para suportar processos
inteligentes nas áreas reguladoras do cliente (órgão do Governo Federal).
Sendo assim, foi definido o seguinte cenário de análise de modelagem
estatística:
Identificar, a partir de denúncias de
irregularidade em processos de
benefício social, o potencial de
fraude que resultem em operação
da Polícia Federal.
Estrutura de Prevenção a Fraude
Os Instrumentos na Prevenção a Fraude
Processos
Procedimentos
Políticas
Indicadores
Modelagem
Estatística
MIS
Management Information System
Metodologia de Análise
Metodologia de Análise
Quantidade Total de Dados Trabalhados na Operação Analítica
Denúncias arquivadas
Denúncias que geraram
Operação da PF
Denúncias em aberto
Metodologia de Análise
Tomamos todas as denúncias desde 2006, cerca 12.900, e definimos:
Success
Denúncias que geraram operação da Polícia Federal;
Unsuccess
Denúncias arquivadas que não geraram operação da Polícia Federal; e
Excluded
Denúncias não-arquivadas e que não gerou conhecimento.
Separamos todas as
denúncias Excluded,
ignorando-as para efeito de
modelagem estatística por
um instante.
Buscamos criar um modelo
que interprete o fenômeno
“Denúncia que gera uma
Operação” a partir de todos
os casos de Success e
Unsuccess.
Metodologia de Análise
Fase 1 – Preparação da Base de Dados
Trainning
Separamos 60% da base dos anos de 2006 a 2010 para construir os
modelos estatísticos.
Test
Separamos 40% da base dos anos de 2006 a 2010 para testar a
qualidade e acurácia dos modelos estatísticos.
Forecast Controlled Base
Separamos todas as denúncias Success e Unsuccess de 2011, na
intenção de prever o resultado de ocorrências arquivadas.
Forecast Uncontrolled Base
Por fim, aplicamos o melhor modelo nas denúncias não-arquivadas
(Excluded) de 2011. Geramos uma amostra de 33 denúncias que foram
classificadas como Success e Unsuccess para avaliação das equipes de
investigação.
Metodologia de Análise
Fase 2 – Metodologia de Modelagem Estatística
Text Mining
Gerar um conjunto de Palavras significantes para interpretar o conteúdo dos textos
de denúncias. O resultado é uma tabela com Palavras comuns e importantes e
suas quantidades em cada denúncia. A solução STATISTICA Text Mining
identificou cerca de 340 palavras importantes. A equipe de negócio selecionou
152 palavras relevantes para análise.
Metodologia de Análise
Fase 2 – Metodologia de Modelagem Estatística
Tipos de Modelos
Os modelos utilizados focam Classificação, desta forma, eles buscam a melhor
função, algoritmo ou conjunto de regras matemáticas que discriminem Success e
Unsuccess. Se esse modelo existir, ele deve ser capaz de separar, a partir das
variáveis (Palavras contidas nas denúncias), com forte acurácia (acima de 75%)
Statistical Modelling
Discriminant Analysis
Logistic Regression
Decision Trees
C&RT
Random Forest
Machine Learning
Suport Vector Machine
Artificial Intelligence
Neural Network
Resultados Preliminares
Resultados Preliminares
O algoritmo matemático que melhor classificou o fenômeno foi C&RT Decision
Tree, uma opção de machine learning.
Training
Forecast
2011
Testing
2011
Testing
68,5%
69,4%
72,9%
Conclusão
Conclusão
O modelo não considera ajustes finos na construção do léxico deste
trabalho ou, ainda, uma estrutura semântica; portanto, tais ajustes
poderiam incorporar melhoria significativa na acurácia do modelo.
Além disso, não foi considerado: segmentação de gerências com mais
impacto de processos fraudulentos; correlações entre denúncias; limpeza
de informações contendo denúncias infundadas; blending models.
Considerando o curto espaço de tempo, decidiu-se focar em resultados de
impacto direto na performance de operações; no entanto, as
possibilidades de soluções inteligentes nos processos internos constituem
ganhos significativos no melhor desempenho da área gestora do processo.
Os modelos estatísticos (Regressão Logística, Análise Discriminante,
Análise de Componentes Principais, Análise de Agrupamentos e outros)
poderiam sugerir outros caminhos analíticos e fomentar novos insights.
Facebook.com/iminersolutions
twitter.com/iminersolutions
iminer@iminer.com.br
+55 11 3996 4226

Contenu connexe

En vedette

5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearson5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearsonEvelyn Femat
 
IBM SPSS Overview Text Analytics Brief
IBM SPSS Overview Text Analytics BriefIBM SPSS Overview Text Analytics Brief
IBM SPSS Overview Text Analytics BriefIan Balina
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.DMC Perú
 
4.4 text mining
4.4 text mining4.4 text mining
4.4 text miningKrish_ver2
 
Paradigma e sintagma
Paradigma e sintagmaParadigma e sintagma
Paradigma e sintagmaJoão da Mata
 
Introduction to Text Mining
Introduction to Text MiningIntroduction to Text Mining
Introduction to Text MiningMinha Hwang
 
Big Data & Text Mining
Big Data & Text MiningBig Data & Text Mining
Big Data & Text MiningMichel Bruley
 

En vedette (10)

5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearson5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearson
 
IBM SPSS Overview Text Analytics Brief
IBM SPSS Overview Text Analytics BriefIBM SPSS Overview Text Analytics Brief
IBM SPSS Overview Text Analytics Brief
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
 
Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...
Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...
Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...
 
4.4 text mining
4.4 text mining4.4 text mining
4.4 text mining
 
Text mining
Text miningText mining
Text mining
 
Paradigma e sintagma
Paradigma e sintagmaParadigma e sintagma
Paradigma e sintagma
 
Introduction to Text Mining
Introduction to Text MiningIntroduction to Text Mining
Introduction to Text Mining
 
Big Data & Text Mining
Big Data & Text MiningBig Data & Text Mining
Big Data & Text Mining
 
Textmining Introduction
Textmining IntroductionTextmining Introduction
Textmining Introduction
 

Similaire à Aplicação de text mining

Stratec - Módulo Matriz Orçamentária (Software)
Stratec - Módulo Matriz Orçamentária (Software)Stratec - Módulo Matriz Orçamentária (Software)
Stratec - Módulo Matriz Orçamentária (Software)Stratec Informática
 
Amostragem: O Que É E Como Utilizá-la Em Um Trabalho De Auditoria
Amostragem: O Que É E Como Utilizá-la Em Um Trabalho De AuditoriaAmostragem: O Que É E Como Utilizá-la Em Um Trabalho De Auditoria
Amostragem: O Que É E Como Utilizá-la Em Um Trabalho De AuditoriaMarlon de Freitas
 
Artigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolhaArtigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolhaWosley Arruda
 
Artigo acadêmico: Técnicas de Previsão de Demanda
Artigo acadêmico: Técnicas de Previsão de DemandaArtigo acadêmico: Técnicas de Previsão de Demanda
Artigo acadêmico: Técnicas de Previsão de DemandaAdmFabioAraujo
 
Tecnicas de Previsoes PPCP
Tecnicas de Previsoes PPCPTecnicas de Previsoes PPCP
Tecnicas de Previsoes PPCPLeandro
 
Curso Minitab em Analise Estatistica
Curso Minitab em Analise EstatisticaCurso Minitab em Analise Estatistica
Curso Minitab em Analise EstatisticaGrupo Treinar
 
1 introducao auditoria
1 introducao auditoria1 introducao auditoria
1 introducao auditoriaBoechat79
 
Fatto - Metodologia de Implantação da Análise de Pontos de Função
Fatto - Metodologia de Implantação da Análise de Pontos de FunçãoFatto - Metodologia de Implantação da Análise de Pontos de Função
Fatto - Metodologia de Implantação da Análise de Pontos de FunçãoFatto Consultoria e Sistemas
 
Auditoria de TI aplicado ao Desenvolvimento de Software
Auditoria de TI aplicado ao Desenvolvimento de SoftwareAuditoria de TI aplicado ao Desenvolvimento de Software
Auditoria de TI aplicado ao Desenvolvimento de SoftwareThiago Vidal
 

Similaire à Aplicação de text mining (20)

Aula13
Aula13Aula13
Aula13
 
Atps estatistica 2
Atps estatistica 2Atps estatistica 2
Atps estatistica 2
 
Análise de dados.pdf
Análise de dados.pdfAnálise de dados.pdf
Análise de dados.pdf
 
Atps estatatistica
Atps estatatisticaAtps estatatistica
Atps estatatistica
 
Dutra (2)
Dutra (2)Dutra (2)
Dutra (2)
 
Pesquisa De Mercado
Pesquisa De MercadoPesquisa De Mercado
Pesquisa De Mercado
 
Ferramentas da Qualidade
Ferramentas da QualidadeFerramentas da Qualidade
Ferramentas da Qualidade
 
Stratec - Módulo Matriz Orçamentária (Software)
Stratec - Módulo Matriz Orçamentária (Software)Stratec - Módulo Matriz Orçamentária (Software)
Stratec - Módulo Matriz Orçamentária (Software)
 
Amostragem: O Que É E Como Utilizá-la Em Um Trabalho De Auditoria
Amostragem: O Que É E Como Utilizá-la Em Um Trabalho De AuditoriaAmostragem: O Que É E Como Utilizá-la Em Um Trabalho De Auditoria
Amostragem: O Que É E Como Utilizá-la Em Um Trabalho De Auditoria
 
Apostila ferramentas QT
Apostila ferramentas QTApostila ferramentas QT
Apostila ferramentas QT
 
Artigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolhaArtigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolha
 
DATA SCIENCE.pptx
DATA SCIENCE.pptxDATA SCIENCE.pptx
DATA SCIENCE.pptx
 
Artigo acadêmico: Técnicas de Previsão de Demanda
Artigo acadêmico: Técnicas de Previsão de DemandaArtigo acadêmico: Técnicas de Previsão de Demanda
Artigo acadêmico: Técnicas de Previsão de Demanda
 
Auditoria de sistemas2
Auditoria de sistemas2Auditoria de sistemas2
Auditoria de sistemas2
 
Tecnicas de Previsoes PPCP
Tecnicas de Previsoes PPCPTecnicas de Previsoes PPCP
Tecnicas de Previsoes PPCP
 
Curso Minitab em Analise Estatistica
Curso Minitab em Analise EstatisticaCurso Minitab em Analise Estatistica
Curso Minitab em Analise Estatistica
 
1 introducao auditoria
1 introducao auditoria1 introducao auditoria
1 introducao auditoria
 
Indicadores
IndicadoresIndicadores
Indicadores
 
Fatto - Metodologia de Implantação da Análise de Pontos de Função
Fatto - Metodologia de Implantação da Análise de Pontos de FunçãoFatto - Metodologia de Implantação da Análise de Pontos de Função
Fatto - Metodologia de Implantação da Análise de Pontos de Função
 
Auditoria de TI aplicado ao Desenvolvimento de Software
Auditoria de TI aplicado ao Desenvolvimento de SoftwareAuditoria de TI aplicado ao Desenvolvimento de Software
Auditoria de TI aplicado ao Desenvolvimento de Software
 

Plus de Josias Oliveira

Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningJosias Oliveira
 
Inteligência analítica aplicada a negócios
Inteligência analítica aplicada a negóciosInteligência analítica aplicada a negócios
Inteligência analítica aplicada a negóciosJosias Oliveira
 
Pesquisa empresa familiar
Pesquisa empresa familiarPesquisa empresa familiar
Pesquisa empresa familiarJosias Oliveira
 

Plus de Josias Oliveira (6)

Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
 
SCRUM Analytics
SCRUM AnalyticsSCRUM Analytics
SCRUM Analytics
 
Our Business One
Our Business OneOur Business One
Our Business One
 
Inteligência analítica aplicada a negócios
Inteligência analítica aplicada a negóciosInteligência analítica aplicada a negócios
Inteligência analítica aplicada a negócios
 
Pesquisa empresa familiar
Pesquisa empresa familiarPesquisa empresa familiar
Pesquisa empresa familiar
 
Estudo de mercado
Estudo de mercadoEstudo de mercado
Estudo de mercado
 

Aplicação de text mining

  • 1.
  • 2. Introdução Objetivo Estrutura de Prevenção a Fraude Metodologia de Análise Resultados Preliminares Considerações
  • 3. Objetivo Este estudo tem o objetivo de demonstrar as potencialidades das metodologias e tecnologias em análise de dados para suportar processos inteligentes nas áreas reguladoras do cliente (órgão do Governo Federal). Sendo assim, foi definido o seguinte cenário de análise de modelagem estatística: Identificar, a partir de denúncias de irregularidade em processos de benefício social, o potencial de fraude que resultem em operação da Polícia Federal.
  • 5. Os Instrumentos na Prevenção a Fraude Processos Procedimentos Políticas Indicadores Modelagem Estatística MIS Management Information System
  • 7. Metodologia de Análise Quantidade Total de Dados Trabalhados na Operação Analítica Denúncias arquivadas Denúncias que geraram Operação da PF Denúncias em aberto
  • 8. Metodologia de Análise Tomamos todas as denúncias desde 2006, cerca 12.900, e definimos: Success Denúncias que geraram operação da Polícia Federal; Unsuccess Denúncias arquivadas que não geraram operação da Polícia Federal; e Excluded Denúncias não-arquivadas e que não gerou conhecimento. Separamos todas as denúncias Excluded, ignorando-as para efeito de modelagem estatística por um instante. Buscamos criar um modelo que interprete o fenômeno “Denúncia que gera uma Operação” a partir de todos os casos de Success e Unsuccess.
  • 9. Metodologia de Análise Fase 1 – Preparação da Base de Dados Trainning Separamos 60% da base dos anos de 2006 a 2010 para construir os modelos estatísticos. Test Separamos 40% da base dos anos de 2006 a 2010 para testar a qualidade e acurácia dos modelos estatísticos. Forecast Controlled Base Separamos todas as denúncias Success e Unsuccess de 2011, na intenção de prever o resultado de ocorrências arquivadas. Forecast Uncontrolled Base Por fim, aplicamos o melhor modelo nas denúncias não-arquivadas (Excluded) de 2011. Geramos uma amostra de 33 denúncias que foram classificadas como Success e Unsuccess para avaliação das equipes de investigação.
  • 10. Metodologia de Análise Fase 2 – Metodologia de Modelagem Estatística Text Mining Gerar um conjunto de Palavras significantes para interpretar o conteúdo dos textos de denúncias. O resultado é uma tabela com Palavras comuns e importantes e suas quantidades em cada denúncia. A solução STATISTICA Text Mining identificou cerca de 340 palavras importantes. A equipe de negócio selecionou 152 palavras relevantes para análise.
  • 11. Metodologia de Análise Fase 2 – Metodologia de Modelagem Estatística Tipos de Modelos Os modelos utilizados focam Classificação, desta forma, eles buscam a melhor função, algoritmo ou conjunto de regras matemáticas que discriminem Success e Unsuccess. Se esse modelo existir, ele deve ser capaz de separar, a partir das variáveis (Palavras contidas nas denúncias), com forte acurácia (acima de 75%) Statistical Modelling Discriminant Analysis Logistic Regression Decision Trees C&RT Random Forest Machine Learning Suport Vector Machine Artificial Intelligence Neural Network
  • 13. Resultados Preliminares O algoritmo matemático que melhor classificou o fenômeno foi C&RT Decision Tree, uma opção de machine learning. Training Forecast 2011 Testing 2011 Testing 68,5% 69,4% 72,9%
  • 15. Conclusão O modelo não considera ajustes finos na construção do léxico deste trabalho ou, ainda, uma estrutura semântica; portanto, tais ajustes poderiam incorporar melhoria significativa na acurácia do modelo. Além disso, não foi considerado: segmentação de gerências com mais impacto de processos fraudulentos; correlações entre denúncias; limpeza de informações contendo denúncias infundadas; blending models. Considerando o curto espaço de tempo, decidiu-se focar em resultados de impacto direto na performance de operações; no entanto, as possibilidades de soluções inteligentes nos processos internos constituem ganhos significativos no melhor desempenho da área gestora do processo. Os modelos estatísticos (Regressão Logística, Análise Discriminante, Análise de Componentes Principais, Análise de Agrupamentos e outros) poderiam sugerir outros caminhos analíticos e fomentar novos insights.