SlideShare une entreprise Scribd logo
1  sur  21
Uso de Técnicas de Mineração de Textos
Aplicado à triagem automática de denúncias
TEXT MINING
TRIAGEM DE DENÚNCIAS DA
CGU
Denúncia: comunicação de prática de
ato ilícito cuja solução dependa da
atuação de órgão de controle interno
ou externo.
Habilitadas
Inabilitadas
Denúncias
PROTOCOLO Ouvidoria
(35 mil)
Lixo
Eletrônico
(17 mil )
Fluxo da Triagem de Denúncias
DSSAU
DSEDU
DRDAG
91
diferentes
áreas da
CGU
...
Dados
insuficientes
Não é
competência
CGU
Já foi
Ficalizada
Arquivadas...
Exemplo de Texto de Denúncia com
Erros de Ortografia
Exemplo de Lixo Eletrônico
Porque a triagem manual é um problema?
 O estoque de denúncias aumenta a cada dia
Poucos servidores
Processo de triagem baseado em palavras chaves
 Denúncia é feita com campo texto em formato livre
 91 áreas da CGU para as quais as denúncias devem
ser encaminhadas
Objetivo
Propor um modelo de triagem
eletrônica baseada em mineração de
textos e aprendizagem de máquina.
Proposta de triagem eletrônica
Denúncias
PROTOCOLOo
Triagem
eletrônica
Lixo
Eletrônico
DSSAU
DSEDU
DRDAG
91 diferentes
áreas da
CGU
...
Arquivadas
Elimina
similares
Dados
insuficientes
Não é
competência
CGU
Já foi
Ficalizada
...
Denúncias Repetidas – como tratar?
 Similaridades de cossenos: encontra semelhanças através dos
cossenos do ângulo formado entre 2 vetores.
 Valida antes da triagem.
 1 = denúncias idênticas!
Proposta de triagem eletrônica
Denúncias
PROTOCOLOo
Triagem
eletrônica
Lixo
Eletrônico
DSSAU
DSEDU
DRDAG
91 diferentes
áreas da
CGU
...
Arquivadas
Elimina
similares
Dados
insuficientes
Não é
competência
CGU
Já foi
Ficalizada
...
Matriz termo documento
Remoção de StopWords
Remoção de Pontuação,
números e espaços
Conversão de letras
Maiúsculas para minúsculas
Uso de stemming
Base de dados
Denúncia
denunc escolc fraud ...
1 1 0 0
1 0 1 0
Classificador
Resultados
• POC com 4 categorias
• Precisão de 0.82
• 58 categorias – precisão de 0.554
Classificação multi-label
Resultados
Conclusões
- POC com 58 categorias (unidades da CGU) e cerca
de 40 mil denúncias
- Identificação automática de denúncias similares
- A triagem pode ser feita de forma automática, em
menor tempo e sem perda de qualidade!
- Triagem pode indicar mais de uma unidade da CGU
- O processo é escalável e pode triar maior volume de
denúncias e menor tempo
patricia.maia@cgu.gov.br
Artigo ENIAC 2014: Application of text mining techniques
for classification of documents: a study of automation of
complaints screening in a Brazilian Federal Agency
http://www.lbd.dcc.ufmg.br/colecoes/eniac/2014/0081.pdf
Obrigada!
Text mining
Mineração de textos é o processo de descoberta
de conhecimento que utiliza técnicas de análise e
extração de dados a partir de textos, frases ou
palavras. É o processo de extrair padrões
interessantes e não triviais ou conhecimento a
partir de documentos em textos não estruturados.
Etapas da Mineração de Textos
Similaridade de Cossenos
• A técnica de Similaridade de Cossenos pode ser utilizada para encontrar classes baseada na
semelhança entre as mesmas. Calcula, através dos cossenos do ângulo formado entre dois
vetores, a similaridades entre dois documentos. Assim, ao comparar dois documentos, o
resultado será um número entre 0 e 1. Caso a taxa de similaridades seja próxima de 1, a
mesma indicará que os documentos serão muito similares, pertencendo, provavelmente a
mesma classe ou categoria. O resultado for próximo de 0, indicará que os documentos são
pouco similares, não pertencendo a mesma classe. Resultados médios, nem próximos de 0 e
nem próximos de 1, podem não ser conclusivos, não sendo capaz de identificar a classe a que
o documento pertence.
Precisão
Precisão é a quantidade de itens selecionados que estão
corretamente classificados. Mede, dentre todos os documentos
julgados, a quantidade de documentos classificados corretamente
como positivos, sendo portanto, a proporção entre o número de itens
selecionados que foram recuperados corretamente. Em um contexto
com um total de 1000 denúncias por exemplo, caso a precision seja
igual a 0.87, quer dizer que 870 das 1000 denúncias foram
classificadas corretamente e 130 foram classificadas incorretamente.

Contenu connexe

En vedette

Oficina Elaboraãção de Orçamento
Oficina Elaboraãção de OrçamentoOficina Elaboraãção de Orçamento
Oficina Elaboraãção de Orçamentomarcelasb
 
Fluxo de caixa e dre
Fluxo de caixa e dreFluxo de caixa e dre
Fluxo de caixa e drealunocontabil
 
Exercícios de gestão orçamentária e financeira
Exercícios de gestão orçamentária e financeiraExercícios de gestão orçamentária e financeira
Exercícios de gestão orçamentária e financeiraBenedito Hermano Neto
 
Caderno analitica
Caderno analiticaCaderno analitica
Caderno analiticacarneiro62
 
Orçamento empresarial - aula 01 - 08.03.2013
Orçamento empresarial - aula 01 - 08.03.2013Orçamento empresarial - aula 01 - 08.03.2013
Orçamento empresarial - aula 01 - 08.03.2013D S Correia Silva
 
Aula 2 noções de orçamentos
Aula 2   noções de orçamentosAula 2   noções de orçamentos
Aula 2 noções de orçamentosISMENIA10
 
Sebenta contabilidade analitica i 2014 2015 (1)
Sebenta contabilidade analitica i  2014 2015 (1)Sebenta contabilidade analitica i  2014 2015 (1)
Sebenta contabilidade analitica i 2014 2015 (1)Brígida Oliveira
 
Gestão Financeira
Gestão FinanceiraGestão Financeira
Gestão FinanceiraCadernos PPT
 

En vedette (10)

Unidade 6 custo
Unidade 6 custoUnidade 6 custo
Unidade 6 custo
 
Oficina Elaboraãção de Orçamento
Oficina Elaboraãção de OrçamentoOficina Elaboraãção de Orçamento
Oficina Elaboraãção de Orçamento
 
Fluxo de caixa e dre
Fluxo de caixa e dreFluxo de caixa e dre
Fluxo de caixa e dre
 
Exercícios de gestão orçamentária e financeira
Exercícios de gestão orçamentária e financeiraExercícios de gestão orçamentária e financeira
Exercícios de gestão orçamentária e financeira
 
Caderno analitica
Caderno analiticaCaderno analitica
Caderno analitica
 
Orçamento empresarial - aula 01 - 08.03.2013
Orçamento empresarial - aula 01 - 08.03.2013Orçamento empresarial - aula 01 - 08.03.2013
Orçamento empresarial - aula 01 - 08.03.2013
 
Aula 2 noções de orçamentos
Aula 2   noções de orçamentosAula 2   noções de orçamentos
Aula 2 noções de orçamentos
 
ORÇAMENTO EMPRESARIAL
ORÇAMENTO EMPRESARIALORÇAMENTO EMPRESARIAL
ORÇAMENTO EMPRESARIAL
 
Sebenta contabilidade analitica i 2014 2015 (1)
Sebenta contabilidade analitica i  2014 2015 (1)Sebenta contabilidade analitica i  2014 2015 (1)
Sebenta contabilidade analitica i 2014 2015 (1)
 
Gestão Financeira
Gestão FinanceiraGestão Financeira
Gestão Financeira
 

Plus de Tribunal de Contas da União - TCU (Oficial)

Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...
Painel 05   01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...Painel 05   01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...
Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...Tribunal de Contas da União - TCU (Oficial)
 
Painel 04 02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...
Painel 04   02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...Painel 04   02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...
Painel 04 02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...Tribunal de Contas da União - TCU (Oficial)
 

Plus de Tribunal de Contas da União - TCU (Oficial) (20)

La visión del ministerio de planificación- TCU
La visión del ministerio de planificación- TCULa visión del ministerio de planificación- TCU
La visión del ministerio de planificación- TCU
 
Presentación del instituto serzedello corrêa - TCU
Presentación del instituto serzedello corrêa  - TCUPresentación del instituto serzedello corrêa  - TCU
Presentación del instituto serzedello corrêa - TCU
 
Presentación del ccc - TCU
Presentación del ccc   - TCUPresentación del ccc   - TCU
Presentación del ccc - TCU
 
Innovación como solución para problemas complejos -2016- TCU - 2
Innovación como solución para problemas complejos -2016-   TCU - 2Innovación como solución para problemas complejos -2016-   TCU - 2
Innovación como solución para problemas complejos -2016- TCU - 2
 
Geotecnologías - 2016 - la visión del ministerio del medio ambiente.
Geotecnologías - 2016 - la visión del ministerio del medio ambiente.Geotecnologías - 2016 - la visión del ministerio del medio ambiente.
Geotecnologías - 2016 - la visión del ministerio del medio ambiente.
 
Design thinking 2016 - Herramientas
Design thinking 2016 -  HerramientasDesign thinking 2016 -  Herramientas
Design thinking 2016 - Herramientas
 
Control social 2016 - la visión del Tribunal de Cuentas de la Unión.
Control social 2016 -  la visión del Tribunal de Cuentas de la Unión.Control social 2016 -  la visión del Tribunal de Cuentas de la Unión.
Control social 2016 - la visión del Tribunal de Cuentas de la Unión.
 
Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1
Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1
Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1
 
Control social 2016 - la visión de la cámara de diputados.
Control social 2016 -  la visión de la cámara de diputados.Control social 2016 -  la visión de la cámara de diputados.
Control social 2016 - la visión de la cámara de diputados.
 
Análisis de datos 2016 - la visión del tribunal de cuentas de la unión.
Análisis de datos 2016 -  la visión del tribunal de cuentas de la unión.Análisis de datos 2016 -  la visión del tribunal de cuentas de la unión.
Análisis de datos 2016 - la visión del tribunal de cuentas de la unión.
 
Taller Innovación - Innovación como solución para problemas complejos - TCU
Taller Innovación - Innovación como solución para problemas complejos - TCUTaller Innovación - Innovación como solución para problemas complejos - TCU
Taller Innovación - Innovación como solución para problemas complejos - TCU
 
Lancamento do Portal de inovação do TCU
Lancamento do Portal de inovação do TCULancamento do Portal de inovação do TCU
Lancamento do Portal de inovação do TCU
 
Painel 05 03 - Gustavo - Markus - Busca de vínculos na Administração Pública
Painel 05   03 - Gustavo - Markus - Busca de vínculos na Administração PúblicaPainel 05   03 - Gustavo - Markus - Busca de vínculos na Administração Pública
Painel 05 03 - Gustavo - Markus - Busca de vínculos na Administração Pública
 
Painel 05 02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
Painel 05   02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...Painel 05   02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
Painel 05 02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
 
Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...
Painel 05   01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...Painel 05   01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...
Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...
 
Painel 04 03 - leon - Construção de modelos preditivos para melhoria na sel...
Painel 04   03 - leon - Construção de modelos preditivos para melhoria na sel...Painel 04   03 - leon - Construção de modelos preditivos para melhoria na sel...
Painel 04 03 - leon - Construção de modelos preditivos para melhoria na sel...
 
Painel 04 02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...
Painel 04   02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...Painel 04   02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...
Painel 04 02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...
 
Painel 04 01 - Rommel Carvalho - uso de mineração de dados e textos para cá...
Painel 04   01 - Rommel Carvalho - uso de mineração de dados e textos para cá...Painel 04   01 - Rommel Carvalho - uso de mineração de dados e textos para cá...
Painel 04 01 - Rommel Carvalho - uso de mineração de dados e textos para cá...
 
Painel 03 04 - André Vital - Avaliação de Risco em Contratos de Obras Rodov...
Painel 03   04 - André Vital - Avaliação de Risco em Contratos de Obras Rodov...Painel 03   04 - André Vital - Avaliação de Risco em Contratos de Obras Rodov...
Painel 03 04 - André Vital - Avaliação de Risco em Contratos de Obras Rodov...
 
Painel 03 03 - lucas freire - Filtros econômicos e combate a cartéis em lic...
Painel 03   03 - lucas freire - Filtros econômicos e combate a cartéis em lic...Painel 03   03 - lucas freire - Filtros econômicos e combate a cartéis em lic...
Painel 03 03 - lucas freire - Filtros econômicos e combate a cartéis em lic...
 

Dernier

ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx2m Assessoria
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx2m Assessoria
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsDanilo Pinotti
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx2m Assessoria
 
Assessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdfAssessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdfNatalia Granato
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploDanilo Pinotti
 

Dernier (6)

ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
Assessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdfAssessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdf
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 

Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias

  • 1. Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias
  • 3. TRIAGEM DE DENÚNCIAS DA CGU Denúncia: comunicação de prática de ato ilícito cuja solução dependa da atuação de órgão de controle interno ou externo.
  • 4. Habilitadas Inabilitadas Denúncias PROTOCOLO Ouvidoria (35 mil) Lixo Eletrônico (17 mil ) Fluxo da Triagem de Denúncias DSSAU DSEDU DRDAG 91 diferentes áreas da CGU ... Dados insuficientes Não é competência CGU Já foi Ficalizada Arquivadas...
  • 5. Exemplo de Texto de Denúncia com Erros de Ortografia
  • 6. Exemplo de Lixo Eletrônico
  • 7. Porque a triagem manual é um problema?  O estoque de denúncias aumenta a cada dia Poucos servidores Processo de triagem baseado em palavras chaves  Denúncia é feita com campo texto em formato livre  91 áreas da CGU para as quais as denúncias devem ser encaminhadas
  • 8. Objetivo Propor um modelo de triagem eletrônica baseada em mineração de textos e aprendizagem de máquina.
  • 9. Proposta de triagem eletrônica Denúncias PROTOCOLOo Triagem eletrônica Lixo Eletrônico DSSAU DSEDU DRDAG 91 diferentes áreas da CGU ... Arquivadas Elimina similares Dados insuficientes Não é competência CGU Já foi Ficalizada ...
  • 10. Denúncias Repetidas – como tratar?  Similaridades de cossenos: encontra semelhanças através dos cossenos do ângulo formado entre 2 vetores.  Valida antes da triagem.  1 = denúncias idênticas!
  • 11. Proposta de triagem eletrônica Denúncias PROTOCOLOo Triagem eletrônica Lixo Eletrônico DSSAU DSEDU DRDAG 91 diferentes áreas da CGU ... Arquivadas Elimina similares Dados insuficientes Não é competência CGU Já foi Ficalizada ...
  • 12. Matriz termo documento Remoção de StopWords Remoção de Pontuação, números e espaços Conversão de letras Maiúsculas para minúsculas Uso de stemming Base de dados Denúncia denunc escolc fraud ... 1 1 0 0 1 0 1 0 Classificador
  • 13.
  • 14. Resultados • POC com 4 categorias • Precisão de 0.82 • 58 categorias – precisão de 0.554
  • 16. Conclusões - POC com 58 categorias (unidades da CGU) e cerca de 40 mil denúncias - Identificação automática de denúncias similares - A triagem pode ser feita de forma automática, em menor tempo e sem perda de qualidade! - Triagem pode indicar mais de uma unidade da CGU - O processo é escalável e pode triar maior volume de denúncias e menor tempo
  • 17. patricia.maia@cgu.gov.br Artigo ENIAC 2014: Application of text mining techniques for classification of documents: a study of automation of complaints screening in a Brazilian Federal Agency http://www.lbd.dcc.ufmg.br/colecoes/eniac/2014/0081.pdf Obrigada!
  • 18. Text mining Mineração de textos é o processo de descoberta de conhecimento que utiliza técnicas de análise e extração de dados a partir de textos, frases ou palavras. É o processo de extrair padrões interessantes e não triviais ou conhecimento a partir de documentos em textos não estruturados.
  • 20. Similaridade de Cossenos • A técnica de Similaridade de Cossenos pode ser utilizada para encontrar classes baseada na semelhança entre as mesmas. Calcula, através dos cossenos do ângulo formado entre dois vetores, a similaridades entre dois documentos. Assim, ao comparar dois documentos, o resultado será um número entre 0 e 1. Caso a taxa de similaridades seja próxima de 1, a mesma indicará que os documentos serão muito similares, pertencendo, provavelmente a mesma classe ou categoria. O resultado for próximo de 0, indicará que os documentos são pouco similares, não pertencendo a mesma classe. Resultados médios, nem próximos de 0 e nem próximos de 1, podem não ser conclusivos, não sendo capaz de identificar a classe a que o documento pertence.
  • 21. Precisão Precisão é a quantidade de itens selecionados que estão corretamente classificados. Mede, dentre todos os documentos julgados, a quantidade de documentos classificados corretamente como positivos, sendo portanto, a proporção entre o número de itens selecionados que foram recuperados corretamente. Em um contexto com um total de 1000 denúncias por exemplo, caso a precision seja igual a 0.87, quer dizer que 870 das 1000 denúncias foram classificadas corretamente e 130 foram classificadas incorretamente.