O documento descreve um estudo sobre o uso de técnicas de mineração de textos para classificar automaticamente denúncias recebidas pela Controladoria Geral da União (CGU). O objetivo é propor um modelo de triagem eletrônica baseado em aprendizado de máquina para substituir o processo manual, tratando melhor o volume e variedade de denúncias. Os resultados iniciais indicam que o modelo consegue classificar as denúncias com precisão maior que 50%.
3. TRIAGEM DE DENÚNCIAS DA
CGU
Denúncia: comunicação de prática de
ato ilícito cuja solução dependa da
atuação de órgão de controle interno
ou externo.
7. Porque a triagem manual é um problema?
O estoque de denúncias aumenta a cada dia
Poucos servidores
Processo de triagem baseado em palavras chaves
Denúncia é feita com campo texto em formato livre
91 áreas da CGU para as quais as denúncias devem
ser encaminhadas
8. Objetivo
Propor um modelo de triagem
eletrônica baseada em mineração de
textos e aprendizagem de máquina.
9. Proposta de triagem eletrônica
Denúncias
PROTOCOLOo
Triagem
eletrônica
Lixo
Eletrônico
DSSAU
DSEDU
DRDAG
91 diferentes
áreas da
CGU
...
Arquivadas
Elimina
similares
Dados
insuficientes
Não é
competência
CGU
Já foi
Ficalizada
...
10. Denúncias Repetidas – como tratar?
Similaridades de cossenos: encontra semelhanças através dos
cossenos do ângulo formado entre 2 vetores.
Valida antes da triagem.
1 = denúncias idênticas!
11. Proposta de triagem eletrônica
Denúncias
PROTOCOLOo
Triagem
eletrônica
Lixo
Eletrônico
DSSAU
DSEDU
DRDAG
91 diferentes
áreas da
CGU
...
Arquivadas
Elimina
similares
Dados
insuficientes
Não é
competência
CGU
Já foi
Ficalizada
...
12. Matriz termo documento
Remoção de StopWords
Remoção de Pontuação,
números e espaços
Conversão de letras
Maiúsculas para minúsculas
Uso de stemming
Base de dados
Denúncia
denunc escolc fraud ...
1 1 0 0
1 0 1 0
Classificador
13.
14. Resultados
• POC com 4 categorias
• Precisão de 0.82
• 58 categorias – precisão de 0.554
16. Conclusões
- POC com 58 categorias (unidades da CGU) e cerca
de 40 mil denúncias
- Identificação automática de denúncias similares
- A triagem pode ser feita de forma automática, em
menor tempo e sem perda de qualidade!
- Triagem pode indicar mais de uma unidade da CGU
- O processo é escalável e pode triar maior volume de
denúncias e menor tempo
17. patricia.maia@cgu.gov.br
Artigo ENIAC 2014: Application of text mining techniques
for classification of documents: a study of automation of
complaints screening in a Brazilian Federal Agency
http://www.lbd.dcc.ufmg.br/colecoes/eniac/2014/0081.pdf
Obrigada!
18. Text mining
Mineração de textos é o processo de descoberta
de conhecimento que utiliza técnicas de análise e
extração de dados a partir de textos, frases ou
palavras. É o processo de extrair padrões
interessantes e não triviais ou conhecimento a
partir de documentos em textos não estruturados.
20. Similaridade de Cossenos
• A técnica de Similaridade de Cossenos pode ser utilizada para encontrar classes baseada na
semelhança entre as mesmas. Calcula, através dos cossenos do ângulo formado entre dois
vetores, a similaridades entre dois documentos. Assim, ao comparar dois documentos, o
resultado será um número entre 0 e 1. Caso a taxa de similaridades seja próxima de 1, a
mesma indicará que os documentos serão muito similares, pertencendo, provavelmente a
mesma classe ou categoria. O resultado for próximo de 0, indicará que os documentos são
pouco similares, não pertencendo a mesma classe. Resultados médios, nem próximos de 0 e
nem próximos de 1, podem não ser conclusivos, não sendo capaz de identificar a classe a que
o documento pertence.
21. Precisão
Precisão é a quantidade de itens selecionados que estão
corretamente classificados. Mede, dentre todos os documentos
julgados, a quantidade de documentos classificados corretamente
como positivos, sendo portanto, a proporção entre o número de itens
selecionados que foram recuperados corretamente. Em um contexto
com um total de 1000 denúncias por exemplo, caso a precision seja
igual a 0.87, quer dizer que 870 das 1000 denúncias foram
classificadas corretamente e 130 foram classificadas incorretamente.