SlideShare une entreprise Scribd logo
1  sur  27
Setembro 2015
Análise de Cobranças Suspeitas
de Consultas Médicas
Utilizando o Algoritmo K-means
Introdução / Contexto
Metodologia
Entendimento do Negócio
Entendimento e Preparação
dos Dados
Modelagem e Avaliação
Implementação
Conclusões e
Aplicações
Futuras
2
Agenda
Aumento de custos de saúde
~10 – 20% do PIB (Brasil / EUA)
Dificuldades em avaliar dados de cobranças
3
Inconsistências, Desperdícios e Abusos
Estimativa: 10-15% das despesas, dependendo do país
• Cobranças excessivas
• Procedimentos / materiais / medicamentos desnecessários
• Despesas com serviços não prestados
• Volume de registros
• Regras de negócio para cada procedimento
• Ausência de análise comportamental de
cobranças de prestadores
Introdução
CONTEXTO
Objetivo Principal
4
Detectar cobranças excessivas oriundas de prestadores de serviços
assistenciais
• Foco: Consultas médicas
• Hipótese: “Dia impossível”
Metodologia
CRISP-DM
Fonte: CHAPMAN et. al., 2000
Detecção de anomalias
Clusterização K-means
Abordagem não supervisionada
Clusterização - K-Means
Agrupamento de objetos por semelhança (distância)
A
Exemplo: 3 Clusters (K = centróides)
B
C
D
E
F
1.
Centróides
iniciais
aleatórios
C1
C2
C3
2.
Vinculação de
pontos mais
próximos
3.
Atualização
de centróides
4.
Nova
vinculação
F
C1
C2
C3
A
B
C
D
E
F
C1
C2
C3
A
C1
C2
C3
A
B
C
D
E
D
E
F
B
C
A
B
C
D
E
F
5
Lloyd (1957), Hartigan and Wong (1975)
A
6
Alternativa: Método do “cotovelo” / (Soma de erros)
A
C1
C2
D
E
F
B
C
C3
D
E
F
B
C
C1
C2
“Soma” das distâncias entre os pontos e seus centróides,
Considerando diferentes quantidades de clusters
Menor erro = “melhor” representação
K = 2 K = 3
Definindo o número de agrupamentos (clusters)
7
Entendimento do Negócio
Possível abuso: Serviços não prestados – “dia impossível”
Ausência de controles:
Qtde. de prestadores/procedimento por paciente, por dia
(Ex. coparticipação)
Qtde. de pacientes por prestador, por dia
Comportamento de prestadores em relação aos pares
Instituição avaliada
Operadora de planos de saúde - Autogestão
Despesas em 2014 – aprox. R$ 3 bilhões
Rede de Prestadores:
Pessoas Jurídicas: Hospitais, clínicas, laboratórios
(maioria) Pessoas Físicas: Médicos, especialistas, terapeutas
Conjunto de dados inicial
Variáveis iniciais
8
Entendimento e Preparação dos Dados (1 de 3)
~1 milhão de registros
~ 13.000 prestadores
~ R$ 65.000.000,00
Extração Inicial
- Origem – Sistema de cobranças (Base SQL)
- Período: jan-dez 2013
- Filtros: Pessoas físicas, consultas, autorizador externo
9
Entendimento e Preparação dos Dados (2 de 3)
Conjunto de dados inicial
Variáveis iniciais
~1 milhão de registros
~ 13.000 prestadores
~ R$ 65.000.000,00
Extração Inicial
- Origem – Sistema de cobranças (Base SQL)
- Período: jan-dez 2013
- Filtros: Pessoas físicas, consultas, autorizador externo
Manipulação: R Studio
10
Entendimento e Preparação dos Dados (3 de 3)
Distribuição de “Qtde. de consultas por dia”
~99% de registros < 1% de registros
Máx. = 93
consultas
por dia
11
Entendimento do negócio (novamente)
Consulta aos especialistas:
Quantidade máxima de consultas por dia?
~ 15 mins. por consulta
08 horas por dia (x) 60mins = 480 mins.
480/15 = 32 consultas por dia
18 prestadores
Valor envolvido:
R$ 600.000,00
Limite
Cobrança incorreta, porém justificável
12
Entendimento do negócio – Problemas!
Falsos Positivos
Falsos Negativos
13
Entendimento do negócio – Problemas!
Limite
Limite
Frequência: Qtde. de dias com atendimentos no mês
Alerta: Qtde. de visitas distintas
em um único dia
Volume:
Qtde. de pacientes
atendidos no mês
14
Entendimento do negócio – Novas variáveis
15
Preparação dos dados – Novas variáveis
Variáveis iniciais
Novas variáveis
Alerta FrequênciaVolume
16
Preparação dos dados – Novas variáveis
Variáveis iniciais
17
Modelagem – Novas Variáveis
Clusterização de registros cuja variável “QTDE POR
DIA” se encontram mais distantes da média
(Média + (6 * Desv.Padrão)) = 10.6 consultas por dia
Novo subconjunto: ~2.000 registros
18
Modelagem – Clusterização do Novo Subconjunto via K-Means (i)
19
Modelagem – Clusterização do Novo Subconjunto via K-Means (ii)
Qtde. de registros e prestadores em cada cluster
20
Evaluation – Means and S.D. for variables in each cluster
Qtde. de registros e prestadores em cada cluster
Análise: Média e D.P. de cada variável, em cada cluster
21
Simulação: Probabilidade que registros com características do Cluster 03 (média e DP)
seriam encontrados nos Clusters 01, 02, 04
Evaluation – Simulated distrbution –
Means and S.D. for variables in Cluster 03
22
Implantação – Resultados / Conclusões (i)
Foco: Clusters com menos registros, maior
probabilidade de cobranças abusivas
Necessário verificar novos prestadores (54)
23
Suspeitos confirmados = monitoramento / possível descredenciamento
Implantação – Resultados / Conclusões (ii)
Vantagens / Trabalhos Futuros
• Sem necessidade de estabelecer limites por procedimentos
• Pode ser ajustado para diminuir incidência de falsos positivos
(importante para outros tipos de procedimento)
• Comportamento de “verdadeiros positivos” pode servir como padrão para
investigações futuras (e para criação de controles de sistema)
• Expansão para outros procedimentos e tipos de prestador
Confirmação por meio de análise de guias físicias e entrevistas
Setembro 2015
Obrigado!
Tiago Pereira Hillerman
MPCA UnB – Computação Aplicada, Universidade de Brasília
t_hillerman@yahoo.com.br / 61 9339 0000
25
26
Definindo o número de clusters
Métricas NbClust
• Índices de eficiência para cada n número de clusters
Exemplos:
Dunn’s index: “qualidade” baseada na distância entre clusters e
diâmetro de cada cluster
Silhouette: calcula “semelhança” (baseada em distância) de objetos
em cada cluster, comparada com a semelhança nos demais clusters.
É utilizada como indicador a média do conjunto de agrupamentos.
27
Média, desvio padrão

Contenu connexe

En vedette

Rufaro Mwanaka portfolio
Rufaro Mwanaka portfolioRufaro Mwanaka portfolio
Rufaro Mwanaka portfoliorufaro09
 
öğrenci merkezli eğitim- görüş geliştime
öğrenci merkezli eğitim- görüş geliştimeöğrenci merkezli eğitim- görüş geliştime
öğrenci merkezli eğitim- görüş geliştimeElif Avıncı
 
Didáctica Critica
Didáctica Critica Didáctica Critica
Didáctica Critica noemiviveros
 
GAMBARAN FAKTOR - FAKTOR PENYEBAB RENDAHNYA MINAT AKSEPTOR KONTRASEPSI IMPLAN...
GAMBARAN FAKTOR - FAKTOR PENYEBAB RENDAHNYA MINAT AKSEPTOR KONTRASEPSI IMPLAN...GAMBARAN FAKTOR - FAKTOR PENYEBAB RENDAHNYA MINAT AKSEPTOR KONTRASEPSI IMPLAN...
GAMBARAN FAKTOR - FAKTOR PENYEBAB RENDAHNYA MINAT AKSEPTOR KONTRASEPSI IMPLAN...Warnet Raha
 
WINGS Project Funding & Governance Decentralized
WINGS Project Funding & Governance DecentralizedWINGS Project Funding & Governance Decentralized
WINGS Project Funding & Governance DecentralizedDomi Z
 
Makalah sejarah Komunikasi modern dan traditional
Makalah sejarah Komunikasi modern dan traditionalMakalah sejarah Komunikasi modern dan traditional
Makalah sejarah Komunikasi modern dan traditionalSabella Zahra
 

En vedette (10)

Rufaro Mwanaka portfolio
Rufaro Mwanaka portfolioRufaro Mwanaka portfolio
Rufaro Mwanaka portfolio
 
Sales4
Sales4Sales4
Sales4
 
SKM_754e15090710410
SKM_754e15090710410SKM_754e15090710410
SKM_754e15090710410
 
öğrenci merkezli eğitim- görüş geliştime
öğrenci merkezli eğitim- görüş geliştimeöğrenci merkezli eğitim- görüş geliştime
öğrenci merkezli eğitim- görüş geliştime
 
Innovación como solución para problemas complejos -2016- TCU - 2
Innovación como solución para problemas complejos -2016-   TCU - 2Innovación como solución para problemas complejos -2016-   TCU - 2
Innovación como solución para problemas complejos -2016- TCU - 2
 
Didáctica Critica
Didáctica Critica Didáctica Critica
Didáctica Critica
 
GAMBARAN FAKTOR - FAKTOR PENYEBAB RENDAHNYA MINAT AKSEPTOR KONTRASEPSI IMPLAN...
GAMBARAN FAKTOR - FAKTOR PENYEBAB RENDAHNYA MINAT AKSEPTOR KONTRASEPSI IMPLAN...GAMBARAN FAKTOR - FAKTOR PENYEBAB RENDAHNYA MINAT AKSEPTOR KONTRASEPSI IMPLAN...
GAMBARAN FAKTOR - FAKTOR PENYEBAB RENDAHNYA MINAT AKSEPTOR KONTRASEPSI IMPLAN...
 
WINGS Project Funding & Governance Decentralized
WINGS Project Funding & Governance DecentralizedWINGS Project Funding & Governance Decentralized
WINGS Project Funding & Governance Decentralized
 
Makalah sejarah Komunikasi modern dan traditional
Makalah sejarah Komunikasi modern dan traditionalMakalah sejarah Komunikasi modern dan traditional
Makalah sejarah Komunikasi modern dan traditional
 
Keluarga berencana
Keluarga berencanaKeluarga berencana
Keluarga berencana
 

Similaire à Análise de Cobranças Médicas com K-means

eSocial - Palestra de José Adriano no III Congresso de Contabilidade do Sul d...
eSocial - Palestra de José Adriano no III Congresso de Contabilidade do Sul d...eSocial - Palestra de José Adriano no III Congresso de Contabilidade do Sul d...
eSocial - Palestra de José Adriano no III Congresso de Contabilidade do Sul d...Jose Adriano Pinto
 
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...TECSI FEA USP
 
Identificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAIIdentificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAIRommel Carvalho
 
Ciência de Dados no Combate à Corrupção
Ciência de Dados no Combate à CorrupçãoCiência de Dados no Combate à Corrupção
Ciência de Dados no Combate à CorrupçãoRommel Carvalho
 
[SIN-NA7] Gestão de Projetos e Empreendedorismo - Atividade: Status Report
[SIN-NA7] Gestão de Projetos e Empreendedorismo - Atividade: Status Report[SIN-NA7] Gestão de Projetos e Empreendedorismo - Atividade: Status Report
[SIN-NA7] Gestão de Projetos e Empreendedorismo - Atividade: Status ReportAlessandro Almeida
 
Implantação de Central de Serviços - Servicedesk
Implantação de Central de Serviços - ServicedeskImplantação de Central de Serviços - Servicedesk
Implantação de Central de Serviços - ServicedeskFernando Palma
 
[FM2S] Yellow Belt- Módulo 1 - Case DMAIC AME.pptx.pdf
[FM2S] Yellow Belt- Módulo 1 - Case DMAIC AME.pptx.pdf[FM2S] Yellow Belt- Módulo 1 - Case DMAIC AME.pptx.pdf
[FM2S] Yellow Belt- Módulo 1 - Case DMAIC AME.pptx.pdfJuninho82
 
Artigo 2-artigo fraude-energia_eletrica
Artigo 2-artigo fraude-energia_eletricaArtigo 2-artigo fraude-energia_eletrica
Artigo 2-artigo fraude-energia_eletricaWosley Arruda
 
Painel 03 02 - joão batista - classificação de risco de transferências volu...
Painel 03   02 - joão batista - classificação de risco de transferências volu...Painel 03   02 - joão batista - classificação de risco de transferências volu...
Painel 03 02 - joão batista - classificação de risco de transferências volu...Tribunal de Contas da União - TCU (Oficial)
 
BPM Day SP 2016 - Data Science e BPM - Caso da Secretária no processo de regu...
BPM Day SP 2016 - Data Science e BPM - Caso da Secretária no processo de regu...BPM Day SP 2016 - Data Science e BPM - Caso da Secretária no processo de regu...
BPM Day SP 2016 - Data Science e BPM - Caso da Secretária no processo de regu...Lecom Tecnologia
 
O estilo da auditoria afeta a qualidade da informação contábil no Brasil?
O estilo da auditoria afeta a qualidade da informação contábil no Brasil?O estilo da auditoria afeta a qualidade da informação contábil no Brasil?
O estilo da auditoria afeta a qualidade da informação contábil no Brasil?Felipe Pontes
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningJosias Oliveira
 
Artigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolhaArtigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolhaWosley Arruda
 

Similaire à Análise de Cobranças Médicas com K-means (20)

eSocial - Palestra de José Adriano no III Congresso de Contabilidade do Sul d...
eSocial - Palestra de José Adriano no III Congresso de Contabilidade do Sul d...eSocial - Palestra de José Adriano no III Congresso de Contabilidade do Sul d...
eSocial - Palestra de José Adriano no III Congresso de Contabilidade do Sul d...
 
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...
 
Painel 02 03 - Rommel Carvalho - identificação automática de tipos de pedid...
Painel 02   03 - Rommel Carvalho - identificação automática de tipos de pedid...Painel 02   03 - Rommel Carvalho - identificação automática de tipos de pedid...
Painel 02 03 - Rommel Carvalho - identificação automática de tipos de pedid...
 
Identificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAIIdentificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAI
 
Ciência de Dados no Combate à Corrupção
Ciência de Dados no Combate à CorrupçãoCiência de Dados no Combate à Corrupção
Ciência de Dados no Combate à Corrupção
 
[SIN-NA7] Gestão de Projetos e Empreendedorismo - Atividade: Status Report
[SIN-NA7] Gestão de Projetos e Empreendedorismo - Atividade: Status Report[SIN-NA7] Gestão de Projetos e Empreendedorismo - Atividade: Status Report
[SIN-NA7] Gestão de Projetos e Empreendedorismo - Atividade: Status Report
 
Data mining
Data miningData mining
Data mining
 
Painel 03 03 - lucas freire - Filtros econômicos e combate a cartéis em lic...
Painel 03   03 - lucas freire - Filtros econômicos e combate a cartéis em lic...Painel 03   03 - lucas freire - Filtros econômicos e combate a cartéis em lic...
Painel 03 03 - lucas freire - Filtros econômicos e combate a cartéis em lic...
 
Implantação de Central de Serviços - Servicedesk
Implantação de Central de Serviços - ServicedeskImplantação de Central de Serviços - Servicedesk
Implantação de Central de Serviços - Servicedesk
 
[FM2S] Yellow Belt- Módulo 1 - Case DMAIC AME.pptx.pdf
[FM2S] Yellow Belt- Módulo 1 - Case DMAIC AME.pptx.pdf[FM2S] Yellow Belt- Módulo 1 - Case DMAIC AME.pptx.pdf
[FM2S] Yellow Belt- Módulo 1 - Case DMAIC AME.pptx.pdf
 
Artigo 2-artigo fraude-energia_eletrica
Artigo 2-artigo fraude-energia_eletricaArtigo 2-artigo fraude-energia_eletrica
Artigo 2-artigo fraude-energia_eletrica
 
Painel 05 02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
Painel 05   02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...Painel 05   02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
Painel 05 02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
 
Painel 03 02 - joão batista - classificação de risco de transferências volu...
Painel 03   02 - joão batista - classificação de risco de transferências volu...Painel 03   02 - joão batista - classificação de risco de transferências volu...
Painel 03 02 - joão batista - classificação de risco de transferências volu...
 
CURSO SOBRE SINTEGRA
CURSO SOBRE SINTEGRACURSO SOBRE SINTEGRA
CURSO SOBRE SINTEGRA
 
BPM Day SP 2016 - Data Science e BPM - Caso da Secretária no processo de regu...
BPM Day SP 2016 - Data Science e BPM - Caso da Secretária no processo de regu...BPM Day SP 2016 - Data Science e BPM - Caso da Secretária no processo de regu...
BPM Day SP 2016 - Data Science e BPM - Caso da Secretária no processo de regu...
 
O estilo da auditoria afeta a qualidade da informação contábil no Brasil?
O estilo da auditoria afeta a qualidade da informação contábil no Brasil?O estilo da auditoria afeta a qualidade da informação contábil no Brasil?
O estilo da auditoria afeta a qualidade da informação contábil no Brasil?
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
 
Artigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolhaArtigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolha
 
Trabalho individual Medidas de
Trabalho individual Medidas deTrabalho individual Medidas de
Trabalho individual Medidas de
 

Plus de Tribunal de Contas da União - TCU (Oficial)

Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...
Painel 05   01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...Painel 05   01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...
Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...Tribunal de Contas da União - TCU (Oficial)
 
Painel 04 02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...
Painel 04   02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...Painel 04   02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...
Painel 04 02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...Tribunal de Contas da União - TCU (Oficial)
 

Plus de Tribunal de Contas da União - TCU (Oficial) (20)

La visión del ministerio de planificación- TCU
La visión del ministerio de planificación- TCULa visión del ministerio de planificación- TCU
La visión del ministerio de planificación- TCU
 
Presentación del instituto serzedello corrêa - TCU
Presentación del instituto serzedello corrêa  - TCUPresentación del instituto serzedello corrêa  - TCU
Presentación del instituto serzedello corrêa - TCU
 
Presentación del ccc - TCU
Presentación del ccc   - TCUPresentación del ccc   - TCU
Presentación del ccc - TCU
 
Geotecnologías - 2016 - la visión del ministerio del medio ambiente.
Geotecnologías - 2016 - la visión del ministerio del medio ambiente.Geotecnologías - 2016 - la visión del ministerio del medio ambiente.
Geotecnologías - 2016 - la visión del ministerio del medio ambiente.
 
Design thinking 2016 - Herramientas
Design thinking 2016 -  HerramientasDesign thinking 2016 -  Herramientas
Design thinking 2016 - Herramientas
 
Control social 2016 - la visión del Tribunal de Cuentas de la Unión.
Control social 2016 -  la visión del Tribunal de Cuentas de la Unión.Control social 2016 -  la visión del Tribunal de Cuentas de la Unión.
Control social 2016 - la visión del Tribunal de Cuentas de la Unión.
 
Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1
Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1
Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1
 
Control social 2016 - la visión de la cámara de diputados.
Control social 2016 -  la visión de la cámara de diputados.Control social 2016 -  la visión de la cámara de diputados.
Control social 2016 - la visión de la cámara de diputados.
 
Taller Innovación - Innovación como solución para problemas complejos - TCU
Taller Innovación - Innovación como solución para problemas complejos - TCUTaller Innovación - Innovación como solución para problemas complejos - TCU
Taller Innovación - Innovación como solución para problemas complejos - TCU
 
Lancamento do Portal de inovação do TCU
Lancamento do Portal de inovação do TCULancamento do Portal de inovação do TCU
Lancamento do Portal de inovação do TCU
 
Painel 05 03 - Gustavo - Markus - Busca de vínculos na Administração Pública
Painel 05   03 - Gustavo - Markus - Busca de vínculos na Administração PúblicaPainel 05   03 - Gustavo - Markus - Busca de vínculos na Administração Pública
Painel 05 03 - Gustavo - Markus - Busca de vínculos na Administração Pública
 
Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...
Painel 05   01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...Painel 05   01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...
Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...
 
Painel 04 03 - leon - Construção de modelos preditivos para melhoria na sel...
Painel 04   03 - leon - Construção de modelos preditivos para melhoria na sel...Painel 04   03 - leon - Construção de modelos preditivos para melhoria na sel...
Painel 04 03 - leon - Construção de modelos preditivos para melhoria na sel...
 
Painel 04 02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...
Painel 04   02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...Painel 04   02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...
Painel 04 02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...
 
Painel 04 01 - Rommel Carvalho - uso de mineração de dados e textos para cá...
Painel 04   01 - Rommel Carvalho - uso de mineração de dados e textos para cá...Painel 04   01 - Rommel Carvalho - uso de mineração de dados e textos para cá...
Painel 04 01 - Rommel Carvalho - uso de mineração de dados e textos para cá...
 
Painel 03 04 - André Vital - Avaliação de Risco em Contratos de Obras Rodov...
Painel 03   04 - André Vital - Avaliação de Risco em Contratos de Obras Rodov...Painel 03   04 - André Vital - Avaliação de Risco em Contratos de Obras Rodov...
Painel 03 04 - André Vital - Avaliação de Risco em Contratos de Obras Rodov...
 
Painel 03 01 - Rommel Carvalho - detecção preventiva de fracionamento de co...
Painel 03   01 - Rommel Carvalho - detecção preventiva de fracionamento de co...Painel 03   01 - Rommel Carvalho - detecção preventiva de fracionamento de co...
Painel 03 01 - Rommel Carvalho - detecção preventiva de fracionamento de co...
 
Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em...
Painel 02   02 - Thiago Marzagão -  classificação automatizada de produtos em...Painel 02   02 - Thiago Marzagão -  classificação automatizada de produtos em...
Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em...
 
Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplica...
Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplica...Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplica...
Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplica...
 
Painel 01 02 - felipe fonseca - Classificação de clientes bancários com bai...
Painel 01   02 - felipe fonseca - Classificação de clientes bancários com bai...Painel 01   02 - felipe fonseca - Classificação de clientes bancários com bai...
Painel 01 02 - felipe fonseca - Classificação de clientes bancários com bai...
 

Análise de Cobranças Médicas com K-means

  • 1. Setembro 2015 Análise de Cobranças Suspeitas de Consultas Médicas Utilizando o Algoritmo K-means
  • 2. Introdução / Contexto Metodologia Entendimento do Negócio Entendimento e Preparação dos Dados Modelagem e Avaliação Implementação Conclusões e Aplicações Futuras 2 Agenda
  • 3. Aumento de custos de saúde ~10 – 20% do PIB (Brasil / EUA) Dificuldades em avaliar dados de cobranças 3 Inconsistências, Desperdícios e Abusos Estimativa: 10-15% das despesas, dependendo do país • Cobranças excessivas • Procedimentos / materiais / medicamentos desnecessários • Despesas com serviços não prestados • Volume de registros • Regras de negócio para cada procedimento • Ausência de análise comportamental de cobranças de prestadores Introdução CONTEXTO
  • 4. Objetivo Principal 4 Detectar cobranças excessivas oriundas de prestadores de serviços assistenciais • Foco: Consultas médicas • Hipótese: “Dia impossível” Metodologia CRISP-DM Fonte: CHAPMAN et. al., 2000 Detecção de anomalias Clusterização K-means Abordagem não supervisionada
  • 5. Clusterização - K-Means Agrupamento de objetos por semelhança (distância) A Exemplo: 3 Clusters (K = centróides) B C D E F 1. Centróides iniciais aleatórios C1 C2 C3 2. Vinculação de pontos mais próximos 3. Atualização de centróides 4. Nova vinculação F C1 C2 C3 A B C D E F C1 C2 C3 A C1 C2 C3 A B C D E D E F B C A B C D E F 5 Lloyd (1957), Hartigan and Wong (1975)
  • 6. A 6 Alternativa: Método do “cotovelo” / (Soma de erros) A C1 C2 D E F B C C3 D E F B C C1 C2 “Soma” das distâncias entre os pontos e seus centróides, Considerando diferentes quantidades de clusters Menor erro = “melhor” representação K = 2 K = 3 Definindo o número de agrupamentos (clusters)
  • 7. 7 Entendimento do Negócio Possível abuso: Serviços não prestados – “dia impossível” Ausência de controles: Qtde. de prestadores/procedimento por paciente, por dia (Ex. coparticipação) Qtde. de pacientes por prestador, por dia Comportamento de prestadores em relação aos pares Instituição avaliada Operadora de planos de saúde - Autogestão Despesas em 2014 – aprox. R$ 3 bilhões Rede de Prestadores: Pessoas Jurídicas: Hospitais, clínicas, laboratórios (maioria) Pessoas Físicas: Médicos, especialistas, terapeutas
  • 8. Conjunto de dados inicial Variáveis iniciais 8 Entendimento e Preparação dos Dados (1 de 3) ~1 milhão de registros ~ 13.000 prestadores ~ R$ 65.000.000,00 Extração Inicial - Origem – Sistema de cobranças (Base SQL) - Período: jan-dez 2013 - Filtros: Pessoas físicas, consultas, autorizador externo
  • 9. 9 Entendimento e Preparação dos Dados (2 de 3) Conjunto de dados inicial Variáveis iniciais ~1 milhão de registros ~ 13.000 prestadores ~ R$ 65.000.000,00 Extração Inicial - Origem – Sistema de cobranças (Base SQL) - Período: jan-dez 2013 - Filtros: Pessoas físicas, consultas, autorizador externo Manipulação: R Studio
  • 10. 10 Entendimento e Preparação dos Dados (3 de 3) Distribuição de “Qtde. de consultas por dia” ~99% de registros < 1% de registros Máx. = 93 consultas por dia
  • 11. 11 Entendimento do negócio (novamente) Consulta aos especialistas: Quantidade máxima de consultas por dia? ~ 15 mins. por consulta 08 horas por dia (x) 60mins = 480 mins. 480/15 = 32 consultas por dia 18 prestadores Valor envolvido: R$ 600.000,00
  • 12. Limite Cobrança incorreta, porém justificável 12 Entendimento do negócio – Problemas! Falsos Positivos
  • 13. Falsos Negativos 13 Entendimento do negócio – Problemas! Limite Limite
  • 14. Frequência: Qtde. de dias com atendimentos no mês Alerta: Qtde. de visitas distintas em um único dia Volume: Qtde. de pacientes atendidos no mês 14 Entendimento do negócio – Novas variáveis
  • 15. 15 Preparação dos dados – Novas variáveis Variáveis iniciais
  • 16. Novas variáveis Alerta FrequênciaVolume 16 Preparação dos dados – Novas variáveis Variáveis iniciais
  • 17. 17 Modelagem – Novas Variáveis Clusterização de registros cuja variável “QTDE POR DIA” se encontram mais distantes da média (Média + (6 * Desv.Padrão)) = 10.6 consultas por dia Novo subconjunto: ~2.000 registros
  • 18. 18 Modelagem – Clusterização do Novo Subconjunto via K-Means (i)
  • 19. 19 Modelagem – Clusterização do Novo Subconjunto via K-Means (ii) Qtde. de registros e prestadores em cada cluster
  • 20. 20 Evaluation – Means and S.D. for variables in each cluster Qtde. de registros e prestadores em cada cluster Análise: Média e D.P. de cada variável, em cada cluster
  • 21. 21 Simulação: Probabilidade que registros com características do Cluster 03 (média e DP) seriam encontrados nos Clusters 01, 02, 04 Evaluation – Simulated distrbution – Means and S.D. for variables in Cluster 03
  • 22. 22 Implantação – Resultados / Conclusões (i) Foco: Clusters com menos registros, maior probabilidade de cobranças abusivas Necessário verificar novos prestadores (54)
  • 23. 23 Suspeitos confirmados = monitoramento / possível descredenciamento Implantação – Resultados / Conclusões (ii) Vantagens / Trabalhos Futuros • Sem necessidade de estabelecer limites por procedimentos • Pode ser ajustado para diminuir incidência de falsos positivos (importante para outros tipos de procedimento) • Comportamento de “verdadeiros positivos” pode servir como padrão para investigações futuras (e para criação de controles de sistema) • Expansão para outros procedimentos e tipos de prestador Confirmação por meio de análise de guias físicias e entrevistas
  • 24. Setembro 2015 Obrigado! Tiago Pereira Hillerman MPCA UnB – Computação Aplicada, Universidade de Brasília t_hillerman@yahoo.com.br / 61 9339 0000
  • 25. 25
  • 26. 26 Definindo o número de clusters Métricas NbClust • Índices de eficiência para cada n número de clusters Exemplos: Dunn’s index: “qualidade” baseada na distância entre clusters e diâmetro de cada cluster Silhouette: calcula “semelhança” (baseada em distância) de objetos em cada cluster, comparada com a semelhança nos demais clusters. É utilizada como indicador a média do conjunto de agrupamentos.