Análise de Cobranças Médicas com K-means

Setembro 2015
Análise de Cobranças Suspeitas
de Consultas Médicas
Utilizando o Algoritmo K-means

Introdução / Contexto
Metodologia
Entendimento do Negócio
Entendimento e Preparação
dos Dados
Modelagem e Avaliação
Implementação
Conclusões e
Aplicações
Futuras
2
Agenda

Aumento de custos de saúde
~10 – 20% do PIB (Brasil / EUA)
Dificuldades em avaliar dados de cobranças
3
Inconsistências, Desperdícios e Abusos
Estimativa: 10-15% das despesas, dependendo do país
• Cobranças excessivas
• Procedimentos / materiais / medicamentos desnecessários
• Despesas com serviços não prestados
• Volume de registros
• Regras de negócio para cada procedimento
• Ausência de análise comportamental de
cobranças de prestadores
Introdução
CONTEXTO

Objetivo Principal
4
Detectar cobranças excessivas oriundas de prestadores de serviços
assistenciais
• Foco: Consultas médicas
• Hipótese: “Dia impossível”
Metodologia
CRISP-DM
Fonte: CHAPMAN et. al., 2000
Detecção de anomalias
Clusterização K-means
Abordagem não supervisionada

Clusterização - K-Means
Agrupamento de objetos por semelhança (distância)
A
Exemplo: 3 Clusters (K = centróides)
B
C
D
E
F
1.
Centróides
iniciais
aleatórios
C1
C2
C3
2.
Vinculação de
pontos mais
próximos
3.
Atualização
de centróides
4.
Nova
vinculação
F
C1
C2
C3
A
B
C
D
E
F
C1
C2
C3
A
C1
C2
C3
A
B
C
D
E
D
E
F
B
C
A
B
C
D
E
F
5
Lloyd (1957), Hartigan and Wong (1975)

A
6
Alternativa: Método do “cotovelo” / (Soma de erros)
A
C1
C2
D
E
F
B
C
C3
D
E
F
B
C
C1
C2
“Soma” das distâncias entre os pontos e seus centróides,
Considerando diferentes quantidades de clusters
Menor erro = “melhor” representação
K = 2 K = 3
Definindo o número de agrupamentos (clusters)

7
Entendimento do Negócio
Possível abuso: Serviços não prestados – “dia impossível”
Ausência de controles:
Qtde. de prestadores/procedimento por paciente, por dia
(Ex. coparticipação)
Qtde. de pacientes por prestador, por dia
Comportamento de prestadores em relação aos pares
Instituição avaliada
Operadora de planos de saúde - Autogestão
Despesas em 2014 – aprox. R$ 3 bilhões
Rede de Prestadores:
Pessoas Jurídicas: Hospitais, clínicas, laboratórios
(maioria) Pessoas Físicas: Médicos, especialistas, terapeutas

Conjunto de dados inicial
Variáveis iniciais
8
Entendimento e Preparação dos Dados (1 de 3)
~1 milhão de registros
~ 13.000 prestadores
~ R$ 65.000.000,00
Extração Inicial
- Origem – Sistema de cobranças (Base SQL)
- Período: jan-dez 2013
- Filtros: Pessoas físicas, consultas, autorizador externo

9
Conjunto de dados inicial
Variáveis iniciais
~1 milhão de registros
~ 13.000 prestadores
~ R$ 65.000.000,00
Extração Inicial
- Origem – Sistema de cobranças (Base SQL)
- Período: jan-dez 2013
- Filtros: Pessoas físicas, consultas, autorizador externo
Manipulação: R Studio

10
Distribuição de “Qtde. de consultas por dia”
~99% de registros < 1% de registros
Máx. = 93
consultas
por dia

11
Entendimento do negócio (novamente)
Consulta aos especialistas:
Quantidade máxima de consultas por dia?
~ 15 mins. por consulta
08 horas por dia (x) 60mins = 480 mins.
480/15 = 32 consultas por dia
18 prestadores
Valor envolvido:
R$ 600.000,00

Limite
Cobrança incorreta, porém justificável
12
Entendimento do negócio – Problemas!
Falsos Positivos

Falsos Negativos
13
Entendimento do negócio – Problemas!
Limite
Limite

Frequência: Qtde. de dias com atendimentos no mês
Alerta: Qtde. de visitas distintas
em um único dia
Volume:
Qtde. de pacientes
atendidos no mês
14
Entendimento do negócio – Novas variáveis

15
Preparação dos dados – Novas variáveis
Variáveis iniciais

Novas variáveis
Alerta FrequênciaVolume
16
Preparação dos dados – Novas variáveis
Variáveis iniciais

17
Modelagem – Novas Variáveis
Clusterização de registros cuja variável “QTDE POR
DIA” se encontram mais distantes da média
(Média + (6 * Desv.Padrão)) = 10.6 consultas por dia
Novo subconjunto: ~2.000 registros

18
Modelagem – Clusterização do Novo Subconjunto via K-Means (i)

19
Modelagem – Clusterização do Novo Subconjunto via K-Means (ii)
Qtde. de registros e prestadores em cada cluster

20
Evaluation – Means and S.D. for variables in each cluster
Qtde. de registros e prestadores em cada cluster
Análise: Média e D.P. de cada variável, em cada cluster

21
Simulação: Probabilidade que registros com características do Cluster 03 (média e DP)
seriam encontrados nos Clusters 01, 02, 04
Evaluation – Simulated distrbution –
Means and S.D. for variables in Cluster 03

22
Implantação – Resultados / Conclusões (i)
Foco: Clusters com menos registros, maior
probabilidade de cobranças abusivas
Necessário verificar novos prestadores (54)

23
Suspeitos confirmados = monitoramento / possível descredenciamento
Implantação – Resultados / Conclusões (ii)
Vantagens / Trabalhos Futuros
• Sem necessidade de estabelecer limites por procedimentos
• Pode ser ajustado para diminuir incidência de falsos positivos
(importante para outros tipos de procedimento)
• Comportamento de “verdadeiros positivos” pode servir como padrão para
investigações futuras (e para criação de controles de sistema)
• Expansão para outros procedimentos e tipos de prestador
Confirmação por meio de análise de guias físicias e entrevistas

Setembro 2015
Obrigado!
Tiago Pereira Hillerman
MPCA UnB – Computação Aplicada, Universidade de Brasília
t_hillerman@yahoo.com.br / 61 9339 0000

26
Definindo o número de clusters
Métricas NbClust
• Índices de eficiência para cada n número de clusters
Exemplos:
Dunn’s index: “qualidade” baseada na distância entre clusters e
diâmetro de cada cluster
Silhouette: calcula “semelhança” (baseada em distância) de objetos
em cada cluster, comparada com a semelhança nos demais clusters.
É utilizada como indicador a média do conjunto de agrupamentos.

Análise de Cobranças Médicas com K-means

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (10)

Similaire à Análise de Cobranças Médicas com K-means

Similaire à Análise de Cobranças Médicas com K-means (20)

Plus de Tribunal de Contas da União - TCU (Oficial)

Plus de Tribunal de Contas da União - TCU (Oficial) (20)

Análise de Cobranças Médicas com K-means