Brasil 100% Digital - O evento teve como principal objetivo a troca de experiências relacionadas ao uso de técnicas avançadas de análise de dados como instrumento para melhoria da gestão e do controle de entidades e políticas públicas. Espera-se que os debates contribuam para que as instituições participantes possam iniciar ou intensificar a adoção de tais técnicas, de modo a obter maior eficiência e efetividade em suas atividades.
3. Aumento de custos de saúde
~10 – 20% do PIB (Brasil / EUA)
Dificuldades em avaliar dados de cobranças
3
Inconsistências, Desperdícios e Abusos
Estimativa: 10-15% das despesas, dependendo do país
• Cobranças excessivas
• Procedimentos / materiais / medicamentos desnecessários
• Despesas com serviços não prestados
• Volume de registros
• Regras de negócio para cada procedimento
• Ausência de análise comportamental de
cobranças de prestadores
Introdução
CONTEXTO
4. Objetivo Principal
4
Detectar cobranças excessivas oriundas de prestadores de serviços
assistenciais
• Foco: Consultas médicas
• Hipótese: “Dia impossível”
Metodologia
CRISP-DM
Fonte: CHAPMAN et. al., 2000
Detecção de anomalias
Clusterização K-means
Abordagem não supervisionada
5. Clusterização - K-Means
Agrupamento de objetos por semelhança (distância)
A
Exemplo: 3 Clusters (K = centróides)
B
C
D
E
F
1.
Centróides
iniciais
aleatórios
C1
C2
C3
2.
Vinculação de
pontos mais
próximos
3.
Atualização
de centróides
4.
Nova
vinculação
F
C1
C2
C3
A
B
C
D
E
F
C1
C2
C3
A
C1
C2
C3
A
B
C
D
E
D
E
F
B
C
A
B
C
D
E
F
5
Lloyd (1957), Hartigan and Wong (1975)
6. A
6
Alternativa: Método do “cotovelo” / (Soma de erros)
A
C1
C2
D
E
F
B
C
C3
D
E
F
B
C
C1
C2
“Soma” das distâncias entre os pontos e seus centróides,
Considerando diferentes quantidades de clusters
Menor erro = “melhor” representação
K = 2 K = 3
Definindo o número de agrupamentos (clusters)
7. 7
Entendimento do Negócio
Possível abuso: Serviços não prestados – “dia impossível”
Ausência de controles:
Qtde. de prestadores/procedimento por paciente, por dia
(Ex. coparticipação)
Qtde. de pacientes por prestador, por dia
Comportamento de prestadores em relação aos pares
Instituição avaliada
Operadora de planos de saúde - Autogestão
Despesas em 2014 – aprox. R$ 3 bilhões
Rede de Prestadores:
Pessoas Jurídicas: Hospitais, clínicas, laboratórios
(maioria) Pessoas Físicas: Médicos, especialistas, terapeutas
8. Conjunto de dados inicial
Variáveis iniciais
8
Entendimento e Preparação dos Dados (1 de 3)
~1 milhão de registros
~ 13.000 prestadores
~ R$ 65.000.000,00
Extração Inicial
- Origem – Sistema de cobranças (Base SQL)
- Período: jan-dez 2013
- Filtros: Pessoas físicas, consultas, autorizador externo
9. 9
Entendimento e Preparação dos Dados (2 de 3)
Conjunto de dados inicial
Variáveis iniciais
~1 milhão de registros
~ 13.000 prestadores
~ R$ 65.000.000,00
Extração Inicial
- Origem – Sistema de cobranças (Base SQL)
- Período: jan-dez 2013
- Filtros: Pessoas físicas, consultas, autorizador externo
Manipulação: R Studio
10. 10
Entendimento e Preparação dos Dados (3 de 3)
Distribuição de “Qtde. de consultas por dia”
~99% de registros < 1% de registros
Máx. = 93
consultas
por dia
11. 11
Entendimento do negócio (novamente)
Consulta aos especialistas:
Quantidade máxima de consultas por dia?
~ 15 mins. por consulta
08 horas por dia (x) 60mins = 480 mins.
480/15 = 32 consultas por dia
18 prestadores
Valor envolvido:
R$ 600.000,00
14. Frequência: Qtde. de dias com atendimentos no mês
Alerta: Qtde. de visitas distintas
em um único dia
Volume:
Qtde. de pacientes
atendidos no mês
14
Entendimento do negócio – Novas variáveis
17. 17
Modelagem – Novas Variáveis
Clusterização de registros cuja variável “QTDE POR
DIA” se encontram mais distantes da média
(Média + (6 * Desv.Padrão)) = 10.6 consultas por dia
Novo subconjunto: ~2.000 registros
19. 19
Modelagem – Clusterização do Novo Subconjunto via K-Means (ii)
Qtde. de registros e prestadores em cada cluster
20. 20
Evaluation – Means and S.D. for variables in each cluster
Qtde. de registros e prestadores em cada cluster
Análise: Média e D.P. de cada variável, em cada cluster
21. 21
Simulação: Probabilidade que registros com características do Cluster 03 (média e DP)
seriam encontrados nos Clusters 01, 02, 04
Evaluation – Simulated distrbution –
Means and S.D. for variables in Cluster 03
22. 22
Implantação – Resultados / Conclusões (i)
Foco: Clusters com menos registros, maior
probabilidade de cobranças abusivas
Necessário verificar novos prestadores (54)
23. 23
Suspeitos confirmados = monitoramento / possível descredenciamento
Implantação – Resultados / Conclusões (ii)
Vantagens / Trabalhos Futuros
• Sem necessidade de estabelecer limites por procedimentos
• Pode ser ajustado para diminuir incidência de falsos positivos
(importante para outros tipos de procedimento)
• Comportamento de “verdadeiros positivos” pode servir como padrão para
investigações futuras (e para criação de controles de sistema)
• Expansão para outros procedimentos e tipos de prestador
Confirmação por meio de análise de guias físicias e entrevistas
26. 26
Definindo o número de clusters
Métricas NbClust
• Índices de eficiência para cada n número de clusters
Exemplos:
Dunn’s index: “qualidade” baseada na distância entre clusters e
diâmetro de cada cluster
Silhouette: calcula “semelhança” (baseada em distância) de objetos
em cada cluster, comparada com a semelhança nos demais clusters.
É utilizada como indicador a média do conjunto de agrupamentos.