A segmentação de clientes é fundamental para criações de ações e estratégicas para cada segmento de acordo com as suas especificidades e minimização de Churn.
Face exposto, desenvolveu-se este estudo aplicando o algoritmo Expectation-Maximization de modo a obter os segmentos dos clientes e extrair insights para o negócio.
Brazil paper_A busca pela eficiência em tempos de crise_not for printing
Algoritmo para segmentar clientes bancários - Churn.pdf
1. ALGORITMO PARA SEGMENTAR
CLIENTES BANCÁRIOS - CHURN
Emanuel De Jesus Ramos Correia Borges
&
Rosângela Sofia Vieira Moniz
Pós-Graduação em Estatı́stica Computacional e Análise de Dados
Junho de 2021
Emanuel & Rosângela () Algoritmo para segmentar clientes bancários 1/ 17 Junho de 2021 1 / 18
2. Estrutura de trabalho
1 Introdução:
Objetivo;
Metodologia.
2 Aplicações e resultados:
Análise exploratória dos dados;
Algoritmo Expectation-Maximization.
3 Considerações finais;
4 Referencias bibliográficas.
Emanuel & Rosângela () Algoritmo para segmentar clientes bancários 2/ 17 Junho de 2021 2 / 18
3. Resumo
1 Introdução
Introdução
Metodologia
2 Aplicações e Resultados
Análise exploratória dos dados
Algoritmo Expectation-Maximization
Considerações
Emanuel & Rosângela () Algoritmo para segmentar clientes bancários 3/ 17 Junho de 2021 3 / 18
4. Introdução
Entender porque os clientes abandonam os bancos é fun-
damental para o negócio, uma vez que, o Churn tem efeito ne-
gativo, e por conseguinte, gera grandes prejuı́zos os bancos.
Face ao exposto, desenvolveu-se este estudo com principal
propósito de extrair insights para minimizar churn aplicando o
algoritmo Expectation-Maximization, em que os clientes serão
segmentados por grupos.
O que permitirá ao banco entender o comportamento dos
segmentos de clientes, criar ações, estratégias para cada seg-
mento, e, quiçá, conquistá-los e retê-los.
Emanuel & Rosângela () Algoritmo para segmentar clientes bancários 4/ 17 Junho de 2021 4 / 18
5. Metodologia
A metodologia carateriza-se como um estudo quantitativo e
preditiva, dado que, está relacionado a uma abordagem prática,
relacionado a análise de dados e segmentação dos clientes.
Para a realização deste estudo foi utilizada uma carteira de
10.000 clientes1, que por sua vez foi dividido em:
Treino (70%) Teste (30%)
1
www.kaggle.com
Emanuel & Rosângela () Algoritmo para segmentar clientes bancários 5/ 17 Junho de 2021 5 / 18
6. Variáveis em estudo
Yi =
1, se o cliente abandonou.
0, se o cliente não abandonou.
Variável Tipo Categoria
CreditoScore Quantitativo -
Idade Quantitativo -
Tempo como cliente Quantitativo -
Saldo na conta Quantitativo -
Salário estimado Quantitativo -
Número produto Quantitativo -
Género Categórica
Masculino
Feminino
Nacionalidade Categórica
França
Espanha
Alemanha
Tem cartões Categórica
Sim
Não
Membro ativo Categórica
Sim
Não
Emanuel Rosângela () Algoritmo para segmentar clientes bancários 6/ 17 Junho de 2021 6 / 18
7. Resumo
1 Introdução
Introdução
Metodologia
2 Aplicações e Resultados
Análise exploratória dos dados
Algoritmo Expectation-Maximization
Considerações
Emanuel Rosângela () Algoritmo para segmentar clientes bancários 7/ 17 Junho de 2021 7 / 18
8. Análise exploratória dos dados
Efetuou-se a análise exploratória, com o intuito de conhecer melhor as
variáveis em estudo, sumarizá-lo e descrever os aspetos importantes, explo-
rando o comportamento dos dados através de tabelas e gráficos.
Emanuel Rosângela () Algoritmo para segmentar clientes bancários 8/ 17 Junho de 2021 8 / 18
9. Análise exploratória dos dados
Para analisar as medidas de localização, dispersão, assimetria, compri-
mento de cauda e outliers foi analisado o gráfico de boxplot. Do mesmo,
nota-se existências de vários outliers na variável idade.
Emanuel Rosângela () Algoritmo para segmentar clientes bancários 9/ 17 Junho de 2021 9 / 18
10. Algoritmo Expectation-Maximization
O algoritmo Expectation-Maximization é utilizado para encontrar parâmetros
de máxima verossimilhança de um modelo estatı́stico quando as equações
não podem ser resolvidas diretamente.
Na função de verossimilhança infra a estimativa de máxima verossimilhança
(MLE) dos parâmetros desconhecidos é determinada maximizando a verossimilhança
marginal dos dados observados.
L (θX; Z) = p (X, Z | θ) (1)
Onde:
X - um conjunto dos dados observados;
Z - um conjunto de dados latentes não observados (ou valores ausentes);
θ - Num vetor de parâmetros desconhecidos.
L (θ; X) = p (X | θ) (2)
=
Z
p (X, Z | θ) dZ
Emanuel Rosângela () Algoritmo para segmentar clientes bancários 10/ 17Junho de 2021 10 / 18
11. Algoritmo Expectation-Maximization
O Algoritmo EM foi utilizado inicialmente com todas as variáveis, todavia
os resultados não foram satisfatórios. Desta feita, optou-se por utilizar apenas
para as variáveis: credito score, idade, saldo em conta e salário estimado.
Primeiramente, o algoritmo estima o número de clusters/segmento que
melhor representa a nossa carteira e também a estrutura de covariância dos
pontos de propagação.
Figura: Estatı́stica dos cluster (amostra teste)
A figura supra apresenta a estatı́stica dos cluster, sendo que pelo algo-
ritmo obtivemos um total de 9 cluster, que é o número necessário para se
ajustar a carteira dos clientes.
Emanuel Rosângela () Algoritmo para segmentar clientes bancários 11/ 17Junho de 2021 11 / 18
12. Algoritmo Expectation-Maximization
A figura abaixo representa a densidade dos cluster, dado que, o Algoritmo
Expectation-Maximization assume que todas as densidades de componentes
surgem da mesma famı́lia de distribuição paramétrica.
Figura: Densidade dos cluster
Emanuel Rosângela () Algoritmo para segmentar clientes bancários 12/ 17Junho de 2021 12 / 18
14. Algoritmo Expectation-Maximization
Após obter os cluster é necessário conhecer as suas caraterı́sticas, neste
caso é vital o uso de boxplot, para que possamos conhecê-los, extrair insights
para a tomada de decisão e criações de estratégicas especı́ficas para cada
cluster/segmento.
Figura: Caraterı́sticas dos segmento e insights encontrados
Emanuel Rosângela () Algoritmo para segmentar clientes bancários 14/ 17Junho de 2021 14 / 18
15. Extração de insights
Com base nos segmentos podemos constatar que:
Segmento 3: este segmento ostenta os clientes com maiores salários.
Sendo assim, devem ser dados uma atenção especial, uma vez que
apresentam maior poder de compra e poderão ser os clientes mais
rentáveis para o banco.
Em contrapartida, este segmento apresenta clientes com credito
score2
(equilı́brio) mais baixo. Indicando que clientes deste segmento
têm alta probabilidade de abandonar o banco.
Segmento 4: representam o segmento jovem, dado que, apresentam
idade compreendido entre 20 a 35 anos) e grande maioria não abando-
naram o banco.
Segmento 5: uma boa percentagem destes clientes já abandonaram o
banco e apresentam idade consideravelmente alto (50% com mais de
45 anos).
2
esta variável afeta a rotatividade de clientes, pois um cliente com uma pontuação
de crédito mais alta tem menos probabilidade de sair do banco
Emanuel Rosângela () Algoritmo para segmentar clientes bancários 15/ 17Junho de 2021 15 / 18
16. Extração de insights
Segmento 6: este segmento representa os clientes mais velhos, sendo que 50%
tem mais de 60 anos. Portanto, grande proporção (a volta de 50%) já abandona-
ram o banco.
Ainda é de salientar, que já erra esperado que abandonavam o banco tendo
em conta o fator idade, e por conseguinte, a reforma (e outros fatores).
Segmento 7, 8 e 9: estes segmentos apresentam praticamente as mesmas cara-
terı́stica no concernente a idade, credito score (equilı́brio) e abandono. Todavia,
discernem quanto a salário:
Segmento 7 tem salário muito baixo, portanto apresentam baixo poder de
compra. Logo, poderão não ter condições para adquirir certos produtos.
Segmento 9 salário médio;
Segmento 8 salários mais elevados que os anteriores.
Emanuel Rosângela () Algoritmo para segmentar clientes bancários 16/ 17Junho de 2021 16 / 18
17. Algumas considerações
1 O propósito deste estudo foi a aplicação do algoritmo Expectation-
Maximization (que está na base de muitos algoritmos de agrupamento
não supervisionados no campo de machine learning) de modo a extrair
insights para minimizar churn e criar estratégias para cada segmento de
clientes.
2 O algoritmo Expectation-Maximization comparativamente com algoritmo
k-means, apresenta maior nı́vel de flexibilidade em relação à covariância
de cluster nos Modelos de Mistura Gaussiana (GMMs) em comparação
com o agrupamento de K-means por causa do conceito de desvio
padrão.
3 Após a aplicação do algoritmo os clientes foram agrupados em 9 seg-
mentos, na qual foi extraı́da insights para a tomada de decisão, suporte
ao negócio, e consequentemente, criações de estratégicas especı́ficas
para cada segmento.
Emanuel Rosângela () Algoritmo para segmentar clientes bancários 17/ 17Junho de 2021 17 / 18
18. Referencias bibliográficas
Caffo, B., W .Jank, and G. Jones.
Ascent−based monte carlo expectation−maximization: 235−25.
J. Roy. Stat. Soc. B 67(2), 2005.
Carvalho, Helena.
Análise Multivariada de Dados Qualitativos.
Edições Silabo, 2017.
Costa, Joaquim.
Slides do curso:.
Statistical Learning, Pós-graduação Estatı́stica Computacional e Análise de Dados, 1a
edição, Universidade
de Cabo Verde em parceria com Faculdade de Ciências da Universidade de Porto, 2021.
C., Fraley, A. E. Raftery.
Model-based clustering, discriminant analysis, and density estimation.
Journal of the American Statistical Association, 97:611:631.
Reis, Elizabeth.
Estatı́stica Multivariada Aplicada.
Edições Silabo, Segunda edição, 2001.
Rocha, Miguel, Paulo Cortez, José Maia Neves.
Análise Inteligente de Dados. Algoritmo e Implementação em Java.
FCA - Editora de Informática, 2008.
Emanuel Rosângela () Algoritmo para segmentar clientes bancários 18/ 17Junho de 2021 18 / 18