SlideShare une entreprise Scribd logo
ALGORITMO PARA SEGMENTAR
CLIENTES BANCÁRIOS - CHURN
Emanuel De Jesus Ramos Correia Borges
&
Rosângela Sofia Vieira Moniz
Pós-Graduação em Estatı́stica Computacional e Análise de Dados
Junho de 2021
Emanuel & Rosângela () Algoritmo para segmentar clientes bancários 1/ 17 Junho de 2021 1 / 18
Estrutura de trabalho
1 Introdução:
Objetivo;
Metodologia.
2 Aplicações e resultados:
Análise exploratória dos dados;
Algoritmo Expectation-Maximization.
3 Considerações finais;
4 Referencias bibliográficas.
Emanuel & Rosângela () Algoritmo para segmentar clientes bancários 2/ 17 Junho de 2021 2 / 18
Resumo
1 Introdução
Introdução
Metodologia
2 Aplicações e Resultados
Análise exploratória dos dados
Algoritmo Expectation-Maximization
Considerações
Emanuel & Rosângela () Algoritmo para segmentar clientes bancários 3/ 17 Junho de 2021 3 / 18
Introdução
Entender porque os clientes abandonam os bancos é fun-
damental para o negócio, uma vez que, o Churn tem efeito ne-
gativo, e por conseguinte, gera grandes prejuı́zos os bancos.
Face ao exposto, desenvolveu-se este estudo com principal
propósito de extrair insights para minimizar churn aplicando o
algoritmo Expectation-Maximization, em que os clientes serão
segmentados por grupos.
O que permitirá ao banco entender o comportamento dos
segmentos de clientes, criar ações, estratégias para cada seg-
mento, e, quiçá, conquistá-los e retê-los.
Emanuel & Rosângela () Algoritmo para segmentar clientes bancários 4/ 17 Junho de 2021 4 / 18
Metodologia
A metodologia carateriza-se como um estudo quantitativo e
preditiva, dado que, está relacionado a uma abordagem prática,
relacionado a análise de dados e segmentação dos clientes.
Para a realização deste estudo foi utilizada uma carteira de
10.000 clientes1, que por sua vez foi dividido em:
Treino (70%) Teste (30%)
1
www.kaggle.com
Emanuel & Rosângela () Algoritmo para segmentar clientes bancários 5/ 17 Junho de 2021 5 / 18
Variáveis em estudo
Yi =

1, se o cliente abandonou.
0, se o cliente não abandonou.
Variável Tipo Categoria
CreditoScore Quantitativo -
Idade Quantitativo -
Tempo como cliente Quantitativo -
Saldo na conta Quantitativo -
Salário estimado Quantitativo -
Número produto Quantitativo -
Género Categórica
Masculino
Feminino
Nacionalidade Categórica
França
Espanha
Alemanha
Tem cartões Categórica
Sim
Não
Membro ativo Categórica
Sim
Não
Emanuel  Rosângela () Algoritmo para segmentar clientes bancários 6/ 17 Junho de 2021 6 / 18
Resumo
1 Introdução
Introdução
Metodologia
2 Aplicações e Resultados
Análise exploratória dos dados
Algoritmo Expectation-Maximization
Considerações
Emanuel  Rosângela () Algoritmo para segmentar clientes bancários 7/ 17 Junho de 2021 7 / 18
Análise exploratória dos dados
Efetuou-se a análise exploratória, com o intuito de conhecer melhor as
variáveis em estudo, sumarizá-lo e descrever os aspetos importantes, explo-
rando o comportamento dos dados através de tabelas e gráficos.
Emanuel  Rosângela () Algoritmo para segmentar clientes bancários 8/ 17 Junho de 2021 8 / 18
Análise exploratória dos dados
Para analisar as medidas de localização, dispersão, assimetria, compri-
mento de cauda e outliers foi analisado o gráfico de boxplot. Do mesmo,
nota-se existências de vários outliers na variável idade.
Emanuel  Rosângela () Algoritmo para segmentar clientes bancários 9/ 17 Junho de 2021 9 / 18
Algoritmo Expectation-Maximization
O algoritmo Expectation-Maximization é utilizado para encontrar parâmetros
de máxima verossimilhança de um modelo estatı́stico quando as equações
não podem ser resolvidas diretamente.
Na função de verossimilhança infra a estimativa de máxima verossimilhança
(MLE) dos parâmetros desconhecidos é determinada maximizando a verossimilhança
marginal dos dados observados.
L (θX; Z) = p (X, Z | θ) (1)
Onde:
X - um conjunto dos dados observados;
Z - um conjunto de dados latentes não observados (ou valores ausentes);
θ - Num vetor de parâmetros desconhecidos.
L (θ; X) = p (X | θ) (2)
=
Z
p (X, Z | θ) dZ
Emanuel  Rosângela () Algoritmo para segmentar clientes bancários 10/ 17Junho de 2021 10 / 18
Algoritmo Expectation-Maximization
O Algoritmo EM foi utilizado inicialmente com todas as variáveis, todavia
os resultados não foram satisfatórios. Desta feita, optou-se por utilizar apenas
para as variáveis: credito score, idade, saldo em conta e salário estimado.
Primeiramente, o algoritmo estima o número de clusters/segmento que
melhor representa a nossa carteira e também a estrutura de covariância dos
pontos de propagação.
Figura: Estatı́stica dos cluster (amostra teste)
A figura supra apresenta a estatı́stica dos cluster, sendo que pelo algo-
ritmo obtivemos um total de 9 cluster, que é o número necessário para se
ajustar a carteira dos clientes.
Emanuel  Rosângela () Algoritmo para segmentar clientes bancários 11/ 17Junho de 2021 11 / 18
Algoritmo Expectation-Maximization
A figura abaixo representa a densidade dos cluster, dado que, o Algoritmo
Expectation-Maximization assume que todas as densidades de componentes
surgem da mesma famı́lia de distribuição paramétrica.
Figura: Densidade dos cluster
Emanuel  Rosângela () Algoritmo para segmentar clientes bancários 12/ 17Junho de 2021 12 / 18
Algoritmo Expectation-Maximization
Figura: Visualização dos cluster
Amostra treino (7.000 clientes)
Emanuel  Rosângela () Algoritmo para segmentar clientes bancários 13/ 17Junho de 2021 13 / 18
Algoritmo Expectation-Maximization
Após obter os cluster é necessário conhecer as suas caraterı́sticas, neste
caso é vital o uso de boxplot, para que possamos conhecê-los, extrair insights
para a tomada de decisão e criações de estratégicas especı́ficas para cada
cluster/segmento.
Figura: Caraterı́sticas dos segmento e insights encontrados
Emanuel  Rosângela () Algoritmo para segmentar clientes bancários 14/ 17Junho de 2021 14 / 18
Extração de insights
Com base nos segmentos podemos constatar que:
Segmento 3: este segmento ostenta os clientes com maiores salários.
Sendo assim, devem ser dados uma atenção especial, uma vez que
apresentam maior poder de compra e poderão ser os clientes mais
rentáveis para o banco.
Em contrapartida, este segmento apresenta clientes com credito
score2
(equilı́brio) mais baixo. Indicando que clientes deste segmento
têm alta probabilidade de abandonar o banco.
Segmento 4: representam o segmento jovem, dado que, apresentam
idade compreendido entre 20 a 35 anos) e grande maioria não abando-
naram o banco.
Segmento 5: uma boa percentagem destes clientes já abandonaram o
banco e apresentam idade consideravelmente alto (50% com mais de
45 anos).
2
esta variável afeta a rotatividade de clientes, pois um cliente com uma pontuação
de crédito mais alta tem menos probabilidade de sair do banco
Emanuel  Rosângela () Algoritmo para segmentar clientes bancários 15/ 17Junho de 2021 15 / 18
Extração de insights
Segmento 6: este segmento representa os clientes mais velhos, sendo que 50%
tem mais de 60 anos. Portanto, grande proporção (a volta de 50%) já abandona-
ram o banco.
Ainda é de salientar, que já erra esperado que abandonavam o banco tendo
em conta o fator idade, e por conseguinte, a reforma (e outros fatores).
Segmento 7, 8 e 9: estes segmentos apresentam praticamente as mesmas cara-
terı́stica no concernente a idade, credito score (equilı́brio) e abandono. Todavia,
discernem quanto a salário:
Segmento 7 tem salário muito baixo, portanto apresentam baixo poder de
compra. Logo, poderão não ter condições para adquirir certos produtos.
Segmento 9 salário médio;
Segmento 8 salários mais elevados que os anteriores.
Emanuel  Rosângela () Algoritmo para segmentar clientes bancários 16/ 17Junho de 2021 16 / 18
Algumas considerações
1 O propósito deste estudo foi a aplicação do algoritmo Expectation-
Maximization (que está na base de muitos algoritmos de agrupamento
não supervisionados no campo de machine learning) de modo a extrair
insights para minimizar churn e criar estratégias para cada segmento de
clientes.
2 O algoritmo Expectation-Maximization comparativamente com algoritmo
k-means, apresenta maior nı́vel de flexibilidade em relação à covariância
de cluster nos Modelos de Mistura Gaussiana (GMMs) em comparação
com o agrupamento de K-means por causa do conceito de desvio
padrão.
3 Após a aplicação do algoritmo os clientes foram agrupados em 9 seg-
mentos, na qual foi extraı́da insights para a tomada de decisão, suporte
ao negócio, e consequentemente, criações de estratégicas especı́ficas
para cada segmento.
Emanuel  Rosângela () Algoritmo para segmentar clientes bancários 17/ 17Junho de 2021 17 / 18
Referencias bibliográficas
Caffo, B., W .Jank, and G. Jones.
Ascent−based monte carlo expectation−maximization: 235−25.
J. Roy. Stat. Soc. B 67(2), 2005.
Carvalho, Helena.
Análise Multivariada de Dados Qualitativos.
Edições Silabo, 2017.
Costa, Joaquim.
Slides do curso:.
Statistical Learning, Pós-graduação Estatı́stica Computacional e Análise de Dados, 1a
edição, Universidade
de Cabo Verde em parceria com Faculdade de Ciências da Universidade de Porto, 2021.
C., Fraley, A. E. Raftery.
Model-based clustering, discriminant analysis, and density estimation.
Journal of the American Statistical Association, 97:611:631.
Reis, Elizabeth.
Estatı́stica Multivariada Aplicada.
Edições Silabo, Segunda edição, 2001.
Rocha, Miguel, Paulo Cortez, José Maia Neves.
Análise Inteligente de Dados. Algoritmo e Implementação em Java.
FCA - Editora de Informática, 2008.
Emanuel  Rosângela () Algoritmo para segmentar clientes bancários 18/ 17Junho de 2021 18 / 18

Contenu connexe

Similaire à Algoritmo para segmentar clientes bancários - Churn.pdf

Modulo II Parte 4 Plano de Negócio.pptx2
Modulo II Parte 4 Plano de Negócio.pptx2Modulo II Parte 4 Plano de Negócio.pptx2
Modulo II Parte 4 Plano de Negócio.pptx2thiago barbosa da silva
 
ANÁLISE DE ESTRATÉGIAS NO AMBIENTE DE MARKETING DIGITAL E e-COMMERCE: a estr...
 ANÁLISE DE ESTRATÉGIAS NO AMBIENTE DE MARKETING DIGITAL E e-COMMERCE: a estr... ANÁLISE DE ESTRATÉGIAS NO AMBIENTE DE MARKETING DIGITAL E e-COMMERCE: a estr...
ANÁLISE DE ESTRATÉGIAS NO AMBIENTE DE MARKETING DIGITAL E e-COMMERCE: a estr...Erich Lacerda
 
Artigo: O GAP entre Inteligência Competitiva e Forecasting: antecipar o futur...
Artigo: O GAP entre Inteligência Competitiva e Forecasting: antecipar o futur...Artigo: O GAP entre Inteligência Competitiva e Forecasting: antecipar o futur...
Artigo: O GAP entre Inteligência Competitiva e Forecasting: antecipar o futur...REVIE Inteligencia Empresarial
 
Brazil paper_A busca pela eficiência em tempos de crise_not for printing
Brazil paper_A busca pela eficiência em tempos de crise_not for printingBrazil paper_A busca pela eficiência em tempos de crise_not for printing
Brazil paper_A busca pela eficiência em tempos de crise_not for printingBrice Barberon
 

Similaire à Algoritmo para segmentar clientes bancários - Churn.pdf (7)

Simulador de Negócios
Simulador de NegóciosSimulador de Negócios
Simulador de Negócios
 
Trabalho grupo 03 meo
Trabalho grupo 03 meoTrabalho grupo 03 meo
Trabalho grupo 03 meo
 
Modulo II Parte 4 Plano de Negócio.pptx2
Modulo II Parte 4 Plano de Negócio.pptx2Modulo II Parte 4 Plano de Negócio.pptx2
Modulo II Parte 4 Plano de Negócio.pptx2
 
ANÁLISE DE ESTRATÉGIAS NO AMBIENTE DE MARKETING DIGITAL E e-COMMERCE: a estr...
 ANÁLISE DE ESTRATÉGIAS NO AMBIENTE DE MARKETING DIGITAL E e-COMMERCE: a estr... ANÁLISE DE ESTRATÉGIAS NO AMBIENTE DE MARKETING DIGITAL E e-COMMERCE: a estr...
ANÁLISE DE ESTRATÉGIAS NO AMBIENTE DE MARKETING DIGITAL E e-COMMERCE: a estr...
 
Modelagem Revistas
Modelagem RevistasModelagem Revistas
Modelagem Revistas
 
Artigo: O GAP entre Inteligência Competitiva e Forecasting: antecipar o futur...
Artigo: O GAP entre Inteligência Competitiva e Forecasting: antecipar o futur...Artigo: O GAP entre Inteligência Competitiva e Forecasting: antecipar o futur...
Artigo: O GAP entre Inteligência Competitiva e Forecasting: antecipar o futur...
 
Brazil paper_A busca pela eficiência em tempos de crise_not for printing
Brazil paper_A busca pela eficiência em tempos de crise_not for printingBrazil paper_A busca pela eficiência em tempos de crise_not for printing
Brazil paper_A busca pela eficiência em tempos de crise_not for printing
 

Algoritmo para segmentar clientes bancários - Churn.pdf

  • 1. ALGORITMO PARA SEGMENTAR CLIENTES BANCÁRIOS - CHURN Emanuel De Jesus Ramos Correia Borges & Rosângela Sofia Vieira Moniz Pós-Graduação em Estatı́stica Computacional e Análise de Dados Junho de 2021 Emanuel & Rosângela () Algoritmo para segmentar clientes bancários 1/ 17 Junho de 2021 1 / 18
  • 2. Estrutura de trabalho 1 Introdução: Objetivo; Metodologia. 2 Aplicações e resultados: Análise exploratória dos dados; Algoritmo Expectation-Maximization. 3 Considerações finais; 4 Referencias bibliográficas. Emanuel & Rosângela () Algoritmo para segmentar clientes bancários 2/ 17 Junho de 2021 2 / 18
  • 3. Resumo 1 Introdução Introdução Metodologia 2 Aplicações e Resultados Análise exploratória dos dados Algoritmo Expectation-Maximization Considerações Emanuel & Rosângela () Algoritmo para segmentar clientes bancários 3/ 17 Junho de 2021 3 / 18
  • 4. Introdução Entender porque os clientes abandonam os bancos é fun- damental para o negócio, uma vez que, o Churn tem efeito ne- gativo, e por conseguinte, gera grandes prejuı́zos os bancos. Face ao exposto, desenvolveu-se este estudo com principal propósito de extrair insights para minimizar churn aplicando o algoritmo Expectation-Maximization, em que os clientes serão segmentados por grupos. O que permitirá ao banco entender o comportamento dos segmentos de clientes, criar ações, estratégias para cada seg- mento, e, quiçá, conquistá-los e retê-los. Emanuel & Rosângela () Algoritmo para segmentar clientes bancários 4/ 17 Junho de 2021 4 / 18
  • 5. Metodologia A metodologia carateriza-se como um estudo quantitativo e preditiva, dado que, está relacionado a uma abordagem prática, relacionado a análise de dados e segmentação dos clientes. Para a realização deste estudo foi utilizada uma carteira de 10.000 clientes1, que por sua vez foi dividido em: Treino (70%) Teste (30%) 1 www.kaggle.com Emanuel & Rosângela () Algoritmo para segmentar clientes bancários 5/ 17 Junho de 2021 5 / 18
  • 6. Variáveis em estudo Yi = 1, se o cliente abandonou. 0, se o cliente não abandonou. Variável Tipo Categoria CreditoScore Quantitativo - Idade Quantitativo - Tempo como cliente Quantitativo - Saldo na conta Quantitativo - Salário estimado Quantitativo - Número produto Quantitativo - Género Categórica Masculino Feminino Nacionalidade Categórica França Espanha Alemanha Tem cartões Categórica Sim Não Membro ativo Categórica Sim Não Emanuel Rosângela () Algoritmo para segmentar clientes bancários 6/ 17 Junho de 2021 6 / 18
  • 7. Resumo 1 Introdução Introdução Metodologia 2 Aplicações e Resultados Análise exploratória dos dados Algoritmo Expectation-Maximization Considerações Emanuel Rosângela () Algoritmo para segmentar clientes bancários 7/ 17 Junho de 2021 7 / 18
  • 8. Análise exploratória dos dados Efetuou-se a análise exploratória, com o intuito de conhecer melhor as variáveis em estudo, sumarizá-lo e descrever os aspetos importantes, explo- rando o comportamento dos dados através de tabelas e gráficos. Emanuel Rosângela () Algoritmo para segmentar clientes bancários 8/ 17 Junho de 2021 8 / 18
  • 9. Análise exploratória dos dados Para analisar as medidas de localização, dispersão, assimetria, compri- mento de cauda e outliers foi analisado o gráfico de boxplot. Do mesmo, nota-se existências de vários outliers na variável idade. Emanuel Rosângela () Algoritmo para segmentar clientes bancários 9/ 17 Junho de 2021 9 / 18
  • 10. Algoritmo Expectation-Maximization O algoritmo Expectation-Maximization é utilizado para encontrar parâmetros de máxima verossimilhança de um modelo estatı́stico quando as equações não podem ser resolvidas diretamente. Na função de verossimilhança infra a estimativa de máxima verossimilhança (MLE) dos parâmetros desconhecidos é determinada maximizando a verossimilhança marginal dos dados observados. L (θX; Z) = p (X, Z | θ) (1) Onde: X - um conjunto dos dados observados; Z - um conjunto de dados latentes não observados (ou valores ausentes); θ - Num vetor de parâmetros desconhecidos. L (θ; X) = p (X | θ) (2) = Z p (X, Z | θ) dZ Emanuel Rosângela () Algoritmo para segmentar clientes bancários 10/ 17Junho de 2021 10 / 18
  • 11. Algoritmo Expectation-Maximization O Algoritmo EM foi utilizado inicialmente com todas as variáveis, todavia os resultados não foram satisfatórios. Desta feita, optou-se por utilizar apenas para as variáveis: credito score, idade, saldo em conta e salário estimado. Primeiramente, o algoritmo estima o número de clusters/segmento que melhor representa a nossa carteira e também a estrutura de covariância dos pontos de propagação. Figura: Estatı́stica dos cluster (amostra teste) A figura supra apresenta a estatı́stica dos cluster, sendo que pelo algo- ritmo obtivemos um total de 9 cluster, que é o número necessário para se ajustar a carteira dos clientes. Emanuel Rosângela () Algoritmo para segmentar clientes bancários 11/ 17Junho de 2021 11 / 18
  • 12. Algoritmo Expectation-Maximization A figura abaixo representa a densidade dos cluster, dado que, o Algoritmo Expectation-Maximization assume que todas as densidades de componentes surgem da mesma famı́lia de distribuição paramétrica. Figura: Densidade dos cluster Emanuel Rosângela () Algoritmo para segmentar clientes bancários 12/ 17Junho de 2021 12 / 18
  • 13. Algoritmo Expectation-Maximization Figura: Visualização dos cluster Amostra treino (7.000 clientes) Emanuel Rosângela () Algoritmo para segmentar clientes bancários 13/ 17Junho de 2021 13 / 18
  • 14. Algoritmo Expectation-Maximization Após obter os cluster é necessário conhecer as suas caraterı́sticas, neste caso é vital o uso de boxplot, para que possamos conhecê-los, extrair insights para a tomada de decisão e criações de estratégicas especı́ficas para cada cluster/segmento. Figura: Caraterı́sticas dos segmento e insights encontrados Emanuel Rosângela () Algoritmo para segmentar clientes bancários 14/ 17Junho de 2021 14 / 18
  • 15. Extração de insights Com base nos segmentos podemos constatar que: Segmento 3: este segmento ostenta os clientes com maiores salários. Sendo assim, devem ser dados uma atenção especial, uma vez que apresentam maior poder de compra e poderão ser os clientes mais rentáveis para o banco. Em contrapartida, este segmento apresenta clientes com credito score2 (equilı́brio) mais baixo. Indicando que clientes deste segmento têm alta probabilidade de abandonar o banco. Segmento 4: representam o segmento jovem, dado que, apresentam idade compreendido entre 20 a 35 anos) e grande maioria não abando- naram o banco. Segmento 5: uma boa percentagem destes clientes já abandonaram o banco e apresentam idade consideravelmente alto (50% com mais de 45 anos). 2 esta variável afeta a rotatividade de clientes, pois um cliente com uma pontuação de crédito mais alta tem menos probabilidade de sair do banco Emanuel Rosângela () Algoritmo para segmentar clientes bancários 15/ 17Junho de 2021 15 / 18
  • 16. Extração de insights Segmento 6: este segmento representa os clientes mais velhos, sendo que 50% tem mais de 60 anos. Portanto, grande proporção (a volta de 50%) já abandona- ram o banco. Ainda é de salientar, que já erra esperado que abandonavam o banco tendo em conta o fator idade, e por conseguinte, a reforma (e outros fatores). Segmento 7, 8 e 9: estes segmentos apresentam praticamente as mesmas cara- terı́stica no concernente a idade, credito score (equilı́brio) e abandono. Todavia, discernem quanto a salário: Segmento 7 tem salário muito baixo, portanto apresentam baixo poder de compra. Logo, poderão não ter condições para adquirir certos produtos. Segmento 9 salário médio; Segmento 8 salários mais elevados que os anteriores. Emanuel Rosângela () Algoritmo para segmentar clientes bancários 16/ 17Junho de 2021 16 / 18
  • 17. Algumas considerações 1 O propósito deste estudo foi a aplicação do algoritmo Expectation- Maximization (que está na base de muitos algoritmos de agrupamento não supervisionados no campo de machine learning) de modo a extrair insights para minimizar churn e criar estratégias para cada segmento de clientes. 2 O algoritmo Expectation-Maximization comparativamente com algoritmo k-means, apresenta maior nı́vel de flexibilidade em relação à covariância de cluster nos Modelos de Mistura Gaussiana (GMMs) em comparação com o agrupamento de K-means por causa do conceito de desvio padrão. 3 Após a aplicação do algoritmo os clientes foram agrupados em 9 seg- mentos, na qual foi extraı́da insights para a tomada de decisão, suporte ao negócio, e consequentemente, criações de estratégicas especı́ficas para cada segmento. Emanuel Rosângela () Algoritmo para segmentar clientes bancários 17/ 17Junho de 2021 17 / 18
  • 18. Referencias bibliográficas Caffo, B., W .Jank, and G. Jones. Ascent−based monte carlo expectation−maximization: 235−25. J. Roy. Stat. Soc. B 67(2), 2005. Carvalho, Helena. Análise Multivariada de Dados Qualitativos. Edições Silabo, 2017. Costa, Joaquim. Slides do curso:. Statistical Learning, Pós-graduação Estatı́stica Computacional e Análise de Dados, 1a edição, Universidade de Cabo Verde em parceria com Faculdade de Ciências da Universidade de Porto, 2021. C., Fraley, A. E. Raftery. Model-based clustering, discriminant analysis, and density estimation. Journal of the American Statistical Association, 97:611:631. Reis, Elizabeth. Estatı́stica Multivariada Aplicada. Edições Silabo, Segunda edição, 2001. Rocha, Miguel, Paulo Cortez, José Maia Neves. Análise Inteligente de Dados. Algoritmo e Implementação em Java. FCA - Editora de Informática, 2008. Emanuel Rosângela () Algoritmo para segmentar clientes bancários 18/ 17Junho de 2021 18 / 18