O presente artigo objetivará a evolução de regras
de decisão por Algoritmos Genéticos as quais
classifiquem corretamente futuros clientes
evasivos para a empresa. Em estratégias de
marketing, é de grande dúvida para a empresa
quais clientes abordar numa campanha, ou quais
clientes apresentam maiores chances de evasão.
Para responderem a isto, muitos pesquisadores
têm recorrido a informações de recência,
freqüência e valor do cliente, na mineração de
conhecimento valioso o qual possa ser utilizado.
Algoritmos Genéticos demonstrará um diferencial
competitivo na explicitação deste conhecimento,
pois permitirá uma simples integração com
processos empresaria, de fácil entendimento para
o usuário.
Análise RFV do Cliente na Otimização de Estratégias de Marketing
1. Publicado na RICA – Revista de Inteligência Computacional Aplicada, ano 2009, número 2.
Análise RFV do Cliente na Otimização de Estratégias de Marketing: Uma
Abordagem por Algoritmos Genéticos
Anderson Guimarães de Pinho
Pontifícia Universidade Católica do Rio de Janeiro – Rio de Janeiro – RJ – Brasil
agp.net@gmail.com
Resumo Nestes casos, a análise de RFV pode conter
O presente artigo objetivará a evolução de regras informação valiosa para a empresa na resposta a
de decisão por Algoritmos Genéticos as quais estes questionamentos. Toda esta informação
classifiquem corretamente futuros clientes necessária para análise, encontra-se em histórico
evasivos para a empresa. Em estratégias de transacional de vendas a clientes disponível nos
marketing, é de grande dúvida para a empresa bancos de dados de grandes empresas.
quais clientes abordar numa campanha, ou quais
clientes apresentam maiores chances de evasão. São dos mais diversos, os estudos envolvendo
Para responderem a isto, muitos pesquisadores RFV. Num primeiro exemplo, Peter et al (2005)
têm recorrido a informações de recência, apresentou um modelo estocástico estimar o Valor
freqüência e valor do cliente, na mineração de Financeiro do Tempo de Vida do Cliente
conhecimento valioso o qual possa ser utilizado. (Customer Life Time Value ou CLTV), utilizando
Algoritmos Genéticos demonstrará um diferencial como variáveis explicativas RFV em empresas
competitivo na explicitação deste conhecimento, com vínculo não contratual. Em um segundo
pois permitirá uma simples integração com estudo, Colombo et al (1999) introduz um simples
processos empresaria, de fácil entendimento para modelo estocástico baseado em RFV para
o usuário. responder a quais clientes uma firma deve focar
Palavras-chave: para fazer uma oferta de produto. Ambos estudos
Análise RFV, algoritmos genéticos, data levam em comum o mesmo princípio
mining, previsão a churn, computação motivacional: medidas comportamentais de
evolucionária. clientes são indicadores chaves para predizer
comportamento futuro.
Sobre o problema de Colombo, sabemos que as
1. Introdução empresas podem maximizar o retorno de
campanhas e minimizar custos de marketing se
RFV (ou RFM em algumas literaturas) entende-se souberem quais clientes endereçar uma ação de
como recência, freqüência e valor monetário do venda. Estes clientes podem ser assim
cliente. Recência como uma medida de quanto considerados de maior valor para a empresa, pois
tempo se passou desde a última transação com a seu comportamento passado indica uma intenção
empresa. Freqüência como uma medida de quão positiva de manutenção do relacionamento.
freqüente um cliente efetua transações. E Valor
Monetário como o gasto médio feito por Por outro lado, clientes menos valiosos seriam
transação. aqueles que não apresentam uma intenção de
recompra futura. Conseqüentemente,
Estratégias baseadas em RFV buscam métricas ou apresentariam baixas chances de resposta a uma
regras para avaliar o comportamento e valor do ação de venda marketing, seja ela de cross-selling
cliente para a empresa. Perguntas como “quais ou up-selling (Berry, 115).
clientes devem ser impactados por uma ação de
marketing” ou “quais clientes são mais valiosos No entanto, é importante dizer que não há
para a empresa em termos de contribuição garantias de que após um longo período de
financeira passada e futura” são encontradas inatividade, um cliente dado no passado como
freqüentemente por pesquisadores na gestão do baixa chance de recompra, virá a efetuar uma
relacionamento com o cliente (Customer transação. Em casos afirmativos, dizemos que o
Relationship Management ou CRM). evento “transação com a empresa” representa um
processo sem memória, de difícil modelagem,
onde a ocorrência depende somente de um
2. Publicado na RICA – Revista de Inteligência Computacional Aplicada, ano 2009, número 2.
instante de tempo imediatamente anterior ao Para problemas mais simples como a classificação
ocorrido (que neste caso, encontra-se também no de dois grupos de clientes, muitas outras técnicas
futuro). de menos complexidade (em comparação à
modelagem estocástica) têm sido aplicadas.
Por estes motivos, empresas não se preocupam em Kuman (2005, p.129-132) destaca o uso da
investigar um comportamento de compra futuro Regressão Logística e Árvore de Decisão como
tão distante, uma vez que a dinâmica de mercados solução a problemas envolvendo RFV. Tais
mais longínquos pode não ter dependência ou técnicas apresentam suas características, as quais
correlação com o presente. Em outras palavras, as dividem pesquisadores e acadêmicos na sua
chances de um cliente se tornar de alto valor num aplicação.
futuro distante, dificilmente encontrariam
explicações no comportamento presente. Neste artigo, abordaremos a técnica de Algoritmos
Genéticos (Michalewicz, 1999) para problemas de
Numa visão inversa ao problema de Colombo, classificação de grupos. Veremos que esta técnica
poderíamos trabalhar ações de marketing se apresentará como um diferencial competitivo,
específicas para clientes com menos chances de pois fornecerá uma solução de fácil entendimento
respostas. Tais ações teriam como objetivo a e implementação em sistemas de informação
mudança comportamental em termos de recência, através da evolução de regras de classificação.
freqüência e valor, afim de transformá-los em Desta forma, tecnologia, pessoas e processos
maior valor para a empresa. numa empresa poderiam se alinhar de forma a
contemplarem um novo conhecimento descoberto,
Como por exemplo, suponha uma empresa aumentando lucros e competitividade no mercado.
administradora de investimentos na Bolsa de
Valores de São Paulo (BOVESPA). Para clientes
com baixa intenção de manutenção do
relacionamento, poderiam ser oferecidos cursos e 2. Customer Life Time Duration (CLTD)
palestras sobre investimentos em ações. Tal ação e RFV
teria como objetivo secundário, oferecer aos
clientes ferramental intelectual, o suficiente para O paradigma dos problemas de RFV apresenta-se
que estes possam continuar operando no mercado como o seguinte: clientes com baixa recência, alta
de ações pela empresa administradora. freqüência, e alto valor, apresentarão um alto
Conseqüentemente, o aumento de lucros CLTD e conseqüentemente estarão mais dispostos
peloaumento do tempo de relacionamento. a manter um vínculo contínuo com a empresa,
respondendo melhor a campanhas de marketing.
Embora a discriminação de clientes mais e menos Contrariamente, clientes com alta recência, baixa
valiosos atenda a múltiplos objetivos, este último freqüência e baixo valor, são mais propensos à
apresentado torna-se mais atraente, pois vai ao interrupção do vínculo empresarial, respondendo
encontro com a retenção de clientes ativos na base pior a campanhas, pois já sem encontram no fim
de dados como conseqüência do aumento da do CLTD.
duração do tempo de vida do cliente (Customer
Life Time Duration ou CLTD). Sendo assim, esta Quando se fala sobre CLTD, nem todas as
será a principal motivação de nossos estudos nos relações cliente-empresa são iguais. Dependendo
próximos capítulos. do tipo de serviço ou produto ofertado, clientes
podem assumir um relacionamento contratual ou
A figura a seguir mostra a distinção destes dois não contratual. Conforme se observa em Kuman
grupos acima discutidos: (p.103), casos contratuais constituem a mais
precisa observação do tempo de vida do cliente.
Figura 1 Uma simples medida do tempo decorrido desde o
início do relacionamento (ou início de uma janela
Tipos de Clientes em Análise de RFV
de análise) até o fim do relacionamento (ou fim de
(1) (2) uma janela de análise) pode ser obtida facilmente,
determinando assim o CLTD. Desta forma, um
Maiores Chances Menores Chances cliente torna-se inativo quando não ocorre uma
Recompra. Recompra. renovação de contrato. Neste caso, dizemos que
Alto Valor. Baixo Valor.
Alto CLTD Futuro. Baixo CLTD Futuro. ocorreu uma evasão ou “churn” de cliente.
3. Publicado na RICA – Revista de Inteligência Computacional Aplicada, ano 2009, número 2.
Já em casos não contratuais, onde não há uma soluções são comparadas, e as mais aptas terão
informação explícita sobre o fim de um mais chances de cruzarem entre si informação
relacionamento. Clientes neste mercado não têm importante para o problema, produzindo soluções
barreiras que os empeçam de continuar ou ainda mais aptas (Larose, p. 240).
interromper o relacionamento quando bem
quiserem, sem alguma comunicação formal à Em AGs, várias soluções (ou indivíduos) são
empresa. O que nos proporcionará o ambiente consideradas em paralelo a cada geração. Cada
ideal para aplicação de Algoritmos Genéticos. indivíduo possui os parâmetros necessários para
resolução do problema, representados através de
Nestes ambientes não contratuais, a forma mais um cromossoma (ou string de caracteres), através
utilizada para cálculo do CLTD é emular uma do qual obtém-se um valor de aptidão da solução.
regra de classificação de clientes ativos ou Cada cromossoma pode-se ser dividido em genes,
inativos em um tempo finito de relacionamento. que são pedaços ou blocos de DNA designados
Por exemplo, poderíamos definir uma regra para codificarem uma determinada característica
baseada em RFV passado, para classificar clientes (exemplo: sexo). A apresentação de uma
ativos e inativos após três meses de determinada característica por um gene é dita
relacionamento, caracterizando previamente o fim como alelo, e a posição que ela ocupa no
ou manutenção do CLTD. Isto ofereceria cromossoma como locus.
parâmetros suficientes para que gestores de
relacionamento ao cliente pudessem agir AGs evoluem para soluções ótimas através de um
preventivamente na retenção destes classificados processo adaptativo com o qual novos indivíduos
como futuros inativos, maximizando lucros da são gerados, a partir dos operadores de seleção,
empresa pela permanência prolongada do status cruzamento e mutação de antigos indivíduos. A
ativo. Conforme se observa em Karine (apud seleção ocorre antes dos operadores genéticos de
Reichheld & Sasser Jr., 1990), dependendo do crossover e mutação. Indivíduos são selecionados
setor de atuação, as empresas podem rentabilizar com base no seu valor de aptidão. Quanto maior a
seus negócios em lucros de 25% a 85%, reduzindo aptidão, maior é a probabilidade do indivíduo ser
em apenas 5% a perda de clientes. selecionado para cruzamento. O cruzamento, por
sua vez, ocorre com a combinação de dois
Por estes motivos, ações focadas em grupos com indivíduos selecionados, através da troca de partes
maiores chances de evasão (menor chance de do cromossoma de cada solução. E por último, o
resposta a uma ação) passa a ser bastante atraente, operador de mutação, quando da troca aleatória no
pois vai ao encontro com a lucratividade futura da gene sorteado de um cromossoma por um outro
empresa e uma série de outros aspectos como alelo.
satisfação e lealdade, sendo assim a estratégia
defendida neste artigo. Por diversos artigos e livros terem abordado esta
técnica extensivamente, não entraremos em
detalhe sobre operadores, técnicas e parâmetros de
um GA, válida a exceção do problema abordada
3. Introdução a Técnica de Algoritmos neste artigo sobre a evasão de clientes numa
Genéticos empresa. Para estudos mais detalhados sobre AGs,
recomendamos a leitura de [1].
Desenvolvido por John Holland na década de 60 e
70 [1], Algoritmos Genéticos (AGs) fornecem um
mecanismo de busca adaptativa, inspirado na
evolução natural de Darwin e reprodução genética 4. A Empresa e o Problema de Churn de
humana, para resolução de problemas complexos Clientes
de otimização. Fatores biológicos como seleção,
reprodução, cruzamento e mutação de informação A empresa em estudo trata-se de uma
genética fornecem a estrutura necessária para administradora de investimentos com grande
resolução de problemas por AGs. atuação na Bovespa (Bolsa de Valores do Estado
de São Paulo). Clientes que optam por investir
No mundo natural, restrições e incentivos de um pelo sistema Home Broker executam ordens
ambiente em particular forçam diferentes espécies online, diversificando seus investimentos em até 4
(e indivíduos dentro das espécies) a competirem e categorias de investimentos: (1) compra e venda
cruzarem para produção de filhos mais aptos. No de ações; (2) cotas em fundos de investimentos;
mundo de AGs, a aptidão de várias potenciais
4. Publicado na RICA – Revista de Inteligência Computacional Aplicada, ano 2009, número 2.
(3) bolsa de mercadorias e valores futuros (ou Esta última definição de valor seria um problema,
Bm&f); (4) e títulos do tesouro direto. pois pouco explicaria o potencial financeiro do
cliente em questão, uma vez que o montante
O problema da empresa apresenta-se da seguinte movimentado não é considerado no cálculo. Uma
forma: clientes após a inclusão na base de dados e medida mais eficiente para Valor seria “a média
início das operações no sistema home broker, de valor movimento por ordem executada até um
apresentam um decréscimo significativo na instante de tempo t”, e certamente seria mais
atividade até o 4º mês de relacionamento, discriminatória que a anterior.
identificado pela não intenção de continuar
investindo. É fato para a empresa que após o 4º t
mês de relacionamento clientes que decidem por ValorMovimentado i
continuar suas operações na bolsa ou outro tipo de ValorCliente (t ) i 1
t
(2)
investimento o fazem continuamente ao longo de Ordensi
i 1
um horizonte de 12 meses ou mais.
Para que isto fique claro, apresentaremos o gráfico Para Freqüência, definimos como “a média
a seguir. Para tanto, separamos 12 safras mensais mensal do número de ordens executadas até um
de entrada de cliente ao longo do ano de 2006, e instante de tempo t”.
verificou-se o status do cliente, mês a mês, por um t
período seguinte de 12 meses. Quando no mês de Ordensi
análise, após a inclusão no cadastro da empresa, Freqüência Cliente (t ) i 1
(3)
não era verificada nenhuma operação no sistema t
home broker, o cliente era marcado como inativo.
Contrariamente, recebia a marcação de ativo, caso E por último, Recência, como “o tempo de
viesse a efetuar alguma ordem de investimento no decorrido (em dias) até um instante de tempo t,
mês. desde a última ordem executada”.
Gráfico 1 Sendo assim, para nosso problema,
consideraremos t = 3 representando o terceiro mês
Curvas de Atividade e Inatividade de relacionamento do cliente. Com isto,
buscaremos através da técnica de Algoritmos
100
Ativos Inativos Genéticos descobrir regras que classifiquem
80
futuros clientes inativos a partir do 4º mês de
relacionamento. Desta forma, a empresa em
% Classe
60
questão poderá agir preventivamente através de
40
ações de marketing de relacionamento, buscando
20
a retenção destes clientes com maiores chances de
0
1 2 3 4 5 6 7 8 9 10 11 12 evasão, chamados na literatura de RFV como de
Tempo de Relacionamento menor valor ou baixo CLTD futuro.
Neste tipo de negócio, empresas gestoras de
investimentos geralmente obtêm lucros através de
uma taxa % sobre o valor movimento e/ou uma 5. Evolução de Regras de Decisão por
constante sobre cada ordem executada. Na Algoritmos Genéticos
empresa em análise, lucros provêm somente sobre
uma valor constante para cada ordem executada. A descoberta de conhecimento em grandes bancos
de dados, ou data mining, tem inspirado muitos
Desta forma, podemos definir como variável de pesquisadores nos mais diversos campos da
Valor, os lucros obtidos por quantidade de ordens ciência. Uma dificuldade em processos de
executadas por cada cliente até um instante de knowledge discover database (KDD), trata-se da
tempo t dado pela função abaixo, onde t é uma extração do conhecimento correto, de fácil
medida mensal: compreensão, e de grande utilidade para o
usuário. Berry divide em 5 as responsabilidades
t atribuídas a mineração de dados em processos
ValorCliente (t ) Ordensi Const. (1) KDD: (1) classificação; (2) associação de regras;
i 1
(3) perfilação de clientes; (4) clusterização; (5)
estimação; e (6) predição.
5. Publicado na RICA – Revista de Inteligência Computacional Aplicada, ano 2009, número 2.
Observaremos que AGs podem revelar empresa. Para ilustrarmos nosso raciocínio e
conhecimento de extrema simplicidade na solução utilizando um mercado hipotético, poderíamos
de problemas do tipo classificação, através da dizer que um comportamento em termos de
extração de regras de grande banco de dados. recência do cliente superior a 20 dias sem operar
Regras do tipo IF ... THEN, onde a parte IF se na bolsa seria típico de um futuro cliente evasivo,
refere a um conjunto de atributos preditores ou mas que em outra época com menor instabilidade
independentes, e THEN a um atributo dependente, econômica, isto seria esperado do cliente. Desta
ou seja, a classe de predição (Santos et al, 1999). forma, optou-se por trabalhar com decis de
Desta forma, quando um conjunto de valores de recência, freqüência, e valor, como
características antecedentes for verdadeiro, seria em modelos clássicos de RFV (Kuman,
poderemos afirmar com uma certa chance de p.119), ao invés dos valores como apresentados
acerto, que uma classe de interesse específica é no capítulo 3.
conseqüente.
O banco de dados utilizado apresenta uma
Para sermos mais específicos, voltemos ao amostra de 14.799 clientes (linhas). As variáveis
problema da empresa em estudo. Dado um padrão de RFV (colunas) apresentam o seguinte domínio:
nos três primeiros meses de relacionamento em R (dias) pertence ao Dom {0; 90}; F (média de
termos de RFV do cliente (antecedentes), ordens executadas mês) ao Dom {0,333; 2,86 x
poderemos classificá-lo como um futuro cliente 10A}; e V (média de valor executado por ordem)
inativo ou não, a partir do 4º mês, interrompendo ao Dom {3,485 x 10B ; 4,085 x 10C}. 1 Sendo
assim o CLTD (conseqüente). Neste sentido, AGs assim, cada uma das variáveis foi codificada no
extrairão conhecimento o suficiente para intervalo de 1 a 10, conforme os decis de suas
responder a este tipo de problema de classificação. distribuições de freqüência.
Figura 2
6. Modelagem por Algoritmos Genéticos Representação dos Decis de RFV
R F V
6.1. Representação 1 Mais 1 Maior 1 Maior
2 Recente 2 Freqüência 2 Valor
Como mencionado, faz-se necessária a 3 3 3
4 4 4
representação de uma solução por um string de 5 5 5
caracteres ou cromossoma. Marco [14] detalha 6 6 6
7 7 7
como até 6 as formas de se representar um
8 8 8
cromossoma dependendo do tipo do problema. 9 Menos 9 Menor 9 Menor
São elas a binária, real, lista, vetor, inteiro, e 10 Recente 10 Freqüência 10 Valor
mista. A escolha da representação é importante,
pois em alguns casos podem levar a problemas de Como estratégia de representação de problemas de
convergência prematura do algoritmo, inabilidade mineração envolvendo AGs, decidimos por
de operar na presença de restrições não triviais representar simultaneamente 4+1 regras potenciais
e/ou inabilidade de operar localmente ao ótimo para classificação de clientes evasivos. Quatro,
global (Michalewicz, p.97). pois acreditamos ser o suficiente para solução do
problema, tendo em vista 4 cluster (ou perfis) de
Neste artigo não trataremos as vantagens e
clientes pré identificados num outro instante, com
desvantagens de uma forma de representação a
a utilização de Redes Neurais Artificiais e Mapas
outra, no problema em destaque. Simplesmente
de Kohonen (Haykin, p.483). E 1 regra adicional,
ficaremos sujeitos a forma de representação do
para critério de desempate de classes, conforme
software aqui utilizado (Evolver 4.0 for Excel) na
decodificação a ser detalhada em 6.2. Sendo
forma de números reais e/ou inteiros dependendo
assim, para representar um cromossoma,
do usuário.
utilizaríamos uma lista de números reais com 24
Em mercados como o de investimento, o posições, cada qual assumindo valores de 1 a 10,
comportamento em termos de RFV tem grande
correlação com outras variáveis externas sócio-
econômicas. Desta forma, é de grande 1
preocupação que o modelo aqui objetivado seja o Por motivos de segurança, os dados de F e V da empresa aqui
utilizados, quando mencionados, serão multiplicados por um
menos dependente de comportamentos exógenos à escalar de 10 a menos A, B, ou C.
6. Publicado na RICA – Revista de Inteligência Computacional Aplicada, ano 2009, número 2.
o que nos dá um espaço de busca de 1024 possíveis Tabela 1
soluções. A seguir:
Espaços de Ocorrência de um Cromossoma
Figura 3
Classificada
Classes
Representação do Cromossoma Evasivo Retido Total
Observada
Evasivo A B (A+B)
Regra 1
R F V ... Retido C D (C+D)
Mín Máx Mín Máx Mín Máx Total (A+C) (B+D) (A+B+C+D)
I { 1; 10} I { 1; 10} I { 1; 10} I { 1; 10} I { 1; 10} I { 1; 10}
….
Regra 5
R F V
Onde A, B, C, e D são números inteiros, dados
Mín Máx Mín Máx Mín Máx pelas clientes pertencentes a estas categorias.
I { 1; 10} I { 1; 10} I { 1; 10} I { 1; 10} I { 1; 10} I { 1; 10} Defini-se então a acurácia de um cromossoma i
como:
Ai
6.2. Decodificação Ac i (4)
( Ai Ci )
A decodificação de uma possível solução para
classificar futuros clientes evasivos seguiria o E abrangência como:
seguinte raciocínio: dado um cromossoma i, se
pela Regra1 um cliente apresenta-se a Ri entre
Ai
Min(R1) e Máx(R1) e Fi entre Min(F1) e Máx(F1) e Abi (5)
Vi entre Min(V1) e Máx(V1), este seria ( Ai Bi )
classificado como cliente evasivo. Era feito o
mesmo raciocínio para todas as outras regras (R2 Suponham que a hipótese nula, Ho, de um modelo
até R5), e ao final classificava-se o cliente na estatístico seja: assumir que todos os clientes são
classe com maior número de votos. Exemplo: Seja futuros clientes evasivos. Podemos definir dois
um cliente avaliado pelo cromossoma i, sua tipos de erros encontrados em testes de hipóteses
avaliação recebeu três votos na categoria de estatísticos (Bussab, p.323) O primeiro, erro do
evasivo dados pelas regras R1, R3, e R4, e 2 votos tipo 1, a probabilidade de eu rejeitar Ho dado que
para a categoria de retido pela regras R2 e R5. ela é verdadeira, ou seja, a probabilidade de eu
Desta forma, classificou-se este cliente como assumir que o cliente é futuro retido, dado que ele
futuro evasivo. Por isso utilizou-se uma 5 regra será um futuro evasivo. O segundo, erro do tipo 2,
adicional no cromossoma, para que não houvesse seria a probabilidade de eu aceitar H0, dado que
empate de classes. H0 é falsa. Podemos definir então ambos erros,
para um cromossoma i, da seguinte forma:
Bi
6.3. Avaliação ET 1i (6)
( Ai Bi )
A avaliação de um cromossoma i, pertencente a
uma população na geração j, requer a leitura de Ci
toda uma base de dados de clientes. A forma mais ET 2 i (7)
usual de efetuar esta avaliação é utilizar a ( Ai Ci )
acurácia e abrangência de um cromossoma em
toda a base de dados de clientes. Acurácia como o Sendo assim podemos dizer que uma boa solução
% de acerto dado pelo modelo na classe para o problema seria aquela que maximiza-se a
objetivada pelo problema (em nosso caso clientes Aci e Abi, e minimizassem os ET1i e ET2i.
evasivos), e abrangência como o % de cobertura Reparem que Aci = (1 - ET2i), e Abi = (1 - ET1i).
da classe objetivada na base utilizada. Reparem também que estamos lidando com
múltiplos objetivos na avaliação de um
A modelagem de um problema que classifique cromossoma. Para problemas desta natureza, pode
corretamente futuros clientes como evasivos ou utilizar uma combinação de múltiplos objetivos
retidos, apresenta 4 possíveis ocorrência em numa única função f, de tal forma a maximizá-la
virtude de seu histórico passado observado, ou minimizá-la, de acordo com suas
conforme tabela abaixo.
7. Publicado na RICA – Revista de Inteligência Computacional Aplicada, ano 2009, número 2.
características. Para o nosso problema, utilizou-se hipótese nula de um modelo estatístico (H0), ou
como objetivo a maximização da função abaixo. seja, considerar a priori que todos os clientes são
futuros evasivos.
( Ai Di )
f ( Ac i , Abi , ET 1i , ETi ) (8) Sendo assim, o cromossoma que representa esta
(Ci Bi ) hipótese nula trata-se de um string onde em um
locus ímpar o valor seria igual a 1, e locus par,
Percebam que a maximização da função acima valor igual a 10. Desta forma, qualquer que fosse
atende aos quatro objetivos aqui detalhados: o cliente testado, atenderia sempre as 5 regras
maximizar acurácia e abrangência, e minimizar representadas no cromossoma, recebendo 5 votos
erros do tipo 1 e 2. para a classe de evasivos.
Figura 4
7. Resultados obtidos Representação do Cromossoma Ho
Para evolução das espécies de cromossomas Regra 1
R F V ...
utlizou-se o software Evolver 4.0 for Excel. Nesta Mín Máx Mín Máx Mín Máx
etapa, clientes foram separados em dois grupos de 1 10 1
….
10 1 10
análise. O primeiro consistia numa amostra Regra 5
equilibrada de 5000 clientes evasivos, e 5000 R F V
Mín Máx Mín Máx Mín Máx
retidos, os quais foi utilizado para avaliação das 1 10 1 10 1 10
regras evoluídas em todos os passos da
modelagem. O segundo grupo foi usado como A inclusão deste cromossoma na população
controle para avaliação do potencial de demonstrou significativos avanços na direção de
generalização das regras obtidas, e consistiu numa convergência do AG. No entanto, eram comuns o
amostra de 1.085 clientes evasivos e 3.714 retidos. encontro e convergência de regras com grande
abrangência e baixa acurácia, digamos, Ab = 90%
Para os operadores genéticos, utilizamos o e Ac=34%.
crossover uniforme para troca genética entre
soluções, mutação como na forma clássica em Como trabalhávamos com amostras equilibradas,
AG, e elitismo para seleção do melhor indivíduo a obtenção do máximo global somente aconteceria
na próxima geração. Muitos testes foram feitos quando Ab fosse o mais próximo possível de Ac.
inicialmente para determinar as taxas de crossover Regras as quais obtivessem estes resultados em
e mutação – constantes em todo o processo de comparação as demais, certamente deveriam ser
evolução –, bem como o número de geração e favorecidas. Para tanto, inclui-se uma função de
tamanho da população, mas nenhum resultado penalidade do tipo Soft definida pelo Evolver na
significativo foi obtido em termos de evolução. fórmula 100*(EXP(deviation/100)-1), o qual
Observamos que a evolução tendia a privilegiar a penalizava soluções que não satisfizessem a
classe de clientes retidos, minimizando assim Ac e seguinte condição:
Ab, dados pela cromossoma vencedor.
Aci Abi 20% (9)
Por estes motivos, concluímos que era
fundamental que existisse na primeira geração um
cromossoma o qual fosse favorável a classe de Resultados ao final de um ciclo de gerações igual
clientes evasivos, visto o tamanho do espaço de a 500, com 1000 indivíduos cada, demonstraram-
busca do problema. Este cromossoma de certa se bastante promissores. Parâmetros de crossover
forma carregaria material genético importante na e mutação foram ajustados, respectivamente, para
solução do problema. 70% e 5%. Cada ciclo foi repetido 10 vezes,
mantendo-se sempre o melhor indivíduo do ciclo
Para tanto, a inclusão deste cromossoma “chave” anterior, onde ao final observou-se a convergência
na população inicial poderia buscar origem no ao que aparenta ser o ótimo global para o
resultado obtido de algum método estatístico (ou problema em questão. É importante dizer que
não) de classificação de padrões, ao exemplo de somente no primeiro ciclo considerou-se o
árvores de decisões. No entanto, optou-se pela cromossoma H0 como possível solução. Um
forma mais simples de seleção deste cromossoma: resumo para as estatísticas de Ac, Ab, ET1, ET2,
inclui-se o cromossoma referente ao que seria a
8. Publicado na RICA – Revista de Inteligência Computacional Aplicada, ano 2009, número 2.
e f, obtidas pelo cromossoma vencedor ao final de
cada ciclo, podem ser obtidas a seguir:
9 Referências bibliográficas
Tabela 2
[1] MICHALEWICZ, Zbigniew. Genetic Algorithms +
Estatísticas de Desempenho e Avaliação do Data Structures = Evolution Programs. 3rd rev. and
Cromossoma Vencedor – Amostra Avaliação extended ed. New York: Springer, 1999.
Ciclo Ac Ab ET1 ET2 f [2] COLOMBO, Richard; JIANG Weina. A Stochastic
1 73,64% 70,96% 29,04% 26,36% 2,6738 RFM Model. Journal of Interactive Marketing:
2 78,43% 63,94% 36,06% 21,57% 2,7286 Summer 1999.
3 74,00% 75,82% 24,18% 26,00% 2,9355
4 73,13% 79,32% 20,68% 26,87% 3,0145
[3] FADER, Peter; HARDIE, Bruce; LEE, Ka Lok.
5 74,38% 77,34% 22,66% 25,62% 3,0568
6 74,80% 76,54% 23,46% 25,20% 3,0617
RFM and CLV: Using Iso-Value Curves for
7 74,69% 77,36% 22,64% 25,31% 3,0933 Customer Base Analysis. Journal of Marketing
8 74,78% 77,20% 22,80% 25,22% 3,0950 Research: Vol. XLII (November 2005).
9 75,20% 76,42% 23,58% 24,80% 3,1000
10 75,20% 76,42% 23,58% 24,80% 3,1000 [4] PIERSMA, Nanda, et al. Media Planning by
Optimizing Contact Frequencies. Econometric
Para a amostra de controle, os resultados de Institute Report EI 9856/A.
generalização também foram satisfatórios com
valor f ao final do 10º ciclo de 3,1988. A seguir, a [5] COOPER, Lee, et al. Using Genetic Algorithms to
representação do cromossoma vencedor: Breed Competitive Marketing Strategies. IEEE
International Conference: Volume 3, p.2367-p.2372,
Tabela 3 October 1998.
[6] REINARTZ, Werner. KUMAR, V. Customer
Representação do Cromossoma Vencedor
Relationship Management, A Database Approach.
Recência Freqüência Valor
John Wiley & Sons, June 2005.
Regra
Mín Máx Mín Máx Mín Máx
1 1 10 1 10 1 10 [7] HUMBY, Clive; HUNT, Terry; PHILLIPS, Tim.
2 4 10 1 10 1 10 Scoring Points. 2nd Ed. London: Kogan Page Limited,
3 5 10 6 10 7 10 2007.
4 7 10 1 10 1 10
5 1 5 9 10 1 10
[8] BARTH, Nelson Lerner. Inadimplência:
Construção de Modelos de Previsão. São Paulo:
Nobel Editora, 2004.
8. Conclusões e Próximos Passos [9] BERRY, Michael; LINOFF, Gordon. Data Mining
Techniques for Marketing, Sales, and Customer
A evolução de regras por algoritmos genéticos Relationship Management. John Wiley & Sons,
resultou no encontro de regras com alta acurácia e Indianapolis, Indiana, 2004. ´
abrangência na solução do problema de evasão de
clientes. Tais regras podem ser facilmente [10] LAROSE, Daniel; Data Mining, Methods and
Models. John Wiley & Sons, New Jersey, Canada,
implementadas em sistemas inteligentes, bem 2006.
como interpretadas por usuários envolvidos no
processo de tomada de decisão de marketing. Uma [11] SANTOS, Raul; Extração de Regras de Redes
vez objetivado reduzir as taxas de evasão de Neurais via Algoritmos Genéticos. IV Congresso
clientes, e aumentar a lucratividade futura da Brasileiro de Redes Neurais, São José dos Campos, SP,
empresa pela permanência prolongada do status Julho de 1999.
ativo do cliente, poderiam trabalhar ações
específicas de marketing aos clientes classificados [12] HAYKIN, Simon. Redes Neurais, Princípios e
Práticas. Paulo Matins Engel. 2ed. Porto Alegre:
como futuros evasivos, reduzindo-se custos de
Bookman, 2001.
alocação de marketing. Há de se reconhecer que a
utilização de outras técnicas de inteligência [13] BUSSAB, Wilton de O.; MORETTIN, Pedro A..
computacional, ou estatística, poderiam produzir Estatística Básica. 5ed. São Paulo: Saraiva, 2006.
resultados melhores em termos de acurácia e
abrangência, ficando este aspecto a ser [14] AURÉLIO, Marco. Notas de Aula do Curso
investigado em passos futuros. Computação Evolucionária. Pontifícia Universidade
Católica, Rio de Janeiro, RJ, 2008.