SlideShare une entreprise Scribd logo
1  sur  44
Télécharger pour lire hors ligne
DATA MINING
       REPORT
PROJECT: New Credit Card – BancaX


A cura di:

Mirko Vairo
OBIETTIVI DI BUSINESS                        1

La BancaX, azienda che da oltre 40 anni opera nel campo dei servizi
finanziari, ci ha ingaggiato per sviluppare un’analisi di Data Mining su
un Dataset di approssimativamente 40.000 clienti. L’obiettivo di tale
studio è:




      • Sviluppare sul DB a disposizione delle analisi
        statistiche – utilizzando i modelli di analisi univariata,
        bivariata e multivariata – per capire, da un lato, come
        si configura la clientela della banca e, dall’altro
        indagare quali siano le motivazioni che spingono un
        cliente a richiedere spontaneamente l’attivazione di
        una nuova carta di credito.
DA COSA PARTIAMO                                                   2
BancaX, per raggiungere tale obiettivo, ci ha fornito un Dataset (Banking prediction 1) contenente varie
informazioni su:

 Sesso ed Età del cliente

 Storicità del cliente

 Utilizzo che ciascun cliente fa, in termini di ammontare impiegato o ottenuto, dei prodotti
 bancari offerti.

 N° di transazioni effettuate da ciascun cliente attraverso i diversi canali a disposizione
 (Sportelli/ATM/Internet/Telefono)

 Gli ordini effettuati dal cliente e non ancori evasi
                                                                                    VARIABILE
 Il possesso o meno di una nuova carta di credito                                   OBIETTIVO
OBIETTIVI DI DATA MINING                                                      3
Attraverso l’utilizzo di questo Dataset, sono state effettuate:



                                      Inizialmente, è stato quello di analizzare il dato fornito, attraverso
            ANALISI                   analisi descrittive e grafiche. Successivamente, si è verificato se
          UNIVARIATE                  fosse necessario effettuare una pulizia del Dataset ed un’eventuale
                                      riclassificazione di alcune delle variabili.



            FACTOR E                  L’obiettivo era quello di segmentare la clientela della banca
             CLUSTER                  per studiarne le caratteristiche ed individuare eventuali
            ANALYSIS                  clusters di particolare interesse.



          MODELLI DI
       CLASSIFICAZIONE
                                      L’utiizzo di queste tecniche aveva lo scopo di capire cosa
       ED ASSOCIAZIONE                avesse spinto il cliente ad attivare una nuova carta di credito.
PROJECT PLAN                         4

       • Analisi descrittiva e grafica del DB (slide 6-9)
FASE 1 • Individuazione outliers e mancanti (slide 10)

       • Pulizia dei dati (slide 12)
       • Ricodifica variabili slide (13-16)
FASE 2 • Segmentazione della clientela (slide 17-23)


       • Sviluppo dei modelli di classificazione (slide 25-34)
FASE 3 • Sviluppo dei modelli di associazione (slide 36-39)


       • Findings (slide 41)
FASE 4 • Implicazioni manageriali (slide 42-43)
FASE 1: ANALISI DEI DATI   5

Questa fase si compone di due step:




 STEP 1  Analisi descrittiva e grafica del DB


 STEP 2  Individuazione outliers e mancanti
ANALISI DESCRITTIVA E GRAFICA                                         6
Il Dataset contiene le informazioni di un campione di 41.978 clienti della BancaX. Le
caratteristiche di base della clientela possono essere riassunte in 3 punti:


1 – Il 59,24% dei clienti sono donne e la restante parte uomini


                                                    È necessario ricodificare la variabile
2 – L’età è compresa tra i 18 ed i 90 anni          per poter classificare i clienti in
                                                    fasce d’età.



3 – La tenure del cliente in media è di 5 anni
ANALISI DESCRITTIVA E GRAFICA (2)                                                7
                                                                                L’utilizzo medio di ciascun prodotto
                   Conti Risparmio              Media utilizzo: 1.612$          bancario è molto basso (ad esempio,
                                                                                basta notare che i prestiti alle imprese
                   Conti Correnti             Media utilizzo: 323$              registrano un valore medio poco
                                                                                realistico, 4.137$). Questo ci porta a
                                                                                pensare che il dato sia fortemente
                   Depositi             Media utilizzo: 1.462$
                                                                                contenuto a causa dell’elevato numero
                                                                                di clienti che non fa uso dei prodotti
PRODOTTI BANCARI




                   Fondi d’investimento              Media utilizzo: 1.000$     (valore 0 nella relativa casella); ciò
                                                                                provoca l’identificazione di un numero
                   Titoli azionari          Media utilizzo: 717 $               troppo consistente di outlier. Proprio
                                                                                per questo motivo, prima di poter
                                                                                procedere alla loro identificazione ed
                   Garanzie bancarie              Media utilizzo:10$            eliminazione, in fase di analisi dei dati
                                                                                siamo stati costretti a trasformare i
                   Assicurazioni vita            Media utilizzo: 3$             valori “0” in nulli. Considerando lo
                                                                                scarso utilizzo dell’offerta da parte dei
                   Mutui             Media utilizzo: 1.324$                     clienti, siamo portati a pensare che la
                                                                                BancaX tende a riconoscere come tali
                                                                                coloro che in realtà realizzano solo
                   Prestiti alle imprese            Media utilizzo:4.137$       operazioni una tantum; questo
                                                                                fenomeno          verrà       enfatizzato
                   Prestiti al consumo                 Media utilizzo: 1.962$   principalmente durante la fase di
                                                                                clusterizzazione.
ANALISI DESCRITTIVA E GRAFICA (3)                                                 8

                           Sportelli            Media utilizzo: 2,6 transaz.          Relativamente ai canali di transazione,
                                                                                      l’influenza dei non utilizzatori genera
CANALI DI TRANZAZIONE




                                                                                      effetti del tutto simili a quanto
                                                                                      enunciato in precedenza per i prodotti
                                                                                      bancari. Molto interessante il dato sulle
                                                                                      transazioni attraverso l’e-banking, in
                            ATM                Media utilizzo: 3 transaz.             media molto basso rispetto alle
                                                                                      aspettative (0,026 per cliente), perché
                                                                                      attualmente la maggior parte delle
                                                                                      transazioni che vengono realizzate con
                                                                                      carta di credito coinvolgono questo
                        Internet        Media utilizzo: 0,026 transaz.                canale. Inatteso il dato relativo alle
                                                                                      transazioni     effettuate     attraverso
                                                                                      sportelli automatici che mostrano il
                                                                                      livello di frequenza d’utilizzo più
                                                                                      elevato.
                             Telefono                Media utilizzo: 0,013 transaz.
ANALISI DESCRITTIVA E GRAFICA (4)                                           9
L’ultimo campo compreso nel DB è quello che riguarda la variabile obiettivo della nostra analisi – e
cioè il numero di clienti che hanno attivato una carta di credito. In sostanza il grafico ci mostra che
solo il 5,54% dei clienti possiede una carta (2324 su 41978); questo dato ci consente di
comprendere meglio le motivazioni per le quali la BancaX ha avviato questo un progetto d’analisi.




                                      94,46%




                                      5,54%
INDIVIDUAZIONE OULIERS E MANCANTI                                                                    10
Come si è preannunciato, per individuare in maniera più corretta gli outliers, sono stati creati artificiosamente dei nuovi campi
(con il suffisso _missing) dove gli “0” venivano trasformati in valori nulli (vedi output clementine Tabella con valori nulli). Una volta
fatto ciò sono stati calcolati gli outliers: 1) per i valori anomali il limite soglia era posto a 3 volte il range interquartile mentre 2)
per i valori estremi era 6 volte; non vi erano mancanti. Il risultato finale è stato il seguente:
CAMPI                             ANOMALI      ESTREMI     RECORD VALIDI       VALORE NULLO
                                                                                                    Nel riquadro azzurro vengono
Customer_ID                           0           0            41978                 0
                                                                                                    messi in evidenza gli outliers relativi
Gender                                --          --           41978                 0
Age                                   0           0            41978                 0
                                                                                                    ad ogni nuova variabile creata. La
Tenure                                0           0            41978                 0              percentuale di record modificati per
New_Credit_Card_Flag                  --          --           41978                 0              ogni campo si aggira tra il 3% e
Saving_Amount_missing               1276        1594           27991               13987            l’11% (naturalmente è una
Current_Amount_missing               384         618            9811               32167            percentuale relativa solo ai record
Time_Deposits_Amount_missing         39          27             1482               40496            validi e non a tutti quelli presenti nel
Funds_Amount_missing                 70          31             2092               39886            DB – infatti nella 4^ colonna sono
Stocks_Amount_missing                157         239            4018               37960            indicati i valori nulli per ogni
Bank_Assurance_Amount_missing        25           3             1633               40345
                                                                                                    campo).
Life_Assurance_Amount_missing        36          11             957                41021
Business_Loan_Amount_missing         28          14             966                41012
Home_Loan_Amount_missing             23           7             1680               40298
Consumer_Loan_Amount_missing         97           8             9974               32004
Branch_Transactions_missing          442         276           22453               19525
ATM_Transactions_missing             68           4            11825               30153
Phone_Transactions_missing            6           0             171                41807
Internet_Transactions_missing        15           8             365                41613
Standing_Orders_missing              34           6             1673               40305
FASE 2: PREPARAZIONE DEI DATI   11
La fase 2 si compone di tre step:



STEP 1  Pulizia dei dati


STEP 2  Ricodifica variabili


STEP 3  Segmentazione della clientela
PULIZIA DEI DATI                                                              12
Individuati valori estremi ed anomali si è proceduto alla loro eliminazione. Di sotto si riporta lo stream realizzato per la correzione
dei valori.

Per quanto riguarda la procedura di
sostituzione degli outliers è stata
impostata, attraverso il nodo Esplora, la
funzione “Forza” e successivamente si è
utilizzato il parametro “Algoritmo” per
l’assegnazione del nuovo valore (vedi
supernodo Valore anomalo ed estremo).
Fatto ciò, il passo seguente è stato quello
di reimpostare i record con valori nulli (da
noi artificiosamente creati), assegnando
– attraverso il supernodo “Assegna
valori” – a ciascuno di essi il valore 0.
Infine, con il nodo Filtro, sono stati
rinominati i nuovi campi creati (senza
outliers) apponendo a ciascuno di essi il
suffisso _ready; il tutto è stato inserito
all’interno del nuovo DB: Banking
Prediction 1 – DB pulito.
RICODIFICA VARIABILI                                                         13
  Per un’analisi più chiara e dettagliata e per poter sviluppare i modelli di associazione, è stata necessaria la ricodifica di alcune
  delle variabili. Due le operazioni realizzate:

                                            1 – Classificazione della variabile età.




Dato che, come visto in precedenza, il campo età è espresso come variabile
continua (che va da 18 a 90 anni), si è pensato che fosse più giusto
riclassificarla attraverso il nodo Discretizza. Sintetizzando, la procedura ha
portato alla creazione di 4 fasce d’età (riportate nel grafico qui accanto).
Emergono due riflessioni interessanti:
a) L’80,44% del campione è composto da individui con età tra 24 e 65 anni.
b) In questa classe si collocano coloro che hanno richiesto con maggiore
      frequenza l’attivazione della nuova carta di credito.
RICODIFICA VARIABILI (2)                                                  14
                     2 – Ricodifica prodotti bancari e canali di transazione in variabili Flag

Per l’attuazione dei modelli di associazione (Market Basket Analysis), i campi _Amount e _Transaction sono stati
trasformati da variabili numeriche continue a variabili Flag. Tale obiettivo è stato raggiunto attraverso la creazione di
un apposito stream:




Seguendo il flusso, le operazioni realizzate sono state: 1) Eliminazione di alcuni campi secondari ai fini dello studio
(Gender, Tenure e Standing_orders); 2) Creazione dei campi Flag attraverso l’apposito supernodo (vedi slide
successiva per approfondimenti); 3) Filtraggio dei vecchi campi (numerici continui); 4) Ricodifica delle variabili 1/0 in
True/False per poter eseguire correttamente la MBA. 5) Creazione del DB: Banking Prediction – DB per MBA.
RICODIFICA VARIABILI (3)                                     15
                 2 – Ricodifica prodotti bancari e canali di transazione in variabili Flag

Attraverso il supernodo “Creazione Flag” è stato creato un insieme di nodi Nuovo Campo che ha
permesso la ricodifica dei vecchi campi. La sintesi delle variabili create è riportata nella seguente
tabella.
RICODIFICA VARIABILI (4)                                                   16
                     2 – Ricodifica prodotti bancari e canali di transazione in variabili Flag

Una volta trasformate tutte le variabili in flag, si è verificato attraverso il nodo Distribuzione se per alcune di esse la
percentuale di casi Veri (e cioè con valore 1) risultasse almeno superiore al 5% del totale dei casi.
Solo 7 delle 14 variabili flag, inizialmente create, soddisfacevano tale criterio.
SEGMENTAZIONE DELLA CLIENTELA                                        17

L’ultimo step di questa fase riguarda la creazione e la descrizione dei cluster di clientela.
Tre i passi seguiti:


         Factor Analysis


                                       Cluster Analysis


                                                                        Descrizione cluster
SEGMENTAZIONE DELLA CLIENTELA                                                        18
   Factor Analysis
Il primo passo ha portato alla creazione di 5 fattori che sintetizzano i 10 prodotti offerti da BancaX.

 Fondi d’investimento                                          Garanzie bancarie

 Conti Risparmio
                                Prodotti di                                                  Prodotti
                                                               Assicurazioni vita
                              investimento/                                                  Vita/Casa
 Depositi                       Risparmio                             Mutui

 Titoli azionari


                               Finanziamenti alle            I fattori costruiti dal s/w, e qui riportati, spiegano il 62%
  Prestiti alle imprese                                      della varianza totale (la tabella con le correlazioni tra
                                    imprese
                                                             fattori e prodotti viene riportata nella cartella relativa a
     Conti Correnti             Conti Correnti               questa fase).


  Prestiti al consumo          Finanziamenti a
                                   privati
SEGMENTAZIONE DELLA CLIENTELA (2)                                                                 19
Cluster Analysis
                                                                             La tecnica utilizzata è l’algoritmo K-
                                                                             means che ha permesso di
                                                                             identificare 4 clusters finali (vedi
                                                                             tabella). La tabella di ANOVA (file
                                                                             output factor_cluster) mostra come
                                                                             tale soluzione sia anche significativa
                                                                             al test-F.


                   Di estremo interesse l’informazione fornitaci dalla tabella riportata a lato; questa infatti ci
                   indica che esiste un cluster di utenti, quello dei Dormienti, che sembra essere
                   preponderante rispetto agli altri. Inizialmente si pensava che, questa anomalia, fosse
                   dovuta al numero troppo basso di clusters; però, ci si è accorti che aumentandolo la
                   soluzione era pressoché la stessa. L’unica interpretazione plausibile è che il Dataset di
                   41.978 record rappresenta, principalmente, quel campione di utenti della BancaX che è
                   poco avvezzo all’utilizzo dei prodotti bancari che compongono la sua offerta (questo lo
                   notiamo – nella tabella sopra riportata – dallo scarso livello di correlazione con tutti i fattori).
                   Forse, i clienti che appartengono a questo cluster, sono proprio quelli che la banca
                   vorrebbe coinvolgere maggiormente attraverso un prodotto più flessibile quale la carta di
                   credito.
SEGMENTAZIONE DELLA CLIENTELA (3)                20
  Descrizione cluster “Famiglie”
Questo cluster è stato così denominato per la sua attitudine ad usufruire di
prodotti come i mutui per l’acquisto di immobili e quindi di beni destinati
all’uso familiare. Il grafico sulla destra dimostra chiaramente questa
attitudine.

Per quanto riguarda l’età media, si nota dall’istogramma Age_OPTIMAL che
la maggior parte dei clienti ad esso appartenenti si colloca nella fascia 24-65
anni; ciò sembra ovvio alla luce del fatto che, coloro che più frequentemente
richiedono un mutuo alla banca sono famiglie – più o meno giovani – che
vogliono costruire il proprio futuro.

Infine, è emerso che, tra gli
individui appartenenti a questo
cluster, sono state attivate solo
53 nuove carte di credito su un
totale di 825 clienti. Questo
dato, correlato a quanto
espresso in precedenza, mette
in evidenza la scarsa attrattività
del cluster in questione.
SEGMENTAZIONE DELLA CLIENTELA (4)                                                     21
Descrizione cluster “Business”
                    Anche quello dei clienti business sembra un
                    cluster poco interessante per le finalità della
                    nostra ricerca, dato il numero ridotto dei suoi
                    componenti e di quelli che al suo interno
                    possiedono una carta di credito. D’altronde un
                    cliente del tipo business difficilmente utilizza
                    una carta di credito per la sua attività, mentre
                    ricorre più spesso a strumenti quali i
                    Finanziamenti o altre forme di debito.




                              Come accade per le Famiglie, i clienti business si caratterizzano per il
                              collocamento nella fascia intermedia d’età. Come ci si poteva aspettare, il
                              numero di clienti al di sotto dei 24 anni è esiguo, proprio perché è molto
                              difficile che clienti giovani usufruiscano di un prodotto business.
SEGMENTAZIONE DELLA CLIENTELA (5)                                                                  22
 Descrizione cluster “Dormienti”
Il cluster dei dormienti, come accennato in precedenza, è quello più grande tra i 4 creati (circa 40.000 utenti – in pratica quasi tutto il
campione). Si collocano al suo interno quei clienti che, sostanzialmente, non usufruiscono di nessuno dei prodotti bancari messi a
loro disposizione o lo fanno occasionalmente. Nel corso della fase di analisi ci concentreremo in particolar modo su di essi, che
sembrano essere il segmento più attraente per il nostro obiettivo.

Solo il 5% di essi ha attivato una nuova carta; questo in valore              Come negli altri casi, anche i dormienti si concentrano
assoluto, però, si traduce in 2.211 attivazioni. Quindi, data la              nella fascia d’età 24-65 anni. Però, in questo caso cresce
consistenza di questo cluster, possiamo affermare che basta una               il numero di utenti che si posizionano nelle classi
piccola    variazione percentuale di attivazioni per poter                    contigue.
raggiungere un numero elevato di carte vendute.
SEGMENTAZIONE DELLA CLIENTELA (6)                                                               23
     Descrizione cluster “Privati”
Nella categoria Privati vengono collocati quei clienti che fanno ampio
utilizzo dei prodotti di risparmio della banca, quali: conto risparmio
(mostrato nel seguente grafico ), depositi a breve-lungo termine, ecc.



Tale segmento, come gli altri appena analizzati, ha registrato un        L’età media in questo caso si alza molto, infatti crescono
tasso di nuove attivazioni bassissimo. Dato l’esiguo numero di           le fasce d’età più anziane. La spiegazione di ciò può
componenti, e le loro caratteristiche, ci sembra poco                    essere legata al fatto che, di solito, è la classe più anziana
interessante sviluppare una strategia indirizzata ad aumentare           di una popolazione ad essere più spinta al risparmio (ad
l’attrattività, per questi utenti, del prodotto carta di credito.        esempio per coloro che si avviano all’età pensionabile).
FASE 1: MODELLAZIONE   24

 Questa fase si compone di due step:




STEP 1  Modelli di classificazione


STEP 2  Modelli di associazione
MODELLI DI CLASSIFICAZIONE                                                 25
Terminata la preparazione del DB, si è passati alla modellazione. Innanzitutto è stato costruito, attraverso alcune
delle tecniche a disposizione, un algoritmo di classificazione.

Il procedimento di anali svolto è composto da 4 passi:

                             Selezione delle variabili chiave


             Bilanciamento della variabile New_Credit_Card_Flag



                              Selezione dei modelli migliori



                                    Addestramento e Test
MODELLI DI CLASSIFICAZIONE (2)                                               26
  Selezione delle variabili chiave

Attraverso il nodo Seleziona Variabili si è proceduto alla determinazione dei campi più interessanti, di cui tener
conto, per la creazione dei modelli.

Sono state, quindi, selezionate le seguenti variabili:




Come si può vedere dalla tabella, si è tenuto in considerazione solo quei campi che nella colonna valore
raggiungevano il 95% di confidenza, data la variabile obiettivo (New_Credit_Card_Flag). I restanti campi sono stati
messi da parte attraverso il nodo Filtro.
MODELLI DI CLASSIFICAZIONE (3)                                              27
 Bilanciamento della variabile New_Credit_Card_Flag

Dato che il campo obiettivo era troppo sbilanciato per poter sviluppare correttamente i modelli, si è reso
necessario l’utilizzo del nodo Bilanciamento per ovviare a tale problema.
Il procedimento è stato il seguente:
MODELLI DI CLASSIFICAZIONE (4)                                                          28
Selezione dei modelli migliori
Successivamente, grazie al nodo Classificatore modelli, abbiamo identificato le tecniche più valide per poter effettuare la
classificazione. In pratica:
                                                                                      Il classificatore – sulla base dei
                                                                                      parametri impostati e dei modelli
                                                                                      spuntati (vedi grafico qui di fianco) –
                                                                                      ha selezionato tra tutti il C5.0, la
                                                                                      Regressione           logistica    e     la
                                                                                      discriminante lineare. Il migliore in
                                                                                      assoluto, evidenziato nel riquadro
                                                                                      rosso, risulta essere il C5.0: questo,
                                                                                      infatti, sembra ottenere risultati
                                                                                      ottimali in tutti i parametri di selezione.
MODELLI DI CLASSIFICAZIONE (5)                                                                               29
Addestramento
Infine, sono stati generati due supernodi: uno per l’Addestramento delle tecniche migliori e l’altro per il Test. Per ognuno di essi vengono riportati il
grafico del lift e le tabelle di analisi (per eventuali approfondimenti visionare lo stream Modelli di classificazione). Come si può notare sia il grafico che
la tabella, riportati nella slide, dimostrano la miglior capacità classificatoria del modello albero decisionale C5.0 – cerchiato in rosso il dato che ci
indica il livello di precisione nella stima (molto più accurata rispetto agli altri due casi).
MODELLI DI CLASSIFICAZIONE (6)                                                               30
       Anche per quanto riguarda il test, il modello C5.0 risulta essere quello migliore: sia per quanto riguarda il lift che per il
Test   livello di precisione (cerchiato in rosso).
MODELLI DI CLASSIFICAZIONE (7)                                                 31
Una volta selezionato il modello più accurato, possiamo proseguire con l’analisi dell’output da esso prodotto.

Per prima cosa verifichiamo l’importanza dei diversi predittori.




                                                                           Si può notare dal grafico che il peso
                                                                           maggiore viene assunto dai campi
                                                                           ATM_transaction e Branch_transaction;
                                                                           hanno una discreta importanza anche
                                                                           le    variabili    Saving_amount    e
                                                                           Internet_transaction.
MODELLI DI CLASSIFICAZIONE (8)                                            32
Dall’analisi dell’albero sono risultati essere di grande interesse i seguenti nodi:


                                                       Questo primo nodo è molto utile per verificare
                                                       l’importanza assunta dalla frequenza di operazioni
                                                       compiute tramite la piattaforma web nell’indirizzare
                                                       un cliente ad attivare una carta di credito. Dalle
                                                       tabelle possiamo notare che tale variabile, pur
                                                       essendo di grande peso non fornisce spunti
                                                       rilevanti; infatti, sia che le internet_transaction siano
                                                       maggiori a 0 che uguali a 0, un gran numero di
                                                       clienti ha richiesto la carta. Infine, è necessario
                                                       fare attenzione alla percentuale cerchiata in rosso
                                                       nel nodo 116 perché, anche se essa ci segnala che
                                                       il 97% di clienti hanno attivato la carta, il peso ad
                                                       esso attribuito è comunque irrilevante (5,835%).
MODELLI DI CLASSIFICAZIONE (9)                                                                     33
   La sezione dell’albero riportata in questa slide sembra abbastanza complessa ma in realtà è di
   grande aiuto. Innanzitutto, indica che nelle due fasce d’età più giovani della clientela (dai 18 ai 65
   anni) si sono verificate un gran numero di nuove attivazioni (da notare che il peso del nodo è ancora
   elevato 35,812 %).


                            Sempre con riferimento alla fascia d’età sopra indicata, in questo livello si vuole
                            mettere in risalto il dato relativo al numero consistente di attivazioni che sono
                            state realizzate da: clienti della BancaX con una tenure maggiore ai 9 mesi (e
                            quindi clienti abbastanza consolidati – peso del nodo 17,464%). Buona la
                            percentuale di attivazioni nel caso di tenure inferiore a 9 mesi, anche se in
                            questo caso il peso del nodo è poco significativo.

                                                  Infine, in riferimento ai clienti di fascia 18-24 con un buon
                                                  livello di storicità e che posseggono un conto corrente si
                                                  rileva l’informazione più interessante in termini qualitativi;
                                                  infatti, tra questi, sia coloro che posseggono un conto
                                                  corrente con importi elevati che – in particolar modo –
                                                  quelli con importi contenuti (se non negativi), fanno
                                                  registrare percentuali di attivazione di nuove carte di
                                                  credito elevate (attenzione però al peso del nodo 66 che
                                                  è pari solo 1,938%).

                  Un ultimissima considerazione è collegata alle transazioni attraverso ATM; possiamo
                  notare a questo livello che coloro che possiedono un conto corrente (in questo caso con
                  un saldo contenuto) e fanno un uso assiduo degli sportelli automatici per le proprie
                  transazioni, hanno sovente attivato una nuova carta.
MODELLI DI CLASSIFICAZIONE (10)                                                 34
Come abbiamo accennato in precedenza, tali modelli possono essere utilizzati anche per analizzare i clusters che
sembrano più interessanti. Proprio per questo motivo, il C5.0 è stato lanciato anche sul segmento dei “Dormienti”; i
risultati ottenuti – attraverso lo stream riportato in questa slide – hanno però condotto ad una soluzione che si
avvicina moltissimo a quanto verificato per l’intero campione, questo perché il cluster in oggetto è composto da circa
40.000 clienti.
MODELLI DI ASSOCIAZIONE                                               35
Per confermare alcune delle evidenze emerse in precedenza, grazie agli output dei modelli di classificazione, e a
completamento dello studio in questione, abbiamo utilizzato alcune delle tecniche di associazione utili per lo
sviluppo di una Market Basket Analysis.

Lo stream del procedimento attuato è il seguente:
MODELLI DI ASSOCIAZIONE (2)                                                     36
Per prima cosa sono state selezionate le variabili di partenza. Con l’ausilio del nodo Tipo è stato assegnato, ai campi
flag creati in precedenza (vedi slide 16), il ruolo sia di input che di obiettivo – passaggio necessario per poter lanciare
correttamente una MBA. Agli altri campi presenti nel DB è stato assegnato il ruolo nessuna, cioè non sono state
prese in considerazione.
MODELLI DI ASSOCIAZIONE (3)                                                 37
Il nodo Web è stato molto utile per comprendere, prima del lancio di qualsiasi modello, quali fossero le relazioni più
forti tra le variabili input.




                                                                              Il grafico mette in evidenza alcune
                                                                              relazioni poco rilevanti e facilmente
                                                                              intuibili, come ad esempio la relazione
                                                                              tra            Saving_amount           e
                                                                              Branch_transaction.        Molto     più
                                                                              interessante è il legame tra
                                                                              Current_amount e ATM_transaction,
                                                                              infatti è già più volte emerso che chi di
                                                                              solito possiede un c/c fa sovente
                                                                              operazioni su ATM. Le altre relazioni
                                                                              non sembrano fornire spunti utili ai
                                                                              nostri scopi.
MODELLI DI ASSOCIAZIONE (4)                                                           38
In seguito, è stata sviluppata una MBA attraverso l’attuazione di due tecniche: 1) Apriori; 2) Carma; i loro output hanno fornito in
sostanza gli stessi risultati.




                                                                                           Quanto riscontrato in precedenza,
                                                                                           grazie al nodo Web, viene ampiamente
                                                                                           confermato in questa tabella. Infatti, se
                                                                                           si classificano le relazioni antecedente-
                                                                                           conseguente sulla base del lift,
                                                                                           vediamo che il legame migliore è
                                                                                           registrato tra le operazioni su conto
                                                                                           corrente (antecedente) e l’utilizzo di
                                                                                           sportelli automatici per le transazioni
                                                                                           (conseguente); anche il supporto della
                                                                                           regola e il livello di confidenza sono
                                                                                           mediamente accettabili.
MODELLI DI ASSOCIAZIONE (5)                                                          39
Come anticipato, la tecnica Carma offre risultati del tutto analoghi alla variante utilizzata in precedenza.
Inoltre, per questo secondo caso, il livello ottimale del lift nella relazione tra Current_amount e
ATM_transaction viene confermato anche se queste due variabili invertono il loro ruolo di antecedenti e
conseguenti.
FASE 4: IMPLICAZIONI   40




STEP 1  Findings


STEP 2  Implicazioni manageriali
FINDINGS                                                      41
Prima di passare alle implicazioni finali, è opportuno riportare in questa slide alcuni dei punti chiave emersi dallo
studio:
È stato rilevato che vi è un segmento della clientela molto rilevante, i Dormienti, che si compone
principalmente di utenti giovani e maturi (fascia 24-65 anni), e che usufruiscono mediamente poco dell’offerta
attuale. Questi, forse, sono alla ricerca di un prodotto più flessibile che soddisfi, in pratica, la loro esigenza
quotidiana di realizzare operazioni bancarie di piccolo calibro.

L’utilizzo della carta per l’e-banking è abbastanza frequente ma, diversamente da come si potrebbe ipotizzare,
l’incidenza di questo fattore nello spronare il cliente all’attivazione della carta è molto contenuta.

Il numero di nuove attivazioni è più elevato per le prime fasce d’età del campione, e cioè “18-23”/“24-65”.
Questo sta ad indicare che il cliente che utilizza una carta è tendenzialmente abbastanza giovane, e quindi più
addicted nell’utilizzo di canali innovativi (come le Application per cellulari) e più attratti da nuove formule
promozionali.

 Per i possessori di un C/C, soprattutto con saldi non troppo elevati, si è spesso verificata la predilezione ad
 utilizzare gli sportelli automatici. Questo dato è molto interessante se si pensa alla possibilità di creare per
 questi clienti uno strumento che gli consenta di realizzare le loro classiche operazioni (versamenti, bonifici,
 ecc.), che solitamente vengono effettuate allo sportello, presso gli ATM o attraverso i canali innovativi indicati
 in precedenza.
IMPLICAZIONI                                                  42
Riassumendo, per spingere la clientela – in particolare i cosiddetti dormienti – ad attivare nuove carte di credito,
serve un prodotto che sia: giovane, flessibile, che offra una serie di servizi aggiuntivi ed innovativi e che
permetta di evitare le lunghe attese allo sportello per effettuare le classiche operazioni bancarie (ad esempio, i
bonifici).

La soluzione è stata proposta, ultimamente, da UBI Banca:




La carta Enjoy è una carta di credito dotata di codice IBAN che permette di effettuare svariate operazioni bancarie e
prevede un gran numero di servizi aggiuntivi al cliente. Insieme alla carta viene offerto anche uno smartphone
Samsung che congiuntamente ad essa permette di sfruttare il nuovissimo canale dello Smartbanking
IMPLICAZIONI (2)                                                    43

Cosa offre la carta???




Uno strumento del genere sembra soddisfare tutte le finalità che avevamo previsto, riuscendo in maniera rapida e
con un investimento ridotto ad attirare quei clienti che cercano, ormai da tempo, una banca – diversa dalla
concezione classica di istituto finanziario (un ente solido ed affidabile) – che si adatti alle loro esigenze: cioè quelle
di una società che evolve sempre più rapidamente e i cui bisogni sono sempre più differenziati.

Contenu connexe

Similaire à Data Mining: project new credit card

Slides Presentazione Tesi di Laurea Magistrale
Slides Presentazione Tesi di Laurea MagistraleSlides Presentazione Tesi di Laurea Magistrale
Slides Presentazione Tesi di Laurea MagistraleGabriele Mazzetti
 
Studio pagamenti 2012
Studio pagamenti 2012Studio pagamenti 2012
Studio pagamenti 2012CRIBIS D&B
 
Stima del Customer Lifetime Value
Stima del Customer Lifetime Value Stima del Customer Lifetime Value
Stima del Customer Lifetime Value Target Research
 
La gestione integrata del Credito Twinergy. Integrazione tra SAP e Cribis D&B
La gestione integrata del Credito Twinergy. Integrazione tra SAP e Cribis D&BLa gestione integrata del Credito Twinergy. Integrazione tra SAP e Cribis D&B
La gestione integrata del Credito Twinergy. Integrazione tra SAP e Cribis D&BTwinergy
 
Suades Finance
Suades FinanceSuades Finance
Suades Financesuades
 
20233 data mining
20233   data mining20233   data mining
20233 data miningGRAZIA88
 
Vescina accountability dei confidi minori 7 aprile
Vescina accountability dei confidi minori 7 aprile Vescina accountability dei confidi minori 7 aprile
Vescina accountability dei confidi minori 7 aprile Salvatore Vescina
 
IPE - Banca Pop. del Mediterraneo "Profilazione e segmentazione della cliente...
IPE - Banca Pop. del Mediterraneo "Profilazione e segmentazione della cliente...IPE - Banca Pop. del Mediterraneo "Profilazione e segmentazione della cliente...
IPE - Banca Pop. del Mediterraneo "Profilazione e segmentazione della cliente...IPE Business School
 
Rischio liquidita’ e gestione dei flussi finanziari: l’esperienza del gruppo ...
Rischio liquidita’ e gestione dei flussi finanziari: l’esperienza del gruppo ...Rischio liquidita’ e gestione dei flussi finanziari: l’esperienza del gruppo ...
Rischio liquidita’ e gestione dei flussi finanziari: l’esperienza del gruppo ...Fondazione CUOA
 
Servizi di consulenza finanziaria:situazione del mercato italiano e fattori c...
Servizi di consulenza finanziaria:situazione del mercato italiano e fattori c...Servizi di consulenza finanziaria:situazione del mercato italiano e fattori c...
Servizi di consulenza finanziaria:situazione del mercato italiano e fattori c...Excellence_Consulting
 
Integrazione del CRM nei processi aziendali
Integrazione del CRM nei processi aziendaliIntegrazione del CRM nei processi aziendali
Integrazione del CRM nei processi aziendaliLeonardo Milan
 
Il Revenue Cycle e la Marketing Automation
Il Revenue Cycle e la Marketing AutomationIl Revenue Cycle e la Marketing Automation
Il Revenue Cycle e la Marketing AutomationDML Srl
 
Design with Data: Data Analysis per la Progettazione della Customer Experience
Design with Data: Data Analysis per la Progettazione della Customer ExperienceDesign with Data: Data Analysis per la Progettazione della Customer Experience
Design with Data: Data Analysis per la Progettazione della Customer ExperienceSketchin
 
CRIBIS iTRADE: Tutte le informazioni sui pagamenti delle aziende
CRIBIS iTRADE: Tutte le informazioni sui pagamenti delle aziendeCRIBIS iTRADE: Tutte le informazioni sui pagamenti delle aziende
CRIBIS iTRADE: Tutte le informazioni sui pagamenti delle aziendeCRIBIS D&B
 
A.Rossi Innov Acting Crescendo Adico 2007 Oltre Il Crm
A.Rossi Innov Acting Crescendo   Adico 2007   Oltre Il CrmA.Rossi Innov Acting Crescendo   Adico 2007   Oltre Il Crm
A.Rossi Innov Acting Crescendo Adico 2007 Oltre Il CrmAndrea Rossi
 
Le banche italiane e i social network
Le banche italiane e i social networkLe banche italiane e i social network
Le banche italiane e i social networkCybion
 

Similaire à Data Mining: project new credit card (20)

Monujo presentazione
Monujo presentazioneMonujo presentazione
Monujo presentazione
 
Slides Presentazione Tesi di Laurea Magistrale
Slides Presentazione Tesi di Laurea MagistraleSlides Presentazione Tesi di Laurea Magistrale
Slides Presentazione Tesi di Laurea Magistrale
 
Studio pagamenti 2012
Studio pagamenti 2012Studio pagamenti 2012
Studio pagamenti 2012
 
CoViD Banking [Full version]
CoViD Banking [Full version]CoViD Banking [Full version]
CoViD Banking [Full version]
 
Stima del Customer Lifetime Value
Stima del Customer Lifetime Value Stima del Customer Lifetime Value
Stima del Customer Lifetime Value
 
La gestione integrata del Credito Twinergy. Integrazione tra SAP e Cribis D&B
La gestione integrata del Credito Twinergy. Integrazione tra SAP e Cribis D&BLa gestione integrata del Credito Twinergy. Integrazione tra SAP e Cribis D&B
La gestione integrata del Credito Twinergy. Integrazione tra SAP e Cribis D&B
 
Suades Finance
Suades FinanceSuades Finance
Suades Finance
 
20233 data mining
20233   data mining20233   data mining
20233 data mining
 
Vescina accountability dei confidi minori 7 aprile
Vescina accountability dei confidi minori 7 aprile Vescina accountability dei confidi minori 7 aprile
Vescina accountability dei confidi minori 7 aprile
 
Case business intelligence
Case business intelligenceCase business intelligence
Case business intelligence
 
IPE - Banca Pop. del Mediterraneo "Profilazione e segmentazione della cliente...
IPE - Banca Pop. del Mediterraneo "Profilazione e segmentazione della cliente...IPE - Banca Pop. del Mediterraneo "Profilazione e segmentazione della cliente...
IPE - Banca Pop. del Mediterraneo "Profilazione e segmentazione della cliente...
 
Multichannel marketing & crm il caso bnp paribas
Multichannel marketing & crm il caso bnp paribasMultichannel marketing & crm il caso bnp paribas
Multichannel marketing & crm il caso bnp paribas
 
Rischio liquidita’ e gestione dei flussi finanziari: l’esperienza del gruppo ...
Rischio liquidita’ e gestione dei flussi finanziari: l’esperienza del gruppo ...Rischio liquidita’ e gestione dei flussi finanziari: l’esperienza del gruppo ...
Rischio liquidita’ e gestione dei flussi finanziari: l’esperienza del gruppo ...
 
Servizi di consulenza finanziaria:situazione del mercato italiano e fattori c...
Servizi di consulenza finanziaria:situazione del mercato italiano e fattori c...Servizi di consulenza finanziaria:situazione del mercato italiano e fattori c...
Servizi di consulenza finanziaria:situazione del mercato italiano e fattori c...
 
Integrazione del CRM nei processi aziendali
Integrazione del CRM nei processi aziendaliIntegrazione del CRM nei processi aziendali
Integrazione del CRM nei processi aziendali
 
Il Revenue Cycle e la Marketing Automation
Il Revenue Cycle e la Marketing AutomationIl Revenue Cycle e la Marketing Automation
Il Revenue Cycle e la Marketing Automation
 
Design with Data: Data Analysis per la Progettazione della Customer Experience
Design with Data: Data Analysis per la Progettazione della Customer ExperienceDesign with Data: Data Analysis per la Progettazione della Customer Experience
Design with Data: Data Analysis per la Progettazione della Customer Experience
 
CRIBIS iTRADE: Tutte le informazioni sui pagamenti delle aziende
CRIBIS iTRADE: Tutte le informazioni sui pagamenti delle aziendeCRIBIS iTRADE: Tutte le informazioni sui pagamenti delle aziende
CRIBIS iTRADE: Tutte le informazioni sui pagamenti delle aziende
 
A.Rossi Innov Acting Crescendo Adico 2007 Oltre Il Crm
A.Rossi Innov Acting Crescendo   Adico 2007   Oltre Il CrmA.Rossi Innov Acting Crescendo   Adico 2007   Oltre Il Crm
A.Rossi Innov Acting Crescendo Adico 2007 Oltre Il Crm
 
Le banche italiane e i social network
Le banche italiane e i social networkLe banche italiane e i social network
Le banche italiane e i social network
 

Data Mining: project new credit card

  • 1. DATA MINING REPORT PROJECT: New Credit Card – BancaX A cura di: Mirko Vairo
  • 2. OBIETTIVI DI BUSINESS 1 La BancaX, azienda che da oltre 40 anni opera nel campo dei servizi finanziari, ci ha ingaggiato per sviluppare un’analisi di Data Mining su un Dataset di approssimativamente 40.000 clienti. L’obiettivo di tale studio è: • Sviluppare sul DB a disposizione delle analisi statistiche – utilizzando i modelli di analisi univariata, bivariata e multivariata – per capire, da un lato, come si configura la clientela della banca e, dall’altro indagare quali siano le motivazioni che spingono un cliente a richiedere spontaneamente l’attivazione di una nuova carta di credito.
  • 3. DA COSA PARTIAMO 2 BancaX, per raggiungere tale obiettivo, ci ha fornito un Dataset (Banking prediction 1) contenente varie informazioni su: Sesso ed Età del cliente Storicità del cliente Utilizzo che ciascun cliente fa, in termini di ammontare impiegato o ottenuto, dei prodotti bancari offerti. N° di transazioni effettuate da ciascun cliente attraverso i diversi canali a disposizione (Sportelli/ATM/Internet/Telefono) Gli ordini effettuati dal cliente e non ancori evasi VARIABILE Il possesso o meno di una nuova carta di credito OBIETTIVO
  • 4. OBIETTIVI DI DATA MINING 3 Attraverso l’utilizzo di questo Dataset, sono state effettuate: Inizialmente, è stato quello di analizzare il dato fornito, attraverso ANALISI analisi descrittive e grafiche. Successivamente, si è verificato se UNIVARIATE fosse necessario effettuare una pulizia del Dataset ed un’eventuale riclassificazione di alcune delle variabili. FACTOR E L’obiettivo era quello di segmentare la clientela della banca CLUSTER per studiarne le caratteristiche ed individuare eventuali ANALYSIS clusters di particolare interesse. MODELLI DI CLASSIFICAZIONE L’utiizzo di queste tecniche aveva lo scopo di capire cosa ED ASSOCIAZIONE avesse spinto il cliente ad attivare una nuova carta di credito.
  • 5. PROJECT PLAN 4 • Analisi descrittiva e grafica del DB (slide 6-9) FASE 1 • Individuazione outliers e mancanti (slide 10) • Pulizia dei dati (slide 12) • Ricodifica variabili slide (13-16) FASE 2 • Segmentazione della clientela (slide 17-23) • Sviluppo dei modelli di classificazione (slide 25-34) FASE 3 • Sviluppo dei modelli di associazione (slide 36-39) • Findings (slide 41) FASE 4 • Implicazioni manageriali (slide 42-43)
  • 6. FASE 1: ANALISI DEI DATI 5 Questa fase si compone di due step: STEP 1  Analisi descrittiva e grafica del DB STEP 2  Individuazione outliers e mancanti
  • 7. ANALISI DESCRITTIVA E GRAFICA 6 Il Dataset contiene le informazioni di un campione di 41.978 clienti della BancaX. Le caratteristiche di base della clientela possono essere riassunte in 3 punti: 1 – Il 59,24% dei clienti sono donne e la restante parte uomini È necessario ricodificare la variabile 2 – L’età è compresa tra i 18 ed i 90 anni per poter classificare i clienti in fasce d’età. 3 – La tenure del cliente in media è di 5 anni
  • 8. ANALISI DESCRITTIVA E GRAFICA (2) 7 L’utilizzo medio di ciascun prodotto Conti Risparmio Media utilizzo: 1.612$ bancario è molto basso (ad esempio, basta notare che i prestiti alle imprese Conti Correnti Media utilizzo: 323$ registrano un valore medio poco realistico, 4.137$). Questo ci porta a pensare che il dato sia fortemente Depositi Media utilizzo: 1.462$ contenuto a causa dell’elevato numero di clienti che non fa uso dei prodotti PRODOTTI BANCARI Fondi d’investimento Media utilizzo: 1.000$ (valore 0 nella relativa casella); ciò provoca l’identificazione di un numero Titoli azionari Media utilizzo: 717 $ troppo consistente di outlier. Proprio per questo motivo, prima di poter procedere alla loro identificazione ed Garanzie bancarie Media utilizzo:10$ eliminazione, in fase di analisi dei dati siamo stati costretti a trasformare i Assicurazioni vita Media utilizzo: 3$ valori “0” in nulli. Considerando lo scarso utilizzo dell’offerta da parte dei Mutui Media utilizzo: 1.324$ clienti, siamo portati a pensare che la BancaX tende a riconoscere come tali coloro che in realtà realizzano solo Prestiti alle imprese Media utilizzo:4.137$ operazioni una tantum; questo fenomeno verrà enfatizzato Prestiti al consumo Media utilizzo: 1.962$ principalmente durante la fase di clusterizzazione.
  • 9. ANALISI DESCRITTIVA E GRAFICA (3) 8 Sportelli Media utilizzo: 2,6 transaz. Relativamente ai canali di transazione, l’influenza dei non utilizzatori genera CANALI DI TRANZAZIONE effetti del tutto simili a quanto enunciato in precedenza per i prodotti bancari. Molto interessante il dato sulle transazioni attraverso l’e-banking, in ATM Media utilizzo: 3 transaz. media molto basso rispetto alle aspettative (0,026 per cliente), perché attualmente la maggior parte delle transazioni che vengono realizzate con carta di credito coinvolgono questo Internet Media utilizzo: 0,026 transaz. canale. Inatteso il dato relativo alle transazioni effettuate attraverso sportelli automatici che mostrano il livello di frequenza d’utilizzo più elevato. Telefono Media utilizzo: 0,013 transaz.
  • 10. ANALISI DESCRITTIVA E GRAFICA (4) 9 L’ultimo campo compreso nel DB è quello che riguarda la variabile obiettivo della nostra analisi – e cioè il numero di clienti che hanno attivato una carta di credito. In sostanza il grafico ci mostra che solo il 5,54% dei clienti possiede una carta (2324 su 41978); questo dato ci consente di comprendere meglio le motivazioni per le quali la BancaX ha avviato questo un progetto d’analisi. 94,46% 5,54%
  • 11. INDIVIDUAZIONE OULIERS E MANCANTI 10 Come si è preannunciato, per individuare in maniera più corretta gli outliers, sono stati creati artificiosamente dei nuovi campi (con il suffisso _missing) dove gli “0” venivano trasformati in valori nulli (vedi output clementine Tabella con valori nulli). Una volta fatto ciò sono stati calcolati gli outliers: 1) per i valori anomali il limite soglia era posto a 3 volte il range interquartile mentre 2) per i valori estremi era 6 volte; non vi erano mancanti. Il risultato finale è stato il seguente: CAMPI ANOMALI ESTREMI RECORD VALIDI VALORE NULLO Nel riquadro azzurro vengono Customer_ID 0 0 41978 0 messi in evidenza gli outliers relativi Gender -- -- 41978 0 Age 0 0 41978 0 ad ogni nuova variabile creata. La Tenure 0 0 41978 0 percentuale di record modificati per New_Credit_Card_Flag -- -- 41978 0 ogni campo si aggira tra il 3% e Saving_Amount_missing 1276 1594 27991 13987 l’11% (naturalmente è una Current_Amount_missing 384 618 9811 32167 percentuale relativa solo ai record Time_Deposits_Amount_missing 39 27 1482 40496 validi e non a tutti quelli presenti nel Funds_Amount_missing 70 31 2092 39886 DB – infatti nella 4^ colonna sono Stocks_Amount_missing 157 239 4018 37960 indicati i valori nulli per ogni Bank_Assurance_Amount_missing 25 3 1633 40345 campo). Life_Assurance_Amount_missing 36 11 957 41021 Business_Loan_Amount_missing 28 14 966 41012 Home_Loan_Amount_missing 23 7 1680 40298 Consumer_Loan_Amount_missing 97 8 9974 32004 Branch_Transactions_missing 442 276 22453 19525 ATM_Transactions_missing 68 4 11825 30153 Phone_Transactions_missing 6 0 171 41807 Internet_Transactions_missing 15 8 365 41613 Standing_Orders_missing 34 6 1673 40305
  • 12. FASE 2: PREPARAZIONE DEI DATI 11 La fase 2 si compone di tre step: STEP 1  Pulizia dei dati STEP 2  Ricodifica variabili STEP 3  Segmentazione della clientela
  • 13. PULIZIA DEI DATI 12 Individuati valori estremi ed anomali si è proceduto alla loro eliminazione. Di sotto si riporta lo stream realizzato per la correzione dei valori. Per quanto riguarda la procedura di sostituzione degli outliers è stata impostata, attraverso il nodo Esplora, la funzione “Forza” e successivamente si è utilizzato il parametro “Algoritmo” per l’assegnazione del nuovo valore (vedi supernodo Valore anomalo ed estremo). Fatto ciò, il passo seguente è stato quello di reimpostare i record con valori nulli (da noi artificiosamente creati), assegnando – attraverso il supernodo “Assegna valori” – a ciascuno di essi il valore 0. Infine, con il nodo Filtro, sono stati rinominati i nuovi campi creati (senza outliers) apponendo a ciascuno di essi il suffisso _ready; il tutto è stato inserito all’interno del nuovo DB: Banking Prediction 1 – DB pulito.
  • 14. RICODIFICA VARIABILI 13 Per un’analisi più chiara e dettagliata e per poter sviluppare i modelli di associazione, è stata necessaria la ricodifica di alcune delle variabili. Due le operazioni realizzate: 1 – Classificazione della variabile età. Dato che, come visto in precedenza, il campo età è espresso come variabile continua (che va da 18 a 90 anni), si è pensato che fosse più giusto riclassificarla attraverso il nodo Discretizza. Sintetizzando, la procedura ha portato alla creazione di 4 fasce d’età (riportate nel grafico qui accanto). Emergono due riflessioni interessanti: a) L’80,44% del campione è composto da individui con età tra 24 e 65 anni. b) In questa classe si collocano coloro che hanno richiesto con maggiore frequenza l’attivazione della nuova carta di credito.
  • 15. RICODIFICA VARIABILI (2) 14 2 – Ricodifica prodotti bancari e canali di transazione in variabili Flag Per l’attuazione dei modelli di associazione (Market Basket Analysis), i campi _Amount e _Transaction sono stati trasformati da variabili numeriche continue a variabili Flag. Tale obiettivo è stato raggiunto attraverso la creazione di un apposito stream: Seguendo il flusso, le operazioni realizzate sono state: 1) Eliminazione di alcuni campi secondari ai fini dello studio (Gender, Tenure e Standing_orders); 2) Creazione dei campi Flag attraverso l’apposito supernodo (vedi slide successiva per approfondimenti); 3) Filtraggio dei vecchi campi (numerici continui); 4) Ricodifica delle variabili 1/0 in True/False per poter eseguire correttamente la MBA. 5) Creazione del DB: Banking Prediction – DB per MBA.
  • 16. RICODIFICA VARIABILI (3) 15 2 – Ricodifica prodotti bancari e canali di transazione in variabili Flag Attraverso il supernodo “Creazione Flag” è stato creato un insieme di nodi Nuovo Campo che ha permesso la ricodifica dei vecchi campi. La sintesi delle variabili create è riportata nella seguente tabella.
  • 17. RICODIFICA VARIABILI (4) 16 2 – Ricodifica prodotti bancari e canali di transazione in variabili Flag Una volta trasformate tutte le variabili in flag, si è verificato attraverso il nodo Distribuzione se per alcune di esse la percentuale di casi Veri (e cioè con valore 1) risultasse almeno superiore al 5% del totale dei casi. Solo 7 delle 14 variabili flag, inizialmente create, soddisfacevano tale criterio.
  • 18. SEGMENTAZIONE DELLA CLIENTELA 17 L’ultimo step di questa fase riguarda la creazione e la descrizione dei cluster di clientela. Tre i passi seguiti: Factor Analysis Cluster Analysis Descrizione cluster
  • 19. SEGMENTAZIONE DELLA CLIENTELA 18 Factor Analysis Il primo passo ha portato alla creazione di 5 fattori che sintetizzano i 10 prodotti offerti da BancaX. Fondi d’investimento Garanzie bancarie Conti Risparmio Prodotti di Prodotti Assicurazioni vita investimento/ Vita/Casa Depositi Risparmio Mutui Titoli azionari Finanziamenti alle I fattori costruiti dal s/w, e qui riportati, spiegano il 62% Prestiti alle imprese della varianza totale (la tabella con le correlazioni tra imprese fattori e prodotti viene riportata nella cartella relativa a Conti Correnti Conti Correnti questa fase). Prestiti al consumo Finanziamenti a privati
  • 20. SEGMENTAZIONE DELLA CLIENTELA (2) 19 Cluster Analysis La tecnica utilizzata è l’algoritmo K- means che ha permesso di identificare 4 clusters finali (vedi tabella). La tabella di ANOVA (file output factor_cluster) mostra come tale soluzione sia anche significativa al test-F. Di estremo interesse l’informazione fornitaci dalla tabella riportata a lato; questa infatti ci indica che esiste un cluster di utenti, quello dei Dormienti, che sembra essere preponderante rispetto agli altri. Inizialmente si pensava che, questa anomalia, fosse dovuta al numero troppo basso di clusters; però, ci si è accorti che aumentandolo la soluzione era pressoché la stessa. L’unica interpretazione plausibile è che il Dataset di 41.978 record rappresenta, principalmente, quel campione di utenti della BancaX che è poco avvezzo all’utilizzo dei prodotti bancari che compongono la sua offerta (questo lo notiamo – nella tabella sopra riportata – dallo scarso livello di correlazione con tutti i fattori). Forse, i clienti che appartengono a questo cluster, sono proprio quelli che la banca vorrebbe coinvolgere maggiormente attraverso un prodotto più flessibile quale la carta di credito.
  • 21. SEGMENTAZIONE DELLA CLIENTELA (3) 20 Descrizione cluster “Famiglie” Questo cluster è stato così denominato per la sua attitudine ad usufruire di prodotti come i mutui per l’acquisto di immobili e quindi di beni destinati all’uso familiare. Il grafico sulla destra dimostra chiaramente questa attitudine. Per quanto riguarda l’età media, si nota dall’istogramma Age_OPTIMAL che la maggior parte dei clienti ad esso appartenenti si colloca nella fascia 24-65 anni; ciò sembra ovvio alla luce del fatto che, coloro che più frequentemente richiedono un mutuo alla banca sono famiglie – più o meno giovani – che vogliono costruire il proprio futuro. Infine, è emerso che, tra gli individui appartenenti a questo cluster, sono state attivate solo 53 nuove carte di credito su un totale di 825 clienti. Questo dato, correlato a quanto espresso in precedenza, mette in evidenza la scarsa attrattività del cluster in questione.
  • 22. SEGMENTAZIONE DELLA CLIENTELA (4) 21 Descrizione cluster “Business” Anche quello dei clienti business sembra un cluster poco interessante per le finalità della nostra ricerca, dato il numero ridotto dei suoi componenti e di quelli che al suo interno possiedono una carta di credito. D’altronde un cliente del tipo business difficilmente utilizza una carta di credito per la sua attività, mentre ricorre più spesso a strumenti quali i Finanziamenti o altre forme di debito. Come accade per le Famiglie, i clienti business si caratterizzano per il collocamento nella fascia intermedia d’età. Come ci si poteva aspettare, il numero di clienti al di sotto dei 24 anni è esiguo, proprio perché è molto difficile che clienti giovani usufruiscano di un prodotto business.
  • 23. SEGMENTAZIONE DELLA CLIENTELA (5) 22 Descrizione cluster “Dormienti” Il cluster dei dormienti, come accennato in precedenza, è quello più grande tra i 4 creati (circa 40.000 utenti – in pratica quasi tutto il campione). Si collocano al suo interno quei clienti che, sostanzialmente, non usufruiscono di nessuno dei prodotti bancari messi a loro disposizione o lo fanno occasionalmente. Nel corso della fase di analisi ci concentreremo in particolar modo su di essi, che sembrano essere il segmento più attraente per il nostro obiettivo. Solo il 5% di essi ha attivato una nuova carta; questo in valore Come negli altri casi, anche i dormienti si concentrano assoluto, però, si traduce in 2.211 attivazioni. Quindi, data la nella fascia d’età 24-65 anni. Però, in questo caso cresce consistenza di questo cluster, possiamo affermare che basta una il numero di utenti che si posizionano nelle classi piccola variazione percentuale di attivazioni per poter contigue. raggiungere un numero elevato di carte vendute.
  • 24. SEGMENTAZIONE DELLA CLIENTELA (6) 23 Descrizione cluster “Privati” Nella categoria Privati vengono collocati quei clienti che fanno ampio utilizzo dei prodotti di risparmio della banca, quali: conto risparmio (mostrato nel seguente grafico ), depositi a breve-lungo termine, ecc. Tale segmento, come gli altri appena analizzati, ha registrato un L’età media in questo caso si alza molto, infatti crescono tasso di nuove attivazioni bassissimo. Dato l’esiguo numero di le fasce d’età più anziane. La spiegazione di ciò può componenti, e le loro caratteristiche, ci sembra poco essere legata al fatto che, di solito, è la classe più anziana interessante sviluppare una strategia indirizzata ad aumentare di una popolazione ad essere più spinta al risparmio (ad l’attrattività, per questi utenti, del prodotto carta di credito. esempio per coloro che si avviano all’età pensionabile).
  • 25. FASE 1: MODELLAZIONE 24 Questa fase si compone di due step: STEP 1  Modelli di classificazione STEP 2  Modelli di associazione
  • 26. MODELLI DI CLASSIFICAZIONE 25 Terminata la preparazione del DB, si è passati alla modellazione. Innanzitutto è stato costruito, attraverso alcune delle tecniche a disposizione, un algoritmo di classificazione. Il procedimento di anali svolto è composto da 4 passi: Selezione delle variabili chiave Bilanciamento della variabile New_Credit_Card_Flag Selezione dei modelli migliori Addestramento e Test
  • 27. MODELLI DI CLASSIFICAZIONE (2) 26 Selezione delle variabili chiave Attraverso il nodo Seleziona Variabili si è proceduto alla determinazione dei campi più interessanti, di cui tener conto, per la creazione dei modelli. Sono state, quindi, selezionate le seguenti variabili: Come si può vedere dalla tabella, si è tenuto in considerazione solo quei campi che nella colonna valore raggiungevano il 95% di confidenza, data la variabile obiettivo (New_Credit_Card_Flag). I restanti campi sono stati messi da parte attraverso il nodo Filtro.
  • 28. MODELLI DI CLASSIFICAZIONE (3) 27 Bilanciamento della variabile New_Credit_Card_Flag Dato che il campo obiettivo era troppo sbilanciato per poter sviluppare correttamente i modelli, si è reso necessario l’utilizzo del nodo Bilanciamento per ovviare a tale problema. Il procedimento è stato il seguente:
  • 29. MODELLI DI CLASSIFICAZIONE (4) 28 Selezione dei modelli migliori Successivamente, grazie al nodo Classificatore modelli, abbiamo identificato le tecniche più valide per poter effettuare la classificazione. In pratica: Il classificatore – sulla base dei parametri impostati e dei modelli spuntati (vedi grafico qui di fianco) – ha selezionato tra tutti il C5.0, la Regressione logistica e la discriminante lineare. Il migliore in assoluto, evidenziato nel riquadro rosso, risulta essere il C5.0: questo, infatti, sembra ottenere risultati ottimali in tutti i parametri di selezione.
  • 30. MODELLI DI CLASSIFICAZIONE (5) 29 Addestramento Infine, sono stati generati due supernodi: uno per l’Addestramento delle tecniche migliori e l’altro per il Test. Per ognuno di essi vengono riportati il grafico del lift e le tabelle di analisi (per eventuali approfondimenti visionare lo stream Modelli di classificazione). Come si può notare sia il grafico che la tabella, riportati nella slide, dimostrano la miglior capacità classificatoria del modello albero decisionale C5.0 – cerchiato in rosso il dato che ci indica il livello di precisione nella stima (molto più accurata rispetto agli altri due casi).
  • 31. MODELLI DI CLASSIFICAZIONE (6) 30 Anche per quanto riguarda il test, il modello C5.0 risulta essere quello migliore: sia per quanto riguarda il lift che per il Test livello di precisione (cerchiato in rosso).
  • 32. MODELLI DI CLASSIFICAZIONE (7) 31 Una volta selezionato il modello più accurato, possiamo proseguire con l’analisi dell’output da esso prodotto. Per prima cosa verifichiamo l’importanza dei diversi predittori. Si può notare dal grafico che il peso maggiore viene assunto dai campi ATM_transaction e Branch_transaction; hanno una discreta importanza anche le variabili Saving_amount e Internet_transaction.
  • 33. MODELLI DI CLASSIFICAZIONE (8) 32 Dall’analisi dell’albero sono risultati essere di grande interesse i seguenti nodi: Questo primo nodo è molto utile per verificare l’importanza assunta dalla frequenza di operazioni compiute tramite la piattaforma web nell’indirizzare un cliente ad attivare una carta di credito. Dalle tabelle possiamo notare che tale variabile, pur essendo di grande peso non fornisce spunti rilevanti; infatti, sia che le internet_transaction siano maggiori a 0 che uguali a 0, un gran numero di clienti ha richiesto la carta. Infine, è necessario fare attenzione alla percentuale cerchiata in rosso nel nodo 116 perché, anche se essa ci segnala che il 97% di clienti hanno attivato la carta, il peso ad esso attribuito è comunque irrilevante (5,835%).
  • 34. MODELLI DI CLASSIFICAZIONE (9) 33 La sezione dell’albero riportata in questa slide sembra abbastanza complessa ma in realtà è di grande aiuto. Innanzitutto, indica che nelle due fasce d’età più giovani della clientela (dai 18 ai 65 anni) si sono verificate un gran numero di nuove attivazioni (da notare che il peso del nodo è ancora elevato 35,812 %). Sempre con riferimento alla fascia d’età sopra indicata, in questo livello si vuole mettere in risalto il dato relativo al numero consistente di attivazioni che sono state realizzate da: clienti della BancaX con una tenure maggiore ai 9 mesi (e quindi clienti abbastanza consolidati – peso del nodo 17,464%). Buona la percentuale di attivazioni nel caso di tenure inferiore a 9 mesi, anche se in questo caso il peso del nodo è poco significativo. Infine, in riferimento ai clienti di fascia 18-24 con un buon livello di storicità e che posseggono un conto corrente si rileva l’informazione più interessante in termini qualitativi; infatti, tra questi, sia coloro che posseggono un conto corrente con importi elevati che – in particolar modo – quelli con importi contenuti (se non negativi), fanno registrare percentuali di attivazione di nuove carte di credito elevate (attenzione però al peso del nodo 66 che è pari solo 1,938%). Un ultimissima considerazione è collegata alle transazioni attraverso ATM; possiamo notare a questo livello che coloro che possiedono un conto corrente (in questo caso con un saldo contenuto) e fanno un uso assiduo degli sportelli automatici per le proprie transazioni, hanno sovente attivato una nuova carta.
  • 35. MODELLI DI CLASSIFICAZIONE (10) 34 Come abbiamo accennato in precedenza, tali modelli possono essere utilizzati anche per analizzare i clusters che sembrano più interessanti. Proprio per questo motivo, il C5.0 è stato lanciato anche sul segmento dei “Dormienti”; i risultati ottenuti – attraverso lo stream riportato in questa slide – hanno però condotto ad una soluzione che si avvicina moltissimo a quanto verificato per l’intero campione, questo perché il cluster in oggetto è composto da circa 40.000 clienti.
  • 36. MODELLI DI ASSOCIAZIONE 35 Per confermare alcune delle evidenze emerse in precedenza, grazie agli output dei modelli di classificazione, e a completamento dello studio in questione, abbiamo utilizzato alcune delle tecniche di associazione utili per lo sviluppo di una Market Basket Analysis. Lo stream del procedimento attuato è il seguente:
  • 37. MODELLI DI ASSOCIAZIONE (2) 36 Per prima cosa sono state selezionate le variabili di partenza. Con l’ausilio del nodo Tipo è stato assegnato, ai campi flag creati in precedenza (vedi slide 16), il ruolo sia di input che di obiettivo – passaggio necessario per poter lanciare correttamente una MBA. Agli altri campi presenti nel DB è stato assegnato il ruolo nessuna, cioè non sono state prese in considerazione.
  • 38. MODELLI DI ASSOCIAZIONE (3) 37 Il nodo Web è stato molto utile per comprendere, prima del lancio di qualsiasi modello, quali fossero le relazioni più forti tra le variabili input. Il grafico mette in evidenza alcune relazioni poco rilevanti e facilmente intuibili, come ad esempio la relazione tra Saving_amount e Branch_transaction. Molto più interessante è il legame tra Current_amount e ATM_transaction, infatti è già più volte emerso che chi di solito possiede un c/c fa sovente operazioni su ATM. Le altre relazioni non sembrano fornire spunti utili ai nostri scopi.
  • 39. MODELLI DI ASSOCIAZIONE (4) 38 In seguito, è stata sviluppata una MBA attraverso l’attuazione di due tecniche: 1) Apriori; 2) Carma; i loro output hanno fornito in sostanza gli stessi risultati. Quanto riscontrato in precedenza, grazie al nodo Web, viene ampiamente confermato in questa tabella. Infatti, se si classificano le relazioni antecedente- conseguente sulla base del lift, vediamo che il legame migliore è registrato tra le operazioni su conto corrente (antecedente) e l’utilizzo di sportelli automatici per le transazioni (conseguente); anche il supporto della regola e il livello di confidenza sono mediamente accettabili.
  • 40. MODELLI DI ASSOCIAZIONE (5) 39 Come anticipato, la tecnica Carma offre risultati del tutto analoghi alla variante utilizzata in precedenza. Inoltre, per questo secondo caso, il livello ottimale del lift nella relazione tra Current_amount e ATM_transaction viene confermato anche se queste due variabili invertono il loro ruolo di antecedenti e conseguenti.
  • 41. FASE 4: IMPLICAZIONI 40 STEP 1  Findings STEP 2  Implicazioni manageriali
  • 42. FINDINGS 41 Prima di passare alle implicazioni finali, è opportuno riportare in questa slide alcuni dei punti chiave emersi dallo studio: È stato rilevato che vi è un segmento della clientela molto rilevante, i Dormienti, che si compone principalmente di utenti giovani e maturi (fascia 24-65 anni), e che usufruiscono mediamente poco dell’offerta attuale. Questi, forse, sono alla ricerca di un prodotto più flessibile che soddisfi, in pratica, la loro esigenza quotidiana di realizzare operazioni bancarie di piccolo calibro. L’utilizzo della carta per l’e-banking è abbastanza frequente ma, diversamente da come si potrebbe ipotizzare, l’incidenza di questo fattore nello spronare il cliente all’attivazione della carta è molto contenuta. Il numero di nuove attivazioni è più elevato per le prime fasce d’età del campione, e cioè “18-23”/“24-65”. Questo sta ad indicare che il cliente che utilizza una carta è tendenzialmente abbastanza giovane, e quindi più addicted nell’utilizzo di canali innovativi (come le Application per cellulari) e più attratti da nuove formule promozionali. Per i possessori di un C/C, soprattutto con saldi non troppo elevati, si è spesso verificata la predilezione ad utilizzare gli sportelli automatici. Questo dato è molto interessante se si pensa alla possibilità di creare per questi clienti uno strumento che gli consenta di realizzare le loro classiche operazioni (versamenti, bonifici, ecc.), che solitamente vengono effettuate allo sportello, presso gli ATM o attraverso i canali innovativi indicati in precedenza.
  • 43. IMPLICAZIONI 42 Riassumendo, per spingere la clientela – in particolare i cosiddetti dormienti – ad attivare nuove carte di credito, serve un prodotto che sia: giovane, flessibile, che offra una serie di servizi aggiuntivi ed innovativi e che permetta di evitare le lunghe attese allo sportello per effettuare le classiche operazioni bancarie (ad esempio, i bonifici). La soluzione è stata proposta, ultimamente, da UBI Banca: La carta Enjoy è una carta di credito dotata di codice IBAN che permette di effettuare svariate operazioni bancarie e prevede un gran numero di servizi aggiuntivi al cliente. Insieme alla carta viene offerto anche uno smartphone Samsung che congiuntamente ad essa permette di sfruttare il nuovissimo canale dello Smartbanking
  • 44. IMPLICAZIONI (2) 43 Cosa offre la carta??? Uno strumento del genere sembra soddisfare tutte le finalità che avevamo previsto, riuscendo in maniera rapida e con un investimento ridotto ad attirare quei clienti che cercano, ormai da tempo, una banca – diversa dalla concezione classica di istituto finanziario (un ente solido ed affidabile) – che si adatti alle loro esigenze: cioè quelle di una società che evolve sempre più rapidamente e i cui bisogni sono sempre più differenziati.