1. Introduzione al corso Datawarehouse e fonti informative aziendali DATA MINING Luca Molteni
2. Programma e obiettivi del corso Il corso propone di introdurre il concetto di Data Mining e di presentare le principali tecniche statistiche che possono essere utilmente impiegate in quest’ambito per la soluzione di problemi aziendali E’ strutturato in due principali moduli: Il primo è incentrato sul tema delle previsioni delle vendite: saranno presentati, a questo proposito, i metodi di decomposizione classica, di attenuazione esponenziale (Holt-Winters) e la modellistica ARIMA La seconda parte del corso è dedicata al Customer Relationship Management ed in particolare ai temi legati alla profilazione della clientela, all’analisi del comportamento d’acquisto dei consumatori e allo scoring della clientela
3. Programma e obiettivi del corso Numerose sono le tecniche statistiche multivariate che è possibile impiegare per rispondere agli obiettivi conoscitivi indicati Il corso di Data Mining propone: algoritmi di classificazione ad albero, regressione lineare multipla, reti neurali, mappe di Kohonen, market basket analysis, analisi discriminante lineare e regressione logistica Il corso è caratterizzato da un alternarsi di lezioni di natura metodologica e di lezioni di natura più applicativa, mediante ricorso a una serie di casi aziendali e all’uso di specifici software diffusi sul mercato (SPSS e Modeler).
4.
5. MODULO UNOPrevisioni delle vendite Il corso prevede lo studio di tecniche di previsione quantitative che si basano proprio sull’uso di dati storici, dai quali l’analista cerca di comprendere la struttura sottostante il fenomeno per poi utilizzarla a scopi previsivi Alla base dell’analisi delle serie storiche vi è l’assunzione secondo cui i fattori che hanno influenzato l’andamento della serie nel passato e nel presente continuino a esercitare effetti analoghi anche nel futuro SOFTWARE UTILIZZATI Excel SPSS Clementine (reti neurali)
7. MODULO DUEData Mining “Per Data Mining si intende il processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine di scoprire regolarità o relazioni non note a priori, e allo scopo di ottenere un risultato chiaro e utile” “Processo di esplorazione ed analisi, in modo totalmente o parzialmente automatizzato, di una grande quantità di dati al fine di individuare schemi e regole significativi (non noti a priori).“ (Berry, Linoff, 1997) Data Mining come parte di un processo più generale definito Knowledge Discovery in Database (KDD) I temi di Data Mining saranno affrontati a partire dalla lezione numero 10
10. Data Warehouse e fonti informative aziendali L’implementazione corretta di metodologie di Data Mining non è sufficiente per garantire il raggiungimento di risultati attendibili e duraturi nel tempo vale la regola del “garbage in - garbage out”: per quanto un modello sia corretto e affinato non potrà mai sopperire alla scarsa correttezza/distorsione delle informazioni fornite in input al modello A monte dei modelli ci deve essere perciò un’ambiente dati robusto eaffidabile per evitare che informazioni errate in ingresso conducano e risultati altrettanto errati Tale ambiente è identificabile nel Data Warehouse (DWH), ossia in un unico, completo e consistente “contenitore” di dati ottenuti da fonti eterogenee, costruito per gli utenti finali in modo che essi possano realizzare analisi finalizzate al raggiungimento degli obiettivi di business preposti
11. Data Warehouse e fonti informative aziendali Il Data Warehausing si configura quindi come quel processo volto alla raccolta e alla gestione di dati da diverse fonti informative aziendali con il fine di rispondere alle diverse domande di business Il risultato di tale processo è un ambiente dati (Bill Inmon, 1996): Integrato: le diverse fonti confluiscono in un unico “contenitore” omogeneo al suo interno Orientato ai soggetti: il DWH incentrato sui principali temi d’interesse aziendale (clienti, prodotti, canali, etc.) e non sulle singole applicazioni/processi (vendite, prestiti, traffico in uscita, etc.) Non volatile: i dati contenuti nel DWH sono soggetti ad aggiornamenti periodici (generalmente mensili), che ne determinano la crescita continua, ma di fatto sono dati “statici” e non modificabili dagli utenti finali (accesso solo in lettura) Variabile nel tempo: i dati archiviati nel DWH rappresentano una “fotografia” periodica della situazione dell’aziendale e coprono un orizzonte temporale di diversi anni (storicità estesa)
12. Data Warehouse: Architettura Sistemi ERP (Enterprise Resource Planning) ProcessiETL (Estrazione, Trasformazione e Caricamento) Ambienti e Motore del Data Warehouse Database Operazionali DatiEsterni Metadati (informazioni sui dati: tipo, origine, utilizzo, etc.) Fonti informative aziendali Query & Reporting Data Mining
16. Contengono in maniera dettagliata i dati attuali dell’azienda (aggiornamento real-time)
17.
18. Utilizzato per analizzare il business (OLAP, Reporting, Data Mining) a supporto dei processi decisionali
19. Contiene in maniera aggregata i dati storici dell’azienda secondo fotografie
20.
21. Data MiningObiettivi e Tecniche Market basket analysis GRANDE DISTRIBUZIONE WEBMINING Click stream analysis WEBMINING Descrizione e sintesi Profiling eSegmentazione Fidelizzazione e abbandono (Retention e Churn) Propensione e Scoring Risk management
29. In quale sequenzaLe regole a livello di reparto, possono avere implicazioni importanti a livello di layout del punto vendita. Reparti connessi andranno posizionati vicini o lontani Le regole a livello di marca offrono informazioni sulle relazioni tra marche utili nelle scelte di composizione dello scaffale
30. Data MiningEsempio 2: Customer Churn e settore Energy L’anticipazione del fenomeno dell’abbandono da parte dei propri clienti rappresenta per le imprese un elemento importante nel complesso delle azioni volte a stabilire un rapporto privilegiato e duraturo nel tempo con la clientela medesima L’implementazione di modelli di Churn porta allo sviluppo di un processo operativo che prevede: l’assegnazione ad ogni cliente di una probabilità di abbandono su un orizzonte temporale definito la selezione di una lista di nominativi ad “alto rischio” l’attivazione di un’azione volta alla retention, che utilizza i canali ritenuti più opportuni per contattare i suddetti nominativi la formulazione di proposte di prodotti/ servizi in grado di soddisfare le esigenze fino a quel momento non soddisfatte la verifica a posteriori della riduzione ottenuta nel tasso di “Customer Attrition”
31.
32. Gli utilizzatori sono alla ricerca di fornitori in grado di dimostrarsi flessibili nell’offerta ed efficienti nella gestione dei problemi tecnici
33. L’insoddisfazione per queste ed altre dimensioni, in un contesto dove le barriere all’uscita si stanno sempre di più assottigliando, spinge l’utente a rivolgersi verso altri fornitori
34. A seguito della liberalizzazione del mercato, il livello di Customer Churn del settore a livello europeo si è spinto oltre il 15% e L’Italia è un dei paesi dove il fenomeno è più accentuato
36. Fornire una stima dell’abbandono dei clienti attraverso la previsione della loro propensione a migrare verso i competitor
37. Implementazione di campagne di retention efficaci in modo da prevenire il churn prima che esso si manifesti
38.
39. Dopo aver raccolto internamente i dati sui clienti che nel passato hanno cambiato fornitore, è possibile creare un modello di scoring ad hoc che relazioni il fenomeno dell’abbandono alle altre informazioni presenti nel database aziendale (tipo di contratto stipulato, utilizzo, rapporti con l’assistenza tecnica, altre problematicità, etc.)
40. I modelli generati attraverso algoritmi complessi (come reti neurali, alberi di classificazione e regressione logistica) permettono di classificare sia i clienti acquisiti sia i nuovi in funzione della loro probabilità di abbandono
45. Il peggior 20% di clienti (in termini di probabilità di abbandono stimata dal modello) comprende quasi il 60% degli effettivi churners
46.
47. Gli algoritmi di Data Mining forniscono strumenti per la misurazione del rischio di credito che risultano fondamentali per ottenere in maniera rigorosa una grande molteplicità di informazioni e soluzioni statisticamente robuste, da coniugare con l'esperienza e la valutazione umana nei processi di decisione