Data Mining

Introduzione al corso Datawarehouse e fonti informative aziendali DATA MINING Luca Molteni

Programma e obiettivi del corso Il corso propone di introdurre il concetto di Data Mining e di presentare le principali tecniche statistiche che possono essere utilmente impiegate in quest’ambito per la soluzione di problemi aziendali E’ strutturato in due principali moduli: Il primo è incentrato sul tema delle previsioni delle vendite: saranno presentati, a questo proposito, i metodi di decomposizione classica, di attenuazione esponenziale (Holt-Winters) e la modellistica ARIMA La seconda parte del corso è dedicata al Customer Relationship Management ed in particolare ai temi legati alla profilazione della clientela, all’analisi del comportamento d’acquisto dei consumatori e allo scoring della clientela

Programma e obiettivi del corso Numerose sono le tecniche statistiche multivariate che è possibile impiegare per rispondere agli obiettivi conoscitivi indicati Il corso di Data Mining propone: algoritmi di classificazione ad albero, regressione lineare multipla, reti neurali, mappe di Kohonen, market basket analysis, analisi discriminante lineare e regressione logistica Il corso è caratterizzato da un alternarsi di lezioni di natura metodologica e di lezioni di natura più applicativa, mediante ricorso a una serie di casi aziendali e all’uso di specifici software diffusi sul mercato (SPSS e Modeler).

Materiale didattico ,[object Object],Paolo Giudici “Data Mining”, McGraw-Hill, 2005 John Hanke & Dean Wichern “Business forecasting” – EightEdition, Prentice Hall, 2005

MODULO UNOPrevisioni delle vendite Il corso prevede lo studio di tecniche di previsione quantitative che si basano proprio sull’uso di dati storici, dai quali l’analista cerca di comprendere la struttura sottostante il fenomeno per poi utilizzarla a scopi previsivi Alla base dell’analisi delle serie storiche vi è l’assunzione secondo cui i fattori che hanno influenzato l’andamento della serie nel passato e nel presente continuino a esercitare effetti analoghi anche nel futuro SOFTWARE UTILIZZATI Excel SPSS Clementine (reti neurali)

6 Metodi e algoritmi di previsione

MODULO DUEData Mining “Per Data Mining si intende il processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine di scoprire regolarità o relazioni non note a priori, e allo scopo di ottenere un risultato chiaro e utile” “Processo di esplorazione ed analisi, in modo totalmente o parzialmente automatizzato, di una grande quantità di dati al fine di individuare schemi e regole significativi (non noti a priori).“ (Berry, Linoff, 1997) Data Mining come parte di un processo più generale definito Knowledge Discovery in Database (KDD) I temi di Data Mining saranno affrontati a partire dalla lezione numero 10

Knowledge Discovery in Database (KDD) Il termineKDDindical’interoprocessodiestrazionedellaconoscenzada un database, dall’individuazionedegliobiettividi business inizialifinoall’applicazionedelleregoledecisionalitrovate In quest’ambito, iltermine Data Mining è statoimpiegato per descrivere la fase del processodi KDD nelqualeglialgoritmidiapprendimentovengonoapplicatiaidati ,[object Object],[object Object]

Knowledge Discovery in Database (KDD)

Data Warehouse e fonti informative aziendali L’implementazione corretta di metodologie di Data Mining non è sufficiente per garantire il raggiungimento di risultati attendibili e duraturi nel tempo  vale la regola del “garbage in - garbage out”: per quanto un modello sia corretto e affinato non potrà mai sopperire alla scarsa correttezza/distorsione delle informazioni fornite in input al modello A monte dei modelli ci deve essere perciò un’ambiente dati robusto eaffidabile per evitare che informazioni errate in ingresso conducano e risultati altrettanto errati Tale ambiente è identificabile nel Data Warehouse (DWH), ossia in un unico, completo e consistente “contenitore” di dati ottenuti da fonti eterogenee, costruito per gli utenti finali in modo che essi possano realizzare analisi finalizzate al raggiungimento degli obiettivi di business preposti

Data Warehouse e fonti informative aziendali Il Data Warehausing si configura quindi come quel processo volto alla raccolta e alla gestione di dati da diverse fonti informative aziendali con il fine di rispondere alle diverse domande di business Il risultato di tale processo è un ambiente dati (Bill Inmon, 1996): Integrato: le diverse fonti confluiscono in un unico “contenitore” omogeneo al suo interno Orientato ai soggetti: il DWH incentrato sui principali temi d’interesse aziendale (clienti, prodotti, canali, etc.) e non sulle singole applicazioni/processi (vendite, prestiti, traffico in uscita, etc.) Non volatile: i dati contenuti nel DWH sono soggetti ad aggiornamenti periodici (generalmente mensili), che ne determinano la crescita continua, ma di fatto sono dati “statici” e non modificabili dagli utenti finali (accesso solo in lettura) Variabile nel tempo: i dati archiviati nel DWH rappresentano una “fotografia” periodica della situazione dell’aziendale e coprono un orizzonte temporale di diversi anni (storicità estesa)

Data Warehouse: Architettura Sistemi ERP (Enterprise Resource Planning) ProcessiETL (Estrazione, Trasformazione e Caricamento) Ambienti e Motore del Data Warehouse Database Operazionali DatiEsterni Metadati (informazioni sui dati: tipo, origine, utilizzo, etc.) Fonti informative aziendali Query & Reporting Data Mining

Data Warehouse:i Data Mart Nelle aziende più grandi e articolate, l’ambiente centrale del DWH può essere suddiviso in più Data Mart, ossia in sotto ambienti alimentati dal DWH e dedicati ad una singola funzione aziendale: ,[object Object],Data Warehouse Data Mart 1 Marketing Data Mart 3 … Data Mart 2 Finanza

Data Warehouse vs. Database Operazionali I Database Operazionali (o Transazionali) sono ambienti.. ,[object Object]

Utilizzati per l’operatività quotidiana dell’azienda (transazioni, produzione, contatti, …)

Contengono in maniera dettagliata i dati attuali dell’azienda (aggiornamento real-time)

I dati sono normalizzati (non presentano ridondanze) ma la sintesi delle informazioni non è immediata in quanto richiede ulteriori passaggiIl Data Warehouse è un ambiente.. ,[object Object]

Utilizzato per analizzare il business (OLAP, Reporting, Data Mining) a supporto dei processi decisionali

Contiene in maniera aggregata i dati storici dell’azienda secondo fotografie

I dati sono denormalizzati (presentano ridondanze) ma la sintesi delle informazioni è immediata,[object Object]

Data MiningObiettivi e Tecniche Market basket analysis GRANDE DISTRIBUZIONE WEBMINING Click stream analysis WEBMINING Descrizione e sintesi Profiling eSegmentazione Fidelizzazione e abbandono (Retention e Churn) Propensione e Scoring Risk management

Data MiningEsempio 1: Market Basket Analysis e GDO La MBA indaga quanto l’acquisto di un prodotto influenzi l’acquisto di un altro (o anche quanto l’acquisto in un reparto porti poi all’acquisto in un altro reparto) e permette di capire: ,[object Object]

in quale sequenzaQueste informazioni permettono di capire i prodotti più profittevoli e incoraggiare l’acquisto di prodotti che potrebbero essere altrimenti poco visti o difficili da ricordare per il consumatore. Per le analisi svolte a livello di reparto le implicazioni sono sulla vicinanza o lontananza di reparti che per i consumatori, in base al loro comportamento, sono connessi Utilizzando i risultati della MBA, i manager della GDO possono: ,[object Object]

trovare la gestione ottimale dei reparti e/o dei prodotti sugli scaffali (category management),[object Object]

Data Mining

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (8)

Similaire à Data Mining

Similaire à Data Mining (20)

Plus de Target Research

Plus de Target Research (20)

Data Mining