1. Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN.
Corso di laurea specialistica in informatica – A.A. 2008/2009
Corso di basi di dati avanzate e
tecniche di data mining
Instance-based learning and
Numeric prediction
Studenti: Professore:
Andrea Manfucci Giuseppe Busanello
Davide Ciambelli
2. SOMMARIO
Metodi instance-based
Obiettivo del modello
Complessità
Istanze prototipo
Regioni rettangolari
Predire valori numerici
Alberi di regressione: model tree
Smoothing
Esempi
Instance-based learning and Numeric prediction 2
3. Rappresentazioni instance-based
È la più semplice forma di learning
Obiettivo: cercare le istanze dell'insieme di training più somi-
glianti alla nuova istanza considerata
Le istanze stesse rappresentano la conoscenza
Istanza caratterizzata da un solo attributo numerico
Diversi attributi numerici
Attributi nominali
Instance-based learning and Numeric prediction 3
4. Complessità
Complessità del metodo
Spaziale: devono essere memorizzate tutte le istanze dell'insie-
me di training
Temporale: necessità di visitare l'intero training set
Possibilità di diminuire la complessità spaziale
Instance-based learning and Numeric prediction 4
5. Rappresentazione IB: istanze prototipo
Sono memorizzate solo le istanze coinvolte nella deci-
sione
Le istanze disturbo dovrebbero essere eliminate
Instance-based learning and Numeric prediction 5
6. Eliminazione del disturbo
Pesare ogni attributo
Distanza pesata euclidea:
L'aggiornamento dei pesi è basato sul nearest-neighbor
Classe corretta: incrementa il peso
Classe non corretta: decrementa il peso
Per ogni attributo i , la differenza |xi-yi| è la misura del
contributo che l'attributo da alla decisione
Se la differenza è piccola l'attributo contribuisce positivamente
Se la differenza è grande potrebbe contribuire negativamente
Instance-based learning and Numeric prediction 6
7. Rappresentazione IB: regioni rettangolari
La regola nearest-neighbor è usata solo fuori dai ret-
tangoli
Ogni rettangolo identifica una regola
Regioni rettangolari annidate rappresentano regole con
eccezioni
Instance-based learning and Numeric prediction 7
8. Generalized exemplars
Regioni rettangolari di istanze vengono chiamate iper-
rettangoli
Per conoscere la classe di una nuova istanza e si utiliz-
za una funzione distanza che permette di stabilire la
classe di appartenenza di e
Quando una nuova istanza è predetta correttamente
viene semplicemente associata all'istanza più vicina
appartenente alla medesima classe
L'istanza più vicina può essere:
Una singola istanza
Viene creato un nuovo iperrettangolo che copre la vecchia e la nuo-
va istanza
Un iperrettangolo
L'iperrettangolo viene esteso fino a comprendere la nuova istanza
Instance-based learning and Numeric prediction 8
9. La funzione distanza
La linea di separazione per-
mette di stabilire se un'istanza
appartiene ad una classe o al-
l'altra
La distanza da una istanza al-
l'iperrettangolo è definita
uguale a zero se il punto si
trova all'interno dell'iperret-
tangolo
Instance-based learning and Numeric prediction 9
10. SOMMARIO
Metodi instance-based
Obiettivo del modello
Complessità
Istanze prototipo
Regioni rettangolari
Predire valori numerici
Alberi di regressione: model tree
Smoothing
Esempi
Instance-based learning and Numeric prediction 10
11. Predire valori numerici
Esistono delle alternative per lo schema discusso pre-
cedentemente
Quasi tutti gli schemi di classificazione possono essere
applicati ai problemi di regressione
Discriminare la classe in intervalli
Predire la media pesata dell'intervallo medio
Peso in accordo alla probabilità
Instance-based learning and Numeric prediction 11
12. Alberi di regressione
Sono alberi di decisione
Le foglie predicono quantità numeriche calcolate fa-
cendo la media delle istanze che raggiungono la foglia
considerata
Facile da interpretare
Versione più sofisticata: model tree
Instance-based learning and Numeric prediction 12
13. Model tree
Sono alberi di regressione con modelli di regressione li-
neare associati ad ogni foglia
Instance-based learning and Numeric prediction 13
14. Smoothing
Smoothing: fattore di una precedente previsione
dove
p' è la previsione passata al nodo superiore
p è la previsione passata dal nodo inferiore
q è il valore predetto dal nodo
n è il numero delle istanze di training che raggiungono il nodo
sottostante
k è la costante di smoothing (raffinamento)
Il vantaggio sostanziale è che l'accuratezza della previ-
sione aumenta in ragione della costante di smoothing
Instance-based learning and Numeric prediction 14
15. Costruire l'albero
Criterio di splitting: mediante deviazione standard
Criterio di terminazione:
La deviazione standard è una frazione piccola (< 5%)
Troppe poche istanze rimaste
Criterio di taglio:
Calcolato attraverso funzione euristica
Dove:
n è il numero delle istanze del training set
v è il numero dei parametri che danno il valore della classe al nodo
Procedendo verso la radice si confronta l'errore a_a_e con l'erro-
re del sottoalbero a cui il nodo appartiene
Instance-based learning and Numeric prediction 15
16. Attributi nominali e valori mancanti
Convertire attributi nominali in binario
Ordinare gli attributi per il valore medio della classe
Se l'attributo ha k valori vengono generati k-1 attributi binari
Modificare il criterio di divisione in questo modo:
In questo caso si parla di surrogate splitting
Instance-based learning and Numeric prediction 16
17. Surrogate splitting
Scegliere un punto di divisione basato sul valore medio
delle istanze
Questo punto divide le istanze in 2 sottoinsiemi
L (la più piccola classe media)
R (la più grande classe media)
m è la media dei due valori medi
Per un'istanza con un valore mancante:
Si sceglie L se il valore della classe < m
Altrimenti si sceglie R
Una volta che l'albero è costruito completamente, si so-
stituiscono i valori mancanti con le medie dei corri-
spondenti nodi foglia
Instance-based learning and Numeric prediction 17
18. Pseudo-codifica
Quattro metodi:
Metodo principale: MakeModelTree
Metodo per dividere: split
Metodo per tagliare: prune
Metodo per gestire errori: subtreeError
Ora daremo uno sguardo ad ogni metodo
Instance-based learning and Numeric prediction 18
19. MakeModelTree
Instance-based learning and Numeric prediction 19
20. split
Instance-based learning and Numeric prediction 20
21. prune
Instance-based learning and Numeric prediction 21
22. subtreeError
La funzione errore ritorna:
Dove
n è il numero delle istanze nel nodo
v è il numero di parametri nel modello lineare del nodo
Instance-based learning and Numeric prediction 22
23. FINE
GRAZIE PER L'ATTENZIONE
Instance-based learning and Numeric prediction 23