Instance-based learning and Numeric prediction

Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN.
Corso di laurea specialistica in informatica – A.A. 2008/2009

Corso di basi di dati avanzate e
tecniche di data mining

Instance-based learning and
Numeric prediction
Studenti: Professore:
Andrea Manfucci Giuseppe Busanello
Davide Ciambelli

SOMMARIO

Metodi instance-based
Obiettivo del modello
Complessità
Istanze prototipo
Regioni rettangolari
Predire valori numerici
Alberi di regressione: model tree
Smoothing
Esempi
Instance-based learning and Numeric prediction 2

Rappresentazioni instance-based

È la più semplice forma di learning
Obiettivo: cercare le istanze dell'insieme di training più somi-
glianti alla nuova istanza considerata
Le istanze stesse rappresentano la conoscenza

Istanza caratterizzata da un solo attributo numerico

Diversi attributi numerici

Attributi nominali


Complessità

Complessità del metodo
Spaziale: devono essere memorizzate tutte le istanze dell'insie-
me di training
Temporale: necessità di visitare l'intero training set

Possibilità di diminuire la complessità spaziale


Rappresentazione IB: istanze prototipo

Sono memorizzate solo le istanze coinvolte nella deci-
sione
Le istanze disturbo dovrebbero essere eliminate


Eliminazione del disturbo

Pesare ogni attributo
Distanza pesata euclidea:

L'aggiornamento dei pesi è basato sul nearest-neighbor
Classe corretta: incrementa il peso
Classe non corretta: decrementa il peso

Per ogni attributo i , la differenza |xi-yi| è la misura del
contributo che l'attributo da alla decisione
Se la differenza è piccola l'attributo contribuisce positivamente
Se la differenza è grande potrebbe contribuire negativamente


Rappresentazione IB: regioni rettangolari

La regola nearest-neighbor è usata solo fuori dai ret-
tangoli
Ogni rettangolo identifica una regola
Regioni rettangolari annidate rappresentano regole con
eccezioni


Generalized exemplars

Regioni rettangolari di istanze vengono chiamate iper-
rettangoli
Per conoscere la classe di una nuova istanza e si utiliz-
za una funzione distanza che permette di stabilire la
classe di appartenenza di e
Quando una nuova istanza è predetta correttamente
viene semplicemente associata all'istanza più vicina
appartenente alla medesima classe
L'istanza più vicina può essere:
Una singola istanza
Viene creato un nuovo iperrettangolo che copre la vecchia e la nuo-
va istanza
Un iperrettangolo
L'iperrettangolo viene esteso fino a comprendere la nuova istanza


La funzione distanza

La linea di separazione per-
mette di stabilire se un'istanza
appartiene ad una classe o al-
l'altra

La distanza da una istanza al-
l'iperrettangolo è definita
uguale a zero se il punto si
trova all'interno dell'iperret-
tangolo


SOMMARIO

Metodi instance-based
Obiettivo del modello
Complessità
Istanze prototipo
Regioni rettangolari
Alberi di regressione: model tree
Smoothing
Esempi


Esistono delle alternative per lo schema discusso pre-
cedentemente

Quasi tutti gli schemi di classificazione possono essere
applicati ai problemi di regressione
Discriminare la classe in intervalli
Predire la media pesata dell'intervallo medio
Peso in accordo alla probabilità


Alberi di regressione

Sono alberi di decisione
Le foglie predicono quantità numeriche calcolate fa-
cendo la media delle istanze che raggiungono la foglia
considerata
Facile da interpretare
Versione più sofisticata: model tree


Model tree

Sono alberi di regressione con modelli di regressione li-
neare associati ad ogni foglia


Smoothing

Smoothing: fattore di una precedente previsione

dove
p' è la previsione passata al nodo superiore
p è la previsione passata dal nodo inferiore
q è il valore predetto dal nodo
n è il numero delle istanze di training che raggiungono il nodo
sottostante
k è la costante di smoothing (raffinamento)

Il vantaggio sostanziale è che l'accuratezza della previ-
sione aumenta in ragione della costante di smoothing


Costruire l'albero

Criterio di splitting: mediante deviazione standard

Criterio di terminazione:
La deviazione standard è una frazione piccola (< 5%)
Troppe poche istanze rimaste
Criterio di taglio:
Calcolato attraverso funzione euristica

Dove:
n è il numero delle istanze del training set
v è il numero dei parametri che danno il valore della classe al nodo
Procedendo verso la radice si confronta l'errore a_a_e con l'erro-
re del sottoalbero a cui il nodo appartiene

Attributi nominali e valori mancanti

Convertire attributi nominali in binario
Ordinare gli attributi per il valore medio della classe
Se l'attributo ha k valori vengono generati k-1 attributi binari

Modificare il criterio di divisione in questo modo:

In questo caso si parla di surrogate splitting


Surrogate splitting

Scegliere un punto di divisione basato sul valore medio
delle istanze
Questo punto divide le istanze in 2 sottoinsiemi
L (la più piccola classe media)
R (la più grande classe media)
m è la media dei due valori medi
Per un'istanza con un valore mancante:
Si sceglie L se il valore della classe < m
Altrimenti si sceglie R

Una volta che l'albero è costruito completamente, si so-
stituiscono i valori mancanti con le medie dei corri-
spondenti nodi foglia


Pseudo-codifica

Quattro metodi:
Metodo principale: MakeModelTree
Metodo per dividere: split
Metodo per tagliare: prune
Metodo per gestire errori: subtreeError

Ora daremo uno sguardo ad ogni metodo


MakeModelTree


split


prune


subtreeError

La funzione errore ritorna:

Dove
n è il numero delle istanze nel nodo
v è il numero di parametri nel modello lineare del nodo

FINE

GRAZIE PER L'ATTENZIONE


Instance-based learning and Numeric prediction

Recommandé

Recommandé

Contenu connexe

Similaire à Instance-based learning and Numeric prediction

Similaire à Instance-based learning and Numeric prediction (20)

Plus de Davide Ciambelli

Plus de Davide Ciambelli (20)

Instance-based learning and Numeric prediction