SlideShare une entreprise Scribd logo
1  sur  23
Télécharger pour lire hors ligne
Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN.
 Corso di laurea specialistica in informatica – A.A. 2008/2009

Corso di basi di dati avanzate e
   tecniche di data mining




        Instance-based learning and
             Numeric prediction
       Studenti:                         Professore:
     Andrea Manfucci                  Giuseppe Busanello
     Davide Ciambelli
SOMMARIO


 Metodi instance-based
   Obiettivo del modello
   Complessità
   Istanze prototipo
   Regioni rettangolari
 Predire valori numerici
   Alberi di regressione: model tree
   Smoothing
   Esempi
           Instance-based learning and Numeric prediction   2
Rappresentazioni instance-based

  È la più semplice forma di learning
    Obiettivo: cercare le istanze dell'insieme di training più somi-
    glianti alla nuova istanza considerata
    Le istanze stesse rappresentano la conoscenza

  Istanza caratterizzata da un solo attributo numerico

  Diversi attributi numerici

  Attributi nominali




                Instance-based learning and Numeric prediction         3
Complessità

  Complessità del metodo
    Spaziale: devono essere memorizzate tutte le istanze dell'insie-
    me di training
    Temporale: necessità di visitare l'intero training set

  Possibilità di diminuire la complessità spaziale




               Instance-based learning and Numeric prediction          4
Rappresentazione IB: istanze prototipo




  Sono memorizzate solo le istanze coinvolte nella deci-
  sione
  Le istanze disturbo dovrebbero essere eliminate




              Instance-based learning and Numeric prediction   5
Eliminazione del disturbo

  Pesare ogni attributo
  Distanza pesata euclidea:




  L'aggiornamento dei pesi è basato sul nearest-neighbor
     Classe corretta: incrementa il peso
     Classe non corretta: decrementa il peso

  Per ogni attributo i , la differenza |xi-yi| è la misura del
  contributo che l'attributo da alla decisione
     Se la differenza è piccola l'attributo contribuisce positivamente
     Se la differenza è grande potrebbe contribuire negativamente

                 Instance-based learning and Numeric prediction          6
Rappresentazione IB: regioni rettangolari




  La regola nearest-neighbor è usata solo fuori dai ret-
  tangoli
  Ogni rettangolo identifica una regola
  Regioni rettangolari annidate rappresentano regole con
  eccezioni



              Instance-based learning and Numeric prediction   7
Generalized exemplars

  Regioni rettangolari di istanze vengono chiamate iper-
  rettangoli
  Per conoscere la classe di una nuova istanza e si utiliz-
  za una funzione distanza che permette di stabilire la
  classe di appartenenza di e
  Quando una nuova istanza è predetta correttamente
  viene semplicemente associata all'istanza più vicina
  appartenente alla medesima classe
  L'istanza più vicina può essere:
    Una singola istanza
       Viene creato un nuovo iperrettangolo che copre la vecchia e la nuo-
       va istanza
    Un iperrettangolo
       L'iperrettangolo viene esteso fino a comprendere la nuova istanza

                Instance-based learning and Numeric prediction               8
La funzione distanza

  La linea di separazione per-
  mette di stabilire se un'istanza
  appartiene ad una classe o al-
  l'altra

  La distanza da una istanza al-
  l'iperrettangolo è definita
  uguale a zero se il punto si
  trova all'interno dell'iperret-
  tangolo




              Instance-based learning and Numeric prediction   9
SOMMARIO


 Metodi instance-based
   Obiettivo del modello
   Complessità
   Istanze prototipo
   Regioni rettangolari
 Predire valori numerici
   Alberi di regressione: model tree
   Smoothing
   Esempi
           Instance-based learning and Numeric prediction   10
Predire valori numerici

  Esistono delle alternative per lo schema discusso pre-
  cedentemente

  Quasi tutti gli schemi di classificazione possono essere
  applicati ai problemi di regressione
     Discriminare la classe in intervalli
     Predire la media pesata dell'intervallo medio
     Peso in accordo alla probabilità




                 Instance-based learning and Numeric prediction   11
Alberi di regressione

  Sono alberi di decisione
  Le foglie predicono quantità numeriche calcolate fa-
  cendo la media delle istanze che raggiungono la foglia
  considerata
  Facile da interpretare
  Versione più sofisticata: model tree




              Instance-based learning and Numeric prediction   12
Model tree

  Sono alberi di regressione con modelli di regressione li-
  neare associati ad ogni foglia




              Instance-based learning and Numeric prediction   13
Smoothing

  Smoothing: fattore di una precedente previsione


  dove
    p' è la previsione passata al nodo superiore
    p è la previsione passata dal nodo inferiore
    q è il valore predetto dal nodo
    n è il numero delle istanze di training che raggiungono il nodo
    sottostante
    k è la costante di smoothing (raffinamento)

  Il vantaggio sostanziale è che l'accuratezza della previ-
  sione aumenta in ragione della costante di smoothing


                Instance-based learning and Numeric prediction        14
Costruire l'albero

  Criterio di splitting: mediante deviazione standard


  Criterio di terminazione:
     La deviazione standard è una frazione piccola (< 5%)
     Troppe poche istanze rimaste
  Criterio di taglio:
     Calcolato attraverso funzione euristica



     Dove:
        n è il numero delle istanze del training set
        v è il numero dei parametri che danno il valore della classe al nodo
     Procedendo verso la radice si confronta l'errore a_a_e con l'erro-
     re del sottoalbero a cui il nodo appartiene
                 Instance-based learning and Numeric prediction                15
Attributi nominali e valori mancanti

  Convertire attributi nominali in binario
     Ordinare gli attributi per il valore medio della classe
     Se l'attributo ha k valori vengono generati k-1 attributi binari

  Modificare il criterio di divisione in questo modo:




  In questo caso si parla di surrogate splitting




                 Instance-based learning and Numeric prediction         16
Surrogate splitting

  Scegliere un punto di divisione basato sul valore medio
  delle istanze
  Questo punto divide le istanze in 2 sottoinsiemi
     L (la più piccola classe media)
     R (la più grande classe media)
  m è la media dei due valori medi
  Per un'istanza con un valore mancante:
     Si sceglie L se il valore della classe < m
     Altrimenti si sceglie R

  Una volta che l'albero è costruito completamente, si so-
  stituiscono i valori mancanti con le medie dei corri-
  spondenti nodi foglia

                 Instance-based learning and Numeric prediction   17
Pseudo-codifica

  Quattro metodi:
    Metodo   principale: MakeModelTree
    Metodo   per dividere: split
    Metodo   per tagliare: prune
    Metodo   per gestire errori: subtreeError

  Ora daremo uno sguardo ad ogni metodo




                Instance-based learning and Numeric prediction   18
MakeModelTree




           Instance-based learning and Numeric prediction   19
split




        Instance-based learning and Numeric prediction   20
prune




        Instance-based learning and Numeric prediction   21
subtreeError




  La funzione errore ritorna:


  Dove
    n è il numero delle istanze nel nodo
    v è il numero di parametri nel modello lineare del nodo
               Instance-based learning and Numeric prediction   22
FINE




       GRAZIE PER L'ATTENZIONE




           Instance-based learning and Numeric prediction   23

Contenu connexe

Similaire à Instance-based learning and Numeric prediction

JugMarche: Machine learning: usi pratici di supervised learning
JugMarche: Machine learning: usi pratici di supervised learningJugMarche: Machine learning: usi pratici di supervised learning
JugMarche: Machine learning: usi pratici di supervised learningOnofrio Panzarino
 
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...Leonardo Di Donato
 
La metodologia statistica nel data mining
La metodologia statistica nel data miningLa metodologia statistica nel data mining
La metodologia statistica nel data miningFrancesco Tamburini
 
Machine learning - Schede
Machine learning - SchedeMachine learning - Schede
Machine learning - SchedeNicola Gentili
 
Definizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-LearnDefinizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-LearnAlina Gnerre
 
Corso Introduttivo alle Reti Neurali
Corso Introduttivo alle Reti NeuraliCorso Introduttivo alle Reti Neurali
Corso Introduttivo alle Reti NeuraliValerio Capozio
 
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...MichaelFuser
 
M-Chord - a scalable distributed similarity search
M-Chord - a scalable distributed similarity searchM-Chord - a scalable distributed similarity search
M-Chord - a scalable distributed similarity searchKlenje
 
Classificazione pazienti con la SLA tramite SVM integration
Classificazione pazienti con la SLA tramite SVM integrationClassificazione pazienti con la SLA tramite SVM integration
Classificazione pazienti con la SLA tramite SVM integrationGiuseppe Luciano
 
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...Francesco Andreuzzi
 
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...Francesco Andreuzzi
 
Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy...
Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy...Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy...
Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy...Marco D'Alessandro
 
Energy based models Meetu pu DLI Roma Luglio
Energy based models Meetu pu DLI Roma LuglioEnergy based models Meetu pu DLI Roma Luglio
Energy based models Meetu pu DLI Roma LuglioDeep Learning Italia
 
Algoritmi di clustering
Algoritmi di clusteringAlgoritmi di clustering
Algoritmi di clusteringRosario Turco
 
Network Anomaly Detection col Conformal Prediction
Network Anomaly Detection col Conformal PredictionNetwork Anomaly Detection col Conformal Prediction
Network Anomaly Detection col Conformal PredictionGiuseppe Luciano
 
Appunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca EducativaAppunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca Educativagiosiele
 
Identificare feature significative per l’analisi nell’informatica forense uti...
Identificare feature significative per l’analisi nell’informatica forense uti...Identificare feature significative per l’analisi nell’informatica forense uti...
Identificare feature significative per l’analisi nell’informatica forense uti...Antonio Notarangelo
 

Similaire à Instance-based learning and Numeric prediction (20)

Master Thesis
Master ThesisMaster Thesis
Master Thesis
 
JugMarche: Machine learning: usi pratici di supervised learning
JugMarche: Machine learning: usi pratici di supervised learningJugMarche: Machine learning: usi pratici di supervised learning
JugMarche: Machine learning: usi pratici di supervised learning
 
Sentiment candida 27_may
Sentiment candida 27_maySentiment candida 27_may
Sentiment candida 27_may
 
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
 
La metodologia statistica nel data mining
La metodologia statistica nel data miningLa metodologia statistica nel data mining
La metodologia statistica nel data mining
 
Machine learning - Schede
Machine learning - SchedeMachine learning - Schede
Machine learning - Schede
 
Definizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-LearnDefinizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-Learn
 
Corso Introduttivo alle Reti Neurali
Corso Introduttivo alle Reti NeuraliCorso Introduttivo alle Reti Neurali
Corso Introduttivo alle Reti Neurali
 
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
 
M-Chord - a scalable distributed similarity search
M-Chord - a scalable distributed similarity searchM-Chord - a scalable distributed similarity search
M-Chord - a scalable distributed similarity search
 
Classificazione pazienti con la SLA tramite SVM integration
Classificazione pazienti con la SLA tramite SVM integrationClassificazione pazienti con la SLA tramite SVM integration
Classificazione pazienti con la SLA tramite SVM integration
 
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
 
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
 
Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy...
Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy...Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy...
Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy...
 
Energy based models Meetu pu DLI Roma Luglio
Energy based models Meetu pu DLI Roma LuglioEnergy based models Meetu pu DLI Roma Luglio
Energy based models Meetu pu DLI Roma Luglio
 
AV_tesi_v5
AV_tesi_v5AV_tesi_v5
AV_tesi_v5
 
Algoritmi di clustering
Algoritmi di clusteringAlgoritmi di clustering
Algoritmi di clustering
 
Network Anomaly Detection col Conformal Prediction
Network Anomaly Detection col Conformal PredictionNetwork Anomaly Detection col Conformal Prediction
Network Anomaly Detection col Conformal Prediction
 
Appunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca EducativaAppunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca Educativa
 
Identificare feature significative per l’analisi nell’informatica forense uti...
Identificare feature significative per l’analisi nell’informatica forense uti...Identificare feature significative per l’analisi nell’informatica forense uti...
Identificare feature significative per l’analisi nell’informatica forense uti...
 

Plus de Davide Ciambelli

SEMrush SEO Fundamentals Exam
SEMrush SEO Fundamentals ExamSEMrush SEO Fundamentals Exam
SEMrush SEO Fundamentals ExamDavide Ciambelli
 
Google Analytics for Beginners
Google Analytics for BeginnersGoogle Analytics for Beginners
Google Analytics for BeginnersDavide Ciambelli
 
Advanced Google Analytics
Advanced Google Analytics Advanced Google Analytics
Advanced Google Analytics Davide Ciambelli
 
Ecommerce Analytics: From Data to Decision
Ecommerce Analytics: From Data to DecisionEcommerce Analytics: From Data to Decision
Ecommerce Analytics: From Data to DecisionDavide Ciambelli
 
Google Tag Manager Fundamentals
Google Tag Manager Fundamentals Google Tag Manager Fundamentals
Google Tag Manager Fundamentals Davide Ciambelli
 
Abilitazione all'utilizzo dei dispositivi DAE
Abilitazione all'utilizzo dei dispositivi DAEAbilitazione all'utilizzo dei dispositivi DAE
Abilitazione all'utilizzo dei dispositivi DAEDavide Ciambelli
 
Google Tag Manager Fundamentals
Google Tag Manager FundamentalsGoogle Tag Manager Fundamentals
Google Tag Manager FundamentalsDavide Ciambelli
 
Un viaggio chiamato LibreUmbria
Un viaggio chiamato LibreUmbriaUn viaggio chiamato LibreUmbria
Un viaggio chiamato LibreUmbriaDavide Ciambelli
 
Guida introduttiva di Google all’ottimizzazione per motori di ricerca (SEO)
Guida introduttiva di Google  all’ottimizzazione per motori di ricerca (SEO)Guida introduttiva di Google  all’ottimizzazione per motori di ricerca (SEO)
Guida introduttiva di Google all’ottimizzazione per motori di ricerca (SEO)Davide Ciambelli
 
Dharma Initiative pass card
Dharma Initiative pass cardDharma Initiative pass card
Dharma Initiative pass cardDavide Ciambelli
 
Qnap turbo nas hardware manual
Qnap turbo nas hardware manualQnap turbo nas hardware manual
Qnap turbo nas hardware manualDavide Ciambelli
 
Z750 manuale di assemblaggio
Z750 manuale di assemblaggioZ750 manuale di assemblaggio
Z750 manuale di assemblaggioDavide Ciambelli
 
The 2009 Simulated Car Racing Championship
The 2009 Simulated Car Racing ChampionshipThe 2009 Simulated Car Racing Championship
The 2009 Simulated Car Racing ChampionshipDavide Ciambelli
 
Linux Bash Shell Cheat Sheet for Beginners
Linux Bash Shell Cheat Sheet for BeginnersLinux Bash Shell Cheat Sheet for Beginners
Linux Bash Shell Cheat Sheet for BeginnersDavide Ciambelli
 
Sistema elaboratore in multiprogrammazione
Sistema elaboratore in multiprogrammazioneSistema elaboratore in multiprogrammazione
Sistema elaboratore in multiprogrammazioneDavide Ciambelli
 
Cutting stock bidimensionale
Cutting stock bidimensionaleCutting stock bidimensionale
Cutting stock bidimensionaleDavide Ciambelli
 

Plus de Davide Ciambelli (20)

SEMrush SEO Toolkit Exam
SEMrush SEO Toolkit ExamSEMrush SEO Toolkit Exam
SEMrush SEO Toolkit Exam
 
SEMrush SEO Fundamentals Exam
SEMrush SEO Fundamentals ExamSEMrush SEO Fundamentals Exam
SEMrush SEO Fundamentals Exam
 
Google Analytics for Beginners
Google Analytics for BeginnersGoogle Analytics for Beginners
Google Analytics for Beginners
 
Advanced Google Analytics
Advanced Google Analytics Advanced Google Analytics
Advanced Google Analytics
 
Ecommerce Analytics: From Data to Decision
Ecommerce Analytics: From Data to DecisionEcommerce Analytics: From Data to Decision
Ecommerce Analytics: From Data to Decision
 
Google Tag Manager Fundamentals
Google Tag Manager Fundamentals Google Tag Manager Fundamentals
Google Tag Manager Fundamentals
 
Eccellenze in digitale
Eccellenze in digitaleEccellenze in digitale
Eccellenze in digitale
 
Abilitazione all'utilizzo dei dispositivi DAE
Abilitazione all'utilizzo dei dispositivi DAEAbilitazione all'utilizzo dei dispositivi DAE
Abilitazione all'utilizzo dei dispositivi DAE
 
Google Tag Manager Fundamentals
Google Tag Manager FundamentalsGoogle Tag Manager Fundamentals
Google Tag Manager Fundamentals
 
Certificazione AdWords
Certificazione AdWordsCertificazione AdWords
Certificazione AdWords
 
Un viaggio chiamato LibreUmbria
Un viaggio chiamato LibreUmbriaUn viaggio chiamato LibreUmbria
Un viaggio chiamato LibreUmbria
 
Guida introduttiva di Google all’ottimizzazione per motori di ricerca (SEO)
Guida introduttiva di Google  all’ottimizzazione per motori di ricerca (SEO)Guida introduttiva di Google  all’ottimizzazione per motori di ricerca (SEO)
Guida introduttiva di Google all’ottimizzazione per motori di ricerca (SEO)
 
Il codice da lopins
Il codice da lopinsIl codice da lopins
Il codice da lopins
 
Dharma Initiative pass card
Dharma Initiative pass cardDharma Initiative pass card
Dharma Initiative pass card
 
Qnap turbo nas hardware manual
Qnap turbo nas hardware manualQnap turbo nas hardware manual
Qnap turbo nas hardware manual
 
Z750 manuale di assemblaggio
Z750 manuale di assemblaggioZ750 manuale di assemblaggio
Z750 manuale di assemblaggio
 
The 2009 Simulated Car Racing Championship
The 2009 Simulated Car Racing ChampionshipThe 2009 Simulated Car Racing Championship
The 2009 Simulated Car Racing Championship
 
Linux Bash Shell Cheat Sheet for Beginners
Linux Bash Shell Cheat Sheet for BeginnersLinux Bash Shell Cheat Sheet for Beginners
Linux Bash Shell Cheat Sheet for Beginners
 
Sistema elaboratore in multiprogrammazione
Sistema elaboratore in multiprogrammazioneSistema elaboratore in multiprogrammazione
Sistema elaboratore in multiprogrammazione
 
Cutting stock bidimensionale
Cutting stock bidimensionaleCutting stock bidimensionale
Cutting stock bidimensionale
 

Instance-based learning and Numeric prediction

  • 1. Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN. Corso di laurea specialistica in informatica – A.A. 2008/2009 Corso di basi di dati avanzate e tecniche di data mining Instance-based learning and Numeric prediction Studenti: Professore: Andrea Manfucci Giuseppe Busanello Davide Ciambelli
  • 2. SOMMARIO Metodi instance-based Obiettivo del modello Complessità Istanze prototipo Regioni rettangolari Predire valori numerici Alberi di regressione: model tree Smoothing Esempi Instance-based learning and Numeric prediction 2
  • 3. Rappresentazioni instance-based È la più semplice forma di learning Obiettivo: cercare le istanze dell'insieme di training più somi- glianti alla nuova istanza considerata Le istanze stesse rappresentano la conoscenza Istanza caratterizzata da un solo attributo numerico Diversi attributi numerici Attributi nominali Instance-based learning and Numeric prediction 3
  • 4. Complessità Complessità del metodo Spaziale: devono essere memorizzate tutte le istanze dell'insie- me di training Temporale: necessità di visitare l'intero training set Possibilità di diminuire la complessità spaziale Instance-based learning and Numeric prediction 4
  • 5. Rappresentazione IB: istanze prototipo Sono memorizzate solo le istanze coinvolte nella deci- sione Le istanze disturbo dovrebbero essere eliminate Instance-based learning and Numeric prediction 5
  • 6. Eliminazione del disturbo Pesare ogni attributo Distanza pesata euclidea: L'aggiornamento dei pesi è basato sul nearest-neighbor Classe corretta: incrementa il peso Classe non corretta: decrementa il peso Per ogni attributo i , la differenza |xi-yi| è la misura del contributo che l'attributo da alla decisione Se la differenza è piccola l'attributo contribuisce positivamente Se la differenza è grande potrebbe contribuire negativamente Instance-based learning and Numeric prediction 6
  • 7. Rappresentazione IB: regioni rettangolari La regola nearest-neighbor è usata solo fuori dai ret- tangoli Ogni rettangolo identifica una regola Regioni rettangolari annidate rappresentano regole con eccezioni Instance-based learning and Numeric prediction 7
  • 8. Generalized exemplars Regioni rettangolari di istanze vengono chiamate iper- rettangoli Per conoscere la classe di una nuova istanza e si utiliz- za una funzione distanza che permette di stabilire la classe di appartenenza di e Quando una nuova istanza è predetta correttamente viene semplicemente associata all'istanza più vicina appartenente alla medesima classe L'istanza più vicina può essere: Una singola istanza Viene creato un nuovo iperrettangolo che copre la vecchia e la nuo- va istanza Un iperrettangolo L'iperrettangolo viene esteso fino a comprendere la nuova istanza Instance-based learning and Numeric prediction 8
  • 9. La funzione distanza La linea di separazione per- mette di stabilire se un'istanza appartiene ad una classe o al- l'altra La distanza da una istanza al- l'iperrettangolo è definita uguale a zero se il punto si trova all'interno dell'iperret- tangolo Instance-based learning and Numeric prediction 9
  • 10. SOMMARIO Metodi instance-based Obiettivo del modello Complessità Istanze prototipo Regioni rettangolari Predire valori numerici Alberi di regressione: model tree Smoothing Esempi Instance-based learning and Numeric prediction 10
  • 11. Predire valori numerici Esistono delle alternative per lo schema discusso pre- cedentemente Quasi tutti gli schemi di classificazione possono essere applicati ai problemi di regressione Discriminare la classe in intervalli Predire la media pesata dell'intervallo medio Peso in accordo alla probabilità Instance-based learning and Numeric prediction 11
  • 12. Alberi di regressione Sono alberi di decisione Le foglie predicono quantità numeriche calcolate fa- cendo la media delle istanze che raggiungono la foglia considerata Facile da interpretare Versione più sofisticata: model tree Instance-based learning and Numeric prediction 12
  • 13. Model tree Sono alberi di regressione con modelli di regressione li- neare associati ad ogni foglia Instance-based learning and Numeric prediction 13
  • 14. Smoothing Smoothing: fattore di una precedente previsione dove p' è la previsione passata al nodo superiore p è la previsione passata dal nodo inferiore q è il valore predetto dal nodo n è il numero delle istanze di training che raggiungono il nodo sottostante k è la costante di smoothing (raffinamento) Il vantaggio sostanziale è che l'accuratezza della previ- sione aumenta in ragione della costante di smoothing Instance-based learning and Numeric prediction 14
  • 15. Costruire l'albero Criterio di splitting: mediante deviazione standard Criterio di terminazione: La deviazione standard è una frazione piccola (< 5%) Troppe poche istanze rimaste Criterio di taglio: Calcolato attraverso funzione euristica Dove: n è il numero delle istanze del training set v è il numero dei parametri che danno il valore della classe al nodo Procedendo verso la radice si confronta l'errore a_a_e con l'erro- re del sottoalbero a cui il nodo appartiene Instance-based learning and Numeric prediction 15
  • 16. Attributi nominali e valori mancanti Convertire attributi nominali in binario Ordinare gli attributi per il valore medio della classe Se l'attributo ha k valori vengono generati k-1 attributi binari Modificare il criterio di divisione in questo modo: In questo caso si parla di surrogate splitting Instance-based learning and Numeric prediction 16
  • 17. Surrogate splitting Scegliere un punto di divisione basato sul valore medio delle istanze Questo punto divide le istanze in 2 sottoinsiemi L (la più piccola classe media) R (la più grande classe media) m è la media dei due valori medi Per un'istanza con un valore mancante: Si sceglie L se il valore della classe < m Altrimenti si sceglie R Una volta che l'albero è costruito completamente, si so- stituiscono i valori mancanti con le medie dei corri- spondenti nodi foglia Instance-based learning and Numeric prediction 17
  • 18. Pseudo-codifica Quattro metodi: Metodo principale: MakeModelTree Metodo per dividere: split Metodo per tagliare: prune Metodo per gestire errori: subtreeError Ora daremo uno sguardo ad ogni metodo Instance-based learning and Numeric prediction 18
  • 19. MakeModelTree Instance-based learning and Numeric prediction 19
  • 20. split Instance-based learning and Numeric prediction 20
  • 21. prune Instance-based learning and Numeric prediction 21
  • 22. subtreeError La funzione errore ritorna: Dove n è il numero delle istanze nel nodo v è il numero di parametri nel modello lineare del nodo Instance-based learning and Numeric prediction 22
  • 23. FINE GRAZIE PER L'ATTENZIONE Instance-based learning and Numeric prediction 23