SlideShare une entreprise Scribd logo
1  sur  14
Télécharger pour lire hors ligne
Tecniche basate su machine learning
per la determinazione del profilo di un
autore su Twitter
Tesi di Laurea Magistrale in Ing. Informatica
Laureanda:
A. Laderchi
Correlatori:
prof. E. Medvet
dott. A. De Lorenzo
dott. F. Tarlao
Relatore:
prof. A. Bartoli
Anno Accademico 2014-2015
14 ottobre 2015
Contesto
Social media (blog, social network, ecc.):
● testi lunghi o brevi
● testi molto spesso informali
Profilo di un autore:
● sesso
● età
● personalità
Domande:
● si può determinare il profilo in base allo stile di scrittura?
● quali elementi del testo bisogna considerare?
Introduzione
2 / 13
14 ottobre 2015
Importanza
● E-commerce:
○ prodotti consigliati in base al profilo
○ interfacce adattabili
● Analisi forense:
○ profilo di un colpevole sulla base di tracce scritte
● Relazioni:
○ successo sentimentale
○ successo professionale
● Filtraggio di informazioni
Introduzione
3 / 13
14 ottobre 2015
Obbiettivo
Sviluppo di un metodo in grado di risolvere il problema della
determinazione del profilo di un autore (competizione PAN 2015).
Caratteristiche:
● 4 lingue differenti (EN, ES, IT, NL)
● a partire da esempi → machine learning
○ documenti con attributi già associati
● valutazione finale del metodo su documenti non disponibili
Introduzione
4 / 13
14 ottobre 2015 5 / 13
Attributi da determinare
Introduzione
● sesso
○ maschile
○ femminile
● fascia d’età (solo per EN ed ES)
○ 18-24
○ 25-34
○ 35-49
○ 50+
● 5 tratti della personalità
○ valori compresi tra -0.5 e +0.5
Problemi di
classificazione
Problemi di
regressione
Accuratezza
RMSE
(Root-Mean-Square Error)
14 ottobre 2015 6 / 13
Tratti della personalità
Introduzione
Modello Big Five (OCEAN):
● Apertura mentale (Openness)
○ curiosità, intelligenza, immaginazione
● Coscienziosità (Conscientiousness)
○ responsabilità, organizzazione, perseveranza
● Estroversione (Extroversion)
○ espansività, fiducia, entusiasmo
● Amicalità (Agreableness)
○ cooperazione, disponibilità, educazione
● Nevroticismo (Neuroticism)
○ ansietà, insicurezza, suscettibilità
14 ottobre 2015 7 / 13
Approccio
Metodo utilizzato
● Definizione di numerose feature da estrarre dai documenti:
○ stilometriche (punteggiatura, emoticon, numeri, ecc.)
○ contenuto (famiglia, lavoro, sport, sentimenti, ecc.)
○ ibride (preposizioni, articoli, pronomi, blog-word, ecc.)
● Algoritmi di previsione (classificazione/regressione):
○ SVM (Support Vector Machine)
○ Random Forest
● Metodo di validazione:
○ leave-one-out
14 ottobre 2015 8 / 13
Selezione delle feature
Metodo utilizzato
26 problemi da risolvere:
● (1 attributo x 2 lingue) + (6 attributi x 4 lingue)
Per ogni problema:
● circa 40 sottoinsiemi di feature
● SVM e Random Forest
Sui documenti disponibili:
● configurazioni feature-algoritmo migliori scelte in base a:
○ accuratezza (sesso, fascia d’età)
○ RMSE (tratti personali)
14 ottobre 2015 9 / 13
Risultati finali
PAN 2015
Sesso e fascia d’età Tratti personali
Lingua Sesso Età Joint RMSE Estro Nevro Amica Consc Apert Glob
EN 0.6479 0.7465 0.4718 0.1605 0.1480 0.2323 0.1360 0.1418 0.1445 0.6557
ES 0.8523 0.4205 0.3295 0.1562 0.1701 0.1867 0.1463 0.1302 0.1459 0.5867
IT 0.5000 - 0.5000 0.1405 0.1004 0.1889 0.1386 0.1298 0.1450 0.6797
NL 0.7188 - 0.7188 0.1156 0.1467 0.1393 0.1261 0.0962 0.0696 0.8016
Punteggio finale 0.6809
In grassetto: i valori migliori rispetto alla media dei risultati di tutti i partecipanti.
14 ottobre 2015 10 / 13
Classifica finale
PAN 2015
Sesso e fascia d’età Tratti personali
Lingua Sesso Età Joint RMSE Estro Nevro Amica Consc Apert Glob
EN 16/22 6/22 15/22 8/22 10/22 13/22 3/22 8/22 11/22 14/22
ES 7/21 20/21 19/21 5/21 8/21 4/21 9/21 3/21 9/21 19/21
IT 17/19 - 17/19 6/19 5/19 4/19 8/19 8/19 5/19 15/19
NL 10/21 - 10/21 4/21 8/21 6/21 7/21 2/21 6/21 9/21
Posizione finale 14/22
In grassetto: le posizioni risultanti tra le migliori 10.
14 ottobre 2015 11 / 13
Criticità della competizione
PAN 2015
Scoperta la possibilità di:
● conoscere parte dei documenti “segreti” usati per la valutazione
finale
● prevedere le risposte corrette a tutti (o quasi) i problemi tramite:
○ ricerca in rete di tweet
○ incrocio ID autori
● falsare la competizione in modo radicale
14 ottobre 2015 12 / 13
Conclusioni
Realizzato un metodo per la determinazione del profilo di un autore:
● buoni risultati:
○ nella previsione dei tratti personali
○ soprattutto nella lingua olandese
Riguardo alle criticità:
● tempestiva notifica agli organizzatori:
○ hanno corretto i dati e ringraziato pubblicamente il nostro
contributo
14 ottobre 2015
Fine
Grazie per l’attenzione!
13 / 13
14 ottobre 2015
Approfondimento risultati finali
PAN 2015
* accuratezza
** RMSE
***
Accuratezza:
● 0 → nessuna previsione corretta
● 1 → tutte previsioni corrette
RMSE:
● 0 → tutte previsioni corrette
In corsivo: valori medi
considerando tutti i partecipanti.
In grassetto: valori superiori alla
media di tutti i partecipanti.
Sesso e fascia d’età* Tratti personali**
Lingua Sesso Età Joint RMSE Estro Nevro Amica Consc Apert Glob***
EN
0.6479 0.7465 0.4718 0.1605 0.1480 0.2323 0.1360 0.1418 0.1445 0.6557
0.7132 0.6863 0.5086 0.1763 0.1629 0.2379 0.1612 0.1586 0.1607 0.6662
ES
0.8523 0.4205 0.3295 0.1562 0.1701 0.1867 0.1463 0.1302 0.1459 0.5867
0.7944 0.6223 0.5216 0.1775 0.1845 0.2174 0.1579 0.1689 0.1588 0.6721
IT
0.5000 - 0.5000 0.1405 0.1004 0.1889 0.1386 0.1298 0.1450 0.6797
0.6418 - 0.6418 0.1602 0.1249 0.2088 0.1415 0.1502 0.1756 0.7408
NL
0.7188 - 0.7188 0.1156 0.1467 0.1393 0.1261 0.0962 0.0696 0.8016
0.7032 - 0.7032 0.1422 0.1503 0.1664 0.1435 0.1448 0.1062 0.7805
Punteggio finale
0.6809
0.7171

Contenu connexe

En vedette

Machine Learning
Machine LearningMachine Learning
Machine Learningbutest
 
Game of Thrones Infographic
Game of Thrones InfographicGame of Thrones Infographic
Game of Thrones InfographicValerio Capozio
 
Reti Neurali
Reti NeuraliReti Neurali
Reti NeuraliAgabiti25
 
Corso Introduttivo alle Reti Neurali
Corso Introduttivo alle Reti NeuraliCorso Introduttivo alle Reti Neurali
Corso Introduttivo alle Reti NeuraliValerio Capozio
 
Introduzione ai Big Data e alla scienza dei dati - I formati dati
Introduzione ai Big Data e alla scienza dei dati - I formati datiIntroduzione ai Big Data e alla scienza dei dati - I formati dati
Introduzione ai Big Data e alla scienza dei dati - I formati datiVincenzo Manzoni
 
Corso analisi e comunicazione dei dati 2014
Corso analisi e comunicazione dei dati 2014Corso analisi e comunicazione dei dati 2014
Corso analisi e comunicazione dei dati 2014Cristina Rigutto
 
Presentazione Manuel Kirschner, Phd symposium UniBZ, 12/2010
Presentazione Manuel Kirschner, Phd symposium UniBZ, 12/2010Presentazione Manuel Kirschner, Phd symposium UniBZ, 12/2010
Presentazione Manuel Kirschner, Phd symposium UniBZ, 12/2010makirs
 
Big data e analisi predittiva
Big data e analisi predittivaBig data e analisi predittiva
Big data e analisi predittivaAntonio Bucciol
 
Azure Machine Learning (Italian)
Azure Machine Learning (Italian)Azure Machine Learning (Italian)
Azure Machine Learning (Italian)Davide Mauri
 
Introduzione ai Big Data e alla scienza dei dati - Big Data
Introduzione ai Big Data e alla scienza dei dati - Big DataIntroduzione ai Big Data e alla scienza dei dati - Big Data
Introduzione ai Big Data e alla scienza dei dati - Big DataVincenzo Manzoni
 
Analisi dati da Facebook con Microsoft Excel
Analisi dati da Facebook con Microsoft ExcelAnalisi dati da Facebook con Microsoft Excel
Analisi dati da Facebook con Microsoft ExcelRoberto Marmo
 
7° Sessione - L’intelligenza artificiale a supporto della ricerca, servizi di...
7° Sessione - L’intelligenza artificiale a supporto della ricerca, servizi di...7° Sessione - L’intelligenza artificiale a supporto della ricerca, servizi di...
7° Sessione - L’intelligenza artificiale a supporto della ricerca, servizi di...Jürgen Ambrosi
 
Manuale presentazioni efficaci
Manuale presentazioni efficaciManuale presentazioni efficaci
Manuale presentazioni efficaciCristina Rigutto
 
Big-data analytics: challenges and opportunities
Big-data analytics: challenges and opportunitiesBig-data analytics: challenges and opportunities
Big-data analytics: challenges and opportunities台灣資料科學年會
 

En vedette (18)

Machine Learning
Machine LearningMachine Learning
Machine Learning
 
Game of Thrones Infographic
Game of Thrones InfographicGame of Thrones Infographic
Game of Thrones Infographic
 
Reti Neurali
Reti NeuraliReti Neurali
Reti Neurali
 
Corso Introduttivo alle Reti Neurali
Corso Introduttivo alle Reti NeuraliCorso Introduttivo alle Reti Neurali
Corso Introduttivo alle Reti Neurali
 
Introduzione ai Big Data e alla scienza dei dati - I formati dati
Introduzione ai Big Data e alla scienza dei dati - I formati datiIntroduzione ai Big Data e alla scienza dei dati - I formati dati
Introduzione ai Big Data e alla scienza dei dati - I formati dati
 
Corso analisi e comunicazione dei dati 2014
Corso analisi e comunicazione dei dati 2014Corso analisi e comunicazione dei dati 2014
Corso analisi e comunicazione dei dati 2014
 
Presentazione Manuel Kirschner, Phd symposium UniBZ, 12/2010
Presentazione Manuel Kirschner, Phd symposium UniBZ, 12/2010Presentazione Manuel Kirschner, Phd symposium UniBZ, 12/2010
Presentazione Manuel Kirschner, Phd symposium UniBZ, 12/2010
 
Big data e analisi predittiva
Big data e analisi predittivaBig data e analisi predittiva
Big data e analisi predittiva
 
Azure Machine Learning (Italian)
Azure Machine Learning (Italian)Azure Machine Learning (Italian)
Azure Machine Learning (Italian)
 
Introduzione ai Big Data e alla scienza dei dati - Big Data
Introduzione ai Big Data e alla scienza dei dati - Big DataIntroduzione ai Big Data e alla scienza dei dati - Big Data
Introduzione ai Big Data e alla scienza dei dati - Big Data
 
Analisi dati da Facebook con Microsoft Excel
Analisi dati da Facebook con Microsoft ExcelAnalisi dati da Facebook con Microsoft Excel
Analisi dati da Facebook con Microsoft Excel
 
7° Sessione - L’intelligenza artificiale a supporto della ricerca, servizi di...
7° Sessione - L’intelligenza artificiale a supporto della ricerca, servizi di...7° Sessione - L’intelligenza artificiale a supporto della ricerca, servizi di...
7° Sessione - L’intelligenza artificiale a supporto della ricerca, servizi di...
 
Manuale presentazioni efficaci
Manuale presentazioni efficaciManuale presentazioni efficaci
Manuale presentazioni efficaci
 
Big-data analytics: challenges and opportunities
Big-data analytics: challenges and opportunitiesBig-data analytics: challenges and opportunities
Big-data analytics: challenges and opportunities
 
What is big data?
What is big data?What is big data?
What is big data?
 
Big data ppt
Big data pptBig data ppt
Big data ppt
 
What is Big Data?
What is Big Data?What is Big Data?
What is Big Data?
 
Big data ppt
Big  data pptBig  data ppt
Big data ppt
 

Similaire à [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter

CV Luca Lucchetti-2016
CV Luca Lucchetti-2016CV Luca Lucchetti-2016
CV Luca Lucchetti-2016Luca Lucchetti
 
Come pianificare il TwinSpace di un buon progetto eTwinning
Come pianificare il TwinSpace di un buon progetto eTwinningCome pianificare il TwinSpace di un buon progetto eTwinning
Come pianificare il TwinSpace di un buon progetto eTwinningalexandra tosi
 
Valutare (nel, con il) digitale
Valutare  (nel, con il) digitaleValutare  (nel, con il) digitale
Valutare (nel, con il) digitaleStefano Penge
 
Come presentare se stessi ed il proprio lavoro
Come presentare se stessi ed il proprio lavoroCome presentare se stessi ed il proprio lavoro
Come presentare se stessi ed il proprio lavoroVittorio Scarano
 
School of data Trento: basic spreadsheet
School of data Trento: basic spreadsheetSchool of data Trento: basic spreadsheet
School of data Trento: basic spreadsheetCristian Consonni
 
Presentazione Linkedin - Torino Digital Days
Presentazione Linkedin - Torino Digital DaysPresentazione Linkedin - Torino Digital Days
Presentazione Linkedin - Torino Digital DaysFrancesco Ronchi
 
Come creare un progetto eTwinning: consigli per la progettazione
Come creare un progetto eTwinning: consigli per la progettazioneCome creare un progetto eTwinning: consigli per la progettazione
Come creare un progetto eTwinning: consigli per la progettazionealexandra tosi
 

Similaire à [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter (9)

CV Luca Lucchetti-2016
CV Luca Lucchetti-2016CV Luca Lucchetti-2016
CV Luca Lucchetti-2016
 
Come pianificare il TwinSpace di un buon progetto eTwinning
Come pianificare il TwinSpace di un buon progetto eTwinningCome pianificare il TwinSpace di un buon progetto eTwinning
Come pianificare il TwinSpace di un buon progetto eTwinning
 
DOCENTI - Lezione 3 - ASOC1718 - 150118
DOCENTI - Lezione 3 - ASOC1718 - 150118DOCENTI - Lezione 3 - ASOC1718 - 150118
DOCENTI - Lezione 3 - ASOC1718 - 150118
 
Valutare (nel, con il) digitale
Valutare  (nel, con il) digitaleValutare  (nel, con il) digitale
Valutare (nel, con il) digitale
 
Come presentare se stessi ed il proprio lavoro
Come presentare se stessi ed il proprio lavoroCome presentare se stessi ed il proprio lavoro
Come presentare se stessi ed il proprio lavoro
 
School of data Trento: basic spreadsheet
School of data Trento: basic spreadsheetSchool of data Trento: basic spreadsheet
School of data Trento: basic spreadsheet
 
Elevator pitch - introduzione
Elevator pitch - introduzioneElevator pitch - introduzione
Elevator pitch - introduzione
 
Presentazione Linkedin - Torino Digital Days
Presentazione Linkedin - Torino Digital DaysPresentazione Linkedin - Torino Digital Days
Presentazione Linkedin - Torino Digital Days
 
Come creare un progetto eTwinning: consigli per la progettazione
Come creare un progetto eTwinning: consigli per la progettazioneCome creare un progetto eTwinning: consigli per la progettazione
Come creare un progetto eTwinning: consigli per la progettazione
 

Dernier

GIORNATA TECNICA 18/04 | SPIZZIRRI Massimo
GIORNATA TECNICA 18/04 | SPIZZIRRI MassimoGIORNATA TECNICA 18/04 | SPIZZIRRI Massimo
GIORNATA TECNICA 18/04 | SPIZZIRRI MassimoServizi a rete
 
GIORNATA TECNICA 18/04 | DE ROSA Roberto
GIORNATA TECNICA 18/04 | DE ROSA RobertoGIORNATA TECNICA 18/04 | DE ROSA Roberto
GIORNATA TECNICA 18/04 | DE ROSA RobertoServizi a rete
 
GIORNATA TECNICA DA AQP 18/04 | ZONNO Serena
GIORNATA TECNICA DA AQP 18/04 | ZONNO SerenaGIORNATA TECNICA DA AQP 18/04 | ZONNO Serena
GIORNATA TECNICA DA AQP 18/04 | ZONNO SerenaServizi a rete
 
GIORNATA TECNICA DA AQP 18/04 | MOTTA Simone
GIORNATA TECNICA DA AQP 18/04 | MOTTA SimoneGIORNATA TECNICA DA AQP 18/04 | MOTTA Simone
GIORNATA TECNICA DA AQP 18/04 | MOTTA SimoneServizi a rete
 
GIORNATA TECNICA 18/04 | LITTERIO Raffaele
GIORNATA TECNICA 18/04 | LITTERIO RaffaeleGIORNATA TECNICA 18/04 | LITTERIO Raffaele
GIORNATA TECNICA 18/04 | LITTERIO RaffaeleServizi a rete
 
Descrizione della struttura architettonica Eretteo.pptx
Descrizione della struttura architettonica Eretteo.pptxDescrizione della struttura architettonica Eretteo.pptx
Descrizione della struttura architettonica Eretteo.pptxtecongo2007
 
GIORNATA TECNICA 18/04 | DE LEO Antonio
GIORNATA TECNICA 18/04  | DE LEO AntonioGIORNATA TECNICA 18/04  | DE LEO Antonio
GIORNATA TECNICA 18/04 | DE LEO AntonioServizi a rete
 
Presentzione Matematica similitudini circonferenze e omotetie.pptx
Presentzione  Matematica similitudini circonferenze e omotetie.pptxPresentzione  Matematica similitudini circonferenze e omotetie.pptx
Presentzione Matematica similitudini circonferenze e omotetie.pptxfilippoluciani9
 
GIORNATA TECNICA 18/04 | BENANTI Alessandro
GIORNATA TECNICA 18/04 | BENANTI AlessandroGIORNATA TECNICA 18/04 | BENANTI Alessandro
GIORNATA TECNICA 18/04 | BENANTI AlessandroServizi a rete
 

Dernier (9)

GIORNATA TECNICA 18/04 | SPIZZIRRI Massimo
GIORNATA TECNICA 18/04 | SPIZZIRRI MassimoGIORNATA TECNICA 18/04 | SPIZZIRRI Massimo
GIORNATA TECNICA 18/04 | SPIZZIRRI Massimo
 
GIORNATA TECNICA 18/04 | DE ROSA Roberto
GIORNATA TECNICA 18/04 | DE ROSA RobertoGIORNATA TECNICA 18/04 | DE ROSA Roberto
GIORNATA TECNICA 18/04 | DE ROSA Roberto
 
GIORNATA TECNICA DA AQP 18/04 | ZONNO Serena
GIORNATA TECNICA DA AQP 18/04 | ZONNO SerenaGIORNATA TECNICA DA AQP 18/04 | ZONNO Serena
GIORNATA TECNICA DA AQP 18/04 | ZONNO Serena
 
GIORNATA TECNICA DA AQP 18/04 | MOTTA Simone
GIORNATA TECNICA DA AQP 18/04 | MOTTA SimoneGIORNATA TECNICA DA AQP 18/04 | MOTTA Simone
GIORNATA TECNICA DA AQP 18/04 | MOTTA Simone
 
GIORNATA TECNICA 18/04 | LITTERIO Raffaele
GIORNATA TECNICA 18/04 | LITTERIO RaffaeleGIORNATA TECNICA 18/04 | LITTERIO Raffaele
GIORNATA TECNICA 18/04 | LITTERIO Raffaele
 
Descrizione della struttura architettonica Eretteo.pptx
Descrizione della struttura architettonica Eretteo.pptxDescrizione della struttura architettonica Eretteo.pptx
Descrizione della struttura architettonica Eretteo.pptx
 
GIORNATA TECNICA 18/04 | DE LEO Antonio
GIORNATA TECNICA 18/04  | DE LEO AntonioGIORNATA TECNICA 18/04  | DE LEO Antonio
GIORNATA TECNICA 18/04 | DE LEO Antonio
 
Presentzione Matematica similitudini circonferenze e omotetie.pptx
Presentzione  Matematica similitudini circonferenze e omotetie.pptxPresentzione  Matematica similitudini circonferenze e omotetie.pptx
Presentzione Matematica similitudini circonferenze e omotetie.pptx
 
GIORNATA TECNICA 18/04 | BENANTI Alessandro
GIORNATA TECNICA 18/04 | BENANTI AlessandroGIORNATA TECNICA 18/04 | BENANTI Alessandro
GIORNATA TECNICA 18/04 | BENANTI Alessandro
 

[SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter

  • 1. Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter Tesi di Laurea Magistrale in Ing. Informatica Laureanda: A. Laderchi Correlatori: prof. E. Medvet dott. A. De Lorenzo dott. F. Tarlao Relatore: prof. A. Bartoli Anno Accademico 2014-2015
  • 2. 14 ottobre 2015 Contesto Social media (blog, social network, ecc.): ● testi lunghi o brevi ● testi molto spesso informali Profilo di un autore: ● sesso ● età ● personalità Domande: ● si può determinare il profilo in base allo stile di scrittura? ● quali elementi del testo bisogna considerare? Introduzione 2 / 13
  • 3. 14 ottobre 2015 Importanza ● E-commerce: ○ prodotti consigliati in base al profilo ○ interfacce adattabili ● Analisi forense: ○ profilo di un colpevole sulla base di tracce scritte ● Relazioni: ○ successo sentimentale ○ successo professionale ● Filtraggio di informazioni Introduzione 3 / 13
  • 4. 14 ottobre 2015 Obbiettivo Sviluppo di un metodo in grado di risolvere il problema della determinazione del profilo di un autore (competizione PAN 2015). Caratteristiche: ● 4 lingue differenti (EN, ES, IT, NL) ● a partire da esempi → machine learning ○ documenti con attributi già associati ● valutazione finale del metodo su documenti non disponibili Introduzione 4 / 13
  • 5. 14 ottobre 2015 5 / 13 Attributi da determinare Introduzione ● sesso ○ maschile ○ femminile ● fascia d’età (solo per EN ed ES) ○ 18-24 ○ 25-34 ○ 35-49 ○ 50+ ● 5 tratti della personalità ○ valori compresi tra -0.5 e +0.5 Problemi di classificazione Problemi di regressione Accuratezza RMSE (Root-Mean-Square Error)
  • 6. 14 ottobre 2015 6 / 13 Tratti della personalità Introduzione Modello Big Five (OCEAN): ● Apertura mentale (Openness) ○ curiosità, intelligenza, immaginazione ● Coscienziosità (Conscientiousness) ○ responsabilità, organizzazione, perseveranza ● Estroversione (Extroversion) ○ espansività, fiducia, entusiasmo ● Amicalità (Agreableness) ○ cooperazione, disponibilità, educazione ● Nevroticismo (Neuroticism) ○ ansietà, insicurezza, suscettibilità
  • 7. 14 ottobre 2015 7 / 13 Approccio Metodo utilizzato ● Definizione di numerose feature da estrarre dai documenti: ○ stilometriche (punteggiatura, emoticon, numeri, ecc.) ○ contenuto (famiglia, lavoro, sport, sentimenti, ecc.) ○ ibride (preposizioni, articoli, pronomi, blog-word, ecc.) ● Algoritmi di previsione (classificazione/regressione): ○ SVM (Support Vector Machine) ○ Random Forest ● Metodo di validazione: ○ leave-one-out
  • 8. 14 ottobre 2015 8 / 13 Selezione delle feature Metodo utilizzato 26 problemi da risolvere: ● (1 attributo x 2 lingue) + (6 attributi x 4 lingue) Per ogni problema: ● circa 40 sottoinsiemi di feature ● SVM e Random Forest Sui documenti disponibili: ● configurazioni feature-algoritmo migliori scelte in base a: ○ accuratezza (sesso, fascia d’età) ○ RMSE (tratti personali)
  • 9. 14 ottobre 2015 9 / 13 Risultati finali PAN 2015 Sesso e fascia d’età Tratti personali Lingua Sesso Età Joint RMSE Estro Nevro Amica Consc Apert Glob EN 0.6479 0.7465 0.4718 0.1605 0.1480 0.2323 0.1360 0.1418 0.1445 0.6557 ES 0.8523 0.4205 0.3295 0.1562 0.1701 0.1867 0.1463 0.1302 0.1459 0.5867 IT 0.5000 - 0.5000 0.1405 0.1004 0.1889 0.1386 0.1298 0.1450 0.6797 NL 0.7188 - 0.7188 0.1156 0.1467 0.1393 0.1261 0.0962 0.0696 0.8016 Punteggio finale 0.6809 In grassetto: i valori migliori rispetto alla media dei risultati di tutti i partecipanti.
  • 10. 14 ottobre 2015 10 / 13 Classifica finale PAN 2015 Sesso e fascia d’età Tratti personali Lingua Sesso Età Joint RMSE Estro Nevro Amica Consc Apert Glob EN 16/22 6/22 15/22 8/22 10/22 13/22 3/22 8/22 11/22 14/22 ES 7/21 20/21 19/21 5/21 8/21 4/21 9/21 3/21 9/21 19/21 IT 17/19 - 17/19 6/19 5/19 4/19 8/19 8/19 5/19 15/19 NL 10/21 - 10/21 4/21 8/21 6/21 7/21 2/21 6/21 9/21 Posizione finale 14/22 In grassetto: le posizioni risultanti tra le migliori 10.
  • 11. 14 ottobre 2015 11 / 13 Criticità della competizione PAN 2015 Scoperta la possibilità di: ● conoscere parte dei documenti “segreti” usati per la valutazione finale ● prevedere le risposte corrette a tutti (o quasi) i problemi tramite: ○ ricerca in rete di tweet ○ incrocio ID autori ● falsare la competizione in modo radicale
  • 12. 14 ottobre 2015 12 / 13 Conclusioni Realizzato un metodo per la determinazione del profilo di un autore: ● buoni risultati: ○ nella previsione dei tratti personali ○ soprattutto nella lingua olandese Riguardo alle criticità: ● tempestiva notifica agli organizzatori: ○ hanno corretto i dati e ringraziato pubblicamente il nostro contributo
  • 13. 14 ottobre 2015 Fine Grazie per l’attenzione! 13 / 13
  • 14. 14 ottobre 2015 Approfondimento risultati finali PAN 2015 * accuratezza ** RMSE *** Accuratezza: ● 0 → nessuna previsione corretta ● 1 → tutte previsioni corrette RMSE: ● 0 → tutte previsioni corrette In corsivo: valori medi considerando tutti i partecipanti. In grassetto: valori superiori alla media di tutti i partecipanti. Sesso e fascia d’età* Tratti personali** Lingua Sesso Età Joint RMSE Estro Nevro Amica Consc Apert Glob*** EN 0.6479 0.7465 0.4718 0.1605 0.1480 0.2323 0.1360 0.1418 0.1445 0.6557 0.7132 0.6863 0.5086 0.1763 0.1629 0.2379 0.1612 0.1586 0.1607 0.6662 ES 0.8523 0.4205 0.3295 0.1562 0.1701 0.1867 0.1463 0.1302 0.1459 0.5867 0.7944 0.6223 0.5216 0.1775 0.1845 0.2174 0.1579 0.1689 0.1588 0.6721 IT 0.5000 - 0.5000 0.1405 0.1004 0.1889 0.1386 0.1298 0.1450 0.6797 0.6418 - 0.6418 0.1602 0.1249 0.2088 0.1415 0.1502 0.1756 0.7408 NL 0.7188 - 0.7188 0.1156 0.1467 0.1393 0.1261 0.0962 0.0696 0.8016 0.7032 - 0.7032 0.1422 0.1503 0.1664 0.1435 0.1448 0.1062 0.7805 Punteggio finale 0.6809 0.7171