Presentazione per prelaurea.
Elaborato: http://www.slideshare.net/kylanee/tecniche-basate-su-machine-learning-per-la-determinazione-del-profilo-di-un-autore-su-twitter
[SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter
1. Tecniche basate su machine learning
per la determinazione del profilo di un
autore su Twitter
Tesi di Laurea Magistrale in Ing. Informatica
Laureanda:
A. Laderchi
Correlatori:
prof. E. Medvet
dott. A. De Lorenzo
dott. F. Tarlao
Relatore:
prof. A. Bartoli
Anno Accademico 2014-2015
2. 14 ottobre 2015
Contesto
Social media (blog, social network, ecc.):
● testi lunghi o brevi
● testi molto spesso informali
Profilo di un autore:
● sesso
● età
● personalità
Domande:
● si può determinare il profilo in base allo stile di scrittura?
● quali elementi del testo bisogna considerare?
Introduzione
2 / 13
3. 14 ottobre 2015
Importanza
● E-commerce:
○ prodotti consigliati in base al profilo
○ interfacce adattabili
● Analisi forense:
○ profilo di un colpevole sulla base di tracce scritte
● Relazioni:
○ successo sentimentale
○ successo professionale
● Filtraggio di informazioni
Introduzione
3 / 13
4. 14 ottobre 2015
Obbiettivo
Sviluppo di un metodo in grado di risolvere il problema della
determinazione del profilo di un autore (competizione PAN 2015).
Caratteristiche:
● 4 lingue differenti (EN, ES, IT, NL)
● a partire da esempi → machine learning
○ documenti con attributi già associati
● valutazione finale del metodo su documenti non disponibili
Introduzione
4 / 13
5. 14 ottobre 2015 5 / 13
Attributi da determinare
Introduzione
● sesso
○ maschile
○ femminile
● fascia d’età (solo per EN ed ES)
○ 18-24
○ 25-34
○ 35-49
○ 50+
● 5 tratti della personalità
○ valori compresi tra -0.5 e +0.5
Problemi di
classificazione
Problemi di
regressione
Accuratezza
RMSE
(Root-Mean-Square Error)
7. 14 ottobre 2015 7 / 13
Approccio
Metodo utilizzato
● Definizione di numerose feature da estrarre dai documenti:
○ stilometriche (punteggiatura, emoticon, numeri, ecc.)
○ contenuto (famiglia, lavoro, sport, sentimenti, ecc.)
○ ibride (preposizioni, articoli, pronomi, blog-word, ecc.)
● Algoritmi di previsione (classificazione/regressione):
○ SVM (Support Vector Machine)
○ Random Forest
● Metodo di validazione:
○ leave-one-out
8. 14 ottobre 2015 8 / 13
Selezione delle feature
Metodo utilizzato
26 problemi da risolvere:
● (1 attributo x 2 lingue) + (6 attributi x 4 lingue)
Per ogni problema:
● circa 40 sottoinsiemi di feature
● SVM e Random Forest
Sui documenti disponibili:
● configurazioni feature-algoritmo migliori scelte in base a:
○ accuratezza (sesso, fascia d’età)
○ RMSE (tratti personali)
9. 14 ottobre 2015 9 / 13
Risultati finali
PAN 2015
Sesso e fascia d’età Tratti personali
Lingua Sesso Età Joint RMSE Estro Nevro Amica Consc Apert Glob
EN 0.6479 0.7465 0.4718 0.1605 0.1480 0.2323 0.1360 0.1418 0.1445 0.6557
ES 0.8523 0.4205 0.3295 0.1562 0.1701 0.1867 0.1463 0.1302 0.1459 0.5867
IT 0.5000 - 0.5000 0.1405 0.1004 0.1889 0.1386 0.1298 0.1450 0.6797
NL 0.7188 - 0.7188 0.1156 0.1467 0.1393 0.1261 0.0962 0.0696 0.8016
Punteggio finale 0.6809
In grassetto: i valori migliori rispetto alla media dei risultati di tutti i partecipanti.
10. 14 ottobre 2015 10 / 13
Classifica finale
PAN 2015
Sesso e fascia d’età Tratti personali
Lingua Sesso Età Joint RMSE Estro Nevro Amica Consc Apert Glob
EN 16/22 6/22 15/22 8/22 10/22 13/22 3/22 8/22 11/22 14/22
ES 7/21 20/21 19/21 5/21 8/21 4/21 9/21 3/21 9/21 19/21
IT 17/19 - 17/19 6/19 5/19 4/19 8/19 8/19 5/19 15/19
NL 10/21 - 10/21 4/21 8/21 6/21 7/21 2/21 6/21 9/21
Posizione finale 14/22
In grassetto: le posizioni risultanti tra le migliori 10.
11. 14 ottobre 2015 11 / 13
Criticità della competizione
PAN 2015
Scoperta la possibilità di:
● conoscere parte dei documenti “segreti” usati per la valutazione
finale
● prevedere le risposte corrette a tutti (o quasi) i problemi tramite:
○ ricerca in rete di tweet
○ incrocio ID autori
● falsare la competizione in modo radicale
12. 14 ottobre 2015 12 / 13
Conclusioni
Realizzato un metodo per la determinazione del profilo di un autore:
● buoni risultati:
○ nella previsione dei tratti personali
○ soprattutto nella lingua olandese
Riguardo alle criticità:
● tempestiva notifica agli organizzatori:
○ hanno corretto i dati e ringraziato pubblicamente il nostro
contributo