SlideShare une entreprise Scribd logo
1  sur  39
Un modello di Semantic Sentiment
Analysis basato su tecniche di NLP e
risorse lessicali
Relatori: Laureando:
Chiar.mo Prof. Giovanni Semeraro Luigiantonio IONIO
Dott. Cataldo Musto
Dipartimento di Informatica
Corso di Laurea Magistrale in Informatica
BARI, 22/07/2014
Sommario
2
 Introduzione
 Sentiment Analysis
 Approcci lessicali
 Approccio proposto
 Risultati Sperimentali
 Conclusioni
 Sviluppi futuri
3
 La quantità di dati che vengono generati
quotidianamente dal Web è superiore rispetto a
quella che si è in grado di analizzare e gestire.
 Di particolare interesse (sociale ed economico)
risultano essere i dati estrapolati dai Social Network
(Facebook, Twitter, ecc).
 Alcuni dati. Ogni minuto:
 Pubblicati 100.000 Tweet;
 Condivisi 684.478 stati su Facebook;
 Caricati 48h di video YouTube.
Information Overload: problema o opportunità?
Information Overload: problema o opportunità?
4
 L’obiettivo è quello di trasformare dati ‘grezzi’
presenti sulla rete in dati aggregati interessanti.
 Concetto: creare «valore» da dati grezzi.
 Tendenza: creazione di sistemi complessi in grado di
raccogliere ed elaborare dati in maniera automatica.
 Piattaforme per l’Opinion Mining
 Algoritmi di Sentiment Analysis
Sentiment Analysis
5
 Strumento di indagine che consente di comprendere
opinioni, umori e punti di vista presenti in un testo.
 Noto anche come Opinion Mining.
 L’obiettivo è quello di classificare la polarità di un
contenuto (testuale o multimediale) come
positivo/negativo/neutro.
 Attraverso la Sentiment Analysis è possibile
determinare i pareri relativi a un prodotto, un film, un
ristorante…
Approcci alla Sentiment Analysis
6
 Approccio lessicale: utilizzo di un dizionario con
informazioni riguardanti la positività/negatività di parole o
frasi. La polarità di un testo viene determinata in base
alla polarità dei termini che lo compongono.
Pro: Nessun addestramento richiesto.
Contro: Basati sulla coerenza del lessico.
 Approccio Machine Learning: partendo da esempi pre-
etichettati, si addestra un classificatore in grado di
predire la polarità di un testo precedentemente non noto.
Pro: Più performanti rispetto agli approcci lessicali.
Contro: Lunghi tempi di addestramento; Necessaria
etichettatura manuale.
Obiettivi
7
 Valutare l’accuratezza di approcci lessicali per la
Sentiment Analysis.
 Focus: Sentiment Analysis su microblog posts (es.
Twitter)
 Confrontare l’efficacia di diversi lessici presenti in
letteratura.
Approcci lessicali
8
 La polarità di un testo è ottenuta tramite la
combinazione della polarità associata ad ogni
termine presente nel testo.
 Problema: come associare una polarità a un
termine?
 Soluzione: utilizzo di lessici a stato dell’arte.
 SentiWordNet
 WordNet Affect
 SenticNet
 MPQA
SentiWordNet[1]
9
 Risorsa lessicale per l’Opinion Mining che assegna
ad un synset di WordNet tre punteggi sentimentali.
 Composto da 117.659 termini inglesi.
 La somma dei tre punteggi è sempre pari a 1.
[1] http://sentiwordnet.isti.cnr.it/
WordNet Affect[2]
10
 Associa ad ogni synset di WordNet differenti
categorie affettive disposte in una struttura
gerarchica.
 Es: good benevolence love … root
 La tassonomia presenta più di 200 concetti.
 Lo score di un termine viene determinato
individuando la polarità in SentiWordnet della prima
categoria emozionale associata ad esso a partire
dalla più specifica.
 Es: good benevolence 0.3394[2] http://wndomains.fbk.eu/wnaffect.html
WordNet Affect
11
SenticNet[3]
12
 Fornisce in formato RDF la semantica associata ad
oltre 14.000 concetti di uso comune.
 Lo score di termine (dominio: [-1, +1]) è indicato
esplicitamente nel campo ‘polarity’ del relativo RDF.
[3] http://sentic.net/
SenticNet
13
MPQA[4]
14
 Lessico composto da 8.222 termini (definiti ‘clues’).
 Classifica ogni termine come ‘positive’, ‘negative’,
‘both’, ‘neutral’.
 Es. good polarity = “positive” +1
[4] http://mpqa.cs.pitt.edu/
15
APPROCCIO PROPOSTO
Approccio proposto
16
 La polarità di un testo è pari alla combinazione delle
polarità delle singole microfrasi che lo compongono.
 La suddivisione in microfrasi avviene considerando
caratteri di interpunzione, congiunzioni ed avverbi.
I don’t like this food. It’s terrible.
“I don't like this food. It's
terrible.”
Approccio 1: Base
17
 Determina lo score di un Tweet T sommando gli
score associati ad ogni termine e normalizzando per
il numero di termini presenti nel testo.
T = {m1, m2, …, mn}
Tweet composto da n microfrasi
score del j-esimo
termine nella i-
esima microfrase
numero di termini presenti nel lessico
Approccio 2: Normalizzato
18
 Estensione dell’approccio Base.
 Score complessivo normalizzato rispetto al numero
di microfrasi presenti nel testo.
T = {m1, m2, …, mn}
numero di termini presenti nel lessico numero di microfrasi
Approccio 3: Enfasi
19
 Incrementa lo score associato ad aggettivi, avverbi
e verbi rispetto alle altre categorie sintattiche.
 Valutate diverse percentuali di incremento
T = {m1, m2, …, mn}
peso
enfasi
numero di
termini presenti
nel lessico
Approccio 4: Enfasi Normalizzato
20
 Combinazione dell’approccio normalizzato con
quello ad enfasi.
T = {m1, m2, …, mn}
numero di
termini presenti
nel lessico numero di microfrasi
21
RISULTATI SPERIMENTALI
Dataset
22
 SemEval-2013 (3 classi: positivo, negativo, neutro)
 Stanford Twitter Sentiment (2 classi: positivo,
negativo)
Dataset Istanze Positivi Negativi Neutri Sparsità
Training 8.180 3.056
(37%)
1.200
(15%)
3.924
(48%)
0.999390
test 3.255 1.325
(41%)
495
(15%)
1.435
(44%)
0.998795
Dataset Istanze Positivi Negativi Sparsità
Training 1.580.182 790.400
(50%)
789.782
(50%)
0.99984
test 359 182
(51%)
177
(49%)
0.99331
Progettazione
23
 Utilizzo del training set per apprendere la soglia ottimale
di classificazione dei Tweet.
 Valutazione degli approcci sul test set
 Metriche: Accuratezza
 Quesiti di Ricerca
1) Qual è la configurazione ottimale che massimizza
l’accuratezza dell’algoritmo con i diversi lessici?
2) Qual è il lessico che permette di ottenere i migliori risultati in
termini di accuratezza?
Validazione statistica con test di McNemar
Risultati Quesito 1
24
Sentiwordn
et
SenticNet
WordNet-
Affect
MPQA
Basilare 57.67 48.69 53.92 58.03
Normalizzato 58.10 47.25 55.05 57.97
Enfasi 58.65 48.29 53.95 58.25
Enfasi Normalizzato 58.99 48.08 55.08 58.10
45
47
49
51
53
55
57
59
61
Accuratezza
Dataset SemEval
Risultati Quesito 1
25
Sentiwordn
et
SenticNet
WordNet-
Affect
MPQA
Basilare 57.67 48.69 53.92 58.03
Normalizzato 58.10 47.25 55.05 57.97
Enfasi 58.65 48.29 53.95 58.25
Enfasi Normalizzato 58.99 48.08 55.08 58.10
45
47
49
51
53
55
57
59
61
Accuratezza
Dataset SemEval
Risultati Quesito 1
26
Sentiwordn
et
SenticNet
WordNet-
Affect
MPQA
Basilare 71.87 74.37 62.95 69.64
Normalizzato 72.42 74.65 62.67 70.75
Enfasi 71.31 73.82 62.95 69.92
Enfasi Normalizzato 71.59 74.65 62.95 70.75
56
58
60
62
64
66
68
70
72
74
76
Accuratezza
Dataset STS
Risultati Quesito 1
27
Sentiwordn
et
SenticNet
WordNet-
Affect
MPQA
Basilare 71.87 74.37 62.95 69.64
Normalizzato 72.42 74.65 62.67 70.75
Enfasi 71.31 73.82 62.95 69.92
Enfasi Normalizzato 71.59 74.65 62.95 70.75
56
58
60
62
64
66
68
70
72
74
76
Accuratezza
Dataset STS
Risultati Quesito 1
28
 Dataset SemEval:
 L’introduzione dell’enfasi (classica e normalizzata) migliora i
risultati complessivi in 7 degli 8 confronti con un incremento
medio del 0.3%;
 L’introduzione della normalizzazione ha portato miglioramenti in
2 casi su 4.
 Dataset STS:
 L’enfasi (classica e normalizzata) ha portato miglioramenti in
solo 2 confronti;
 La normalizzazione ha portato miglioramenti in 3 confronti su 4
con un miglioramento medio dello 0.6%.
 Conclusioni:
 L’enfasi apporta migliorie nel dataset SemEval;
 La normalizzazione apporta migliorie nel dataset STS.
SentiWordNet SenticNet WordNetAffect MPQA
Accuratezza 58.99 48.69 55.08 58.25
45
47
49
51
53
55
57
59
61
Dataset SemEval
Risultati Quesito 2
29
SentiWordNet SenticNet WordNetAffect MPQA
Accuratezza 72.42 74.65 62.95 70.75
56
58
60
62
64
66
68
70
72
74
76
Dataset STS
Risultati Quesito 2
30
Analisi dei Risultati
31
 SentiWordNet e MPQA sono i lessici migliori per
approcci lessicali alla Sentiment Analysis.
 WordNet Affect non efficace: l’idea di basare il task
di SA solo sull’utilizzo di attributi emozionali non
apporta migliorie.
Conclusioni
32
Indipendente dal dominio
Scarsa presenza di lessici in letteratura
Possibilità di definire un proprio lessico
Vincolato dalla coerenza del lessico
Ambiguità del linguaggio naturale
Non richiede addestramento
Buone performance
Sviluppi futuri
33
 Combinare i diversi lessici;
 Testare nuovi approcci lessicali;
 Sfruttare tutte le informazioni fornite dai lessici per
perfezionare la classificazione.
GRAZIE PER
L’ATTENZIONE
34
SentiWordNet
35
 Un termine può essere associato a più synset e
quindi a più score.
 Ogni termine è denotato come ‘termine#n’ dove n
indica l’n-esimo significato del termine.
 Lo score complessivo di un termine è ottenuto
calcolando la media pesata
Varianti
36
 Gestione delle Emoticon: ogni emoticon viene
considerata discriminante per la polarità di un testo.
 Oggettività: un termine che presenta un punteggio
complessivo (inteso come somma tra score positivo
e negativo) < 0.5 viene considerato NEUTRO.
Tweet Positivi Tweet Negativi
:-) :D :) : ) ;) :P =) :( :-( : ( :’(
Soglie ottimali
37
 Utilizzando il training set dei due dataset si possono
determinare le soglie ottimali ai fini della
classificazione.
 Classificazione binaria (positivo/negativo): 1 soglia
 Classificazione ternaria (positivo/negativo/neutro): 2
soglie
Soglie ottimali ed emoticon
38
0
10
20
30
40
50
60
70
Soglie 0:
Soglie ottimali:
Soglie ottimali +
emoticon
0
10
20
30
40
50
60
70
80
SentiWordNet SenticNet WordNetAffect MPQA
Soglie ott:
Soglie ott + emo
Classificazione ternaria:
•Le soglie ottimali incrementano i
risultati
•Le emoticon incrementano i risultati
Classificazione binaria:
•Le soglie ottimali corrispondono a
0
•Le emoticon incrementano i
risultati
Senza Oggettività VS Oggettività
39
0
10
20
30
40
50
60
70
Senza Oggettività
Oggettività
0
10
20
30
40
50
60
70
80
Senza Oggettività
Oggettività
Classificazione ternaria:
•L’introduzione della soggettività non
comporta migliorie in termini di
accuratezza
Classificazione binaria:
•L’introduzione della soggettività non
comporta migliorie in termini di
accuratezza

Contenu connexe

En vedette

Wordnet-Affect [IIT-Bombay]
Wordnet-Affect [IIT-Bombay]Wordnet-Affect [IIT-Bombay]
Wordnet-Affect [IIT-Bombay]Sagar Ahire
 
Estrarre informazioni da pagina Facebook
Estrarre informazioni da pagina FacebookEstrarre informazioni da pagina Facebook
Estrarre informazioni da pagina FacebookRoberto Marmo
 
Real-time discovery e sentiment analysis su Twitter: Blogmeter Now
Real-time discovery e sentiment analysis su Twitter: Blogmeter NowReal-time discovery e sentiment analysis su Twitter: Blogmeter Now
Real-time discovery e sentiment analysis su Twitter: Blogmeter NowMe-Source S.r.l./Blogmeter
 
Social Media Marketing per hotel: strategie, strumenti e contenuti
Social Media Marketing per hotel: strategie, strumenti e contenutiSocial Media Marketing per hotel: strategie, strumenti e contenuti
Social Media Marketing per hotel: strategie, strumenti e contenutiDigital Marketing Turistico
 
Social Media Marketing per il turismo 2.0
Social Media Marketing per il turismo 2.0Social Media Marketing per il turismo 2.0
Social Media Marketing per il turismo 2.0Claudio Vaccaro
 

En vedette (7)

Wordnet-Affect [IIT-Bombay]
Wordnet-Affect [IIT-Bombay]Wordnet-Affect [IIT-Bombay]
Wordnet-Affect [IIT-Bombay]
 
Ascoltere la rete: la sentiment analysis
Ascoltere la rete: la sentiment analysisAscoltere la rete: la sentiment analysis
Ascoltere la rete: la sentiment analysis
 
Estrarre informazioni da pagina Facebook
Estrarre informazioni da pagina FacebookEstrarre informazioni da pagina Facebook
Estrarre informazioni da pagina Facebook
 
Real-time discovery e sentiment analysis su Twitter: Blogmeter Now
Real-time discovery e sentiment analysis su Twitter: Blogmeter NowReal-time discovery e sentiment analysis su Twitter: Blogmeter Now
Real-time discovery e sentiment analysis su Twitter: Blogmeter Now
 
Social Media Marketing per hotel: strategie, strumenti e contenuti
Social Media Marketing per hotel: strategie, strumenti e contenutiSocial Media Marketing per hotel: strategie, strumenti e contenuti
Social Media Marketing per hotel: strategie, strumenti e contenuti
 
Semantic Patterns for Sentiment Analysis of Twitter
Semantic Patterns for Sentiment Analysis of TwitterSemantic Patterns for Sentiment Analysis of Twitter
Semantic Patterns for Sentiment Analysis of Twitter
 
Social Media Marketing per il turismo 2.0
Social Media Marketing per il turismo 2.0Social Media Marketing per il turismo 2.0
Social Media Marketing per il turismo 2.0
 

Similaire à Un modello di Semantic Sentiment Analysis basato su tecniche di NLP e risorse lessicali

Approcci per l'estrazione del Sentiment da Social Network
Approcci per l'estrazione del Sentiment da Social NetworkApprocci per l'estrazione del Sentiment da Social Network
Approcci per l'estrazione del Sentiment da Social NetworkLeonardo Oliva
 
Definizione e sviluppo di un algoritmo genetico multiobiettivo per problemi d...
Definizione e sviluppo di un algoritmo genetico multiobiettivo per problemi d...Definizione e sviluppo di un algoritmo genetico multiobiettivo per problemi d...
Definizione e sviluppo di un algoritmo genetico multiobiettivo per problemi d...Stefano Costanzo
 
Text_to_text__Come_ragionare_con_le_AI_-_Human_Singularity.pdf
Text_to_text__Come_ragionare_con_le_AI_-_Human_Singularity.pdfText_to_text__Come_ragionare_con_le_AI_-_Human_Singularity.pdf
Text_to_text__Come_ragionare_con_le_AI_-_Human_Singularity.pdfHuman Singularity
 
Detailed Model Capture
Detailed Model CaptureDetailed Model Capture
Detailed Model Capturefcospito
 
Detailed Model Capture
Detailed Model CaptureDetailed Model Capture
Detailed Model Capturefcospito
 
Tecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systemsTecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systemsGiuseppe Ricci
 
Presentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori PugliaPresentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori PugliaGiuseppe Ricci
 
Tesi di Laurea Specialistica
Tesi di Laurea SpecialisticaTesi di Laurea Specialistica
Tesi di Laurea SpecialisticaClaudio Carcaci
 
Il tutoring di processo del Master IELM attraverso i sociogrammi
Il tutoring di processo del Master IELM attraverso i sociogrammiIl tutoring di processo del Master IELM attraverso i sociogrammi
Il tutoring di processo del Master IELM attraverso i sociogrammiMassimo Conte
 
Riuso Object Oriented
Riuso Object OrientedRiuso Object Oriented
Riuso Object OrientedStefano Fago
 
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...mfurlanetto
 
Metodologia per la classificazione automatica di commenti su social network tesi
Metodologia per la classificazione automatica di commenti su social network tesiMetodologia per la classificazione automatica di commenti su social network tesi
Metodologia per la classificazione automatica di commenti su social network tesiSimone Maver
 
Alidata Experience - Alitalia Customer Satisfaction
Alidata Experience -  Alitalia Customer SatisfactionAlidata Experience -  Alitalia Customer Satisfaction
Alidata Experience - Alitalia Customer SatisfactionCarla Marini
 
Modello Puzzle per l'AppQuiz
Modello Puzzle per l'AppQuizModello Puzzle per l'AppQuiz
Modello Puzzle per l'AppQuizinformistica
 
Utilizzo di tecnologie big data per addestramento di metamodelli matematici p...
Utilizzo di tecnologie big data per addestramento di metamodelli matematici p...Utilizzo di tecnologie big data per addestramento di metamodelli matematici p...
Utilizzo di tecnologie big data per addestramento di metamodelli matematici p...DavideFegez
 
Tcexam 12 [ITA] - Computer-Based Assessment
Tcexam 12 [ITA] - Computer-Based AssessmentTcexam 12 [ITA] - Computer-Based Assessment
Tcexam 12 [ITA] - Computer-Based AssessmentTecnick.com LTD
 

Similaire à Un modello di Semantic Sentiment Analysis basato su tecniche di NLP e risorse lessicali (20)

Algoritmi di Semantica e P2P
Algoritmi di Semantica e P2PAlgoritmi di Semantica e P2P
Algoritmi di Semantica e P2P
 
Approcci per l'estrazione del Sentiment da Social Network
Approcci per l'estrazione del Sentiment da Social NetworkApprocci per l'estrazione del Sentiment da Social Network
Approcci per l'estrazione del Sentiment da Social Network
 
Sentiment candida 27_may
Sentiment candida 27_maySentiment candida 27_may
Sentiment candida 27_may
 
Definizione e sviluppo di un algoritmo genetico multiobiettivo per problemi d...
Definizione e sviluppo di un algoritmo genetico multiobiettivo per problemi d...Definizione e sviluppo di un algoritmo genetico multiobiettivo per problemi d...
Definizione e sviluppo di un algoritmo genetico multiobiettivo per problemi d...
 
Text_to_text__Come_ragionare_con_le_AI_-_Human_Singularity.pdf
Text_to_text__Come_ragionare_con_le_AI_-_Human_Singularity.pdfText_to_text__Come_ragionare_con_le_AI_-_Human_Singularity.pdf
Text_to_text__Come_ragionare_con_le_AI_-_Human_Singularity.pdf
 
Algoritmi E P2P
Algoritmi E P2PAlgoritmi E P2P
Algoritmi E P2P
 
Algoritmi E P2P
Algoritmi E P2PAlgoritmi E P2P
Algoritmi E P2P
 
Detailed Model Capture
Detailed Model CaptureDetailed Model Capture
Detailed Model Capture
 
Detailed Model Capture
Detailed Model CaptureDetailed Model Capture
Detailed Model Capture
 
Tecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systemsTecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systems
 
Presentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori PugliaPresentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori Puglia
 
Tesi di Laurea Specialistica
Tesi di Laurea SpecialisticaTesi di Laurea Specialistica
Tesi di Laurea Specialistica
 
Il tutoring di processo del Master IELM attraverso i sociogrammi
Il tutoring di processo del Master IELM attraverso i sociogrammiIl tutoring di processo del Master IELM attraverso i sociogrammi
Il tutoring di processo del Master IELM attraverso i sociogrammi
 
Riuso Object Oriented
Riuso Object OrientedRiuso Object Oriented
Riuso Object Oriented
 
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
 
Metodologia per la classificazione automatica di commenti su social network tesi
Metodologia per la classificazione automatica di commenti su social network tesiMetodologia per la classificazione automatica di commenti su social network tesi
Metodologia per la classificazione automatica di commenti su social network tesi
 
Alidata Experience - Alitalia Customer Satisfaction
Alidata Experience -  Alitalia Customer SatisfactionAlidata Experience -  Alitalia Customer Satisfaction
Alidata Experience - Alitalia Customer Satisfaction
 
Modello Puzzle per l'AppQuiz
Modello Puzzle per l'AppQuizModello Puzzle per l'AppQuiz
Modello Puzzle per l'AppQuiz
 
Utilizzo di tecnologie big data per addestramento di metamodelli matematici p...
Utilizzo di tecnologie big data per addestramento di metamodelli matematici p...Utilizzo di tecnologie big data per addestramento di metamodelli matematici p...
Utilizzo di tecnologie big data per addestramento di metamodelli matematici p...
 
Tcexam 12 [ITA] - Computer-Based Assessment
Tcexam 12 [ITA] - Computer-Based AssessmentTcexam 12 [ITA] - Computer-Based Assessment
Tcexam 12 [ITA] - Computer-Based Assessment
 

Un modello di Semantic Sentiment Analysis basato su tecniche di NLP e risorse lessicali

  • 1. Un modello di Semantic Sentiment Analysis basato su tecniche di NLP e risorse lessicali Relatori: Laureando: Chiar.mo Prof. Giovanni Semeraro Luigiantonio IONIO Dott. Cataldo Musto Dipartimento di Informatica Corso di Laurea Magistrale in Informatica BARI, 22/07/2014
  • 2. Sommario 2  Introduzione  Sentiment Analysis  Approcci lessicali  Approccio proposto  Risultati Sperimentali  Conclusioni  Sviluppi futuri
  • 3. 3  La quantità di dati che vengono generati quotidianamente dal Web è superiore rispetto a quella che si è in grado di analizzare e gestire.  Di particolare interesse (sociale ed economico) risultano essere i dati estrapolati dai Social Network (Facebook, Twitter, ecc).  Alcuni dati. Ogni minuto:  Pubblicati 100.000 Tweet;  Condivisi 684.478 stati su Facebook;  Caricati 48h di video YouTube. Information Overload: problema o opportunità?
  • 4. Information Overload: problema o opportunità? 4  L’obiettivo è quello di trasformare dati ‘grezzi’ presenti sulla rete in dati aggregati interessanti.  Concetto: creare «valore» da dati grezzi.  Tendenza: creazione di sistemi complessi in grado di raccogliere ed elaborare dati in maniera automatica.  Piattaforme per l’Opinion Mining  Algoritmi di Sentiment Analysis
  • 5. Sentiment Analysis 5  Strumento di indagine che consente di comprendere opinioni, umori e punti di vista presenti in un testo.  Noto anche come Opinion Mining.  L’obiettivo è quello di classificare la polarità di un contenuto (testuale o multimediale) come positivo/negativo/neutro.  Attraverso la Sentiment Analysis è possibile determinare i pareri relativi a un prodotto, un film, un ristorante…
  • 6. Approcci alla Sentiment Analysis 6  Approccio lessicale: utilizzo di un dizionario con informazioni riguardanti la positività/negatività di parole o frasi. La polarità di un testo viene determinata in base alla polarità dei termini che lo compongono. Pro: Nessun addestramento richiesto. Contro: Basati sulla coerenza del lessico.  Approccio Machine Learning: partendo da esempi pre- etichettati, si addestra un classificatore in grado di predire la polarità di un testo precedentemente non noto. Pro: Più performanti rispetto agli approcci lessicali. Contro: Lunghi tempi di addestramento; Necessaria etichettatura manuale.
  • 7. Obiettivi 7  Valutare l’accuratezza di approcci lessicali per la Sentiment Analysis.  Focus: Sentiment Analysis su microblog posts (es. Twitter)  Confrontare l’efficacia di diversi lessici presenti in letteratura.
  • 8. Approcci lessicali 8  La polarità di un testo è ottenuta tramite la combinazione della polarità associata ad ogni termine presente nel testo.  Problema: come associare una polarità a un termine?  Soluzione: utilizzo di lessici a stato dell’arte.  SentiWordNet  WordNet Affect  SenticNet  MPQA
  • 9. SentiWordNet[1] 9  Risorsa lessicale per l’Opinion Mining che assegna ad un synset di WordNet tre punteggi sentimentali.  Composto da 117.659 termini inglesi.  La somma dei tre punteggi è sempre pari a 1. [1] http://sentiwordnet.isti.cnr.it/
  • 10. WordNet Affect[2] 10  Associa ad ogni synset di WordNet differenti categorie affettive disposte in una struttura gerarchica.  Es: good benevolence love … root  La tassonomia presenta più di 200 concetti.  Lo score di un termine viene determinato individuando la polarità in SentiWordnet della prima categoria emozionale associata ad esso a partire dalla più specifica.  Es: good benevolence 0.3394[2] http://wndomains.fbk.eu/wnaffect.html
  • 12. SenticNet[3] 12  Fornisce in formato RDF la semantica associata ad oltre 14.000 concetti di uso comune.  Lo score di termine (dominio: [-1, +1]) è indicato esplicitamente nel campo ‘polarity’ del relativo RDF. [3] http://sentic.net/
  • 14. MPQA[4] 14  Lessico composto da 8.222 termini (definiti ‘clues’).  Classifica ogni termine come ‘positive’, ‘negative’, ‘both’, ‘neutral’.  Es. good polarity = “positive” +1 [4] http://mpqa.cs.pitt.edu/
  • 16. Approccio proposto 16  La polarità di un testo è pari alla combinazione delle polarità delle singole microfrasi che lo compongono.  La suddivisione in microfrasi avviene considerando caratteri di interpunzione, congiunzioni ed avverbi. I don’t like this food. It’s terrible. “I don't like this food. It's terrible.”
  • 17. Approccio 1: Base 17  Determina lo score di un Tweet T sommando gli score associati ad ogni termine e normalizzando per il numero di termini presenti nel testo. T = {m1, m2, …, mn} Tweet composto da n microfrasi score del j-esimo termine nella i- esima microfrase numero di termini presenti nel lessico
  • 18. Approccio 2: Normalizzato 18  Estensione dell’approccio Base.  Score complessivo normalizzato rispetto al numero di microfrasi presenti nel testo. T = {m1, m2, …, mn} numero di termini presenti nel lessico numero di microfrasi
  • 19. Approccio 3: Enfasi 19  Incrementa lo score associato ad aggettivi, avverbi e verbi rispetto alle altre categorie sintattiche.  Valutate diverse percentuali di incremento T = {m1, m2, …, mn} peso enfasi numero di termini presenti nel lessico
  • 20. Approccio 4: Enfasi Normalizzato 20  Combinazione dell’approccio normalizzato con quello ad enfasi. T = {m1, m2, …, mn} numero di termini presenti nel lessico numero di microfrasi
  • 22. Dataset 22  SemEval-2013 (3 classi: positivo, negativo, neutro)  Stanford Twitter Sentiment (2 classi: positivo, negativo) Dataset Istanze Positivi Negativi Neutri Sparsità Training 8.180 3.056 (37%) 1.200 (15%) 3.924 (48%) 0.999390 test 3.255 1.325 (41%) 495 (15%) 1.435 (44%) 0.998795 Dataset Istanze Positivi Negativi Sparsità Training 1.580.182 790.400 (50%) 789.782 (50%) 0.99984 test 359 182 (51%) 177 (49%) 0.99331
  • 23. Progettazione 23  Utilizzo del training set per apprendere la soglia ottimale di classificazione dei Tweet.  Valutazione degli approcci sul test set  Metriche: Accuratezza  Quesiti di Ricerca 1) Qual è la configurazione ottimale che massimizza l’accuratezza dell’algoritmo con i diversi lessici? 2) Qual è il lessico che permette di ottenere i migliori risultati in termini di accuratezza? Validazione statistica con test di McNemar
  • 24. Risultati Quesito 1 24 Sentiwordn et SenticNet WordNet- Affect MPQA Basilare 57.67 48.69 53.92 58.03 Normalizzato 58.10 47.25 55.05 57.97 Enfasi 58.65 48.29 53.95 58.25 Enfasi Normalizzato 58.99 48.08 55.08 58.10 45 47 49 51 53 55 57 59 61 Accuratezza Dataset SemEval
  • 25. Risultati Quesito 1 25 Sentiwordn et SenticNet WordNet- Affect MPQA Basilare 57.67 48.69 53.92 58.03 Normalizzato 58.10 47.25 55.05 57.97 Enfasi 58.65 48.29 53.95 58.25 Enfasi Normalizzato 58.99 48.08 55.08 58.10 45 47 49 51 53 55 57 59 61 Accuratezza Dataset SemEval
  • 26. Risultati Quesito 1 26 Sentiwordn et SenticNet WordNet- Affect MPQA Basilare 71.87 74.37 62.95 69.64 Normalizzato 72.42 74.65 62.67 70.75 Enfasi 71.31 73.82 62.95 69.92 Enfasi Normalizzato 71.59 74.65 62.95 70.75 56 58 60 62 64 66 68 70 72 74 76 Accuratezza Dataset STS
  • 27. Risultati Quesito 1 27 Sentiwordn et SenticNet WordNet- Affect MPQA Basilare 71.87 74.37 62.95 69.64 Normalizzato 72.42 74.65 62.67 70.75 Enfasi 71.31 73.82 62.95 69.92 Enfasi Normalizzato 71.59 74.65 62.95 70.75 56 58 60 62 64 66 68 70 72 74 76 Accuratezza Dataset STS
  • 28. Risultati Quesito 1 28  Dataset SemEval:  L’introduzione dell’enfasi (classica e normalizzata) migliora i risultati complessivi in 7 degli 8 confronti con un incremento medio del 0.3%;  L’introduzione della normalizzazione ha portato miglioramenti in 2 casi su 4.  Dataset STS:  L’enfasi (classica e normalizzata) ha portato miglioramenti in solo 2 confronti;  La normalizzazione ha portato miglioramenti in 3 confronti su 4 con un miglioramento medio dello 0.6%.  Conclusioni:  L’enfasi apporta migliorie nel dataset SemEval;  La normalizzazione apporta migliorie nel dataset STS.
  • 29. SentiWordNet SenticNet WordNetAffect MPQA Accuratezza 58.99 48.69 55.08 58.25 45 47 49 51 53 55 57 59 61 Dataset SemEval Risultati Quesito 2 29
  • 30. SentiWordNet SenticNet WordNetAffect MPQA Accuratezza 72.42 74.65 62.95 70.75 56 58 60 62 64 66 68 70 72 74 76 Dataset STS Risultati Quesito 2 30
  • 31. Analisi dei Risultati 31  SentiWordNet e MPQA sono i lessici migliori per approcci lessicali alla Sentiment Analysis.  WordNet Affect non efficace: l’idea di basare il task di SA solo sull’utilizzo di attributi emozionali non apporta migliorie.
  • 32. Conclusioni 32 Indipendente dal dominio Scarsa presenza di lessici in letteratura Possibilità di definire un proprio lessico Vincolato dalla coerenza del lessico Ambiguità del linguaggio naturale Non richiede addestramento Buone performance
  • 33. Sviluppi futuri 33  Combinare i diversi lessici;  Testare nuovi approcci lessicali;  Sfruttare tutte le informazioni fornite dai lessici per perfezionare la classificazione.
  • 35. SentiWordNet 35  Un termine può essere associato a più synset e quindi a più score.  Ogni termine è denotato come ‘termine#n’ dove n indica l’n-esimo significato del termine.  Lo score complessivo di un termine è ottenuto calcolando la media pesata
  • 36. Varianti 36  Gestione delle Emoticon: ogni emoticon viene considerata discriminante per la polarità di un testo.  Oggettività: un termine che presenta un punteggio complessivo (inteso come somma tra score positivo e negativo) < 0.5 viene considerato NEUTRO. Tweet Positivi Tweet Negativi :-) :D :) : ) ;) :P =) :( :-( : ( :’(
  • 37. Soglie ottimali 37  Utilizzando il training set dei due dataset si possono determinare le soglie ottimali ai fini della classificazione.  Classificazione binaria (positivo/negativo): 1 soglia  Classificazione ternaria (positivo/negativo/neutro): 2 soglie
  • 38. Soglie ottimali ed emoticon 38 0 10 20 30 40 50 60 70 Soglie 0: Soglie ottimali: Soglie ottimali + emoticon 0 10 20 30 40 50 60 70 80 SentiWordNet SenticNet WordNetAffect MPQA Soglie ott: Soglie ott + emo Classificazione ternaria: •Le soglie ottimali incrementano i risultati •Le emoticon incrementano i risultati Classificazione binaria: •Le soglie ottimali corrispondono a 0 •Le emoticon incrementano i risultati
  • 39. Senza Oggettività VS Oggettività 39 0 10 20 30 40 50 60 70 Senza Oggettività Oggettività 0 10 20 30 40 50 60 70 80 Senza Oggettività Oggettività Classificazione ternaria: •L’introduzione della soggettività non comporta migliorie in termini di accuratezza Classificazione binaria: •L’introduzione della soggettività non comporta migliorie in termini di accuratezza

Notes de l'éditeur

  1. Con l’evoluzione di internet e l’avvento dei social network, la quantità di dati disponibile sul web risulta essere superiore dispetto a quella che si è in grado di analizzare. Questo fenomeno prende il nome di Information Overload. Di particolare interesse risultano essere i dati estratti dai Social Network, i quali forniscono opinioni o pareri praticamente su qualsiasi cosa presa in analisi. E’ sufficiente guardare alcuni dati di esempio per poter comprendere l’entità di tale divario: …
  2. Quello dell’information overload più che essere considerato come un problema, può essere visto come un’opportunità. I dati disponibili in forma grezza sul web possono essere trasformati in dati aggregati interessanti con il quale è possibile creare valore. Per questo motivo si è sentita la necessità di creare sistemi complessi in grado di analizzare ed elaborare in maniera automatica tali dati. Diverse attualmente risultano essere le piattaforme e gli algorirmi disponibili in letteratura per la sentiment analysis.
  3. La Sentiment Analysis risulta essere un importante strumento di indagine che ha l’obiettivo di far emergere opinioni, umori e punti di vista presenti in un testo. Si pone l’obiettivo di classificare la polarità di un contenuto in una etichetta sentimentale positiva, negativa o neutra. Difatti attraverso la sentiment analysis è possibile determinare cosa piace e cosa non piace.
  4. Gli approcci con la quale è possibile realizzare tecniche per la Sentiment Analysis sono sostanzialmente due: un approccio lessicale ed un approccio machine learning. L’approccio lessicale fa utilizzo di un dizionario contenente una serie di informazioni riguardanti la polarità di un testo. Presenta il principale vantaggio di non richiedere addestramento, ma tuttavia il successo di tale approccio è vincolato dalla consistenza del lessico utilizzato. L’approccio di machine learning addestra un modello in grado di predire la polarità di un testo non noto. Tiene conto del dominio del Training set, tuttavia richiede lunghi tempi di addestramento.
  5. Gli obiettivi che questo lavoro di tesi mira a raggiungere riguardano la valutazione dell’accuratezza degli approcci lessicali per la Sentiment Analysis, con particolare enfasi su post di siti di microblogging quali Twitter e il confronto dell’efficacia dei principali lessici presenti in letteratura.
  6. Gli approcci lessicali, come abbiamo avuto modo di dire, fanno utilizzo di opportuni lessici per determinare la polarità di un termine. Il sentimento legato ad un testo è ottenuto tramite la combinazione della polarità di ogni termine che lo compone. Pertanto risulta necessario chiedersi come è possibile ottenere la polarità di un termine. Questo è possibile tramite l’ausilio di una serie di lessici a stato dell’arte. In questo lavoro di tesi i lessici presi in considerazione sono…
  7. SentiWordNet rappresenta una risorsa lessicale che assegna ad ogni synset di WordNet uno punteggio sentimentale ottenuto tramite la combinazione di 3 score, uno per ogni classe sentimentale. Il lessico è composto da circa 118.000 termini in lingua inglese. Nell’esempio sono mostrati due termini, dove per ognuno dei quali viene indicato il synset di riferimento e la terna di score ad esso associata.
  8. WordNet Affect costituisce una risorsa lessicale che associa ad un synset di WordNet differenti categorie affettive, disposte in una struttura gerarchica. La tassonomia è composta da circa 200 concetti. Ad esempio, considerando il termine ‘good’, le categorie ad esso associate sono … fino al raggiungimento della radice. Lo score di un termine è ottenuto considerando la prima categoria dalla più specifica che risulta presenta in sentiwordnet. Pertanto lo score associato al termine ‘good’ sarà quello del termine ‘benevolence’ pari a 0.3394.
  9. In questa slide è mostrata una parte della tassonomia di WordNet Affect. Nello specifico è possibile notare come le categorie affettive richiamino espliciti riferimenti ad emozioni e quindi a sentimento.
  10. SenticNet consiste in una risorsa lessicale composta da circa 14.000 termini che fornisce in formato RDF una serie di informazioni tra cui la polarità associata ad un termine.
  11. Considerando il termine ‘good’ è possibile estrarre in maniera diretta lo score ad esso associato.
  12. MPQA consiste in una risorsa lessicale composta da circa 8.000 termini, definiti clues, indizi. Ad ogni termine è associata una etichetta come positive, negative, both e neutral Data la necessità di ottenere uno score da associare ogni termine, in caso di polarità positive lo score associato è +1, 0 in caso di termini neutri e -1 per termini negativi. Ad esempio considerando il termine ‘good’ , etichettato come positive, lo score associato sarà +1.
  13. L’approccio proposto parte del presupposto che la polarità di un testo è pari alla combinazione delle singole microfrasi che lo compongono. La suddivisione del testo in microfrasi avviene considerando caratteri di interpunzione, congiunzioni ed avverbi. L’obiettivo è quello di limitare l’influenza della negazione all’interno del testo, come si evince dall’esempio.
  14. Per quanto concerne gli approcci lessicali per determinare lo score di un intero Tweet, considerando quest’ultimo come un insieme di microfrasi, l’approccio basilare somma gli score associati ad ogni termine. Lo score complessivo del Tweet è dato dalla somma degli score di ogni microfrasi e normalizzando per il numero di termini presenti nel lessico.
  15. L’approccio normalizzato determina lo score associato ad ogni microfrase sommando gli score di ogni termine e normalizzando il numero complessivo di termini. Lo score dell’intero Tweet è ottenuto sommando gli score normalizzati e normalizzando per il numero di microfrasi.
  16. L’approccio enfasi incrementa lo score associato ad aggettivi, avverbi e verbi. Per fare ciò lo score associato ad un termine nel calcolo delle microfrasi viene moltiplicato per un peso che corrisponde e diverse percentuali di enfasi. Lo score complessivo del testo viene normalizzato per il numero complessivo di termini presenti nel lessico utilizzato.
  17. Infine l’approccio enfasi normalizzato considera sempre un incremento per gli score di aggettivi, avverbi e verbi, ma normalizza lo score di ogni microfrase per il numero di termini presenti nel lessico. Lo score complessivo del tweet viene normalizzato per il numero di microfrasi di cui il testo è compsoto.
  18. I dataset utilizzati per la fase sperimentale sono il dataset liberamente disponibile della competizione SEMEVAL del 2013, composto da un trainingset di 8.180 Tweet e un test set di 3.255 istanze ed il dataset di Stanford composto da circa 1.600.000 Tweet etichettati automaticamente ed un test set composto da 359. Il training set è stato campionato a 10.000 Tweet. Il dataset effettua una classificazione basata su tre classi (positiva, negativa e neutra), mentre il dataset di Stanford una binaria (positiva e negativa).
  19. L’esperimento è stato condotto utilizzando il training set dei dataset presi in considerazione per apprendere le soglie ottimali per la classificazione dei Tweet. Infatti a partire dagli score associati ad ogni Tweet è necessario determinarne la classe sentimentale tramite l’ausilio di soglie. La valutazione degli approcci è stata effettuata sui test set dei dataset utilizzando come metriche l’Accuratezza e F-measure. I quesiti di ricerca posti per questo lavoro di tesi riguardano la ricerca della configurazione ottimale in termini di accuratezza per i diversi approcci presi in analisi e la ricerca del lessico che risulta in grado di garantire i migliori risultati.
  20. In questo grafico sono mostrati il comportamento degli approcci lessicali proposti per i quattro lessici presi in considerazione. Per il dataset SEMEVAL, che classifica il testo in 3 classi, l’approccio più performante è l’enfasi normalizzato con lessico sentiwordnet con un’accuratezza del 58.99%. I risultati peggiori si hanno con il dataset SenticNet.
  21. In questo grafico sono mostrati il comportamento degli approcci lessicali proposti per i quattro lessici presi in considerazione. Per il dataset SEMEVAL, che classifica il testo in 3 classi, l’approccio più performante è l’enfasi normalizzato con lessico sentiwordnet con un’accuratezza del 58.99%. I risultati peggiori si hanno con il dataset SenticNet.