Metodologia per la classificazione automatica di commenti su social network slide

Metodologia per la classificazione
automatica di commenti non desiderati
su social network
Università degli Studi di Trieste
Dipartimento di ingegneria e architettura
Corso di laurea magistrale in ingegneria informatica
Anno accademico 2014/2015
Laureando
Simone Maver
Relatore
prof. Alberto Bartoli
Correlatore
prof. Eric Medvet
1

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Il problema
All’interno di un social network:
● Un utente ha uno spazio personale in cui
inserisce dei contenuti
● Riceve contenuti da altri utenti, sotto forma
di commenti
● Alcuni contenuti che riceve potrebbero
essere indesiderati
2

Il problema I
● Necessità di poter moderare
○ contenuti
○ fonti da cui provengono
● Permettere ad un utente di farlo in maniera
○ precisa
○ personalizzata
3
● Alcuni contenuti potrebbero essere
indesiderati

È importante?
● Alcuni contenuti potrebbero essere indesiderati
○ Necessità riconosciuta anche dai gestori dei social network:
“Twitter CEO: We suck at dealing with trolls and abuse” -
The guardian, febbraio 2015)
● I social network sono un media che sta assumendo
sempre maggiore importanza
○ “As of January 2014, 74% of online adults use social
networking sites.” - Social networking fact sheet, PEW Research
Center
○ Here’s how 9 Best Companies use Facebook, Twitter,[...] and
other social networks to stay ahead of the competition:
Autodesk, Boston Consulting Group, American Express, [...] -
Social media superstars 2014, Forbes
4

Obbiettivo del lavoro
● Definire un formalismo per descrivere
insiemi di regole di filtraggio
● Proporre un metodo per applicare le regole
● Verificare l’usabilità del metodo proposto con
un campione di utenti reali
5

Social newtork
● Twitter
○ un utente inserisce un tweet
○ gli altri utenti possono rispondere con un commento
■ commento = tweet di risposta
○ esiste il concetto di conversazione
■ è un insieme di tweet
● i dati su Twitter sono pubblici
6

Scenario
7
● Gli elementi coinvolti nelle operazioni di filtraggio sono:
○ commento
○ utenti
○ conversazione
RegolaCommento
Conversazione
Filtrato
NON filtrato
NB: filtrato = respinto dalla regola
● Oggetto del filtraggio saranno i commenti (tweet di
risposta) parte di una conversazione

Struttura di una regola
8
● In una regola possono essere presenti uno o più
elementi, specificati da chi forma la regola
sono insiemi di topic
sono insiemi di label
sono dei flag booleani
un insieme di relazioni
un insieme di utenti

Applicazione della regola
● Le informazioni riguardanti commenti, utenti
e conversazione vengono confrontate con gli
elementi specificati nella regola
● Se almeno uno dei confronti porta al
filtraggio, allora il commento è filtrato
(respinto) dalla regola
9

Informazioni di contesto
● Informazioni che potrebbero essere coinvolte nel
filtraggio:
○ topic - argomenti di discussione:arte, scienza, politica, salute,
sport, ...
○ label - etichette; descrivono informazioni di contesto relative a:
■ utente:
● utenteVerificato, utenteAppenaRegistrato
■ messaggio:
● volgare, georeferenziato, contieneImmagini, contieneLink,
nonContieneTesto
○ relazioni tra gli utenti: segue, èSeguito
● Nel corso del lavoro sono state definite alcune funzioni
per mettere in relazione elementi della regola e
caratteristiche sopra descritte 10

Esempi di regole
● Rifiuta tutti i messaggi volgari:
11

Esempi di regole I
12
● Rifiuta tutti i messaggi quando si parla di
basket, tranne i messaggi da utenti che
hanno alcuni topic in comune con l’autore
della regola:

Esempi di regole II
● Rifiuta tutti i messaggi pubblicati dall'utente
Prandelli quando nella conversazione si
parla di sport:
13

Estrazione dei dati
● Obbiettivo: recuperare dei dati da utilizzare
nella fase di validazione
● Sorgente: social network Twitter
○ dati pubblici
○ privacy policy meno restrittive
○ presenza di conversazioni
○ API ben documentate
■ utilizzabili tramite Java
14

Estrazione dei dati II
Presenza di conversazioni:
● esiste la nozione di conversazione
○ tweet iniziale + tweet(s) di risposta
● non disponibili direttamente tramite API
15
È stato necessario ricostruire le conversazioni:
● partendo dal tweet iniziale
● cercando i singoli tweet di risposta

Estrazione dei dati III
Ricostruzione conversazioni
16
● Per ricostruire conversazioni più possibile
complete è stato necessario
○ estrarre molti tweet
○ verificare che siano risposte ai tweet già presenti

Estrazione dei dati IV
Obbiettivo dell’estrazione:
● 100 utenti autori di conversazioni
● 100 conversazioni per ognuno degli utenti sopra
● almeno 5 tweet per ogni conversazione
17
Non è stato raggiunto completamente:
● non era possibile verificare la disponibilità dei dati a priori
● le limitazioni temporali e quantitative imposte da Twitter
hanno inciso sulla durata
● dopo ~72 ore di esecuzione l’estrazione è stata interrotta
● sono stati mantenuti i dati estratti
○ 23627 conversazioni totali (1 < lunghezza < 107 tweet)
○ 6 autori di conversazioni con almeno 100 conversazioni da
almeno 5 tweet

Validazione del sistema
Obbiettivo:
● verificare usabilità e efficacia del sistema di filtraggio
Come raggiungerlo:
● somministrazione di più task di filtraggio a un campione
reale di utenti
18

Validazione del sistema I
● Per ogni task vengono forniti
○ descrizione testuale del filtraggio da effettuare
○ qual è l’utente da impersonare
○ quali utenti sono coinvolti nella conversazione
○ conversazione sulla quale eseguire il filtraggio
■ informazioni di contesto necessarie (topic, label,
relazioni,...)
○ possibilità di creare, eliminare e modificare regole
19

Validazione del sistema II
Dati raccolti durante l’utilizzo
1. task assegnato all’utente
2. tempo di esecuzione del task assegnato
3. numero di operazioni effettuate sulle
regole
20

Applicazione web
21

Operazioni su una regola
22

Operazioni su una regola I
23

Visualizzazione tweet
Evidenziazione tweet da filtrare
24
Evidenziazione tweet filtrati

Conclusioni
25
● Definito il formalismo per formare le regole
● Proposto un metodo per applicare le regole
ai messaggi
● L’applicazione web è quasi completa
● Non è stato effettuato il test con gli utenti

26
Grazie per l’attenzione

Applicazione della regola
Considerato un messaggio m, esso viene rifiutato (filtrato)
in una conversazione c da una regola ρ se e solo se tutte le
condizioni seguenti sono verificate:
28

Metodologia per la classificazione automatica di commenti su social network slide

Recommandé

Recommandé

Contenu connexe

Similaire à Metodologia per la classificazione automatica di commenti su social network slide

Similaire à Metodologia per la classificazione automatica di commenti su social network slide (8)

Dernier

Dernier (6)

Metodologia per la classificazione automatica di commenti su social network slide