Giornata tecnica da Acque del Chiampo, 27 marzo 2024 | FARINA Marco
Metodologia per la classificazione automatica di commenti su social network slide
1. Metodologia per la classificazione
automatica di commenti non desiderati
su social network
Università degli Studi di Trieste
Dipartimento di ingegneria e architettura
Corso di laurea magistrale in ingegneria informatica
Anno accademico 2014/2015
Laureando
Simone Maver
Relatore
prof. Alberto Bartoli
Correlatore
prof. Eric Medvet
1
2. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Il problema
All’interno di un social network:
● Un utente ha uno spazio personale in cui
inserisce dei contenuti
● Riceve contenuti da altri utenti, sotto forma
di commenti
● Alcuni contenuti che riceve potrebbero
essere indesiderati
2
3. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Il problema I
● Necessità di poter moderare
○ contenuti
○ fonti da cui provengono
● Permettere ad un utente di farlo in maniera
○ precisa
○ personalizzata
3
● Alcuni contenuti potrebbero essere
indesiderati
4. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
È importante?
● Alcuni contenuti potrebbero essere indesiderati
○ Necessità riconosciuta anche dai gestori dei social network:
“Twitter CEO: We suck at dealing with trolls and abuse” -
The guardian, febbraio 2015)
● I social network sono un media che sta assumendo
sempre maggiore importanza
○ “As of January 2014, 74% of online adults use social
networking sites.” - Social networking fact sheet, PEW Research
Center
○ Here’s how 9 Best Companies use Facebook, Twitter,[...] and
other social networks to stay ahead of the competition:
Autodesk, Boston Consulting Group, American Express, [...] -
Social media superstars 2014, Forbes
4
5. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Obbiettivo del lavoro
● Definire un formalismo per descrivere
insiemi di regole di filtraggio
● Proporre un metodo per applicare le regole
● Verificare l’usabilità del metodo proposto con
un campione di utenti reali
5
6. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Social newtork
● Twitter
○ un utente inserisce un tweet
○ gli altri utenti possono rispondere con un commento
■ commento = tweet di risposta
○ esiste il concetto di conversazione
■ è un insieme di tweet
● i dati su Twitter sono pubblici
6
7. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Scenario
7
● Gli elementi coinvolti nelle operazioni di filtraggio sono:
○ commento
○ utenti
○ conversazione
RegolaCommento
Conversazione
Filtrato
NON filtrato
NB: filtrato = respinto dalla regola
● Oggetto del filtraggio saranno i commenti (tweet di
risposta) parte di una conversazione
8. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Struttura di una regola
8
● In una regola possono essere presenti uno o più
elementi, specificati da chi forma la regola
sono insiemi di topic
sono insiemi di label
sono dei flag booleani
un insieme di relazioni
un insieme di utenti
9. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Applicazione della regola
● Le informazioni riguardanti commenti, utenti
e conversazione vengono confrontate con gli
elementi specificati nella regola
● Se almeno uno dei confronti porta al
filtraggio, allora il commento è filtrato
(respinto) dalla regola
9
10. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Informazioni di contesto
● Informazioni che potrebbero essere coinvolte nel
filtraggio:
○ topic - argomenti di discussione:arte, scienza, politica, salute,
sport, ...
○ label - etichette; descrivono informazioni di contesto relative a:
■ utente:
● utenteVerificato, utenteAppenaRegistrato
■ messaggio:
● volgare, georeferenziato, contieneImmagini, contieneLink,
nonContieneTesto
○ relazioni tra gli utenti: segue, èSeguito
● Nel corso del lavoro sono state definite alcune funzioni
per mettere in relazione elementi della regola e
caratteristiche sopra descritte 10
11. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Esempi di regole
● Rifiuta tutti i messaggi volgari:
11
12. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Esempi di regole I
12
● Rifiuta tutti i messaggi quando si parla di
basket, tranne i messaggi da utenti che
hanno alcuni topic in comune con l’autore
della regola:
13. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Esempi di regole II
● Rifiuta tutti i messaggi pubblicati dall'utente
Prandelli quando nella conversazione si
parla di sport:
13
14. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Estrazione dei dati
● Obbiettivo: recuperare dei dati da utilizzare
nella fase di validazione
● Sorgente: social network Twitter
○ dati pubblici
○ privacy policy meno restrittive
○ presenza di conversazioni
○ API ben documentate
■ utilizzabili tramite Java
14
15. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Estrazione dei dati II
Presenza di conversazioni:
● esiste la nozione di conversazione
○ tweet iniziale + tweet(s) di risposta
● non disponibili direttamente tramite API
15
È stato necessario ricostruire le conversazioni:
● partendo dal tweet iniziale
● cercando i singoli tweet di risposta
16. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Estrazione dei dati III
Ricostruzione conversazioni
16
● Per ricostruire conversazioni più possibile
complete è stato necessario
○ estrarre molti tweet
○ verificare che siano risposte ai tweet già presenti
17. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Estrazione dei dati IV
Obbiettivo dell’estrazione:
● 100 utenti autori di conversazioni
● 100 conversazioni per ognuno degli utenti sopra
● almeno 5 tweet per ogni conversazione
17
Non è stato raggiunto completamente:
● non era possibile verificare la disponibilità dei dati a priori
● le limitazioni temporali e quantitative imposte da Twitter
hanno inciso sulla durata
● dopo ~72 ore di esecuzione l’estrazione è stata interrotta
● sono stati mantenuti i dati estratti
○ 23627 conversazioni totali (1 < lunghezza < 107 tweet)
○ 6 autori di conversazioni con almeno 100 conversazioni da
almeno 5 tweet
18. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Validazione del sistema
Obbiettivo:
● verificare usabilità e efficacia del sistema di filtraggio
Come raggiungerlo:
● somministrazione di più task di filtraggio a un campione
reale di utenti
18
19. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Validazione del sistema I
● Per ogni task vengono forniti
○ descrizione testuale del filtraggio da effettuare
○ qual è l’utente da impersonare
○ quali utenti sono coinvolti nella conversazione
○ conversazione sulla quale eseguire il filtraggio
■ informazioni di contesto necessarie (topic, label,
relazioni,...)
○ possibilità di creare, eliminare e modificare regole
19
20. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Validazione del sistema II
Dati raccolti durante l’utilizzo
1. task assegnato all’utente
2. tempo di esecuzione del task assegnato
3. numero di operazioni effettuate sulle
regole
20
24. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Visualizzazione tweet
Evidenziazione tweet da filtrare
24
Evidenziazione tweet filtrati
25. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Conclusioni
25
● Definito il formalismo per formare le regole
● Proposto un metodo per applicare le regole
ai messaggi
● L’applicazione web è quasi completa
● Non è stato effettuato il test con gli utenti
28. Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Applicazione della regola
Considerato un messaggio m, esso viene rifiutato (filtrato)
in una conversazione c da una regola ρ se e solo se tutte le
condizioni seguenti sono verificate:
28