SlideShare une entreprise Scribd logo
1  sur  39
Dirbtinis intelektas prieš
kalbinę agresiją:
misija įmanoma?
• Jūratė Ruzaitė
• jurate.ruzaite@vdu.lt
Problemos?
Luciana Berger
• Nuo 2014 m. antisemitinės tviterio žinutės prieš L. Berger
• Iš asmens, susijusio su ekstremistinėmis dešiniųjų
grupuotėmis
• Etiketė: “communist Jewess”
• Foto: Luciana Berger su Dovydo žvaigžde ant kaktos
• Tekstas: “You can always count on a Jew to show their
true colours eventually.”
• Grotažymė: “Hitler was right.”
• Bausmė: 4 savaičių laisvės atėmimas
• Ir po to jie ilgai ir laimingai gyveno?
Paskelbus bausmę...
• 2014 m. spalis: 2500 antisemitinių tviterio žinučių per 3
dienas
• 2016 m. gegužė: nauja banga, pvz., vieno asmens rašomi 5
tinklaraščiai
• Bausmė – 2 metų laisvės atėmimas
• Grasinimai, kad „baigs kaip Jo Cox“
• Nauji teisiniai procesai
• Išpuoliai ne tik JK, bet ir kt. šalių, taip pat JAV
• Teisiniai sunkumai
• Internete nėra nacionalinių ribų
• Internetas kaip didžiulis perdirbėjas
• NK atvejų masiškumas
• Ne tik kalba, bet ir vaizdai
Žmogaus teisės nėra absoliučios.
Jos turi ribas.
Keletas iššūkių apibrėžiant ribas
• Požymių pasirinkimas automatiniam atpažinimui –> svarbiausių požymių
nustatymas –> modelio kūrimas. Koks požymių rinkinys optimaliausias?
• Neapykantos kurstymas gali būti ir be užgaulios kalbos; pvz., juokai, anekdotai,
sarkazmas – čia jau reikia ypatingo subtilumo
• Slenkstinė riba – kada tai jau neapykantos kurstymas ir turėtų būti baudžiamas?
• Ne visada užgaulūs komentarai yra neapykantos kurstymas
• Skirtingi žmonės/grupės skirtingai vertina neapykantos turinį
• Kas yra NK?
Genocidas
Tyčiniai veiksmai ar
ketinimai prieš visą
grupę
Smurtas
Prieš individą: nužudymas,
išprievartavimas, užpuolimas,
grasinimas
Prieš grupę: padegimas, terorizmas,
vandalizmas, išniekinimas
Diskriminacija
Ekonominė d., įsidarbinimo d., švietimo d., politinė
d., apgyvendinimo d.; segregacija
Individualūs šališki veiksmai
Patyčios
Prasivardžiavimas Įžeidinėjimas Šaipymasis
Socialinė izoliacija Nužmoginimas
Neigiamos nuostatos
Stereotipai Žeminantys juokai, pastabos
Mes vs jie atskirtis
Nuostatų palaikymui ieškoma bendraminčių
Neigiamos info palaikymas / teigiamos info neigimas
Kas yra NK?
NK yra viešas
skleidimas (žodžiu,
raštu)
informacijos (idėjų,
nuomonių, žinomai
neteisingų faktų),
kuria tyčiojamasi,
niekinama, skatinama
neapykanta, kurstoma
diskriminuoti, smurtauti,
fiziškai susidoroti
su žmonių grupe ar jai
priklausančiu asmeniu
dėl:
lyties,
seksualinės
orientacijos,
rasės, tautybės, kalbos,
kilmės, socialinės padėties, tikėjimo, įsitikinimo, pažiūrų.
Sprendimai?
Automatinis NK atpažinimas
• Tarpdisciplininė prieiga
• Būtini kalbiniai ir teisiniai kriterijai ir jų pritaikymas automatiniam atpažinimui
• TODĖL kolektyvinis produktas:
• VDU Teisės fakultetas (dr. Paulius Astromskis ir doc. dr. Bernd Justin Jutte)
parengė neapykantos / įžeidžios kalbos teisinių aspektų teisinę analizę
• Mindaugas Petkevičius parengė inovatyvią programinę įrangą
• Požymių pasirinkimas automatiniam įžeidžios ir neapykantos kalbos atpažinimui
• Koks požymių rinkinys optimaliausias?
Iki šiol tirtos kalbos
Anglų k. Daugiausia tyrimų
Arabų k. Mubarak et al. (2017): įžeidžios kalbos nustatymas socialinėse medijose
Kinų k. Su et al. (2017): sistema, skirta atpažinti ir perfrazuoti vulgarybes
Vokiečių k. Ross et al. (2016): anotuota NK ir neapykantos kalbos duomenų bazė
Slovėnų k. Fišer et al., (2017): anotuota NK ir neapykantos kalbos duomenų bazė
Olandų k. Van Halteren and Oostdijk (2013)
Duomenų bazė (Darius Amilevičius)
10 000 komentarų
Straipsnių kontraversiškomis temomis komentarai
Daug radikalių nuomonių
Teksto analizė rankiniu būdu + dažniausių žodžių
sąrašai
Ko ieškojome?
Retorinės strategijos
• Kaip kalbama apie jautrias grupes?
• Kaip jos įvardijamos? Menkinamoji leksika, vulgarybės; niga vs nigger
• Ką tos grupės atstovai veikia, kur gyvena ir pan.? Metaforos (užplūsta šalį)
• Pseudoargumentavimas:
• kriminalizavimas
• teiginio paneigimas ar išsižadėjimas su „bet“
• išlygos (kai kurie musulmonai geri, bet)
• apsimestinis nežinojimas (aš nežinau detalių, bet)
• apsimestinė empatija (daugelis pabėgėlių patiria sunkumus, bet)
• pasikeitimas pozicijomis (mes iš tiesų nukenčiame)
• kaltinimo perkėlimas kitiems (aš nieko prieš, bet mano klientams nepatinka)
• Perspektyva
• Diskriminuojantys teiginiai švelninami ar pabrėžiami?
Automatinis atpažinimas
• Automatinis atpažinimas paremtas labiau paviršinėmis automatiškai
atpažįstamomis kategorijomis, kurių dėka galima pasiekti gana aukštą atpažinimo
tikslumą (iki 80%)
Paprasti paviršiniai
ypatumai
 N-gramos / samplaikos: dviejų ar daugiau žodžių / simbolių stabilūs junginiai
 URL paminėjimai ir skyrybos ženklai
 Komentaro ilgis žodžiai; vidutinis žodžio ilgis
 Didžiosios raidės
 Naujadarai
Sentimentų analizė Galimybė automatiniu būdu išgauti teigiamas ir neigiamas nuomones, vertinimą komentaruose.
Leksinės priemonės Juodieji neigiamų žodžių sąrašai (vulgarybės, žeminanti leksika, užgauliojimai, įžeidinėjimai,
nukreipti prieš etnines, LGBT ar neįgaliųjų grupes); keiksmažodžiai
Sintaksė  Liepiamoji nuosaka
 Tu asmuo
 Apsimestinis mandagumas (no thanks, would you, please)
Pasaulio pažinimo
modeliai
Pasaulio pažinimą reprezentuojantis:
 Sąvokų tinklas: ConceptNet
 Rankiniu būdu išgaunami stereotipai (daug rankinio kodavimo)
Meta informacija Vartotojas, dažnai rašantis neapykantos žinutes
Lytis: vyrai dažnesni nekentėjai
Vartotojo komentarų skaičius
Atsakymų į komentarą skaičius
NB: dauguma šių kriterijų nepadeda klasifikavimui
Multimodali info Vizualieji aspektai
Duomenų apdorojimas
3 komentarų tipai:
•„Švarūs“
•Įžeidūs
•NK
Į tinklą pakliuvo:
•Socialiai nepriimtina
įžeidi neapykantos
kalba
•Galimai baustina NK
Įžeidūs komentarai
• Komentaras įžeidus, jei jame yra bent viena iš šių kategorijų:
• Rasistinė leksika
• Keiksmažodžiai
• Vulgari leksika (ypač komentaruose apie homoseksualius asmenis)
• Kita menkinamoji leksika
• TAIGI: paviršiniai bruožai, daugiausiai leksika
Papildomi / neprivalomi kriterijai
• Vartojami su anksčiau minėtomis kategorijomis, sustiprina poveikį
• Šauktukai
• Klausimai
• Liepiamieji sakiniai
• Liepiamoji nuosaka
• Modaliniai veiksmažodžiai, pvz., reikėjo / reiktų
• Liepiamosios nuosakos veiksmažodžiai su neigiamomis asociacijomis
• Kreipinys (paprastai įžeidus žodis ar frazė)
• Netipinė rašyba
• Naujadarai (dažniausiai su neigiamomis konotacijomis)
• pvz., Tsiurkiatano, ciurkabiesas, Kremliasosines pad ugnes
NK
Daugiau kūrybiškumo, dažnai paremta pseudo-
argumentavimu => sunku nustatyti privalomus
skiriamuosius ypatumus
Bet: dažnai bent 2 įžeidžios kalbos kategorijos + kreipinys
Tipiški NK modeliai
Naujadaras(-ai) + keiksmažodžiai + modalinis veiksmažodis
Naujadaras(-ai) + pseudoargumentai
Kreipinys + grasinimas (+ keiksmažodžiai)
Kreipinys + klausimas + įžeidimas
Kreipinys + liepiamoji nuosaka + tariamoji nuosaka
Agresyvi leksika + liepiamoji nuosaka + kontekstinės žinios
Pavyzdžiai (1)
• Kreipinys + grasinimas +
keiksmažodžiai
• Sveikinu Vladimira Putina su
gimtadieniu,linkiu jam sveikatos
ir stiprybės.O jums tarakonai
lietuviški linkiu nugult šalia
vanago,kad nesijaustų juokio
gaidiško kvapo nuo jusu.
• Kreipinys + liepiamoji nuosaka
• beretes nukaskite sau
seklides,kaip vadas,ramesni
busite
Pavyzdžai (2)
• Kreipinys + klausimas + tariamoji nuosaka + įžeidimas
• Tautiečiai, atsakykite jei į Lietuvą atvažiuotų labai daug musulmonų ir
pradėtų čia savo tvarką įvedinėt ir moteris prievartauti ką jūs
darytumėte: A Kaip prancūzas protestuočiau dainuodamas imagine all
the people B Kaip rusas eičiau su bendraminčių grupe ir naikinčiau
visus baebajus be pasigailėjimo. Laukiu atsakymų.
Pavyzdžai (3)
• Naujadaras + kontekstinės žinios + pseudoargumentai
• nera tokio dieduko pikto, butu visi "nusibegeliai" arbaiten arbaiten,
net minciu nekiltu, kad Vokietija juos turi uz aciu islaikyti.
Nekentėjo žodynėlis:
Leksiniai ištekliai NK ir įžeidžiuose komentaruose
• Rasistiniai, etniniai užgauliojimai
• Su LGBT susijęs slengas (ypač vulgarizmai)
• ‘Kvailio’ sinonimai => bendra neapykantos raiška
• Išgauta rankinės analizės būdu analizuojant dažnumo sąrašus, sugeneruotus
AntConc programa
Rasistiniai užgauliojimai
Žodžiai N
negras 130
beždžionė, orangtuangas, obezjanos 46
Žodžio juodas vediniai
• Su mažybinėmis priesagomis (juodukas)
• Ypač su menkinamąja nenormine priesaga “-k-" (juočkis)
47
Rasistiniai / etniniai užgauliojimai
Grupės Žodžiai N
Rusai ruskis, ruselis, ruskelis, rosijanai, šarikovas, katsapas, Ruskynas 59
Musulmonai teroristas 33
kiaulė 22
vagis 18
nelegalas 15
kebabas 9
bedarbis 8
atėjūnai 6
Romai čigonas 17
Iš viso: 187
LGBT
Žodis N
užpakalis, šikna, subinė 59
pedofilas / pedofilija 50
psich* 38
gaidys 31
išsigimėlis / išsigimimas 28
iškrypėlis / iškrypimas 24
lesbietė (‘lesbian’) 22
ožys 16
analinis 12
gyvuliai 9
prostitutė 9
vaivorykštiniai 9
išdraskytašikniai 13
Iš viso: 320
Tinka viskam: „Visi – kvailiai“
Žodis N
durnas 121
kvailys 97
idiotas 41
bukas 33
kvaiša 6
beretė 14
debilas 12
mulkis 12
atsilikęs 10
besmegenis 10
beprotis 4
kiauras 4
tupas 4
Iš viso: 368
Tinka viskam (2): „Kvaili gyvūnai“
Žodis N
asilas 55
avis 24
arklys 9
Iš viso: 88
Galutinis rezultatas
• Mindaugo Petkevičiaus sukurtas įrankis (http://hatespeech.vdu.lt/)
• Paremtas dvinare skirtimi: neutralus / blogas
• Prieinamas internete agresyvių komentarų atpažinimui
• Prieinamas kaip atvirojo kodo IT sprendimas nemokamam naudojimui / perpanaudojimui
Įrankis
http://hatespeech.vdu.lt/
Įrankis
http://hatespeech.vdu.lt/
Įrankis
http://hatespeech.vdu.lt/
Daugiau informacijos:
• Naujienos Fb: Semantika
(https://www.facebook.com/groups/470594577025545/)
• Jau prieinama viešai: Fasttext įrankiu parengtas atviros prieigos
lietuviškų socialinės medijos tekstų įterptinių vektorių modelis. Jo
parengimui panaudoti per 2 mln. socialinės medijos tekstų:
http://fasttext.vdu.lt
Literatūra
• Fišer, Darja, Nikola Ljubešić, Tomaž Erjavec. (2017). Legal Framework, Dataset and
Annotation Schema for Socially Unacceptable Online Discourse Practices in Slovene.
Proceedings of the First Workshop on Abusive Language Online, pp. 46–51.
• Mubarak, Hamdy, Kareem Darwish, Walid Magdy (2017). Abusive Language Detection on
Arabic Social Media. Proceedings of the First Workshop on Abusive Language Online, pp.
52–56.
• Nobata et al (2016) Abusive Language Detection in Online User Content
• Ross, B., M. Rist Guillermo Carbonell Benjamin Cabrera Nils Kurowsky Michael Wojatzki.
(2016) Measuring the Reliability of Hate Speech Annotations: The Case of the European
• Su, Hui-Po, Zhen-Jie Huang, Hao-Tsung Chang & Chuan-Jie Lin. (2017) Rephrasing
Profanity in Chinese Text. Proceedings of the First Workshop on Abusive Language Online,
pp. 18–24.
Ačiū!
Creative Commons licencija
Ši/s objektas yra platinama/s pagal Creative Commons
Priskyrimas 4.0 Tarptautinė licenciją.

Contenu connexe

Plus de LieDM asociacija

OER uptake in adult education
OER uptake in adult educationOER uptake in adult education
OER uptake in adult educationLieDM asociacija
 
Savarankiško mokymosi gebėjimų aktualumas e. mokymesi
Savarankiško mokymosi gebėjimų aktualumas e. mokymesi Savarankiško mokymosi gebėjimų aktualumas e. mokymesi
Savarankiško mokymosi gebėjimų aktualumas e. mokymesi LieDM asociacija
 
Migrantų mokymas. Virtualios platformos – pagalba mokytojui ir besimokančiajam
Migrantų mokymas. Virtualios platformos – pagalba mokytojui ir besimokančiajamMigrantų mokymas. Virtualios platformos – pagalba mokytojui ir besimokančiajam
Migrantų mokymas. Virtualios platformos – pagalba mokytojui ir besimokančiajamLieDM asociacija
 
„EPALE“ suaugusiųjų švietėjų portalas atviram bendradarbiavimui
„EPALE“ suaugusiųjų švietėjų portalas  atviram bendradarbiavimui„EPALE“ suaugusiųjų švietėjų portalas  atviram bendradarbiavimui
„EPALE“ suaugusiųjų švietėjų portalas atviram bendradarbiavimuiLieDM asociacija
 
Lithuania needs highly skilled professionals. How Erasmus+ could contribute?
Lithuania needs highly skilled professionals.  How Erasmus+ could contribute?Lithuania needs highly skilled professionals.  How Erasmus+ could contribute?
Lithuania needs highly skilled professionals. How Erasmus+ could contribute?LieDM asociacija
 
ICT enhanced learning – the socio-economic environment
ICT enhanced learning – the socio-economic environmentICT enhanced learning – the socio-economic environment
ICT enhanced learning – the socio-economic environmentLieDM asociacija
 
How Openness and Collaboration are Redesigning the Global Education Landscape
How Openness and Collaboration are Redesigning the Global Education LandscapeHow Openness and Collaboration are Redesigning the Global Education Landscape
How Openness and Collaboration are Redesigning the Global Education LandscapeLieDM asociacija
 
A.Augustiniene, T.Klimasauskaite. Priešmokyklinio amžiaus vaikų žodyno turtin...
A.Augustiniene, T.Klimasauskaite. Priešmokyklinio amžiaus vaikų žodyno turtin...A.Augustiniene, T.Klimasauskaite. Priešmokyklinio amžiaus vaikų žodyno turtin...
A.Augustiniene, T.Klimasauskaite. Priešmokyklinio amžiaus vaikų žodyno turtin...LieDM asociacija
 

Plus de LieDM asociacija (8)

OER uptake in adult education
OER uptake in adult educationOER uptake in adult education
OER uptake in adult education
 
Savarankiško mokymosi gebėjimų aktualumas e. mokymesi
Savarankiško mokymosi gebėjimų aktualumas e. mokymesi Savarankiško mokymosi gebėjimų aktualumas e. mokymesi
Savarankiško mokymosi gebėjimų aktualumas e. mokymesi
 
Migrantų mokymas. Virtualios platformos – pagalba mokytojui ir besimokančiajam
Migrantų mokymas. Virtualios platformos – pagalba mokytojui ir besimokančiajamMigrantų mokymas. Virtualios platformos – pagalba mokytojui ir besimokančiajam
Migrantų mokymas. Virtualios platformos – pagalba mokytojui ir besimokančiajam
 
„EPALE“ suaugusiųjų švietėjų portalas atviram bendradarbiavimui
„EPALE“ suaugusiųjų švietėjų portalas  atviram bendradarbiavimui„EPALE“ suaugusiųjų švietėjų portalas  atviram bendradarbiavimui
„EPALE“ suaugusiųjų švietėjų portalas atviram bendradarbiavimui
 
Lithuania needs highly skilled professionals. How Erasmus+ could contribute?
Lithuania needs highly skilled professionals.  How Erasmus+ could contribute?Lithuania needs highly skilled professionals.  How Erasmus+ could contribute?
Lithuania needs highly skilled professionals. How Erasmus+ could contribute?
 
ICT enhanced learning – the socio-economic environment
ICT enhanced learning – the socio-economic environmentICT enhanced learning – the socio-economic environment
ICT enhanced learning – the socio-economic environment
 
How Openness and Collaboration are Redesigning the Global Education Landscape
How Openness and Collaboration are Redesigning the Global Education LandscapeHow Openness and Collaboration are Redesigning the Global Education Landscape
How Openness and Collaboration are Redesigning the Global Education Landscape
 
A.Augustiniene, T.Klimasauskaite. Priešmokyklinio amžiaus vaikų žodyno turtin...
A.Augustiniene, T.Klimasauskaite. Priešmokyklinio amžiaus vaikų žodyno turtin...A.Augustiniene, T.Klimasauskaite. Priešmokyklinio amžiaus vaikų žodyno turtin...
A.Augustiniene, T.Klimasauskaite. Priešmokyklinio amžiaus vaikų žodyno turtin...
 

Dirbtinis intelektas prieš kalbinę agresiją: misija įmanoma?

  • 1. Dirbtinis intelektas prieš kalbinę agresiją: misija įmanoma? • Jūratė Ruzaitė • jurate.ruzaite@vdu.lt
  • 3. Luciana Berger • Nuo 2014 m. antisemitinės tviterio žinutės prieš L. Berger • Iš asmens, susijusio su ekstremistinėmis dešiniųjų grupuotėmis • Etiketė: “communist Jewess” • Foto: Luciana Berger su Dovydo žvaigžde ant kaktos • Tekstas: “You can always count on a Jew to show their true colours eventually.” • Grotažymė: “Hitler was right.” • Bausmė: 4 savaičių laisvės atėmimas • Ir po to jie ilgai ir laimingai gyveno?
  • 4. Paskelbus bausmę... • 2014 m. spalis: 2500 antisemitinių tviterio žinučių per 3 dienas • 2016 m. gegužė: nauja banga, pvz., vieno asmens rašomi 5 tinklaraščiai • Bausmė – 2 metų laisvės atėmimas • Grasinimai, kad „baigs kaip Jo Cox“ • Nauji teisiniai procesai • Išpuoliai ne tik JK, bet ir kt. šalių, taip pat JAV • Teisiniai sunkumai • Internete nėra nacionalinių ribų • Internetas kaip didžiulis perdirbėjas • NK atvejų masiškumas • Ne tik kalba, bet ir vaizdai
  • 5. Žmogaus teisės nėra absoliučios. Jos turi ribas.
  • 6. Keletas iššūkių apibrėžiant ribas • Požymių pasirinkimas automatiniam atpažinimui –> svarbiausių požymių nustatymas –> modelio kūrimas. Koks požymių rinkinys optimaliausias? • Neapykantos kurstymas gali būti ir be užgaulios kalbos; pvz., juokai, anekdotai, sarkazmas – čia jau reikia ypatingo subtilumo • Slenkstinė riba – kada tai jau neapykantos kurstymas ir turėtų būti baudžiamas? • Ne visada užgaulūs komentarai yra neapykantos kurstymas • Skirtingi žmonės/grupės skirtingai vertina neapykantos turinį • Kas yra NK?
  • 7. Genocidas Tyčiniai veiksmai ar ketinimai prieš visą grupę Smurtas Prieš individą: nužudymas, išprievartavimas, užpuolimas, grasinimas Prieš grupę: padegimas, terorizmas, vandalizmas, išniekinimas Diskriminacija Ekonominė d., įsidarbinimo d., švietimo d., politinė d., apgyvendinimo d.; segregacija Individualūs šališki veiksmai Patyčios Prasivardžiavimas Įžeidinėjimas Šaipymasis Socialinė izoliacija Nužmoginimas Neigiamos nuostatos Stereotipai Žeminantys juokai, pastabos Mes vs jie atskirtis Nuostatų palaikymui ieškoma bendraminčių Neigiamos info palaikymas / teigiamos info neigimas
  • 8. Kas yra NK? NK yra viešas skleidimas (žodžiu, raštu) informacijos (idėjų, nuomonių, žinomai neteisingų faktų), kuria tyčiojamasi, niekinama, skatinama neapykanta, kurstoma diskriminuoti, smurtauti, fiziškai susidoroti su žmonių grupe ar jai priklausančiu asmeniu dėl: lyties, seksualinės orientacijos, rasės, tautybės, kalbos, kilmės, socialinės padėties, tikėjimo, įsitikinimo, pažiūrų.
  • 10. Automatinis NK atpažinimas • Tarpdisciplininė prieiga • Būtini kalbiniai ir teisiniai kriterijai ir jų pritaikymas automatiniam atpažinimui • TODĖL kolektyvinis produktas: • VDU Teisės fakultetas (dr. Paulius Astromskis ir doc. dr. Bernd Justin Jutte) parengė neapykantos / įžeidžios kalbos teisinių aspektų teisinę analizę • Mindaugas Petkevičius parengė inovatyvią programinę įrangą • Požymių pasirinkimas automatiniam įžeidžios ir neapykantos kalbos atpažinimui • Koks požymių rinkinys optimaliausias?
  • 11. Iki šiol tirtos kalbos Anglų k. Daugiausia tyrimų Arabų k. Mubarak et al. (2017): įžeidžios kalbos nustatymas socialinėse medijose Kinų k. Su et al. (2017): sistema, skirta atpažinti ir perfrazuoti vulgarybes Vokiečių k. Ross et al. (2016): anotuota NK ir neapykantos kalbos duomenų bazė Slovėnų k. Fišer et al., (2017): anotuota NK ir neapykantos kalbos duomenų bazė Olandų k. Van Halteren and Oostdijk (2013)
  • 12. Duomenų bazė (Darius Amilevičius) 10 000 komentarų Straipsnių kontraversiškomis temomis komentarai Daug radikalių nuomonių Teksto analizė rankiniu būdu + dažniausių žodžių sąrašai
  • 14. Retorinės strategijos • Kaip kalbama apie jautrias grupes? • Kaip jos įvardijamos? Menkinamoji leksika, vulgarybės; niga vs nigger • Ką tos grupės atstovai veikia, kur gyvena ir pan.? Metaforos (užplūsta šalį) • Pseudoargumentavimas: • kriminalizavimas • teiginio paneigimas ar išsižadėjimas su „bet“ • išlygos (kai kurie musulmonai geri, bet) • apsimestinis nežinojimas (aš nežinau detalių, bet) • apsimestinė empatija (daugelis pabėgėlių patiria sunkumus, bet) • pasikeitimas pozicijomis (mes iš tiesų nukenčiame) • kaltinimo perkėlimas kitiems (aš nieko prieš, bet mano klientams nepatinka) • Perspektyva • Diskriminuojantys teiginiai švelninami ar pabrėžiami?
  • 15. Automatinis atpažinimas • Automatinis atpažinimas paremtas labiau paviršinėmis automatiškai atpažįstamomis kategorijomis, kurių dėka galima pasiekti gana aukštą atpažinimo tikslumą (iki 80%)
  • 16. Paprasti paviršiniai ypatumai  N-gramos / samplaikos: dviejų ar daugiau žodžių / simbolių stabilūs junginiai  URL paminėjimai ir skyrybos ženklai  Komentaro ilgis žodžiai; vidutinis žodžio ilgis  Didžiosios raidės  Naujadarai Sentimentų analizė Galimybė automatiniu būdu išgauti teigiamas ir neigiamas nuomones, vertinimą komentaruose. Leksinės priemonės Juodieji neigiamų žodžių sąrašai (vulgarybės, žeminanti leksika, užgauliojimai, įžeidinėjimai, nukreipti prieš etnines, LGBT ar neįgaliųjų grupes); keiksmažodžiai Sintaksė  Liepiamoji nuosaka  Tu asmuo  Apsimestinis mandagumas (no thanks, would you, please) Pasaulio pažinimo modeliai Pasaulio pažinimą reprezentuojantis:  Sąvokų tinklas: ConceptNet  Rankiniu būdu išgaunami stereotipai (daug rankinio kodavimo) Meta informacija Vartotojas, dažnai rašantis neapykantos žinutes Lytis: vyrai dažnesni nekentėjai Vartotojo komentarų skaičius Atsakymų į komentarą skaičius NB: dauguma šių kriterijų nepadeda klasifikavimui Multimodali info Vizualieji aspektai
  • 17. Duomenų apdorojimas 3 komentarų tipai: •„Švarūs“ •Įžeidūs •NK Į tinklą pakliuvo: •Socialiai nepriimtina įžeidi neapykantos kalba •Galimai baustina NK
  • 18. Įžeidūs komentarai • Komentaras įžeidus, jei jame yra bent viena iš šių kategorijų: • Rasistinė leksika • Keiksmažodžiai • Vulgari leksika (ypač komentaruose apie homoseksualius asmenis) • Kita menkinamoji leksika • TAIGI: paviršiniai bruožai, daugiausiai leksika
  • 19. Papildomi / neprivalomi kriterijai • Vartojami su anksčiau minėtomis kategorijomis, sustiprina poveikį • Šauktukai • Klausimai • Liepiamieji sakiniai • Liepiamoji nuosaka • Modaliniai veiksmažodžiai, pvz., reikėjo / reiktų • Liepiamosios nuosakos veiksmažodžiai su neigiamomis asociacijomis • Kreipinys (paprastai įžeidus žodis ar frazė) • Netipinė rašyba • Naujadarai (dažniausiai su neigiamomis konotacijomis) • pvz., Tsiurkiatano, ciurkabiesas, Kremliasosines pad ugnes
  • 20. NK Daugiau kūrybiškumo, dažnai paremta pseudo- argumentavimu => sunku nustatyti privalomus skiriamuosius ypatumus Bet: dažnai bent 2 įžeidžios kalbos kategorijos + kreipinys
  • 21. Tipiški NK modeliai Naujadaras(-ai) + keiksmažodžiai + modalinis veiksmažodis Naujadaras(-ai) + pseudoargumentai Kreipinys + grasinimas (+ keiksmažodžiai) Kreipinys + klausimas + įžeidimas Kreipinys + liepiamoji nuosaka + tariamoji nuosaka Agresyvi leksika + liepiamoji nuosaka + kontekstinės žinios
  • 22. Pavyzdžiai (1) • Kreipinys + grasinimas + keiksmažodžiai • Sveikinu Vladimira Putina su gimtadieniu,linkiu jam sveikatos ir stiprybės.O jums tarakonai lietuviški linkiu nugult šalia vanago,kad nesijaustų juokio gaidiško kvapo nuo jusu. • Kreipinys + liepiamoji nuosaka • beretes nukaskite sau seklides,kaip vadas,ramesni busite
  • 23. Pavyzdžai (2) • Kreipinys + klausimas + tariamoji nuosaka + įžeidimas • Tautiečiai, atsakykite jei į Lietuvą atvažiuotų labai daug musulmonų ir pradėtų čia savo tvarką įvedinėt ir moteris prievartauti ką jūs darytumėte: A Kaip prancūzas protestuočiau dainuodamas imagine all the people B Kaip rusas eičiau su bendraminčių grupe ir naikinčiau visus baebajus be pasigailėjimo. Laukiu atsakymų.
  • 24. Pavyzdžai (3) • Naujadaras + kontekstinės žinios + pseudoargumentai • nera tokio dieduko pikto, butu visi "nusibegeliai" arbaiten arbaiten, net minciu nekiltu, kad Vokietija juos turi uz aciu islaikyti.
  • 25. Nekentėjo žodynėlis: Leksiniai ištekliai NK ir įžeidžiuose komentaruose • Rasistiniai, etniniai užgauliojimai • Su LGBT susijęs slengas (ypač vulgarizmai) • ‘Kvailio’ sinonimai => bendra neapykantos raiška • Išgauta rankinės analizės būdu analizuojant dažnumo sąrašus, sugeneruotus AntConc programa
  • 26. Rasistiniai užgauliojimai Žodžiai N negras 130 beždžionė, orangtuangas, obezjanos 46 Žodžio juodas vediniai • Su mažybinėmis priesagomis (juodukas) • Ypač su menkinamąja nenormine priesaga “-k-" (juočkis) 47
  • 27. Rasistiniai / etniniai užgauliojimai Grupės Žodžiai N Rusai ruskis, ruselis, ruskelis, rosijanai, šarikovas, katsapas, Ruskynas 59 Musulmonai teroristas 33 kiaulė 22 vagis 18 nelegalas 15 kebabas 9 bedarbis 8 atėjūnai 6 Romai čigonas 17 Iš viso: 187
  • 28. LGBT Žodis N užpakalis, šikna, subinė 59 pedofilas / pedofilija 50 psich* 38 gaidys 31 išsigimėlis / išsigimimas 28 iškrypėlis / iškrypimas 24 lesbietė (‘lesbian’) 22 ožys 16 analinis 12 gyvuliai 9 prostitutė 9 vaivorykštiniai 9 išdraskytašikniai 13 Iš viso: 320
  • 29. Tinka viskam: „Visi – kvailiai“ Žodis N durnas 121 kvailys 97 idiotas 41 bukas 33 kvaiša 6 beretė 14 debilas 12 mulkis 12 atsilikęs 10 besmegenis 10 beprotis 4 kiauras 4 tupas 4 Iš viso: 368
  • 30. Tinka viskam (2): „Kvaili gyvūnai“ Žodis N asilas 55 avis 24 arklys 9 Iš viso: 88
  • 31. Galutinis rezultatas • Mindaugo Petkevičiaus sukurtas įrankis (http://hatespeech.vdu.lt/) • Paremtas dvinare skirtimi: neutralus / blogas • Prieinamas internete agresyvių komentarų atpažinimui • Prieinamas kaip atvirojo kodo IT sprendimas nemokamam naudojimui / perpanaudojimui
  • 35. Daugiau informacijos: • Naujienos Fb: Semantika (https://www.facebook.com/groups/470594577025545/) • Jau prieinama viešai: Fasttext įrankiu parengtas atviros prieigos lietuviškų socialinės medijos tekstų įterptinių vektorių modelis. Jo parengimui panaudoti per 2 mln. socialinės medijos tekstų: http://fasttext.vdu.lt
  • 36.
  • 37. Literatūra • Fišer, Darja, Nikola Ljubešić, Tomaž Erjavec. (2017). Legal Framework, Dataset and Annotation Schema for Socially Unacceptable Online Discourse Practices in Slovene. Proceedings of the First Workshop on Abusive Language Online, pp. 46–51. • Mubarak, Hamdy, Kareem Darwish, Walid Magdy (2017). Abusive Language Detection on Arabic Social Media. Proceedings of the First Workshop on Abusive Language Online, pp. 52–56. • Nobata et al (2016) Abusive Language Detection in Online User Content • Ross, B., M. Rist Guillermo Carbonell Benjamin Cabrera Nils Kurowsky Michael Wojatzki. (2016) Measuring the Reliability of Hate Speech Annotations: The Case of the European • Su, Hui-Po, Zhen-Jie Huang, Hao-Tsung Chang & Chuan-Jie Lin. (2017) Rephrasing Profanity in Chinese Text. Proceedings of the First Workshop on Abusive Language Online, pp. 18–24.
  • 39. Creative Commons licencija Ši/s objektas yra platinama/s pagal Creative Commons Priskyrimas 4.0 Tarptautinė licenciją.