SlideShare une entreprise Scribd logo
1  sur  99
eli mitä opin kirjasta
The SAGE Handbook of Social Media Research Methods
@MiiaKosonen
http://tohtorilletoita.com
Sosiaalisen median tutkimusmenetelmät
Taustaa
• Harvalla on aikaa ja energiaa käydä tutkimus- tai opetustyön ohessa läpi 700-
sivuisia käsikirjoja. Lukiessani aloin ajatella, ettei ole mitään järkeä jättää opittua
ja havaittua vain itselle: se on tiedon vajaakäyttöä ja sosiaalisen median
kulttuurien vastaista.
• Sosiaalisen median tutkimus on erityisen vakiintumatonta ja nopeasti
muuttuvaa aluetta, jossa standardit ja hyvät käytännöt hakevat muotoaan. Kts.
http://otteitaverkosta.fi
• Esitykseen on valittu, tiivistetty ja yhdistelty mielestäni olennainen ja vain se. 38
eri luvun kirjoittamiseen osallistui yli 40 asiantuntijaa ympäri maailman.
Kirjoittajat on listattu kunkin alaluvun lopussa.
Materiaalin käyttö
Esitystä voi hyödyntää ei-kaupalliseen tutkimukseen ja koulutukseen
viittaamalla
1) Kyseiseen artikkeliin: kirjoittajat on listattu kunkin luvun lopussa
2) Alkuperäiseen teokseen: L. Sloan & A. Quan-Haase (Eds.), The SAGE
Handbook of Social Media Research Methods. SAGE Publications, 2017.
3) Tähän esitykseen: Miia Kosonen 2018, yhteenveto sosiaalisen median
tutkimusmenetelmistä http://slideshare.net/miiak/sometutkimus
Materiaalin käyttö
Käytä omalla vastuulla: mukana on aivan
varmasti myös käännös- tai tulkintavirheitä.
Geolokaatio tai datan muuttaminen ääneksi
eivät ole alaani.
Klout.com, 2016
HUOM!
Kirjan artikkelit on kirjoitettu 2015-2016. Sen jälkeen moni asia on jo ehtinyt
muuttua ja sisältö voi olla yksityiskohtien osalta vanhentunutta.
Samasta syystä tässä esityksessä ei ole mukana kirjan viimeistä osiota, jossa
esitellään sosiaalisen median alustoja tutkimuskäytössä.
“Facebook’s API is becoming a closed system. -- The Cambridge Analytica
scandal, which saw Facebook user data gathered supposedly for academic
purposes but instead used by a private firm for political campaigning, created
an opportunity for positive change. But Facebook sadly appears to be making
its platform more opaque, unknown and unaccountable to the public. Once
apps like Netvizz are gone, there will be no accessible way of gathering
large amounts of public page Facebook data.”
https://thenextweb.com/syndication/2018/08/27/facebooks-attitude-towards-researchers-should-worry-you/
Johdanto
Käsikirja määrittelee sosiaaliseksi mediaksi sovellukset, jotka
1. mahdollistavat käyttäjien luoman sisällön kuten kuvat, tekstin,
videot ja statukset
2. antavat käyttäjille mahdollisuuden kytkeytyä muihin käyttäjiin
3. tukevat käyttäjien välistä vuorovaikutusta esimerkiksi
mahdollistamalla yhteistyön, yhteisön rakentamisen, osallistumisen,
linkittämisen ja jakamisen.
Johdanto
Sosiaalisen median
menetelmälliset haasteet,
vrt. big data: 6Vs
• Volume
• Variety
• Velocity
• Veracity
• Virtue
• Value
Sisältö: 7 osaa
• Käsitteellistäminen ja tutkimuksen suunnittelu
• Datan kerääminen ja säilytys
• Kvalitatiivisia lähestymistapoja sosiaalisen median dataan
• Kvantitatiivisia lähestymistapoja sosiaalisen median dataan
• Erilaisia lähestymistapoja sosiaalisen median dataan
• Tutkimuksen ja analyysin työvälineet
• (Sosiaalisen median alustat)
Osa 1: käsitteellistäminen ja tutkimuksen
suunnittelu
• Mitä sosiaalinen media on
• Big data – hype vai vallankumous?
• Monitieteiset sosiaalisen median tutkimustiimit
• Sosiaalisen median käyttäjät ja tutkimusetiikka
• Virtuaalinen minä
• Twitter-aineistot ja demografia
Osa 2: Datan kerääminen ja säilytys
• Ajattele ennen kuin keräät dataa
• Datan prosessointi
• APIt ja data sampling
• Datan elinkaari – kuratointi, säilytys, pitkäaikaissäilytys
• Qualitative E-Research framework
Osa 3: Kvalitatiivisia lähestymistapoja
• Small data, thick data ja sakeuttamisen strategiat
• Visuaalisuus sosiaalisessa mediassa
• Ei-tekstuaalisen datan koodaaminen
• Twitter metodina
• Small stories -tutkimus
Osa 4: Kvantitatiivisia lähestymistapoja
• Geospatiaalinen analyysi
• Verkoston keskeisyyden pragmatiikkaa
• Ennustava analytiikka sosiaalisen median datalla
• Huijausten tunnistaminen ja huhujen kumoaminen
sosiaalisessa mediassa
Osa 5: Erilaisia lähestymistapoja
• Sivustospesifi vai hyperlokaali? Paikan ilmentymät sosiaalisessa
mediassa
• Muut datalähteet sosiaalisen median rinnalla
• Sonifikaatio – sosiaalisten rytmien kuunteleminen
• Sosiaaliset paikkatietoiset palvelut mobiililaitteille
Osa 6: Tutkimuksen ja analyysin työvälineet
• COSMOS – Collaborative on-line social media observatory
• Social Lab – open source ’Facebook’
• R ja sosiaalisen median analyysi
• GATE – open source NLP-työkalu sosiaaliseen mediaan
• Netlytic datan kerun ja analysoinnin työvälineenä
• Teemojen tunnistaminen sosiaalisesta mediasta
• Sentimenttianalyysi
Osa 1: Käsitteellistäminen ja tutkimuksen
suunnittelu
Mitä sosiaalinen media on
• Kts. käsikirjan perusmääritelmä edellä
• Eräiden tulkintojen mukaan aina dynaamista ja kontekstuaalista:
’temporally, spatially and technologically sensitive’ (Papacharissi,
2015)
• Näkemys on muuttunut 10-15 vuodessa ja muuttuu edelleen
Mihin kysymyksiin sosiaalinen media vastaa
• Pakottaa tutkijat nostamaan esille 1) metodologiaan 2) eettiseen
perusteisiin 3) tutkimuksen mittakaavaan liittyviä uusia kysymyksiä.
• Vastaaminen tutkimuskysymyksiin, jotka liittyvät
• sosiaalisen median käyttöön itseensä
• tiettyyn sosiaaliseen ilmiöön, josta sosiaalinen media voi tarjota
lisää tietoa.
Sosiaalisen median palveluiden tyyppejä
Tyyppi Esimerkkejä
Sosiaaliset verkostopalvelut Facebook, LinkedIn
Kirjanmerkit Delicious, StumbleUpon
Mikroblogit Twitter, Tumblr
Blogit ja foorumit LiveJournal, WordPress
Median jakaminen YouTube, Flickr, Pinterest
Sosiaaliset uutispalvelut Digg, Reddit
Yhteiskirjoittaminen Wikipedia
Web-konferenssit Skype, GoToMeeting, Zoho Meeting
Paikkatieto Foursquare
Aikataulutus Doodle
Tiivistetty ja kääännetty luvun 2 artikkelista McCay-Peet, L. & Quan-Haase, A. 2017. What is social media and what questions can social media
research help us answer? Sloan, L. & Quan-Haase, A. (Eds.), The SAGE Handbook of Social Media Research Methods, p. 18.
Big data – hype vai vallankumous?
• Kärjekkäimmät puhuvat ”end of theorysta”, jossa ei tarvita lainkaan
taustateoriaa ja hypoteeseja, vaan data luo ne itse
• Käytännössä teoriaa tarvitaan aina, mm. suhteuttamaan ilmiöt
aiempaan tietoon
• Myös big data on monella tapaa vinoutunutta
• Big dataa ei ole suunniteltu vastaamaan tutkimuskysymykseen X
• Tuottaa pintapuolisia kuvauksia, vaikutelmia; esimerkiksi mikä on
twiittien valtakieli suurkaupungin eri osissa
Big data – hype vai vallankumous?
• Big datan arvo: auttaa havaitsemaan uutta, ”data kertoo kysymyksiä
joihin kannattaisi vastata”
• Ei uusi paradigma vaan täydentävä teorianmuodostuksen tapa
• Digitaalisen humanismin kaksi leiriä: digitaaliset ympäristöt tuottavat
rikkaampia aineistoja ja tuovat uusine tekniikoineen menetelmällistä
uskottavuutta, toisen koulukunnan mukaan taas täydentää perinteisiä
metodeja.
Kitchin, 2017
Monitieteiset sosiaalisen median tutkimustiimit
• IDR eli inter-disciplinary research
• Sosiaalinen, tekninen ja eettinen lähestymistapa, kaikki kolme puolta
ymmärrettävä
• Sopivasti monitieteisyyttä – ei liikaa, siis tyyliin yksi joka alalta
• Miksi tärkeää: kompleksiset tutkimusongelmat, jäsenten motivaatio
ymmärtää ilmiötä eri näkökulmista, luovemmat ratkaisut ja löydökset
Monitieteiset sosiaalisen median tutkimustiimit
• Artikkeli tunnistaa useita haasteita, esim. sosiaalitieteissä ei palkita
työvälinekehityksestä, lyhytjänteinen rahoitus, näennäisyhteistyö
jotta saadaan rasti oikeaan ruutuun
• Tarvitaan myös koulutusta ja tukea siihen, kuinka luoda eri taustoista
tulevien ihmisten välille common ground – toiselle riittää aineistoksi
100, toinen haluaa 10 miljoonaa jotta mitään kannattaisi edes tehdä
Quan-Haase & McCay-Peet, 2017
Sosiaalisen median käyttäjät ja tutkimusetiikka
• Haluttiin selvittää, mitä sosiaalisen median käyttäjät itse ajattelevat
siitä, että aineistoa hyödynnetään tutkimustarkoituksiin
• Esim. tuleeko informed consent pyytää aina, vai ainoastaan ei-
avoimissa verkkopalveluissa
• Aineistoa kerättiin 34 focus group –haastateltavalta
• Sosiaalinen media koettiin tilana, joka on lähes aina julkinen ja josta
tietoa on vaikea saada pois.
Sosiaalisen median käyttäjät ja tutkimusetiikka
• Kolmenlaisia käyttäjärooleja: creators, sharers, observers
• Riskitietoisuus yleisesti kasvamaan päin, Facebook-kohujen vaikutus?
• Huolena yksityisyys, maine, turvallisuus, tiedon laillinen vs.
moraalinen omistajuus: omistaako palveluntarjoaja vai viestin
kirjoittaja
• Lähdeviitteiden käyttö vs. jäljitettävyys, köydenvetotilanteet: jos suora
lainaus, anonymisoidun käyttäjän saattaa löytää googlaamalla -
tarvitaan fabrikaatiota (Markham, 2012)
• Näkemykset käytöstä tutkimustarkoituksiin ”vaihtelevat merkittävästi”
skeptikoista hyväksyjiin ja ambivalentteihin
Sosiaalisen median käyttäjät ja tutkimusetiikka
• Kaiken perustana SAL = Suostumus, Anonymiteetti, Luottamuksellisuus
• Kts. myös Kosonen, Laaksonen, Rydenfelt, Terkamo-Moisio, 2018: Sosiaalinen
media ja tutkijan etiikka. https://journal.fi/mediaviestinta/article/view/69924
• Palvelujen käyttöehdot tulee kansantajuistaa, mutta vaatisi ihmettä. Käytännön
toteutukseen vaikuttaa se
• Millaisesta postauksesta on kyse
• Millaisessa sosiaalisen median palvelussa se on jaettu
• Mikä on konteksti ja tilanne, mitä käyttäjät odottavat
• Mikä on tutkimuksen luonne: ei-kaupallinen useimmiten hyväksytään
Beninger, 2017
Virtuaalinen minä
”Data ei valehtele, mutta ihmiset valehtelevat datalla”
Artikkeli käsittelee käyttäjien verkkopersoonaa, maineenhallintaa sekä
trollausta ilmiönä
Konteksti, konteksti, konteksti! Tutkijoiden on kaikissa tilanteissa
huomioitava alustaspesifit sosiaaliset normit ja se, missä palvelussa
profiili on luotu.
Virtuaalinen minä: tutkijan huoneentaulu
Sosiaalinen konteksti
- Anonyymi
- Tunnistettavat
Some-alustan tyyppi
- Avoin
- Suljettu
Verkkomaineen hallinta
Self-presentation –
strategiat
Verkkopersoonallisuus,
ml. dark traits
Trollaaminen ja sen
todennäköisyys
1) Perehdy aiempaan
kirjallisuuteen aiheesta
2) Hyödynnä
datatriangulaatiota
3) Digital traces: kaikki
käyttäjään liittyvä data
eri alustoilta ml.
metadata
4) Arvioi verkkomaine ja –
persoona em. pohjalta
Virtuaalinen minä
• Tutkimukset osoittaneet, ettei täysin eri minä (vrt. Turkle, 1984),
muttei myöskään yksi yhteen IRL-minän kanssa
• Anchored relationships (esim. Facebookin ystäväpiiri) vs. anonyymi
kanssakäyminen
• Introvertit postaavat omalla nimellään ja kasvoillaan vähemmän?!
• Kyber-psykopaatit, narsismi: esim. runsaasti statuspäivityksiä (Carpenter,
2012) tai ylikorostaa saavutuksia (Marshall et al., 2015)
• On the internet, nobody knows you’re a dog yhä ajankohtainen – big
data ei yksinään tajua vivahteita tai vedätyksiä
Virtuaalinen minä
• Trollaus tärkeä osa nettikulttuuria, valtapelit
• Ilmiön yleisyydestä ei tarkkaa
tutkimustietoa
• Merkitys tutkijalle: mitään viestiä ei koskaan
kannata ottaa kirjaimellisesti!
• Osa harmitonta, osa käytännössä
verkkorikollisuutta ja häirintää
Yang, Quan-Haase, Nevin & Chen, 2017
Twitter-aineistot ja demografia
• Tutkijoiden varta vasten keräämä data vs. naturally occurring data, tutkijan
aarrearkku
• Artikkelissa kuvataan, millaisia tapoja on yhdistää ainutlaatuiseen Twitter-
dataan demografista tietoa, jotta se olisi hyödyllisempää – muutoin emme
tiedä, ketkä sanoivat tai tekivät, mitkä väestöryhmät ovat edustettuina jne.
• Esimerkki: onko twiittien kieli erilaista niillä alueilla, joilla rikollisuutta on
tilastojen mukaan paljon? Ilmentääkö se pelkoa tai uhkaa? Kysymykseen
vastaamiseksi twiitit on voitava ensin paikallistaa tietylle alueelle. Lisäksi
vain käyttäjien oma sisältö, retweetit on suodatettava pois.
Twitter-aineistot ja demografia
• Paikka
• Alle 1 % Twitterin käyttäjistä paljastaa sijaintinsa
• Varavaihtoehtona profiilin Location, ei kuitenkaan välttämättä oikea tieto,
epäselvää onko syntymä- vai asuinpaikka jne.
• Yahoo Place Finderin avulla tunnistettiin 52 %:ssa tapauksista twiittaajan
kotimaa ja pienelle osalle jopa postinumeron tarkkuudella
• Ikä
• Jää lähes aina piiloon
• Facebookista ja blogeista helpompi tunnistaa, language processing
• Twitterin profiilitiedoista voi saada suuntaa olettaen että todenmukaista,
samoin emojien ja hashtagien käytöstä
Twitter-aineistot ja demografia
• Sukupuoli
• Nimitietokannan avulla neljä kategoriaa: M, F, unisex, ei tunnistettavissa
• Esimerkissä noin puolet tunnistettiin, mutta ei tässäkään luotettavaa tietoa
• Kieli
• Käyttöliittymän kieli, profiilitekstin kieli, twiittisisällön kieli
• Käytännössä harvalla vain yksi kieli, entä puhekieli tai murteet
• LDLJ: Language Detection Library for Java
• Ammatti ja yhteiskuntaluokka
• Kohta, joka vaatii eniten ihmistyönä validointia
Sloan, 2017
Kiinnostavia linkkejä ja vinkkejä osasta 1
• #Fail! The workshop series. Things that didn’t work out in social media
research and what can we learn from them.
https://failworkshops.wordpress.com/
• Tapor.ca: research tools for studying texts http://tapor.ca/home
• Baym, N. 2013. Data not seen: The uses and shortcomings of social media
metrics. First Monday, 18(10)
http://firstmonday.org/article/view/4873/3752
• Ethics and Information Technology journal
https://www.springer.com/computer/swe/journal/10676
Osa 2: Datan kerääminen ja säilytys
Ajattele ennen kuin keräät dataa
• Mitä dataa? Sen tyyppi, laatu ja määrä vaikuttaa kaikkeen.
• Yleensä tutkimuskysymys  data, joskus myös data  tutkimuskysymys
• Tässä rajaus suoraan sosiaalisesta mediasta kerättyyn dataan ja
erityisesti Facebookiin ja Twitteriin, ei esim. käyttäjäkyselyt. Casena
Saksan vaalit 2013.
• Tutkimus on vasta matkalla kohti hyviä käytäntöjä!
Ajattele ennen kuin keräät dataa
• Mitkä alustat? Yksi vai monta?
• Kriteerit datan valintaan?
• Big vai small data?
• Mitä dataa jää pois – collection bias?
Ajattele ennen kuin keräät dataa
• Alustat: usein yksi, vaikka linkittyvät vahvasti toisiinsa
• Datan aikajänne: pari tuntia, kuukausi, vuosia
• Kriteerejä datan valintaan: user accounts, aiheet, metadata, random
• Dokumentoi hakutermit ja kartoita myös rinnakkaiset vaihtoehdot!
• Saksan vaalit-casessa >2000 ehdokkaiden käyttäjätiliä, aitous
todennettava manuaalisesti. Facebook-analyysi: SODATO, Social
Media Data Analysis Tool, Twitter-korpukselle Tweet Observer.
Soveltuvin osin dataa myös julkaistiin avoimena.
Mayr & Weller, 2017
Datan prosessointi
• Kuvaa kolme yleispätevää vaihetta, kaikenlaiselle datalle
• Modelling
• Cleaning
• Transformation
• Fokus verkostoanalyysin valmistelussa: kuinka toimijat ja sisällöt
kytkeytyvät yhteen
• Case Twitter ja Pariisin terrori-iskujen 40k twiitin testiaineisto
Datan prosessointi
• Mallinnuksessa tunnistetaan datan rakenne ja merkitys. Tuloksena
tuotetaan malli, skeemadiagrammi. Avoimen lähdekoodin SylvaDB, johon
voi mallin luotuaan tuoda aineistoa esim. CSV- tai XML-muodossa.
• Käsitteelliset, loogiset ja fyysiset mallit
• Datamallin osat ovat yksiköt (entities, nodes), suhteet (relationships,
associations) sekä näiden molempien ominaisuudet (attributes)
• Esimerkiksi Twitterissä yksiköitä ovat twiitit ja käyttäjät. Ominaisuuksia
ovat esimerkiksi yksilöivä id ja käyttäjän sijainti. Esimerkkejä suhteesta:
user tweets tweet, tweet references user.
TWEET
Id
Teksti
Luontihetki
Maa
Kaupunki
Koordinaatit
Esimerkki: Twitterin datamalli
USER
Id
Käyttäjänimi
HASHTAG
Id
Teksti
twiittaa
viittaa
sisältää
seuraa
uudelleen-
twiittaa
vastaa
Brown, Soto-Corominas, Suárez & de la Rosa, 2017, s. 130
Datan prosessointi
• Cleaning-vaiheessa esimerkkinä OpenRefine –työkalu. Poistetaan
epäjohdonmukaisuudet, puuttuvat kohdat, duplikaatit jne. korvaten
arvot uusilla.
• Casessa tuotettiin Pariisin iskujen aineistosta clean text field: kaikki
erikoismerkit, URLit, RT-maininnat poistettu OpenRefinellä tekstin
sisällönanalyysia varten, esim. value.replace{/RTs/, ””)
• Transformation-vaiheessa input-parsing-output. Aineiston osittaminen,
jolloin helpompi analysoida ja käsitellä. Suoraan APIn kautta (REST),
simppeli tekstitiedosto tai DBMS ja esim. Python-kirjastot.
Brown, Soto-Corominas, Suárez & de la Rosa, 2017
APIt ja data sampling
• Application Programming Interface, tapa jolla eri ohjelmistot
”keskustelevat” ja vaihtavat tietoja keskenään; kuvailtu digimaailman
yhteenliittäväksi liimaksi, mutta pikemminkin dynaaminen ja
mahdollistaa yhteentoimivuuden
• APIt nykyään olennainen osa scientific toolboxia, tietoisuus
lisääntynyt muuallakin kuin it-ammattilaisten parissa
• Palvelujen käyttöehdot: ”APIs ok, web scraping often sued”
APIt ja data sampling
• Yleinen API-sanasto mm.
• Protokollat: SOAP ja REST (JSON, XML)
• Omat endpointit eri tietotyypeille
• Keys/tokens
• Resource of request URL
• Sovellukset, apps
• Pääsyrajoitukset ja autentikointi, de facto –standardi OAuth
• Facebook: Graph API, hyvin rajallisesti tietoa, RFacebook -esimerkki
• Twitter: REST, Streaming API kautta uusimmat
Janetzko, 2017
Datan elinkaari
”The challenge for acquiring, using and preserving social media data
lies in capturing enough content to provide meaning but also finding
practical solutions to managing such large, diverse, and interlinked
material.”
Dataa on kaikkialla – tämä ei kuitenkaan ole laadun, saatavuuden,
käytettävyyden tai hyödyllisyyden synonyymi!
Luvun inspiraationa toiminut Data Curation Model, Higgins, 2012.
Kts. http://dcc.ac.uk ja http://DMPOnline.dcc.ac.uk
Datan elinkaari
• Sosiaalisen median data on haurasta. Jos dataa ei kuratoida, siitä tulee helposti
”dark data” – ei muun tiedeyhteisön saatavilla, vaikea hyödyntää, katoaa
myöhemmin tutkijan henkilökohtaisten tiedostojen mukana
• Datan hankinta
1. APIt, myös näiden versiot dokumentoitava ja arkistoitava muun datan mukana
2. Automaattinen tai manuaalinen scraping – jälkimmäinen on työlästä ja vain pienille
aineistoille, esim. web-sivujen tallennus, kuvakaappaukset, copypaste
3. Ostettu data, esim. GNIP, DataSift, DialogFeed. Myyjien tulisi myös tarjota lisenssejä
kuratoituun dataan.
4. Analytical platforms, esim. Sysomos MAP, Social Bakers – ei halpaa ja menetelmissä
voi olla epäselvyyksiä
Datan elinkaari
• Kolmenlaista säilyttämistä
• for data processing
• for disaster recovery, back-up
• for archiving, long-term preservation
• Metadata uudelleenkäytön mahdollistamiseksi
• Flat file, indeksoitu (Lucene, Solr), RDMS, NoSQL-ratkaisut. Arkistoitaessa
mieluiten flat file ja metadata oheen myös tiedostona, ei esim. tiedoston
nimessä! JSON ok, sosiaalisen median metadatan standardit puuttuvat.
• Säilytyksen IPR ja eettiset kysymykset, vrt. aiempi luku tutkimusetiikasta
Voss, Lvov & Thomson, 2017
Qualitative E-Research Framework
• Holistinen kokonaisuus laadullisen tutkimuksen suunnitteluun,
lähteenä Salmons, 2015, 2016
• Alustojen yleiset ominaisuudet, ei tietyt some-brändit
• Kvalin etuna ”more than data”: kysytään tarkentavia kysymyksiä,
osallistutaan toimintaan, mahdollistetaan syvempi ymmärrys
• Kolmentyyppistä dataa
• Extant – muiden luomaa ilman tutkijan erillistä pyyntöä
• Elicited – pyydetään vastauksia, näkemyksiä, tarinoita jne.
• Enacted – tutkija on itse tuottamassa dataa, esimerkiksi osana peliympäristöä
Tutkijan huoneentaulu yleisön informointiin
• Esittele itsesi uskottavana tutkijana. Luo oma sivu, blogi tai
esittelyvideo, jossa linkität virallisen instituution tai projektin sivuille.
• Kerro, miksi tutkimus on tärkeä ja mitä siihen osallistuminen
edellyttää.
• Kuvaa yleisön saamaa hyötyä, ei omia tarpeitasi! Vältä tiedejargonia.
• Kirjaa selkeästi näkyviin, miten osallistujien yksityisyys ja tiedot
suojataan, miten ja kuka dataa käyttää, ja missä tulokset julkaistaan.
• Muistuta osallistujia, että tutkimuksesta voi koska tahansa vetäytyä.
• Pidä osallistujat ajan tasalla koko tutkimusprosessin ajan.
Muokattu ja käännetty kuvasta Salmons, 2017, s. 180
Qualitative
E-Research
Framework
Tavoite ja
asetelma
Tutkijan
positio:
sisällä vai
ulkopuolella
Metodit: 3
datatyyppiä
ICT ja miten
viestitään
Otanta ja
rekrytointi
Eettiset
kysymykset
Datan
keruun
toteutus
Analyysi ja
raportointi
Ketkä voivat tarjota tarvittavan tiedon?
Osallistujat nimeävät uusia osallistujia vs. ennakkovalinnat.
Moderaattorit tukena. Tutkijan oma läsnäolo yhteisössä, luottamus.
Lähtökohta: luodaanko vai sovelletaanko teoriaa?
Vrt. SAL: suostumus,
anonymiteetti,
luottamuksellisuus. Kts.
edellinen slide tutkimuksesta
tiedottamisesta.
Kiinnostavia linkkejä ja vinkkejä osasta 2
• Social Data Analytics Tool: http://cssl.cbs.dk/software/sodato/
• Datan mallintaminen: http://www.sylvaDB.com
• Datan siivoaminen: http://openrefine.org/
• Big datan laatuun liittyvää kritiikkiä kts. six provocations Boyd & Crawford, 2012, ethical
challenges Zimmer, 2010, lack of replicability Bruns 2013, changing nature of platforms
Tinati et al. 2014, changes in user behavior Lazer et al. 2014
• Hoeren et al. 2013. Legal aspects of digital preservation. Cheltenham: Edward Elgar
Publishing.
• Redwine, G. 2015. Personal digital archiving. DPC TechWatch Report 15-01. Digital
Preservation Coalition. doi: 10.7207/twr15-01
Osa 3: Kvalitatiivisia lähestymistapoja
Datan sakeuttaminen
• Huom! Oma vapaa käännös thickening –strategiasta
• Kytkeytyy digitaalisiin jälkiin – kaikki mahdollinen tieto käyttäjästä
• Tällä tavoin jo 20-30 käyttäjäprofiilia voi olla rikas aineisto, huomio
kuitenkin työmäärään ja aikaan, ei absoluuttiseen määrään
• Juuret etnografiassa: dense, detailed, less breadth, more depth
• Artikkeli kritisoi ”positivistis-empirististä uskoa siihen, että big data =
direct access to social reality”, sen sijaan ”carefully cooked data”
• Oma tulkinta: sakea data vs. big data = valmis lautasellinen keitettyä
spagettia vs. kuorma-autollinen kuivia herneitä
Kirjallisuus: Geertz 1973, Stake, 1985, virtual etnography Hine 2000, 2015, netnography Kozinets, 2010
Datan sakeuttaminen
Artikkeli esittelee 3 sakeuttamisen strategiaa
1. Trace –haastattelut: metadiskurssi tietyn käyttäjän digitaalisesta
jalanjäljestä, mitä, miksi ja miten sisältöä luotu, suora vuorovaikutus
tukee eettisempää tutkimusta ja herättää luottamusta, co-analysis
2. Manuaalinen aineiston keruu: esim. kuvat ja kommentit, tarpeen
erityisesti kun tutkitaan useita kanavia rinnakkain
3. Pitkäaikainen ketterä observointi: transplatform fashion, connective
etnography, ketteryys tarpeen koska liikutaan sujuvasti palvelusta toiseen
– twiitataan blogikirjoitukset, jaetaan instasisällöt Facebookissa jne.
Datan sakeuttaminen
• Esimerkki 1: co-analysis semistrukturoiduilla
haastatteluilla, commented visit, casena
opiskelijoiden lakon Fb-kommentit
• Esimerkki 2: working out loud, miten
ihmiset kertovat työstään Twitterissä,
aineisto vain 200 twiittiä
• Esimerkki 3: miten kanadanranskalainen
kielivähemmistö käyttää somea poliittisessa
vaikuttamisessa, 2,5 v havainnointijakso
Latztko-Toth, Bonneau & Millette, 2017
Tiedon
konteksti
Kuvaus
käytännöistä
Käyttäjien
kokemukset
Metadata
AINEISTOSIPULI
Visuaalisuus sosiaalisessa
mediassa
• Visuaalisuusartikkeli ilman yhtäkään kuvaa
• Miten kuvallinen sisältö luodaan, miten sitä
käytetään ja miten se tulkitaan – sense-
making, creating meaning
• Visuaalisessa kulttuurissa kuva ei koskaan ole
”tyhjä taulu” irrallaan muusta todellisuudesta
• Tutkimuskohteena alusta jossa jaetaan, kuva
itsessään, yleisö eli tykkäykset, jaot ja
kommentit
• Esimerkkinä selfiet: Instagramissa
kuvankorjaus rutiinia, Twitterissä jaetaan
spontaaneita hetkiä, kulttuuri määrittää missä
soveliasta ottaa
Visuaalisuus sosiaalisessa mediassa
• Presentism: sisällön nykyhetkisyys on kuvien analysoinnin haaste, eli
sama ongelma, joka on sosiaalisen median arkistoijilla – konteksti ja
yhteydet puuttuvat
• Artikkeli ei pääse alkua pidemmälle eli esitä ratkaisuja ongelmiin;
yleiskuvausta visuaalisuuden merkityksestä ja suurista tietomääristä,
jotka ovat itsestäänselvyyksiä sosiaalisen median käyttäjille
• Hyviä huomioita big data –aineiston ja kvalitatiivisen kuljettamisesta
rinnakkain tutkimuksessa
Hand, 2017
Ei-tekstuaalisen datan koodaaminen
• Kuvat, videot, musiikki, kaaviot, pelit, kartat, maalaukset
• Merkittävä osa sosiaalista mediaa, jonka vuoksi menetelmäkehitystä
tarvitaan lisää ja yhdistettävä tekstuaaliseen
• Musiikki yksi vaikeimmin analysoitavista sisällöistä – esimerkkinä last.fm ja
emootio-tagit
• Sisällönanalyysi määrällisenä tai laadullisena, kaksi tai useampi koodaa
• Laadullisessa induktiivisesti datasta nostaen, Exhaustive, Exclusive & Useful codes
• Määrällisestä esimerkkinä eläinkuvat: 100 kuvan aineistossa koiria 42:ssa ja kissoja
37:ssa, ja neljäsosassa kaikista kuvista on mukana myös ihminen tai ihmisiä
Metodi Lähteet
Compositional interpretation Rose, 2012
Määrällinen sisällönanalyysi Bell, 2001, Banks, 2007, Rose, 2000, Rose, 2012
Laadullinen sisällönanalyysi Julien, 2008, Mayring, 2000
Dokumenttianalyysi Prior, 2008, Saumure & Given, 2008
Videografia Knoblauch & Tuma, 2011
Musiikinanalyysi Bauer, 2000
Kulttuurintutkimus Lister & Wells, 2001
Visuaalinen sosiologia tai antropologia Collier, 2001, Pauwels, 2012
Semioottinen analyysi Penn, 2000
Ikonografia Müller, 2011
Diskurssianalyysi Van Leeuwen, 2008
Visuaalinen sosiaalinen semiotiikka Jewitt & Oyama, 2001
Multimodaalinen tutkimus Iedema, 2003
Multimodaalinen etnografia Dicks et al., 2006
Rasmussen Pennington, 2017, s. 235
Twitter metodina
• Otsikko hämäävä: lähinnä kuvaus siitä, miten Twitter toimii osana
etnografista tutkimusprosessia, kirjoittajan oman väitöksen esittely
• Soveltuu hyvin situated knowledges –tutkimukseen, omat valtarakenteet,
resurssit ja lokaatiot
• Välinearvoa hakevat visitors vs. residents, White & LeCornu, 2011
• Tuottaa akateemisille ”visibility, care, vulnerability”, tutkimus
institutionaalisen roolin ja avoimesti verkottuneen roolin suhteesta
• Tutkija tavoitti Twitterin kautta nopeasti osallistujia, jatkuva vuorovaikutus
tutkittavien kanssa, avoin koodaus, lopulta 14 osallistujaa
• Metodeissa profiiliarviot kiinnostava yksityiskohta: ”Seuraisitko tätä
käyttäjää? Miksi, miksi et?”
”Experiments in new genres of scholarship and
dissemination are occurring in every field, but they
are taking place within the context of relatively
conservative value and reward systems that have
the practice of peer review at their core.”
”Even when digital practices were considered within
the academy, they were seldom taken up on their
own terms but rather as shadows of conventional
practices.”
Harley et al., 2010, p. 13, Stewart, 2017, p. 253
Small stories -tutkimus
• Artikkelissa kuvataan vaihtoehto perinteiselle narratiivikäsitykselle, joka
korostaa ”pitkiä” kertomuksia ja tekstuaalista muotoa
• Sopii sosiaalisen median tutkimukseen hyvin, koska sen tarinat
• fragmentoituneita
• tietyn alustan tai palvelun rajat ylittäviä
• epälineaarisia, ei selkeää alkua, keskikohtaa ja loppua
• yhdessä tuotettuja
• suoraan arkipäivästä, naturalistic stories
• Kaksi avainkäsitellä narrative stancetaking ja rescripting, jälkimmäistä
esim. kuva- ja videomanipulaatiot, meemit
• Kolme toisiinsa kytkeytyvää analyysitasoa: kerronnan tavat, paikat ja
kertojat
Georgakopoulou, 2017
Kiinnostavia linkkejä ja vinkkejä osasta 3
• Tools for social media data http://truthy.indiana.edu/tools/
• Context collapse erityisesti Twitterissä, kts. Marwick, A. & boyd, D. 2011. I tweet honestly, I
tweet passionately: Twitter users, context collapse, and the imagined audience. New Media
& Society, 13(1), 114-133.
• Harley, D., Acord, S., Earl-Novell, S., Lawrence, S. & King, C. 2010. Assessing the future
landscape of scholarly communication: An exploration of faculty values and needs in seven
disciplines. Center for Studies in Higher Education, UC Berkeley.
• Stewart, Bonnie, 2015. Scholarship in abundance: Influence, engagement, and attention in
scholarly networks. PhD thesis. Myös lukuisia muita julkaisuja sosiaalisen median
verkostoista tieteessä ja korkeakoulutuksessa, kts. http://bonstewart.com/sample-page/
Osa 4: Kvantitatiivisia lähestymistapoja
Geospatiaalinen analyysi
• Somen myötä kansalaisista on tullut geodataa tuottavia ”sensoreita”
• Ei kuitenkaan primääriä geodataa, ihmiset ja yhteisöt huomioitava aina
• Analyysin taustalla maantiede ja geomaantiede, mutta myös
informaatiotieteet, sosiaalitieteet ja visuaalinen analytiikka, esim.
sosiaalisen verkoston topologia sijoitettuna kartalle
• Datan hankinta, otanta, geokoodaus ja analyysi
• Datan attribuutit natural ja cultural, esim. vuoret ja järvet vs. rakennukset
• Some-dataa kahdessa muodossa
• Footprints, geospatiaaliset koordinaatit
• Tekstuaalinen, esim. ”Helsinki”, ”00100”, ”GMT +0200”
Geospatiaalinen analyysi
• Geoparsing, geocoding, disambiguation
• Staattiset vs. interaktiiviset kartat ja mash-upit: Google Maps,
OpenStreetMap – ei ainoastaan varastoida vaan rakennetaan tietoa
• Lähtökohtana usein exploratory analysis, arvioidaan koko data suhteessa
paikkaan ja aikaan, tunnistetaan ja vertaillaan osayhteisöjä
• Aineiston luokittelusta esimerkkinä kvantiilimetodi
• Voronoi –diagrammit, ”largest empty circle”, esim. analyysi kulkutaudin
leviämisestä tai etsitään optimaalinen sijainti uudelle kivijalkakaupalle
• Standard Deviational Ellipse, jakauman suunta esiin
• Monet analyysityökalut vasta protoja
• Kts. GeoTime.com, nspace2
Buchel & Rasmussen Pennington, 2017
Verkoston keskeisyyden pragmatiikkaa
• Keskeisyys = tietyn toimijan eli noodin tärkeys verkostolle
• Analyysi auttaa ymmärtämään sosiaalisia rooleja, ennustamaan ihmisten
käyttäytymistä ja viime kädessä luomaan parempia some-palveluja
• Verkoston kaksi avainkriteeriä shape ja reach, noodien ominaisuudet vs.
koko verkoston ominaisuudet: koko, tiheys, topologia
• Eri määrittelytavat esillä: eroja topologia ja jäsenten vuorovaikutuksen tapa
• Mitkä noodit ovat kriittisimpiä koheesiolle ja tiedonkululle? Esim. betweenness
centrality
• Mitkä noodit ovat lähimpänä verkoston muita noodeja? Esim. closeness centrality
• Mitkä noodit ovat vahvimmin kytkeytyneet ympäristöön, kuten tiettyyn
maantieteelliseen alueeseen? Esim. clustering coefficient
• Mitkä noodit välittävät tehokkaimmin tietoa eri verkostojen välillä?
Verkoston keskeisyyden pragmatiikkaa
• Artikkelin fokus Fb, jossa verkostosuhde
molemminpuolinen; undirected, unweighted
• Perusongelmana 3. osapuolen data
• Betweenness työläs etenkin isolla datalla,
sosiaalisessa mediassa usein arvio
• Noodin tärkeyden arvioinnissa (Borgatti, 2005) eri
päämääriä: esim. closeness siihen kuinka nopeasti
tieto liikkuu, betweenness pullonkaulojen ja
portinvartijoiden tunnistamiseen
Ghajar-Khosravi & Chignell, 2017
Ennustava analytiikka
• Ennustava vs. selittävä analytiikka: yhteydet selitettävien muuttujien
välillä vs. kausaalisuhteet käsitteiden välillä
• Teoria- vs. dataohjautuvat mallit, datan etukäteisprosessointi
• Aikasarjat, cross-sectional, näiden yhdistelmät
• Facebookin ja Twitterin dataa on käytetty muun muassa myyntituottojen
ennustamiseen ja epidemioiden leviämisen ennakointiin
• Datan frekvenssi olennaisen tärkeä: jos myyntiluvut kk-tasolla, somelle
tyypilliset muutaman päivän piikit jäävät piiloon
Ennustava analytiikka
• Artikkeli taulukoi 38 esimerkkiä tutkimuksista, joissa on ennakoitu sosiaalisen
median datalla – mukana on kaikkea tuotemyynnistä politiikkaan ja
influenssaan, sydänkohtauksiin ja itsemurhiin
• Datan riittävyys: analytiikka onnistuu tyypillisesti vain isoille
kuluttajabrändeille, kuten Apple, Nike, H&M, Pepsi, Starbucks… ei esim.
pankki- ja vakuutusalalla, logistiikassa tai arkisille kuluttajatuotteille
• iPhone ja H&M –esimerkeissä lisähaaste kiinalaisten oma sosiaalinen media
• Stock prizes: Twitter ja Google Trends
• Ihmisten käyttäytyminen ja brändisuhteet: Facebook
• YouTuben ja Instagramin analyysi kasvusuunnassa
Buus Lassen, la Cour & Vatrapu, 2017
Huijausten tunnistaminen
• Artikkelin fokuksessa kaiken vale –alkuisen automaattinen
tunnistaminen ja suodatus: valeuutiset, huhut, feikkiprofiilit, tietojen
kalastelu jne., tutkijalle myös osa datan laatua
• Valitettavasti tässäkin keskitytään yksinomaan tekstiin
• Esittelee faktantarkistuksen ja tiedon verifioinnin menetelmiä
ammentaen lingvistiikasta ja journalismista
• Kokonainen A4 kriteerejä blogin luotettavuuden arviointiin 
• Ihmisten tietoisuus sosiaalisen median subjektiivisuudesta on hyvä,
mutta tiedon manipuloinnin systemaattisuus edelleen yllätys monille
• ”Haluamme uskoa asioiden olevan totta”
Huijausten tunnistaminen
4 totuudellisuuden maksiimia (Grice, 1975) – huoneentaulu
sosiaaliseen mediaan?
1. Maxim of Quality: sano vain sellaista minkä uskot olevan totta
2. Maxim of Quantity: sano vain sen verran kuin on tarpeen
3. Maxim of Relevance: pysy aiheessa
4. Maxim of Manner: vältä epämääräisyyttä
Huijausten tunnistaminen
• Tulkittava aina myös viestien kontekstia, ei pelkkää sisältöä: miten
sanoma esitetään, kuka esittää, ja missä tilanteessa
• Ihmiset eivät koeasetelmissa erota valheita todesta silloinkaan kun he
tietävät, että heille saatetaan valehdella!
• Tunnistamme noin 50-65 % valesisällöstä valheeksi
• Koneet pystyvät noin 70-75 % tarkkuuteen
• Valesisällössä
• Enemmän aistipohjaisia verbejä – nähdä, kuulla, tuntea (Hancock et al., 2007)
• Pronominit other-oriented, ei minä (Hancock et al., 2007)
• Yksinkertaisempi sanasto ja lauserakenne (Burgoon et al., 2003)
• Epämääräinen, epätäsmällinen ilmaisu (Burgoon et al., 2003)
• Paljon negatiivisia tunteita (Newman et al., 2003) tai puhuttuna
yltiöpositiivinen ilmaisu (Larcker & Zakolyukina, 2012)
Huijausten tunnistaminen
• Viisi menetelmää tekstihuijausten tunnistamiseen (Zhou et al. 2004)
• Criteria-Based Content Analysis (CBCA)
• Reality Monitoring (RM)
• Scientific Content Analysis (SCAN)
• Verbal Immediacy (VI)
• Interpersonal Deception Theory (IDT)
• Useimpien sovellusten taustalla LIWC eli linguistic inquiry and word
count, kirjoittajan oma mittari: Veracity Roadmap
• Hybridiratkaisut suositeltavia: tekstianalyysi, verkostoanalyysi, world
knowledge databases
Rubin, 2017
Huhua vai totta – Twitter-esimerkki
Kategoria Ominaisuus
Lähteen uskottavuus Luotettava uutislähde vs. parodiatili
Uutisen url
Profiilin domain
Client application
Lähteen identiteetti Profiilissa on oikein henkilön nimi
Profiililla on sijainti
Profiilissa on tietoa henkilön taustoista
Lähteen diversiteetti Monipuolinen sisältö
Saman aiheen twiiteissä eri sanamuotoja
Lähteen sijainti ja todistusvoima Twiitti samassa paikassa kuin huhun kohteella
Profiilin sijainti samassa paikassa kuin huhun kohteella
Todentavat lauseet, ”näin”, ”kuulin”
Viestin sävy Tukee, kieltää, kysyy tai on neutraali
Tiedon leviäminen Tapahtuman aihe, uudelleentwiittaukset, maininnat, hashtagin h-
index, graph4 size/depth
Käännetty lähteestä Liu et al., 2015, viitattu Rubin, 2017, s. 352
Kiinnostavia linkkejä ja vinkkejä osasta 4
• ESRI: GIS mapping software https://www.esri.com/en-us/home
• Edellä ArcGIS, kts. myös open source Geographic Information System QGIS
https://qgis.org/fi/site/
• One Million Tweet Map, twiitit kartalla http://onemilliontweetmap.com
• Botometer, aiemmin BotOrNot https://botometer.iuni.iu.edu/#!/
• Rieh, S. 2010. Credibility and Cognitive Authority of Information. In Bates, M. (ed.),
Encyclopedia of Library and Information Science. New York. Taylor & Francis.
Osa 5: Erilaisia/sekalaisia lähestymistapoja
sosiaalisen median dataan
Sivustospesifi vai hyperlokaali? Paikan
ilmentymät sosiaalisessa mediassa
• Miten fyysinen paikka tuodaan somessa esille – tässä ihmisten omien
kokemusten ja niiden moninaisuuden kautta, ei vain koordinaatteina
• Artikkeli on risteytys digitaalista humanismia ja taiteen analyysia
• Hyperlokaalissa informaatiossa automaattisesti mukana paikkatieto ja
aikaleima
• Casena katutaiteilija Banksyn projekti lokakuussa 2013
• taiteilija loi joka päivä uuden teoksen eri puolille New Yorkia
• tieto sijainnista levisi viraalisti somessa
• analyysin kohteena 28 400 Instagram-kuvaa tunnisteilla #banksy ja #banksyny
• kuvasisältöjen klusterointi, konenäkö apuna
• samantyyppinen sisältö ryhmiteltynä esim. temporal, visual ja spatial –
ulottuvuuksien kautta
Hochman, 2017
Muut datalähteet sosiaalisen median rinnalla
• Datan luonne, haasteet ja mahdollisuudet  mixed methods
• Somessa yhdistyy data found vs. data made
• ”Kilpajuoksu big datassa on jo hävitty Googlelle ja Facebookille”, sen sijaan
laadullinen tutkimus small datalla onnistuu – ja voi kertoa paljon
• Hyvin käytäntölähtöistä! Kontekstin löytäminen datalle. Esim. pöhinä
Twitterissä ei kerro paljoa, myös sen laatu on selvitettävä
• Tässä erityisesti some tutkimusinstrumenttina, ei -kohteena
• Casena Greenpeacen avoin Facebook-ryhmä
• analyysin kohteena sekä teksti että kuvat
• pelkästään sanoja 2,7 milj., tilastollinen tekstianalyysi: frekvenssi, avainsanat
• kuvien kommenttien laadullinen sisällönanalyysi
Zeller, 2017
Tutkimuskysymys
Hypoteesit
Tutkimusasetelma
ja metodit
Datan keruu
Analyysi
Tulokset
Laajennettu empiirinen tutkimusprosessi
Zeller 2017, alkuperäinen lähteestä Bryman et al. 2012
Data retrieval
Parsing
Data storing
Queries
Laajennettu empiirinen tutkimusprosessi
• Data retrieval: APIt, valmiit työkalut ei-ohjelmointitaitoisille, myös web
crawlers & scrapers tietyn teemaan tai sivustokokonaisuuteen liittyvän
sisällön seulomiseen
• Data processing/parsing: datan läpikäynti ja siivoaminen, vain relevantit
osat, konvertointi käyttökelpoiseen muotoon
• Esimerkiksi verkostoanalyysissa ei twiittien sisältöä
• Esimerkiksi automaattisessa sisällönanalyysissa twiiteistä URLit pois, koska niissä
esiintyvät sanat voivat vääristää tuloksia
• Data storing ja Queries: vaiheet rinnakkain, koska säilytysmuoto vaikuttaa
siihen, miten tietoa voidaan hakea
• Esimerkiksi relaatiotietokannat
• Myös hakujen testaus mahdollisimman varhaisessa vaiheessa
Zeller, 2017
Sonifikaatio
• Sonifikaatio on datan konvertointia ääneksi
• Temporaalisuus: aikaleimallinen data soveltuu erinomaisesti trendien
ja vuorovaikutuskuvioiden tutkimiseen
• Poikkeamat on helpompi havaita äänestä, myös maallikoiden
• Eksploratiivinen analyysi, ei hypoteesien testausta; analyysi ryhmän,
yksilön tai dyadin tasolla, tai näiden yhdistelmät
Sonifikaatio
• Työkaluja toistaiseksi vähän ja vain harva tutkija tuntee menetelmän
• Max/MSP, SuperCollider ja muut syntetisoijat
• Sonification Sandbox, E-Rhythms Data Sonifier
• Laatukriteerit: objective, systematic, reproducible, sets of different data
• Millaista on kuunnella sosiaalista mediaa? Saksassa #tweetscapes –
projektissa muutettiin twiitit ääneksi, kts. esittelyvideo:
https://www.youtube.com/watch?v=0lKSFlB_-Q0
• Esim. osakemarkkinadata, Ballora et al. 2012
• Artikkelissa casena txt-viestit ja vuorovaikutuskäytäntöjen tutkiminen
• osallistujia 77, noin 11 000 viestiä, kaikkiaan 149 henkilön kesken
• taustaoletusten vastaisesti tutkimus osoitti, että perheenjäsenten kesken viesteihin
vastataan hitaammin kuin kollegoiden tai kavereiden, vrt. Walther & Tidwell, 1995
Jamieson & Boase, 2017
Innovatiiviset paikkatietoiset mobiilipalvelut
• Esittelee MUGGES-projektia – Mobile User Generated Geo Services
• Living lab –lähestymistapa
• Survey ja log data yhdistettynä palvelun todelliseen käyttöön
• Fyysinen, symbolinen ja semanttinen paikkatieto
• Avainsanojen liittäminen tiettyyn paikkaan ja näin syntyvän informaation jakaminen
muille joko avoimena tai vain kavereille
• Mugglets: muistiinpanot tietystä paikasta (notes), näistä muodostuvat mash-upit
(journal, trail, race)
• Koekäyttäjät pieni joukko it-ammattilaisia Bilbaosta ja Espoosta (VTT), jälkimmäisestä
ei kuulemma löytynyt tutkimukseen yhtään naisosallistujaa 
• Löydökset eivät välttämättä kovin hyödyllisiä muille kuin palvelun kehittäjille: perus-
TAM eli koettu hyödyllisyys ja käytön helppous, kellonajan ja sään vaikutus, pieni
ydinjoukko tekee eniten, käyttö alussa aktiivisinta, useita metodeja tarvitaan
Klein & Reips, 2017
Osa 6: Tutkimuksen ja analyysin työvälineet
COSMOS – Collaborative on-line social media
observatory
• Artikkeli esittelee vuonna 2015 päättyneen projektin ja tieto on ollut jo
kirjan julkaisuhetkellä osin vanhentunutta – cosmosproject.net sijaan kts.
http://socialdatalab.net/COSMOS
• Collect, mash & visualize social media data
• Projektin perusteet eivät toki vanhene
• Tarve helppokäyttöisille työkaluille, joita yhteiskuntatieteilijät voivat hyödyntää ilman
ohjelmointiosaamista, monimutkaisuuden sijaan huomio siihen mitä data voi kertoa
• ”Kaikkea ei pidä jättää computer scientistien varaan”
• Big data –skaalautuvuus ongelma: Cosmoksen HCP-pilotissa Hadoop ja MongoDB
• Myös analyysin algoritmit mahdollisimman läpinäkyviä, kriittinen tarkastelu
• Vaivattomasti yhdistettävissä muihin datoihin, esimerkkinä UK Census
• Eettisiä haasteita käsitelty peräti yhden palstan verran, käyttöopasta 20 sivua 
• Esimerkiksi geodatan ”tihentymä” kartalla voi paljastaa kotiosoitteen
• Kolme käyttöliittymän perusosaa: Data Set Library, Data View Library ja
Workspace
• Eri formaatit ja yhteensopivuus muiden analyysityökalujen kanssa
• RSS-syötteet, CSV-tiedostot, twiitit
• Twitterin stream-data (1 %), random tai filtered
• Visualisointiin 10 perustyökalua ja näiden yhdistelmät, esim. sanapilvi
twiiteistä, paikannus kartalle ja frekvenssidiagrammit
• Shapefile –mash kiinnostava: väritetään karttapohja census –tiedoilla,
esim. työllisyysaste maassa alueittain, ja sijoitetaan tietyn ajanjakson tai
tapahtuman twiittien sentimenttianalyysi suoraan tämän kartan päälle
COSMOS – Collaborative on-line social media
observatory
Morgan, 2017
Social Lab – avoimen lähdekoodin ’Facebook’
• http://www.sociallab.es
• Tutkimus kaupallisilla SNS-alustoilla hyvin rajoittunutta – siksi luotu
klooni, laboratorioympäristö jossa Facebookin perusominaisuudet
• Simulointia ja stimulointia
• Sosiaalisten bottien luominen helposti
• Koulutuskäyttö: yksityisyydenhallinnan opettelu bottien avulla
• Eksperimentit: esim. jaetaan ihmiset satunnaisiin verkostoihin ja
tutkitaan vuorovaikutuksen luonnetta, tällaista tutkimusta on vähän
• Myös havainnointi, verkostoanalyysi, kyselyt, haastattelut, osin
automatisoiden
Reips & Garaizar, 2017
R ja sosiaalisen median analyysi
• Koko data scientistin työnkulku: getting, cleaning, testing, showing
• Ei helpoin mahdollinen, mutta tunnetusti monia etuja
• Ilmainen, joustava
• Vahva kehittäjäyhteisö
• Tools for text mining, data manipulation, visual analysis
• Handbook-tyyppinen konkreettinen esimerkki Kalifornian alueen
twiittien aiheista ja teemoista tietyllä ajanjaksolla kartalle sijoitettuna
• Ei mielekästä kopioida tähän yhteenvetoon – jos tunnet R:n perusteet,
kokeile itse esimerkkiä seuraten! (Note: allekirjoittaneelle jo datan
indeksointivaihe aiheutti masennuskohtauksen)
Hegelich, 2017
GATE – open source NLP-työkalu
Ennen luvun varsinaista sisältöä muistutuksena perussanastoa
• Ontologia = käsitteet ja käsitteiden väliset suhteet
• Korpus = kokoelma: järjestelmällinen ja laaja koonti näytteitä luonnollisesta
kielestä, tekstejä tai puhutun kielen nauhoitteita
• Annotaatio = merkintä: järjestelmälliset merkinnät tietyistä
aineistokohdista, esimerkiksi lauseiden kieliopillinen jäsennys
• NLP = Natural Language Processing, koneellista luonnolliseen kieleen
pohjautuvan datan käsittelyä ja analysointia
• NER = Named Entity Recognition, menetelmiä, joilla etsitään henkilöihin,
paikkoihin ja tapahtumiin viittaavaa sisältöä aineistosta ja annotoidaan ne
http://cloud.gate.ac.uk
GATE – open source NLP-työkalu
• Koko elinkaari: korpukset, lingvistiikan työkalut (eri kielet, POS eli part of speech -
taggaus, NER, entity linking), semanttinen haku, visuaalinen analytiikka
• GATE Developer, Teamware, M’imir, Cloud; fokus mikroblogeissa, Twitter
• Kirjoittajan mukaan haastavin NLP: lyhyitä tekstejä, monia merkityksiä, kielen
variaatiot ja leikittely, nimistä usein vain yksi maininta
• Pelkkä tviittitekstien analyysi johtaa siksi huonoihin tuloksiin, konteksti
huomioitava, JSON metadata
• ANNIE  TwitIE
• Tokenisation (tekstin jakaminen yksiköiksi, somessa esimerkiksi URLit, hashtagit,
maininnat, vakiolyhenteet, hymiöt, emojit) tehtävä laadukkailla työkaluilla,
”kaksoispiste voikin olla hymiön osa”
• Indeksointi: M´imir mahdollistaa semanttiset haut
Bontcheva, 2017
Netlytic datan kerun ja analysoinnin työvälineenä
• Pilvipohjainen some-analyysiratkaisu erityisesti tutkijoille, kts.
https://netlytic.org, Social Media Lab, Ryerson University
• Artikkelissa casena Euromaidan 2014, Twitter-viestintä ja sen mahdolliset erot
erikielisessä aineistossa: ukraina, venäjä, englanti. ENG enemmän yleistä
tiedonjakoa ja vähemmän vastavuoroista, korostettiin idän ja lännen konfliktia.
• Myös muita kuin Netlytic esitelty, Social Media Labin sivuilla tarkemmin
• Foller.me, Twitterin käyttäjätileistä taustatietoa
• NodeXL, vanha tuttu verkostoanalyysiratkaisu
• Tweet Archivist, maksua vastaan, lataa tai arkistoi myöhemmin, Twitter ja Insta
• NCapture add-on Nvivoon, tekstin analysointi ja visualisointi, mm. Twitter, Fb, YouTube
• Webometrics Analyst, mm. Twitter, YouTube, Mendeley, yhteydet kommentoijien välillä
• Textexture, verkoston tekstien visualisointi
• STACK, SOCRATES, SocialTap, DMI-DCAT ja muut OS-työkalut
Netlytic datan keruun ja analysoinnin työvälineenä
• Jo vuodesta 2006, tuolloin keskustelufoorumien dataa
• Twitter, Fb, Insta, YouTube, RSS-feed, cloud storage, csv-tiedosto
• Rinnakkain tekstianalyysi, verkostoanalyysi, visualisoinnit
• Sanapilvet
• Stacked chart, termien esiintyvyys aikajanalla
• Concept coding
• Distributed Recursive Graph Layout (DrL), Fruchterman & Reingold (erityisesti
alle 1000 noodin verkostoille), Large Graph Layout
Gruzd, Mai & Kampen, 2017
Teemojen tunnistaminen sosiaalisesta mediasta
• Discursis, Leximancer  visuaalinen tekstianalyysi Twitter-datalla,
esimerkissä 50k, rinnalla perinteiset Gephi ja Excel
• Palveluja valtavasti eri tarkoituksiin ja erityyppiselle datalle
• Taustalla information visualization, computational linguistics
• ”Content analysis seeks to interpret documents or other artefacts of
communicative processes”, Krippendorff 2012
• Perusongelma tässäkin, ettei tunnista sarkasmia tai suhtautumisen laatua
• Kolme pääosaa
• Miten aineisto koodataan automaattisesti, NLP
• Kuinka tulos esitetään visuaalisesti
• Sense-making, analyysi merkityksistä eli teemat
Teemojen tunnistaminen sosiaalisesta mediasta
• Leximancerilla visuaalinen käsitekartta, concept = word+weight
• Workflow: CSV tms,  GUI  concept seeds  list  analysis  output
• Discursis lisää mukaan visualisoinnin ajassa
• Myös NLTK, Stanford NLP, D3.js
• Casena Australian #QANDA, vrt. #astudio tai #ateema
• Stop listille normaalit and, or, the, Twitterin tapauksessa myös RT
• Stream graph = theme river visualization
• 74 concepts, 8 themes: government, law etc.
• Aktiivisimpien tviittaajien vertailu käsitteiden käytön osalta: voidaan esim.
tunnistaa samaan tapaan viestivät, jotka eivät kuitenkaan seuraa toisiaan
Angus, 2017
Sentimenttianalyysi
• Automaattinen tunteiden tunnistaminen tekstistä
• Alun pelin kaupallisiin tarkoituksiin: tuotearviot, opinion mining
• Sovellusalueet laajentuneet – somen käyttö, HCI, markkinointi, taloustiede,
terveydenhuolto, politiikka, koulutus, esim. opiskelijoiden tyytyväisyys
• Myös tunteiden eri tasoja kyetään jossain määrin erottamaan
• Machine learning vs. lexical approach
• http://sentistrength.wlv.ac.uk ilmainen ja nopea
• Ongelmia vivahteet, piilomerkitykset, sarkasmi ja ironia, sanojen eri
merkitys eri kontekstissa: heavy on huono matkapuhelimelle, neutraali
elokuvissa tai musiikissa
Thelwall, 2017
Kiinnostavia linkkejä ja vinkkejä osiosta 6
• Big Data and Society –journal http://journals.sagepub.com/home/bds
• Social Media Planner: sopivan palvelun valinta demografisten tietojen
ja intressien pohjalta https://www.inpromo.de/wordpress/en/social-
tools/social-media-planner/
• Bontcheva, K. & Rout, D. 2014. Making sense of social media through
semantics: A survey. Semantic Web – Interoperability, Usability,
Applicability, 5(5), 373-403.
Lopuksi: omia kriittisiä huomioita
• Artikkelit eivät käsitelleet lainkaan sosiaalisen median algoritmeja ja sitä, millä
tavoin ne vaikuttavat tutkittavaan maisemaan – kaikki mitä saamme eteemme,
on todellisuudessa jo kerran suodatettua. Tämä pitäisi huomioida etenkin
laadullisten menetelmien ja datan sakeuttamisen kohdalla!
• Kvalitutkijoiden tulisi kiinnittää enemmän huomiota tutkimuskysymystensä
laatuun. Esim. kirjassa kuvattu small stories –tutkimus tunnisti, miten tarinat
saavat Facebookissa alkunsa. Ovatko profiilikuvan vaihto, postaus, tapahtuma,
paikka ja taggaus todella ”tutkimustuloksia” vai kaikille tuttuja Facebookin
perustoimintoja? Mielummin huomio sisältöihin kuin toiminnallisuuteen:
esim. millaiset postaukset käynnistävät somekohun.
Lopuksi: omia kriittisiä huomioita
• Odotetusti mukana oli itsestäänselvyyksiä sosiaalisen median luonteesta ja datan
analysoinnin vaikeudesta, ei vastauksia kyseisiin ongelmiin.
• Algoritmivajetta lukuunottamatta erittäin kattava esitys koko tutkimusprosessiin. Osa
luvuista on tekno-optimistisia, osa huomioi myös eettiset kysymykset ja
kokonaisuuden. Tuo paljon uutta tietoa, koska kukaan ei voi olla oman elämänsä IDR
ja hallita kaikkia tarvittavia osa-alueita.
• Tämän näytteen perusteella Twitter ylikorostuu tutkimusdatan lähteenä. Facebook
on merkittävä mutta tunnetusti myös vaikea, ja umpioituu koko ajan. Kuva- ja
videosisältöjen tutkimukseen ollaan vasta havahtumassa ja akateemisista enemmistö
hallitsee vain tekstin.
• M.O.T.

Contenu connexe

Tendances

Параметри елементів електричного кола
Параметри елементів електричного колаПараметри елементів електричного кола
Параметри елементів електричного колаБойчук Светлана
 
RocksDB compaction
RocksDB compactionRocksDB compaction
RocksDB compactionMIJIN AN
 
Load testing Elasticsearch with Gatling
Load testing Elasticsearch with GatlingLoad testing Elasticsearch with Gatling
Load testing Elasticsearch with GatlingAnna Ossowski
 
Уведення,редагування і форматування даних в Excel 2010
Уведення,редагування і форматування  даних в Excel 2010Уведення,редагування і форматування  даних в Excel 2010
Уведення,редагування і форматування даних в Excel 2010Nuta1910
 
Monitoring MySQL with DTrace/SystemTap
Monitoring MySQL with DTrace/SystemTapMonitoring MySQL with DTrace/SystemTap
Monitoring MySQL with DTrace/SystemTapPadraig O'Sullivan
 
Building an Event Streaming Architecture with Apache Pulsar
Building an Event Streaming Architecture with Apache PulsarBuilding an Event Streaming Architecture with Apache Pulsar
Building an Event Streaming Architecture with Apache PulsarScyllaDB
 

Tendances (9)

Параметри елементів електричного кола
Параметри елементів електричного колаПараметри елементів електричного кола
Параметри елементів електричного кола
 
Big Data: an introduction
Big Data: an introductionBig Data: an introduction
Big Data: an introduction
 
RocksDB compaction
RocksDB compactionRocksDB compaction
RocksDB compaction
 
Mapreduce Tutorial
Mapreduce TutorialMapreduce Tutorial
Mapreduce Tutorial
 
Hadoop hdfs
Hadoop hdfsHadoop hdfs
Hadoop hdfs
 
Load testing Elasticsearch with Gatling
Load testing Elasticsearch with GatlingLoad testing Elasticsearch with Gatling
Load testing Elasticsearch with Gatling
 
Уведення,редагування і форматування даних в Excel 2010
Уведення,редагування і форматування  даних в Excel 2010Уведення,редагування і форматування  даних в Excel 2010
Уведення,редагування і форматування даних в Excel 2010
 
Monitoring MySQL with DTrace/SystemTap
Monitoring MySQL with DTrace/SystemTapMonitoring MySQL with DTrace/SystemTap
Monitoring MySQL with DTrace/SystemTap
 
Building an Event Streaming Architecture with Apache Pulsar
Building an Event Streaming Architecture with Apache PulsarBuilding an Event Streaming Architecture with Apache Pulsar
Building an Event Streaming Architecture with Apache Pulsar
 

Similaire à Sometutkimus

Sosiaalisen median ohjelmat oppimisympäristön rakennuspalikoina
Sosiaalisen median ohjelmat oppimisympäristön rakennuspalikoinaSosiaalisen median ohjelmat oppimisympäristön rakennuspalikoina
Sosiaalisen median ohjelmat oppimisympäristön rakennuspalikoinaHarto Pönkä
 
Sosiaalinen Media Ja Aktiiviset Tyotavat
Sosiaalinen Media Ja Aktiiviset TyotavatSosiaalinen Media Ja Aktiiviset Tyotavat
Sosiaalinen Media Ja Aktiiviset TyotavatJarkko Elo
 
Sosiaalinen media mahdollisuutena ja haasteena opinto-ohjauksessa
Sosiaalinen media mahdollisuutena ja haasteena opinto-ohjauksessaSosiaalinen media mahdollisuutena ja haasteena opinto-ohjauksessa
Sosiaalinen media mahdollisuutena ja haasteena opinto-ohjauksessaHarto Pönkä
 
Sosiaalisen median hyödyntäminen organisaatioissa mainestrategisesta näkökulm...
Sosiaalisen median hyödyntäminen organisaatioissa mainestrategisesta näkökulm...Sosiaalisen median hyödyntäminen organisaatioissa mainestrategisesta näkökulm...
Sosiaalisen median hyödyntäminen organisaatioissa mainestrategisesta näkökulm...Salla-Maaria Laaksonen
 
Sosiaalinen media haastaa opetuksen kehittämiseen
Sosiaalinen media haastaa opetuksen kehittämiseenSosiaalinen media haastaa opetuksen kehittämiseen
Sosiaalinen media haastaa opetuksen kehittämiseenHarto Pönkä
 
Sosiaalisen median toimintaympäristöt ja -kulttuurit
Sosiaalisen median toimintaympäristöt ja -kulttuuritSosiaalisen median toimintaympäristöt ja -kulttuurit
Sosiaalisen median toimintaympäristöt ja -kulttuuritHarto Pönkä
 
Verkko-opetuksen ja sosiaalisen median perusteet
Verkko-opetuksen ja sosiaalisen median perusteetVerkko-opetuksen ja sosiaalisen median perusteet
Verkko-opetuksen ja sosiaalisen median perusteetHarto Pönkä
 
Itä-Suomen yliopiston sosiaalisen median suositukset - sparrausta
Itä-Suomen yliopiston sosiaalisen median suositukset - sparraustaItä-Suomen yliopiston sosiaalisen median suositukset - sparrausta
Itä-Suomen yliopiston sosiaalisen median suositukset - sparraustaHarto Pönkä
 
Sosiaalisen median perusteet järjestöille, Kepa 25.1.2013
Sosiaalisen median perusteet järjestöille, Kepa 25.1.2013Sosiaalisen median perusteet järjestöille, Kepa 25.1.2013
Sosiaalisen median perusteet järjestöille, Kepa 25.1.2013Perttu Iso-Markku
 
Eettisyys sosiaalisen median tutkimuskäytössä
Eettisyys sosiaalisen median tutkimuskäytössäEettisyys sosiaalisen median tutkimuskäytössä
Eettisyys sosiaalisen median tutkimuskäytössäMiia Kosonen
 
Taitolähtöinen oppiminen
Taitolähtöinen oppiminen Taitolähtöinen oppiminen
Taitolähtöinen oppiminen Tabletkoulu
 
Sosiaalinen media mukaan opetukseen!
Sosiaalinen media mukaan opetukseen!Sosiaalinen media mukaan opetukseen!
Sosiaalinen media mukaan opetukseen!Harto Pönkä
 
Journalismia verkossa ja somen trendit
Journalismia verkossa ja somen trenditJournalismia verkossa ja somen trendit
Journalismia verkossa ja somen trenditHarto Pönkä
 
Kampanjoimaan sosiaalisen mediaan / Kepa 1.3.2010
Kampanjoimaan sosiaalisen mediaan / Kepa 1.3.2010Kampanjoimaan sosiaalisen mediaan / Kepa 1.3.2010
Kampanjoimaan sosiaalisen mediaan / Kepa 1.3.2010Perttu Iso-Markku
 
Sosiaalisen median yhteisöllisyys
Sosiaalisen median yhteisöllisyysSosiaalisen median yhteisöllisyys
Sosiaalisen median yhteisöllisyysHarto Pönkä
 
Verkostoja, parvia ja sosiaalista mediaa oppimisen tueksi
Verkostoja, parvia ja sosiaalista mediaa oppimisen tueksiVerkostoja, parvia ja sosiaalista mediaa oppimisen tueksi
Verkostoja, parvia ja sosiaalista mediaa oppimisen tueksiHarto Pönkä
 
YhteisöLlinen Tiedonmuodostus
YhteisöLlinen TiedonmuodostusYhteisöLlinen Tiedonmuodostus
YhteisöLlinen TiedonmuodostusSanna Brauer
 
Sosiaalinen media opetuksessa tutuksi
Sosiaalinen media opetuksessa tutuksiSosiaalinen media opetuksessa tutuksi
Sosiaalinen media opetuksessa tutuksiHarto Pönkä
 

Similaire à Sometutkimus (20)

Sosiaalisen median ohjelmat oppimisympäristön rakennuspalikoina
Sosiaalisen median ohjelmat oppimisympäristön rakennuspalikoinaSosiaalisen median ohjelmat oppimisympäristön rakennuspalikoina
Sosiaalisen median ohjelmat oppimisympäristön rakennuspalikoina
 
Sosiaalinen Media Ja Aktiiviset Tyotavat
Sosiaalinen Media Ja Aktiiviset TyotavatSosiaalinen Media Ja Aktiiviset Tyotavat
Sosiaalinen Media Ja Aktiiviset Tyotavat
 
Sosiaalinen media mahdollisuutena ja haasteena opinto-ohjauksessa
Sosiaalinen media mahdollisuutena ja haasteena opinto-ohjauksessaSosiaalinen media mahdollisuutena ja haasteena opinto-ohjauksessa
Sosiaalinen media mahdollisuutena ja haasteena opinto-ohjauksessa
 
Luoti osa1 010212_pl2
Luoti osa1 010212_pl2Luoti osa1 010212_pl2
Luoti osa1 010212_pl2
 
Sosiaalisen median hyödyntäminen organisaatioissa mainestrategisesta näkökulm...
Sosiaalisen median hyödyntäminen organisaatioissa mainestrategisesta näkökulm...Sosiaalisen median hyödyntäminen organisaatioissa mainestrategisesta näkökulm...
Sosiaalisen median hyödyntäminen organisaatioissa mainestrategisesta näkökulm...
 
Sosiaalinen media haastaa opetuksen kehittämiseen
Sosiaalinen media haastaa opetuksen kehittämiseenSosiaalinen media haastaa opetuksen kehittämiseen
Sosiaalinen media haastaa opetuksen kehittämiseen
 
Sosiaalisen median toimintaympäristöt ja -kulttuurit
Sosiaalisen median toimintaympäristöt ja -kulttuuritSosiaalisen median toimintaympäristöt ja -kulttuurit
Sosiaalisen median toimintaympäristöt ja -kulttuurit
 
Verkko-opetuksen ja sosiaalisen median perusteet
Verkko-opetuksen ja sosiaalisen median perusteetVerkko-opetuksen ja sosiaalisen median perusteet
Verkko-opetuksen ja sosiaalisen median perusteet
 
Online-yhteistyo
Online-yhteistyoOnline-yhteistyo
Online-yhteistyo
 
Itä-Suomen yliopiston sosiaalisen median suositukset - sparrausta
Itä-Suomen yliopiston sosiaalisen median suositukset - sparraustaItä-Suomen yliopiston sosiaalisen median suositukset - sparrausta
Itä-Suomen yliopiston sosiaalisen median suositukset - sparrausta
 
Sosiaalisen median perusteet järjestöille, Kepa 25.1.2013
Sosiaalisen median perusteet järjestöille, Kepa 25.1.2013Sosiaalisen median perusteet järjestöille, Kepa 25.1.2013
Sosiaalisen median perusteet järjestöille, Kepa 25.1.2013
 
Eettisyys sosiaalisen median tutkimuskäytössä
Eettisyys sosiaalisen median tutkimuskäytössäEettisyys sosiaalisen median tutkimuskäytössä
Eettisyys sosiaalisen median tutkimuskäytössä
 
Taitolähtöinen oppiminen
Taitolähtöinen oppiminen Taitolähtöinen oppiminen
Taitolähtöinen oppiminen
 
Sosiaalinen media mukaan opetukseen!
Sosiaalinen media mukaan opetukseen!Sosiaalinen media mukaan opetukseen!
Sosiaalinen media mukaan opetukseen!
 
Journalismia verkossa ja somen trendit
Journalismia verkossa ja somen trenditJournalismia verkossa ja somen trendit
Journalismia verkossa ja somen trendit
 
Kampanjoimaan sosiaalisen mediaan / Kepa 1.3.2010
Kampanjoimaan sosiaalisen mediaan / Kepa 1.3.2010Kampanjoimaan sosiaalisen mediaan / Kepa 1.3.2010
Kampanjoimaan sosiaalisen mediaan / Kepa 1.3.2010
 
Sosiaalisen median yhteisöllisyys
Sosiaalisen median yhteisöllisyysSosiaalisen median yhteisöllisyys
Sosiaalisen median yhteisöllisyys
 
Verkostoja, parvia ja sosiaalista mediaa oppimisen tueksi
Verkostoja, parvia ja sosiaalista mediaa oppimisen tueksiVerkostoja, parvia ja sosiaalista mediaa oppimisen tueksi
Verkostoja, parvia ja sosiaalista mediaa oppimisen tueksi
 
YhteisöLlinen Tiedonmuodostus
YhteisöLlinen TiedonmuodostusYhteisöLlinen Tiedonmuodostus
YhteisöLlinen Tiedonmuodostus
 
Sosiaalinen media opetuksessa tutuksi
Sosiaalinen media opetuksessa tutuksiSosiaalinen media opetuksessa tutuksi
Sosiaalinen media opetuksessa tutuksi
 

Plus de Miia Kosonen

Vastuullisempaa-somea
Vastuullisempaa-someaVastuullisempaa-somea
Vastuullisempaa-someaMiia Kosonen
 
Yhteisollisyys cmadfi-2022
Yhteisollisyys cmadfi-2022Yhteisollisyys cmadfi-2022
Yhteisollisyys cmadfi-2022Miia Kosonen
 
Sinulle sopiva somestrategia
Sinulle sopiva somestrategiaSinulle sopiva somestrategia
Sinulle sopiva somestrategiaMiia Kosonen
 
Itsensajohtaminen muutostilanteissa
Itsensajohtaminen muutostilanteissaItsensajohtaminen muutostilanteissa
Itsensajohtaminen muutostilanteissaMiia Kosonen
 
Tietojohtamisen tutkimus
Tietojohtamisen tutkimusTietojohtamisen tutkimus
Tietojohtamisen tutkimusMiia Kosonen
 
Virtuaaliverkostot
VirtuaaliverkostotVirtuaaliverkostot
VirtuaaliverkostotMiia Kosonen
 
Keskustelu ja kuuntelu sosiaalisessa mediassa
Keskustelu ja kuuntelu sosiaalisessa mediassaKeskustelu ja kuuntelu sosiaalisessa mediassa
Keskustelu ja kuuntelu sosiaalisessa mediassaMiia Kosonen
 
Some ja oppimisverkostot
Some ja oppimisverkostotSome ja oppimisverkostot
Some ja oppimisverkostotMiia Kosonen
 
Tiedolla johtamisen illuusio
Tiedolla johtamisen illuusioTiedolla johtamisen illuusio
Tiedolla johtamisen illuusioMiia Kosonen
 
Digitaalisuus ja hiljainen tieto
Digitaalisuus ja hiljainen tietoDigitaalisuus ja hiljainen tieto
Digitaalisuus ja hiljainen tietoMiia Kosonen
 
Tietojohtaminen ja tiedolla johtaminen
Tietojohtaminen ja tiedolla johtaminenTietojohtaminen ja tiedolla johtaminen
Tietojohtaminen ja tiedolla johtaminenMiia Kosonen
 
Online community death
Online community deathOnline community death
Online community deathMiia Kosonen
 
Yhteisojen saattohoito
Yhteisojen saattohoitoYhteisojen saattohoito
Yhteisojen saattohoitoMiia Kosonen
 
Yhteisojen elinkaari
Yhteisojen elinkaariYhteisojen elinkaari
Yhteisojen elinkaariMiia Kosonen
 
Online co-creation
Online co-creationOnline co-creation
Online co-creationMiia Kosonen
 

Plus de Miia Kosonen (20)

Vastuullisempaa-somea
Vastuullisempaa-someaVastuullisempaa-somea
Vastuullisempaa-somea
 
Yhteisollisyys cmadfi-2022
Yhteisollisyys cmadfi-2022Yhteisollisyys cmadfi-2022
Yhteisollisyys cmadfi-2022
 
Sinulle sopiva somestrategia
Sinulle sopiva somestrategiaSinulle sopiva somestrategia
Sinulle sopiva somestrategia
 
Itsensajohtaminen muutostilanteissa
Itsensajohtaminen muutostilanteissaItsensajohtaminen muutostilanteissa
Itsensajohtaminen muutostilanteissa
 
Tietojohtamisen tutkimus
Tietojohtamisen tutkimusTietojohtamisen tutkimus
Tietojohtamisen tutkimus
 
Twitter-likes
Twitter-likesTwitter-likes
Twitter-likes
 
Virtuaaliverkostot
VirtuaaliverkostotVirtuaaliverkostot
Virtuaaliverkostot
 
Yhteisollisyys
YhteisollisyysYhteisollisyys
Yhteisollisyys
 
Hinnoittelu
HinnoitteluHinnoittelu
Hinnoittelu
 
Tohtoriverkosto
TohtoriverkostoTohtoriverkosto
Tohtoriverkosto
 
Keskustelu ja kuuntelu sosiaalisessa mediassa
Keskustelu ja kuuntelu sosiaalisessa mediassaKeskustelu ja kuuntelu sosiaalisessa mediassa
Keskustelu ja kuuntelu sosiaalisessa mediassa
 
Some ja oppimisverkostot
Some ja oppimisverkostotSome ja oppimisverkostot
Some ja oppimisverkostot
 
Tiedolla johtamisen illuusio
Tiedolla johtamisen illuusioTiedolla johtamisen illuusio
Tiedolla johtamisen illuusio
 
Digitaalisuus ja hiljainen tieto
Digitaalisuus ja hiljainen tietoDigitaalisuus ja hiljainen tieto
Digitaalisuus ja hiljainen tieto
 
Tietojohtaminen ja tiedolla johtaminen
Tietojohtaminen ja tiedolla johtaminenTietojohtaminen ja tiedolla johtaminen
Tietojohtaminen ja tiedolla johtaminen
 
Yhteisot ja tieto
Yhteisot ja tietoYhteisot ja tieto
Yhteisot ja tieto
 
Online community death
Online community deathOnline community death
Online community death
 
Yhteisojen saattohoito
Yhteisojen saattohoitoYhteisojen saattohoito
Yhteisojen saattohoito
 
Yhteisojen elinkaari
Yhteisojen elinkaariYhteisojen elinkaari
Yhteisojen elinkaari
 
Online co-creation
Online co-creationOnline co-creation
Online co-creation
 

Sometutkimus

  • 1. eli mitä opin kirjasta The SAGE Handbook of Social Media Research Methods @MiiaKosonen http://tohtorilletoita.com Sosiaalisen median tutkimusmenetelmät
  • 2. Taustaa • Harvalla on aikaa ja energiaa käydä tutkimus- tai opetustyön ohessa läpi 700- sivuisia käsikirjoja. Lukiessani aloin ajatella, ettei ole mitään järkeä jättää opittua ja havaittua vain itselle: se on tiedon vajaakäyttöä ja sosiaalisen median kulttuurien vastaista. • Sosiaalisen median tutkimus on erityisen vakiintumatonta ja nopeasti muuttuvaa aluetta, jossa standardit ja hyvät käytännöt hakevat muotoaan. Kts. http://otteitaverkosta.fi • Esitykseen on valittu, tiivistetty ja yhdistelty mielestäni olennainen ja vain se. 38 eri luvun kirjoittamiseen osallistui yli 40 asiantuntijaa ympäri maailman. Kirjoittajat on listattu kunkin alaluvun lopussa.
  • 3. Materiaalin käyttö Esitystä voi hyödyntää ei-kaupalliseen tutkimukseen ja koulutukseen viittaamalla 1) Kyseiseen artikkeliin: kirjoittajat on listattu kunkin luvun lopussa 2) Alkuperäiseen teokseen: L. Sloan & A. Quan-Haase (Eds.), The SAGE Handbook of Social Media Research Methods. SAGE Publications, 2017. 3) Tähän esitykseen: Miia Kosonen 2018, yhteenveto sosiaalisen median tutkimusmenetelmistä http://slideshare.net/miiak/sometutkimus
  • 4. Materiaalin käyttö Käytä omalla vastuulla: mukana on aivan varmasti myös käännös- tai tulkintavirheitä. Geolokaatio tai datan muuttaminen ääneksi eivät ole alaani. Klout.com, 2016
  • 5. HUOM! Kirjan artikkelit on kirjoitettu 2015-2016. Sen jälkeen moni asia on jo ehtinyt muuttua ja sisältö voi olla yksityiskohtien osalta vanhentunutta. Samasta syystä tässä esityksessä ei ole mukana kirjan viimeistä osiota, jossa esitellään sosiaalisen median alustoja tutkimuskäytössä. “Facebook’s API is becoming a closed system. -- The Cambridge Analytica scandal, which saw Facebook user data gathered supposedly for academic purposes but instead used by a private firm for political campaigning, created an opportunity for positive change. But Facebook sadly appears to be making its platform more opaque, unknown and unaccountable to the public. Once apps like Netvizz are gone, there will be no accessible way of gathering large amounts of public page Facebook data.” https://thenextweb.com/syndication/2018/08/27/facebooks-attitude-towards-researchers-should-worry-you/
  • 6. Johdanto Käsikirja määrittelee sosiaaliseksi mediaksi sovellukset, jotka 1. mahdollistavat käyttäjien luoman sisällön kuten kuvat, tekstin, videot ja statukset 2. antavat käyttäjille mahdollisuuden kytkeytyä muihin käyttäjiin 3. tukevat käyttäjien välistä vuorovaikutusta esimerkiksi mahdollistamalla yhteistyön, yhteisön rakentamisen, osallistumisen, linkittämisen ja jakamisen.
  • 7. Johdanto Sosiaalisen median menetelmälliset haasteet, vrt. big data: 6Vs • Volume • Variety • Velocity • Veracity • Virtue • Value
  • 8. Sisältö: 7 osaa • Käsitteellistäminen ja tutkimuksen suunnittelu • Datan kerääminen ja säilytys • Kvalitatiivisia lähestymistapoja sosiaalisen median dataan • Kvantitatiivisia lähestymistapoja sosiaalisen median dataan • Erilaisia lähestymistapoja sosiaalisen median dataan • Tutkimuksen ja analyysin työvälineet • (Sosiaalisen median alustat)
  • 9. Osa 1: käsitteellistäminen ja tutkimuksen suunnittelu • Mitä sosiaalinen media on • Big data – hype vai vallankumous? • Monitieteiset sosiaalisen median tutkimustiimit • Sosiaalisen median käyttäjät ja tutkimusetiikka • Virtuaalinen minä • Twitter-aineistot ja demografia
  • 10. Osa 2: Datan kerääminen ja säilytys • Ajattele ennen kuin keräät dataa • Datan prosessointi • APIt ja data sampling • Datan elinkaari – kuratointi, säilytys, pitkäaikaissäilytys • Qualitative E-Research framework
  • 11. Osa 3: Kvalitatiivisia lähestymistapoja • Small data, thick data ja sakeuttamisen strategiat • Visuaalisuus sosiaalisessa mediassa • Ei-tekstuaalisen datan koodaaminen • Twitter metodina • Small stories -tutkimus
  • 12. Osa 4: Kvantitatiivisia lähestymistapoja • Geospatiaalinen analyysi • Verkoston keskeisyyden pragmatiikkaa • Ennustava analytiikka sosiaalisen median datalla • Huijausten tunnistaminen ja huhujen kumoaminen sosiaalisessa mediassa
  • 13. Osa 5: Erilaisia lähestymistapoja • Sivustospesifi vai hyperlokaali? Paikan ilmentymät sosiaalisessa mediassa • Muut datalähteet sosiaalisen median rinnalla • Sonifikaatio – sosiaalisten rytmien kuunteleminen • Sosiaaliset paikkatietoiset palvelut mobiililaitteille
  • 14. Osa 6: Tutkimuksen ja analyysin työvälineet • COSMOS – Collaborative on-line social media observatory • Social Lab – open source ’Facebook’ • R ja sosiaalisen median analyysi • GATE – open source NLP-työkalu sosiaaliseen mediaan • Netlytic datan kerun ja analysoinnin työvälineenä • Teemojen tunnistaminen sosiaalisesta mediasta • Sentimenttianalyysi
  • 15. Osa 1: Käsitteellistäminen ja tutkimuksen suunnittelu
  • 16. Mitä sosiaalinen media on • Kts. käsikirjan perusmääritelmä edellä • Eräiden tulkintojen mukaan aina dynaamista ja kontekstuaalista: ’temporally, spatially and technologically sensitive’ (Papacharissi, 2015) • Näkemys on muuttunut 10-15 vuodessa ja muuttuu edelleen
  • 17. Mihin kysymyksiin sosiaalinen media vastaa • Pakottaa tutkijat nostamaan esille 1) metodologiaan 2) eettiseen perusteisiin 3) tutkimuksen mittakaavaan liittyviä uusia kysymyksiä. • Vastaaminen tutkimuskysymyksiin, jotka liittyvät • sosiaalisen median käyttöön itseensä • tiettyyn sosiaaliseen ilmiöön, josta sosiaalinen media voi tarjota lisää tietoa.
  • 18. Sosiaalisen median palveluiden tyyppejä Tyyppi Esimerkkejä Sosiaaliset verkostopalvelut Facebook, LinkedIn Kirjanmerkit Delicious, StumbleUpon Mikroblogit Twitter, Tumblr Blogit ja foorumit LiveJournal, WordPress Median jakaminen YouTube, Flickr, Pinterest Sosiaaliset uutispalvelut Digg, Reddit Yhteiskirjoittaminen Wikipedia Web-konferenssit Skype, GoToMeeting, Zoho Meeting Paikkatieto Foursquare Aikataulutus Doodle Tiivistetty ja kääännetty luvun 2 artikkelista McCay-Peet, L. & Quan-Haase, A. 2017. What is social media and what questions can social media research help us answer? Sloan, L. & Quan-Haase, A. (Eds.), The SAGE Handbook of Social Media Research Methods, p. 18.
  • 19. Big data – hype vai vallankumous? • Kärjekkäimmät puhuvat ”end of theorysta”, jossa ei tarvita lainkaan taustateoriaa ja hypoteeseja, vaan data luo ne itse • Käytännössä teoriaa tarvitaan aina, mm. suhteuttamaan ilmiöt aiempaan tietoon • Myös big data on monella tapaa vinoutunutta • Big dataa ei ole suunniteltu vastaamaan tutkimuskysymykseen X • Tuottaa pintapuolisia kuvauksia, vaikutelmia; esimerkiksi mikä on twiittien valtakieli suurkaupungin eri osissa
  • 20. Big data – hype vai vallankumous? • Big datan arvo: auttaa havaitsemaan uutta, ”data kertoo kysymyksiä joihin kannattaisi vastata” • Ei uusi paradigma vaan täydentävä teorianmuodostuksen tapa • Digitaalisen humanismin kaksi leiriä: digitaaliset ympäristöt tuottavat rikkaampia aineistoja ja tuovat uusine tekniikoineen menetelmällistä uskottavuutta, toisen koulukunnan mukaan taas täydentää perinteisiä metodeja. Kitchin, 2017
  • 21. Monitieteiset sosiaalisen median tutkimustiimit • IDR eli inter-disciplinary research • Sosiaalinen, tekninen ja eettinen lähestymistapa, kaikki kolme puolta ymmärrettävä • Sopivasti monitieteisyyttä – ei liikaa, siis tyyliin yksi joka alalta • Miksi tärkeää: kompleksiset tutkimusongelmat, jäsenten motivaatio ymmärtää ilmiötä eri näkökulmista, luovemmat ratkaisut ja löydökset
  • 22. Monitieteiset sosiaalisen median tutkimustiimit • Artikkeli tunnistaa useita haasteita, esim. sosiaalitieteissä ei palkita työvälinekehityksestä, lyhytjänteinen rahoitus, näennäisyhteistyö jotta saadaan rasti oikeaan ruutuun • Tarvitaan myös koulutusta ja tukea siihen, kuinka luoda eri taustoista tulevien ihmisten välille common ground – toiselle riittää aineistoksi 100, toinen haluaa 10 miljoonaa jotta mitään kannattaisi edes tehdä Quan-Haase & McCay-Peet, 2017
  • 23. Sosiaalisen median käyttäjät ja tutkimusetiikka • Haluttiin selvittää, mitä sosiaalisen median käyttäjät itse ajattelevat siitä, että aineistoa hyödynnetään tutkimustarkoituksiin • Esim. tuleeko informed consent pyytää aina, vai ainoastaan ei- avoimissa verkkopalveluissa • Aineistoa kerättiin 34 focus group –haastateltavalta • Sosiaalinen media koettiin tilana, joka on lähes aina julkinen ja josta tietoa on vaikea saada pois.
  • 24. Sosiaalisen median käyttäjät ja tutkimusetiikka • Kolmenlaisia käyttäjärooleja: creators, sharers, observers • Riskitietoisuus yleisesti kasvamaan päin, Facebook-kohujen vaikutus? • Huolena yksityisyys, maine, turvallisuus, tiedon laillinen vs. moraalinen omistajuus: omistaako palveluntarjoaja vai viestin kirjoittaja • Lähdeviitteiden käyttö vs. jäljitettävyys, köydenvetotilanteet: jos suora lainaus, anonymisoidun käyttäjän saattaa löytää googlaamalla - tarvitaan fabrikaatiota (Markham, 2012) • Näkemykset käytöstä tutkimustarkoituksiin ”vaihtelevat merkittävästi” skeptikoista hyväksyjiin ja ambivalentteihin
  • 25. Sosiaalisen median käyttäjät ja tutkimusetiikka • Kaiken perustana SAL = Suostumus, Anonymiteetti, Luottamuksellisuus • Kts. myös Kosonen, Laaksonen, Rydenfelt, Terkamo-Moisio, 2018: Sosiaalinen media ja tutkijan etiikka. https://journal.fi/mediaviestinta/article/view/69924 • Palvelujen käyttöehdot tulee kansantajuistaa, mutta vaatisi ihmettä. Käytännön toteutukseen vaikuttaa se • Millaisesta postauksesta on kyse • Millaisessa sosiaalisen median palvelussa se on jaettu • Mikä on konteksti ja tilanne, mitä käyttäjät odottavat • Mikä on tutkimuksen luonne: ei-kaupallinen useimmiten hyväksytään Beninger, 2017
  • 26. Virtuaalinen minä ”Data ei valehtele, mutta ihmiset valehtelevat datalla” Artikkeli käsittelee käyttäjien verkkopersoonaa, maineenhallintaa sekä trollausta ilmiönä Konteksti, konteksti, konteksti! Tutkijoiden on kaikissa tilanteissa huomioitava alustaspesifit sosiaaliset normit ja se, missä palvelussa profiili on luotu.
  • 27. Virtuaalinen minä: tutkijan huoneentaulu Sosiaalinen konteksti - Anonyymi - Tunnistettavat Some-alustan tyyppi - Avoin - Suljettu Verkkomaineen hallinta Self-presentation – strategiat Verkkopersoonallisuus, ml. dark traits Trollaaminen ja sen todennäköisyys 1) Perehdy aiempaan kirjallisuuteen aiheesta 2) Hyödynnä datatriangulaatiota 3) Digital traces: kaikki käyttäjään liittyvä data eri alustoilta ml. metadata 4) Arvioi verkkomaine ja – persoona em. pohjalta
  • 28. Virtuaalinen minä • Tutkimukset osoittaneet, ettei täysin eri minä (vrt. Turkle, 1984), muttei myöskään yksi yhteen IRL-minän kanssa • Anchored relationships (esim. Facebookin ystäväpiiri) vs. anonyymi kanssakäyminen • Introvertit postaavat omalla nimellään ja kasvoillaan vähemmän?! • Kyber-psykopaatit, narsismi: esim. runsaasti statuspäivityksiä (Carpenter, 2012) tai ylikorostaa saavutuksia (Marshall et al., 2015) • On the internet, nobody knows you’re a dog yhä ajankohtainen – big data ei yksinään tajua vivahteita tai vedätyksiä
  • 29. Virtuaalinen minä • Trollaus tärkeä osa nettikulttuuria, valtapelit • Ilmiön yleisyydestä ei tarkkaa tutkimustietoa • Merkitys tutkijalle: mitään viestiä ei koskaan kannata ottaa kirjaimellisesti! • Osa harmitonta, osa käytännössä verkkorikollisuutta ja häirintää Yang, Quan-Haase, Nevin & Chen, 2017
  • 30. Twitter-aineistot ja demografia • Tutkijoiden varta vasten keräämä data vs. naturally occurring data, tutkijan aarrearkku • Artikkelissa kuvataan, millaisia tapoja on yhdistää ainutlaatuiseen Twitter- dataan demografista tietoa, jotta se olisi hyödyllisempää – muutoin emme tiedä, ketkä sanoivat tai tekivät, mitkä väestöryhmät ovat edustettuina jne. • Esimerkki: onko twiittien kieli erilaista niillä alueilla, joilla rikollisuutta on tilastojen mukaan paljon? Ilmentääkö se pelkoa tai uhkaa? Kysymykseen vastaamiseksi twiitit on voitava ensin paikallistaa tietylle alueelle. Lisäksi vain käyttäjien oma sisältö, retweetit on suodatettava pois.
  • 31. Twitter-aineistot ja demografia • Paikka • Alle 1 % Twitterin käyttäjistä paljastaa sijaintinsa • Varavaihtoehtona profiilin Location, ei kuitenkaan välttämättä oikea tieto, epäselvää onko syntymä- vai asuinpaikka jne. • Yahoo Place Finderin avulla tunnistettiin 52 %:ssa tapauksista twiittaajan kotimaa ja pienelle osalle jopa postinumeron tarkkuudella • Ikä • Jää lähes aina piiloon • Facebookista ja blogeista helpompi tunnistaa, language processing • Twitterin profiilitiedoista voi saada suuntaa olettaen että todenmukaista, samoin emojien ja hashtagien käytöstä
  • 32. Twitter-aineistot ja demografia • Sukupuoli • Nimitietokannan avulla neljä kategoriaa: M, F, unisex, ei tunnistettavissa • Esimerkissä noin puolet tunnistettiin, mutta ei tässäkään luotettavaa tietoa • Kieli • Käyttöliittymän kieli, profiilitekstin kieli, twiittisisällön kieli • Käytännössä harvalla vain yksi kieli, entä puhekieli tai murteet • LDLJ: Language Detection Library for Java • Ammatti ja yhteiskuntaluokka • Kohta, joka vaatii eniten ihmistyönä validointia Sloan, 2017
  • 33. Kiinnostavia linkkejä ja vinkkejä osasta 1 • #Fail! The workshop series. Things that didn’t work out in social media research and what can we learn from them. https://failworkshops.wordpress.com/ • Tapor.ca: research tools for studying texts http://tapor.ca/home • Baym, N. 2013. Data not seen: The uses and shortcomings of social media metrics. First Monday, 18(10) http://firstmonday.org/article/view/4873/3752 • Ethics and Information Technology journal https://www.springer.com/computer/swe/journal/10676
  • 34. Osa 2: Datan kerääminen ja säilytys
  • 35. Ajattele ennen kuin keräät dataa • Mitä dataa? Sen tyyppi, laatu ja määrä vaikuttaa kaikkeen. • Yleensä tutkimuskysymys  data, joskus myös data  tutkimuskysymys • Tässä rajaus suoraan sosiaalisesta mediasta kerättyyn dataan ja erityisesti Facebookiin ja Twitteriin, ei esim. käyttäjäkyselyt. Casena Saksan vaalit 2013. • Tutkimus on vasta matkalla kohti hyviä käytäntöjä!
  • 36. Ajattele ennen kuin keräät dataa • Mitkä alustat? Yksi vai monta? • Kriteerit datan valintaan? • Big vai small data? • Mitä dataa jää pois – collection bias?
  • 37. Ajattele ennen kuin keräät dataa • Alustat: usein yksi, vaikka linkittyvät vahvasti toisiinsa • Datan aikajänne: pari tuntia, kuukausi, vuosia • Kriteerejä datan valintaan: user accounts, aiheet, metadata, random • Dokumentoi hakutermit ja kartoita myös rinnakkaiset vaihtoehdot! • Saksan vaalit-casessa >2000 ehdokkaiden käyttäjätiliä, aitous todennettava manuaalisesti. Facebook-analyysi: SODATO, Social Media Data Analysis Tool, Twitter-korpukselle Tweet Observer. Soveltuvin osin dataa myös julkaistiin avoimena. Mayr & Weller, 2017
  • 38. Datan prosessointi • Kuvaa kolme yleispätevää vaihetta, kaikenlaiselle datalle • Modelling • Cleaning • Transformation • Fokus verkostoanalyysin valmistelussa: kuinka toimijat ja sisällöt kytkeytyvät yhteen • Case Twitter ja Pariisin terrori-iskujen 40k twiitin testiaineisto
  • 39. Datan prosessointi • Mallinnuksessa tunnistetaan datan rakenne ja merkitys. Tuloksena tuotetaan malli, skeemadiagrammi. Avoimen lähdekoodin SylvaDB, johon voi mallin luotuaan tuoda aineistoa esim. CSV- tai XML-muodossa. • Käsitteelliset, loogiset ja fyysiset mallit • Datamallin osat ovat yksiköt (entities, nodes), suhteet (relationships, associations) sekä näiden molempien ominaisuudet (attributes) • Esimerkiksi Twitterissä yksiköitä ovat twiitit ja käyttäjät. Ominaisuuksia ovat esimerkiksi yksilöivä id ja käyttäjän sijainti. Esimerkkejä suhteesta: user tweets tweet, tweet references user.
  • 41. Datan prosessointi • Cleaning-vaiheessa esimerkkinä OpenRefine –työkalu. Poistetaan epäjohdonmukaisuudet, puuttuvat kohdat, duplikaatit jne. korvaten arvot uusilla. • Casessa tuotettiin Pariisin iskujen aineistosta clean text field: kaikki erikoismerkit, URLit, RT-maininnat poistettu OpenRefinellä tekstin sisällönanalyysia varten, esim. value.replace{/RTs/, ””) • Transformation-vaiheessa input-parsing-output. Aineiston osittaminen, jolloin helpompi analysoida ja käsitellä. Suoraan APIn kautta (REST), simppeli tekstitiedosto tai DBMS ja esim. Python-kirjastot. Brown, Soto-Corominas, Suárez & de la Rosa, 2017
  • 42. APIt ja data sampling • Application Programming Interface, tapa jolla eri ohjelmistot ”keskustelevat” ja vaihtavat tietoja keskenään; kuvailtu digimaailman yhteenliittäväksi liimaksi, mutta pikemminkin dynaaminen ja mahdollistaa yhteentoimivuuden • APIt nykyään olennainen osa scientific toolboxia, tietoisuus lisääntynyt muuallakin kuin it-ammattilaisten parissa • Palvelujen käyttöehdot: ”APIs ok, web scraping often sued”
  • 43. APIt ja data sampling • Yleinen API-sanasto mm. • Protokollat: SOAP ja REST (JSON, XML) • Omat endpointit eri tietotyypeille • Keys/tokens • Resource of request URL • Sovellukset, apps • Pääsyrajoitukset ja autentikointi, de facto –standardi OAuth • Facebook: Graph API, hyvin rajallisesti tietoa, RFacebook -esimerkki • Twitter: REST, Streaming API kautta uusimmat Janetzko, 2017
  • 44. Datan elinkaari ”The challenge for acquiring, using and preserving social media data lies in capturing enough content to provide meaning but also finding practical solutions to managing such large, diverse, and interlinked material.” Dataa on kaikkialla – tämä ei kuitenkaan ole laadun, saatavuuden, käytettävyyden tai hyödyllisyyden synonyymi! Luvun inspiraationa toiminut Data Curation Model, Higgins, 2012. Kts. http://dcc.ac.uk ja http://DMPOnline.dcc.ac.uk
  • 45. Datan elinkaari • Sosiaalisen median data on haurasta. Jos dataa ei kuratoida, siitä tulee helposti ”dark data” – ei muun tiedeyhteisön saatavilla, vaikea hyödyntää, katoaa myöhemmin tutkijan henkilökohtaisten tiedostojen mukana • Datan hankinta 1. APIt, myös näiden versiot dokumentoitava ja arkistoitava muun datan mukana 2. Automaattinen tai manuaalinen scraping – jälkimmäinen on työlästä ja vain pienille aineistoille, esim. web-sivujen tallennus, kuvakaappaukset, copypaste 3. Ostettu data, esim. GNIP, DataSift, DialogFeed. Myyjien tulisi myös tarjota lisenssejä kuratoituun dataan. 4. Analytical platforms, esim. Sysomos MAP, Social Bakers – ei halpaa ja menetelmissä voi olla epäselvyyksiä
  • 46. Datan elinkaari • Kolmenlaista säilyttämistä • for data processing • for disaster recovery, back-up • for archiving, long-term preservation • Metadata uudelleenkäytön mahdollistamiseksi • Flat file, indeksoitu (Lucene, Solr), RDMS, NoSQL-ratkaisut. Arkistoitaessa mieluiten flat file ja metadata oheen myös tiedostona, ei esim. tiedoston nimessä! JSON ok, sosiaalisen median metadatan standardit puuttuvat. • Säilytyksen IPR ja eettiset kysymykset, vrt. aiempi luku tutkimusetiikasta Voss, Lvov & Thomson, 2017
  • 47. Qualitative E-Research Framework • Holistinen kokonaisuus laadullisen tutkimuksen suunnitteluun, lähteenä Salmons, 2015, 2016 • Alustojen yleiset ominaisuudet, ei tietyt some-brändit • Kvalin etuna ”more than data”: kysytään tarkentavia kysymyksiä, osallistutaan toimintaan, mahdollistetaan syvempi ymmärrys • Kolmentyyppistä dataa • Extant – muiden luomaa ilman tutkijan erillistä pyyntöä • Elicited – pyydetään vastauksia, näkemyksiä, tarinoita jne. • Enacted – tutkija on itse tuottamassa dataa, esimerkiksi osana peliympäristöä
  • 48. Tutkijan huoneentaulu yleisön informointiin • Esittele itsesi uskottavana tutkijana. Luo oma sivu, blogi tai esittelyvideo, jossa linkität virallisen instituution tai projektin sivuille. • Kerro, miksi tutkimus on tärkeä ja mitä siihen osallistuminen edellyttää. • Kuvaa yleisön saamaa hyötyä, ei omia tarpeitasi! Vältä tiedejargonia. • Kirjaa selkeästi näkyviin, miten osallistujien yksityisyys ja tiedot suojataan, miten ja kuka dataa käyttää, ja missä tulokset julkaistaan. • Muistuta osallistujia, että tutkimuksesta voi koska tahansa vetäytyä. • Pidä osallistujat ajan tasalla koko tutkimusprosessin ajan.
  • 49. Muokattu ja käännetty kuvasta Salmons, 2017, s. 180 Qualitative E-Research Framework Tavoite ja asetelma Tutkijan positio: sisällä vai ulkopuolella Metodit: 3 datatyyppiä ICT ja miten viestitään Otanta ja rekrytointi Eettiset kysymykset Datan keruun toteutus Analyysi ja raportointi Ketkä voivat tarjota tarvittavan tiedon? Osallistujat nimeävät uusia osallistujia vs. ennakkovalinnat. Moderaattorit tukena. Tutkijan oma läsnäolo yhteisössä, luottamus. Lähtökohta: luodaanko vai sovelletaanko teoriaa? Vrt. SAL: suostumus, anonymiteetti, luottamuksellisuus. Kts. edellinen slide tutkimuksesta tiedottamisesta.
  • 50. Kiinnostavia linkkejä ja vinkkejä osasta 2 • Social Data Analytics Tool: http://cssl.cbs.dk/software/sodato/ • Datan mallintaminen: http://www.sylvaDB.com • Datan siivoaminen: http://openrefine.org/ • Big datan laatuun liittyvää kritiikkiä kts. six provocations Boyd & Crawford, 2012, ethical challenges Zimmer, 2010, lack of replicability Bruns 2013, changing nature of platforms Tinati et al. 2014, changes in user behavior Lazer et al. 2014 • Hoeren et al. 2013. Legal aspects of digital preservation. Cheltenham: Edward Elgar Publishing. • Redwine, G. 2015. Personal digital archiving. DPC TechWatch Report 15-01. Digital Preservation Coalition. doi: 10.7207/twr15-01
  • 51. Osa 3: Kvalitatiivisia lähestymistapoja
  • 52. Datan sakeuttaminen • Huom! Oma vapaa käännös thickening –strategiasta • Kytkeytyy digitaalisiin jälkiin – kaikki mahdollinen tieto käyttäjästä • Tällä tavoin jo 20-30 käyttäjäprofiilia voi olla rikas aineisto, huomio kuitenkin työmäärään ja aikaan, ei absoluuttiseen määrään • Juuret etnografiassa: dense, detailed, less breadth, more depth • Artikkeli kritisoi ”positivistis-empirististä uskoa siihen, että big data = direct access to social reality”, sen sijaan ”carefully cooked data” • Oma tulkinta: sakea data vs. big data = valmis lautasellinen keitettyä spagettia vs. kuorma-autollinen kuivia herneitä Kirjallisuus: Geertz 1973, Stake, 1985, virtual etnography Hine 2000, 2015, netnography Kozinets, 2010
  • 53. Datan sakeuttaminen Artikkeli esittelee 3 sakeuttamisen strategiaa 1. Trace –haastattelut: metadiskurssi tietyn käyttäjän digitaalisesta jalanjäljestä, mitä, miksi ja miten sisältöä luotu, suora vuorovaikutus tukee eettisempää tutkimusta ja herättää luottamusta, co-analysis 2. Manuaalinen aineiston keruu: esim. kuvat ja kommentit, tarpeen erityisesti kun tutkitaan useita kanavia rinnakkain 3. Pitkäaikainen ketterä observointi: transplatform fashion, connective etnography, ketteryys tarpeen koska liikutaan sujuvasti palvelusta toiseen – twiitataan blogikirjoitukset, jaetaan instasisällöt Facebookissa jne.
  • 54. Datan sakeuttaminen • Esimerkki 1: co-analysis semistrukturoiduilla haastatteluilla, commented visit, casena opiskelijoiden lakon Fb-kommentit • Esimerkki 2: working out loud, miten ihmiset kertovat työstään Twitterissä, aineisto vain 200 twiittiä • Esimerkki 3: miten kanadanranskalainen kielivähemmistö käyttää somea poliittisessa vaikuttamisessa, 2,5 v havainnointijakso Latztko-Toth, Bonneau & Millette, 2017 Tiedon konteksti Kuvaus käytännöistä Käyttäjien kokemukset Metadata AINEISTOSIPULI
  • 55. Visuaalisuus sosiaalisessa mediassa • Visuaalisuusartikkeli ilman yhtäkään kuvaa • Miten kuvallinen sisältö luodaan, miten sitä käytetään ja miten se tulkitaan – sense- making, creating meaning • Visuaalisessa kulttuurissa kuva ei koskaan ole ”tyhjä taulu” irrallaan muusta todellisuudesta • Tutkimuskohteena alusta jossa jaetaan, kuva itsessään, yleisö eli tykkäykset, jaot ja kommentit • Esimerkkinä selfiet: Instagramissa kuvankorjaus rutiinia, Twitterissä jaetaan spontaaneita hetkiä, kulttuuri määrittää missä soveliasta ottaa
  • 56. Visuaalisuus sosiaalisessa mediassa • Presentism: sisällön nykyhetkisyys on kuvien analysoinnin haaste, eli sama ongelma, joka on sosiaalisen median arkistoijilla – konteksti ja yhteydet puuttuvat • Artikkeli ei pääse alkua pidemmälle eli esitä ratkaisuja ongelmiin; yleiskuvausta visuaalisuuden merkityksestä ja suurista tietomääristä, jotka ovat itsestäänselvyyksiä sosiaalisen median käyttäjille • Hyviä huomioita big data –aineiston ja kvalitatiivisen kuljettamisesta rinnakkain tutkimuksessa Hand, 2017
  • 57. Ei-tekstuaalisen datan koodaaminen • Kuvat, videot, musiikki, kaaviot, pelit, kartat, maalaukset • Merkittävä osa sosiaalista mediaa, jonka vuoksi menetelmäkehitystä tarvitaan lisää ja yhdistettävä tekstuaaliseen • Musiikki yksi vaikeimmin analysoitavista sisällöistä – esimerkkinä last.fm ja emootio-tagit • Sisällönanalyysi määrällisenä tai laadullisena, kaksi tai useampi koodaa • Laadullisessa induktiivisesti datasta nostaen, Exhaustive, Exclusive & Useful codes • Määrällisestä esimerkkinä eläinkuvat: 100 kuvan aineistossa koiria 42:ssa ja kissoja 37:ssa, ja neljäsosassa kaikista kuvista on mukana myös ihminen tai ihmisiä
  • 58. Metodi Lähteet Compositional interpretation Rose, 2012 Määrällinen sisällönanalyysi Bell, 2001, Banks, 2007, Rose, 2000, Rose, 2012 Laadullinen sisällönanalyysi Julien, 2008, Mayring, 2000 Dokumenttianalyysi Prior, 2008, Saumure & Given, 2008 Videografia Knoblauch & Tuma, 2011 Musiikinanalyysi Bauer, 2000 Kulttuurintutkimus Lister & Wells, 2001 Visuaalinen sosiologia tai antropologia Collier, 2001, Pauwels, 2012 Semioottinen analyysi Penn, 2000 Ikonografia Müller, 2011 Diskurssianalyysi Van Leeuwen, 2008 Visuaalinen sosiaalinen semiotiikka Jewitt & Oyama, 2001 Multimodaalinen tutkimus Iedema, 2003 Multimodaalinen etnografia Dicks et al., 2006 Rasmussen Pennington, 2017, s. 235
  • 59. Twitter metodina • Otsikko hämäävä: lähinnä kuvaus siitä, miten Twitter toimii osana etnografista tutkimusprosessia, kirjoittajan oman väitöksen esittely • Soveltuu hyvin situated knowledges –tutkimukseen, omat valtarakenteet, resurssit ja lokaatiot • Välinearvoa hakevat visitors vs. residents, White & LeCornu, 2011 • Tuottaa akateemisille ”visibility, care, vulnerability”, tutkimus institutionaalisen roolin ja avoimesti verkottuneen roolin suhteesta • Tutkija tavoitti Twitterin kautta nopeasti osallistujia, jatkuva vuorovaikutus tutkittavien kanssa, avoin koodaus, lopulta 14 osallistujaa • Metodeissa profiiliarviot kiinnostava yksityiskohta: ”Seuraisitko tätä käyttäjää? Miksi, miksi et?”
  • 60. ”Experiments in new genres of scholarship and dissemination are occurring in every field, but they are taking place within the context of relatively conservative value and reward systems that have the practice of peer review at their core.” ”Even when digital practices were considered within the academy, they were seldom taken up on their own terms but rather as shadows of conventional practices.” Harley et al., 2010, p. 13, Stewart, 2017, p. 253
  • 61. Small stories -tutkimus • Artikkelissa kuvataan vaihtoehto perinteiselle narratiivikäsitykselle, joka korostaa ”pitkiä” kertomuksia ja tekstuaalista muotoa • Sopii sosiaalisen median tutkimukseen hyvin, koska sen tarinat • fragmentoituneita • tietyn alustan tai palvelun rajat ylittäviä • epälineaarisia, ei selkeää alkua, keskikohtaa ja loppua • yhdessä tuotettuja • suoraan arkipäivästä, naturalistic stories • Kaksi avainkäsitellä narrative stancetaking ja rescripting, jälkimmäistä esim. kuva- ja videomanipulaatiot, meemit • Kolme toisiinsa kytkeytyvää analyysitasoa: kerronnan tavat, paikat ja kertojat Georgakopoulou, 2017
  • 62. Kiinnostavia linkkejä ja vinkkejä osasta 3 • Tools for social media data http://truthy.indiana.edu/tools/ • Context collapse erityisesti Twitterissä, kts. Marwick, A. & boyd, D. 2011. I tweet honestly, I tweet passionately: Twitter users, context collapse, and the imagined audience. New Media & Society, 13(1), 114-133. • Harley, D., Acord, S., Earl-Novell, S., Lawrence, S. & King, C. 2010. Assessing the future landscape of scholarly communication: An exploration of faculty values and needs in seven disciplines. Center for Studies in Higher Education, UC Berkeley. • Stewart, Bonnie, 2015. Scholarship in abundance: Influence, engagement, and attention in scholarly networks. PhD thesis. Myös lukuisia muita julkaisuja sosiaalisen median verkostoista tieteessä ja korkeakoulutuksessa, kts. http://bonstewart.com/sample-page/
  • 63. Osa 4: Kvantitatiivisia lähestymistapoja
  • 64. Geospatiaalinen analyysi • Somen myötä kansalaisista on tullut geodataa tuottavia ”sensoreita” • Ei kuitenkaan primääriä geodataa, ihmiset ja yhteisöt huomioitava aina • Analyysin taustalla maantiede ja geomaantiede, mutta myös informaatiotieteet, sosiaalitieteet ja visuaalinen analytiikka, esim. sosiaalisen verkoston topologia sijoitettuna kartalle • Datan hankinta, otanta, geokoodaus ja analyysi • Datan attribuutit natural ja cultural, esim. vuoret ja järvet vs. rakennukset • Some-dataa kahdessa muodossa • Footprints, geospatiaaliset koordinaatit • Tekstuaalinen, esim. ”Helsinki”, ”00100”, ”GMT +0200”
  • 65. Geospatiaalinen analyysi • Geoparsing, geocoding, disambiguation • Staattiset vs. interaktiiviset kartat ja mash-upit: Google Maps, OpenStreetMap – ei ainoastaan varastoida vaan rakennetaan tietoa • Lähtökohtana usein exploratory analysis, arvioidaan koko data suhteessa paikkaan ja aikaan, tunnistetaan ja vertaillaan osayhteisöjä • Aineiston luokittelusta esimerkkinä kvantiilimetodi • Voronoi –diagrammit, ”largest empty circle”, esim. analyysi kulkutaudin leviämisestä tai etsitään optimaalinen sijainti uudelle kivijalkakaupalle • Standard Deviational Ellipse, jakauman suunta esiin • Monet analyysityökalut vasta protoja • Kts. GeoTime.com, nspace2 Buchel & Rasmussen Pennington, 2017
  • 66. Verkoston keskeisyyden pragmatiikkaa • Keskeisyys = tietyn toimijan eli noodin tärkeys verkostolle • Analyysi auttaa ymmärtämään sosiaalisia rooleja, ennustamaan ihmisten käyttäytymistä ja viime kädessä luomaan parempia some-palveluja • Verkoston kaksi avainkriteeriä shape ja reach, noodien ominaisuudet vs. koko verkoston ominaisuudet: koko, tiheys, topologia • Eri määrittelytavat esillä: eroja topologia ja jäsenten vuorovaikutuksen tapa • Mitkä noodit ovat kriittisimpiä koheesiolle ja tiedonkululle? Esim. betweenness centrality • Mitkä noodit ovat lähimpänä verkoston muita noodeja? Esim. closeness centrality • Mitkä noodit ovat vahvimmin kytkeytyneet ympäristöön, kuten tiettyyn maantieteelliseen alueeseen? Esim. clustering coefficient • Mitkä noodit välittävät tehokkaimmin tietoa eri verkostojen välillä?
  • 67. Verkoston keskeisyyden pragmatiikkaa • Artikkelin fokus Fb, jossa verkostosuhde molemminpuolinen; undirected, unweighted • Perusongelmana 3. osapuolen data • Betweenness työläs etenkin isolla datalla, sosiaalisessa mediassa usein arvio • Noodin tärkeyden arvioinnissa (Borgatti, 2005) eri päämääriä: esim. closeness siihen kuinka nopeasti tieto liikkuu, betweenness pullonkaulojen ja portinvartijoiden tunnistamiseen Ghajar-Khosravi & Chignell, 2017
  • 68. Ennustava analytiikka • Ennustava vs. selittävä analytiikka: yhteydet selitettävien muuttujien välillä vs. kausaalisuhteet käsitteiden välillä • Teoria- vs. dataohjautuvat mallit, datan etukäteisprosessointi • Aikasarjat, cross-sectional, näiden yhdistelmät • Facebookin ja Twitterin dataa on käytetty muun muassa myyntituottojen ennustamiseen ja epidemioiden leviämisen ennakointiin • Datan frekvenssi olennaisen tärkeä: jos myyntiluvut kk-tasolla, somelle tyypilliset muutaman päivän piikit jäävät piiloon
  • 69. Ennustava analytiikka • Artikkeli taulukoi 38 esimerkkiä tutkimuksista, joissa on ennakoitu sosiaalisen median datalla – mukana on kaikkea tuotemyynnistä politiikkaan ja influenssaan, sydänkohtauksiin ja itsemurhiin • Datan riittävyys: analytiikka onnistuu tyypillisesti vain isoille kuluttajabrändeille, kuten Apple, Nike, H&M, Pepsi, Starbucks… ei esim. pankki- ja vakuutusalalla, logistiikassa tai arkisille kuluttajatuotteille • iPhone ja H&M –esimerkeissä lisähaaste kiinalaisten oma sosiaalinen media • Stock prizes: Twitter ja Google Trends • Ihmisten käyttäytyminen ja brändisuhteet: Facebook • YouTuben ja Instagramin analyysi kasvusuunnassa Buus Lassen, la Cour & Vatrapu, 2017
  • 70. Huijausten tunnistaminen • Artikkelin fokuksessa kaiken vale –alkuisen automaattinen tunnistaminen ja suodatus: valeuutiset, huhut, feikkiprofiilit, tietojen kalastelu jne., tutkijalle myös osa datan laatua • Valitettavasti tässäkin keskitytään yksinomaan tekstiin • Esittelee faktantarkistuksen ja tiedon verifioinnin menetelmiä ammentaen lingvistiikasta ja journalismista • Kokonainen A4 kriteerejä blogin luotettavuuden arviointiin  • Ihmisten tietoisuus sosiaalisen median subjektiivisuudesta on hyvä, mutta tiedon manipuloinnin systemaattisuus edelleen yllätys monille • ”Haluamme uskoa asioiden olevan totta”
  • 71. Huijausten tunnistaminen 4 totuudellisuuden maksiimia (Grice, 1975) – huoneentaulu sosiaaliseen mediaan? 1. Maxim of Quality: sano vain sellaista minkä uskot olevan totta 2. Maxim of Quantity: sano vain sen verran kuin on tarpeen 3. Maxim of Relevance: pysy aiheessa 4. Maxim of Manner: vältä epämääräisyyttä
  • 72. Huijausten tunnistaminen • Tulkittava aina myös viestien kontekstia, ei pelkkää sisältöä: miten sanoma esitetään, kuka esittää, ja missä tilanteessa • Ihmiset eivät koeasetelmissa erota valheita todesta silloinkaan kun he tietävät, että heille saatetaan valehdella! • Tunnistamme noin 50-65 % valesisällöstä valheeksi • Koneet pystyvät noin 70-75 % tarkkuuteen • Valesisällössä • Enemmän aistipohjaisia verbejä – nähdä, kuulla, tuntea (Hancock et al., 2007) • Pronominit other-oriented, ei minä (Hancock et al., 2007) • Yksinkertaisempi sanasto ja lauserakenne (Burgoon et al., 2003) • Epämääräinen, epätäsmällinen ilmaisu (Burgoon et al., 2003) • Paljon negatiivisia tunteita (Newman et al., 2003) tai puhuttuna yltiöpositiivinen ilmaisu (Larcker & Zakolyukina, 2012)
  • 73. Huijausten tunnistaminen • Viisi menetelmää tekstihuijausten tunnistamiseen (Zhou et al. 2004) • Criteria-Based Content Analysis (CBCA) • Reality Monitoring (RM) • Scientific Content Analysis (SCAN) • Verbal Immediacy (VI) • Interpersonal Deception Theory (IDT) • Useimpien sovellusten taustalla LIWC eli linguistic inquiry and word count, kirjoittajan oma mittari: Veracity Roadmap • Hybridiratkaisut suositeltavia: tekstianalyysi, verkostoanalyysi, world knowledge databases Rubin, 2017
  • 74. Huhua vai totta – Twitter-esimerkki Kategoria Ominaisuus Lähteen uskottavuus Luotettava uutislähde vs. parodiatili Uutisen url Profiilin domain Client application Lähteen identiteetti Profiilissa on oikein henkilön nimi Profiililla on sijainti Profiilissa on tietoa henkilön taustoista Lähteen diversiteetti Monipuolinen sisältö Saman aiheen twiiteissä eri sanamuotoja Lähteen sijainti ja todistusvoima Twiitti samassa paikassa kuin huhun kohteella Profiilin sijainti samassa paikassa kuin huhun kohteella Todentavat lauseet, ”näin”, ”kuulin” Viestin sävy Tukee, kieltää, kysyy tai on neutraali Tiedon leviäminen Tapahtuman aihe, uudelleentwiittaukset, maininnat, hashtagin h- index, graph4 size/depth Käännetty lähteestä Liu et al., 2015, viitattu Rubin, 2017, s. 352
  • 75. Kiinnostavia linkkejä ja vinkkejä osasta 4 • ESRI: GIS mapping software https://www.esri.com/en-us/home • Edellä ArcGIS, kts. myös open source Geographic Information System QGIS https://qgis.org/fi/site/ • One Million Tweet Map, twiitit kartalla http://onemilliontweetmap.com • Botometer, aiemmin BotOrNot https://botometer.iuni.iu.edu/#!/ • Rieh, S. 2010. Credibility and Cognitive Authority of Information. In Bates, M. (ed.), Encyclopedia of Library and Information Science. New York. Taylor & Francis.
  • 76. Osa 5: Erilaisia/sekalaisia lähestymistapoja sosiaalisen median dataan
  • 77. Sivustospesifi vai hyperlokaali? Paikan ilmentymät sosiaalisessa mediassa • Miten fyysinen paikka tuodaan somessa esille – tässä ihmisten omien kokemusten ja niiden moninaisuuden kautta, ei vain koordinaatteina • Artikkeli on risteytys digitaalista humanismia ja taiteen analyysia • Hyperlokaalissa informaatiossa automaattisesti mukana paikkatieto ja aikaleima • Casena katutaiteilija Banksyn projekti lokakuussa 2013 • taiteilija loi joka päivä uuden teoksen eri puolille New Yorkia • tieto sijainnista levisi viraalisti somessa • analyysin kohteena 28 400 Instagram-kuvaa tunnisteilla #banksy ja #banksyny • kuvasisältöjen klusterointi, konenäkö apuna • samantyyppinen sisältö ryhmiteltynä esim. temporal, visual ja spatial – ulottuvuuksien kautta Hochman, 2017
  • 78. Muut datalähteet sosiaalisen median rinnalla • Datan luonne, haasteet ja mahdollisuudet  mixed methods • Somessa yhdistyy data found vs. data made • ”Kilpajuoksu big datassa on jo hävitty Googlelle ja Facebookille”, sen sijaan laadullinen tutkimus small datalla onnistuu – ja voi kertoa paljon • Hyvin käytäntölähtöistä! Kontekstin löytäminen datalle. Esim. pöhinä Twitterissä ei kerro paljoa, myös sen laatu on selvitettävä • Tässä erityisesti some tutkimusinstrumenttina, ei -kohteena • Casena Greenpeacen avoin Facebook-ryhmä • analyysin kohteena sekä teksti että kuvat • pelkästään sanoja 2,7 milj., tilastollinen tekstianalyysi: frekvenssi, avainsanat • kuvien kommenttien laadullinen sisällönanalyysi Zeller, 2017
  • 79. Tutkimuskysymys Hypoteesit Tutkimusasetelma ja metodit Datan keruu Analyysi Tulokset Laajennettu empiirinen tutkimusprosessi Zeller 2017, alkuperäinen lähteestä Bryman et al. 2012 Data retrieval Parsing Data storing Queries
  • 80. Laajennettu empiirinen tutkimusprosessi • Data retrieval: APIt, valmiit työkalut ei-ohjelmointitaitoisille, myös web crawlers & scrapers tietyn teemaan tai sivustokokonaisuuteen liittyvän sisällön seulomiseen • Data processing/parsing: datan läpikäynti ja siivoaminen, vain relevantit osat, konvertointi käyttökelpoiseen muotoon • Esimerkiksi verkostoanalyysissa ei twiittien sisältöä • Esimerkiksi automaattisessa sisällönanalyysissa twiiteistä URLit pois, koska niissä esiintyvät sanat voivat vääristää tuloksia • Data storing ja Queries: vaiheet rinnakkain, koska säilytysmuoto vaikuttaa siihen, miten tietoa voidaan hakea • Esimerkiksi relaatiotietokannat • Myös hakujen testaus mahdollisimman varhaisessa vaiheessa Zeller, 2017
  • 81. Sonifikaatio • Sonifikaatio on datan konvertointia ääneksi • Temporaalisuus: aikaleimallinen data soveltuu erinomaisesti trendien ja vuorovaikutuskuvioiden tutkimiseen • Poikkeamat on helpompi havaita äänestä, myös maallikoiden • Eksploratiivinen analyysi, ei hypoteesien testausta; analyysi ryhmän, yksilön tai dyadin tasolla, tai näiden yhdistelmät
  • 82. Sonifikaatio • Työkaluja toistaiseksi vähän ja vain harva tutkija tuntee menetelmän • Max/MSP, SuperCollider ja muut syntetisoijat • Sonification Sandbox, E-Rhythms Data Sonifier • Laatukriteerit: objective, systematic, reproducible, sets of different data • Millaista on kuunnella sosiaalista mediaa? Saksassa #tweetscapes – projektissa muutettiin twiitit ääneksi, kts. esittelyvideo: https://www.youtube.com/watch?v=0lKSFlB_-Q0 • Esim. osakemarkkinadata, Ballora et al. 2012 • Artikkelissa casena txt-viestit ja vuorovaikutuskäytäntöjen tutkiminen • osallistujia 77, noin 11 000 viestiä, kaikkiaan 149 henkilön kesken • taustaoletusten vastaisesti tutkimus osoitti, että perheenjäsenten kesken viesteihin vastataan hitaammin kuin kollegoiden tai kavereiden, vrt. Walther & Tidwell, 1995 Jamieson & Boase, 2017
  • 83. Innovatiiviset paikkatietoiset mobiilipalvelut • Esittelee MUGGES-projektia – Mobile User Generated Geo Services • Living lab –lähestymistapa • Survey ja log data yhdistettynä palvelun todelliseen käyttöön • Fyysinen, symbolinen ja semanttinen paikkatieto • Avainsanojen liittäminen tiettyyn paikkaan ja näin syntyvän informaation jakaminen muille joko avoimena tai vain kavereille • Mugglets: muistiinpanot tietystä paikasta (notes), näistä muodostuvat mash-upit (journal, trail, race) • Koekäyttäjät pieni joukko it-ammattilaisia Bilbaosta ja Espoosta (VTT), jälkimmäisestä ei kuulemma löytynyt tutkimukseen yhtään naisosallistujaa  • Löydökset eivät välttämättä kovin hyödyllisiä muille kuin palvelun kehittäjille: perus- TAM eli koettu hyödyllisyys ja käytön helppous, kellonajan ja sään vaikutus, pieni ydinjoukko tekee eniten, käyttö alussa aktiivisinta, useita metodeja tarvitaan Klein & Reips, 2017
  • 84. Osa 6: Tutkimuksen ja analyysin työvälineet
  • 85. COSMOS – Collaborative on-line social media observatory • Artikkeli esittelee vuonna 2015 päättyneen projektin ja tieto on ollut jo kirjan julkaisuhetkellä osin vanhentunutta – cosmosproject.net sijaan kts. http://socialdatalab.net/COSMOS • Collect, mash & visualize social media data • Projektin perusteet eivät toki vanhene • Tarve helppokäyttöisille työkaluille, joita yhteiskuntatieteilijät voivat hyödyntää ilman ohjelmointiosaamista, monimutkaisuuden sijaan huomio siihen mitä data voi kertoa • ”Kaikkea ei pidä jättää computer scientistien varaan” • Big data –skaalautuvuus ongelma: Cosmoksen HCP-pilotissa Hadoop ja MongoDB • Myös analyysin algoritmit mahdollisimman läpinäkyviä, kriittinen tarkastelu • Vaivattomasti yhdistettävissä muihin datoihin, esimerkkinä UK Census • Eettisiä haasteita käsitelty peräti yhden palstan verran, käyttöopasta 20 sivua  • Esimerkiksi geodatan ”tihentymä” kartalla voi paljastaa kotiosoitteen
  • 86. • Kolme käyttöliittymän perusosaa: Data Set Library, Data View Library ja Workspace • Eri formaatit ja yhteensopivuus muiden analyysityökalujen kanssa • RSS-syötteet, CSV-tiedostot, twiitit • Twitterin stream-data (1 %), random tai filtered • Visualisointiin 10 perustyökalua ja näiden yhdistelmät, esim. sanapilvi twiiteistä, paikannus kartalle ja frekvenssidiagrammit • Shapefile –mash kiinnostava: väritetään karttapohja census –tiedoilla, esim. työllisyysaste maassa alueittain, ja sijoitetaan tietyn ajanjakson tai tapahtuman twiittien sentimenttianalyysi suoraan tämän kartan päälle COSMOS – Collaborative on-line social media observatory Morgan, 2017
  • 87. Social Lab – avoimen lähdekoodin ’Facebook’ • http://www.sociallab.es • Tutkimus kaupallisilla SNS-alustoilla hyvin rajoittunutta – siksi luotu klooni, laboratorioympäristö jossa Facebookin perusominaisuudet • Simulointia ja stimulointia • Sosiaalisten bottien luominen helposti • Koulutuskäyttö: yksityisyydenhallinnan opettelu bottien avulla • Eksperimentit: esim. jaetaan ihmiset satunnaisiin verkostoihin ja tutkitaan vuorovaikutuksen luonnetta, tällaista tutkimusta on vähän • Myös havainnointi, verkostoanalyysi, kyselyt, haastattelut, osin automatisoiden Reips & Garaizar, 2017
  • 88. R ja sosiaalisen median analyysi • Koko data scientistin työnkulku: getting, cleaning, testing, showing • Ei helpoin mahdollinen, mutta tunnetusti monia etuja • Ilmainen, joustava • Vahva kehittäjäyhteisö • Tools for text mining, data manipulation, visual analysis • Handbook-tyyppinen konkreettinen esimerkki Kalifornian alueen twiittien aiheista ja teemoista tietyllä ajanjaksolla kartalle sijoitettuna • Ei mielekästä kopioida tähän yhteenvetoon – jos tunnet R:n perusteet, kokeile itse esimerkkiä seuraten! (Note: allekirjoittaneelle jo datan indeksointivaihe aiheutti masennuskohtauksen) Hegelich, 2017
  • 89. GATE – open source NLP-työkalu Ennen luvun varsinaista sisältöä muistutuksena perussanastoa • Ontologia = käsitteet ja käsitteiden väliset suhteet • Korpus = kokoelma: järjestelmällinen ja laaja koonti näytteitä luonnollisesta kielestä, tekstejä tai puhutun kielen nauhoitteita • Annotaatio = merkintä: järjestelmälliset merkinnät tietyistä aineistokohdista, esimerkiksi lauseiden kieliopillinen jäsennys • NLP = Natural Language Processing, koneellista luonnolliseen kieleen pohjautuvan datan käsittelyä ja analysointia • NER = Named Entity Recognition, menetelmiä, joilla etsitään henkilöihin, paikkoihin ja tapahtumiin viittaavaa sisältöä aineistosta ja annotoidaan ne
  • 91. GATE – open source NLP-työkalu • Koko elinkaari: korpukset, lingvistiikan työkalut (eri kielet, POS eli part of speech - taggaus, NER, entity linking), semanttinen haku, visuaalinen analytiikka • GATE Developer, Teamware, M’imir, Cloud; fokus mikroblogeissa, Twitter • Kirjoittajan mukaan haastavin NLP: lyhyitä tekstejä, monia merkityksiä, kielen variaatiot ja leikittely, nimistä usein vain yksi maininta • Pelkkä tviittitekstien analyysi johtaa siksi huonoihin tuloksiin, konteksti huomioitava, JSON metadata • ANNIE  TwitIE • Tokenisation (tekstin jakaminen yksiköiksi, somessa esimerkiksi URLit, hashtagit, maininnat, vakiolyhenteet, hymiöt, emojit) tehtävä laadukkailla työkaluilla, ”kaksoispiste voikin olla hymiön osa” • Indeksointi: M´imir mahdollistaa semanttiset haut Bontcheva, 2017
  • 92. Netlytic datan kerun ja analysoinnin työvälineenä • Pilvipohjainen some-analyysiratkaisu erityisesti tutkijoille, kts. https://netlytic.org, Social Media Lab, Ryerson University • Artikkelissa casena Euromaidan 2014, Twitter-viestintä ja sen mahdolliset erot erikielisessä aineistossa: ukraina, venäjä, englanti. ENG enemmän yleistä tiedonjakoa ja vähemmän vastavuoroista, korostettiin idän ja lännen konfliktia. • Myös muita kuin Netlytic esitelty, Social Media Labin sivuilla tarkemmin • Foller.me, Twitterin käyttäjätileistä taustatietoa • NodeXL, vanha tuttu verkostoanalyysiratkaisu • Tweet Archivist, maksua vastaan, lataa tai arkistoi myöhemmin, Twitter ja Insta • NCapture add-on Nvivoon, tekstin analysointi ja visualisointi, mm. Twitter, Fb, YouTube • Webometrics Analyst, mm. Twitter, YouTube, Mendeley, yhteydet kommentoijien välillä • Textexture, verkoston tekstien visualisointi • STACK, SOCRATES, SocialTap, DMI-DCAT ja muut OS-työkalut
  • 93. Netlytic datan keruun ja analysoinnin työvälineenä • Jo vuodesta 2006, tuolloin keskustelufoorumien dataa • Twitter, Fb, Insta, YouTube, RSS-feed, cloud storage, csv-tiedosto • Rinnakkain tekstianalyysi, verkostoanalyysi, visualisoinnit • Sanapilvet • Stacked chart, termien esiintyvyys aikajanalla • Concept coding • Distributed Recursive Graph Layout (DrL), Fruchterman & Reingold (erityisesti alle 1000 noodin verkostoille), Large Graph Layout Gruzd, Mai & Kampen, 2017
  • 94. Teemojen tunnistaminen sosiaalisesta mediasta • Discursis, Leximancer  visuaalinen tekstianalyysi Twitter-datalla, esimerkissä 50k, rinnalla perinteiset Gephi ja Excel • Palveluja valtavasti eri tarkoituksiin ja erityyppiselle datalle • Taustalla information visualization, computational linguistics • ”Content analysis seeks to interpret documents or other artefacts of communicative processes”, Krippendorff 2012 • Perusongelma tässäkin, ettei tunnista sarkasmia tai suhtautumisen laatua • Kolme pääosaa • Miten aineisto koodataan automaattisesti, NLP • Kuinka tulos esitetään visuaalisesti • Sense-making, analyysi merkityksistä eli teemat
  • 95. Teemojen tunnistaminen sosiaalisesta mediasta • Leximancerilla visuaalinen käsitekartta, concept = word+weight • Workflow: CSV tms,  GUI  concept seeds  list  analysis  output • Discursis lisää mukaan visualisoinnin ajassa • Myös NLTK, Stanford NLP, D3.js • Casena Australian #QANDA, vrt. #astudio tai #ateema • Stop listille normaalit and, or, the, Twitterin tapauksessa myös RT • Stream graph = theme river visualization • 74 concepts, 8 themes: government, law etc. • Aktiivisimpien tviittaajien vertailu käsitteiden käytön osalta: voidaan esim. tunnistaa samaan tapaan viestivät, jotka eivät kuitenkaan seuraa toisiaan Angus, 2017
  • 96. Sentimenttianalyysi • Automaattinen tunteiden tunnistaminen tekstistä • Alun pelin kaupallisiin tarkoituksiin: tuotearviot, opinion mining • Sovellusalueet laajentuneet – somen käyttö, HCI, markkinointi, taloustiede, terveydenhuolto, politiikka, koulutus, esim. opiskelijoiden tyytyväisyys • Myös tunteiden eri tasoja kyetään jossain määrin erottamaan • Machine learning vs. lexical approach • http://sentistrength.wlv.ac.uk ilmainen ja nopea • Ongelmia vivahteet, piilomerkitykset, sarkasmi ja ironia, sanojen eri merkitys eri kontekstissa: heavy on huono matkapuhelimelle, neutraali elokuvissa tai musiikissa Thelwall, 2017
  • 97. Kiinnostavia linkkejä ja vinkkejä osiosta 6 • Big Data and Society –journal http://journals.sagepub.com/home/bds • Social Media Planner: sopivan palvelun valinta demografisten tietojen ja intressien pohjalta https://www.inpromo.de/wordpress/en/social- tools/social-media-planner/ • Bontcheva, K. & Rout, D. 2014. Making sense of social media through semantics: A survey. Semantic Web – Interoperability, Usability, Applicability, 5(5), 373-403.
  • 98. Lopuksi: omia kriittisiä huomioita • Artikkelit eivät käsitelleet lainkaan sosiaalisen median algoritmeja ja sitä, millä tavoin ne vaikuttavat tutkittavaan maisemaan – kaikki mitä saamme eteemme, on todellisuudessa jo kerran suodatettua. Tämä pitäisi huomioida etenkin laadullisten menetelmien ja datan sakeuttamisen kohdalla! • Kvalitutkijoiden tulisi kiinnittää enemmän huomiota tutkimuskysymystensä laatuun. Esim. kirjassa kuvattu small stories –tutkimus tunnisti, miten tarinat saavat Facebookissa alkunsa. Ovatko profiilikuvan vaihto, postaus, tapahtuma, paikka ja taggaus todella ”tutkimustuloksia” vai kaikille tuttuja Facebookin perustoimintoja? Mielummin huomio sisältöihin kuin toiminnallisuuteen: esim. millaiset postaukset käynnistävät somekohun.
  • 99. Lopuksi: omia kriittisiä huomioita • Odotetusti mukana oli itsestäänselvyyksiä sosiaalisen median luonteesta ja datan analysoinnin vaikeudesta, ei vastauksia kyseisiin ongelmiin. • Algoritmivajetta lukuunottamatta erittäin kattava esitys koko tutkimusprosessiin. Osa luvuista on tekno-optimistisia, osa huomioi myös eettiset kysymykset ja kokonaisuuden. Tuo paljon uutta tietoa, koska kukaan ei voi olla oman elämänsä IDR ja hallita kaikkia tarvittavia osa-alueita. • Tämän näytteen perusteella Twitter ylikorostuu tutkimusdatan lähteenä. Facebook on merkittävä mutta tunnetusti myös vaikea, ja umpioituu koko ajan. Kuva- ja videosisältöjen tutkimukseen ollaan vasta havahtumassa ja akateemisista enemmistö hallitsee vain tekstin. • M.O.T.