SlideShare une entreprise Scribd logo
1  sur  61
Télécharger pour lire hors ligne
Meer dan sentimentscores: inzichten destilleren
uit een enorme hoeveelheid data
Damian Trilling
d.c.trilling@uva.nl
@damian0604
www.damiantrilling.net
Afdeling Communicatiewetenschap
Universiteit van Amsterdam
Jaarbijeenkomst van het
Nederlandstalig Platform voor Surveyonderzoek (NPSO)
22 September 2015
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Wie ben ik?
Damian Trilling
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Wie ben ik?
Damian Trilling
• is Universitair Docent Politieke Communicatie en Journalistiek
aan de Universiteit van Amsterdam
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Wie ben ik?
Damian Trilling
• is Universitair Docent Politieke Communicatie en Journalistiek
aan de Universiteit van Amsterdam
• is ge¨ınteresseerd in de vraag hoe veranderingen in het
medialandschap en technologische innovaties van invloed zijn
op de manier waarop burgers het nieuws volgen
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Wie ben ik?
Damian Trilling
• is Universitair Docent Politieke Communicatie en Journalistiek
aan de Universiteit van Amsterdam
• is ge¨ınteresseerd in de vraag hoe veranderingen in het
medialandschap en technologische innovaties van invloed zijn
op de manier waarop burgers het nieuws volgen
• richt zich vooral op de geautomatiseerde analyse van digitale
data
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Waar ga ik het over hebben?
1 Zegen en vloek: een enorme hoeveelheid data
Zegen en vloek
Verschillende benaderingen: wat wil je weten?
2 Welke methoden zijn er?
Enkele voorbeelden
Een voorlopige indeling
3 Twee studies
Het tweede scherm
Nieuws delen op social media
4 Conclusie
Meer dan sentimentscores Damian Trilling
Zegen ´en vloek: een enorme hoeveelheid data
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Waar surveys goed in zijn – en waarin niet
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Waar surveys goed in zijn – en waarin niet
voordelen
• representatief (soms)
• flexibel: jij kunt de vragen bedenken
• data in een gestandardiseerd
formaat: makkelijk te verwerken
• beproefde methode
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Waar surveys goed in zijn – en waarin niet
voordelen
• representatief (soms)
• flexibel: jij kunt de vragen bedenken
• data in een gestandardiseerd
formaat: makkelijk te verwerken
• beproefde methode
nadelen
• je kunt niets te weten komen wat je
niet hebt gevraagd
• je kunt geen daadwerkelijk gedrag
meten
• kosten
• surveymoeheid, validiteit?
• breed ipv diep
• niet geschikt om weinig voorkomend
gedrag, kleine subpopulaties etc. te
onderzoeken
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Waar surveys goed in zijn – en waarin niet
voordelen
• representatief (soms)
• flexibel: jij kunt de vragen bedenken
• data in een gestandardiseerd
formaat: makkelijk te verwerken
• beproefde methode
nadelen
• je kunt niets te weten komen wat je
niet hebt gevraagd
• je kunt geen daadwerkelijk gedrag
meten
• kosten
• surveymoeheid, validiteit?
• breed ipv diep
• niet geschikt om weinig voorkomend
gedrag, kleine subpopulaties etc. te
onderzoeken
“⇒ we moeten iets met Big Data/social/media/. . . ”
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Een aanvulling op (en geen vervanging van)
surveyonderzoek. . .
In plaats van zelf “gecre¨eerde” surveydata data analyseren die door
mensen zelf worden gecre¨eerd
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Een aanvulling op (en geen vervanging van)
surveyonderzoek. . .
In plaats van zelf “gecre¨eerde” surveydata data analyseren die door
mensen zelf worden gecre¨eerd
iedereen laat sporen achter op sociale media etc.
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Een aanvulling op (en geen vervanging van)
surveyonderzoek. . .
In plaats van zelf “gecre¨eerde” surveydata data analyseren die door
mensen zelf worden gecre¨eerd
iedereen laat sporen achter op sociale media etc.
Maar er zijn ook grote datasets die alleen nooit systematisch
geanalyseerd zijn (open data)
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Een aanvulling op (en geen vervanging van)
surveyonderzoek. . .
In plaats van zelf “gecre¨eerde” surveydata data analyseren die door
mensen zelf worden gecre¨eerd
iedereen laat sporen achter op sociale media etc.
Maar er zijn ook grote datasets die alleen nooit systematisch
geanalyseerd zijn (open data)
De grote vraag: Hoe analyseer je het?
Meer dan sentimentscores Damian Trilling
Verschillende benaderingen: wat wil je weten?
Verschillende benaderingen: wat wil je weten?
Stel we hebben 500.000 tweets (of comments, Facebookposts of
productrecensies) over een bepaald onderwerp. . .
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Verschillende benaderingen
Je zou natuurlijk. . .
• een steekproef kunnen trekken, deze handmatig coderen en
later “gewoon” statistisch analyseren
• alleen naar de interessantste/het vaakst geretweete/. . . tweets
kunnen kijken en deze kwalitatief analyseren
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Verschillende benaderingen
Maar misschien is het beter om. . .
een methode te hebben die
• gebruik maakt van alle beschikbare informatie
• (hopelijk) diepe(re) of tenminste aanvullende inzichten levert
• maar tegelijkertijd een behapbaar overzicht geeft?
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Welke methoden zijn er?
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Welke methoden zijn er?
Enkele voorbeelden
Jonkman, J.G.F., Trilling, D., Verhoeven, P., & Vliegenthart, R. (2015, June). Topical
variation in company news: An assessment of the diversity of topics in Dutch
newspaper coverage of media prominent corporations. Paper presented at BledCom,
Bled, Slovenia.
Trilling, D. & Jonkman, J. (2015, June). Packing and unpacking the Bag of Words:
Introducing a toolkit for inductive automated frame analysis. Paper presented at the
World Association for Public Opinion Research Conference, Buenos Aires, Argentinia.
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Voorbeeld: aandacht over tijd
Hoe vaak worden bedrijven in het nieuws genoemd?
Methode: turven.
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Voorbeeld: Onderwerpen identificeren
Waar gaat economisch nieuws over? (1)
Methode: Topic modelling (Latent Dirichlet Allocation)
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Voorbeeld: Onderwerpen identificeren
Waar gaat economisch nieuws over? (2)
Methode: Principal Component Analysis
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Voorbeeld: Onderwerpen identificeren
Waar gaat economisch nieuws over? (3)
Methode: Visualisatie van samen genoemde woorden
Meer dan sentimentscores Damian Trilling
Een voorlopige indeling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Ook bij automatische inhoudsanalyse: deductief en
inductief
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Ook bij automatische inhoudsanalyse: deductief en
inductief
Deductief
• simpel: turven (zoektermen,
woordenlijsten, . . . )
• geavanceerd: supervised
machine learning
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Ook bij automatische inhoudsanalyse: deductief en
inductief
Deductief
• simpel: turven (zoektermen,
woordenlijsten, . . . )
• geavanceerd: supervised
machine learning
Inductief
• woordfrequenties en
co-occurrences
• visualisatie
• principale-
componentenanalyse
(PCA)
• clusteranalyse
• topic modelling, m.n.
latent dirichlet allocation
(LDA)
• . . .
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Alles op ´e´en hoop gooien of rekening houden met de
zinsstructuur?
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Alles op ´e´en hoop gooien of rekening houden met de
zinsstructuur?
bag of words (BOW)
• simpel
• te simplistisch?
• niet in staat om met
ontkenningen etc. om te
gaan
• maar werkt vaak wel! (goed
genoeg)
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Alles op ´e´en hoop gooien of rekening houden met de
zinsstructuur?
bag of words (BOW)
• simpel
• te simplistisch?
• niet in staat om met
ontkenningen etc. om te
gaan
• maar werkt vaak wel! (goed
genoeg)
parsing (= zinnen ontleden)
• krachtige methode die je
dichter bij de betekenis van
een tekst kan brengen
• werkt voor sommige talen
beter dan voor andere
• gaat ervan uit dat mensen
“nette” zinnen schrijven
• en dat is meer dan
problematisch met
social-media-data.
Meer dan sentimentscores Damian Trilling
Twee studies
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Het tweede scherm
Welke discussies worden tijdens tv-debatten op het tweede scherm
gevoerd?
Trilling, D. (2015). Two different debates? Investigating the relationship between a
political debate on TV and simultaneous comments on Twitter. Social Science
Computer Review, 33(3), 259–276. doi:10.1177/0894439314537886
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Onderzoeksvragen
In hoeverre komen de uitingen van politici tijdens een tv-debat
terug in online discussies op het tweede scherm?
RQ1 Welke onderwerpen worden benadrukt door de
kandidaten?
RQ2 Welke onderwerpen worden benadrukt door
Twittergebruikers?
RQ3 Met welke onderwerpen worden de kandidaten in
verband gebracht op Twitter?
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Methode
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Methode
Data
• transcript van het
debat
• tweets met hashtag
#tvduell
• N = 120, 557 tweets
van N = 24, 796
gebruikers
• 22-9-2013,
20.30-22.00
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Methode
Data
• transcript van het
debat
• tweets met hashtag
#tvduell
• N = 120, 557 tweets
van N = 24, 796
gebruikers
• 22-9-2013,
20.30-22.00
De analyse
• Een aantal zelfgeschreven Python
scripts:
1 preprocessing (stemming,
stopword removal)
2 woorden tellen
3 log likelihood (corpus
comparison): hoe kenmerkend is
een woord voor een corpus?
4 visualisatie van co-occurrences
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Meest kenmerkende woorden op tv
LL word Frequency Merkel Frequency Steinbr¨uc
27,73 merkel 0 20
19,41 arbeitsplatz [job] 14 0
15,25 steinbruck 11 0
9,70 koalition [coaltion] 7 0
9,70 international 7 0
9,70 gemeinsam [together] 7 0
8,55 griechenland [Greece] 10 1
8,32 investi [investment] 6 0
6,93 uberzeug [belief] 5 0
6,93 okonom [economic] 0 5
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Meest kenmerkende woorden op Twitter
LL word Frequency Merkel Frequency Ste
32443,39 merkel 29672 0
30751,65 steinbrueck 0 17780
1507,08 kett [necklace] 1628 34
1241,14 vertrau [trust] 1240 12
863,84 fdp [a coalition partner] 985 29
775,93 nsa 1809 298
626,49 wikipedia 40 502
574,65 twittert [tweets] 40 469
544,87 koalition [coalition] 864 77
517,99 gold 669 34
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Waarmee worden de politici geassocieerd?
Merkel
• halsketting
• vertrouwen (sarcastisch
bedoeld)
• NSA-schandaal
• coalitiepartijen
Steinbr¨uck
• suggestie om iets op te
zoeken op Wikipedia
• tweets van zijn eigen
account tijdens het debat
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Nieuws delen op social media
Welke artikelen op nieuwssites worden het vaakst op social media
gedeeld?
Trilling, D., Tolochko, P., & Burscher, B. (2015, June). Viral news: How to predict
news sharing based on article characteristics. Paper presented at the World
Association for Public Opinion Research Conference, Buenos Aires, Argentinia.
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
De data
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
De data
Artikeldata
• januari 2014—augustus 2014
• automatische query van RSS-feeds 1x/uur
• naast opslaan van RSS-data: meteen volledige webpagina
downloaden
• Later: de gedownloade pagina’s parsen (Python) en relevante
informatie extraheren
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
De data
Artikeldata
• januari 2014—augustus 2014
• automatische query van RSS-feeds 1x/uur
• naast opslaan van RSS-data: meteen volledige webpagina
downloaden
• Later: de gedownloade pagina’s parsen (Python) en relevante
informatie extraheren
Sharing-data
• tijdsverschil van 1 maand of langer
• Facebook, Twitter, Google API-queries (Python) om aantal
shares voor elke URL in de RSS-dataset te achterhalen
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
met parsing, regular expressions etc.
• auteur (ANP? eigen journalist?)
• plaats/land
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
met parsing, regular expressions etc.
• auteur (ANP? eigen journalist?)
• plaats/land
met supervised machine learning
• onderwerp (categorie¨en)
• binnenland/buitenland
• human interest (ja/nee)
• conflict (ja/nee)
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
met woordfrequenties
• aandacht voor hetzelfde onderwerp tussen nieuwssites
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
met woordfrequenties
• aandacht voor hetzelfde onderwerp tussen nieuwssites
met sentimentanalyse
• positiviteit
• negativiteit
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Enkele resultaten
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Enkele resultaten
Twitter
• Meeste artikelen <100 shares; maar enkele >4,000
• Geen shares: 10%
• Maar: 73% krijgen ≤ 10 shares
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Enkele resultaten
Twitter
• Meeste artikelen <100 shares; maar enkele >4,000
• Geen shares: 10%
• Maar: 73% krijgen ≤ 10 shares
Facebook
• Vergelijkbaar, maar meer spreiding:
• Geen shares: 30%
• Top-3: 48.689, 53,844 en 79,975 interacties
Meer dan sentimentscores Damian Trilling
Negative binomial regressions
Twitter Facebook
Controls
Site: AD 3.952∗∗∗ (3.888, 4.018) 8.469∗∗∗ (8.145, 8.804)
Site: NRC 8.191∗∗∗ (7.979, 8.409) 13.831∗∗∗ (12.923, 14.812)
Site: NU 15.872∗∗∗ (15.445, 16.312) 62.446∗∗∗ (58.326, 66.915)
Site: Trouw 1.743∗∗∗ (1.710, 1.777) 0.859∗∗∗ (0.820, 0.900)
Site: Volkskrant 2.365∗∗∗ (2.321, 2.409) 1.078∗∗ (1.029, 1.129)
Days since t0 0.999∗∗∗ (0.999, 1.000) 1.002∗∗∗ (1.002, 1.002)
Length (in 1000 characters) 1.165∗∗∗ (1.159, 1.171) 1.275∗∗∗ (1.257, 1.294)
Topic: defense and foreign affairs 0.803∗∗∗ (0.786, 0.821) 0.671∗∗∗ (0.635, 0.708)
Topic: political system 0.992 (0.968, 1.017) 0.797∗∗∗ (0.749, 0.847)
Topic: economic policy 1.007 (0.980, 1.035) 0.631∗∗∗ (0.589, 0.675)
Topic: social affairs & education 1.413∗∗∗ (1.376, 1.451) 1.436∗∗∗ (1.342, 1.538)
Topic: law and order 0.871∗∗∗ (0.853, 0.889) 0.638∗∗∗ (0.607, 0.671)
Topic: infrastructure 1.101∗∗∗ (1.071, 1.131) 0.953 (0.891, 1.020)
Topic: science & technology 1.129∗∗∗ (1.070, 1.191) 2.037∗∗∗ (1.786, 2.334)
Topic: culture & entertainment 1.136∗∗∗ (1.110, 1.162) 1.525∗∗∗ (1.439, 1.616)
Topic: weather & disasters 0.787∗∗∗ (0.741, 0.836) 1.607∗∗∗ (1.394, 1.862)
Topic: sports 0.636∗∗∗ (0.623, 0.648) 0.357∗∗∗ (0.341, 0.374)
Shareworthiness based on news values
Domestic topic 1.288∗∗∗ (1.271, 1.305) 1.837∗∗∗ (1.779, 1.896)
Geographical distance: 0km 1.141∗∗∗ (1.097, 1.187) 0.958 (0.870, 1.054)
Geographical distance: <500km 0.869∗∗∗ (0.831, 0.908) 0.526∗∗∗ (0.472, 0.585)
Geographical distance: <1,000km 0.875∗∗∗ (0.837, 0.913) 0.568∗∗∗ (0.511, 0.632)
Geographical distance: <2,000km 0.906∗∗∗ (0.870, 0.944) 0.712∗∗∗ (0.644, 0.786)
Geographical distance: <5,000km 0.953∗ (0.917, 0.990) 0.731∗∗∗ (0.664, 0.803)
Geographical distance: <10,000km 0.942∗∗ (0.906, 0.979) 0.709∗∗∗ (0.644, 0.779)
Cultural distance: Non-Western country 0.956∗ (0.921, 0.992) 1.108∗ (1.010, 1.218)
Cultural distance: Western country 1.140∗∗∗ (1.098, 1.183) 1.665∗∗∗ (1.522, 1.824)
Negativity 1.026∗∗∗ (1.019, 1.033) 1.079∗∗∗ (1.061, 1.097)
Conflict 1.105∗∗∗ (1.092, 1.119) 1.093∗∗∗ (1.061, 1.125)
Human interest 1.002 (0.988, 1.017) 1.330∗∗∗ (1.281, 1.379)
Shareworthiness based on online identity
Positivity 1.043∗∗∗ (1.037, 1.049) 1.164∗∗∗ (1.146, 1.182)
Press-agency 0.666∗∗∗ (0.657, 0.675) 0.276∗∗∗ (0.267, 0.285)
topic popularity score 0.740∗∗∗ (0.705, 0.778) 2.142∗∗∗ (1.884, 2.439)
Nagelkerke Pseudo-R2 .56 .36
Log Likelihood −422,314.200 −381,856.200
θ 1.307∗∗∗ (0.006) 0.188∗∗∗ (0.001)
AIC 844,694.400 763,778.400
Note. N = 132, 682. Incidence rate ratios (IRRs) with confidence intervals. Values < 1
indicate a negative effect, values > 1 a positive effect. ∗p < .05; ∗∗p < .01; ∗∗∗p < .001
Conclusie
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Conclusie
Computational social science (“Big Data”) -benadering is geen
wondermiddel, maar een nuttige aanvulling.
Je kunt veel meer met de data dan je zou denken.
We moeten interdisciplinair samenwerken (sociale wetenschappen,
informatica, (kwantitatieve) taalkunde)
Meer dan sentimentscores Damian Trilling
Boumans, J.W. & Trilling, D. (forthcoming).Time to take stock of the toolkit: An
overview of relevant automated content analysis approaches and techniques for digital
journalism scholars. Digital Journalism.
Beschouw de technieken die ik heb laten zien als een
gereedschapskist waaruit je het meest geschikte werktuig voor jouw
onderzoek moet kiezen.
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Vragen?
d.c.trilling@uva.nl
@damian0604
www.damiantrilling.net
Meer dan sentimentscores Damian Trilling

Contenu connexe

En vedette

Final Presentation
Final PresentationFinal Presentation
Final PresentationBrady Enstad
 
Mika Raunio - Open Innovation Platforms - Mindtrek 2016
Mika Raunio - Open Innovation Platforms - Mindtrek 2016Mika Raunio - Open Innovation Platforms - Mindtrek 2016
Mika Raunio - Open Innovation Platforms - Mindtrek 2016Mindtrek
 
Beginners Guide to Modeling with Maya
Beginners Guide to Modeling with MayaBeginners Guide to Modeling with Maya
Beginners Guide to Modeling with MayaPaddy Lock
 
AWS Startup Tech Lightning Talks 2015 Summer at dots.
AWS Startup Tech Lightning Talks 2015 Summer at dots.AWS Startup Tech Lightning Talks 2015 Summer at dots.
AWS Startup Tech Lightning Talks 2015 Summer at dots.Eiji Shinohara
 
Monitoring patterns for mitigating technical risk
Monitoring patterns for  mitigating technical riskMonitoring patterns for  mitigating technical risk
Monitoring patterns for mitigating technical riskItai Frenkel
 
Neptune : Re-thinking Incident Response Automation
Neptune : Re-thinking Incident Response Automation Neptune : Re-thinking Incident Response Automation
Neptune : Re-thinking Incident Response Automation Kiran Gollu
 
Scalone dokumenty (27)
Scalone dokumenty (27)Scalone dokumenty (27)
Scalone dokumenty (27)gemix gemix
 

En vedette (8)

Final Presentation
Final PresentationFinal Presentation
Final Presentation
 
Mika Raunio - Open Innovation Platforms - Mindtrek 2016
Mika Raunio - Open Innovation Platforms - Mindtrek 2016Mika Raunio - Open Innovation Platforms - Mindtrek 2016
Mika Raunio - Open Innovation Platforms - Mindtrek 2016
 
Beginners Guide to Modeling with Maya
Beginners Guide to Modeling with MayaBeginners Guide to Modeling with Maya
Beginners Guide to Modeling with Maya
 
DevOps Case Studies
DevOps Case StudiesDevOps Case Studies
DevOps Case Studies
 
AWS Startup Tech Lightning Talks 2015 Summer at dots.
AWS Startup Tech Lightning Talks 2015 Summer at dots.AWS Startup Tech Lightning Talks 2015 Summer at dots.
AWS Startup Tech Lightning Talks 2015 Summer at dots.
 
Monitoring patterns for mitigating technical risk
Monitoring patterns for  mitigating technical riskMonitoring patterns for  mitigating technical risk
Monitoring patterns for mitigating technical risk
 
Neptune : Re-thinking Incident Response Automation
Neptune : Re-thinking Incident Response Automation Neptune : Re-thinking Incident Response Automation
Neptune : Re-thinking Incident Response Automation
 
Scalone dokumenty (27)
Scalone dokumenty (27)Scalone dokumenty (27)
Scalone dokumenty (27)
 

Similaire à NPSO

Meten van invloed binnen word of mouth netwerken
Meten van invloed binnen word of mouth netwerkenMeten van invloed binnen word of mouth netwerken
Meten van invloed binnen word of mouth netwerkenDanny Oosterveer
 
Werkveld ho gent
Werkveld ho gentWerkveld ho gent
Werkveld ho gentJo Tonuso
 
Diversiteit In Teams Voorproeven Mbti
Diversiteit In Teams Voorproeven MbtiDiversiteit In Teams Voorproeven Mbti
Diversiteit In Teams Voorproeven MbtiDan Kamminga
 
Onderzoekskunde 3
Onderzoekskunde 3Onderzoekskunde 3
Onderzoekskunde 3imit-yuro
 
Devika Partiman - Het gaat toch om kwaliteit?
Devika Partiman - Het gaat toch om kwaliteit?Devika Partiman - Het gaat toch om kwaliteit?
Devika Partiman - Het gaat toch om kwaliteit?Sogeti Nederland B.V.
 
Vlerick conversation management platform engagor
Vlerick conversation management platform   engagorVlerick conversation management platform   engagor
Vlerick conversation management platform engagorVlerick Business School
 
Paradigmaworkshop Design Science Research Group
Paradigmaworkshop Design Science Research GroupParadigmaworkshop Design Science Research Group
Paradigmaworkshop Design Science Research Groupdaanandriessen1
 
Gastcollege e-learning trends avans plus 10 april 2018
Gastcollege e-learning trends avans plus 10 april 2018Gastcollege e-learning trends avans plus 10 april 2018
Gastcollege e-learning trends avans plus 10 april 2018WilfredRubens.com
 
Onderzoeksplan - Thema 7 Scriptieworkshop
Onderzoeksplan - Thema 7 ScriptieworkshopOnderzoeksplan - Thema 7 Scriptieworkshop
Onderzoeksplan - Thema 7 ScriptieworkshopPim Schaaf
 
Bijeenkomst 12 Februari Presentatie Bert Pol
Bijeenkomst 12 Februari Presentatie Bert PolBijeenkomst 12 Februari Presentatie Bert Pol
Bijeenkomst 12 Februari Presentatie Bert PolMichelle
 
NLP introduction for Compare Group
NLP introduction for Compare GroupNLP introduction for Compare Group
NLP introduction for Compare Groupguest7d7e81
 
Veranderdiagnose (een samenvatting)
Veranderdiagnose (een samenvatting)Veranderdiagnose (een samenvatting)
Veranderdiagnose (een samenvatting)Jan Wietsma
 
StatistischeVaardigheden_20mar2015
StatistischeVaardigheden_20mar2015StatistischeVaardigheden_20mar2015
StatistischeVaardigheden_20mar2015Lennard Pisa
 
De medemens als mede-onderzoeker
De medemens als mede-onderzoekerDe medemens als mede-onderzoeker
De medemens als mede-onderzoekerHarold van Garderen
 
tam tam - patrick klerks - landschapsbeheer
tam tam - patrick klerks - landschapsbeheertam tam - patrick klerks - landschapsbeheer
tam tam - patrick klerks - landschapsbeheerPatrick Klerks
 
Presentatie Social Media Monitoring voor RIVM
Presentatie Social Media Monitoring voor RIVMPresentatie Social Media Monitoring voor RIVM
Presentatie Social Media Monitoring voor RIVMUpstream
 
Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)
Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)
Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)Ernst Thoutenhoofd
 
Keynote Fleur Jongepier - Waarde(n)vol onderwijs - OWD21
Keynote Fleur Jongepier - Waarde(n)vol onderwijs - OWD21Keynote Fleur Jongepier - Waarde(n)vol onderwijs - OWD21
Keynote Fleur Jongepier - Waarde(n)vol onderwijs - OWD21SURF Events
 
Scriptie marketing trends Identiteitsmarketing
Scriptie marketing trends IdentiteitsmarketingScriptie marketing trends Identiteitsmarketing
Scriptie marketing trends Identiteitsmarketingdaanloohuis
 

Similaire à NPSO (20)

Meten van invloed binnen word of mouth netwerken
Meten van invloed binnen word of mouth netwerkenMeten van invloed binnen word of mouth netwerken
Meten van invloed binnen word of mouth netwerken
 
Werkveld ho gent
Werkveld ho gentWerkveld ho gent
Werkveld ho gent
 
Diversiteit In Teams Voorproeven Mbti
Diversiteit In Teams Voorproeven MbtiDiversiteit In Teams Voorproeven Mbti
Diversiteit In Teams Voorproeven Mbti
 
Onderzoeksles SCO
Onderzoeksles SCOOnderzoeksles SCO
Onderzoeksles SCO
 
Onderzoekskunde 3
Onderzoekskunde 3Onderzoekskunde 3
Onderzoekskunde 3
 
Devika Partiman - Het gaat toch om kwaliteit?
Devika Partiman - Het gaat toch om kwaliteit?Devika Partiman - Het gaat toch om kwaliteit?
Devika Partiman - Het gaat toch om kwaliteit?
 
Vlerick conversation management platform engagor
Vlerick conversation management platform   engagorVlerick conversation management platform   engagor
Vlerick conversation management platform engagor
 
Paradigmaworkshop Design Science Research Group
Paradigmaworkshop Design Science Research GroupParadigmaworkshop Design Science Research Group
Paradigmaworkshop Design Science Research Group
 
Gastcollege e-learning trends avans plus 10 april 2018
Gastcollege e-learning trends avans plus 10 april 2018Gastcollege e-learning trends avans plus 10 april 2018
Gastcollege e-learning trends avans plus 10 april 2018
 
Onderzoeksplan - Thema 7 Scriptieworkshop
Onderzoeksplan - Thema 7 ScriptieworkshopOnderzoeksplan - Thema 7 Scriptieworkshop
Onderzoeksplan - Thema 7 Scriptieworkshop
 
Bijeenkomst 12 Februari Presentatie Bert Pol
Bijeenkomst 12 Februari Presentatie Bert PolBijeenkomst 12 Februari Presentatie Bert Pol
Bijeenkomst 12 Februari Presentatie Bert Pol
 
NLP introduction for Compare Group
NLP introduction for Compare GroupNLP introduction for Compare Group
NLP introduction for Compare Group
 
Veranderdiagnose (een samenvatting)
Veranderdiagnose (een samenvatting)Veranderdiagnose (een samenvatting)
Veranderdiagnose (een samenvatting)
 
StatistischeVaardigheden_20mar2015
StatistischeVaardigheden_20mar2015StatistischeVaardigheden_20mar2015
StatistischeVaardigheden_20mar2015
 
De medemens als mede-onderzoeker
De medemens als mede-onderzoekerDe medemens als mede-onderzoeker
De medemens als mede-onderzoeker
 
tam tam - patrick klerks - landschapsbeheer
tam tam - patrick klerks - landschapsbeheertam tam - patrick klerks - landschapsbeheer
tam tam - patrick klerks - landschapsbeheer
 
Presentatie Social Media Monitoring voor RIVM
Presentatie Social Media Monitoring voor RIVMPresentatie Social Media Monitoring voor RIVM
Presentatie Social Media Monitoring voor RIVM
 
Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)
Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)
Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)
 
Keynote Fleur Jongepier - Waarde(n)vol onderwijs - OWD21
Keynote Fleur Jongepier - Waarde(n)vol onderwijs - OWD21Keynote Fleur Jongepier - Waarde(n)vol onderwijs - OWD21
Keynote Fleur Jongepier - Waarde(n)vol onderwijs - OWD21
 
Scriptie marketing trends Identiteitsmarketing
Scriptie marketing trends IdentiteitsmarketingScriptie marketing trends Identiteitsmarketing
Scriptie marketing trends Identiteitsmarketing
 

Plus de Department of Communication Science, University of Amsterdam

Plus de Department of Communication Science, University of Amsterdam (20)

BDACA - Lecture8
BDACA - Lecture8BDACA - Lecture8
BDACA - Lecture8
 
BDACA - Lecture7
BDACA - Lecture7BDACA - Lecture7
BDACA - Lecture7
 
BDACA - Lecture6
BDACA - Lecture6BDACA - Lecture6
BDACA - Lecture6
 
BDACA - Tutorial5
BDACA - Tutorial5BDACA - Tutorial5
BDACA - Tutorial5
 
BDACA - Lecture5
BDACA - Lecture5BDACA - Lecture5
BDACA - Lecture5
 
BDACA - Lecture4
BDACA - Lecture4BDACA - Lecture4
BDACA - Lecture4
 
BDACA - Lecture3
BDACA - Lecture3BDACA - Lecture3
BDACA - Lecture3
 
BDACA - Lecture2
BDACA - Lecture2BDACA - Lecture2
BDACA - Lecture2
 
BDACA - Tutorial1
BDACA - Tutorial1BDACA - Tutorial1
BDACA - Tutorial1
 
BDACA - Lecture1
BDACA - Lecture1BDACA - Lecture1
BDACA - Lecture1
 
BDACA1617s2 - Lecture7
BDACA1617s2 - Lecture7BDACA1617s2 - Lecture7
BDACA1617s2 - Lecture7
 
BDACA1617s2 - Lecture6
BDACA1617s2 - Lecture6BDACA1617s2 - Lecture6
BDACA1617s2 - Lecture6
 
BDACA1617s2 - Lecture5
BDACA1617s2 - Lecture5BDACA1617s2 - Lecture5
BDACA1617s2 - Lecture5
 
BDACA1617s2 - Lecture4
BDACA1617s2 - Lecture4BDACA1617s2 - Lecture4
BDACA1617s2 - Lecture4
 
BDACA1617s2 - Lecture3
BDACA1617s2 - Lecture3BDACA1617s2 - Lecture3
BDACA1617s2 - Lecture3
 
BDACA1617s2 - Lecture 2
BDACA1617s2 - Lecture 2BDACA1617s2 - Lecture 2
BDACA1617s2 - Lecture 2
 
BDACA1617s2 - Tutorial 1
BDACA1617s2 - Tutorial 1BDACA1617s2 - Tutorial 1
BDACA1617s2 - Tutorial 1
 
BDACA1617s2 - Lecture 1
BDACA1617s2 - Lecture 1BDACA1617s2 - Lecture 1
BDACA1617s2 - Lecture 1
 
Media diets in an age of apps and social media: Dealing with a third layer of...
Media diets in an age of apps and social media: Dealing with a third layer of...Media diets in an age of apps and social media: Dealing with a third layer of...
Media diets in an age of apps and social media: Dealing with a third layer of...
 
Conceptualizing and measuring news exposure as network of users and news items
Conceptualizing and measuring news exposure as network of users and news itemsConceptualizing and measuring news exposure as network of users and news items
Conceptualizing and measuring news exposure as network of users and news items
 

NPSO

  • 1. Meer dan sentimentscores: inzichten destilleren uit een enorme hoeveelheid data Damian Trilling d.c.trilling@uva.nl @damian0604 www.damiantrilling.net Afdeling Communicatiewetenschap Universiteit van Amsterdam Jaarbijeenkomst van het Nederlandstalig Platform voor Surveyonderzoek (NPSO) 22 September 2015
  • 2. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Wie ben ik? Damian Trilling Meer dan sentimentscores Damian Trilling
  • 3. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Wie ben ik? Damian Trilling • is Universitair Docent Politieke Communicatie en Journalistiek aan de Universiteit van Amsterdam Meer dan sentimentscores Damian Trilling
  • 4. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Wie ben ik? Damian Trilling • is Universitair Docent Politieke Communicatie en Journalistiek aan de Universiteit van Amsterdam • is ge¨ınteresseerd in de vraag hoe veranderingen in het medialandschap en technologische innovaties van invloed zijn op de manier waarop burgers het nieuws volgen Meer dan sentimentscores Damian Trilling
  • 5. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Wie ben ik? Damian Trilling • is Universitair Docent Politieke Communicatie en Journalistiek aan de Universiteit van Amsterdam • is ge¨ınteresseerd in de vraag hoe veranderingen in het medialandschap en technologische innovaties van invloed zijn op de manier waarop burgers het nieuws volgen • richt zich vooral op de geautomatiseerde analyse van digitale data Meer dan sentimentscores Damian Trilling
  • 6. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Waar ga ik het over hebben? 1 Zegen en vloek: een enorme hoeveelheid data Zegen en vloek Verschillende benaderingen: wat wil je weten? 2 Welke methoden zijn er? Enkele voorbeelden Een voorlopige indeling 3 Twee studies Het tweede scherm Nieuws delen op social media 4 Conclusie Meer dan sentimentscores Damian Trilling
  • 7. Zegen ´en vloek: een enorme hoeveelheid data
  • 8. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Zegen en vloek Waar surveys goed in zijn – en waarin niet Meer dan sentimentscores Damian Trilling
  • 9. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Zegen en vloek Waar surveys goed in zijn – en waarin niet voordelen • representatief (soms) • flexibel: jij kunt de vragen bedenken • data in een gestandardiseerd formaat: makkelijk te verwerken • beproefde methode Meer dan sentimentscores Damian Trilling
  • 10. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Zegen en vloek Waar surveys goed in zijn – en waarin niet voordelen • representatief (soms) • flexibel: jij kunt de vragen bedenken • data in een gestandardiseerd formaat: makkelijk te verwerken • beproefde methode nadelen • je kunt niets te weten komen wat je niet hebt gevraagd • je kunt geen daadwerkelijk gedrag meten • kosten • surveymoeheid, validiteit? • breed ipv diep • niet geschikt om weinig voorkomend gedrag, kleine subpopulaties etc. te onderzoeken Meer dan sentimentscores Damian Trilling
  • 11. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Zegen en vloek Waar surveys goed in zijn – en waarin niet voordelen • representatief (soms) • flexibel: jij kunt de vragen bedenken • data in een gestandardiseerd formaat: makkelijk te verwerken • beproefde methode nadelen • je kunt niets te weten komen wat je niet hebt gevraagd • je kunt geen daadwerkelijk gedrag meten • kosten • surveymoeheid, validiteit? • breed ipv diep • niet geschikt om weinig voorkomend gedrag, kleine subpopulaties etc. te onderzoeken “⇒ we moeten iets met Big Data/social/media/. . . ” Meer dan sentimentscores Damian Trilling
  • 12. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Zegen en vloek Een aanvulling op (en geen vervanging van) surveyonderzoek. . . In plaats van zelf “gecre¨eerde” surveydata data analyseren die door mensen zelf worden gecre¨eerd Meer dan sentimentscores Damian Trilling
  • 13. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Zegen en vloek Een aanvulling op (en geen vervanging van) surveyonderzoek. . . In plaats van zelf “gecre¨eerde” surveydata data analyseren die door mensen zelf worden gecre¨eerd iedereen laat sporen achter op sociale media etc. Meer dan sentimentscores Damian Trilling
  • 14. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Zegen en vloek Een aanvulling op (en geen vervanging van) surveyonderzoek. . . In plaats van zelf “gecre¨eerde” surveydata data analyseren die door mensen zelf worden gecre¨eerd iedereen laat sporen achter op sociale media etc. Maar er zijn ook grote datasets die alleen nooit systematisch geanalyseerd zijn (open data) Meer dan sentimentscores Damian Trilling
  • 15. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Zegen en vloek Een aanvulling op (en geen vervanging van) surveyonderzoek. . . In plaats van zelf “gecre¨eerde” surveydata data analyseren die door mensen zelf worden gecre¨eerd iedereen laat sporen achter op sociale media etc. Maar er zijn ook grote datasets die alleen nooit systematisch geanalyseerd zijn (open data) De grote vraag: Hoe analyseer je het? Meer dan sentimentscores Damian Trilling
  • 17. Verschillende benaderingen: wat wil je weten? Stel we hebben 500.000 tweets (of comments, Facebookposts of productrecensies) over een bepaald onderwerp. . .
  • 18. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Verschillende benaderingen Je zou natuurlijk. . . • een steekproef kunnen trekken, deze handmatig coderen en later “gewoon” statistisch analyseren • alleen naar de interessantste/het vaakst geretweete/. . . tweets kunnen kijken en deze kwalitatief analyseren Meer dan sentimentscores Damian Trilling
  • 19. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Verschillende benaderingen Maar misschien is het beter om. . . een methode te hebben die • gebruik maakt van alle beschikbare informatie • (hopelijk) diepe(re) of tenminste aanvullende inzichten levert • maar tegelijkertijd een behapbaar overzicht geeft? Meer dan sentimentscores Damian Trilling
  • 20. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Enkele voorbeelden Welke methoden zijn er? Meer dan sentimentscores Damian Trilling
  • 21. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Enkele voorbeelden Welke methoden zijn er? Enkele voorbeelden Jonkman, J.G.F., Trilling, D., Verhoeven, P., & Vliegenthart, R. (2015, June). Topical variation in company news: An assessment of the diversity of topics in Dutch newspaper coverage of media prominent corporations. Paper presented at BledCom, Bled, Slovenia. Trilling, D. & Jonkman, J. (2015, June). Packing and unpacking the Bag of Words: Introducing a toolkit for inductive automated frame analysis. Paper presented at the World Association for Public Opinion Research Conference, Buenos Aires, Argentinia. Meer dan sentimentscores Damian Trilling
  • 22. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Enkele voorbeelden Voorbeeld: aandacht over tijd Hoe vaak worden bedrijven in het nieuws genoemd? Methode: turven. Meer dan sentimentscores Damian Trilling
  • 23. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Enkele voorbeelden Voorbeeld: Onderwerpen identificeren Waar gaat economisch nieuws over? (1) Methode: Topic modelling (Latent Dirichlet Allocation) Meer dan sentimentscores Damian Trilling
  • 24. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Enkele voorbeelden Voorbeeld: Onderwerpen identificeren Waar gaat economisch nieuws over? (2) Methode: Principal Component Analysis Meer dan sentimentscores Damian Trilling
  • 25. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Enkele voorbeelden Voorbeeld: Onderwerpen identificeren Waar gaat economisch nieuws over? (3) Methode: Visualisatie van samen genoemde woorden Meer dan sentimentscores Damian Trilling
  • 27. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Een voorlopige indeling Ook bij automatische inhoudsanalyse: deductief en inductief Meer dan sentimentscores Damian Trilling
  • 28. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Een voorlopige indeling Ook bij automatische inhoudsanalyse: deductief en inductief Deductief • simpel: turven (zoektermen, woordenlijsten, . . . ) • geavanceerd: supervised machine learning Meer dan sentimentscores Damian Trilling
  • 29. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Een voorlopige indeling Ook bij automatische inhoudsanalyse: deductief en inductief Deductief • simpel: turven (zoektermen, woordenlijsten, . . . ) • geavanceerd: supervised machine learning Inductief • woordfrequenties en co-occurrences • visualisatie • principale- componentenanalyse (PCA) • clusteranalyse • topic modelling, m.n. latent dirichlet allocation (LDA) • . . . Meer dan sentimentscores Damian Trilling
  • 30. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Een voorlopige indeling Alles op ´e´en hoop gooien of rekening houden met de zinsstructuur? Meer dan sentimentscores Damian Trilling
  • 31. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Een voorlopige indeling Alles op ´e´en hoop gooien of rekening houden met de zinsstructuur? bag of words (BOW) • simpel • te simplistisch? • niet in staat om met ontkenningen etc. om te gaan • maar werkt vaak wel! (goed genoeg) Meer dan sentimentscores Damian Trilling
  • 32. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Een voorlopige indeling Alles op ´e´en hoop gooien of rekening houden met de zinsstructuur? bag of words (BOW) • simpel • te simplistisch? • niet in staat om met ontkenningen etc. om te gaan • maar werkt vaak wel! (goed genoeg) parsing (= zinnen ontleden) • krachtige methode die je dichter bij de betekenis van een tekst kan brengen • werkt voor sommige talen beter dan voor andere • gaat ervan uit dat mensen “nette” zinnen schrijven • en dat is meer dan problematisch met social-media-data. Meer dan sentimentscores Damian Trilling
  • 34. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Het tweede scherm Het tweede scherm Welke discussies worden tijdens tv-debatten op het tweede scherm gevoerd? Trilling, D. (2015). Two different debates? Investigating the relationship between a political debate on TV and simultaneous comments on Twitter. Social Science Computer Review, 33(3), 259–276. doi:10.1177/0894439314537886 Meer dan sentimentscores Damian Trilling
  • 35. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Het tweede scherm Onderzoeksvragen In hoeverre komen de uitingen van politici tijdens een tv-debat terug in online discussies op het tweede scherm? RQ1 Welke onderwerpen worden benadrukt door de kandidaten? RQ2 Welke onderwerpen worden benadrukt door Twittergebruikers? RQ3 Met welke onderwerpen worden de kandidaten in verband gebracht op Twitter? Meer dan sentimentscores Damian Trilling
  • 36. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Het tweede scherm Methode Meer dan sentimentscores Damian Trilling
  • 37. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Het tweede scherm Methode Data • transcript van het debat • tweets met hashtag #tvduell • N = 120, 557 tweets van N = 24, 796 gebruikers • 22-9-2013, 20.30-22.00 Meer dan sentimentscores Damian Trilling
  • 38. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Het tweede scherm Methode Data • transcript van het debat • tweets met hashtag #tvduell • N = 120, 557 tweets van N = 24, 796 gebruikers • 22-9-2013, 20.30-22.00 De analyse • Een aantal zelfgeschreven Python scripts: 1 preprocessing (stemming, stopword removal) 2 woorden tellen 3 log likelihood (corpus comparison): hoe kenmerkend is een woord voor een corpus? 4 visualisatie van co-occurrences Meer dan sentimentscores Damian Trilling
  • 39. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Het tweede scherm Meest kenmerkende woorden op tv LL word Frequency Merkel Frequency Steinbr¨uc 27,73 merkel 0 20 19,41 arbeitsplatz [job] 14 0 15,25 steinbruck 11 0 9,70 koalition [coaltion] 7 0 9,70 international 7 0 9,70 gemeinsam [together] 7 0 8,55 griechenland [Greece] 10 1 8,32 investi [investment] 6 0 6,93 uberzeug [belief] 5 0 6,93 okonom [economic] 0 5 Meer dan sentimentscores Damian Trilling
  • 40. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Het tweede scherm Meest kenmerkende woorden op Twitter LL word Frequency Merkel Frequency Ste 32443,39 merkel 29672 0 30751,65 steinbrueck 0 17780 1507,08 kett [necklace] 1628 34 1241,14 vertrau [trust] 1240 12 863,84 fdp [a coalition partner] 985 29 775,93 nsa 1809 298 626,49 wikipedia 40 502 574,65 twittert [tweets] 40 469 544,87 koalition [coalition] 864 77 517,99 gold 669 34 Meer dan sentimentscores Damian Trilling
  • 41. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Het tweede scherm Waarmee worden de politici geassocieerd? Merkel • halsketting • vertrouwen (sarcastisch bedoeld) • NSA-schandaal • coalitiepartijen Steinbr¨uck • suggestie om iets op te zoeken op Wikipedia • tweets van zijn eigen account tijdens het debat Meer dan sentimentscores Damian Trilling
  • 42.
  • 43. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Nieuws delen op social media Nieuws delen op social media Welke artikelen op nieuwssites worden het vaakst op social media gedeeld? Trilling, D., Tolochko, P., & Burscher, B. (2015, June). Viral news: How to predict news sharing based on article characteristics. Paper presented at the World Association for Public Opinion Research Conference, Buenos Aires, Argentinia. Meer dan sentimentscores Damian Trilling
  • 44. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Nieuws delen op social media De data Meer dan sentimentscores Damian Trilling
  • 45. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Nieuws delen op social media De data Artikeldata • januari 2014—augustus 2014 • automatische query van RSS-feeds 1x/uur • naast opslaan van RSS-data: meteen volledige webpagina downloaden • Later: de gedownloade pagina’s parsen (Python) en relevante informatie extraheren Meer dan sentimentscores Damian Trilling
  • 46. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Nieuws delen op social media De data Artikeldata • januari 2014—augustus 2014 • automatische query van RSS-feeds 1x/uur • naast opslaan van RSS-data: meteen volledige webpagina downloaden • Later: de gedownloade pagina’s parsen (Python) en relevante informatie extraheren Sharing-data • tijdsverschil van 1 maand of langer • Facebook, Twitter, Google API-queries (Python) om aantal shares voor elke URL in de RSS-dataset te achterhalen Meer dan sentimentscores Damian Trilling
  • 47. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Nieuws delen op social media Wat kun je eruit halen? Meer dan sentimentscores Damian Trilling
  • 48. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Nieuws delen op social media Wat kun je eruit halen? met parsing, regular expressions etc. • auteur (ANP? eigen journalist?) • plaats/land Meer dan sentimentscores Damian Trilling
  • 49. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Nieuws delen op social media Wat kun je eruit halen? met parsing, regular expressions etc. • auteur (ANP? eigen journalist?) • plaats/land met supervised machine learning • onderwerp (categorie¨en) • binnenland/buitenland • human interest (ja/nee) • conflict (ja/nee) Meer dan sentimentscores Damian Trilling
  • 50. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Nieuws delen op social media Wat kun je eruit halen? Meer dan sentimentscores Damian Trilling
  • 51. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Nieuws delen op social media Wat kun je eruit halen? met woordfrequenties • aandacht voor hetzelfde onderwerp tussen nieuwssites Meer dan sentimentscores Damian Trilling
  • 52. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Nieuws delen op social media Wat kun je eruit halen? met woordfrequenties • aandacht voor hetzelfde onderwerp tussen nieuwssites met sentimentanalyse • positiviteit • negativiteit Meer dan sentimentscores Damian Trilling
  • 53. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Nieuws delen op social media Enkele resultaten Meer dan sentimentscores Damian Trilling
  • 54. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Nieuws delen op social media Enkele resultaten Twitter • Meeste artikelen <100 shares; maar enkele >4,000 • Geen shares: 10% • Maar: 73% krijgen ≤ 10 shares Meer dan sentimentscores Damian Trilling
  • 55. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Nieuws delen op social media Enkele resultaten Twitter • Meeste artikelen <100 shares; maar enkele >4,000 • Geen shares: 10% • Maar: 73% krijgen ≤ 10 shares Facebook • Vergelijkbaar, maar meer spreiding: • Geen shares: 30% • Top-3: 48.689, 53,844 en 79,975 interacties Meer dan sentimentscores Damian Trilling
  • 56. Negative binomial regressions Twitter Facebook Controls Site: AD 3.952∗∗∗ (3.888, 4.018) 8.469∗∗∗ (8.145, 8.804) Site: NRC 8.191∗∗∗ (7.979, 8.409) 13.831∗∗∗ (12.923, 14.812) Site: NU 15.872∗∗∗ (15.445, 16.312) 62.446∗∗∗ (58.326, 66.915) Site: Trouw 1.743∗∗∗ (1.710, 1.777) 0.859∗∗∗ (0.820, 0.900) Site: Volkskrant 2.365∗∗∗ (2.321, 2.409) 1.078∗∗ (1.029, 1.129) Days since t0 0.999∗∗∗ (0.999, 1.000) 1.002∗∗∗ (1.002, 1.002) Length (in 1000 characters) 1.165∗∗∗ (1.159, 1.171) 1.275∗∗∗ (1.257, 1.294) Topic: defense and foreign affairs 0.803∗∗∗ (0.786, 0.821) 0.671∗∗∗ (0.635, 0.708) Topic: political system 0.992 (0.968, 1.017) 0.797∗∗∗ (0.749, 0.847) Topic: economic policy 1.007 (0.980, 1.035) 0.631∗∗∗ (0.589, 0.675) Topic: social affairs & education 1.413∗∗∗ (1.376, 1.451) 1.436∗∗∗ (1.342, 1.538) Topic: law and order 0.871∗∗∗ (0.853, 0.889) 0.638∗∗∗ (0.607, 0.671) Topic: infrastructure 1.101∗∗∗ (1.071, 1.131) 0.953 (0.891, 1.020) Topic: science & technology 1.129∗∗∗ (1.070, 1.191) 2.037∗∗∗ (1.786, 2.334) Topic: culture & entertainment 1.136∗∗∗ (1.110, 1.162) 1.525∗∗∗ (1.439, 1.616) Topic: weather & disasters 0.787∗∗∗ (0.741, 0.836) 1.607∗∗∗ (1.394, 1.862) Topic: sports 0.636∗∗∗ (0.623, 0.648) 0.357∗∗∗ (0.341, 0.374) Shareworthiness based on news values Domestic topic 1.288∗∗∗ (1.271, 1.305) 1.837∗∗∗ (1.779, 1.896) Geographical distance: 0km 1.141∗∗∗ (1.097, 1.187) 0.958 (0.870, 1.054) Geographical distance: <500km 0.869∗∗∗ (0.831, 0.908) 0.526∗∗∗ (0.472, 0.585) Geographical distance: <1,000km 0.875∗∗∗ (0.837, 0.913) 0.568∗∗∗ (0.511, 0.632) Geographical distance: <2,000km 0.906∗∗∗ (0.870, 0.944) 0.712∗∗∗ (0.644, 0.786) Geographical distance: <5,000km 0.953∗ (0.917, 0.990) 0.731∗∗∗ (0.664, 0.803) Geographical distance: <10,000km 0.942∗∗ (0.906, 0.979) 0.709∗∗∗ (0.644, 0.779) Cultural distance: Non-Western country 0.956∗ (0.921, 0.992) 1.108∗ (1.010, 1.218) Cultural distance: Western country 1.140∗∗∗ (1.098, 1.183) 1.665∗∗∗ (1.522, 1.824) Negativity 1.026∗∗∗ (1.019, 1.033) 1.079∗∗∗ (1.061, 1.097) Conflict 1.105∗∗∗ (1.092, 1.119) 1.093∗∗∗ (1.061, 1.125) Human interest 1.002 (0.988, 1.017) 1.330∗∗∗ (1.281, 1.379) Shareworthiness based on online identity Positivity 1.043∗∗∗ (1.037, 1.049) 1.164∗∗∗ (1.146, 1.182) Press-agency 0.666∗∗∗ (0.657, 0.675) 0.276∗∗∗ (0.267, 0.285) topic popularity score 0.740∗∗∗ (0.705, 0.778) 2.142∗∗∗ (1.884, 2.439) Nagelkerke Pseudo-R2 .56 .36 Log Likelihood −422,314.200 −381,856.200 θ 1.307∗∗∗ (0.006) 0.188∗∗∗ (0.001) AIC 844,694.400 763,778.400 Note. N = 132, 682. Incidence rate ratios (IRRs) with confidence intervals. Values < 1 indicate a negative effect, values > 1 a positive effect. ∗p < .05; ∗∗p < .01; ∗∗∗p < .001
  • 58. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Conclusie Computational social science (“Big Data”) -benadering is geen wondermiddel, maar een nuttige aanvulling. Je kunt veel meer met de data dan je zou denken. We moeten interdisciplinair samenwerken (sociale wetenschappen, informatica, (kwantitatieve) taalkunde) Meer dan sentimentscores Damian Trilling
  • 59. Boumans, J.W. & Trilling, D. (forthcoming).Time to take stock of the toolkit: An overview of relevant automated content analysis approaches and techniques for digital journalism scholars. Digital Journalism.
  • 60. Beschouw de technieken die ik heb laten zien als een gereedschapskist waaruit je het meest geschikte werktuig voor jouw onderzoek moet kiezen.
  • 61. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie Vragen? d.c.trilling@uva.nl @damian0604 www.damiantrilling.net Meer dan sentimentscores Damian Trilling