Conceptualizing and measuring news exposure as network of users and news items
NPSO
1. Meer dan sentimentscores: inzichten destilleren
uit een enorme hoeveelheid data
Damian Trilling
d.c.trilling@uva.nl
@damian0604
www.damiantrilling.net
Afdeling Communicatiewetenschap
Universiteit van Amsterdam
Jaarbijeenkomst van het
Nederlandstalig Platform voor Surveyonderzoek (NPSO)
22 September 2015
2. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Wie ben ik?
Damian Trilling
Meer dan sentimentscores Damian Trilling
3. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Wie ben ik?
Damian Trilling
• is Universitair Docent Politieke Communicatie en Journalistiek
aan de Universiteit van Amsterdam
Meer dan sentimentscores Damian Trilling
4. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Wie ben ik?
Damian Trilling
• is Universitair Docent Politieke Communicatie en Journalistiek
aan de Universiteit van Amsterdam
• is ge¨ınteresseerd in de vraag hoe veranderingen in het
medialandschap en technologische innovaties van invloed zijn
op de manier waarop burgers het nieuws volgen
Meer dan sentimentscores Damian Trilling
5. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Wie ben ik?
Damian Trilling
• is Universitair Docent Politieke Communicatie en Journalistiek
aan de Universiteit van Amsterdam
• is ge¨ınteresseerd in de vraag hoe veranderingen in het
medialandschap en technologische innovaties van invloed zijn
op de manier waarop burgers het nieuws volgen
• richt zich vooral op de geautomatiseerde analyse van digitale
data
Meer dan sentimentscores Damian Trilling
6. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Waar ga ik het over hebben?
1 Zegen en vloek: een enorme hoeveelheid data
Zegen en vloek
Verschillende benaderingen: wat wil je weten?
2 Welke methoden zijn er?
Enkele voorbeelden
Een voorlopige indeling
3 Twee studies
Het tweede scherm
Nieuws delen op social media
4 Conclusie
Meer dan sentimentscores Damian Trilling
8. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Waar surveys goed in zijn – en waarin niet
Meer dan sentimentscores Damian Trilling
9. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Waar surveys goed in zijn – en waarin niet
voordelen
• representatief (soms)
• flexibel: jij kunt de vragen bedenken
• data in een gestandardiseerd
formaat: makkelijk te verwerken
• beproefde methode
Meer dan sentimentscores Damian Trilling
10. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Waar surveys goed in zijn – en waarin niet
voordelen
• representatief (soms)
• flexibel: jij kunt de vragen bedenken
• data in een gestandardiseerd
formaat: makkelijk te verwerken
• beproefde methode
nadelen
• je kunt niets te weten komen wat je
niet hebt gevraagd
• je kunt geen daadwerkelijk gedrag
meten
• kosten
• surveymoeheid, validiteit?
• breed ipv diep
• niet geschikt om weinig voorkomend
gedrag, kleine subpopulaties etc. te
onderzoeken
Meer dan sentimentscores Damian Trilling
11. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Waar surveys goed in zijn – en waarin niet
voordelen
• representatief (soms)
• flexibel: jij kunt de vragen bedenken
• data in een gestandardiseerd
formaat: makkelijk te verwerken
• beproefde methode
nadelen
• je kunt niets te weten komen wat je
niet hebt gevraagd
• je kunt geen daadwerkelijk gedrag
meten
• kosten
• surveymoeheid, validiteit?
• breed ipv diep
• niet geschikt om weinig voorkomend
gedrag, kleine subpopulaties etc. te
onderzoeken
“⇒ we moeten iets met Big Data/social/media/. . . ”
Meer dan sentimentscores Damian Trilling
12. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Een aanvulling op (en geen vervanging van)
surveyonderzoek. . .
In plaats van zelf “gecre¨eerde” surveydata data analyseren die door
mensen zelf worden gecre¨eerd
Meer dan sentimentscores Damian Trilling
13. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Een aanvulling op (en geen vervanging van)
surveyonderzoek. . .
In plaats van zelf “gecre¨eerde” surveydata data analyseren die door
mensen zelf worden gecre¨eerd
iedereen laat sporen achter op sociale media etc.
Meer dan sentimentscores Damian Trilling
14. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Een aanvulling op (en geen vervanging van)
surveyonderzoek. . .
In plaats van zelf “gecre¨eerde” surveydata data analyseren die door
mensen zelf worden gecre¨eerd
iedereen laat sporen achter op sociale media etc.
Maar er zijn ook grote datasets die alleen nooit systematisch
geanalyseerd zijn (open data)
Meer dan sentimentscores Damian Trilling
15. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Een aanvulling op (en geen vervanging van)
surveyonderzoek. . .
In plaats van zelf “gecre¨eerde” surveydata data analyseren die door
mensen zelf worden gecre¨eerd
iedereen laat sporen achter op sociale media etc.
Maar er zijn ook grote datasets die alleen nooit systematisch
geanalyseerd zijn (open data)
De grote vraag: Hoe analyseer je het?
Meer dan sentimentscores Damian Trilling
17. Verschillende benaderingen: wat wil je weten?
Stel we hebben 500.000 tweets (of comments, Facebookposts of
productrecensies) over een bepaald onderwerp. . .
18. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Verschillende benaderingen
Je zou natuurlijk. . .
• een steekproef kunnen trekken, deze handmatig coderen en
later “gewoon” statistisch analyseren
• alleen naar de interessantste/het vaakst geretweete/. . . tweets
kunnen kijken en deze kwalitatief analyseren
Meer dan sentimentscores Damian Trilling
19. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Verschillende benaderingen
Maar misschien is het beter om. . .
een methode te hebben die
• gebruik maakt van alle beschikbare informatie
• (hopelijk) diepe(re) of tenminste aanvullende inzichten levert
• maar tegelijkertijd een behapbaar overzicht geeft?
Meer dan sentimentscores Damian Trilling
20. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Welke methoden zijn er?
Meer dan sentimentscores Damian Trilling
21. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Welke methoden zijn er?
Enkele voorbeelden
Jonkman, J.G.F., Trilling, D., Verhoeven, P., & Vliegenthart, R. (2015, June). Topical
variation in company news: An assessment of the diversity of topics in Dutch
newspaper coverage of media prominent corporations. Paper presented at BledCom,
Bled, Slovenia.
Trilling, D. & Jonkman, J. (2015, June). Packing and unpacking the Bag of Words:
Introducing a toolkit for inductive automated frame analysis. Paper presented at the
World Association for Public Opinion Research Conference, Buenos Aires, Argentinia.
Meer dan sentimentscores Damian Trilling
22. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Voorbeeld: aandacht over tijd
Hoe vaak worden bedrijven in het nieuws genoemd?
Methode: turven.
Meer dan sentimentscores Damian Trilling
23. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Voorbeeld: Onderwerpen identificeren
Waar gaat economisch nieuws over? (1)
Methode: Topic modelling (Latent Dirichlet Allocation)
Meer dan sentimentscores Damian Trilling
24. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Voorbeeld: Onderwerpen identificeren
Waar gaat economisch nieuws over? (2)
Methode: Principal Component Analysis
Meer dan sentimentscores Damian Trilling
25. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Voorbeeld: Onderwerpen identificeren
Waar gaat economisch nieuws over? (3)
Methode: Visualisatie van samen genoemde woorden
Meer dan sentimentscores Damian Trilling
27. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Ook bij automatische inhoudsanalyse: deductief en
inductief
Meer dan sentimentscores Damian Trilling
28. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Ook bij automatische inhoudsanalyse: deductief en
inductief
Deductief
• simpel: turven (zoektermen,
woordenlijsten, . . . )
• geavanceerd: supervised
machine learning
Meer dan sentimentscores Damian Trilling
29. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Ook bij automatische inhoudsanalyse: deductief en
inductief
Deductief
• simpel: turven (zoektermen,
woordenlijsten, . . . )
• geavanceerd: supervised
machine learning
Inductief
• woordfrequenties en
co-occurrences
• visualisatie
• principale-
componentenanalyse
(PCA)
• clusteranalyse
• topic modelling, m.n.
latent dirichlet allocation
(LDA)
• . . .
Meer dan sentimentscores Damian Trilling
30. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Alles op ´e´en hoop gooien of rekening houden met de
zinsstructuur?
Meer dan sentimentscores Damian Trilling
31. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Alles op ´e´en hoop gooien of rekening houden met de
zinsstructuur?
bag of words (BOW)
• simpel
• te simplistisch?
• niet in staat om met
ontkenningen etc. om te
gaan
• maar werkt vaak wel! (goed
genoeg)
Meer dan sentimentscores Damian Trilling
32. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Alles op ´e´en hoop gooien of rekening houden met de
zinsstructuur?
bag of words (BOW)
• simpel
• te simplistisch?
• niet in staat om met
ontkenningen etc. om te
gaan
• maar werkt vaak wel! (goed
genoeg)
parsing (= zinnen ontleden)
• krachtige methode die je
dichter bij de betekenis van
een tekst kan brengen
• werkt voor sommige talen
beter dan voor andere
• gaat ervan uit dat mensen
“nette” zinnen schrijven
• en dat is meer dan
problematisch met
social-media-data.
Meer dan sentimentscores Damian Trilling
34. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Het tweede scherm
Welke discussies worden tijdens tv-debatten op het tweede scherm
gevoerd?
Trilling, D. (2015). Two different debates? Investigating the relationship between a
political debate on TV and simultaneous comments on Twitter. Social Science
Computer Review, 33(3), 259–276. doi:10.1177/0894439314537886
Meer dan sentimentscores Damian Trilling
35. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Onderzoeksvragen
In hoeverre komen de uitingen van politici tijdens een tv-debat
terug in online discussies op het tweede scherm?
RQ1 Welke onderwerpen worden benadrukt door de
kandidaten?
RQ2 Welke onderwerpen worden benadrukt door
Twittergebruikers?
RQ3 Met welke onderwerpen worden de kandidaten in
verband gebracht op Twitter?
Meer dan sentimentscores Damian Trilling
36. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Methode
Meer dan sentimentscores Damian Trilling
37. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Methode
Data
• transcript van het
debat
• tweets met hashtag
#tvduell
• N = 120, 557 tweets
van N = 24, 796
gebruikers
• 22-9-2013,
20.30-22.00
Meer dan sentimentscores Damian Trilling
38. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Methode
Data
• transcript van het
debat
• tweets met hashtag
#tvduell
• N = 120, 557 tweets
van N = 24, 796
gebruikers
• 22-9-2013,
20.30-22.00
De analyse
• Een aantal zelfgeschreven Python
scripts:
1 preprocessing (stemming,
stopword removal)
2 woorden tellen
3 log likelihood (corpus
comparison): hoe kenmerkend is
een woord voor een corpus?
4 visualisatie van co-occurrences
Meer dan sentimentscores Damian Trilling
39. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Meest kenmerkende woorden op tv
LL word Frequency Merkel Frequency Steinbr¨uc
27,73 merkel 0 20
19,41 arbeitsplatz [job] 14 0
15,25 steinbruck 11 0
9,70 koalition [coaltion] 7 0
9,70 international 7 0
9,70 gemeinsam [together] 7 0
8,55 griechenland [Greece] 10 1
8,32 investi [investment] 6 0
6,93 uberzeug [belief] 5 0
6,93 okonom [economic] 0 5
Meer dan sentimentscores Damian Trilling
40. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Meest kenmerkende woorden op Twitter
LL word Frequency Merkel Frequency Ste
32443,39 merkel 29672 0
30751,65 steinbrueck 0 17780
1507,08 kett [necklace] 1628 34
1241,14 vertrau [trust] 1240 12
863,84 fdp [a coalition partner] 985 29
775,93 nsa 1809 298
626,49 wikipedia 40 502
574,65 twittert [tweets] 40 469
544,87 koalition [coalition] 864 77
517,99 gold 669 34
Meer dan sentimentscores Damian Trilling
41. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Waarmee worden de politici geassocieerd?
Merkel
• halsketting
• vertrouwen (sarcastisch
bedoeld)
• NSA-schandaal
• coalitiepartijen
Steinbr¨uck
• suggestie om iets op te
zoeken op Wikipedia
• tweets van zijn eigen
account tijdens het debat
Meer dan sentimentscores Damian Trilling
42.
43. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Nieuws delen op social media
Welke artikelen op nieuwssites worden het vaakst op social media
gedeeld?
Trilling, D., Tolochko, P., & Burscher, B. (2015, June). Viral news: How to predict
news sharing based on article characteristics. Paper presented at the World
Association for Public Opinion Research Conference, Buenos Aires, Argentinia.
Meer dan sentimentscores Damian Trilling
44. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
De data
Meer dan sentimentscores Damian Trilling
45. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
De data
Artikeldata
• januari 2014—augustus 2014
• automatische query van RSS-feeds 1x/uur
• naast opslaan van RSS-data: meteen volledige webpagina
downloaden
• Later: de gedownloade pagina’s parsen (Python) en relevante
informatie extraheren
Meer dan sentimentscores Damian Trilling
46. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
De data
Artikeldata
• januari 2014—augustus 2014
• automatische query van RSS-feeds 1x/uur
• naast opslaan van RSS-data: meteen volledige webpagina
downloaden
• Later: de gedownloade pagina’s parsen (Python) en relevante
informatie extraheren
Sharing-data
• tijdsverschil van 1 maand of langer
• Facebook, Twitter, Google API-queries (Python) om aantal
shares voor elke URL in de RSS-dataset te achterhalen
Meer dan sentimentscores Damian Trilling
47. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
Meer dan sentimentscores Damian Trilling
48. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
met parsing, regular expressions etc.
• auteur (ANP? eigen journalist?)
• plaats/land
Meer dan sentimentscores Damian Trilling
49. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
met parsing, regular expressions etc.
• auteur (ANP? eigen journalist?)
• plaats/land
met supervised machine learning
• onderwerp (categorie¨en)
• binnenland/buitenland
• human interest (ja/nee)
• conflict (ja/nee)
Meer dan sentimentscores Damian Trilling
50. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
Meer dan sentimentscores Damian Trilling
51. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
met woordfrequenties
• aandacht voor hetzelfde onderwerp tussen nieuwssites
Meer dan sentimentscores Damian Trilling
52. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
met woordfrequenties
• aandacht voor hetzelfde onderwerp tussen nieuwssites
met sentimentanalyse
• positiviteit
• negativiteit
Meer dan sentimentscores Damian Trilling
53. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Enkele resultaten
Meer dan sentimentscores Damian Trilling
54. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Enkele resultaten
Twitter
• Meeste artikelen <100 shares; maar enkele >4,000
• Geen shares: 10%
• Maar: 73% krijgen ≤ 10 shares
Meer dan sentimentscores Damian Trilling
55. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Enkele resultaten
Twitter
• Meeste artikelen <100 shares; maar enkele >4,000
• Geen shares: 10%
• Maar: 73% krijgen ≤ 10 shares
Facebook
• Vergelijkbaar, maar meer spreiding:
• Geen shares: 30%
• Top-3: 48.689, 53,844 en 79,975 interacties
Meer dan sentimentscores Damian Trilling
58. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Conclusie
Computational social science (“Big Data”) -benadering is geen
wondermiddel, maar een nuttige aanvulling.
Je kunt veel meer met de data dan je zou denken.
We moeten interdisciplinair samenwerken (sociale wetenschappen,
informatica, (kwantitatieve) taalkunde)
Meer dan sentimentscores Damian Trilling
59. Boumans, J.W. & Trilling, D. (forthcoming).Time to take stock of the toolkit: An
overview of relevant automated content analysis approaches and techniques for digital
journalism scholars. Digital Journalism.
60. Beschouw de technieken die ik heb laten zien als een
gereedschapskist waaruit je het meest geschikte werktuig voor jouw
onderzoek moet kiezen.
61. Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Vragen?
d.c.trilling@uva.nl
@damian0604
www.damiantrilling.net
Meer dan sentimentscores Damian Trilling