Veranstaltung im Rahmen der GESIS-Workshop-Reihe, siehe http://www.gesis.org/veranstaltungen/gesis-workshops/2014-twitter/.
Die Folien beginnen mit einer allgemeinen Einführung in Twitter - wer Twitter bereits selbst nutzt, kann ab Folie 46 einsteigen.
Twitter-Daten in der sozialwissenschaftlichen Forschung – Möglichkeiten und Herausforderungen
1. Twitter-Daten in der sozialwissenschaftlichen Forschung: Möglichkeiten und Herausforderungen
16. Oktober 2014, 10:30-17:00 17. Oktober 2014, 9:30-15:00
GESIS Workshop, Köln
Dr. Katrin Weller, katrin.weller@gesis.org, @kwelle
1
3. Aufbau des Workshops
Ziele
•Twitter als Datenquelle kennenlernen
•Einschätzen lernen, was mit Twitter-Daten möglich ist, und was nicht
•Überblick über Herangehensweisen, Methoden, Stand der Forschung, Schwierigkeiten
3
4. Aufbau des Workshops
Tag 1: Möglichkeiten
10:30-10:45 Begrüßung
10:45-11:45 Was ist Twitter? Eine Einführung mit Übung.
11:45-12:30 Überblick über den Stand der Twitter-Forschung, Teil I
12:30-13:30 Mittagessen
13:30-15:00 Überblick über den Stand der Twitter-Forschung, Teil II
15:00-15:30 Kaffeepause
15:30-17:00 Möglichkeiten zur Datenerhebung: Tools und Rahmenbedingungen
(anschließend optional: gemeinsames Abendessen)
4
5. Aufbau des Workshops
Tag 2: Herausforderungen
9:30-10:30 Übung mit Beispieldatensatz
10:30-11:00 Kaffeepause
11:00-12:30 Forschungsethik, Repräsentativität, Reproduzierbarkeit
12:30-13:30 Mittagspause
13:30-15:00 Übung zur Studien-Konzeption: Was geht, was geht nicht?
(anschließend optional: Einzelberatung für konkrete Forschungsprojekte)
5
6. Unterrichtsmaterialien
•Folien werden online zur Verfügung gestellt: http://de.slideshare.net/katrinweller
•Weiterführende Informationen: http://kwelle.wordpress.com/2013/08/14/some-useful-resources-for- starting-twitter-research/#more-100
•Sammelband Twitter & Society als PDF für Teilnehmer verfügbar
•Test-Datensätze nicht weitergeben!
6
14. Twitter in Zahlen
http://www.statista.com/statistics/282087/number-of-monthly-active-twitter-users/
14
15. Twitter in Zahlen
•March 2012: 140 million active users and 340 million Tweets a day
•December 2012: more than 200 million users
•USA, 2012: 15% of online adults use Twitter
•Germany, 2012: 4% of population
PEW Internet: http://www.pewinternet.org/Reports/2012/Twitter-Use- 2012.aspx
Twitter Blog: http://blog.twitter.com/2012/03/twitter-turns- six.html
@twitter: https://twitter.com/twitter/status/281051652235087872
ARD/ZDF online Studie http://www.ard-zdf- onlinestudie.de/fileadmin/Online12/0708- 2012_Busemann_Gscheidle.pdf
15
17. Twitter vs. Facebook
17
In Deutschland (2013)
Facebook: 72.1% (aller Internetnutzer)
Twitter: 10.5% (aller Internetnutzer)
German Social Media Consumer Report: http://www.socialmediathinklab.com/wp- content/uploads/2013/02/WWU_Social- Media-Consumer-Report_0213_Ansicht.pdf
18. Randnotizen
•Trends 2012: Olympics, Wahlen in USA.
•Twitter-Nutzer mit den meisten Followern?
•Foto mit den meisten Retweets 2012:
https://2012.twitter.com/de/golden-tweets.html
18
19. Randnotizen
•Trends 2012: Olympics, Wahlen in USA.
•Twitter-Nutzer mit den meisten Followern?
•Foto mit den meisten Retweets 2014:
https://twitter.com/TheEllenShow/status/440322224407314432/photo/1
19
23. Followers / Followees
Kwak, H., Lee, C., Park, H., & Moon, S. (2010). What is Twitter, a Social Network or a News Media? In Proceedings of the 19th International World Wide Web (WWW) Conference, April 26-30, 2010, Raleigh NC, USA.
23
26. Retweet (RT)
Kooti, F., Yang, H., Cha, M., Gummadi, K.P. & Mason, W.A. (2012). The Emergence of Conventions in Online Social Networks. Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2012), Dublin.
26
39. Übung 1: Suchen
•Nach Tweets:
–mit und ohne Hashtag
•Nach Personen
–nach dem offiziellen Account der eigenen Institution
–nach einem verifizierten Account
•(Suchen ohne Login: https://twitter.com/search-home)
39
40. Übung 2: Account anlegen
Neuer Account: https://twitter.com/signup
Tipp: kurze Namen wählen!
Wer keinen eigenen Account anlegen möchte:
Twitter Test-Account: @learn_2_tweet
Passwort: --------------
40
41. Übung 3: Folgen
•2-3 interessante Accounts aussuchen und diesen folgen
•Min. einem anderen Kursteilnehmer folgen
•Zurück-folgen!
41
42. Übung 4: Tweets schreiben
•zuerst einen ‚normalen‘ Tweet
•dann einen mit Hashtag
•und dann eine @message an einen anderen Kursteilnehmer
•und nun noch ein Retweet
•und einen Tweet favorisieren
42
43. Übung 5: Hashtag auswählen
•Einen gemeinsamen Hashtag für den Workshop festlegen
43
44. Übung 6: Trending topics
•Die Trending Topics ansehen
–Für Deutschland
–Weltweit
–Für ein anderes Land oder für die eigene Heimatstadt
44
45. Übung 7: Direct message schreiben
•Einem anderen Teilnehmer eine direct message schicken.
45
46. Überblick über den Stand der Twitter-Forschung, Teil I:
Twitter-Forschung in Zahlen
46
47. The bigger picture
Social media research 2000-today
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
No. of publications (Scopus)
47
48. Social Media Ecology
•Plattform-spezifische Studien dominieren, wenig zu plattformübergreifenden Fragestellungen.
•Links von Twitter zu anderen Plattformen und zurück.
•Multi-Postings
48
49. Welche Social Media Dienste werden erforscht?
0
100
200
300
400
500
600
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
Twitter
Facebook
YouTube
Blogs
Wikis
Foursquare
LinkedIn
MySpace
http://kwelle.wordpress.com/2014/04/07/bibliometric-analysis-of-social-media-research/
49
55. Top journals for social media research (social science papers)
0
20
40
60
80
100
120
Information Communication and Society
Public Relations Review
Econtent
Profesional De La Informacion
Proceedings of the Asist Annual Meeting
New Media and Society
First Monday
Procedia Social and Behavioral Sciences
18th Americas Conference on Information Systems…
Cutting Edge Technologies in Higher Education
(TITLE-ABS-KEY("social media") OR TITLE-ABS-KEY("social web") OR TITLE-ABS-KEY("social software") OR TITLE- ABS-KEY("web 2.0")) AND PUBYEAR > 1999
55
57. Big DATA? 2013: twitter and election
No. of Tweets
No. Of publications (2013)
0-500
3
501-1.000
4
1.001-5.000
1
5.001-10.000
1
10.001-50.000
7
50.001-100.000
4
100.001-500.000
5
500.001-1.000.000.
3
1.000.001-5.000.000
3
mehr als 5.000.000
3
mehr als 100.000.000
1
mehr als 1.000.000.000
1
keine/ungenaue Angabe
13
Weller, K. (2014). Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. In: R. Reichert (Ed.), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie (pp. 239-257). Bielefeld: transcript.
57
58. Big Data?
•Nicht die Größe ist entscheidend, sondern die Art der Daten und die damit verbundenen ggf. neuartigen Einblicke New Data.
•Die neuen Daten werfen aber auch viele neue Fragen auf, v.a. bezüglich der Methoden.
58
60. Year of election
Name of election
Country/region
No. of papers (2013)
Date of election
2008
40th Canadian General Election
Canada
1
14.10.2008
2009
European Parliament election, 2009
Europe
1
07.06.2009
2009
German federal election, 2009
Germany
2
27.09.2009
2010
2010 UK general election
United Kingdom
4
06.05.2010
2010
South Korean local elections, 2010
South Korea
1
02.06.2010
2010
Dutch general election, 2010
Netherlands
2
09.06.2010
2010
Australian federal election, 2010
Australia
1
21.08.2010
2010
Swedish general election, 2010
Sweden
1
19.09.2010
2010
Midterm elections / United States House of Representatives elections, 2010
USA
4
02.11.2010
2010
Gubernational elections: Georgia
USA
1
02.11.2010
2010
Gubernational elections: Ohio
USA
1
02.11.2010
2010
Gubernational elections: Rhode Island
USA
1
02.11.2010
2010
Gubernational elections: Vermont
USA
1
02.11.2010
2010
2010 superintendent elections
South Korea
1
17.12.2010
2011
Baden-Württemberg state election, 2011
Germany
1
27.03.2011
2011
Rhineland-Palatinate state election, 2011
Germany
1
27.03.2011
2011
Scottish parliament election 2011
Scotland
1
05.05.2011
2011
Singapore’s 16th parliamentary General Election
Singapore
1
07.05.2011
2011
Norwegian local elections, 2011
Norway
2
12.09.2011
2011
2011 Danish parliamentary election
Denmark
2
15.09.2011
2011
Berlin state election, 2011
Germany
2
18.09.2011
60
Weller, K. (2014). Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. In: R. Reichert (Ed.), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie (pp. 239-257). Bielefeld: transcript.
61. 2011
Scottish parliament election 2011
Scotland
1
05.05.2011
2011
Singapore’s 16th parliamentary General Election
Singapore
1
07.05.2011
2011
Norwegian local elections, 2011
Norway
2
12.09.2011
2011
2011 Danish parliamentary election
Denmark
2
15.09.2011
2011
Berlin state election, 2011
Germany
2
18.09.2011
2011
Gubernational elections: West Virginia
USA
1
04.10.2011
2011
Gubernational elections: Louisiana
USA
1
22.10.2011
2011
Swiss federal election, 2011
Switzerland
1
23.10.2011
2011
2011 Seoul mayoral elections
South Korea
1
26.10.2011
2011
Gubernational eletions: Kentucky
USA
1
08.11.2011
2011
Gubernational elections: Mississippi
USA
1
08.11.2011
2011
Spanish national election 2011
Spain
1
20.11.2011
2012
Queensland State election
Australia
1
24.03.2012
2012
South Korean legislative election, 2012
South Korea
1
11.04.2012
2012
French presidential election, 2012
France
2
22.04.2012
2012
Mexican general election, 2012
Mexico
1
01.07.2012
2012
United States presidential election, 2012 / United States House of Representatives elections, 2012
USA
17
06.11.2012
2012
South Korean presidential election, 2012
South Korea
2
19.12.2012
2013
Ecuadorian general election, 2013
Ecuador
1
17.02.2013
2013
Venezuelan presidential election, 2013
Venezuela
1
14.04.2013
2013
Paraguayan general election, 2013
Paraguay
1
21.04.2013
61
62. Top 5 Herausforderungen in der Twitter Forschung
•Representativeness and validity
•Cross-platform studies
•Comparisons
•Multi-method approaches
•Context and meaning
Bruns, Axel, and Katrin Weller. 2014. "Twitter data analytics – or: the pleasures and perils of studying Twitter (guest editorial for special issue)". Aslib Journal of Information Management 66 (3): 246-249. http://www.emeraldinsight.com/toc/ajim/66/3.
62
63. Zwischenfazit zum Forschungsstand
•Wachsendes Forschungsinteresse an Social Media allgemein, v.a. in der Informatik.
•Das Interesse an Twitter ist besonders groß.
63
64. Überblick über den Stand der Twitter-Forschung, Teil II: Twitter-Forschung in Themen
64
66. Frühe Twitter-Forschung
•Java et al. (2007) identifizieren einen Großteil an Tweets als “daily chatter”.
•Pear Analytics study: 40% of tweets are pointless babble (Kelly, 2009).
Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why we twitter: understanding microblogging usage and communities. In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web mining and social network analysis (WebKDD/SNA-KDD ’07). ACM, New York, NY, USA, 56-65. DOI=10.1145/1348549.1348556 http://doi.acm.org/10.1145/1348549.1348556
Kelly, R. (2009). Twitter Study. Pear Analytics, retrieved from http://www.pearanalytics.com/wp- content/uploads/2012/12/Twitter-Study-August-2009.pdf
66
67. Twitter Evolution
•Kommunikation bei Twitter entwickelt sich weiter
•@-Symbol für Antworten (Honeycutt & Herring, 2009)
•Retweets
Neue Studien untersuchen Kommunikationsstruktur und Netzwerke
Honeycutt, C., and Herring, Susan C. (2009). Beyond microblogging: Conversation and collaboration via Twitter. Proceedings of the Forty-Second Hawaii International Conference on System Sciences.Los Alamitos, CA IEEE Press.
Kwak, H., Lee, C., Park, H., & Moon, S. (2010). What is Twitter, a Social Net k or a News Media? In Proceedings of the 19th International World Wide Web (WWW) Conference, April 26-30, 2010, Raleigh NC, USA.
67
68. De-benalizing Twitter!
Rogers, R. (2014). Preface. In: Weller, K. et al. (Hrsg.): Twitter and Society. New York: Peter Lang.
68
73. 73
Methoden (in der Sozialw. Twitter Forschung)
Weller, K. (2014). What do we get from Twitter – and what not? A close look at Twitter research in the social sciences. Knowledge Organization. 41(3), 238-248
74. Methoden
•In der Forschung: viele Case Studies
•Noch wenig methodische Standards – aber es tut sich derzeit eine Menge
•Viele Möglichkeiten, zu experimentieren & Neues zu entdecken
74
75. Standard-Metriken?
75
•Anzahl der Tweets in einem Zeitraum
•Anzahl der Nutzer mit min. einem Tweet
•Tweets pro Nutzer
•Structural Analysis of Tweets:
–Original tweets, RTs, (modified RTs), @message
–Tweets mit URLs
76. Beispiel für einen Zeitverlauf: #mla09
Zeitachse: Messung in Stunden
Anzahl der Tweets pro Stunde
Graphik von Cornelius Puschmann
76
77. Beispiel für ein Personennetzwerk basierend auf RTs
Graphik von Cornelius Puschmann
77
80. Inhaltsanalyse
80
•CAQDAS Computer-Assisted Qualitative Data AnalysiS
–(z.B. MAXQDA, QDAMiner, ATLAS.ti, Qualrus, Nvivo)
–Speech Act Analyse
–Statistische Auswertungen
Einspänner, J., Dang-Anh, M., & Thimm, C. (2014). Computer-assisted content analysis of Twitter data. In: Weller, K., Bruns, A., Burgess, J., Mahrt, M., Puschmann, C. (Eds): Twitter and Society (pp. 97-108). New York et al.: Peter Lang.
81. Sentiment Analyse
81
Automatische Berechnung von emotionalen Tonalitäten von Tweets.
Benötigt werden Wörterbücher mit Sentiment-Werten, z.B. ANEW.
Generell mit Vorsicht zu betrachten.
Für deutsche Tweets besonders kritisch.
88. Interaktion
Paßmann, J., Boeschoten, T., & Shäfer, M.T. (2014). The Gift of the Gab: Retweet Cartels and Gift Economies on Twitter. In K. Weller, A. Bruns, J. Burgess, M. Mahrt & C. Puschmann (Eds.), Twitter and Society. New York et al.: Peter Lang.
88
89. 1. FC Köln (@fckoeln)
Borussia Mönchengladbach (@VfLBorussia)
BVB Dortmund 09 II (@BVB)
FC Bayern München (@BayMuenchen)
FC Schalke 04 II (@s04, official)
FC Schalke 04 I (@FCSchalke04, inofficial)
Hamburger SV (@HSV)
SV Werder Bremen I (@Werder_Bremen)
SV Werder Bremen II (@werderbremen)
0
10000
20000
30000
40000
50000
60000
70000
80000
Jun 11
Jul 11
Aug 11
Sep 11
Oct 11
Nov 11
Dec 11
Jan 12
Feb 12
Mar 12
Apr 12
May 12
Jun 12
number of followers
month
1. FC Augsburg (@FCAugsburg)
1. FC Kaiserslautern (@Rote_Teufel)*
1. FC Köln (@fckoeln)
1. FC Nürnberg (@1_fc_nuernberg)
1. FSV Mainz 05 (1FSVMainz05)
1899 Hoffenheim (achtzehn99)
Bayer 04 Leverkusen (@bayer04fussball)
Borussia Mönchengladbach (@VfLBorussia)
BVB Dortmund 09 I (@BVBDortmund09)
BVB Dortmund 09 II (@BVB)
FC Bayern München (@BayMuenchen)
FC Schalke 04 II (@s04, official)
FC Schalke 04 I (@FCSchalke04, inofficial)
Hamburger SV (@HSV)
Hannover 96 I (@ichbin96)
Hannover 96 II (@hannover96)
Hertha BSC Berlin (@HerthaBSC)*
SC Freiburg (@sc_freiburg)
SV Werder Bremen I (@Werder_Bremen)
SV Werder Bremen II (@werderbremen)
VfB Stuttgart (@VfB)
Bruns, Axel, Katrin Weller, and Stephen Harrington. 2014. "Twitter and sports: football fandom in emerging and established markets". InTwitter and society, edited by Katrin Weller, Axel Bruns, Jean Burgess, Merja Mahrt, and Cornelius Puschmann, 263-280. New Yort u.a.: Peter Lang.
Follower-Zahlen
90. http://www.guardian.co.uk/uk/2011/dec/07/twitter-riots-how-news-spread
Bilder
90
Vis, F., Faulkner, S., Parry, K., Manyukhina, Y., Evens, L. 2014. „Twitpic-ing the riots: analyzing images shared on Twitter during the 2011 U.K. riots". InTwitter and society, edited by Katrin Weller, Axel Bruns, Jean Burgess, Merja Mahrt, and Cornelius Puschmann, 385-398. New Yort u.a.: Peter Lang.
91. Bruns, A., & Burgess, J. (2012). Notes towards the scientific study of Twitter. In Tokar, A., Beurskens, M., Keuneke, S., Mahrt, M., Peters, I., Puschmann, C., van Treeck, T., & Weller, K. (Eds.). (2012). Science and the Internet (pp. 159-169). Düsseldorf: Düsseldorf University Press http://nfgwin.uni-duesseldorf.de/sites/default/files/Bruns.pdf
91
Hashtags
92. Mediale Kommunikation
Groshek, J., & Groshek, M. C. (2013). Agenda trending: Reciprocity and the predictive capacity of social networking sites in intermedia agenda setting across topics over time. Media and Communication, 1(1), 15-27. doi: 10.12924/mac2013.01010015
92
94. Ausgewählte Forschungsbereiche
94
Politikwissenschaft
•Kommunikationsverhalten v.a. im Wahlkampf
•Stimmungen im Wahlkampf
•Interaktionen zwischen Parteien
•eDemocracy
95. Beispiel: Twitter & Wahlen
0
10
20
30
40
50
60
2008
2009
2010
2011
2012
2013
Twitter and elections
(Scopus and Web of Science)
Weller, K. (2014). Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. In: R. Reichert (Ed.), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie (pp. 239-257). Bielefeld: transcript.
95
96. Twitter & Wahlen
•Zahlreiche Fallstudien
•Wenig Vergleichmöglichkeiten
•Kaum Langzeitstudien
•Teilweise Bezüge zu anderen Datenquellen
96
97. Election Prediction?
•Zahlreiche Ansätze
•Bisher keine reproduzierbaren Ergebnisse
Daniel Gayo-Avello: No, You Cannot Predict Elections with Twitter. IEEE Internet Computing 16(6): 91-94 (2012)
PT Metaxas, E Mustafaraj, D Gayo-Avello (2011). How (not) to predict elections. In Privacy, security, risk and trust (PASSAT), 2011
97
98. Ausgewählte Forschungsbereiche
98
Kommunikations- und Medienwissenschaft
•Übertragung von Methoden der Medienanalyse
•Brand communication
•Crisis communication
•Verschiedene Zielgruppen, verschiedene Kommunikationssituationen
•Rolle von @messages, RTs etc.
110. Social Media Daten
•Texte
•Bilder
•Videos
•Multimedia
•Connections I (friends, followers)
•Connections II (links)
•Connections/Actions (likes, favs, comments, downloads)
•(Metadata: Zeitstempel, Geodaten)
110
111. Wie erhält man die Daten?
111
API
https://dev.twitter.com/docs/api/1.1
https://dev.twitter.com/blog
112. Twitter APIs
112
•API = Application Programming Interface
•Zugang, um Daten für Anwendungen/Apps zu verwenden
•Nicht explizit für die wissenschaftliche Nutzung vorgesehen
•Streaming API, Rest APIs, Search API
Gaffney, D., & Puschmann, C. (2014). Data Collection on Twitter. In Weller et al. (Eds). Twitter and Society (pp. 55-68). New York, et al.: Peter Lang.
113. Twitter APIs
113
1. STREAMING API
-push-basiert, Live-Stream
-Public stream vs. User stream
-Forscher brauchen Tools, die eine Verbindung zu diesem Stream aufrecht erhalten.
-Nicht rückwirkend
-Suche nach Keywords, Usern, Geo-codes
114. Twitter APIs
114
2. REST + SEARCH API
•Eingeschränkte Anzahl Anfragen pro Stunde
•Verschiedene Möglichkeiten, die Twitter-Oberfläche „ferngesteuert“ zu bedienen, u.a. die Suche
•Liefert u.a. Suchergebnisse aus kürzlich veröffentlichten Tweets
•Social graph data (wer folgt wem)
•Trending topics
•Und vieles mehr
https://dev.twitter.com/docs/using-search
120. „historische“ Tweets
•verschwinden nicht, sind aber über die Suche nach wenigen Tagen i.d.R. nicht mehr auffindbar
–Alternativ: über die ID abfragen
–Über Nutzerprofilseiten sind Tweets noch zugänglich (max. die letzten 3200 Tweets eines Nutzers).
•bilden Twitters Geschäftsmodell hohe Kosten
120
121. Volumenbegrenzungen
•Normal (Spritzer): max. 1% des aktuellen Datenvolumens
•Gardenhose: ca. 10%
•Firehose: kompletter Zugang
Geschäftsmodell!
Morstatter et al. (2013): http://www.aaai.org/ocs/index.php/ICWSM/ICWSM13/paper/viewFile/6071/6379
121
122. Weitere Begrenzungen
•Rate limit: Begrenzung der Anzahl an Abfragen pro 15- Minuten Fenster.
•Begrenzungen für die normale Nutzung (z.B. max. Anzahl an veröffentlichten Tweets pro Tag).
https://dev.twitter.com/overview/general/things-every-developer-should-know
https://dev.twitter.com/rest/public/rate-limiting
122
123. Rechtlicher Rahmen
•Terms of Services: https://twitter.com/tos
•Twitter Privacy Policy: https://twitter.com/privacy
•Developer’s Rules of the Road: https://dev.twitter.com/terms/api-terms
124. Privilegierte Zugänge
•Kooperationspartner mit Firehose Zugang (Whitelist)
•Data Grants – Ausschreibung: 6 aus 1300 https://blog.twitter.com/2014/twitter-datagrants-selections
•MIT Laboratory for Social Machines. http://newsoffice.mit.edu/2014/twitter- funds-mit-media-lab-program-1001
•(Library of Congress) http://blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-the- library-of-congress/
124
132. Datasift
•Preismodell:
–Monatsgebühr plus Preise pro abgerufene Daten
–Historische Tweets sind teurer als aktuelle
http://dev.datasift.com/docs/billing
132
136. Übung
http://topsy.com
-Bei Topsy suchen nach a) einem Nutzer, b) einem Stichwort, c) einem Hashtag.
-Bei Topsy Analytics zwei Nutzer und zwei Hashtags vergleichen.
-Auffälligkeiten?
136
147. Datensammlung in der Praxis
Datenquelle
Anzahl
Keine Angabe
11
Manuelle Datensammlung auf der Twitter-Website (Copy-Paste / Screenshot)
6
Twitter API (one näheren Angaben)
8
Twitter Search API
3
Twitter Streaming API
1
Twitter Rest API
1
Twitter API user timeline
1
Selbstgeschriebenes Programm mit Zugriff auf Twitter APIs
4
Twitter Gardenhose
1
Offizielle Reseller (Gnip, DataSift)
3
YourTwapperKeeper
3
Andere Drittanbieter (z.B. Topsy)
6
Von Kooperationspartner erhalten
1
Weller, K. (2014). Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. In: R. Reichert (Ed.), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie (pp. 239-257). Bielefeld: transcript.
Twitter and Election (2013 papers)
147
148. NodeXL
Network Analysis
Sammelt Daten aus (u.a.): Facebook, Twitter,
•YouTube, Flickr, Wikipedia
148
151. COSMOS
Burnap, P., Rana, O., Williams, M., Housley, W., Edwards, A., Morgan, J, Sloan, L. and Conejero, J. (2014) ‘COSMOS: Towards an Integrated and Scalable Service for Analyzing Social Media on Demand’, International Journal of Parallel, Emergent and Distributed Systems. DOI:10.1080/17445760.2014.902057
http://cosmosproject.net/
151
155. Sammlungen
•Max Planck Institut, Twitter tools: http://twitter-app.mpi-sws.org/
•Statistical Cybermetrics Research Group Wolverhampton: http://cybermetrics.wlv.ac.uk/resources.htm
•Liste von Twitter und Facebook Collection Tools, curated by Deen Freelon: https://docs.google.com/document/d/1UaERzROI986HqcwrBDLaqGG8X_lYwctj6ek6ryqDOiQ/edit
155
160. Herausforderungen
•Technisch: in den meisten Fällen sind technische Grundkenntnisse erforderlich
•Technisch: Datenverlust / Server downtime
•Praktisch: Rechtzeitig planen, was gesammelt werden soll
•Rechtlich: Zugangsbeschränkungen
•Finanziell: Daten einkaufen
160
163. Social Media Data
•Texte
•Bilder
•Videos
•Multimedia
•Connections I (friends, followers)
•Connections II (links)
•Connections/Actions (likes, favs, comments, downloads)
163
164. Sonderfall: URLs
•URL Shortener: bit.ly und co.
•Gekürzte URLs müssen wieder de-codiert werden – und zwar möglichst zeitnah
•Verfahren dauert lange
164
166. Landtagswahl NRW 2012
166
•Vorgezogene Wahl am 13. Mai 2012.
•Rot-grüne Mehrheit, Kraft bleibt Ministerpräsidentin
•CDU schlechtestes Ergebnis seit 1947, Rücktritt Röttgen
•Piratenpartei erstmals im Landtag
•Linke scheitert an 5%-Hürde
http://de.wikipedia.org/wiki/Landtagswahl_in_Nordrhein-Westfalen_2012
167. Fallstudie: Twitter bei der Landtagswahl NRW
-Welche Fragestellungen könnten in diesem Zusammenhang interessant sein?
-Welche Daten werden dafür benötigt?
168. Landtagswahl bei Twitter
168
Hashtag
Tweets
(27.03.-15.06.13)
#ltw12
5.656
#ltwnrw
11.116
#ltw2012
165
#ltwnrw12
1.621
#ltwnrw2012
27
#nrw12
41.106
#nrw2012
1.991
Total (ohne Dubletten)
56.145
Demmer, C.J., & Weller, K. (2013). Stimmungsschwankungen bei Twitter? Eine Sentiment-Analyse anhand von Tweets nach der Landtagswahl in Nordrhein-Westfalen 2012. In H.-C. Hobohm (Ed.), Proceedings of the 13th International Symposium of Information Science (ISI 2013), Potsdam, March 2013 (pp. 482-485). Glückstadt: Hülsbusch.
169. Personen und Parteien bei Twitter
@nrwspd
@gruenenrw
@cdunrw_de
@fdp_nrw
@dielinkenrw
@piratennrw
170. Personen und Parteien bei Twitter
@hannelorekraft
(Sylvia Löhrmann)
(Norbert Röttgen)
@c_lindner
Katharina Schwabedissen
@Nick_Haflinger
173. Wer diskutiert mit?
•Aufgabe: #nrw12 oder #ltw12 oder #tlwnrw Tweets öffnen
•Nutzer identifizieren, die min. einen Tweet geschrieben haben.
•Wie viele Nutzer haben genau einen Tweet?
•Wie sieht die Verteilung der Tweets pro User aus?
•Wer sind die fünf aktivsten Nutzer?
174. Hashtag-Diskussion 27.03.-15.06.2013
174
•10.438 User
•Davon 5.048 mit mehr als 1 Tweet
•2.046 mit mehr als 5 Tweets
0
100
200
300
400
500
600
700
1
501
1001
1501
2001
Tweets pro User
175. Was machen die Kandidaten?
•Aufgabe: einen der Kandidaten auswählen, Dateien fromKandidat und atKandidat öffnen
•Wie viele Tweets hat „ihr Kandidat“ veröffentlicht?
•Wie viele @messages und Retweets hat „ihr“ Kandidat erhalten?
•Was wurde besonders häufig geretweetet?
176. Netzwerk: Bundestagswahl
176
following
Lietz, H., Wagner, C., Bleier, A., & Strohmaier, M. (2014). When politicians talk: Assessing online conversational practices of political parties on twitter. In International AAAI Conference on Weblogs and Social Media (ICWSM2014), Ann Arbor, MI, USA, June 2-4, 2014.
mentioning
retweeting
177. Weitere Einblicke
•#ltw12 Tweets
•Wie viele Tweets haben einen Geo-Code?
•Tweets im Zeitverlauf?
177
178. Zeitverlauf Bundestagswahl
Gummer, T., Roßmann, J., & Wolf, C. (2014). Candidates’ Twitter Use in the German Election 2013. Presentation at the General Online Research 2014, Cologne, Germany.
179. Zeitverlauf Bundestagswahl
Gummer, T., Roßmann, J., & Wolf, C. (2014). Candidates’ Twitter Use in the German Election 2013. Presentation at the General Online Research 2014, Cologne, Germany.
180. Tweet-Inhalte
1.Manuelle Codierung
–Ca. 10 Tweets lesen – was fällt auf?
–Zu zweit: versuchen Sie einen Entwurf für die Codierung von Tweet-Inhalten aufzustellen
181. Tweet-Inhalte
2. Automatische Analyse möglich?
–Problem: deutschsprachige Texte
–http://sentistrength.wlv.ac.uk/ ausprobieren mit einzelnen englischen Tweets (z.B. Twitter suche nach election https://twitter.com/search)
187. Forschungsethik
•Anonymisierung/Pseudonymisierung möglich bzw. nötig?
•Richtlinien für den Umgang mit Personendaten?
Aktuelle Hinweise
•So wenig personenbezogene Daten wie möglich teilen
•Tweet-Sammlungen nicht öffentlich zur Verfügung stellen
192. Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Online Research GOR 14.
Retrieved from: http://conftool.gor.de/conftool14/index.php?page=downloadPaper&filename=Blank-
Who_uses_Twitter_Representativeness-119.pptx&form_id=119&form_version=final
13
29
14
44
17
51
32
56
44
69
54
74
44
82
67
87
75
87
73
99
0
20
40
60
80
100
Creative Vice
produc-tion
Blog-ging
School
&
work
Info-tain-ment
Commer-cial
activity
Enter-tain-ment
Classic
news
Infor-mation
seeking
Social-ize
OxIS current users: 2013 N=1,613
Figure 2: Activities of Twitter Users & Non-users
Twitter user Non-user
Repräsentativität
193. Repräsentativität
Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Online Research GOR 14. Retrieved from: http://conftool.gor.de/conftool14/index.php?page=downloadPaper&filename=Blank- Who_uses_Twitter_Representativeness-119.pptx&form_id=119&form_version=final
342681218141017122328333035020406080100 InterestPolitical activitiesInterestin politicsSendpoliticalmessageContactMP onlineRe-postpoliticalnewsPoliticalcommenton SNSFindpoliticalfactsSignonlinepetition OxIS current users: 2013 N=1,613Figure 6: Political Activities of Twitter UsersTwitter userNon-user
194. Repräsentativitätsprobleme auf mehreren Ebenen
“About a third of all UK Internet users have a twitter profile; a subset of that group are the active tweeters who produce the bulk of content; and then a tiny subset of that group (about 1%) geocode their tweets (essential information if you want to know about where your information is coming from).”
Graham M. (2012). Big data and the end of theory?". The Guardian. Retrieved from: http://www.theguardian.com/news/datablog/2012/mar/09/big-data-theory
195. Repräsentativität
•“estimating demographic data from a sample of more than 113 million Twitter users collected during July 2012”
•“Of the 48% of Twitter users for which we could identify gender, approximately 45% were male and approximately 47% were female.”
L.Sloan, J.Morgan, W.Housley, M.L.Williams, A.Edwards, P.Burnap, and O.Rana, Knowing the tweeters: Deriving sociologically relevant demographics from twitter, Sociological Res. Online, 18 (2013).
196. Gefahren durch fehlende Repräsentativität
•Diskussion: Menschen, die durch Big Data nicht repräsentiert sind
http://streetbump.org
Siehe auch: http://www.wired.com/2014/03/potholes-big-data- crowdsourcing-way-better-government/
198. Repräsentativität?
beeinflusst von:
•Nutzerzahlen
•Zeitpunkt/Dauer der Datenerhebung
•Datenauswahl
Wie Stichproben festlegen? Wie Zeiträume auswählen?
Beispiel: letzte x tweets vs. Jeden xten Tweet.
200. Verlässlichkeit
200
•Verifizierte Accounts
•Verifizierte Inhalte?
A definitive guide to verifying digital content for emergency coverage http://verificationhandbook.com/
207. Studien planen
•Was soll untersucht werden?
•Warum brauche ich dafür Twitter-Daten?
•Welche Art Twitter-Daten benötige ich?
•Vorab-Recherche! (Thema, Keywords, Akteure, besondere Vorkommnisse).
208. Kriterien zur Datenerhebung
208
Typischerweise:
-Tweets eines bestimmten Nutzers
-Tweets, die einen Nutzer erwähnen
-Tweets, die ein Wort (Zeichenkette) oder ein Hashtag enthalten
Diverse weitere, z.B.
-Anzahl und Namen der Follower eines Accounts
-Tweets, die eine bestimmte URL (domain) enthalten
-Zufällige Tweets in einem bestimmten Zeitraum
-Tweets mit Geo-Code
-Uvm.
210. Probleme
•Wie lange / wie häufig sollen Daten gesammelt werden?
•Mit welcher Technik sollen Daten gesammelt werden?
•Mit welchen Suchkriterien sollen Daten gesammelt werden?
•Wie sollen die Daten später ausgewertet werden?
•Wer soll alles damit arbeiten?
212. Technische Feinheiten
•Manuelle vs. Button Retweets
•URLs erkennen und auflösen
•@messages vs. @mentions
•Informationen über einzelne Twitter-Nutzer herausfinden
•Hashtag vs. Volltextsuche
213. Datenbereinigung
•Mehrere Datensätze zusammenfügen und dabei Dubletten entfernen.
•‚False positives‘ entfernen (z.B. bvb)
•Ggf. Dateiformate für die Bearbeitung in Analysetools anpassen
216. Studiendesign
Wählen Sie eine der folgenden Fragestellungen / Szenarien
•Welche Daten werden benötigt?
•Wie können diese erhoben werden? Wie muss vorgegangen werden?
•Was muss beachtet werden?
•Welche Probleme können auftreten?
Kurzpräsentation des eigenen Ansatzes
217. Fall 1
•Disaster Response bei einer Naturkatastrophe
–Nachrichten melden drohende Unwetter und Hochwasser in Nordrhein-Westfahlen.
–Untersucht werden soll wie verschiedene Akteure Twitter zur Krisenkommunikation nutzen.
218. Fall 2
•Twitter als TV Backchannel bei einem Sportgroßereignis (z.B. Fußball-WM)
–Wie agieren und interagieren verschiedene Fan- Gruppen?
–Untersucht werden sollen Aktivitäten im Verlauf des Turniers.
220. Was geht? Was geht nicht?
•Alle Tweets, die sich auf ein bestimmtes Ereignis beziehen?
•Alle Tweets eines Nutzers?
•Alle Personen, die zu einer bestimmten Gruppe gehören (z.B. Bundestagskandidaten)
•Alle Tweets, die auf eine bestimmte Webseite verlinken?
221. Was geht? Was geht nicht?
•Alle Tweets, die sich auf ein bestimmtes Ereignis beziehen?
•Alle Tweets eines Nutzers?
•Alle Personen, die zu einer bestimmten Gruppe gehören (z.B. Bundestagskandidaten)
•Alle Tweets, die auf eine bestimmte Webseite verlinken?
231. Vielen Dank für Ihre Teilnahme!
Dr. Katrin Weller ● GESIS Leibniz Institut für Sozialwissenschaften
katrin.weller@gesis.org ● @kwelle ● http://katrinweller.net