Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

Korpusbasierte Online-Dialoganalyse
am Beispiel Twitter

Agnes Mainka
Heinrich-Heine-Universität Düsseldorf
2. DGI-Konferenz
22. und 23. März 2012, Düsseldorf

Fragestellungen

1. Kann man Dialoge auf Twitter automatisch extrahieren?

2. Gibt es eine typische Zeitspanne für Dialoge?

3. Kann man thematische Dialoge mittels automatischer „Part of
Speech Tagging“-Analyse finden?

23.03.2012 @Agnieszka_M 2

Neue Herausforderungen der Dialoganalyse
durch Onlinediskurse

Analyse von oralen Konversationen:
„Die Kunst des Gesprächs“

Neue Technologien wie Handys verändern
Gesprächsverläufe

Gespräche finden zunehmend in sozialen
Netzwerken statt

Smartphones machen es möglich, von überall
an Online-Dialogen teilzunehmen


Dialoge auf Twitter

RT @Irgendwer

Reden über @Irgendwer
Umgangssprache
@Paul

Paul
Emoticons
@Hans

Lara
Mehrsprachig
@Paul

Paul
@Lara
Abkürzungen
Tippfehler
Lara
@Paul


Korpuserstellung

Zugriff auf die Tweets über die Twitter-API

Möglichkeiten und Begrenzung des Zugriffs auf die Dialoge
über die Twitter-Timeline:

• Lokale Sicherung der Timeline ist nur begrenzt möglich

• Es sind max. 100 Anfragen pro Stunde über die Twitter-API möglich

• Abrufe der Timelines sind auf die letzten 200 Tweets begrenzt

• Daten können als JSON oder XML gespeichert werden


Korpuserstellung

Arbeitsschritte:
31.08.2011: Download der Timelines der ersten 20 Nutzer (JSON)

31.08.2011: Speicherung der Tweets vom 29.8. bis 31.8.

31.08.2011: Herausfiltern aller @Mentions aus dem Tweetbestand
ohne RT @User

31.08.2011: Download aller Timelines der @Mentions

31.08.2011: Wiederholung der Schritte 3 und 4 (viermal)

02.09.2011: Aktualisierung der vorhandenen Timelines

05.09.2011: Aktualisierung der vorhandenen Timelines


Korpuserstellung
Daten der 20 Start-
Twitternutzer Min. Max.
Korpus: Account erstellt 2006 2011
Tweets gepostet 386 45957
Follower 80 1148
In Listen 5 166

• „RT @User“ wurden aus dem Untersuchungskorpus
herausgefiltert

• 241 Timelines wurden lokal gespeichert

• Untersuchungsgegenstand sind alle öffentlich geposteten Tweets
zwischen Montag dem 29. August 2011 und Sonntag dem 04.
September 2011

• Nur 19 % (5.570 Tweets) des Korpus für die weitere
Untersuchung verwendet, da sie min. eine @Mention enthalten


Fragestellung 1:
Kann man Dialoge auf Twitter automatisch extrahieren?

Metainformationen der JSON-Datei
Bezeichnung in der Json Datei Bedeutung
(Twitter-Timeline)

„screen_name“ Enthält den Benutzernamen des Nutzers, der den Tweet verfasst
hat. (Jeder Benutzername ist eindeutig, da er nur einmal an einen
Benutzer vergeben wird)
„id“ Enthält eine eindeutige ID, die jedem Tweet zugeordnet wird.
„text“ Enthält den Text des Tweets.
„created_at“ Enthält das Datum, an dem der Tweet gepostet wurde.
„in_reply_to_status_id“ Enthält die ID des Tweets auf den der Text Bezug nimmt.

„in_reply_to_screen_name“ Enthält den Benutzernamen des Nutzers, auf den der Text Bezug
nimmt.

Automatische Extraktion von Dialogen

Extraktion von Dialogketten mit Python

Tweet 1 Tweet 2 Tweet 3

…
id = 1 in reply to = 1 in reply to = 2

id = 2 id = 3


Automatische Extraktion von Dialogen

Extraktion von Dialogketten mit Python
Anzahl der Dialogketten

Anzahl der Turns

23.03.2012 @Agnieszka_M 10

Fragestellung 2:
Gibt es eine typische Zeitspanne für Dialoge?

Zeitlicher Abstand zwischen Tweets in einem Dialog

• Untersuchung der Zeit im Mittel hat kein eindeutiges Ergebnis
gebracht

• Nur in 14 der 86 Dialogketten haben sich drei Twitternutzer
beteiligt, sonst waren es zwei Nutzer

• Durchschnittlicher Turnwechsel zwischen zwei und
sieben Minuten
• Schnellste Antwort: acht Sekunden
• Späteste Antwort: eine Woche

23.03.2012 @Agnieszka_M 11

Fragestellung 2:
Gibt es eine typische Zeitspanne für Dialoge?

Zeitlicher Abstand zwischen Tweets in einem Dialog

23.03.2012 @Agnieszka_M 12

Fragestellung 3:
Kann man thematische Dialoge mittels POS-Tagging finden?
Twitternutzer 5

Automatische Annotation durch den Machinese Phrase Tagger von Connexor
token len text lemma syntax morpho form time noun phrase

1462216 7 grenzen grenzen @MAIN V INF
1462224 3 los los @ADVL ADV
1462228 3 ich ich @NH PRON
1462232 4 frag fragen @MAIN V IMP
1462237 4 mich ich @NH PRON
1462242 3 bis bis @PREMARK CS
1462246 5 heute heute @ADVL ADV
1462252 3 wie wie @PREMARK PREP
1462256 2 du du @NH PRON
1462259 4 dein dein @PREMOD PRON
1462264 3 Abi Abi @NH N Prop NP-Single
1462268 9 geschafft schaffen @MAIN V PCP PERF
1462278 4 hast haben @MAIN V IND PRES

23.03.2012 @Agnieszka_M 13

Fragestellung 3:

Was ist eine Nominalphrase (NP) ?
Was ist ein Nominalkopf (NH)?
Satz

NP Nominal- Verbal-
phrase phrase
NH
Artikel Nomen Verb
Nominal- NP
phrase
NH
Der Mann isst Artikel Nomen

den Apfel

23.03.2012 @Agnieszka_M 14

Fragestellung 3:

Anzahl der erkannten Nominalköpfe in einem Tweet

Beispiel für 16 NHs:

23.03.2012 @Agnieszka_M 15

Fragestellung 3:

Anzahl der erkannten Nominalphrasen in einem Tweet

23.03.2012 @Agnieszka_M 16

Fragestellung 3:

23.03.2012 @Agnieszka_M 17

Probleme der Phrasenanalyse

Paula
@Sahra Verwendung von Pronomen
Sahra
@Paula Geplauder ohne Themenbezug
Paula

@Sahra Frage: „wa“ – Antwort „jepp“ ???
Bernd
@Sahra Ausruf auf ersten Tweet – keine NP
Peter
@Sahra „Sowas“ – Bezug auf das Ereignis
ohne übereinstimmenden NH
23.03.2012 @Agnieszka_M 18

Probleme der Phrasenanalyse
• Nur ein kleiner Teil der Dialoge kann so erkannt werden:
• 10,7 % der 402 untersuchten Dialogketten weisen eine Übereinstimmung der
Nominalköpfe auf

• Initiale Tweets, die kein „Thema“ haben, können demnach auch nicht thematisch
passend beantwortet werden

• @-Funktion beabsichtigt nicht immer einen Dialog

• Linguistische Schwierigkeiten:
• Verwendung von Pronomen und Ellipsen
• Semantik

23.03.2012 @Agnieszka_M 19

Zusammenfassung
1. Kann man Dialoge auf Twitter automatisch extrahieren?
• Metainformationen der JSON (oder XML)-Ausgabe machen es möglich über die
Angabe „in_reply_to_status_id“ Dialoge automatisch zu finden

2. Gibt es eine typische Zeitspanne für Dialoge?
• Ein Großteil der untersuchten Twitternutzer antworten in weniger als fünf
Minuten auf einen Tweet

3. Kann man thematische Dialoge mittels automatischer „Part of Speech Tagging“-
Analyse finden?
• Nur 10 % der Twitternachrichten, die mit dem „reply_to_status_id“-Wert
deklariert werden, besitzen einen gleichen Nominalkopf

Andere Möglichkeiten?
• Verbesserung der Ergebnisse durch Verwendung von Thesauri oder Ontologien

• Die Auswertung eignet sich nur für Konversationen die ein Thema diskutieren und
nicht nur Geplauder enthalten
23.03.2012 @Agnieszka_M 20

Vielen Dank!

Heinrich-Heine-Universität Düsseldorf
agnes.mainka@hhu.de
@Agnieszka_M
Folien auf Slideshare: Agnes Mainka

23.03.2012 @Agnieszka_M 21

Quellen:
Cheng, N., Chandramouli, R., & Subbalakshmi, K. P. (2011). Author gender identification from text. Digital Investigation, 8(1), 78-88.
Crystal, D. (2011). Internet Linguistics. New York: Routledge.
Finin, T., Murnane, W., Karandikar, A., Keller, N., Martineau, J., & Dredze, M. (2010). Annotating named entities in Twitter data with crowdsourcing. In: Association for
Computational Linguistics (Hrsg.), Proceedings of the NAACL Workshop on Creating Speech and Text Language Data With Amazon's Mechanical Turk.
Fraas, C., & Pentzold, C. (2008). Online-Diskurse – Theoretische Prämissen, methodische Anforderungen und analytische Befunde. In: I. H. Warnke & J. Spitzmüller (Hrsg.), Methoden
der Diskurslinguistik. Sprachwissenschaftliche Zugänge zur transtextuellen Ebene (S. 291-326).
Franke, W. (2000). Konzepte linguistischer Dialogforschung. In: K. Brinker (Hrsg.), Text- und Gesprächslinguistik: ein internationales Handbuch zeitgenössischer Forschung (S. 346-
362). Walter de Gruyter.
Galanova, O., & Sommer, V. (2011). Neue Forschungsfelder im Netz. Erhebung, Archivierung und Analyse von Online-Diskursen als digitale Daten. In: S. Schomburg, C. Leggewie, H.
Lobin & C. Puschmann (Hrsg.), Digitale Wissenschaft: Stand und Entwicklung digital vernetzter Forschung in Deutschland (S. 89-97). HBZ: Köln.
Garton, L., Haythornthwaite, C., & Wellman, B. (1999). Studying On-Line Social Networks. In: S. Jones (Hrsg.), Doing Internet Research: Critical Issues and Methods for Examining the
Net (S. 75-105). Thousand Oaks, CA: SAGE Publications, Inc.
Jansen, B. J., Zhang, M., Sobel, K., & Chowdury, A. (2009). Twitter power: Tweets as electronic word of mouth. Journal of the American Society for Information Science and
Technology, 60(11), 2169-2188.
Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why we twitter: Understanding microblogging usage and communities. In: Proceedings of the 9th WebKDD and 1st SNA-KDD 2007
Workshop on Web Mining and Social Network Analysis at ACM SIGKDD, San Jose, California (S. 56-65). New York: ACM.
Kress, G. R. (2009). Multimodality: a social semiotic approach to contemporary communication. London: Taylor & Francis.
Kress, G. R., & van Leeuwen, T. (2001). Multimodal discourse. The modes and media of
contemporary communication. London: Arnold.
Mainka, A. (2010). Twitter: „Gezwitscher“ oder gezielte Informationsvermittlung? Information, Wissenschaft & Praxis, 61(2), 77-82.
McEnery, T. (2003). Corpus Linguistics. In: R. Mitkov (Hrsg.), The Oxford Handbook of Computational Linguistics. Oxford Handbooks in Linguistics (S. 448–463). Oxford: Oxford
University Press.
McEnery, T., & Wilson, A. (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press.
Meier, S. (2008). (Bild-)Diskurs im Netz. Konzept und Methode für eine semiotische Diskursanalyse im World Wide Web. Köln: Halem.
O’Reilly, T., Milstein, S., & Lang, J. W. (2009). Das Twitter-Buch. Köln: O’Reilly Verlag.
Schmölders, C. (1986). Die Kunst des Gesprächs. München: Deutscher Taschenbuchverlag München.
Stringhini, G., Kruegel, C., & Vigna, G. (2010). Detecting spammers on social networks. In: Proceedings of the 26th Annual Computer Security Applications Conference on - ACSAC ’10 .
Thimm, C., Dang-Anh, M., & Einspänner, J. (2011). Diskurssystem Twitter: Semiotische und handlungstheoretische Perspektiven. In: M. Anastasiadis & C. Thimm (Hrsg.), Social
Media – Theorie und Praxis digitaler Sozialität (S. 265-286). Frankfurt/New York: Peter Lang (i.Dr.).
Weller, K., Dröge, E., & Puschmann, C. (2011). Citation Analysis in Twitter: Approaches for Defining and Measuring Information Flows within Tweets during Scientific Conferences. In:
M. Rowe, M. Stankovic, A. Dadzie, & M. Hardey (Hrsg.), CEUR Workshop Proceedings Vol. 718. (S. 1-12). Crete, Greece.
Zappavigna, M. (2011). Ambient affiliation: A linguistic perspective on Twitter. New Media & Society, 13(5), 788 -806.
Bilder:
http://www.flickr.com/photos/matthamm/3383916444/
http://kfolta.blogspot.com/2010/12/scintillating-dinner-conversations.html
Twittertoaster: http://twitoaster.com/

23.03.2012 @Agnieszka_M 22

Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Korpusbasierte Online-Dialoganalyse am Beispiel Twitter