SlideShare une entreprise Scribd logo
1  sur  22
Korpusbasierte Online-Dialoganalyse
       am Beispiel Twitter

                 Agnes Mainka
      Heinrich-Heine-Universität Düsseldorf
                2. DGI-Konferenz
       22. und 23. März 2012, Düsseldorf
Fragestellungen


 1. Kann man Dialoge auf Twitter automatisch extrahieren?

 2. Gibt es eine typische Zeitspanne für Dialoge?

 3. Kann man thematische Dialoge mittels automatischer „Part of
    Speech Tagging“-Analyse finden?




 23.03.2012                  @Agnieszka_M                     2
Neue Herausforderungen der Dialoganalyse
durch Onlinediskurse

              Analyse von oralen Konversationen:
              „Die Kunst des Gesprächs“

              Neue Technologien wie Handys verändern
              Gesprächsverläufe

              Gespräche finden zunehmend in sozialen
              Netzwerken statt

              Smartphones machen es möglich, von überall
              an Online-Dialogen teilzunehmen

 23.03.2012               @Agnieszka_M                 3
Dialoge auf Twitter


                                                            RT @Irgendwer

                                                Reden über @Irgendwer
                                                      Umgangssprache
              @Paul

                 Paul
                                                            Emoticons
                @Hans

               Lara
                                                  Mehrsprachig
              @Paul

                 Paul
                 @Lara
                                              Abkürzungen
                                                            Tippfehler
                        Lara
                      @Paul


 23.03.2012                    @Agnieszka_M                              4
Korpuserstellung


              Zugriff auf die Tweets über die Twitter-API


              Möglichkeiten und Begrenzung des Zugriffs auf die Dialoge
              über die Twitter-Timeline:

              • Lokale Sicherung der Timeline ist nur begrenzt möglich

              • Es sind max. 100 Anfragen pro Stunde über die Twitter-API möglich

              • Abrufe der Timelines sind auf die letzten 200 Tweets begrenzt

              • Daten können als JSON oder XML gespeichert werden




 23.03.2012                         @Agnieszka_M                                    5
Korpuserstellung


              Arbeitsschritte:
              31.08.2011: Download der Timelines der ersten 20 Nutzer (JSON)

              31.08.2011: Speicherung der Tweets vom 29.8. bis 31.8.

              31.08.2011: Herausfiltern aller @Mentions aus dem Tweetbestand
                          ohne RT @User

              31.08.2011: Download aller Timelines der @Mentions

              31.08.2011: Wiederholung der Schritte 3 und 4 (viermal)

              02.09.2011: Aktualisierung der vorhandenen Timelines

              05.09.2011: Aktualisierung der vorhandenen Timelines

 23.03.2012                         @Agnieszka_M                               6
Korpuserstellung
                              Daten der 20 Start-
                                Twitternutzer       Min.              Max.
              Korpus:          Account erstellt     2006              2011
                               Tweets gepostet       386              45957
                                  Follower           80               1148
                                   In Listen          5                166

              • „RT @User“ wurden aus dem Untersuchungskorpus
                herausgefiltert

              • 241 Timelines wurden lokal gespeichert

              • Untersuchungsgegenstand sind alle öffentlich geposteten Tweets
                zwischen Montag dem 29. August 2011 und Sonntag dem 04.
                September 2011

              • Nur 19 % (5.570 Tweets) des Korpus für die weitere
                Untersuchung verwendet, da sie min. eine @Mention enthalten


 23.03.2012                         @Agnieszka_M                                 7
Fragestellung 1:
Kann man Dialoge auf Twitter automatisch extrahieren?


                     Metainformationen der JSON-Datei
Bezeichnung in der Json Datei Bedeutung
(Twitter-Timeline)

„screen_name“                Enthält den Benutzernamen des Nutzers, der den Tweet verfasst
                             hat. (Jeder Benutzername ist eindeutig, da er nur einmal an einen
                             Benutzer vergeben wird)
„id“                         Enthält eine eindeutige ID, die jedem Tweet zugeordnet wird.
„text“                       Enthält den Text des Tweets.
„created_at“                 Enthält das Datum, an dem der Tweet gepostet wurde.
„in_reply_to_status_id“      Enthält die ID des Tweets auf den der Text Bezug nimmt.

„in_reply_to_screen_name“    Enthält den Benutzernamen des Nutzers, auf den der Text Bezug
                             nimmt.
 23.03.2012                            @Agnieszka_M                                         8
Automatische Extraktion von Dialogen


              Extraktion von Dialogketten mit Python

  Tweet 1           Tweet 2                          Tweet 3




                                                                       …
  id = 1            in reply to = 1                  in reply to = 2



                    id = 2                           id = 3




 23.03.2012                           @Agnieszka_M                         9
Automatische Extraktion von Dialogen


                           Extraktion von Dialogketten mit Python
 Anzahl der Dialogketten




                                         Anzahl der Turns


 23.03.2012                              @Agnieszka_M               10
Fragestellung 2:
Gibt es eine typische Zeitspanne für Dialoge?


              Zeitlicher Abstand zwischen Tweets in einem Dialog

              • Untersuchung der Zeit im Mittel hat kein eindeutiges Ergebnis
                gebracht

              • Nur in 14 der 86 Dialogketten haben sich drei Twitternutzer
                beteiligt, sonst waren es zwei Nutzer

              • Durchschnittlicher Turnwechsel zwischen zwei und
                sieben Minuten
                  • Schnellste Antwort: acht Sekunden
                  • Späteste Antwort: eine Woche




 23.03.2012                         @Agnieszka_M                                11
Fragestellung 2:
Gibt es eine typische Zeitspanne für Dialoge?


              Zeitlicher Abstand zwischen Tweets in einem Dialog




 23.03.2012                   @Agnieszka_M                         12
Fragestellung 3:
Kann man thematische Dialoge mittels POS-Tagging finden?
                              Twitternutzer 5




    Automatische Annotation durch den Machinese Phrase Tagger von Connexor
 token        len   text               lemma      syntax       morpho   form   time   noun phrase


 1462216      7     grenzen            grenzen    @MAIN        V        INF
 1462224      3     los                los        @ADVL        ADV
 1462228      3     ich                ich        @NH          PRON
 1462232      4     frag               fragen     @MAIN        V        IMP
 1462237      4     mich               ich        @NH          PRON
 1462242      3     bis                bis        @PREMARK     CS
 1462246      5     heute              heute      @ADVL        ADV
 1462252      3     wie                wie        @PREMARK     PREP
 1462256      2     du                 du         @NH          PRON
 1462259      4     dein               dein       @PREMOD      PRON
 1462264      3     Abi                Abi        @NH          N        Prop          NP-Single
 1462268      9     geschafft          schaffen   @MAIN        V        PCP    PERF
 1462278      4     hast               haben      @MAIN        V        IND    PRES


 23.03.2012                                          @Agnieszka_M                                   13
Fragestellung 3:
Kann man thematische Dialoge mittels POS-Tagging finden?

Was ist eine Nominalphrase (NP) ?
Was ist ein Nominalkopf (NH)?
                                          Satz


              NP          Nominal-                        Verbal-
                           phrase                         phrase
                                     NH
                   Artikel       Nomen           Verb
                                                                    Nominal-           NP
                                                                     phrase
                                                                                  NH
                    Der          Mann            isst        Artikel       Nomen



                                                              den              Apfel

 23.03.2012                                @Agnieszka_M                                     14
Fragestellung 3:
Kann man thematische Dialoge mittels POS-Tagging finden?

              Anzahl der erkannten Nominalköpfe in einem Tweet




                                                 Beispiel für 16 NHs:




 23.03.2012                       @Agnieszka_M                          15
Fragestellung 3:
Kann man thematische Dialoge mittels POS-Tagging finden?

         Anzahl der erkannten Nominalphrasen in einem Tweet




 23.03.2012                   @Agnieszka_M                    16
Fragestellung 3:
Kann man thematische Dialoge mittels POS-Tagging finden?




 23.03.2012                @Agnieszka_M                    17
Probleme der Phrasenanalyse




               Paula
                 @Sahra                                       Verwendung von Pronomen
                       Sahra
                 @Paula                          Geplauder ohne Themenbezug
                       Paula

                         @Sahra         Frage: „wa“ – Antwort „jepp“ ???
              Bernd
                 @Sahra           Ausruf auf ersten Tweet – keine NP
              Peter
                 @Sahra                                „Sowas“ – Bezug auf das Ereignis
                                                       ohne übereinstimmenden NH
 23.03.2012                             @Agnieszka_M                                      18
Probleme der Phrasenanalyse
• Nur ein kleiner Teil der Dialoge kann so erkannt werden:
   • 10,7 % der 402 untersuchten Dialogketten weisen eine Übereinstimmung der
       Nominalköpfe auf

• Initiale Tweets, die kein „Thema“ haben, können demnach auch nicht thematisch
  passend beantwortet werden

• @-Funktion beabsichtigt nicht immer einen Dialog

• Linguistische Schwierigkeiten:
    • Verwendung von Pronomen und Ellipsen
    • Semantik




  23.03.2012                          @Agnieszka_M                                19
Zusammenfassung
1. Kann man Dialoge auf Twitter automatisch extrahieren?
    • Metainformationen der JSON (oder XML)-Ausgabe machen es möglich über die
       Angabe „in_reply_to_status_id“ Dialoge automatisch zu finden

2. Gibt es eine typische Zeitspanne für Dialoge?
    • Ein Großteil der untersuchten Twitternutzer antworten in weniger als fünf
        Minuten auf einen Tweet

3. Kann man thematische Dialoge mittels automatischer „Part of Speech Tagging“-
   Analyse finden?
    • Nur 10 % der Twitternachrichten, die mit dem „reply_to_status_id“-Wert
       deklariert werden, besitzen einen gleichen Nominalkopf

Andere Möglichkeiten?
• Verbesserung der Ergebnisse durch Verwendung von Thesauri oder Ontologien

• Die Auswertung eignet sich nur für Konversationen die ein Thema diskutieren und
  nicht nur Geplauder enthalten
  23.03.2012                          @Agnieszka_M                                  20
Vielen Dank!


             Heinrich-Heine-Universität Düsseldorf
                    agnes.mainka@hhu.de
                       @Agnieszka_M
              Folien auf Slideshare: Agnes Mainka




23.03.2012                   @Agnieszka_M            21
Quellen:
Cheng, N., Chandramouli, R., & Subbalakshmi, K. P. (2011). Author gender identification from text. Digital Investigation, 8(1), 78-88.
Crystal, D. (2011). Internet Linguistics. New York: Routledge.
Finin, T., Murnane, W., Karandikar, A., Keller, N., Martineau, J., & Dredze, M. (2010). Annotating named entities in Twitter data with crowdsourcing. In: Association for
Computational Linguistics (Hrsg.), Proceedings of the NAACL Workshop on Creating Speech and Text Language Data With Amazon's Mechanical Turk.
Fraas, C., & Pentzold, C. (2008). Online-Diskurse – Theoretische Prämissen, methodische Anforderungen und analytische Befunde. In: I. H. Warnke & J. Spitzmüller (Hrsg.), Methoden
der Diskurslinguistik. Sprachwissenschaftliche Zugänge zur transtextuellen Ebene (S. 291-326).
Franke, W. (2000). Konzepte linguistischer Dialogforschung. In: K. Brinker (Hrsg.), Text- und Gesprächslinguistik: ein internationales Handbuch zeitgenössischer Forschung (S. 346-
362). Walter de Gruyter.
Galanova, O., & Sommer, V. (2011). Neue Forschungsfelder im Netz. Erhebung, Archivierung und Analyse von Online-Diskursen als digitale Daten. In: S. Schomburg, C. Leggewie, H.
Lobin & C. Puschmann (Hrsg.), Digitale Wissenschaft: Stand und Entwicklung digital vernetzter Forschung in Deutschland (S. 89-97). HBZ: Köln.
Garton, L., Haythornthwaite, C., & Wellman, B. (1999). Studying On-Line Social Networks. In: S. Jones (Hrsg.), Doing Internet Research: Critical Issues and Methods for Examining the
Net (S. 75-105). Thousand Oaks, CA: SAGE Publications, Inc.
Jansen, B. J., Zhang, M., Sobel, K., & Chowdury, A. (2009). Twitter power: Tweets as electronic word of mouth. Journal of the American Society for Information Science and
Technology, 60(11), 2169-2188.
Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why we twitter: Understanding microblogging usage and communities. In: Proceedings of the 9th WebKDD and 1st SNA-KDD 2007
Workshop on Web Mining and Social Network Analysis at ACM SIGKDD, San Jose, California (S. 56-65). New York: ACM.
Kress, G. R. (2009). Multimodality: a social semiotic approach to contemporary communication. London: Taylor & Francis.
Kress, G. R., & van Leeuwen, T. (2001). Multimodal discourse. The modes and media of
contemporary communication. London: Arnold.
Mainka, A. (2010). Twitter: „Gezwitscher“ oder gezielte Informationsvermittlung? Information, Wissenschaft & Praxis, 61(2), 77-82.
McEnery, T. (2003). Corpus Linguistics. In: R. Mitkov (Hrsg.), The Oxford Handbook of Computational Linguistics. Oxford Handbooks in Linguistics (S. 448–463). Oxford: Oxford
University Press.
McEnery, T., & Wilson, A. (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press.
Meier, S. (2008). (Bild-)Diskurs im Netz. Konzept und Methode für eine semiotische Diskursanalyse im World Wide Web. Köln: Halem.
O’Reilly, T., Milstein, S., & Lang, J. W. (2009). Das Twitter-Buch. Köln: O’Reilly Verlag.
Schmölders, C. (1986). Die Kunst des Gesprächs. München: Deutscher Taschenbuchverlag München.
Stringhini, G., Kruegel, C., & Vigna, G. (2010). Detecting spammers on social networks. In: Proceedings of the 26th Annual Computer Security Applications Conference on - ACSAC ’10 .
Thimm, C., Dang-Anh, M., & Einspänner, J. (2011). Diskurssystem Twitter: Semiotische und handlungstheoretische Perspektiven. In: M. Anastasiadis & C. Thimm (Hrsg.), Social
Media – Theorie und Praxis digitaler Sozialität (S. 265-286). Frankfurt/New York: Peter Lang (i.Dr.).
Weller, K., Dröge, E., & Puschmann, C. (2011). Citation Analysis in Twitter: Approaches for Defining and Measuring Information Flows within Tweets during Scientific Conferences. In:
M. Rowe, M. Stankovic, A. Dadzie, & M. Hardey (Hrsg.), CEUR Workshop Proceedings Vol. 718. (S. 1-12). Crete, Greece.
Zappavigna, M. (2011). Ambient affiliation: A linguistic perspective on Twitter. New Media & Society, 13(5), 788 -806.
Bilder:
http://www.flickr.com/photos/matthamm/3383916444/
http://kfolta.blogspot.com/2010/12/scintillating-dinner-conversations.html
Twittertoaster: http://twitoaster.com/

    23.03.2012                                                                   @Agnieszka_M                                                                                 22

Contenu connexe

En vedette

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

En vedette (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

  • 1. Korpusbasierte Online-Dialoganalyse am Beispiel Twitter Agnes Mainka Heinrich-Heine-Universität Düsseldorf 2. DGI-Konferenz 22. und 23. März 2012, Düsseldorf
  • 2. Fragestellungen 1. Kann man Dialoge auf Twitter automatisch extrahieren? 2. Gibt es eine typische Zeitspanne für Dialoge? 3. Kann man thematische Dialoge mittels automatischer „Part of Speech Tagging“-Analyse finden? 23.03.2012 @Agnieszka_M 2
  • 3. Neue Herausforderungen der Dialoganalyse durch Onlinediskurse Analyse von oralen Konversationen: „Die Kunst des Gesprächs“ Neue Technologien wie Handys verändern Gesprächsverläufe Gespräche finden zunehmend in sozialen Netzwerken statt Smartphones machen es möglich, von überall an Online-Dialogen teilzunehmen 23.03.2012 @Agnieszka_M 3
  • 4. Dialoge auf Twitter RT @Irgendwer Reden über @Irgendwer Umgangssprache @Paul Paul Emoticons @Hans Lara Mehrsprachig @Paul Paul @Lara Abkürzungen Tippfehler Lara @Paul 23.03.2012 @Agnieszka_M 4
  • 5. Korpuserstellung Zugriff auf die Tweets über die Twitter-API Möglichkeiten und Begrenzung des Zugriffs auf die Dialoge über die Twitter-Timeline: • Lokale Sicherung der Timeline ist nur begrenzt möglich • Es sind max. 100 Anfragen pro Stunde über die Twitter-API möglich • Abrufe der Timelines sind auf die letzten 200 Tweets begrenzt • Daten können als JSON oder XML gespeichert werden 23.03.2012 @Agnieszka_M 5
  • 6. Korpuserstellung Arbeitsschritte: 31.08.2011: Download der Timelines der ersten 20 Nutzer (JSON) 31.08.2011: Speicherung der Tweets vom 29.8. bis 31.8. 31.08.2011: Herausfiltern aller @Mentions aus dem Tweetbestand ohne RT @User 31.08.2011: Download aller Timelines der @Mentions 31.08.2011: Wiederholung der Schritte 3 und 4 (viermal) 02.09.2011: Aktualisierung der vorhandenen Timelines 05.09.2011: Aktualisierung der vorhandenen Timelines 23.03.2012 @Agnieszka_M 6
  • 7. Korpuserstellung Daten der 20 Start- Twitternutzer Min. Max. Korpus: Account erstellt 2006 2011 Tweets gepostet 386 45957 Follower 80 1148 In Listen 5 166 • „RT @User“ wurden aus dem Untersuchungskorpus herausgefiltert • 241 Timelines wurden lokal gespeichert • Untersuchungsgegenstand sind alle öffentlich geposteten Tweets zwischen Montag dem 29. August 2011 und Sonntag dem 04. September 2011 • Nur 19 % (5.570 Tweets) des Korpus für die weitere Untersuchung verwendet, da sie min. eine @Mention enthalten 23.03.2012 @Agnieszka_M 7
  • 8. Fragestellung 1: Kann man Dialoge auf Twitter automatisch extrahieren? Metainformationen der JSON-Datei Bezeichnung in der Json Datei Bedeutung (Twitter-Timeline) „screen_name“ Enthält den Benutzernamen des Nutzers, der den Tweet verfasst hat. (Jeder Benutzername ist eindeutig, da er nur einmal an einen Benutzer vergeben wird) „id“ Enthält eine eindeutige ID, die jedem Tweet zugeordnet wird. „text“ Enthält den Text des Tweets. „created_at“ Enthält das Datum, an dem der Tweet gepostet wurde. „in_reply_to_status_id“ Enthält die ID des Tweets auf den der Text Bezug nimmt. „in_reply_to_screen_name“ Enthält den Benutzernamen des Nutzers, auf den der Text Bezug nimmt. 23.03.2012 @Agnieszka_M 8
  • 9. Automatische Extraktion von Dialogen Extraktion von Dialogketten mit Python Tweet 1 Tweet 2 Tweet 3 … id = 1 in reply to = 1 in reply to = 2 id = 2 id = 3 23.03.2012 @Agnieszka_M 9
  • 10. Automatische Extraktion von Dialogen Extraktion von Dialogketten mit Python Anzahl der Dialogketten Anzahl der Turns 23.03.2012 @Agnieszka_M 10
  • 11. Fragestellung 2: Gibt es eine typische Zeitspanne für Dialoge? Zeitlicher Abstand zwischen Tweets in einem Dialog • Untersuchung der Zeit im Mittel hat kein eindeutiges Ergebnis gebracht • Nur in 14 der 86 Dialogketten haben sich drei Twitternutzer beteiligt, sonst waren es zwei Nutzer • Durchschnittlicher Turnwechsel zwischen zwei und sieben Minuten • Schnellste Antwort: acht Sekunden • Späteste Antwort: eine Woche 23.03.2012 @Agnieszka_M 11
  • 12. Fragestellung 2: Gibt es eine typische Zeitspanne für Dialoge? Zeitlicher Abstand zwischen Tweets in einem Dialog 23.03.2012 @Agnieszka_M 12
  • 13. Fragestellung 3: Kann man thematische Dialoge mittels POS-Tagging finden? Twitternutzer 5 Automatische Annotation durch den Machinese Phrase Tagger von Connexor token len text lemma syntax morpho form time noun phrase 1462216 7 grenzen grenzen @MAIN V INF 1462224 3 los los @ADVL ADV 1462228 3 ich ich @NH PRON 1462232 4 frag fragen @MAIN V IMP 1462237 4 mich ich @NH PRON 1462242 3 bis bis @PREMARK CS 1462246 5 heute heute @ADVL ADV 1462252 3 wie wie @PREMARK PREP 1462256 2 du du @NH PRON 1462259 4 dein dein @PREMOD PRON 1462264 3 Abi Abi @NH N Prop NP-Single 1462268 9 geschafft schaffen @MAIN V PCP PERF 1462278 4 hast haben @MAIN V IND PRES 23.03.2012 @Agnieszka_M 13
  • 14. Fragestellung 3: Kann man thematische Dialoge mittels POS-Tagging finden? Was ist eine Nominalphrase (NP) ? Was ist ein Nominalkopf (NH)? Satz NP Nominal- Verbal- phrase phrase NH Artikel Nomen Verb Nominal- NP phrase NH Der Mann isst Artikel Nomen den Apfel 23.03.2012 @Agnieszka_M 14
  • 15. Fragestellung 3: Kann man thematische Dialoge mittels POS-Tagging finden? Anzahl der erkannten Nominalköpfe in einem Tweet Beispiel für 16 NHs: 23.03.2012 @Agnieszka_M 15
  • 16. Fragestellung 3: Kann man thematische Dialoge mittels POS-Tagging finden? Anzahl der erkannten Nominalphrasen in einem Tweet 23.03.2012 @Agnieszka_M 16
  • 17. Fragestellung 3: Kann man thematische Dialoge mittels POS-Tagging finden? 23.03.2012 @Agnieszka_M 17
  • 18. Probleme der Phrasenanalyse Paula @Sahra Verwendung von Pronomen Sahra @Paula Geplauder ohne Themenbezug Paula @Sahra Frage: „wa“ – Antwort „jepp“ ??? Bernd @Sahra Ausruf auf ersten Tweet – keine NP Peter @Sahra „Sowas“ – Bezug auf das Ereignis ohne übereinstimmenden NH 23.03.2012 @Agnieszka_M 18
  • 19. Probleme der Phrasenanalyse • Nur ein kleiner Teil der Dialoge kann so erkannt werden: • 10,7 % der 402 untersuchten Dialogketten weisen eine Übereinstimmung der Nominalköpfe auf • Initiale Tweets, die kein „Thema“ haben, können demnach auch nicht thematisch passend beantwortet werden • @-Funktion beabsichtigt nicht immer einen Dialog • Linguistische Schwierigkeiten: • Verwendung von Pronomen und Ellipsen • Semantik 23.03.2012 @Agnieszka_M 19
  • 20. Zusammenfassung 1. Kann man Dialoge auf Twitter automatisch extrahieren? • Metainformationen der JSON (oder XML)-Ausgabe machen es möglich über die Angabe „in_reply_to_status_id“ Dialoge automatisch zu finden 2. Gibt es eine typische Zeitspanne für Dialoge? • Ein Großteil der untersuchten Twitternutzer antworten in weniger als fünf Minuten auf einen Tweet 3. Kann man thematische Dialoge mittels automatischer „Part of Speech Tagging“- Analyse finden? • Nur 10 % der Twitternachrichten, die mit dem „reply_to_status_id“-Wert deklariert werden, besitzen einen gleichen Nominalkopf Andere Möglichkeiten? • Verbesserung der Ergebnisse durch Verwendung von Thesauri oder Ontologien • Die Auswertung eignet sich nur für Konversationen die ein Thema diskutieren und nicht nur Geplauder enthalten 23.03.2012 @Agnieszka_M 20
  • 21. Vielen Dank! Heinrich-Heine-Universität Düsseldorf agnes.mainka@hhu.de @Agnieszka_M Folien auf Slideshare: Agnes Mainka 23.03.2012 @Agnieszka_M 21
  • 22. Quellen: Cheng, N., Chandramouli, R., & Subbalakshmi, K. P. (2011). Author gender identification from text. Digital Investigation, 8(1), 78-88. Crystal, D. (2011). Internet Linguistics. New York: Routledge. Finin, T., Murnane, W., Karandikar, A., Keller, N., Martineau, J., & Dredze, M. (2010). Annotating named entities in Twitter data with crowdsourcing. In: Association for Computational Linguistics (Hrsg.), Proceedings of the NAACL Workshop on Creating Speech and Text Language Data With Amazon's Mechanical Turk. Fraas, C., & Pentzold, C. (2008). Online-Diskurse – Theoretische Prämissen, methodische Anforderungen und analytische Befunde. In: I. H. Warnke & J. Spitzmüller (Hrsg.), Methoden der Diskurslinguistik. Sprachwissenschaftliche Zugänge zur transtextuellen Ebene (S. 291-326). Franke, W. (2000). Konzepte linguistischer Dialogforschung. In: K. Brinker (Hrsg.), Text- und Gesprächslinguistik: ein internationales Handbuch zeitgenössischer Forschung (S. 346- 362). Walter de Gruyter. Galanova, O., & Sommer, V. (2011). Neue Forschungsfelder im Netz. Erhebung, Archivierung und Analyse von Online-Diskursen als digitale Daten. In: S. Schomburg, C. Leggewie, H. Lobin & C. Puschmann (Hrsg.), Digitale Wissenschaft: Stand und Entwicklung digital vernetzter Forschung in Deutschland (S. 89-97). HBZ: Köln. Garton, L., Haythornthwaite, C., & Wellman, B. (1999). Studying On-Line Social Networks. In: S. Jones (Hrsg.), Doing Internet Research: Critical Issues and Methods for Examining the Net (S. 75-105). Thousand Oaks, CA: SAGE Publications, Inc. Jansen, B. J., Zhang, M., Sobel, K., & Chowdury, A. (2009). Twitter power: Tweets as electronic word of mouth. Journal of the American Society for Information Science and Technology, 60(11), 2169-2188. Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why we twitter: Understanding microblogging usage and communities. In: Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 Workshop on Web Mining and Social Network Analysis at ACM SIGKDD, San Jose, California (S. 56-65). New York: ACM. Kress, G. R. (2009). Multimodality: a social semiotic approach to contemporary communication. London: Taylor & Francis. Kress, G. R., & van Leeuwen, T. (2001). Multimodal discourse. The modes and media of contemporary communication. London: Arnold. Mainka, A. (2010). Twitter: „Gezwitscher“ oder gezielte Informationsvermittlung? Information, Wissenschaft & Praxis, 61(2), 77-82. McEnery, T. (2003). Corpus Linguistics. In: R. Mitkov (Hrsg.), The Oxford Handbook of Computational Linguistics. Oxford Handbooks in Linguistics (S. 448–463). Oxford: Oxford University Press. McEnery, T., & Wilson, A. (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press. Meier, S. (2008). (Bild-)Diskurs im Netz. Konzept und Methode für eine semiotische Diskursanalyse im World Wide Web. Köln: Halem. O’Reilly, T., Milstein, S., & Lang, J. W. (2009). Das Twitter-Buch. Köln: O’Reilly Verlag. Schmölders, C. (1986). Die Kunst des Gesprächs. München: Deutscher Taschenbuchverlag München. Stringhini, G., Kruegel, C., & Vigna, G. (2010). Detecting spammers on social networks. In: Proceedings of the 26th Annual Computer Security Applications Conference on - ACSAC ’10 . Thimm, C., Dang-Anh, M., & Einspänner, J. (2011). Diskurssystem Twitter: Semiotische und handlungstheoretische Perspektiven. In: M. Anastasiadis & C. Thimm (Hrsg.), Social Media – Theorie und Praxis digitaler Sozialität (S. 265-286). Frankfurt/New York: Peter Lang (i.Dr.). Weller, K., Dröge, E., & Puschmann, C. (2011). Citation Analysis in Twitter: Approaches for Defining and Measuring Information Flows within Tweets during Scientific Conferences. In: M. Rowe, M. Stankovic, A. Dadzie, & M. Hardey (Hrsg.), CEUR Workshop Proceedings Vol. 718. (S. 1-12). Crete, Greece. Zappavigna, M. (2011). Ambient affiliation: A linguistic perspective on Twitter. New Media & Society, 13(5), 788 -806. Bilder: http://www.flickr.com/photos/matthamm/3383916444/ http://kfolta.blogspot.com/2010/12/scintillating-dinner-conversations.html Twittertoaster: http://twitoaster.com/ 23.03.2012 @Agnieszka_M 22