Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
1Stefan Dietze
Backup
Human in the Loop: das Web als Grundlage interdisziplinärer
Data Science-Methoden und Fragestellunge...
2Stefan Dietze
Web Suche nach…
• Dokumente
• Fakten
• Claims
• Meinungen
3Stefan Dietze
Web Suche nach…
• Dokumente
• Fakten
• Claims
• Meinungen
4Stefan Dietze
Web Suche nach…
• Dokumente
• Fakten
• Claims
• Meinungen
5Stefan Dietze
Web Suche nach…
• Dokumente
• Fakten
• Claims
• Meinungen
Wir versuchen, diese Frage am Ende des Talks
mith...
6Stefan Dietze
Human-in-the-loop: KI und Crowd Intelligenz im Web
Human/Crowd Intelligence
Artificial Intelligence
Web Con...
7Stefan Dietze
Überblick
Teil I
Extraktion von maschinen-interpretierbarem Wissen aus dem Web
(„Content“)
Teil II
Verstehe...
8Stefan Dietze
Fakten, Claims, Stances/Standpunkte, Meinungen im Web
 Untersuchungen zur Wissenskonstruktion, Meinungsbil...
9Stefan Dietze
Extraktion von „long-tail“ Faktenwissen im Web ?
<„Tim Berners-Lee“ s:founderOf „Solid“>
 Wie lässt sich e...
10Stefan Dietze
KnowMore: data fusion on Web Markup
 0. Noise: Data Cleansing (URIs, Deduplizierung etc)
 1.a) Scale: Bl...
11Stefan Dietze
KnowMore: data fusion on Web Markup
 0. Noise: Data Cleansing (URIs, Deduplizierung etc)
 1.a) Scale: Bl...
12Stefan Dietze
Extraktion von Diskurs & Meinungen aus Twitter
http://dbpedia.org/resource/Tim_Berners-Lee
wna:positive-em...
13Stefan Dietze
TweetsKB: a knowledge base of Web mined societal discourse
P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. D...
14Stefan Dietze
TweetsKB: a knowledge base of Web mined societal discourse
P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. D...
15Stefan Dietze
TweetsCOV19: a knowledge graph of societal discourse on COVID19
Dimitrov, D., Baran, E., Fafalios, P., Yu,...
16Stefan Dietze
Web Mining von Wissen über Claims & “Stances”/Standpunkte
17Stefan Dietze
Stance,
Vertrauenswürdigkeit
des Claims?
Stance,
Vertrauenswürdigkeit des Claims?
Web Mining von Wissen üb...
18Stefan Dietze
Erkennen von Stances/Standpunkten
Motivation
 Problem: erkennen des Standpunkt von Web Dokumenten
(Websei...
19Stefan Dietze
Erkennen von Stances/Standpunkten
Motivation
 Problem: erkennen des Standpunkt von Web Dokumenten
(Websei...
20Stefan Dietze
Erkennen von Stances/Standpunkten
Motivation
 Problem: erkennen des Standpunkt von Web Dokumenten
(Websei...
21Stefan Dietze
ClaimsKG: a knowledge graph of Web-mined claims
Motivation
 Faktengeprüfte Claims über verschiedene
(unst...
22Stefan Dietze
Überblick
Teil I
Extraktion von maschinen-interpretierbarem Wissen aus dem Web
(„Content“)
Teil II
Versteh...
23Stefan Dietze
Kompetenz & Wissensakquise von Web Nutzern
Vorhersage durch Verhaltensspuren?
 Forschungsfrage: Lässt sic...
24Stefan Dietze
Akquisition von Wissen während der Web Suche?
Herausforderungen & Ergebnisse
 Identifizieren von kohärent...
25Stefan Dietze
Wissensstand & -zuwachs vs Nutzerverhalten bei der Web Suche
Daten & experimentelles Setup
 Crowdsourcing...
26Stefan Dietze
ML Modelle zur Vorhersage von KG/KS während der Suche
 Kategorisierung der Sessions entlang von Wissensst...
27Stefan Dietze
ML Modelle zur Vorhersage von KG/KS während der Suche
 Kategorisierung der Sessions entlang von Wissensst...
31Stefan Dietze
Weitere Features zur Vorhersage der Kompetenz von Nutzenden
Kompetenz & der “Dunning-Kruger Effect”
 Inko...
32Stefan Dietze
Zum Abschluss: kann Data Science „die“ Frage beantworten?
33Stefan Dietze
Rückblick: Web-mined Meinungen in TweetsKB
http://dbpedia.org/resource/Tim_Berners-Lee
wna:positive-emotio...
34Stefan Dietze
Köln vs Düsseldorf: ein Antwortversuch mit TweetsKB
-0.40000
-0.30000
-0.20000
-0.10000
0.00000
0.10000
0....
35Stefan Dietze
Knowledge Technologies for the Social Sciences (WTS)
https://www.gesis.org/en/institute/departments/knowle...
Prochain SlideShare
Chargement dans…5
×

Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Methoden und Fragestellungen

141 vues

Publié le

Überblick über Forschungsarbeiten im Kontext Web & Data Science.

Publié dans : Internet
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Methoden und Fragestellungen

  1. 1. 1Stefan Dietze Backup Human in the Loop: das Web als Grundlage interdisziplinärer Data Science-Methoden und Fragestellungen Stefan Dietze GESIS – Leibniz Institute for the Social Sciences, Heinrich-Heine-Universität Düsseldorf, L3S Research Center
  2. 2. 2Stefan Dietze Web Suche nach… • Dokumente • Fakten • Claims • Meinungen
  3. 3. 3Stefan Dietze Web Suche nach… • Dokumente • Fakten • Claims • Meinungen
  4. 4. 4Stefan Dietze Web Suche nach… • Dokumente • Fakten • Claims • Meinungen
  5. 5. 5Stefan Dietze Web Suche nach… • Dokumente • Fakten • Claims • Meinungen Wir versuchen, diese Frage am Ende des Talks mithilfe von Data „Science“ zu „beantworten“.
  6. 6. 6Stefan Dietze Human-in-the-loop: KI und Crowd Intelligenz im Web Human/Crowd Intelligence Artificial Intelligence Web Content & Data (z.B. Webseiten, Social Media, Wikipedia, Tags, semi-structured Data) Interaktionen & Verhalten (z.B. Clickstreams, Queries, Likes/Shares) Interpretation & Verarbeitung mithilfe von:  Information Retrieval (Crawling, Indexing, Ranking etc)  Natural Language Processing  Graph Analyse (z.B. PageRank et al.)  Wissensbasierte Methoden, Inferenz & Reasoning  Statistik  Machine & Deep Learning o Query Interpretation & Intent Prediction o Klassifikation von Nutzern, Sessions, Dokumenten, Quellen o Ranking und Personalisierung o ….
  7. 7. 7Stefan Dietze Überblick Teil I Extraktion von maschinen-interpretierbarem Wissen aus dem Web („Content“) Teil II Verstehen von Nutzerverhalten und –interaktionen im Web („User“)
  8. 8. 8Stefan Dietze Fakten, Claims, Stances/Standpunkte, Meinungen im Web  Untersuchungen zur Wissenskonstruktion, Meinungsbildung, Beinflussung und Desinformation im Web als disziplinübergreifendes und stark wachsendes Forschungsfeld (z.B. Vousoughi et al. 2018)  Erkenntnisgewinn (z.B. Sozialwiss., Psychologie), z.B. zu: o Wissenskonstruktion im Web o Viralität und Spreading von Claims und Desinformation o Effekt von Desinformation auf die Meinungsbildung o Selbstverstärkende Effekte von Biases und Echokammern  Methoden (Informatik), z.B. für: o Extraktion von Faktenwissen aus dem Web [WWW18, SWJ19] o Extraktion und Verifikation von Claims im Web [ISWC2019] o Erkennen des Standpunkts von Webseiten oder Tweets o Extraktion von Meinungen/Trends, z.B. aus dem Social Web/Twitter [CIKM2020, ESWC18]
  9. 9. 9Stefan Dietze Extraktion von „long-tail“ Faktenwissen im Web ? <„Tim Berners-Lee“ s:founderOf „Solid“>  Wie lässt sich entitätsbezogenes Faktenwissen bzw. Wissensgraphen aus Webseiten gewinnen?  Anwendung von NLP/Informationsextraktionsmethoden? Skalierbarkeit: Google Index = ca. 50 Billionen Websiten (die sich dynamisch ändern)  Nutzung von eingebettetem Web Markup (Microdata/RDFa) wie schema.org-basierte Annotationen  Weit verbreitet: ca. 40% aller Webseiten in Common Crawl (3.2 Mrd. Webseiten) beinhalten Markup (ca. 44 Mrd. „Fakten“)  Herausforderungen o Fehler. Annotationsfehler und faktische Fehler [Meusel et al, ESWC2015] o Mehrdeutigkeit und Koreferenzen. z.B. 18.000 Markup- Instanzen von “iPhone 6” in Common Crawl 2016 & mehrdeutige Literale (z.B. „Apple“>) o Redundanzen & Konflikte. Großer Anteil von äquivalenten oder direkt in Konflikt stehenden Aussagen
  10. 10. 10Stefan Dietze KnowMore: data fusion on Web Markup  0. Noise: Data Cleansing (URIs, Deduplizierung etc)  1.a) Scale: Blocking mit BM25 Entity Retrieval auf Lucene Index der Markup Daten  1.b) Relevanz: überwachte Auflösung von Koreferenzen  2.) Qualität & Redundanz: Data Fusion mit überwachtem Klassifizierer für alle Fakten (SVM, knn, CNN, RF, LR, NB), nutzt diverse Feature Set (Autorität, Relevanz etc) der Quelle (z.B. PageRank), Entitätsbeschreibung oder Fakten 1. Blocking & coreference resolution 2. Fusion / Fact selection (supervised) Web page markup Web crawl (Common Crawl, 44 bn facts) Yu, R., [..], Dietze, S., KnowMore-Knowledge Base Augmentation with Structured Web Markup, Semantic Web Journal 2019 (SWJ2019) Tempelmeier, N., Demidova, S., Dietze, S., Inferring Missing Categorical Information in Noisy and Sparse Web Markup, The Web Conf. 2018 (WWW2018) New Query Entities BBC Audio, type:(Organization) Chapman & Hall, type:(Publisher) Put Out More Flags, type:(Book) Entity Description author Evelyn Waugh priorWork Put Out More Flags ISBN 978031874803074 copyrightHolder Evelyn Waugh releaseDate 1945 … … Query Entity Brideshead Revisited, type:(Book) Candidate Facts node1 publisher Chapman & Hall node1 releaseDate 1945 node1 publishDate 1961 node2 country UK node2 publisher Black Bay Books node3 country US node3 copyrightHolder Evelyn Waugh … …. …. Ca. 5000 Fakten für „Brideshead Revisited“ (125.000 Fakten für „iPhone6“) 20 korrekte & nicht-redundante Fakten für „Brideshead Rev.“
  11. 11. 11Stefan Dietze KnowMore: data fusion on Web Markup  0. Noise: Data Cleansing (URIs, Deduplizierung etc)  1.a) Scale: Blocking mit BM25 Entity Retrieval auf Lucene Index der Markup Daten  1.b) Relevanz: überwachte Auflösung von Koreferenzen  2.) Qualität & Redundanz: Data Fusion mit überwachtem Klassifizierer für alle Fakten (SVM, knn, CNN, RF, LR, NB), nutzt diverse Feature Set (Autorität, Relevanz etc) der Quelle (z.B. PageRank), Entitätsbeschreibung oder Fakten 1. Blocking & coreference resolution 2. Fusion / Fact selection (supervised) Web page markup Web crawl (Common Crawl, 44 bn facts) Yu, R., [..], Dietze, S., KnowMore-Knowledge Base Augmentation with Structured Web Markup, Semantic Web Journal 2019 (SWJ2019) Tempelmeier, N., Demidova, S., Dietze, S., Inferring Missing Categorical Information in Noisy and Sparse Web Markup, The Web Conf. 2018 (WWW2018) New Query Entities BBC Audio, type:(Organization) Chapman & Hall, type:(Publisher) Put Out More Flags, type:(Book) Entity Description author Evelyn Waugh priorWork Put Out More Flags ISBN 978031874803074 copyrightHolder Evelyn Waugh releaseDate 1945 … … Query Entity Brideshead Revisited, type:(Book) Candidate Facts node1 publisher Chapman & Hall node1 releaseDate 1945 node1 publishDate 1961 node2 country UK node2 publisher Black Bay Books node3 country US node3 copyrightHolder Evelyn Waugh … …. …. Ca. 5000 Fakten für „Brideshead Revisited“ (125.000 Fakten für „iPhone6“) 20 korrekte & nicht-redundante Fakten für „Brideshead Rev.“ Data Fusion Performance  Experimente für Bücher, Filme, Produkte  Baselines: BM25, CBFS [ESWC2015], PreRecCorr [Pochampally et. al., ACM SIGMOD 2014], variieren stark zwischen den Typen Anreicherung von Wissensgraphen / Finden neuer Fakten?  Durchschnittlich 60% - 70% aller Fakten sind neu (im Vergleich zu Wissensgraphen wie WikiData, Freebase, Wikipedia/DBpedia)  Weitere Experimente zum Lernen von kategorischen Merkmalen (z.B. Filmgenren oder Produktkategorien) [WWW2018]
  12. 12. 12Stefan Dietze Extraktion von Diskurs & Meinungen aus Twitter http://dbpedia.org/resource/Tim_Berners-Lee wna:positive-emotion onyx:hasEmotionIntensity "0.75" onyx:hasEmotionIntensity "0.0"  Heterogenität: multimodal, multilingual, informell, “noisy” Sprache  Kontextabhängigkeit: Interpretation kurzer Tweets erfordert Berücksichtigung von Kontext (z.B. Zeitpunkt, verlinkte Inhalte), “Dusseldorf” => Stadt oder Fußball-Team  Representativität & Bias: demographische Verteilungen in Twitter Archiven nicht bekannt  Dynamik & Scale: z.B. 8000 tweets pro Sekunde, plus Interaktionen (Retweets etc) & Kontext (z.B. 25% aller Tweets beinhalten URLs)  Evolution & temporale Aspekte: Evolution von Interaktionen über die Zeit wichtig für die moisten Forschungsfragen http://dbpedia.org/resource/Solid wna:negative-emotion P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze, TweetsKB: A Public and Large-Scale RDF Corpus of Annotated Tweets, ESWC'18.
  13. 13. 13Stefan Dietze TweetsKB: a knowledge base of Web mined societal discourse P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze, TweetsKB: A Public and Large-Scale RDF Corpus of Annotated Tweets, ESWC'18. https://data.gesis.org/tweetskb/  Sammlung & Archivierung von 10 Mrd. Tweets über 7 Jahre (permanenter Crawl der Twitter 1%-API seit 2013)  Informationsextraktion mithilfe von NLP-Methoden zur Extraktion von Entitäten und Sentimenten (verteilte Batch-Verarbeitung mit Hadoop Map/Reduce) o Entity Linking mit Wikipedia/DBpedia (Yahoo‘s FEL [Blanco et al. 2015]) (“president”/“potus”/”trump” => dbp:DonaldTrump), zur Disambiguierung von Tweets und Verlinkung mit Hintergrundwissen (z.B. US Politiker? Republikaner?), hohe Precision (.85), schwacher recall (.39) o Sentiment Analyse mit SentiStrength [Thelwall et al., 2017], F1 ca. .80 o Extraktion von Metadaten und Lifting in etablierte Formate und Schemas (SIOC, schema.org), Publikation mithilfe von W3C Standards (RDF/SPARQL)
  14. 14. 14Stefan Dietze TweetsKB: a knowledge base of Web mined societal discourse P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze, TweetsKB: A Public and Large-Scale RDF Corpus of Annotated Tweets, ESWC'18. https://data.gesis.org/tweetskb/  Sammlung & Archivierung von 10 Mrd. Tweets über 7 Jahre (permanenter Crawl der Twitter 1%-API seit 2013)  Informationsextraktion mithilfe von NLP-Methoden zur Extraktion von Entitäten und Sentimenten (verteilte Batch-Verarbeitung mit Hadoop Map/Reduce) o Entity Linking mit Wikipedia/DBpedia (Yahoo‘s FEL [Blanco et al. 2015]) (“president”/“potus”/”trump” => dbp:DonaldTrump), zur Disambiguierung von Tweets und Verlinkung mit Hintergrundwissen (z.B. US Politiker? Republikaner?), hohe Precision (.85), schwacher recall (.39) o Sentiment Analyse mit SentiStrength [Thelwall et al., 2017], F1 ca. .80 o Extraktion von Metadaten und Lifting in etablierte Formate und Schemas (SIOC, schema.org), Publikation mithilfe von W3C Standards (RDF/SPARQL) Anwendungsszenarien  Aggregation von Sentimenten zu bestimmten Themen oder Entitäten, z.B. CDU vs SPD Politiker in bestimmter Zeitperiode  Twitter Archive zum Verstehen von temporären Entitätsbeziehungen z.B. “austerity” & “Greece” 2010- 2015  Verfolgen von Claims und Fake News und deren Impact (siehe folgende Slides) -0.40000 -0.30000 -0.20000 -0.10000 0.00000 0.10000 0.20000 0.30000 0.40000 Cologne Düsseldorf
  15. 15. 15Stefan Dietze TweetsCOV19: a knowledge graph of societal discourse on COVID19 Dimitrov, D., Baran, E., Fafalios, P., Yu, R., Zhu, X., Zloch, M., Dietze, S., TweetsCOV19 -- A Knowledge Base of Semantically Annotated Tweets about the COVID-19 Pandemic, CIKM2020. https://data.gesis.org/tweetscov19/  COVID19-Diskurs als Basis für interdisziplinäre Forschung zu Solidaritätsverhalten, gesellschaftlichen Veränderungen in der Pandemie  8.1 Millionen Tweets seit Oktober 2019 (kontinuierlich aktualisiert), extrahiert mithilfe von COVID-19-spezifischer Seed List & TweetsKB Pipeline  Genutzt als Corpus für CIKM2020 AnalytiCup & durch interdisziplinäre Partner, z.B. mit Heinrich-Heine-Universität, University of Hildesheim, etc
  16. 16. 16Stefan Dietze Web Mining von Wissen über Claims & “Stances”/Standpunkte
  17. 17. 17Stefan Dietze Stance, Vertrauenswürdigkeit des Claims? Stance, Vertrauenswürdigkeit des Claims? Web Mining von Wissen über Claims & “Stances”/Standpunkte
  18. 18. 18Stefan Dietze Erkennen von Stances/Standpunkten Motivation  Problem: erkennen des Standpunkt von Web Dokumenten (Webseiten, Tweets) zu bestimmtem Claim (Klassenverteilung sehr unausgewogen)  Anwendungen: Stance von Dokumenten (besonders disagreement) wichtig (a) als Signal Korrektheit der Aussage & (b) für die Klassifikation von Quellen (Twitternutzer, PLDs) A. Roy, A. Ekbal, S. Dietze, P. Fafalios, Exploiting stance hierarchies for cost-sensitive stance detection of Web documents, preprint.
  19. 19. 19Stefan Dietze Erkennen von Stances/Standpunkten Motivation  Problem: erkennen des Standpunkt von Web Dokumenten (Webseiten, Tweets) zu bestimmtem Claim (Klassenverteilung sehr unausgewogen)  Anwendungen: Stance von Dokumenten (besonders disagreement) wichtig (a) als Signal Korrektheit der Aussage & (b) für die Klassifikation von Quellen (Twitternutzer, PLDs) Ansatz  Cascading binary classifiers zur Addressierung von Problemen bei jedem Schritt (z.B. Kosten für Misklassifikation)  Features, z.B. Textähnlichkeit (Word2Vec etc), Sentimente, LIWC  Stärkste Modelle pro Schritt: 1) SVM with class-wise penalty, 2) CNN, 3) SVM with class-wise penalty  Experimente mit Fake News Challenge Benchmark Dataset & Baselines A. Roy, A. Ekbal, S. Dietze, P. Fafalios, Exploiting stance hierarchies for cost-sensitive stance detection of Web documents, preprint.
  20. 20. 20Stefan Dietze Erkennen von Stances/Standpunkten Motivation  Problem: erkennen des Standpunkt von Web Dokumenten (Webseiten, Tweets) zu bestimmtem Claim (Klassenverteilung sehr unausgewogen)  Anwendungen: Stance von Dokumenten (besonders disagreement) wichtig (a) als Signal Korrektheit der Aussage & (b) für die Klassifikation von Quellen (Twitternutzer, PLDs) Ansatz  Cascading binary classifiers zur Addressierung von Problemen bei jedem Schritt (z.B. Kosten für Misklassifikation)  Features, z.B. Textähnlichkeit (Word2Vec etc), Sentimente, LIWC  Stärkste Modelle pro Schritt: 1) SVM with class-wise penalty, 2) CNN, 3) SVM with class-wise penalty  Experimente mit Fake News Challenge Benchmark Dataset & Baselines Ergebnisse  Geringfügige Overall Performance Verbesserung  Verbesserung für disagree Klasse von 27% A. Roy, A. Ekbal, S. Dietze, P. Fafalios, Exploiting stance hierarchies for cost-sensitive stance detection of Web documents, preprint.
  21. 21. 21Stefan Dietze ClaimsKG: a knowledge graph of Web-mined claims Motivation  Faktengeprüfte Claims über verschiedene (unstrukturierte) Fact-Checking Seiten verteilt  Claims zu bestimmten Themen, z.B. COVID19- relevante Claims von US Politikern schwer zu finden ClaimsKG Ansatz  Harvesting von Claims und Metadaten von Fact-Checking Seiten (e.g. snopes.com, Politifact.com etc);  Aktuell ca. 30.000 Claims (plus mining schema.org/ClaimReview markup (> 500.000 statements in Common Crawl 2017)  Veröffentlicht als KG durch durch NLP Pipeline analog zu TweetsKB (Entity Linking, Data Lifting, Normalisierung) https://data.gesis.org/claimskg/ A. Tchechmedjiev, P. Fafalios, K. Boland, S. Dietze, B. Zapilko, K. Todorov, ClaimsKG – A Live Knowledge Graph of fact- checked Claims, ISWC2019
  22. 22. 22Stefan Dietze Überblick Teil I Extraktion von maschinen-interpretierbarem Wissen aus dem Web („Content“) Teil II Verstehen von Nutzerverhalten und –interaktionen im Web („User“)
  23. 23. 23Stefan Dietze Kompetenz & Wissensakquise von Web Nutzern Vorhersage durch Verhaltensspuren?  Forschungsfrage: Lässt sich anhand von Nutzerverhalten wie Browsing, Scrolling, oder Verhaltensspuren (Mausbewegungen, Keystrokes, Eye Tracking) die Kompetenz und die Wissensakquise von Nutzern vorhersagen?  Ansatz: Experimente und Machine Learning-Ansätze in zwei Szenarien: (a) Web Suche und (b) Microtask Crowdsourcing wie Amazon Mechanical Turk  Anwendungen z.B. zur Klassifikation von Web Nutzern, Verbesserung von Suchergebnissen oder die Adaption in Lern- und Assessmentumgebungen Gadiraju, U., Kawase, R., Dietze, S, Demartini, G., Understanding Malicious Behavior in Crowdsourcing Platforms: The Case of Online Surveys, ACM CHI2015. Gadiraju, U., Demartini, G., Kawase, R., Dietze, S., Crowd Anatomy Beyond the Good and Bad: Behavioral Traces for Crowd Worker Modeling and Pre-selection, Computer Supported Cooperative Work 28(5): 815-841 (2019)
  24. 24. 24Stefan Dietze Akquisition von Wissen während der Web Suche? Herausforderungen & Ergebnisse  Identifizieren von kohärenten Such-Sessions?  Erkennen von “Lernen” während der Suche: identifizieren von “informational sessions” (im Gegensatz zu “transactional” oder “navigational” Suche [Broder, 2002]) o Klassifikation mit ca. F1 score 75% anhand von Nutzerinteraktionen  Wie kompetent ist der/die Nutzende? - Vorhersagen und verstehen des Wissensstands Nutzender anhand des “In-Session”-Verhaltens  Wie gut erreicht der/die Nutzende das Lernziel bzw. sein Informationsbedürfnis? – Vorhersagen des Wissenszuwachses während einer Session o Korrelation von Nutzerverhalten (Queries, Browsing, Mausbewegungen etc) & Wissensstand/-zuwachs [CHIIR18] o Vorhersage von Wissenstand/-zuwachs mithilfe überwachter ML- Methoden [SIGIR18]
  25. 25. 25Stefan Dietze Wissensstand & -zuwachs vs Nutzerverhalten bei der Web Suche Daten & experimentelles Setup  Crowdsourcing von Verhaltensdaten resp. Such-Sessions  10 Themen/Informationsbedürfnisse (z.B. “Altitude sickness”, “Tornados”) plus Pre- and Post-Tests zur Bestimmung von Wissensstand – und Wissenszuwachs (KS, KG)  Ca. 1000 Crowd Worker; 100 Sessions pro Topic  Monitoring von Nutzerverhalten entlang von 76 Features in 5 Kategorien: session, query, SERP – search engine result page, browsing, mouse traces Ergebnisse  70% der Nutzer zeigen Wissenszuwachs (KG)  Negative Korrelation zwischen Wissenszuwachs und topic popularity (avg. accuracy of workers in knowledge tests) (R= -.87)  Aktiv auf Webseiten verbrachte Zeit erklärt 7% des Wissenszuwachses  Query complexity erklärt 25% des Wissenszuwachses  Suchverhalten korreliert stärker mit Such-Thema als mit KG/KS Gadiraju, U., Yu, R., Dietze, S., Holtz, P.,. Analyzing Knowledge Gain of Users in Informational Search Sessions on the Web. ACM CHIIR 2018.
  26. 26. 26Stefan Dietze ML Modelle zur Vorhersage von KG/KS während der Suche  Kategorisierung der Sessions entlang von Wissensstand (KS) & Wissenszuwachs (KG) in {low, moderate, high} mit (low < (mean ± 0.5 SD) < high)  Überwachte Multiclass Klassifikation (Naive Bayes, Logistic Regression, SVM, Random Forest, Multilayer Perceptron)  KG Vorhersage Performance (nach 10-facher Cross-Validation)  Feature Impact (KG prediction) Yu, R., Gadiraju, U., Holtz, P., Rokicki, M., Kemkes, P., Dietze, S., Analyzing Knowledge Gain of Users in Informational Search Sessions on the Web. ACM SIGIR 2018.
  27. 27. 27Stefan Dietze ML Modelle zur Vorhersage von KG/KS während der Suche  Kategorisierung der Sessions entlang von Wissensstand (KS) & Wissenszuwachs (KG) in {low, moderate, high} mit (low < (mean ± 0.5 SD) < high)  Überwachte Multiclass Klassifikation (Naive Bayes, Logistic Regression, SVM, Random Forest, Multilayer Perceptron)  KG Vorhersage Performance (nach 10-facher Cross-Validation)  Feature Impact (KG prediction) Aktuelle & zukünftige Arbeiten  Laborstudien für zuverlässigere Daten notwendig (kontrollierte Umgebung, längere Sessions) [abgeschlossen]  Zusätzliche Features wie Eye Tracking [CHIIR2020]  Ressourcen-Features (wie z.B. complexity, analytic/emotional language, multimodality etc) als weitere Signale [IR Journal, under review]  Verbessern von Ranking/Retrieval bei der Web Suche oder in digitalen Archiven (SALIENT Project, Leibniz Kooperative Exzellenz, mit IWM, Uni Tübingen, TIB Hannover) Yu, R., Gadiraju, U., Holtz, P., Rokicki, M., Kemkes, P., Dietze, S., Analyzing Knowledge Gain of Users in Informational Search Sessions on the Web. ACM SIGIR 2018.
  28. 28. 31Stefan Dietze Weitere Features zur Vorhersage der Kompetenz von Nutzenden Kompetenz & der “Dunning-Kruger Effect”  Inkompetenz in bestimmtem Task mindert die Fähigkeit, die eigene Inkompetenz im Task zu erkennen (David Dunning. 2011. The Dunning-Kruger Effect: On Being Ignorant of One’s Own Ignorance. Advances in experimental social psychology 44 (2011), 247.) Forschungsfragen  Selbsteinschätzung als zusätzliches Feature um Kompetenz vorherzusagen?  Anwendung in Microtask-Crowdsourcing zur Klassifikation von “Workern” oder im Online Lernen zur Klassifikation von Lernenden Einige Ergebnisse  Selbsteinschätzung als zuverlässiges Feature zur Vorhersage von Kompetenz/Future Performance;  zuverlässiger als die bisherige Performance im Task  Tendenz zur Überschätzung der eigenen Kompetenz wächst mit wachsendem Schweregrad des Tasks Performance („accuracy“) of users classified as „competent“ according to (1) prior performance and (2) performance plus self-assessment Gadiraju, U., Fetahu, B., Kawase, R., Siehndel, P., Dietze, S., Using Worker Self-Assessments for Competence-based Pre- Selection in Crowdsourcing Microtasks. In: ACM Transactions on Computer-Human Interaction (ACM TOCHI), Vol. 24, Issue 4, August 2017.
  29. 29. 32Stefan Dietze Zum Abschluss: kann Data Science „die“ Frage beantworten?
  30. 30. 33Stefan Dietze Rückblick: Web-mined Meinungen in TweetsKB http://dbpedia.org/resource/Tim_Berners-Lee wna:positive-emotion onyx:hasEmotionIntensity "0.75" onyx:hasEmotionIntensity "0.0" http://dbpedia.org/resource/Solid wna:negative-emotion P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze, TweetsKB: A Public and Large-Scale RDF Corpus of Annotated Tweets, ESWC'18. Anzahl Tweets, die Stadt Köln bzw. Düsseldorf) erwähnen (in 1,5 Mrd Englisch-sprachigen und bereinigten Tweets 2013-2018) • # dbp:Cologne: 89.564 • # dbp:Dusseldorf: 4723 • Meinung als zum Ausdruck gebrachte Sentimente pro Tweet • „Happiness (e, ti) = mean of sentiment score delta (positive - negative) of all Tweets mentioning entity e in time interval ti“
  31. 31. 34Stefan Dietze Köln vs Düsseldorf: ein Antwortversuch mit TweetsKB -0.40000 -0.30000 -0.20000 -0.10000 0.00000 0.10000 0.20000 0.30000 0.40000 Cologne Düsseldorf Durchschnittliche Sentiment Scores (2013-2017): • Happiness(Cologne) = 0.09281 • Happiness(Dusseldorf) = 0.04056 • Positive (Cologne) = 0.17297 • Positive (Dusseldorf) = 0.1245 • Negative (Cologne) = 0.07948 • Negative (Dusseldorf) = 0.09030 „Erkenntnisse“ • Köln „happier“ • Köln & Düsseldorf „happy“ (positive durchschnittliche Sentiment Scores) Herausforderung: Bias • Bias: Twitter Nutzer nicht repräsentativ • Bias: englisch-sprachige Twitter Nutzer nicht repräsentativ • Bias: Verteilung von Touristen & Einwohner sehr unterschiedlich für beide Städte (Kölner Dom) Januar 2016, Silvester/Domplatte (K) März 2017, Axt Attacke in U-Bahn (D) Happiness(dbp:Cologne) Happiness(dbp:Dusseldorf) Source: https://theculturetrip.com/europe/germany/articles/8-fascinating-things-didnt-know-colognes-cathedral/© freedom100m
  32. 32. 35Stefan Dietze Knowledge Technologies for the Social Sciences (WTS) https://www.gesis.org/en/institute/departments/knowledge-technologies-for- the-social-sciences/ Data & Knowledge Engineering @ HHU https://www.cs.hhu.de/en/research-groups/data-knowledge-engineering.html L3S http://www.l3s.de Acknowledgements • Maribel Acosta (KIT, Karlsruhe) • Felix Bensmann (GESIS) • Katarina Boland (GESIS, Germany) • Stefan Conrad (HHU, Germany) • Elena Demidova (L3S, Germany) • Dimitar Dimitrov (GESIS, Germany) • Asif Ekbal (IIT Patna, India) • Pavlos Fafalios (FORTH ICS, Greece) • Daniel Hienert (GESIS, Germany) • Peter Holtz (IWM, Tübingen) • Vasileios Iosifidis (L3S, Germany) • Dagmar Kern (GESIS, Germany) • Eirini Ntoutsi (LUH, Germany) • Vasilis Iosifidis (L3S, Germany) • Wolfgang Otto (GESIS, Germany) • Andrea Papenmeier (GESIS, Germany) • Markus Rokicki (L3S, Germany) • Arjun Roy (IIT Patna, India) • Nicolas Tempelmeier (L3S, Germany) • Konstantin Todorov (LIRMM, France) • Ran Yu (GESIS, Germany) • Benjamin Zapilko (GESIS, Germany) • Matthäus Zloch (GESIS, Germany)

×