SlideShare une entreprise Scribd logo
1  sur  65
WebART project 
Web Archive Retrieval Tools 
Jaap Kamps, Richard Rogers, Arjen de Vries 
Hildelies Balk, René Voorburg 
! 
Anat Ben-David, Hugo Huurdeman, Thaer Sammar 
Flickr: LucViatour 
NCDD Studiedag ‘Webarchivering in Nederland’, Beeld en Geluid, 30 oktober 2014
WebART project 
Web Archive Retrieval Tools 
Jaap Kamps, Richard Rogers, Arjen de Vries 
Hildelies Balk, René Voorburg 
! 
Anat Ben-David, Hugo Huurdeman, Thaer Sammar 
Flickr: LucViatour 
Hoe maak je webarchieven 
br uikbaar voor onderzoek?
Het doel van een webarchief
Beyond preservation… 
• Initiële focus: bewaren & conserveren webmateriaal 
• minder op gebruik van gearchiveerde materiaal 
• Perspectief presentatie: het Webarchief als bron 
voor huidig én toekomstig onderzoek
1. WebART & Webarchief
2012-2016
Hildelies Balk 
René Voorburg 
Arjen de Vries Jaap Kamps Richard Rogers 
Thaer Samar 
PhD/programmer 
Hugo Huurdeman 
PhD researcher 
Anat Ben-David 
Postdoc (2012-14)
Doelen WebART 
• Evalueren huidige curatie en selectieprocedures 
van webarchieven 
• Inzicht krijgen in huidig gebruik webarchieven in 
de context van onderzoek 
• Het ontwikkelen van nieuwe methoden en tools 
voor onderzoek m.b.v. webarchieven
Original image: A N P
Ondersteuning: Wayback Machine
Ondersteuning: Wayback Machine
Ondersteuning: Wayback Machine
Ondersteuning 
• Wayback Machine: “Single URL” approach: 
• kennis URL benodigd (geen zoekfunctionaliteit) 
• één URL tegelijk bekijken 
• vergelijkingen maken moeilijk 
[Ben-David e.a. ’14, Rogers, ’13]
Verbetering ondersteuning: “Living Lab” setting 
allansanders.co.uk
2. Workshops & zoektools
2. WebART workshops 
• 09/12 DMI Summer School 
•11/12 Web Archiving: Theorized Practices 
• 01/13 DMI Winter School 
•05/13 Exploring Israeli Politics online 
• 09/13 DMI “Web Archiving day” - evaluation WebART tools 
•11/13 New Media Research Masters - Web archive research 
scenarios
2.1 DMI Summer School (2012) 
Flickr: Silvertje 
Data: Selection lists KB
DMI Summer School (2012)
2.2 DMI Winter School (2013) 
• Digital Methods Winter School (Jan. ’13) 
• Co-design workshop (“Living Lab”) 
• New Media onderzoekers en ontwikkelaars 
nu.nl subset webarchief 
(432 crawls, 14 GB) 
! 
Zoekmachine
Content analyse: Word frequency analysis 
800! 
700! 
600! 
500! 
400! 
300! 
200! 
100! 
0! 
May-11! Jul-11! Aug-11! Oct-11! Dec-11! Jan-12! Mar-12! 
Mubarek 
Assad 
Putin 
Kim Jung Il
Co-Word Analyse
Geomapping: locatie bron nieuws
project.wnyc.org 
1 
1 
1 abcnews.go.com 
brucespringsteen.net 
1 
theverge.com 
1 
sportamerika.nl 
1 
reuters.com 
1 
ebird.org 
1 
googleblog.blogspot.co.uk 
1 
presscentre.sony.eu 
1 
bbc.com 
1 
poynter.org 
1 
abclocal.go.com 
1 
en.wikipedia.org 
1 
nhc.noaa.gov 
1 
nypost.com 
2 
earthcam.com 
2 
maps.google.com 
3 
hp.com 
4 
google.org 
4 
edition.cnn.com 
Syria 
Sandy 
7 
wired.com 
volkskrant.nl 
7 
8 
allthingsd.com 
7 
abcnews.go.com 
7 
thesun.co.uk 
7 
allesoversterrenkunde.nl 
9 
fd.nl 
9 
nos.nl 
9 
mobiel.nuvideo.nl 
9 
guardian.co.uk 
10 
bit.ly 
10 
billboard.biz 
10 
cbsnews.com 
11 
usmagazine.com 
11 
variety.com 
12 
theverge.com 
12 
people.com 
13 
Rutte en Verhagen leggen schuld bij PVV 
13 
telegraaf.nl 
14 
washingtonpost.com 
18 
edition.cnn.com 
19 
bbc.co.uk 
20 
youtube.com 
20 
nytimes.com 
21 
styletoday.nl 
21 
bloomberg.com 
24 
thesistools.com 
26 
hollywoodreporter.com 
30 
online.wsj.com 
30 
deadline.com 
33 
poll.nupubliek.nl 
34 
spaarrente.nl 
39 
gamer.nl 
48 
reuters.com 
52 
tmz.com 
57 
open.spotify.com 
78 
peil.nl 
93 
gezondheidsnet.nl 
US Election 
4 
youtube.com 
1 
1 
blogs.aljazeera.net 
1 
1 
#NAME 
worldpressphoto.org 
1 
1 wikileaks.org 
2 
peil.nl 
washingtonpost.com 
1 
eubusiness.com 
1 
vesti.bg 
1 
trouw.nl 
1 
en.wikipedia.org 
1 
l 
1 
sana.sy 
1 
hosted.ap.org 
1 
shariah4belgium.com 
1 
nrc.nl 
1 
guardian.co.uk 
1 
geopolicity.com 
1 
nctb.nl 
1 
rt.com 
1 
kaspersky.com 
2 
todayszaman.com 
2 
volkskrant.nl 
2 
spaarrente.nl 
2 
reuters.com 
2 
hrw.org 
2 
uk.reuters.com 
2 
cbsnews.com 
3 
telegraph.co.uk 
3 
maps.google.nl 
4 
bbc.co.uk 
5 
edition.cnn.com 
5 
aljazeera.com 
english.alarabiya.net 
7 
maps.google.com 
Linkstructuur: Outlink Analyse
Media: Temporal Image Analyse
2.2 DMI Winter School (2013) 
lees meer: [Huurdeman et al, 2013] 
• Nieuwe mogelijkheden voor exploratie en gebruik 
van gearchiveerd materiaal 
• van single site browsing naar (cross-)collection search 
• bottom-up aanpak: adaptatie functionaliteit systeem aan 
behoeften gebruikers 
• Echter: grote vraag naar export-functies voor verdere 
analyse — in eigen tools onderzoekers 
• Kunnen we meer typen analyses ondersteunen?
enrichments 
KB archive data 
Geodata 
KB metadata 
Link structure
host+1 
nu.nl
host+1 
nu.nl
host+1 
nu.nl 
Volledige ‘index’ KB Webarchief
Volledige ‘index’ KB Webarchief 
host+1 
nu.nl 
57.913 documenten 
43.533.104 documenten 
253.649 documenten
2.3 DMI “Web Archiving Day” (2013) 
Opmerkingen onderzoekers: 
• ”looking at data rather than 
single sites” 
• “supports the shift to studying 
Web archives through queries” 
• “aggregate views and bar graphs 
are extremely useful” 
!
2.3 DMI “Web Archiving Day” (2013) 
• Interesses onderzoekers Nieuwe Media: 
• “derive periodizations of the Web” (Web history) 
• e.g. ‘the rise of social media’ 
• “source hierarchy” (dominant sources in archive) 
• e.g. ‘financial crisis’ 
• “keyword uptake” (terms over time) 
• e.g. ‘geenstijl language in archive’ 
• “accidental”/“incidental” archiving 
• e.g. ‘the guilty pleasures of the Web of innocence’
2.3 DMI “Web Archiving Day” (2013) 
• Suggesties onderzoekers voor uitbreiding WebARTist: 
• selecties: bijv. sampling en subsets 
• vergelijkingen: bijv. verschillen in resultaatsets 
• collecties: bijv. creëren eigen collecties en annotaties 
• transparantie: bijv. selectieprocedures, algoritmes en 
(in)compleetheid 
• “data is still a crucial factor” 
• quantity & quality: inherente incompleetheid van een 
webarchief
3. Van zoek- naar onderzoekstools
(Onder)zoeken 
• Van Wayback Machine naar een doorzoekbaar 
Webarchief 
• Grote stap voorwaarts 
• van URL browsing naar ‘full-text’ zoeken: nieuwe 
onderzoeksmogelijkheden 
• Potentiële ondersteuning verschillende stappen 
onderzoeksproces, bv. exploratie en data-collectie 
• Echter, ook enige beperkingen…
Beperkingen zoektools 
1. Datasets en verrijkingen gepredefinieerd 
2. Zoekmachines en functionaliteit gepredefinieerd 
• “Trade-off”: ondersteuning universele versus specifieke 
taken en onderzoeksvragen 
• Een zoeksysteem kan niet álle specifieke taken 
ondersteunen 
• Volledige ondersteuning onderzoeksproces: 
meer flexibiliteit benodigd!
Meer flexibiliteit… (1) 
gebruik van “Hadoop” computer-clusters voor genereren datasets, verrijkingen en analyse
Finding pages in the Unarchived Web! ! DL 2014 
1. Gearchiveerde pagina’s 
in selectielijst (2012) 
• 10.2 miljoen 
! 
2. Gearchiveerde pagina’s 
niet in selectielijst (2012) 
• 0.9 miljoen 
Dutch Web Archive 1 2 
Voorbeeld
Finding pages in the Unarchived Web !! DL 2014 
• het aura van het web-archief 
• niet-gearchiveerde pagina’s 
• bestaan daarvan kan 
worden afgeleid uit de 
linkstructuur van het archief 
! 
• extractie en analyse via 
‘Hadoop’ computer-cluster 
Dutch Web Archive 1 2
Finding pages in the Unarchived Web !! DL 2014 
3. Aura: niet-gearchiveerde 
pagina’s 
• 10.7 miljoen 
! 
• Mogelijkheid: representaties 
genereren voor deze pagina’s! 
• op basis van anchor text 
• met effectieve resultaten 
! 
• Lees meer: 
Dutch Web Archive 1 2 3 
[Huurdeman, Ben-David, Kamps, Samar, De Vries, 2014]
Meer flexibiliteit… (2) 
• Creëren van customizable systems, ofwel 
toolmakers’ tools 
• Aanbieden ‘bouwblokken’ 
• custom zoekmachines 
• zoekstrategieën 
• complexe queries 
[Kamps ’11, de Vries e.a. ’10]
De volgende stap… (2) 
in 
eurocrisis, schuldencrisis
Van zoek- naar onderzoekstools 
Wayback 
Machine 
Search 
engine “Research” engine 
ondersteuning volledige 
onderzoekstaak
Conclusie 
•WebART & Webarchieven 
•Workshops & zoektools 
• Van zoek- naar onderzoekstools
Bronnen 
• Ben-David A. & Huurdeman H. (2014). Web Archive Search as Research: 
Methodological and Theoretical Implications. Alexandria Journal, Volume 25, 
No. 1 (2014) 
• Kamps J. (2011). Toward a model of interaction for complex search tasks. 
Proc. ESAIR 2011 
• Rogers R. (2013). Digital Methods. MIT Press 2013 
• Huurdeman H., Ben-David A., Samar T. (2013). Sprint Methods for Web 
Archive Research. Proc. Web Science 2013. 
• Huurdeman H., Ben-David A., Kamps J., Samar T., de Vries (2014). Finding 
Pages in the Unarchived Web. Proc. DL 2014. 
• de Vries A., Alink W., Cornacchia R. (2010). Search by Strategy. Proc. ESAIR 
'10
webarchiving.nl 
@webart12
WebART project 
Web Archive Retrieval Tools 
Jaap Kamps, Richard Rogers, Arjen de Vries 
Hildelies Balk, René Voorburg 
! 
Anat Ben-David, Hugo Huurdeman, Thaer Sammar 
Flickr: LucViatour 
NCDD Studiedag ‘Webarchivering in Nederland’, Beeld en Geluid, 30 oktober 2014

Contenu connexe

Similaire à WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)

De webdossiers van Bibliotheek De Krook - een bibliotheek en collectie in bew...
De webdossiers van Bibliotheek De Krook - een bibliotheek en collectie in bew...De webdossiers van Bibliotheek De Krook - een bibliotheek en collectie in bew...
De webdossiers van Bibliotheek De Krook - een bibliotheek en collectie in bew...
Bibliotheek De Krook
 
Bijscholing voor VO docenten Informatica (Eelco Dijkstra)
Bijscholing voor VO docenten Informatica (Eelco Dijkstra)Bijscholing voor VO docenten Informatica (Eelco Dijkstra)
Bijscholing voor VO docenten Informatica (Eelco Dijkstra)
i&i conferentie
 

Similaire à WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch) (20)

De webdossiers van bibliotheek De Krook: een bibliotheek en collectie in bewe...
De webdossiers van bibliotheek De Krook: een bibliotheek en collectie in bewe...De webdossiers van bibliotheek De Krook: een bibliotheek en collectie in bewe...
De webdossiers van bibliotheek De Krook: een bibliotheek en collectie in bewe...
 
De webdossiers van Bibliotheek De Krook - een bibliotheek en collectie in bew...
De webdossiers van Bibliotheek De Krook - een bibliotheek en collectie in bew...De webdossiers van Bibliotheek De Krook - een bibliotheek en collectie in bew...
De webdossiers van Bibliotheek De Krook - een bibliotheek en collectie in bew...
 
Walther Hasselo - Regionaal Archief Leiden
Walther Hasselo - Regionaal Archief LeidenWalther Hasselo - Regionaal Archief Leiden
Walther Hasselo - Regionaal Archief Leiden
 
Nieuwe bibliotheekwebsites voor bibs en publiek #3in1 #mobilefirst #stayconne...
Nieuwe bibliotheekwebsites voor bibs en publiek #3in1 #mobilefirst #stayconne...Nieuwe bibliotheekwebsites voor bibs en publiek #3in1 #mobilefirst #stayconne...
Nieuwe bibliotheekwebsites voor bibs en publiek #3in1 #mobilefirst #stayconne...
 
1206_aertsen_digitale_chaos_aanpakken_met_de_dig_gids
1206_aertsen_digitale_chaos_aanpakken_met_de_dig_gids1206_aertsen_digitale_chaos_aanpakken_met_de_dig_gids
1206_aertsen_digitale_chaos_aanpakken_met_de_dig_gids
 
AHM.nl: web2.0 t/m 3.0
AHM.nl: web2.0 t/m 3.0AHM.nl: web2.0 t/m 3.0
AHM.nl: web2.0 t/m 3.0
 
Jan Bollansee, “Databanken in de bibliotheek: klik hier voor meer informatie”
Jan Bollansee,  “Databanken in de bibliotheek: klik hier voor meer informatie”Jan Bollansee,  “Databanken in de bibliotheek: klik hier voor meer informatie”
Jan Bollansee, “Databanken in de bibliotheek: klik hier voor meer informatie”
 
Webarchief & Wetenschap (Dutch)
Webarchief & Wetenschap (Dutch)Webarchief & Wetenschap (Dutch)
Webarchief & Wetenschap (Dutch)
 
wenke mast_kmska
wenke mast_kmskawenke mast_kmska
wenke mast_kmska
 
Beeldbank UT en Social Media
Beeldbank UT en Social MediaBeeldbank UT en Social Media
Beeldbank UT en Social Media
 
Collegagroep digitale collectieregistratie
Collegagroep digitale collectieregistratieCollegagroep digitale collectieregistratie
Collegagroep digitale collectieregistratie
 
Innoveren met Informatie '09 - Presentatie Theo Van Bergen
Innoveren met Informatie '09 - Presentatie Theo Van BergenInnoveren met Informatie '09 - Presentatie Theo Van Bergen
Innoveren met Informatie '09 - Presentatie Theo Van Bergen
 
Bijscholing voor VO docenten Informatica (Eelco Dijkstra)
Bijscholing voor VO docenten Informatica (Eelco Dijkstra)Bijscholing voor VO docenten Informatica (Eelco Dijkstra)
Bijscholing voor VO docenten Informatica (Eelco Dijkstra)
 
Themamiddag ukb wg rdm introductie jr v06
Themamiddag ukb wg rdm introductie jr v06Themamiddag ukb wg rdm introductie jr v06
Themamiddag ukb wg rdm introductie jr v06
 
Archiefdagen 2019 Presentatie Stadsarchief Amsterdam
Archiefdagen 2019 Presentatie Stadsarchief AmsterdamArchiefdagen 2019 Presentatie Stadsarchief Amsterdam
Archiefdagen 2019 Presentatie Stadsarchief Amsterdam
 
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
 
Nieuwe Media & Science 2.0 Info Bijeenkomst UMCG
Nieuwe Media & Science 2.0 Info Bijeenkomst UMCGNieuwe Media & Science 2.0 Info Bijeenkomst UMCG
Nieuwe Media & Science 2.0 Info Bijeenkomst UMCG
 
sociale media makerspace
sociale media makerspacesociale media makerspace
sociale media makerspace
 
Met het achief op het web: 1995 tot 2011
Met het achief op het web: 1995 tot 2011Met het achief op het web: 1995 tot 2011
Met het achief op het web: 1995 tot 2011
 
Online documenten beheren
Online documenten beherenOnline documenten beheren
Online documenten beheren
 

Plus de TimelessFuture

Towards Multidimensional Web Archive Access (IIPC 2016)
Towards Multidimensional Web Archive Access (IIPC 2016)Towards Multidimensional Web Archive Access (IIPC 2016)
Towards Multidimensional Web Archive Access (IIPC 2016)
TimelessFuture
 

Plus de TimelessFuture (20)

Webmapping: maps for presentation, exploration & analysis
Webmapping: maps for presentation, exploration & analysisWebmapping: maps for presentation, exploration & analysis
Webmapping: maps for presentation, exploration & analysis
 
Experiential Interfaces: 

3D reconstructions as entry points for exploration...
Experiential Interfaces: 

3D reconstructions as entry points for exploration...Experiential Interfaces: 

3D reconstructions as entry points for exploration...
Experiential Interfaces: 

3D reconstructions as entry points for exploration...
 
Step inside the Image: 

Interpretative Interfaces for 
3D Historical Content
Step inside the Image: 

Interpretative Interfaces for 
3D Historical ContentStep inside the Image: 

Interpretative Interfaces for 
3D Historical Content
Step inside the Image: 

Interpretative Interfaces for 
3D Historical Content
 
Supporting the Interpretation of Enriched Audiovisual Sources through Tempora...
Supporting the Interpretation of Enriched Audiovisual Sources through Tempora...Supporting the Interpretation of Enriched Audiovisual Sources through Tempora...
Supporting the Interpretation of Enriched Audiovisual Sources through Tempora...
 
The Multi-Stage Experience: the Simulated Work Task Approach to Studying Info...
The Multi-Stage Experience: the Simulated Work Task Approach to Studying Info...The Multi-Stage Experience: the Simulated Work Task Approach to Studying Info...
The Multi-Stage Experience: the Simulated Work Task Approach to Studying Info...
 
Visualization Lecture - Clariah Summer School 2018
Visualization Lecture - Clariah Summer School 2018Visualization Lecture - Clariah Summer School 2018
Visualization Lecture - Clariah Summer School 2018
 
Outcomes Visual Navigation Project
Outcomes Visual Navigation ProjectOutcomes Visual Navigation Project
Outcomes Visual Navigation Project
 
Chaos&Order: Using visualization as a means to
 explore large heritage collec...
Chaos&Order: Using visualization as a means to
 explore large heritage collec...Chaos&Order: Using visualization as a means to
 explore large heritage collec...
Chaos&Order: Using visualization as a means to
 explore large heritage collec...
 
Workshop: Inspirational Journeys - Challenges and Solutions for Visual Naviga...
Workshop: Inspirational Journeys - Challenges and Solutions for Visual Naviga...Workshop: Inspirational Journeys - Challenges and Solutions for Visual Naviga...
Workshop: Inspirational Journeys - Challenges and Solutions for Visual Naviga...
 
“More than Meets the Eye” - Analyzing the Success of User Queries in Oria
“More than Meets the Eye” - Analyzing the Success of User Queries in Oria“More than Meets the Eye” - Analyzing the Success of User Queries in Oria
“More than Meets the Eye” - Analyzing the Success of User Queries in Oria
 
Not available, or not found? Lessons from user queries in the Oria catalog at...
Not available, or not found? Lessons from user queries in the Oria catalog at...Not available, or not found? Lessons from user queries in the Oria catalog at...
Not available, or not found? Lessons from user queries in the Oria catalog at...
 
From Exploration to Construction
 - How to Support the Complex Dynamics of In...
From Exploration to Construction
 - How to Support the Complex Dynamics of In...From Exploration to Construction
 - How to Support the Complex Dynamics of In...
From Exploration to Construction
 - How to Support the Complex Dynamics of In...
 
Towards Multidimensional Web Archive Access (IIPC 2016)
Towards Multidimensional Web Archive Access (IIPC 2016)Towards Multidimensional Web Archive Access (IIPC 2016)
Towards Multidimensional Web Archive Access (IIPC 2016)
 
Active & Passive Utility of Search Interface Features in different Informatio...
Active & Passive Utility of Search Interface Features in different Informatio...Active & Passive Utility of Search Interface Features in different Informatio...
Active & Passive Utility of Search Interface Features in different Informatio...
 
Supporting the Process - Adapting Search Systems To Search Stages (ECIL15)
Supporting the Process - Adapting Search Systems To Search Stages (ECIL15)Supporting the Process - Adapting Search Systems To Search Stages (ECIL15)
Supporting the Process - Adapting Search Systems To Search Stages (ECIL15)
 
The Value of Multistage Search Systems for Book Search
The Value of Multistage Search Systems for Book SearchThe Value of Multistage Search Systems for Book Search
The Value of Multistage Search Systems for Book Search
 
Towards Research Engines: Supporting Search Stages in Web Archives (2015)
Towards Research Engines: Supporting Search Stages in Web Archives (2015)Towards Research Engines: Supporting Search Stages in Web Archives (2015)
Towards Research Engines: Supporting Search Stages in Web Archives (2015)
 
Finding Pages on the Unarchived Web (DL 2014)
Finding Pages on the Unarchived Web (DL 2014)Finding Pages on the Unarchived Web (DL 2014)
Finding Pages on the Unarchived Web (DL 2014)
 
From multistage information seeking models to multistage search systems (IIiX...
From multistage information seeking models to multistage search systems (IIiX...From multistage information seeking models to multistage search systems (IIiX...
From multistage information seeking models to multistage search systems (IIiX...
 
WebART - "Data Digging" - eHumanities Group 2013
WebART - "Data Digging" - eHumanities Group 2013WebART - "Data Digging" - eHumanities Group 2013
WebART - "Data Digging" - eHumanities Group 2013
 

WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)

  • 1. WebART project Web Archive Retrieval Tools Jaap Kamps, Richard Rogers, Arjen de Vries Hildelies Balk, René Voorburg ! Anat Ben-David, Hugo Huurdeman, Thaer Sammar Flickr: LucViatour NCDD Studiedag ‘Webarchivering in Nederland’, Beeld en Geluid, 30 oktober 2014
  • 2. WebART project Web Archive Retrieval Tools Jaap Kamps, Richard Rogers, Arjen de Vries Hildelies Balk, René Voorburg ! Anat Ben-David, Hugo Huurdeman, Thaer Sammar Flickr: LucViatour Hoe maak je webarchieven br uikbaar voor onderzoek?
  • 3. Het doel van een webarchief
  • 4. Beyond preservation… • Initiële focus: bewaren & conserveren webmateriaal • minder op gebruik van gearchiveerde materiaal • Perspectief presentatie: het Webarchief als bron voor huidig én toekomstig onderzoek
  • 5. 1. WebART & Webarchief
  • 7. Hildelies Balk René Voorburg Arjen de Vries Jaap Kamps Richard Rogers Thaer Samar PhD/programmer Hugo Huurdeman PhD researcher Anat Ben-David Postdoc (2012-14)
  • 8. Doelen WebART • Evalueren huidige curatie en selectieprocedures van webarchieven • Inzicht krijgen in huidig gebruik webarchieven in de context van onderzoek • Het ontwikkelen van nieuwe methoden en tools voor onderzoek m.b.v. webarchieven
  • 9.
  • 10.
  • 11.
  • 13.
  • 17. Ondersteuning • Wayback Machine: “Single URL” approach: • kennis URL benodigd (geen zoekfunctionaliteit) • één URL tegelijk bekijken • vergelijkingen maken moeilijk [Ben-David e.a. ’14, Rogers, ’13]
  • 18. Verbetering ondersteuning: “Living Lab” setting allansanders.co.uk
  • 19. 2. Workshops & zoektools
  • 20. 2. WebART workshops • 09/12 DMI Summer School •11/12 Web Archiving: Theorized Practices • 01/13 DMI Winter School •05/13 Exploring Israeli Politics online • 09/13 DMI “Web Archiving day” - evaluation WebART tools •11/13 New Media Research Masters - Web archive research scenarios
  • 21. 2.1 DMI Summer School (2012) Flickr: Silvertje Data: Selection lists KB
  • 23. 2.2 DMI Winter School (2013) • Digital Methods Winter School (Jan. ’13) • Co-design workshop (“Living Lab”) • New Media onderzoekers en ontwikkelaars nu.nl subset webarchief (432 crawls, 14 GB) ! Zoekmachine
  • 24.
  • 25.
  • 26.
  • 27.
  • 28.
  • 29. Content analyse: Word frequency analysis 800! 700! 600! 500! 400! 300! 200! 100! 0! May-11! Jul-11! Aug-11! Oct-11! Dec-11! Jan-12! Mar-12! Mubarek Assad Putin Kim Jung Il
  • 32. project.wnyc.org 1 1 1 abcnews.go.com brucespringsteen.net 1 theverge.com 1 sportamerika.nl 1 reuters.com 1 ebird.org 1 googleblog.blogspot.co.uk 1 presscentre.sony.eu 1 bbc.com 1 poynter.org 1 abclocal.go.com 1 en.wikipedia.org 1 nhc.noaa.gov 1 nypost.com 2 earthcam.com 2 maps.google.com 3 hp.com 4 google.org 4 edition.cnn.com Syria Sandy 7 wired.com volkskrant.nl 7 8 allthingsd.com 7 abcnews.go.com 7 thesun.co.uk 7 allesoversterrenkunde.nl 9 fd.nl 9 nos.nl 9 mobiel.nuvideo.nl 9 guardian.co.uk 10 bit.ly 10 billboard.biz 10 cbsnews.com 11 usmagazine.com 11 variety.com 12 theverge.com 12 people.com 13 Rutte en Verhagen leggen schuld bij PVV 13 telegraaf.nl 14 washingtonpost.com 18 edition.cnn.com 19 bbc.co.uk 20 youtube.com 20 nytimes.com 21 styletoday.nl 21 bloomberg.com 24 thesistools.com 26 hollywoodreporter.com 30 online.wsj.com 30 deadline.com 33 poll.nupubliek.nl 34 spaarrente.nl 39 gamer.nl 48 reuters.com 52 tmz.com 57 open.spotify.com 78 peil.nl 93 gezondheidsnet.nl US Election 4 youtube.com 1 1 blogs.aljazeera.net 1 1 #NAME worldpressphoto.org 1 1 wikileaks.org 2 peil.nl washingtonpost.com 1 eubusiness.com 1 vesti.bg 1 trouw.nl 1 en.wikipedia.org 1 l 1 sana.sy 1 hosted.ap.org 1 shariah4belgium.com 1 nrc.nl 1 guardian.co.uk 1 geopolicity.com 1 nctb.nl 1 rt.com 1 kaspersky.com 2 todayszaman.com 2 volkskrant.nl 2 spaarrente.nl 2 reuters.com 2 hrw.org 2 uk.reuters.com 2 cbsnews.com 3 telegraph.co.uk 3 maps.google.nl 4 bbc.co.uk 5 edition.cnn.com 5 aljazeera.com english.alarabiya.net 7 maps.google.com Linkstructuur: Outlink Analyse
  • 33.
  • 34.
  • 35.
  • 37. 2.2 DMI Winter School (2013) lees meer: [Huurdeman et al, 2013] • Nieuwe mogelijkheden voor exploratie en gebruik van gearchiveerd materiaal • van single site browsing naar (cross-)collection search • bottom-up aanpak: adaptatie functionaliteit systeem aan behoeften gebruikers • Echter: grote vraag naar export-functies voor verdere analyse — in eigen tools onderzoekers • Kunnen we meer typen analyses ondersteunen?
  • 38. enrichments KB archive data Geodata KB metadata Link structure
  • 41. host+1 nu.nl Volledige ‘index’ KB Webarchief
  • 42. Volledige ‘index’ KB Webarchief host+1 nu.nl 57.913 documenten 43.533.104 documenten 253.649 documenten
  • 43.
  • 44.
  • 45.
  • 46.
  • 47. 2.3 DMI “Web Archiving Day” (2013) Opmerkingen onderzoekers: • ”looking at data rather than single sites” • “supports the shift to studying Web archives through queries” • “aggregate views and bar graphs are extremely useful” !
  • 48. 2.3 DMI “Web Archiving Day” (2013) • Interesses onderzoekers Nieuwe Media: • “derive periodizations of the Web” (Web history) • e.g. ‘the rise of social media’ • “source hierarchy” (dominant sources in archive) • e.g. ‘financial crisis’ • “keyword uptake” (terms over time) • e.g. ‘geenstijl language in archive’ • “accidental”/“incidental” archiving • e.g. ‘the guilty pleasures of the Web of innocence’
  • 49. 2.3 DMI “Web Archiving Day” (2013) • Suggesties onderzoekers voor uitbreiding WebARTist: • selecties: bijv. sampling en subsets • vergelijkingen: bijv. verschillen in resultaatsets • collecties: bijv. creëren eigen collecties en annotaties • transparantie: bijv. selectieprocedures, algoritmes en (in)compleetheid • “data is still a crucial factor” • quantity & quality: inherente incompleetheid van een webarchief
  • 50. 3. Van zoek- naar onderzoekstools
  • 51. (Onder)zoeken • Van Wayback Machine naar een doorzoekbaar Webarchief • Grote stap voorwaarts • van URL browsing naar ‘full-text’ zoeken: nieuwe onderzoeksmogelijkheden • Potentiële ondersteuning verschillende stappen onderzoeksproces, bv. exploratie en data-collectie • Echter, ook enige beperkingen…
  • 52. Beperkingen zoektools 1. Datasets en verrijkingen gepredefinieerd 2. Zoekmachines en functionaliteit gepredefinieerd • “Trade-off”: ondersteuning universele versus specifieke taken en onderzoeksvragen • Een zoeksysteem kan niet álle specifieke taken ondersteunen • Volledige ondersteuning onderzoeksproces: meer flexibiliteit benodigd!
  • 53. Meer flexibiliteit… (1) gebruik van “Hadoop” computer-clusters voor genereren datasets, verrijkingen en analyse
  • 54. Finding pages in the Unarchived Web! ! DL 2014 1. Gearchiveerde pagina’s in selectielijst (2012) • 10.2 miljoen ! 2. Gearchiveerde pagina’s niet in selectielijst (2012) • 0.9 miljoen Dutch Web Archive 1 2 Voorbeeld
  • 55. Finding pages in the Unarchived Web !! DL 2014 • het aura van het web-archief • niet-gearchiveerde pagina’s • bestaan daarvan kan worden afgeleid uit de linkstructuur van het archief ! • extractie en analyse via ‘Hadoop’ computer-cluster Dutch Web Archive 1 2
  • 56. Finding pages in the Unarchived Web !! DL 2014 3. Aura: niet-gearchiveerde pagina’s • 10.7 miljoen ! • Mogelijkheid: representaties genereren voor deze pagina’s! • op basis van anchor text • met effectieve resultaten ! • Lees meer: Dutch Web Archive 1 2 3 [Huurdeman, Ben-David, Kamps, Samar, De Vries, 2014]
  • 57. Meer flexibiliteit… (2) • Creëren van customizable systems, ofwel toolmakers’ tools • Aanbieden ‘bouwblokken’ • custom zoekmachines • zoekstrategieën • complexe queries [Kamps ’11, de Vries e.a. ’10]
  • 58. De volgende stap… (2) in eurocrisis, schuldencrisis
  • 59. Van zoek- naar onderzoekstools Wayback Machine Search engine “Research” engine ondersteuning volledige onderzoekstaak
  • 60.
  • 61. Conclusie •WebART & Webarchieven •Workshops & zoektools • Van zoek- naar onderzoekstools
  • 62. Bronnen • Ben-David A. & Huurdeman H. (2014). Web Archive Search as Research: Methodological and Theoretical Implications. Alexandria Journal, Volume 25, No. 1 (2014) • Kamps J. (2011). Toward a model of interaction for complex search tasks. Proc. ESAIR 2011 • Rogers R. (2013). Digital Methods. MIT Press 2013 • Huurdeman H., Ben-David A., Samar T. (2013). Sprint Methods for Web Archive Research. Proc. Web Science 2013. • Huurdeman H., Ben-David A., Kamps J., Samar T., de Vries (2014). Finding Pages in the Unarchived Web. Proc. DL 2014. • de Vries A., Alink W., Cornacchia R. (2010). Search by Strategy. Proc. ESAIR '10
  • 63.
  • 65. WebART project Web Archive Retrieval Tools Jaap Kamps, Richard Rogers, Arjen de Vries Hildelies Balk, René Voorburg ! Anat Ben-David, Hugo Huurdeman, Thaer Sammar Flickr: LucViatour NCDD Studiedag ‘Webarchivering in Nederland’, Beeld en Geluid, 30 oktober 2014