Een semantisch Web voor archieven:bouw bruggen, geen muren
1. Een semantisch Web voor archieven:
bouw bruggen, geen muren
Jacco van Ossenbruggen
VU/CWI Amsterdam
1
2. hool
Informatie stechnologie
old c
“Sorry meneer, u heeft helemaal
gelijk, maar dat past nu eenmaal
niet in de computer.”
– star, gesloten, beperkend, van boven
af opgelegd, moeilijk of niet te
veranderen
– scheidt wat verbonden zou moeten zijn
– metafoor: de muur
2
3. 3
Image by Thierry Noir, see http://commons.wikimedia.org/wiki/Image:Berlinermauer.jpg
5. Web technologie
“The vision we share with others is to
allow the Web to be accessible by
anyone, anywhere, anytime,
anyhow.” 1)
– flexibel, open, ”enabling”, van onder af
opgebouwd, constant veranderend
– verbind wat voorheen gescheiden was
– metafoor: de brug
1) http://www.w3.org/TR/di-princ/
5
6. Image courtesy of Paul Gramen Raven, CC-SA license,6see
http://www.flickr.com/photos/armchairanarchist/2869662267/
7. Image by Jacco van Ossenbruggen, CC-SA license, see
7
http://www.flickr.com/photos/jrvosse/3618454739/
9. The Semantic, or Data Web:
“open” data and links
Painting Painter
“Green Stripe (Mme Matisse)” “Henri Matisse”
Royal Museum of Fine Arts, Copenhagen
Getty ULAN
creator
Dublin Core
URL Web link URL
9
20. Soorten interoperabiliteit
• Syntactische interoperabiliteit
– gebruik data formaten waarmee je
kunt delen
– De XML familie heeft vaak de voorkeur
• Semantische interoperabiliteit
– Hoe deel je betekenis en concepten
– Technologie voor het vinden en
representeren van betekenisvolle links
20
26. http://e-culture.multimedian.nl
• BSIK (aardgasbaten) project The image cannot be displayed. Your computer may not have enough memory to open the image, or the image may have been corrupted. Restart your computer, and then open the file again. If
the red x still appears, you may have to delete the image and then insert it again.
MultimediaN
• Partners: VU, CWI, UvA, DEN,
ICN
• People:
Alia Amin, Lora Aroyo, Mark van
Assem, Victor de Boer, Lynda
Hardman, Michiel Hildebrand,
Laura Hollink, Marco de Niet,
Borys Omelayenko, Marie-France
van Orsouw, Jacco van
Ossenbruggen, Guus Schreiber Jos
Taekema, Annemiek Teesing, Anna
Tordai, Jan Wielemaker, Bob
Wielinga
• Artchive.com, RKD,
Rijksmuseum Amsterdam,
Dutch ethnology musea
(Amsterdam, Leiden),
National Library (Bibliopolis)
26
27. Principe 1: semantische annotatie
• Beschrijf
objecten met
“concepten”
uit een
gecontroleerd
vocabulair
27
28. Principe 2: semantisch zoeken
Query
• gebruik betekenis bij “Paris”
het helpen formuleren
van de zoekvraag Paris
• vind objecten die een
betekenisvolle relatie PartOf
met de zoek term
hebben
• gebruik het soort Montmartre
relatie om de
presentatie van de
resultaten te
verbeteren
28
29. Principe 3: vocabulaires verbinden
“Tokugawa”
AAT style/period SVCN period
Edo (Japanese period) Edo
Tokugawa
AAT is Getty’s SVCN is local in-house
Art & Architecture Thesaurus ethnology thesaurus
29
30. De mythe van de
geünificeerde thesaurus
• In grote virtuele collecties heb je altijd
meerdere vocabulaires
– In meerdere talen
• Elk vocabulaire kent zijn eigen
perspectief
– Je kunt ze niet zomaar samenvoegen
• Maar je kunt verschillende vocabulaires
samen gebruiken met slechts een
beperkt aantal links
– “Vocabulary alignment”
• Slechts een paar links kunnen al
verassende resultaten leveren 30
38. Recept
• Technologie is niet het belangrijkste
• Sociale & juridische barrières wel
• Willen wij eigenlijk wel delen
– Wat als anderen “enge” dingen gaan
doen met onze data?
– Hoe blijven we de kwaliteit
garanderen?
– etc.
• Maar stel je wil het echt, wat dan?
38
40. Open formaten & “cool” URLs
• Op het web heeft alles een URL
– dus URLs voor:
• metadata records
• gedigitaliseerde bronnen
• termen (uit de archiefwiki?)
• ...
– let op: “cool URLs don’t change”!
• Op het web is alle data ook beschikbaar voor
andere applicaties
• elk formaat is prima, maar hoe meer applicaties het
kunnen lezen hoe beter
• internationalisation (i18n)
• toegankelijkheid (voice browsers, mobiele telefoons, ...)
• gebruik vocabulaires die andere applicaties ook al
begrijpen: Dublin Core, SKOS, (EAD), ...
40
42. Thesaurus alignment
Linguïstisch & structuur
Overlap in termen
Overlap/gelijkenis in records
Gedeelde achtergrond kennis
42
Original slide by Frank van Harmelen
43. alignments “leren”
• Bijv. relaties tussen kunststijlen in
AAT and schilders in ULAN door het
scannen van kunsthistorische teksten
– “Welke schilders waren Impressionisten”
43
44. Open formaten & “cool” URLs
• Op het web heeft alles een URL
– dus URLs voor:
• metadata records
• gedigitaliseerde bronnen
• termen (uit de archiefwiki?)
• ...
– let op: “cool URLs don’t change”!
• Op het web is alle data ook beschikbaar voor
andere applicaties
• elk formaat is prima, maar hoe meer applicaties het
kunnen lezen hoe beter
• internationalisation (i18n)
• toegankelijkheid (voice browsers, mobiele telefoons, ...)
• gebruik vocabulaires die andere applicaties ook al
begrijpen: Dublin Core, SKOS, (EAD), ...
44