Information Retrieval: van specialisme tot commodity

information retrieval:
van specialisme tot commodity
online zoeken - 1980-2014
Eric Sieverts
@sieverts
UB Utrecht HvA-MICGO Opleidingen
IBW UA - 4 april 2014

Eric Sieverts, IBW-UA, 4-4-2014
informatievoorziening van specialisme tot commodity
het komt nu gewoon "uit de muur"
maar soms wel wat veel .......
2

de geschiedenis in één slide .....

verbinding met "The Cloud" anno 1980
datacom-kosten (PTT) : ca f 0,30 / kB
online informatie zoeken
kunnen we al meer dan 40 jaar
4

online verbinding anno 1980:
300 baud acoustisch modem
met thermische lijnprinter

online in1985: draagbare IBM PC met "domme terminal" software en 1200 bit/s modem

ARPAnet 1969
en internet is zelfs nog ouder ….

webzoekmachines
zijn er al 20 jaar
webcrawler
in 1993 de eerste die ook tekst
uit de pagina zelf indexeerde8

lycos
in 1994 de eerste "echte",
met bijna 1,5 miljoen pagina's9
webzoekmachines
zijn er al 20 jaar

altavista
in 1996 de nieuwste grootste,
met ruim 30 miljoen pagina's
10
webzoekmachines
zijn er al 20 jaar

Google vierde vorig jaar
zijn 15de
verjaardag
11

agenda
• informatiegroei / informatieinflatie
– wetenschap
– web
– data
• vinden van "al" die informatie
– zoektrends voor de wetenschap
• resultaten vergelijking Scopus - WoS - Google Scholar
– zoektrends voor het web
• Google - meer of minder / beter of slechter
• semantisch zoeken

1. de wetenschap
groei van te vinden informatie

overhead sheet bij
colleges ca. 1985
bronnen:
• Derek de Solla Price
• Gale Directory
• Ulrich's
• ...
14 Eric Sieverts, IBW-UA, 4-4-2014

10
100
1000
10000
100000
1000000
10000000
100000000
1720
1740
1760
1780
1800
1820
1840
1860
1880
1900
1920
1940
1960
1980
2000
2020
schatting jaarlijks aantal
wetenschappelijke publicaties
aantal tijdschriften
al 260 jaar verdubbelt
jaarlijks aantal
wetenschappelijke
artikelen elke 14 jaar
en aantal tijdschriften
ook zo ongeveer

10
100
1000
10000
100000
1000000
10000000
100000000
1720
1740
1760
1780
1800
1820
1840
1860
1880
1900
1920
1940
1960
1980
2000
2020
(Sieverts 1981-1994)
10
100
1000
10000
100000
1000000
10000000
100000000
1720
1740
1760
1780
1800
1820
1840
1860
1880
1900
1920
1940
1960
1980
2000
2020
(Sieverts 1981-1994)
na (exponentiële) groei
met factor 100.000
neiging tot verzadiging?
NRC 12 maart 2011

10
100
1000
10000
100000
1000000
10000000
100000000
1720
1740
1760
1780
1800
1820
1840
1860
1880
1900
1920
1940
1960
1980
2000
2020
(Eric Sieverts, 1981-1994)
jaarlijks aantal
(NRC-Handelsblad, maart 2011)
exponentiële groei blijkt na 280
jaar toch nog niet afgevlakt
wetenschappers raken niet op?
• meer in china en india
• nog meer "publish or perish"
• …. ?
17

extrapolatie naar 2024 ?
 30 miljoen wetenschappelijke artikelen per jaar ?
? database Scopus bevat dan 100 miljoen artikelen
? Web of Science bevat dan 90 miljoen artikelen
? Pubmed bevat dan 50 miljoen artikelen
maar blijven het (alleen) klassieke artikelen?

"what next" voor wetenschappelijk publiceren ?
• ook blogs
• ook tweets
• ook onderzoeksdata
• klassieke artikelen ontleed / opgesplitst tot "nanopublicaties":
afzonderlijke beweringen die beschreven worden als RDF-tripels
(zelfde techniek als voor "linked open data")
DNA variant NG_000007.3:g.70628G>A (Subject)
has a frequency (Predicate) of 0.25% (Object).
The assertion holds for the Sardinian population
Provenance includes authors of the article (Giardine et. al.),
the date when the nanopublication was created, et cetera.
voorbeeld
nog meer "items"
20

Barend Mons, Jan Velterop, et al., Nature Genetics 43, 281–283 (2011)
doi:10.1038/ng0411-281

 trend: fragmentering van informatie
willen we dan nog naar artikelen zoeken
of naar die losse feiten of fragmenten?

2. het web
groei van te vinden informatie
23

Dutch Home Page
najaar 1993
Dutch Home Page
zomer 1994

gegevens aanvankelijk uit:
1998
hoeveel doorzoeken webzoekmachines?
20011995

1
10
100
1000
10000
100000
1000000
1992
1994
1996
1998
2000
2002
2004
2006
2008
2010
aantal miljoenen
webpagina's in grootste
zoekmachine
(verschillende bronnen)
15 jaar lang
verdubbelde elk
jaar het aantal
webpagina's in
de grootste
zoekmachine
content in betaalde online bronnen
miljoenenwebpagina's
?
hoeveel doorzoeken
webzoekmachines?
zie:
Eric Sieverts. Van Lycos tot Google.
in: NRC 9 februari 2013, special
"Slimmer zoeken op internet"
http://sieverts.pbworks.com/f/
NRC_Lycos_Google.pdf

but presently:
• do we want to
find any page?
• does Google
want to index
any page?
• what is a web
page anyhow?
september 2012:
Google knew about
the existence of
30 trillion URL's
30,000,000,000,000
various estimates:
presently about
500,000,000,000
indexed pages

extrapolatie naar 2024
 4 biljard webpagina's in Google?
(4.000.000.000.000.000)
maar blijft Google alles indexeren
en blijven het webpagina's?

linked open data
• met linked open data komen losse feiten en gegevens
gestandaardiseerd op internet beschikbaar
• in de linked open data cloud zijn al duizenden datasets
met vele biljoenen RDF-tripels toegankelijk
• Google's Knowledge Graph bevat al miljarden gegevens
3030

31
van web tot
linked data
Tim Berners Lee:
1989: "invented" the WWW
2004: proposed the "semantic web"
2006: designed "linked data"
as a step towards realisation
of the semantic web

dbpedia: data
from Wikipedia
last.fm: artists
geonames:
6.2 M toponyms
BBC: wildlife
finder
project
GutenbergIMDB
music brainz
Reuters:
openCalais
viaf: virtual
international
authority file
LCSH
NY times
Flickr
"linked open data cloud" - 31 miljard data online – 504 miljoen links daartussen
door standaardisering van dataformats en metadata,
kunnen computers betekenis van die data "begrijpen" en die data gebruiken
rechtspraak.nl
sept 2011

 trend: fragmentering van informatie
zoeken we in 2024 nog naar webpagina's
of naar losse feiten en fragmenten?

informatiegroei
informatie of data ?
&
informatieinflatie
© Foam Amsterdam

informatie of data?
informatieinflatie
2000 Hall & Varian onderzoek:
gezamenlijk produceerden we dat jaar 1,5 exabyte
(miljard gigabyte) informatie en dat verdubbelt elk jaar
(maar: is dat informatie of zijn het data?)
2011 uit een "infographic":
in 2010 produceerden we gezamenlijk 2 zettabytes :
2 x 10
21
bytes (2000 miljard gigabyte)
en dat verdubbelt elk jaar
[d.w.z. ruim 300 GB per persoon]

informatie of data?
informatieinflatie
elk jaar verdubbelt aantal bytes dat we produceren
 is dat groei of inflatie?
• TXT documentje met mijn tekst: 50 kB
videoregistratie van mijn lezing: 500 MB
dezelfde informatie(!?) maar 10.000 x zoveel data
• berichten op het web worden 100-voudig gerepliceerd,
herblogd en geretweet
• van alles maken we ongecoördineerd back-ups
• ...

YouTube groeit met 100 uur per minuut

datavloedgolf
2011 - 1 biljoen YouTube filmpjes bekeken
2012 - Internet Archive: 10 PetaByte (10
16
)
2013 - 100 uur video per minuut YouTube
- 4000 foto's per seconde Facebook
- 250 miljard foto's op Facebook
- 540 miljard tweets in Topsy zoekmachine
2014 - Beeld & Geluid (NL): 15 PetaByte

5 MB harde schijf
in 1956
2 TB in 2013
prijs van opslagmedia:
in 1956:
$ 7000 / MB / jaar lease
in 2013:
$10 / TB
(= $ 0,00001 / MB)
dataopslag
41

1051
atomen
2110: ~1051
bits
2024: ~1026
bits (10 yottabyte)
2010: ~1022
bits
2000: ~1019
bits (1 exabyte)
onze jaarlijkse
data productie
??
exponentiële
groei blijft
voortduren ?
42
"grenzen aan de groei"
• minder produceren?
• niet alles (willen) bewaren?

vinden van die informatie
1. de wetenschap
43

vinden van wetenschappelijke
informatie
1980 - 2005 - in bibliografische databases
belang van metadata - zoektermen
uit thesauri en classificaties
gestructureerd booleaans combineren
versnipperd aanbod
2005 - 2014 ….

zoeksystemen voor gestructureerde informatie
(bibliografisch, metadata, ….)
• basis: booleaanse building block methode
• functionaliteit zeer stabiel (conservatief?)
databases bij host Dialog waren tot vorig jaar nog vrijwel net zo
te bevragen als 35 jaar geleden (als je dat wilde)
• ….
veiligheid lange tunnels
veiligheid
veilig
onveiligheid
beveiliging
veiligheidsmaatregelen
....
lang
lengte
...
tunnels
verkeerstunnels
autotunnels
spoortunnels
....
OR OR
ANDAND

• ….
• zeer exacte zoekresultaten (aantallen)
• ook moderner uitziende interfaces (Ovid, Proquest, Ebsco,
LexisNexis, …) nog niet erg gebruiksvriendelijk
• automatisch "vervangend zoeken" ten behoeve van
gecontroleerd vocabulair (thesaurus) nog niet heel algemeen
(wel bij PubMed, Ovid)
• automatisch "generiek zoeken" (zoekvraag uitbreiden met
specifiekere begrippen - uit thesaurus) nog niet heel algemeen
(wel bij PubMed)
• elk systeem heeft zijn eigen interface (en eigen zoeksyntax)

willen aanbieders hiermee gebruikers blijven trekken, dan moet
• het er net zo makkelijk (& aantrekkelijk?) uitzien als
• het net zo makkelijk lijken als
• het een "experience" opleveren
discovery tools proberen dit wel te bieden >>
bij aanbieders van bibliografische databases
is dat allemaal (nog) meestal niet het geval

informatie
1980 - 2005 - in bibliografische databases
belang van metadata - zoektermen
uit thesauri en classificaties
gestuctureerd booleaans combineren
versnipperd aanbod
2005 - 2014 - in "discovery tools"
- in Google Scholar
belang van woorden uit de full-text
(ongecontroleerd vocabulair)
"bag of words" zoekacties
één ingang

2000 - 2013
discovery tool
avant la lettre
51

Eric Sieverts, SIG-CI, 1-11-2012
2011
year of the webscale discovery tools
53

informatie
kenmerken "discovery tools"
– ranking van resultaat op basis van best match
– facetten op basis van standaard formele kenmerken
(parametrisch zoeken) - metadata!
– beperken tot materiaal waarvoor toegang (licenties)
waardoor discovery = delivery

van google zijn we dat gewend
in fysieke bibliotheek was dat gewoon
maar in deze voorbeelden is
de discovery wat beperkt .......
discovery = delivery

informatie
– de catalogus is erin geïntegreerd
maar is die geschikt voor "discovery" ?

voor informatie zoeken zijn (waren?)
bibliotheekcatalogi geheel ongeschikt
voorbeeld: boek van 480 bladzijden
met onderwerpsindex van 14 dichtbedrukte bladzijden
met inhoudsopgave van 5 blz. met 21 hoofdstukken en 117
paragrafen
in een catalogus beschreven
met 1 onderwerpscategorie
en 1 (daaraan identiek!) trefwoord

zelfs user-tags in Librarything bieden
maar weinig meer zinvolle ingangen
vergeleken met die inhoudsopgave
metadata in een bibliotheekcatalogus
kunnen wel eens problematisch zijn
voorbeeld: boek van 480 bladzijden
met onderwerpsindex van 14 dichtbedrukte bladzijden
met inhoudsopgave van 5 blz. met 21 hoofdstukken en 117
paragrafen
8

de 21 hoofdstukken op de bijbehorende website
een paar van de 117
paragrafen uit de TOC

informatie
– de catalogus is erin geïntegreerd
kenmerken Google Scholar
– in ranking spelen citaties grote rol
 nieuwste informatie wordt benadeeld **>>
– geen metadata, maar patroonherkenning
– vaak meer versies van artikelen, waarbij soms ook gratis
(bijv. uit Institutioneel Repository)

informatie
2012 - 2013 : UB Utrecht onderzocht
– of eigen "discovery tool" Omega afgesloten kon worden
(leed onder wet van de remmende voorsprong)
– of Google Scholar en/of al aanwezige betaalde zoeksystemen
als Web of Science en/of Scopus alternatief vormden voor
nieuw in te richten discovery tool
– of catalogus t.z.t. als zoekhulpmiddel afgedankt kon worden
uitkomst:
• meer nadruk op delivery dan op (eigen) discovery
• verder met Google Scholar + Scopus + WoS
– met verbeterde link resolving
– met gerichte communicatie naar gebruikers

Eric Sieverts
@sieverts
Bianca Kramer
@MsPhelps
onderdeel uit
dat onderzoek
62

acromioclavicular joint fracture surgery
greenhouse emission dairy cattle
dangling bond passivation amorphous silicon
"verbal memory" children dyslexia
ethnicity "residential areas"
"sarbanes oxley" compliance legislation
modern literature cultural continuity
Medicine
Biology
Physics
Law
Humanities
Social sciences
Geosciences

Medicine Physics Biology
Geosciences Social sciences Law Humanities
Overlap Scopus / Web of Science

7 search queries
#publications
← results Scopus + WoS
Scopus / WoS results found in Google Scholar ?

#publications
← results Scopus + WoS

7 search queries Scopus
1st
100 Google Scholar results: in Scopus / Wos ?

7 search queries Web of Science
2
1st
100 Google Scholar results: in Scopus / Wos ?

Scopus

Web of Science
78

vinden van die informatie
op het web: voorkeur slingert tussen
zoekmachine en ontsluiting

yahoo! directory
yahoo! directory
open directory
startpagina's
lycos
altavista
google
web-2.0
tagging/folksonomies
1990
2013
zoeken ontsluiten
semantisch
zoeken
semantisch web
content curation80

webzoekmachines
• introduceerden best-match zoeken (i.p.v. booleaans)
• (ca. 1997) van "most of the terms" "all of the terms"
• (ca. 1998) suggesties voor alternatieve zoektermen
(op basis van statistiek), vooral voor inperken van zoekactie,
soms (AltaVista) ook geclusterd
(al deden online hosts ESA en Dialog anno 1985 al
net zo iets, met ZOOM- of RANK-commando)
• (1998) introduceert link-statistiek als ranking parameter
• (2003-2008) suggesties voor extra termen verdwijnen weer
(wel nog bij gespecialiseerde zoeksystemen)
• (2010) soort van verfijnen komt terug in de vorm van facetten
(maar databases als Scopus waren daar al veel eerder mee)
• vermelde aantallen zoekresultaten kloppen van geen kant
• ….

webzoekmachines
• ….
• doordat je zoveel vindt, vind je ook steeds meer niet
(niet > 1000 ! ook niet bij Google Scholar)
• verbeteren zoekvraag door "did you mean:"
• verbreden door automatisch zoeken op woordstammen
• verbreden door automatisch zoeken op synoniemen,
samenstellingen, afkortingen, enz.
• verbeteren zoekvraag zonder nog te vragen "did you
mean:"
• niet zoeken wat je vraagt (de ingetikte zoekwoorden),
maar wat (zoekmachine denkt dat) je bedoelt: "user intent"
• ....
maar zoekspecialisten
niet meer zo tevreden
door die automatismes
82

webzoekmachines
• ….
• doordat je zoveel vindt, vind je ook steeds meer niet
(niet > 1000 ! ook niet bij Google Scholar)
• verbeteren zoekvraag door "did you mean:"
• verbreden door automatisch zoeken op woordstammen
• verbreden door automatisch zoeken op synoniemen,
samenstellingen, enz.
• verbeteren zoekvraag zonder nog te vragen "did you mean:"
• niet zoeken wat je vraagt (de ingetikte zoekwoorden),
maar wat (zoekmachine denkt dat) je bedoelt: "user intent"
• (2011) introduceert "Verbatim" om toch weer
"woordelijk" te laten zoeken
• ....

webzoekmachines
• ….
• is benchmark geworden voor (uiterlijk van) zoeksystemen
MAAR:
syntax voor geavanceerde functies van Google (en Bing, Blekko,
DuckDuckGo, ...) nog net zo ingewikkeld als Dialog anno 1980
EN:
bij Google hangt zoekresultaat af van
 welke browser
 landenversie
 taalinstelling
 of je ingelogd bent
 of je Google+ gebruiker bent
 ....
wekelijks verschijnen en verdwijnen functies en mogelijkheden
(vooral bij Google)

webzoekmachines
• EN:
...
in hoog tempo verdwijnen functies en mogelijkheden
als "graveyard of broken dreams" :
• helemaal verdwenen:
 + operator, ~ synonym operator
 timeline, wonder wheel, toolbar, sidewiki, searchwiki, ...
 real time results, code search, translated search, desktop search
 google buzz, google wave, google directory, google reader,
iGoogle, google answers, google talk, google sets, ...
• alleen maar verstopt:
 advanced search & settings (onder "tandwiel”)
 "similar page" & "cache"-links (onder groen driehoekje)
 material specific search (onder "grid")
 Scholar, Patents, Discussions (Groups), Blogs, Recipes
helemaal niet meer genoemd (je moet URL weten)
 "backlink search" niet meer in advanced search
 …

webzoekmachines
• ….
• personalisatie van (ranking van) zoekresultaat op basis van
• eerder zoekgedrag
• je "sociale kring"
meer algemeen gaan we:
van zoeken filteren (via sociale media)
 de "filter bubble"

webzoekmachines
• Google 2013: not STRINGS but THINGS
geen DOCUMENTEN maar DINGEN
geen 10 blue links maar ANTWOORDEN
van indexen op documenten (webpagina's)
"graphs" van feiten en gegevens
 Google Knowledge Graph
 Bing Entity Engine (Satori)
 Facebook Graph search
semantisch web & semantisch zoeken ??

semantisch web
semantisch zoeken

Wie op “Bach” zoekt, vindt vermoedelijk liever
gegevens over hem dan websites over hem.
Google's Knowledge Graph kent 500 miljoen
objecten met 3,5 miljard kenmerken
(binnenkort ook in het Nederlands)
89
gegevens o.a. afkomstig uit:
"Freebase" (crowdsourced kennisbank),
Wikipedia, CIA World factbook en
statistische analyse van eigen gegevens

wat is in dit verband een "graph"?
 een netwerk van al die concepten met hun
onderlinge relaties en kenmerken
90

graphs zijn nu "hot"
91
social graph uit Twitter
social graph uit Facebook
relaties in Freebase

92
meer uit de Knowledge Graph
generieke vragen
leveren lijstjes/"carousel",
soms in meer rubrieken

maar niets over
de diefstal ….
96

97
feitelijk antwoord
boven gewone
resultaten

103
vergelijkingen

Bing heeft zijn "Entity Engine" (Satori)
maar die reageert nog niet altijd zo
slim op combinaties van woorden
105

Facebook Graph Search
alle gegevens die gebruikers registreren, worden
gestructureerd opgeslagen in Facebook's graph
(met gestandaardiseerde betekenis), waardoor
ook gestructureerd gezocht kan worden

semantisch zoeken
drie soorten toepassingen
1. inschatten van de intentie van de zoeker - en liefst concreet
antwoord in plaats van "10 blue links" (zoals bij Knowledge Graph)
bijv.: zoekt mobiel in buurt van de Groenplaats naar “pizza”
>> adres van pizzeria in de buurt
2. bepalen van betekenis van woorden/tekst in documenten
vooraf bij indexeren of achteraf in zoekresultaat;
bijv.: herkennen van entiteiten of meegegeven metadata,
via complexe kennis van de wereld, concepten met tekst
associeren
3. automatisch aanpassen van zoekactie / zoekresultaat
bijv.: toevoegen van betere en/of gerelateerde zoekwoorden,
zoekresultaat analyseren,
(ook) in andere systemen zoeken

interpretatie van
natuurlijke taal
om tot concreet
antwoord te komen
109

1. antwoordmachines
maar willen we als informatieprofessionals wel
antwoordmachines in paats van zoekmachines?
wie bepaalt wat juiste antwoord is ?
google ?
wikipedia ?
ik zelf ?
wie maakt afweging voor de juiste nuances ?
wie verzamelt voors en tegens ?

2. betekenis in documenten
• herkennen van "entiteiten" in tekst
zoals namen van plaatsen, personen, bedrijven,
producten, ...
• automatische categorisering door via "machine learning"
getraind systeem
• gebruik van "embedded metadata" / semantische codering
bijvoorbeeld binnen (X)HTML coderingen
• inhoudelijke koppeling met geselecteerde andere bronnen
bijvoorbeeld via "linked data"
• ...

Google herkent
objecten in images
113

pinterest
biedt automatisch (?) gegenereerde
filters op onder meer recepten
?

uit semantische codering
gestandaardiseerde markering van kenmerken in
webpagina's
voorbeelden van “embedded metadata”:
– recipe search bij Google en Yahoo
– toepassing e-commerce ontology
daarbij gebruikte standaarden:
– microformats / rich snippet markup / microdata / schema.org
(Google, Yahoo, Bing)
onder andere voor: recepten, recencies, personen,
producten, organisaties, gebeurtenissen, muziek
– RDFa

in huidig Google-interface
onzichtbaar en minder
handig geworden;
NB: alleen in google.com
bij Yahoo overzichtelijker

browser extensies
(in Chrome) om
embedded metadata
uit pagina's te pikken

standaardisatie van
kenmerken van producten
met "GR-ontologie"
volgens "RDFa“ in “XHTML”
118

nieuwe standaard van de zoekmachinegiganten: microdata
hiërarchie van kenmerken voor embeddable metadata in webpagina’s
+ nu ook
Yandex
121

de concepten uit de
good relations ontology
zijn recent ook in
schema.org geïncorporeerd
door Google, Bing en Yahoo vastgelegde standaard: microdata
met hiërarchie van embeddable metadata kenmerken voor het web

microdata en RDFa
• toepassing van deze technieken is vaak "SEO-driven"
• Google biedt webmasters "Structured data testing tool" dat
fouten in codering detecteert
zie blogpost op
SearchEngineLand
http://searchengineland.com/how
-to-use-rich-snippets-semantic-
markup-to-send-rich-signals-
139886

wat heeft zoeker hieraan?
• zoeker kan gerichter zoeken en filteren
(zoals in Google's receptenzoeker)
• zoeker krijgt duidelijker informatie over
gevonden items
(zoals Google's rich snippets)

in semantisch web
wordt van "alles"
de betekenis
vastgelegd
semantisch web
om betekenis ook te
kunnen begrijpen zijn
"ontologieën" nodig

Originally from: http://www.emiliosanfilippo.it/?page_id=1172
ontologieën

ontologieën
"Ontology is the philosophical study of the nature of
being, becoming, existence, or reality, as well as
the basic categories of being and their relations"
Wikipedia
filosofie
kunstmatige
intelligentie
semantisch
web
127
linked
(open) data

ontologieën
"een strikt en uitputtend schema
voor een bepaald onderwerpsdomein,
meestal in een hiërarchische structuur,
die alle relevante grootheden en hun relaties bevat,
alsmede de regels waaraan die grootheden en relaties
binnen dat domein voldoen"
"kennis-representatie“ waarin kennis over (klein stukje van)
de wereld in geformaliseerde vorm is weergegeven en
die vollediger en meer complexe representatie van de
werkelijkheid mogelijk maakt dan bijv. een thesaurus
filosofie
kunstmatige
intelligentie
semantisch
web
128
linked
(open) data

ontologieën
elk soort kennisorganisatiesysteem waarmee betekenis
beschreven kan worden, zoals
• "echte" ontologieën
• thesauri
• taxonomieën
• semantische netwerken
• namenlijsten
• concordanties
• …
filosofie
kunstmatige
intelligentie
semantisch
web
129
linked
(open) data
schema.org
is ook simpele
vorm hiervan

ontologieën
"conceptuele datamodellen" voor allerlei domeinen, zoals
• foaf (persoonsgegevens)
• dublin core (15 velden voor vooral erfgoed)
• good-relations ontology (e-commerce)
• music ontology (muziek)
• skos (thesaurusrelaties)
• cidoc-crm (erfgoed)
definities van "velden", klassen van eigenschappen, e.d.,
meestal niet van hun inhouden
filosofie
kunstmatige
intelligentie
semantisch
web
130
linked
(open) data

voorbeeld van de relaties
tussen concepten m.b.t.
het standbeeld van Balzac
door Rodin [CIDOC-CRM]
131

voorbeeld hoe diverse semantische standaarden
(ontologieën) via RDF werden gecombineerd
vroeger veel gebruikte
standaarden voor
beschrijvingselementen:
• v: vcard
• mo: music ontology
• foaf: friend of a friend
• owl: web ontology language
• geo
maar worden nu algemeen
vervangen door schema.org
133
oud

ontologieën
voor “ontologieën” in het kader van semantisch web en
linked data is essentieel dat:
– ontologie zo beschikbaar is dat een computer-programma
hem kan lezen, verwerken en interpreteren
→ vereist gestandaardiseerde notaties en formele talen
om ze te beschrijven, zoals
• rdf
• rdfs
• owl
• skos
• …

fragment uit het
linked data
VIAF-record voor
Hugo Brandt Corstius
viaf.org/viaf/94439179/rdf.xml
135

linked data in worldcat
136

we've come a long way
van informatieschaarste
naar informatieoverload
van gespecialiseerde bestanden
naar universele zoeksystemen
van complexe commandotalen
naar systemen die onze vragen
begrijpen
maar :
- informatievaardige kritische gebruikers blijven nodig
- "there will always be a place for 10 blue links"

Information Retrieval: van specialisme tot commodity

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (16)

Similaire à Information Retrieval: van specialisme tot commodity

Similaire à Information Retrieval: van specialisme tot commodity (20)

Information Retrieval: van specialisme tot commodity

Notes de l'éditeur