7. • als we zo ver terug kunnen kijken,
lijkt het een makkie als we vandaag
niet meer dan 10 jaar vooruit hoeven
te kijken
• of misschien toch niet ....
Informatiemaatschappij 20237
8. agenda
• groei van de informatieproductie
– wetenschap
– web
– data
• evolutie van het zoeken
– semantische zoektechnieken
Informatiemaatschappij 20238
15. extrapolatie naar 2023
30 miljoen wetenschappelijke artikelen per jaar
– database Scopus bevat 100 miljoen artikelen
– Web of Science bevat 90 miljoen artikelen
– Pubmed bevat 50 miljoen artikelen
maar blijven het (alleen) klassieke artikelen?
Informatiemaatschappij 202315
16. "what next" voor wetenschappelijk publiceren ?
• ook blogs
• ook tweets
• ook "data"
• klassieke artikelen ontleed / opgesplitst tot "nanopublicaties":
afzonderlijke beweringen die beschreven worden als RDF-tripels
(zelfde techniek als voor "linked open data")
DNA variant NG_000007.3:g.70628G>A (Subject)
has a frequency (Predicate) of 0.25% (Object).
The assertion holds for the Sardinian population
Provenance includes authors of the article (Giardine et. al.),
the date when the nanopublication was created, et cetera.
voorbeeld
nog meer "items"
16
17. Barend Mons, Jan Velterop, et al., Nature Genetics 43, 281–283 (2011)
doi:10.1038/ng0411-281
17 Informatiemaatschappij 2023
18. trend: fragmentering van informatie
zullen we dan nog naar artikelen zoeken
of naar die losse feiten of fragmenten?
Informatiemaatschappij 202318
22. 1
10
100
1000
10000
100000
1000000
1992
1994
1996
1998
2000
2002
2004
2006
2008
2010
aantal miljoenen
webpagina's in grootste
zoekmachine
(verschillende bronnen)
15 jaar lang
verdubbelde elk
jaar het aantal
webpagina's in
de grootste
zoekmachine
content in betaalde online bronnen
miljoenenwebpagina's
?
hoeveel doorzoeken
webzoekmachines?
zie:
Eric Sieverts. Van Lycos tot Google.
in: NRC 9 februari 2013, special
"Slimmer zoeken op internet"
http://sieverts.pbworks.com/f/
NRC_Lycos_Google.pdf
Informatiemaatschappij 202322
23. extrapolatie naar 2023
4 biljard webpagina's in Google?
(4.000.000.000.000.000)
maar blijft Google alles indexeren
en blijven het webpagina's?
Informatiemaatschappij 202323
24. but presently:
• do we want to
find any page?
• does Google
want to index
any page?
• what is a web
page anyhow?
september 2012:
Google knew about
the existence of
30 trillion URL's
30,000,000,000,000
various estimates:
presently about
500,000,000,000
indexed pages
24 Informatiemaatschappij 2023
26. linked open data
• met linked open data komen losse feiten en gegevens
gestandaardiseerd op internet beschikbaar
• in de linked open data cloud zijn al duizenden datasets
met vele biljoenen RDF-tripels toegankelijk
• Google's Knowledge Graph bevat al miljarden gegevens
Informatiemaatschappij 202326
28. informatie of data?
informatieinflatie
2000 Hall & Varian onderzoek:
gezamenlijk produceerden we dat jaar 1,5 exabyte
(miljard gigabyte) informatie en dat verdubbelt elk jaar
(maar: is dat informatie of zijn het data?)
2011 uit een "infographic":
in 2010 produceerden we gezamenlijk 2 zettabytes :
2 x 10
21
bytes (2000 miljard gigabyte)
en dat verdubbelt elk jaar
[d.w.z. ruim 300 GB per persoon]
Informatiemaatschappij 202328
29. informatie of data?
informatieinflatie
elk jaar verdubbelt aantal bytes dat we produceren
is dat groei of inflatie?
• TXT documentje met mijn tekst: 50 kB
videoregistratie van mijn lezing: 500 MB
dezelfde informatie(!?) maar 10.000 x zoveel data
• berichten op het web worden 100-voudig gerepliceerd,
herblogd en geretweet
• van alles maken we ongecoördineerd back-ups
• ...
Informatiemaatschappij 202329
40. semantisch zoeken
globaal 3 soorten toepassingen
1. inschatten van de intentie van de zoeker
bijv.: zoekt mobiel in buurt van de Rozengracht naar “pizza”
>> adres van pizzeria in de buurt
2. bepalen van betekenis van woorden/tekst in
documenten
vooraf bij indexeren of achteraf in zoekresultaat
3. automatisch aanpassen van zoekacties
bijv.: zoekwoorden toevoegen / vervangen,
(ook) in andere systemen zoeken
40 Informatiemaatschappij 2023
41. 1. intentie van de zoeker
intentie of context van vraag kan worden bepaald:
• uit lokatie van de zoeker
– globaal: op basis van ip-adres van gebruiker
precies: op basis van bekende gps- of gsm-gegevens (mobiel)
• door analyse van gestelde vraag
– naam van persoon, bedrijf, product, gebeurtenis, … >> feiten
– naam van gewoon persoon >> facebook / linked-in gegevens
– iets geavanceerder: vaste combinaties van woorden
– geavanceerd: natuurlijke taal techniek / statistiek op eerdere
vragen
• op basis van eerder zoekgedrag van de zoeker
– eerdere zoekvragen / eerder bekeken resultaten daaruit
ook bij dubbelzinnige zoekwoorden?
41 Informatiemaatschappij 2023
43. Wie op “Bach” zoekt, vindt vermoedelijk liever
gegevens over hem dan websites over hem.
Google's Knowledge Graph kent 500 miljoen
objecten met 3,5 miljard kenmerken
(binnenkort ook in het Nederlands)
43
gegevens afkomstig uit:
"Freebase" (crowdsourced kennisbank),
Wikipedia, CIA World factbook en uit
statistische analyse van eigen gegevens
44. wat is in dit verband een "graph"?
een netwerk van al die concepten met
hun onderlinge relaties en kenmerken
44
56. 2. bepalen van betekenis
betekenis herkennen van woorden en gegevens in te
indexeren tekst en/of in al gevonden resultaten
• herkennen van "entiteiten" in tekst
(herkennen van woorden/samenstellingen behorend tot categorieën
als plaats, persoon, bedrijf, product, ...)
• betekenis die herkenbaar aanwezig is in "embedded metadata"
(bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web
• tekstanalyse voor automatisch categoriseren
(door "machine learning" getraind op taxonomie of thesaurus,
zowel inhoudelijk als bijv. "sentiment detection")
• tekstanalyse en koppeling met geselecteerde andere bronnen
(bijvoorbeeld via "linked data")
• ...
56 Informatiemaatschappij 2023
57. in semantisch web wordt
van "alles" betekenis
vastgelegd (in metadata)
semantisch web
om betekenis ook te
begrijpen heeft men
"ontologieën" nodig
57
58. rdf (resource description framework)
• standaard voor computerleesbaar beschrijven van objecten
(met metadata)
• vastgelegd in zogenaamde RDF triples
• waarbij
– te beschrijven ding een webadres (URI) heeft
– eigenschap van dat ding liefst ook een URI heeft
– "waarde" van die eigenschap liefst ook een URI heeft
• voorbeeld:
– boek (heeft een webadres: URI)
– heeft auteur (betekenis van eigenschap ergens beschreven: URI)
– persoon (gegevens van persoon ergens op web te vinden: URI)
Informatiemaatschappij 202358
59. rdf tripels
subject <predicaat> object
doc1 <heeft auteur> auth1
auth1 <heeft naam> john smith
auth1 <heeft affiliatie> home inc.
auth1 <heeft email> smith@home.com
grafische representatie van
simpel netwerk van 4 RDF-tripels
Informatiemaatschappij 202359
60. via die webadressen (URI's) kan iedereen aan deze data linken
rdf tripels
= "resource" met URI
= "literal" (gegeven)
getypeerde
(en op het web
gedefinieerde)
relaties tussen
resources en
gegevens
60 Informatiemaatschappij 2023
61. gebruik semantische codering
gestandaardiseerde markering van kenmerken in
webpagina's
voorbeelden van “embedded metadata”:
– recipe search bij Google en Yahoo
– toepassing e-commerce ontology
daarbij gebruikte standaarden:
– microformats / rich snippet markup / microdata / schema.org
(Google, Yahoo, Bing)
onder andere voor: recepten, recencies, personen,
producten, organisaties, gebeurtenissen, muziek
– RDFa
61 Informatiemaatschappij 2023
universele
"ontologie" van
eigenschappen
van dingen
65. microformats en RDFa
• toepassing van deze technieken is vaak "SEO-driven"
zie blogpost op
SearchEngineLand
http://searchengineland.com/how
-to-use-rich-snippets-semantic-
markup-to-send-rich-signals-
139886
65 Informatiemaatschappij 2023
66. wat heeft zoeker hieraan?
• zoeker kan gerichter zoeken en filteren
(zoals in Google's receptenzoeker)
• zoeker krijgt duidelijker informatie over
gevonden items
(zoals Google's rich snippets)
68. RDF en "linked data"
er is veel publiciteit rond linked (open) data
• kan weergegeven als RDF-tripels
zodat de data computer-leesbaar zijn
• staat op internet
zodat het "open" is
• bedoeld om te worden hergebruikt
zodat het belangrijk ingrediënt voor het semantisch web is
• is gestandaardiseerd
zodat het makkelijk hergebruikt kan worden
• iedereen kan (en moet!) data bijdragen
waardoor het soms wel een beetje een rommeltje is
Informatiemaatschappij 202368
69. dbpedia: data
from Wikipedia
last.fm: artists
geonames:
6.2 M toponyms
BBC: wildlife
finder
project
GutenbergIMDB
Reuters:
openCalais
viaf: virtual
international
authority file
LCSH
NY times
Flickr
de "linked open data cloud"
31 miljard data online – 504 miljoen connecties (links) daartussen
rechtspraak.nl
sept 2011
music brainz
70. sparql - endpoints
nog wat linked data jargon:
SPARQL eigen zoektaal voor RDF-triple stores
Sparql Protocol And Rdf Query Language
wat SQL is voor relationele databases
is SPARQL voor RDF triple stores
Endpoints toegangspunten op het web waar je SPARQL
zoekactie op RDF triple stores kunt uitvoeren
(je moet daarvoor de SPARQL syntax kennen
- door een computer laten uitvoeren)
Informatiemaatschappij 202370
71. 3. aanpassen van zoekactie
aanpassen / verbeteren van zoekacties
vooraf (automatisch) bewerken van zoekvraag
• variaties op zoekwoord meenemen in query
– spelling verbeterd (statistiek?) [veilgheid >> veiligheid]
– zoeken op woordstam (enkel/meervoud, vervoegingen, ….)
[vaccination >> vaccinations, vaccine, vaccinate, vaccinated, …]
– spellingsvariaties [immunisation <> immunization]
– samenstellingen opbreken (en omgekeerd)
[catfood <> cat food ; maatregel + veiligheid <> veiligheidsmaatregelen]
• synoniemen, acroniemen aan query toevoegen
(uit woordenlijst, semantisch netwerk, ontologie)
[vaccination <> immunization ; jfk <> john f kennedy]
• verwante en specifiekere begrippen aan query toevoegen
(uit semantisch netwerk, thesaurus, ontologie, knowledge graph)
heeft nog niet zo veel met
"semantiek" te maken;
Google doet dat wel al allemaal
Informatiemaatschappij 202371
72. 3. aanpassen van zoekactie
aanpassen / verbeteren van zoekacties
achteraf bewerken van zoekresultaat
• zoekresultaten clusteren op basis van inhoud
– meestal op basis van woordstatistiek (voorbeeld Clusty, Polymeta)
– soms op basis van automatische classificatie
• fragmenten van gevonden document tonen die de vraag beantwoorden
– KWIC display van zoekmachines is eenvoudige vorm daarvan
– zie bijv. Sensebot
• uit gevonden documenten samenvatting genereren van belangrijkste
bevindingen / antwoorden
– zie bijv. Factbites
Informatiemaatschappij 202372
73. extrapolatie naar 2023
webzoekmachines zullen zich verder tot
antwoordmachines ontwikkelen
• maar zal beperkt blijven tot antwoorden op
"alledaagse" vragen,
• … zodat voor specialistischer onderwerpen
gewone keyword search nodig blijft,
• … waarbij die door semantiek wel slimmer wordt,
• … zodat keuze van "juiste zoekterm" minder
belangrijk wordt,
• … maar onderwerpskennis blijft essentieel voor
controle of "het" onze vraag juist interpreteert
Informatiemaatschappij 202373