SlideShare une entreprise Scribd logo
1  sur  74
wij zullen vinden
ook in 2023
Eric Sieverts
@sieverts
Informatiemaatschappij 2023
UB Utrecht HvA-MICGO Opleidingen
2 oktober 2013
zoekmachines zijn er
al bijna 20 jaar
webcrawler
in 1993 de eerste die ook tekst
uit de pagina zelf indexeerde2
zoekmachines zijn er
al bijna 20 jaar
lycos
in 1994 de eerste "echte",
met bijna 1,5 miljoen pagina's3
altavista
in 1996 de nieuwste grootste,
met ruim 30 miljoen pagina's
zoekmachines zijn er
al bijna 20 jaar
4
Informatiemaatschappij 2023
Google vierde vorige maand
zijn 15de
verjaardag
5
Informatiemaatschappij 2023
1974
online informatie zoeken
kunnen we zelfs al meer dan 40
jaar
6
• als we zo ver terug kunnen kijken,
lijkt het een makkie als we vandaag
niet meer dan 10 jaar vooruit hoeven
te kijken
• of misschien toch niet ....
Informatiemaatschappij 20237
agenda
• groei van de informatieproductie
– wetenschap
– web
– data
• evolutie van het zoeken
– semantische zoektechnieken
Informatiemaatschappij 20238
1. de wetenschap
groei van te vinden informatie
overhead sheet
ca. 1985
bronnen:
• Derek de Solla Price
• Gale Directory
• Ulrich's
• ...
10
10
100
1000
10000
100000
1000000
10000000
100000000
1720
1740
1760
1780
1800
1820
1840
1860
1880
1900
1920
1940
1960
1980
2000
2020
schatting jaarlijks aantal
wetenschappelijke publicaties
aantal tijdschriften
al 260 jaar verdubbelt
jaarlijks aantal
wetenschappelijke
artikelen elke 14 jaar
en aantal tijdschriften
ook zo ongeveer
11 Informatiemaatschappij 2023
10
100
1000
10000
100000
1000000
10000000
100000000
1720
1740
1760
1780
1800
1820
1840
1860
1880
1900
1920
1940
1960
1980
2000
2020
schatting jaarlijks aantal
wetenschappelijke publicaties
(Sieverts 1981-1994)
10
100
1000
10000
100000
1000000
10000000
100000000
1720
1740
1760
1780
1800
1820
1840
1860
1880
1900
1920
1940
1960
1980
2000
2020
schatting jaarlijks aantal
wetenschappelijke publicaties
(Sieverts 1981-1994)
na (exponentiële) groei
met factor 100.000
neiging tot verzadiging?
NRC 12 maart 2011
12 Informatiemaatschappij 2023
10
100
1000
10000
100000
1000000
10000000
100000000
1720
1740
1760
1780
1800
1820
1840
1860
1880
1900
1920
1940
1960
1980
2000
2020
schatting jaarlijks aantal
wetenschappelijke publicaties
(Eric Sieverts, 1981-1994)
jaarlijks aantal
wetenschappelijke publicaties
(NRC-Handelsblad, maart 2011)
exponentiële groei blijkt na 280
jaar toch nog niet afgevlakt
wetenschappers raken niet op?
• meer in china en india
• nog meer "publish or perish"
• …. ?
13
publish or perish
©
14
extrapolatie naar 2023
 30 miljoen wetenschappelijke artikelen per jaar
– database Scopus bevat 100 miljoen artikelen
– Web of Science bevat 90 miljoen artikelen
– Pubmed bevat 50 miljoen artikelen
maar blijven het (alleen) klassieke artikelen?
Informatiemaatschappij 202315
"what next" voor wetenschappelijk publiceren ?
• ook blogs
• ook tweets
• ook "data"
• klassieke artikelen ontleed / opgesplitst tot "nanopublicaties":
afzonderlijke beweringen die beschreven worden als RDF-tripels
(zelfde techniek als voor "linked open data")
DNA variant NG_000007.3:g.70628G>A (Subject)
has a frequency (Predicate) of 0.25% (Object).
The assertion holds for the Sardinian population
Provenance includes authors of the article (Giardine et. al.),
the date when the nanopublication was created, et cetera.
voorbeeld
nog meer "items"
16
Barend Mons, Jan Velterop, et al., Nature Genetics 43, 281–283 (2011)
doi:10.1038/ng0411-281
17 Informatiemaatschappij 2023
 trend: fragmentering van informatie
zullen we dan nog naar artikelen zoeken
of naar die losse feiten of fragmenten?
Informatiemaatschappij 202318
2. het web
groei van te vinden informatie
Informatiemaatschappij 2023
Dutch Home Page
najaar 1993
Dutch Home Page
zomer 1994
gegevens aanvankelijk uit:
1998
hoeveel doorzoeken webzoekmachines?
20011995
Informatiemaatschappij 202321
1
10
100
1000
10000
100000
1000000
1992
1994
1996
1998
2000
2002
2004
2006
2008
2010
aantal miljoenen
webpagina's in grootste
zoekmachine
(verschillende bronnen)
15 jaar lang
verdubbelde elk
jaar het aantal
webpagina's in
de grootste
zoekmachine
content in betaalde online bronnen
miljoenenwebpagina's
?
hoeveel doorzoeken
webzoekmachines?
zie:
Eric Sieverts. Van Lycos tot Google.
in: NRC 9 februari 2013, special
"Slimmer zoeken op internet"
http://sieverts.pbworks.com/f/
NRC_Lycos_Google.pdf
Informatiemaatschappij 202322
extrapolatie naar 2023
 4 biljard webpagina's in Google?
(4.000.000.000.000.000)
maar blijft Google alles indexeren
en blijven het webpagina's?
Informatiemaatschappij 202323
but presently:
• do we want to
find any page?
• does Google
want to index
any page?
• what is a web
page anyhow?
september 2012:
Google knew about
the existence of
30 trillion URL's
30,000,000,000,000
various estimates:
presently about
500,000,000,000
indexed pages
24 Informatiemaatschappij 2023
25
linked open data
• met linked open data komen losse feiten en gegevens
gestandaardiseerd op internet beschikbaar
• in de linked open data cloud zijn al duizenden datasets
met vele biljoenen RDF-tripels toegankelijk
• Google's Knowledge Graph bevat al miljarden gegevens
Informatiemaatschappij 202326
Informatiemaatschappij 2023
 trend: fragmentering van informatie
zullen we dan naar webpagina's zoeken
of naar losse feiten en fragmenten?
27
informatie of data?
informatieinflatie
2000 Hall & Varian onderzoek:
gezamenlijk produceerden we dat jaar 1,5 exabyte
(miljard gigabyte) informatie en dat verdubbelt elk jaar
(maar: is dat informatie of zijn het data?)
2011 uit een "infographic":
in 2010 produceerden we gezamenlijk 2 zettabytes :
2 x 10
21
bytes (2000 miljard gigabyte)
en dat verdubbelt elk jaar
[d.w.z. ruim 300 GB per persoon]
Informatiemaatschappij 202328
informatie of data?
informatieinflatie
elk jaar verdubbelt aantal bytes dat we produceren
 is dat groei of inflatie?
• TXT documentje met mijn tekst: 50 kB
videoregistratie van mijn lezing: 500 MB
dezelfde informatie(!?) maar 10.000 x zoveel data
• berichten op het web worden 100-voudig gerepliceerd,
herblogd en geretweet
• van alles maken we ongecoördineerd back-ups
• ...
Informatiemaatschappij 202329
30 Informatiemaatschappij 2023
YouTube groeit met 72 uur per minuut
datavloedgolf
2011 - per minuut 72 uur video geüpload naar
YouTube
- 1 biljoen YouTube filmpjes bekeken
2012 - Internet Archive: 10 PetaByte (10
16
)
2013 - 4000 foto's per seconde > Facebook
- 250 miljard foto's op Facebook
- 540 miljard tweets in Topsy zoekmachine
2014 - Beeld & Geluid: 15 PetaByte
Informatiemaatschappij 202331
Informatiemaatschappij 2023
5 MB harde schijf
in 1956
2 TB in 2013
prijs van opslagmedia:
in 1956:
$ 7000 / MB / jaar lease
in 2013:
$10 / TB
(= $ 0,00001 / MB)
dataopslag
1051
atomen
2110: ~1051
bits
2023: ~1026
bits (10 yottabyte)
2010: ~1022
bits
2000: ~1019
bits (1 exabyte)
onze jaarlijkse
data productie
??
exponentiële
groei blijft
voortduren ?
Informatiemaatschappij 202333
"grenzen aan de groei"
• minder produceren?
• niet alles (willen) bewaren?
vinden van die informatie
op het web: voorkeur slingert tussen
zoekmachine en ontsluiting
yahoo! directory
yahoo! directory
open directory
startpagina's
lycos
altavista
google
web-2.0
tagging/folksonomies
1990
2013
zoeken ontsluiten
semantisch
zoeken
semantisch web
content curation35
semantisch web
semantisch zoeken
36 Informatiemaatschappij 2023
37 Informatiemaatschappij 2023
"The goal is that pages matching the meaning do better,
rather than pages matching just a few words."
38
1. Semantic Search = Answer Engines
2. Semantic Search = Machine Readable
3. Semantic Search = Enhanced SERP Displays & Lift
4. Semantic Search = Validation Of Web Pages
5. Semantic Search = Social Network Adoption
6. Semantic Search = Google+ Authorship Rich Snippet
7. Semantic Search = Internal Structured Data
8. Semantic Search = The Future Of Search
9. Semantic Search = Schema.org Ontology
10. Semantic Search = Understanding User Intent
39 Informatiemaatschappij 2023
semantisch zoeken
globaal 3 soorten toepassingen
1. inschatten van de intentie van de zoeker
bijv.: zoekt mobiel in buurt van de Rozengracht naar “pizza”
>> adres van pizzeria in de buurt
2. bepalen van betekenis van woorden/tekst in
documenten
vooraf bij indexeren of achteraf in zoekresultaat
3. automatisch aanpassen van zoekacties
bijv.: zoekwoorden toevoegen / vervangen,
(ook) in andere systemen zoeken
40 Informatiemaatschappij 2023
1. intentie van de zoeker
intentie of context van vraag kan worden bepaald:
• uit lokatie van de zoeker
– globaal: op basis van ip-adres van gebruiker
precies: op basis van bekende gps- of gsm-gegevens (mobiel)
• door analyse van gestelde vraag
– naam van persoon, bedrijf, product, gebeurtenis, … >> feiten
– naam van gewoon persoon >> facebook / linked-in gegevens
– iets geavanceerder: vaste combinaties van woorden
– geavanceerd: natuurlijke taal techniek / statistiek op eerdere
vragen
• op basis van eerder zoekgedrag van de zoeker
– eerdere zoekvragen / eerder bekeken resultaten daaruit
ook bij dubbelzinnige zoekwoorden?
41 Informatiemaatschappij 2023
42 Informatiemaatschappij 2023
Wie op “Bach” zoekt, vindt vermoedelijk liever
gegevens over hem dan websites over hem.
Google's Knowledge Graph kent 500 miljoen
objecten met 3,5 miljard kenmerken
(binnenkort ook in het Nederlands)
43
gegevens afkomstig uit:
"Freebase" (crowdsourced kennisbank),
Wikipedia, CIA World factbook en uit
statistische analyse van eigen gegevens
wat is in dit verband een "graph"?
 een netwerk van al die concepten met
hun onderlinge relaties en kenmerken
44
social graph uit Twitter
45
social graph uit Facebook
46
nog meer connecties uit Facebook
47
Informatiemaatschappij 202348
Informatiemaatschappij 202349
Informatiemaatschappij 202350
52 Informatiemaatschappij 2023
53
Informatiemaatschappij 202354
Informatiemaatschappij 202355
2. bepalen van betekenis
betekenis herkennen van woorden en gegevens in te
indexeren tekst en/of in al gevonden resultaten
• herkennen van "entiteiten" in tekst
(herkennen van woorden/samenstellingen behorend tot categorieën
als plaats, persoon, bedrijf, product, ...)
• betekenis die herkenbaar aanwezig is in "embedded metadata"
(bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web
• tekstanalyse voor automatisch categoriseren
(door "machine learning" getraind op taxonomie of thesaurus,
zowel inhoudelijk als bijv. "sentiment detection")
• tekstanalyse en koppeling met geselecteerde andere bronnen
(bijvoorbeeld via "linked data")
• ...
56 Informatiemaatschappij 2023
in semantisch web wordt
van "alles" betekenis
vastgelegd (in metadata)
semantisch web
om betekenis ook te
begrijpen heeft men
"ontologieën" nodig
57
rdf (resource description framework)
• standaard voor computerleesbaar beschrijven van objecten
(met metadata)
• vastgelegd in zogenaamde RDF triples
• waarbij
– te beschrijven ding een webadres (URI) heeft
– eigenschap van dat ding liefst ook een URI heeft
– "waarde" van die eigenschap liefst ook een URI heeft
• voorbeeld:
– boek (heeft een webadres: URI)
– heeft auteur (betekenis van eigenschap ergens beschreven: URI)
– persoon (gegevens van persoon ergens op web te vinden: URI)
Informatiemaatschappij 202358
rdf tripels
subject <predicaat> object
doc1 <heeft auteur> auth1
auth1 <heeft naam> john smith
auth1 <heeft affiliatie> home inc.
auth1 <heeft email> smith@home.com
grafische representatie van
simpel netwerk van 4 RDF-tripels
Informatiemaatschappij 202359
via die webadressen (URI's) kan iedereen aan deze data linken
rdf tripels
= "resource" met URI
= "literal" (gegeven)
getypeerde
(en op het web
gedefinieerde)
relaties tussen
resources en
gegevens
60 Informatiemaatschappij 2023
gebruik semantische codering
gestandaardiseerde markering van kenmerken in
webpagina's
voorbeelden van “embedded metadata”:
– recipe search bij Google en Yahoo
– toepassing e-commerce ontology
daarbij gebruikte standaarden:
– microformats / rich snippet markup / microdata / schema.org
(Google, Yahoo, Bing)
onder andere voor: recepten, recencies, personen,
producten, organisaties, gebeurtenissen, muziek
– RDFa
61 Informatiemaatschappij 2023
universele
"ontologie" van
eigenschappen
van dingen
62
in huidige Google-
interface minder
handig en makkelijk
te gebruiken; ook
alleen in google.com
bij Yahoo nu beter
standaardisatie van
kenmerken van producten
met "GR-ontologie"
volgens "RDFa“ in “XHTML”
63
64
microformats en RDFa
• toepassing van deze technieken is vaak "SEO-driven"
zie blogpost op
SearchEngineLand
http://searchengineland.com/how
-to-use-rich-snippets-semantic-
markup-to-send-rich-signals-
139886
65 Informatiemaatschappij 2023
wat heeft zoeker hieraan?
• zoeker kan gerichter zoeken en filteren
(zoals in Google's receptenzoeker)
• zoeker krijgt duidelijker informatie over
gevonden items
(zoals Google's rich snippets)
vb van categoriseren: sentiment detection
RDF en "linked data"
er is veel publiciteit rond linked (open) data
• kan weergegeven als RDF-tripels
zodat de data computer-leesbaar zijn
• staat op internet
zodat het "open" is
• bedoeld om te worden hergebruikt
zodat het belangrijk ingrediënt voor het semantisch web is
• is gestandaardiseerd
zodat het makkelijk hergebruikt kan worden
• iedereen kan (en moet!) data bijdragen
waardoor het soms wel een beetje een rommeltje is
Informatiemaatschappij 202368
dbpedia: data
from Wikipedia
last.fm: artists
geonames:
6.2 M toponyms
BBC: wildlife
finder
project
GutenbergIMDB
Reuters:
openCalais
viaf: virtual
international
authority file
LCSH
NY times
Flickr
de "linked open data cloud"
31 miljard data online – 504 miljoen connecties (links) daartussen
rechtspraak.nl
sept 2011
music brainz
sparql - endpoints
nog wat linked data jargon:
SPARQL eigen zoektaal voor RDF-triple stores
Sparql Protocol And Rdf Query Language
wat SQL is voor relationele databases
is SPARQL voor RDF triple stores
Endpoints toegangspunten op het web waar je SPARQL
zoekactie op RDF triple stores kunt uitvoeren
(je moet daarvoor de SPARQL syntax kennen
- door een computer laten uitvoeren)
Informatiemaatschappij 202370
3. aanpassen van zoekactie
aanpassen / verbeteren van zoekacties
 vooraf (automatisch) bewerken van zoekvraag
• variaties op zoekwoord meenemen in query
– spelling verbeterd (statistiek?) [veilgheid >> veiligheid]
– zoeken op woordstam (enkel/meervoud, vervoegingen, ….)
[vaccination >> vaccinations, vaccine, vaccinate, vaccinated, …]
– spellingsvariaties [immunisation <> immunization]
– samenstellingen opbreken (en omgekeerd)
[catfood <> cat food ; maatregel + veiligheid <> veiligheidsmaatregelen]
• synoniemen, acroniemen aan query toevoegen
(uit woordenlijst, semantisch netwerk, ontologie)
[vaccination <> immunization ; jfk <> john f kennedy]
• verwante en specifiekere begrippen aan query toevoegen
(uit semantisch netwerk, thesaurus, ontologie, knowledge graph)
heeft nog niet zo veel met
"semantiek" te maken;
Google doet dat wel al allemaal
Informatiemaatschappij 202371
3. aanpassen van zoekactie
aanpassen / verbeteren van zoekacties
 achteraf bewerken van zoekresultaat
• zoekresultaten clusteren op basis van inhoud
– meestal op basis van woordstatistiek (voorbeeld Clusty, Polymeta)
– soms op basis van automatische classificatie
• fragmenten van gevonden document tonen die de vraag beantwoorden
– KWIC display van zoekmachines is eenvoudige vorm daarvan
– zie bijv. Sensebot
• uit gevonden documenten samenvatting genereren van belangrijkste
bevindingen / antwoorden
– zie bijv. Factbites
Informatiemaatschappij 202372
extrapolatie naar 2023
 webzoekmachines zullen zich verder tot
antwoordmachines ontwikkelen
• maar zal beperkt blijven tot antwoorden op
"alledaagse" vragen,
• … zodat voor specialistischer onderwerpen
gewone keyword search nodig blijft,
• … waarbij die door semantiek wel slimmer wordt,
• … zodat keuze van "juiste zoekterm" minder
belangrijk wordt,
• … maar onderwerpskennis blijft essentieel voor
controle of "het" onze vraag juist interpreteert
Informatiemaatschappij 202373
any questions left ?
just ask "him"

Contenu connexe

Similaire à Wij zullen vinden - ook in 2023

semantischzoeken-2013.ppt
semantischzoeken-2013.pptsemantischzoeken-2013.ppt
semantischzoeken-2013.pptvoginip
 
Zoekmachines weten het antwoord
Zoekmachines weten het antwoordZoekmachines weten het antwoord
Zoekmachines weten het antwoordEric Sieverts
 
What the f@#% is the Semantic Web?
What the f@#% is the Semantic Web?What the f@#% is the Semantic Web?
What the f@#% is the Semantic Web?Martin Hietkamp
 
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Eric Sieverts
 
Vertrouwen op semantische zoeksystemen of zelf aan het stuur
Vertrouwen op semantische zoeksystemen of zelf aan het stuurVertrouwen op semantische zoeksystemen of zelf aan het stuur
Vertrouwen op semantische zoeksystemen of zelf aan het stuurEric Sieverts
 
Open Data in de praktijk
Open Data in de praktijkOpen Data in de praktijk
Open Data in de praktijkJoep Creusen
 
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...CLICKNL
 
Breng je informatie waar de klanten zijn! : Papieren Tijgers presentatie
Breng je informatie waar de klanten zijn! : Papieren Tijgers presentatieBreng je informatie waar de klanten zijn! : Papieren Tijgers presentatie
Breng je informatie waar de klanten zijn! : Papieren Tijgers presentatieGuus van den Brekel
 
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Erik Van Der Zee
 
Information Retrieval: van specialisme tot commodity
Information Retrieval: van specialisme tot commodityInformation Retrieval: van specialisme tot commodity
Information Retrieval: van specialisme tot commodityEric Sieverts
 
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheekInctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheekElco van Staveren
 
GEO2.0 - Locatie als verbindende schakel
GEO2.0 - Locatie als verbindende schakelGEO2.0 - Locatie als verbindende schakel
GEO2.0 - Locatie als verbindende schakeledietvorst
 
20140313 presentatie tbv programma jeugdcriminaliteit en jeugdgroepen v1.1 sl...
20140313 presentatie tbv programma jeugdcriminaliteit en jeugdgroepen v1.1 sl...20140313 presentatie tbv programma jeugdcriminaliteit en jeugdgroepen v1.1 sl...
20140313 presentatie tbv programma jeugdcriminaliteit en jeugdgroepen v1.1 sl...Pascal Spelier
 
Semantisch zoeken in een webomgeving
Semantisch zoeken in een webomgevingSemantisch zoeken in een webomgeving
Semantisch zoeken in een webomgevingEric Sieverts
 
Internet der Dingen
Internet der DingenInternet der Dingen
Internet der DingenGregor Abbas
 

Similaire à Wij zullen vinden - ook in 2023 (20)

Future Internet
Future InternetFuture Internet
Future Internet
 
semantischzoeken-2013.ppt
semantischzoeken-2013.pptsemantischzoeken-2013.ppt
semantischzoeken-2013.ppt
 
Zoekmachines weten het antwoord
Zoekmachines weten het antwoordZoekmachines weten het antwoord
Zoekmachines weten het antwoord
 
What the f@#% is the Semantic Web?
What the f@#% is the Semantic Web?What the f@#% is the Semantic Web?
What the f@#% is the Semantic Web?
 
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
 
Vertrouwen op semantische zoeksystemen of zelf aan het stuur
Vertrouwen op semantische zoeksystemen of zelf aan het stuurVertrouwen op semantische zoeksystemen of zelf aan het stuur
Vertrouwen op semantische zoeksystemen of zelf aan het stuur
 
Open Data in de praktijk
Open Data in de praktijkOpen Data in de praktijk
Open Data in de praktijk
 
Data trends
Data trendsData trends
Data trends
 
Eday Web3
Eday Web3Eday Web3
Eday Web3
 
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
 
Big data: de mogelijkheden en de moeilijkheden
Big data: de mogelijkheden en de moeilijkhedenBig data: de mogelijkheden en de moeilijkheden
Big data: de mogelijkheden en de moeilijkheden
 
Breng je informatie waar de klanten zijn! : Papieren Tijgers presentatie
Breng je informatie waar de klanten zijn! : Papieren Tijgers presentatieBreng je informatie waar de klanten zijn! : Papieren Tijgers presentatie
Breng je informatie waar de klanten zijn! : Papieren Tijgers presentatie
 
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
 
Information Retrieval: van specialisme tot commodity
Information Retrieval: van specialisme tot commodityInformation Retrieval: van specialisme tot commodity
Information Retrieval: van specialisme tot commodity
 
Full presentation LOD Masterclass ESI HHS PZH Kadaster
Full presentation LOD Masterclass ESI HHS PZH KadasterFull presentation LOD Masterclass ESI HHS PZH Kadaster
Full presentation LOD Masterclass ESI HHS PZH Kadaster
 
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheekInctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
 
GEO2.0 - Locatie als verbindende schakel
GEO2.0 - Locatie als verbindende schakelGEO2.0 - Locatie als verbindende schakel
GEO2.0 - Locatie als verbindende schakel
 
20140313 presentatie tbv programma jeugdcriminaliteit en jeugdgroepen v1.1 sl...
20140313 presentatie tbv programma jeugdcriminaliteit en jeugdgroepen v1.1 sl...20140313 presentatie tbv programma jeugdcriminaliteit en jeugdgroepen v1.1 sl...
20140313 presentatie tbv programma jeugdcriminaliteit en jeugdgroepen v1.1 sl...
 
Semantisch zoeken in een webomgeving
Semantisch zoeken in een webomgevingSemantisch zoeken in een webomgeving
Semantisch zoeken in een webomgeving
 
Internet der Dingen
Internet der DingenInternet der Dingen
Internet der Dingen
 

Plus de Eric Sieverts

Automatische classificatie
Automatische classificatieAutomatische classificatie
Automatische classificatieEric Sieverts
 
Een andere blik op Google
Een andere blik op GoogleEen andere blik op Google
Een andere blik op GoogleEric Sieverts
 
Searching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowSearching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowEric Sieverts
 
Searching the internet - better with Google / Google not always best
Searching the internet - better with Google / Google not always bestSearching the internet - better with Google / Google not always best
Searching the internet - better with Google / Google not always bestEric Sieverts
 
Searching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowSearching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowEric Sieverts
 
Zin en onzin van metadata
Zin en onzin van metadataZin en onzin van metadata
Zin en onzin van metadataEric Sieverts
 
UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?Eric Sieverts
 
Metadata, standaarden, interoperabiliteit, semantisch web en linked data
Metadata, standaarden, interoperabiliteit, semantisch web en linked dataMetadata, standaarden, interoperabiliteit, semantisch web en linked data
Metadata, standaarden, interoperabiliteit, semantisch web en linked dataEric Sieverts
 
A pair of shoes in the thesaurus; some reflexions on human and computer indexing
A pair of shoes in the thesaurus; some reflexions on human and computer indexingA pair of shoes in the thesaurus; some reflexions on human and computer indexing
A pair of shoes in the thesaurus; some reflexions on human and computer indexingEric Sieverts
 
Project Panorama: vistas on validated information
Project Panorama: vistas on validated informationProject Panorama: vistas on validated information
Project Panorama: vistas on validated informationEric Sieverts
 
Lifehacking met RSS en Netvibes? De strijd tegen informatie overload
Lifehacking met RSS en Netvibes? De strijd tegen informatie overloadLifehacking met RSS en Netvibes? De strijd tegen informatie overload
Lifehacking met RSS en Netvibes? De strijd tegen informatie overloadEric Sieverts
 
Vinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadataVinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadataEric Sieverts
 
UBU-2.0 : allesopeenrijtje-2.0
UBU-2.0 : allesopeenrijtje-2.0UBU-2.0 : allesopeenrijtje-2.0
UBU-2.0 : allesopeenrijtje-2.0Eric Sieverts
 

Plus de Eric Sieverts (14)

Automatische classificatie
Automatische classificatieAutomatische classificatie
Automatische classificatie
 
Een andere blik op Google
Een andere blik op GoogleEen andere blik op Google
Een andere blik op Google
 
Searching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowSearching the internet - what patent searchers should know
Searching the internet - what patent searchers should know
 
Searching the internet - better with Google / Google not always best
Searching the internet - better with Google / Google not always bestSearching the internet - better with Google / Google not always best
Searching the internet - better with Google / Google not always best
 
Searching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowSearching the internet - what patent searchers should know
Searching the internet - what patent searchers should know
 
Zin en onzin van metadata
Zin en onzin van metadataZin en onzin van metadata
Zin en onzin van metadata
 
UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?
 
Metadata, standaarden, interoperabiliteit, semantisch web en linked data
Metadata, standaarden, interoperabiliteit, semantisch web en linked dataMetadata, standaarden, interoperabiliteit, semantisch web en linked data
Metadata, standaarden, interoperabiliteit, semantisch web en linked data
 
Searchtrends
SearchtrendsSearchtrends
Searchtrends
 
A pair of shoes in the thesaurus; some reflexions on human and computer indexing
A pair of shoes in the thesaurus; some reflexions on human and computer indexingA pair of shoes in the thesaurus; some reflexions on human and computer indexing
A pair of shoes in the thesaurus; some reflexions on human and computer indexing
 
Project Panorama: vistas on validated information
Project Panorama: vistas on validated informationProject Panorama: vistas on validated information
Project Panorama: vistas on validated information
 
Lifehacking met RSS en Netvibes? De strijd tegen informatie overload
Lifehacking met RSS en Netvibes? De strijd tegen informatie overloadLifehacking met RSS en Netvibes? De strijd tegen informatie overload
Lifehacking met RSS en Netvibes? De strijd tegen informatie overload
 
Vinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadataVinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadata
 
UBU-2.0 : allesopeenrijtje-2.0
UBU-2.0 : allesopeenrijtje-2.0UBU-2.0 : allesopeenrijtje-2.0
UBU-2.0 : allesopeenrijtje-2.0
 

Wij zullen vinden - ook in 2023

  • 1. wij zullen vinden ook in 2023 Eric Sieverts @sieverts Informatiemaatschappij 2023 UB Utrecht HvA-MICGO Opleidingen 2 oktober 2013
  • 2. zoekmachines zijn er al bijna 20 jaar webcrawler in 1993 de eerste die ook tekst uit de pagina zelf indexeerde2
  • 3. zoekmachines zijn er al bijna 20 jaar lycos in 1994 de eerste "echte", met bijna 1,5 miljoen pagina's3
  • 4. altavista in 1996 de nieuwste grootste, met ruim 30 miljoen pagina's zoekmachines zijn er al bijna 20 jaar 4
  • 5. Informatiemaatschappij 2023 Google vierde vorige maand zijn 15de verjaardag 5
  • 6. Informatiemaatschappij 2023 1974 online informatie zoeken kunnen we zelfs al meer dan 40 jaar 6
  • 7. • als we zo ver terug kunnen kijken, lijkt het een makkie als we vandaag niet meer dan 10 jaar vooruit hoeven te kijken • of misschien toch niet .... Informatiemaatschappij 20237
  • 8. agenda • groei van de informatieproductie – wetenschap – web – data • evolutie van het zoeken – semantische zoektechnieken Informatiemaatschappij 20238
  • 9. 1. de wetenschap groei van te vinden informatie
  • 10. overhead sheet ca. 1985 bronnen: • Derek de Solla Price • Gale Directory • Ulrich's • ... 10
  • 11. 10 100 1000 10000 100000 1000000 10000000 100000000 1720 1740 1760 1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000 2020 schatting jaarlijks aantal wetenschappelijke publicaties aantal tijdschriften al 260 jaar verdubbelt jaarlijks aantal wetenschappelijke artikelen elke 14 jaar en aantal tijdschriften ook zo ongeveer 11 Informatiemaatschappij 2023
  • 12. 10 100 1000 10000 100000 1000000 10000000 100000000 1720 1740 1760 1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000 2020 schatting jaarlijks aantal wetenschappelijke publicaties (Sieverts 1981-1994) 10 100 1000 10000 100000 1000000 10000000 100000000 1720 1740 1760 1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000 2020 schatting jaarlijks aantal wetenschappelijke publicaties (Sieverts 1981-1994) na (exponentiële) groei met factor 100.000 neiging tot verzadiging? NRC 12 maart 2011 12 Informatiemaatschappij 2023
  • 13. 10 100 1000 10000 100000 1000000 10000000 100000000 1720 1740 1760 1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000 2020 schatting jaarlijks aantal wetenschappelijke publicaties (Eric Sieverts, 1981-1994) jaarlijks aantal wetenschappelijke publicaties (NRC-Handelsblad, maart 2011) exponentiële groei blijkt na 280 jaar toch nog niet afgevlakt wetenschappers raken niet op? • meer in china en india • nog meer "publish or perish" • …. ? 13
  • 15. extrapolatie naar 2023  30 miljoen wetenschappelijke artikelen per jaar – database Scopus bevat 100 miljoen artikelen – Web of Science bevat 90 miljoen artikelen – Pubmed bevat 50 miljoen artikelen maar blijven het (alleen) klassieke artikelen? Informatiemaatschappij 202315
  • 16. "what next" voor wetenschappelijk publiceren ? • ook blogs • ook tweets • ook "data" • klassieke artikelen ontleed / opgesplitst tot "nanopublicaties": afzonderlijke beweringen die beschreven worden als RDF-tripels (zelfde techniek als voor "linked open data") DNA variant NG_000007.3:g.70628G>A (Subject) has a frequency (Predicate) of 0.25% (Object). The assertion holds for the Sardinian population Provenance includes authors of the article (Giardine et. al.), the date when the nanopublication was created, et cetera. voorbeeld nog meer "items" 16
  • 17. Barend Mons, Jan Velterop, et al., Nature Genetics 43, 281–283 (2011) doi:10.1038/ng0411-281 17 Informatiemaatschappij 2023
  • 18.  trend: fragmentering van informatie zullen we dan nog naar artikelen zoeken of naar die losse feiten of fragmenten? Informatiemaatschappij 202318
  • 19. 2. het web groei van te vinden informatie
  • 20. Informatiemaatschappij 2023 Dutch Home Page najaar 1993 Dutch Home Page zomer 1994
  • 21. gegevens aanvankelijk uit: 1998 hoeveel doorzoeken webzoekmachines? 20011995 Informatiemaatschappij 202321
  • 22. 1 10 100 1000 10000 100000 1000000 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 aantal miljoenen webpagina's in grootste zoekmachine (verschillende bronnen) 15 jaar lang verdubbelde elk jaar het aantal webpagina's in de grootste zoekmachine content in betaalde online bronnen miljoenenwebpagina's ? hoeveel doorzoeken webzoekmachines? zie: Eric Sieverts. Van Lycos tot Google. in: NRC 9 februari 2013, special "Slimmer zoeken op internet" http://sieverts.pbworks.com/f/ NRC_Lycos_Google.pdf Informatiemaatschappij 202322
  • 23. extrapolatie naar 2023  4 biljard webpagina's in Google? (4.000.000.000.000.000) maar blijft Google alles indexeren en blijven het webpagina's? Informatiemaatschappij 202323
  • 24. but presently: • do we want to find any page? • does Google want to index any page? • what is a web page anyhow? september 2012: Google knew about the existence of 30 trillion URL's 30,000,000,000,000 various estimates: presently about 500,000,000,000 indexed pages 24 Informatiemaatschappij 2023
  • 25. 25
  • 26. linked open data • met linked open data komen losse feiten en gegevens gestandaardiseerd op internet beschikbaar • in de linked open data cloud zijn al duizenden datasets met vele biljoenen RDF-tripels toegankelijk • Google's Knowledge Graph bevat al miljarden gegevens Informatiemaatschappij 202326
  • 27. Informatiemaatschappij 2023  trend: fragmentering van informatie zullen we dan naar webpagina's zoeken of naar losse feiten en fragmenten? 27
  • 28. informatie of data? informatieinflatie 2000 Hall & Varian onderzoek: gezamenlijk produceerden we dat jaar 1,5 exabyte (miljard gigabyte) informatie en dat verdubbelt elk jaar (maar: is dat informatie of zijn het data?) 2011 uit een "infographic": in 2010 produceerden we gezamenlijk 2 zettabytes : 2 x 10 21 bytes (2000 miljard gigabyte) en dat verdubbelt elk jaar [d.w.z. ruim 300 GB per persoon] Informatiemaatschappij 202328
  • 29. informatie of data? informatieinflatie elk jaar verdubbelt aantal bytes dat we produceren  is dat groei of inflatie? • TXT documentje met mijn tekst: 50 kB videoregistratie van mijn lezing: 500 MB dezelfde informatie(!?) maar 10.000 x zoveel data • berichten op het web worden 100-voudig gerepliceerd, herblogd en geretweet • van alles maken we ongecoördineerd back-ups • ... Informatiemaatschappij 202329
  • 30. 30 Informatiemaatschappij 2023 YouTube groeit met 72 uur per minuut
  • 31. datavloedgolf 2011 - per minuut 72 uur video geüpload naar YouTube - 1 biljoen YouTube filmpjes bekeken 2012 - Internet Archive: 10 PetaByte (10 16 ) 2013 - 4000 foto's per seconde > Facebook - 250 miljard foto's op Facebook - 540 miljard tweets in Topsy zoekmachine 2014 - Beeld & Geluid: 15 PetaByte Informatiemaatschappij 202331
  • 32. Informatiemaatschappij 2023 5 MB harde schijf in 1956 2 TB in 2013 prijs van opslagmedia: in 1956: $ 7000 / MB / jaar lease in 2013: $10 / TB (= $ 0,00001 / MB) dataopslag
  • 33. 1051 atomen 2110: ~1051 bits 2023: ~1026 bits (10 yottabyte) 2010: ~1022 bits 2000: ~1019 bits (1 exabyte) onze jaarlijkse data productie ?? exponentiële groei blijft voortduren ? Informatiemaatschappij 202333 "grenzen aan de groei" • minder produceren? • niet alles (willen) bewaren?
  • 34. vinden van die informatie op het web: voorkeur slingert tussen zoekmachine en ontsluiting
  • 35. yahoo! directory yahoo! directory open directory startpagina's lycos altavista google web-2.0 tagging/folksonomies 1990 2013 zoeken ontsluiten semantisch zoeken semantisch web content curation35
  • 36. semantisch web semantisch zoeken 36 Informatiemaatschappij 2023
  • 37. 37 Informatiemaatschappij 2023 "The goal is that pages matching the meaning do better, rather than pages matching just a few words."
  • 38. 38
  • 39. 1. Semantic Search = Answer Engines 2. Semantic Search = Machine Readable 3. Semantic Search = Enhanced SERP Displays & Lift 4. Semantic Search = Validation Of Web Pages 5. Semantic Search = Social Network Adoption 6. Semantic Search = Google+ Authorship Rich Snippet 7. Semantic Search = Internal Structured Data 8. Semantic Search = The Future Of Search 9. Semantic Search = Schema.org Ontology 10. Semantic Search = Understanding User Intent 39 Informatiemaatschappij 2023
  • 40. semantisch zoeken globaal 3 soorten toepassingen 1. inschatten van de intentie van de zoeker bijv.: zoekt mobiel in buurt van de Rozengracht naar “pizza” >> adres van pizzeria in de buurt 2. bepalen van betekenis van woorden/tekst in documenten vooraf bij indexeren of achteraf in zoekresultaat 3. automatisch aanpassen van zoekacties bijv.: zoekwoorden toevoegen / vervangen, (ook) in andere systemen zoeken 40 Informatiemaatschappij 2023
  • 41. 1. intentie van de zoeker intentie of context van vraag kan worden bepaald: • uit lokatie van de zoeker – globaal: op basis van ip-adres van gebruiker precies: op basis van bekende gps- of gsm-gegevens (mobiel) • door analyse van gestelde vraag – naam van persoon, bedrijf, product, gebeurtenis, … >> feiten – naam van gewoon persoon >> facebook / linked-in gegevens – iets geavanceerder: vaste combinaties van woorden – geavanceerd: natuurlijke taal techniek / statistiek op eerdere vragen • op basis van eerder zoekgedrag van de zoeker – eerdere zoekvragen / eerder bekeken resultaten daaruit ook bij dubbelzinnige zoekwoorden? 41 Informatiemaatschappij 2023
  • 43. Wie op “Bach” zoekt, vindt vermoedelijk liever gegevens over hem dan websites over hem. Google's Knowledge Graph kent 500 miljoen objecten met 3,5 miljard kenmerken (binnenkort ook in het Nederlands) 43 gegevens afkomstig uit: "Freebase" (crowdsourced kennisbank), Wikipedia, CIA World factbook en uit statistische analyse van eigen gegevens
  • 44. wat is in dit verband een "graph"?  een netwerk van al die concepten met hun onderlinge relaties en kenmerken 44
  • 45. social graph uit Twitter 45
  • 46. social graph uit Facebook 46
  • 47. nog meer connecties uit Facebook 47
  • 51.
  • 53. 53
  • 56. 2. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën als plaats, persoon, bedrijf, product, ...) • betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web • tekstanalyse voor automatisch categoriseren (door "machine learning" getraind op taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection") • tekstanalyse en koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data") • ... 56 Informatiemaatschappij 2023
  • 57. in semantisch web wordt van "alles" betekenis vastgelegd (in metadata) semantisch web om betekenis ook te begrijpen heeft men "ontologieën" nodig 57
  • 58. rdf (resource description framework) • standaard voor computerleesbaar beschrijven van objecten (met metadata) • vastgelegd in zogenaamde RDF triples • waarbij – te beschrijven ding een webadres (URI) heeft – eigenschap van dat ding liefst ook een URI heeft – "waarde" van die eigenschap liefst ook een URI heeft • voorbeeld: – boek (heeft een webadres: URI) – heeft auteur (betekenis van eigenschap ergens beschreven: URI) – persoon (gegevens van persoon ergens op web te vinden: URI) Informatiemaatschappij 202358
  • 59. rdf tripels subject <predicaat> object doc1 <heeft auteur> auth1 auth1 <heeft naam> john smith auth1 <heeft affiliatie> home inc. auth1 <heeft email> smith@home.com grafische representatie van simpel netwerk van 4 RDF-tripels Informatiemaatschappij 202359
  • 60. via die webadressen (URI's) kan iedereen aan deze data linken rdf tripels = "resource" met URI = "literal" (gegeven) getypeerde (en op het web gedefinieerde) relaties tussen resources en gegevens 60 Informatiemaatschappij 2023
  • 61. gebruik semantische codering gestandaardiseerde markering van kenmerken in webpagina's voorbeelden van “embedded metadata”: – recipe search bij Google en Yahoo – toepassing e-commerce ontology daarbij gebruikte standaarden: – microformats / rich snippet markup / microdata / schema.org (Google, Yahoo, Bing) onder andere voor: recepten, recencies, personen, producten, organisaties, gebeurtenissen, muziek – RDFa 61 Informatiemaatschappij 2023 universele "ontologie" van eigenschappen van dingen
  • 62. 62 in huidige Google- interface minder handig en makkelijk te gebruiken; ook alleen in google.com bij Yahoo nu beter
  • 63. standaardisatie van kenmerken van producten met "GR-ontologie" volgens "RDFa“ in “XHTML” 63
  • 64. 64
  • 65. microformats en RDFa • toepassing van deze technieken is vaak "SEO-driven" zie blogpost op SearchEngineLand http://searchengineland.com/how -to-use-rich-snippets-semantic- markup-to-send-rich-signals- 139886 65 Informatiemaatschappij 2023
  • 66. wat heeft zoeker hieraan? • zoeker kan gerichter zoeken en filteren (zoals in Google's receptenzoeker) • zoeker krijgt duidelijker informatie over gevonden items (zoals Google's rich snippets)
  • 67. vb van categoriseren: sentiment detection
  • 68. RDF en "linked data" er is veel publiciteit rond linked (open) data • kan weergegeven als RDF-tripels zodat de data computer-leesbaar zijn • staat op internet zodat het "open" is • bedoeld om te worden hergebruikt zodat het belangrijk ingrediënt voor het semantisch web is • is gestandaardiseerd zodat het makkelijk hergebruikt kan worden • iedereen kan (en moet!) data bijdragen waardoor het soms wel een beetje een rommeltje is Informatiemaatschappij 202368
  • 69. dbpedia: data from Wikipedia last.fm: artists geonames: 6.2 M toponyms BBC: wildlife finder project GutenbergIMDB Reuters: openCalais viaf: virtual international authority file LCSH NY times Flickr de "linked open data cloud" 31 miljard data online – 504 miljoen connecties (links) daartussen rechtspraak.nl sept 2011 music brainz
  • 70. sparql - endpoints nog wat linked data jargon: SPARQL eigen zoektaal voor RDF-triple stores Sparql Protocol And Rdf Query Language wat SQL is voor relationele databases is SPARQL voor RDF triple stores Endpoints toegangspunten op het web waar je SPARQL zoekactie op RDF triple stores kunt uitvoeren (je moet daarvoor de SPARQL syntax kennen - door een computer laten uitvoeren) Informatiemaatschappij 202370
  • 71. 3. aanpassen van zoekactie aanpassen / verbeteren van zoekacties  vooraf (automatisch) bewerken van zoekvraag • variaties op zoekwoord meenemen in query – spelling verbeterd (statistiek?) [veilgheid >> veiligheid] – zoeken op woordstam (enkel/meervoud, vervoegingen, ….) [vaccination >> vaccinations, vaccine, vaccinate, vaccinated, …] – spellingsvariaties [immunisation <> immunization] – samenstellingen opbreken (en omgekeerd) [catfood <> cat food ; maatregel + veiligheid <> veiligheidsmaatregelen] • synoniemen, acroniemen aan query toevoegen (uit woordenlijst, semantisch netwerk, ontologie) [vaccination <> immunization ; jfk <> john f kennedy] • verwante en specifiekere begrippen aan query toevoegen (uit semantisch netwerk, thesaurus, ontologie, knowledge graph) heeft nog niet zo veel met "semantiek" te maken; Google doet dat wel al allemaal Informatiemaatschappij 202371
  • 72. 3. aanpassen van zoekactie aanpassen / verbeteren van zoekacties  achteraf bewerken van zoekresultaat • zoekresultaten clusteren op basis van inhoud – meestal op basis van woordstatistiek (voorbeeld Clusty, Polymeta) – soms op basis van automatische classificatie • fragmenten van gevonden document tonen die de vraag beantwoorden – KWIC display van zoekmachines is eenvoudige vorm daarvan – zie bijv. Sensebot • uit gevonden documenten samenvatting genereren van belangrijkste bevindingen / antwoorden – zie bijv. Factbites Informatiemaatschappij 202372
  • 73. extrapolatie naar 2023  webzoekmachines zullen zich verder tot antwoordmachines ontwikkelen • maar zal beperkt blijven tot antwoorden op "alledaagse" vragen, • … zodat voor specialistischer onderwerpen gewone keyword search nodig blijft, • … waarbij die door semantiek wel slimmer wordt, • … zodat keuze van "juiste zoekterm" minder belangrijk wordt, • … maar onderwerpskennis blijft essentieel voor controle of "het" onze vraag juist interpreteert Informatiemaatschappij 202373
  • 74. any questions left ? just ask "him"