SlideShare une entreprise Scribd logo
1  sur  96
semantisch zoeken
over knowledge graph, semantisch web,
rdf, linked data, ontologieën, metadata, ...
VOGIN-IP-lezing 2014
Eric Sieverts
@sieverts
semantisch zoeken
een deel van het materiaal in deze presentatie
wordt ook gebruikt in de eendaagse cursus
"semantisch zoeken"
bij GO Opleidingen
eric sieverts, maart 20142
conflicting views?
Semantic Web Business: Going Nowhere
Slowly
I've been a semantic web skeptic for years.
SemWeb is useful for information enrichment in
certain domains, via a circumscribed set of
tools. However, the SemWeb offers a
vanishingly small benefit to the vast majority of
businesses. The vision persists but is
unachievable; the business reality of SemWeb
is going pretty much nowhere.
The SemWeb dream centers on sharing linked
data via the W3C's Resource Description
Framework protocol. There is no question that
SemWeb aspires to a worthy goal, but its tools
and processes are no match for the reality of
never-diminishing online, social, and enterprise
data chaos. We will never achieve its ideal
universe of neatly marked up data, published
by content producers in accordance with the
prescriptive W3C standards.
Seth Grimes on January 7, 2014 in InformationWeek
eric sieverts, maart 20143
In case you missed it, a series of recent
articles have made a Big Announcement:
The Semantic Web is not here yet.
Additionally, neither are flying cars, the
cure for cancer, humans traveling to Mars
or a bunch of other futuristic ideas that
still have merit.
A problem with many of these articles is
that they conflate the Vision of the
Semantic Web with the practical
technologies associated with the
standards. While the Whole Enchilada
has yet to emerge (and may never do
so), the individual technologies are
finding their way into ever more systems
in a wide variety of industries. These are
not all necessarily on the public Web,
they are simply Webs of Data.
Brian Sletten on January 13, 2014 in
semanticweb.com
semantisch zoeken
vraag 1:
• wanneer is een zoeksysteem een semantisch
zoeksysteem?
.... als het erop staat?
eric sieverts, maart 20144
semantisch zoeken
vraag 2:
• welke functionaliteit van een zoeksysteem zou u
semantisch noemen?
eric sieverts, maart 20145
semantisch zoeken
10 Things that Make Search a Semantic Search
[volgens Hakia dat zelf beweert semantische zoekmachine te zijn]
1. Handling morphological variations
2. Handling synonyms with correct senses
3. Handling generalizations
4. Handling concept matching
5. Handling knowledge matching
6. Handling natural language queries and questions
7. Ability to point to uninterrupted paragraph and the most relevant
sentence
8. Ability to Customize and Organic Progress
9. Ability to operate without relying on statistics, user behavior, and
other artificial means
10. Ability to detect its own performance
eric sieverts, maart 2014
http://company.hakia.com/whatis.html
6
semantisch zoeken
Current trend : the semantic search system should be able to understand the
query and give relevant results based on the current trend and news.
Location of search : When searching for 'what is the temperature', semantic
search should provide results based on the current location.
Intent of the search : Semantic search should give appropriate search results
based on the intent of the search and not on the specific words used.
Variations of words : Semantic search should consider tenses, plural, singular
etc and provide results for all semantic word variations.
Synonyms : Semantic search should understand synonyms and give more or
less the same results on any synonyms of the word users search for.
Generalized and Specialized queries : Semantic Search should set relation
between generalized and specialized queries and provide appropriate results.
Concept matching : Sub-set of context matching. Semantic search should
understand the broad concept of the query and return relevant results.
Natural language queries : On search for 'What time is it in Arizona‘, Semantic
Search would show you the current time in Arizona, USA.
Change of meaning based on the group of words. The last word in a query
may completely change its meaning. Semantic Search should distinguish such
differences and give relevant search results.
eric sieverts, maart 2014
http://www.techulator.com/resources/59Tony John (2012) - Semantic Search:
Factors considered by Search Engines
7
8
maar dat is
vooral vanuit
SEO perspectief
semantisch zoeken
samenvattend: globaal 3 soorten toepassingen
1. inschatten van de intentie van de zoeker - en liefst
concreet antwoord in plaats van "ten blue links"
bijv.: zoekt mobiel in buurt van de Damstraat naar “pizza”
>> adres van pizzeria in de buurt
2. bepalen van betekenis van woorden/tekst in documenten
vooraf bij indexeren of achteraf in zoekresultaat;
van eenvoudige herkenning van entiteiten of meegegeven metadata,
tot complexe kennis van de wereld, zodat automatisch concepten
worden toegekend of relevante aanvullende informatie verschijnt
3. automatisch aanpassen van zoekacties
bijv.: zoekactie uitbreiden met gerelateerde zoekwoorden,
zoekwoorden vervangen door betere zoekwoorden,
(ook) in andere systemen zoeken
eric sieverts, maart 20149
1. intentie van de zoeker
intentie of context van vraag kan worden bepaald:
• op basis van de lokatie van de zoeker
– globaal:
op basis van internetdomein waar gebruiker zit (ip-adres)
op google.nl krijg je ander antwoord dan op google.com
– heel precies:
op basis van bekende gps- of gsm-gegevens (mobiel)
• op basis van analyse van de gestelde vraag
• op basis van eerder zoekgedrag van de zoeker
ook bij dubbelzinnige zoekwoorden?
eric sieverts, maart 201410
intentie van de zoeker
intentie of context van vraag kan worden bepaald:
• op basis van lokatie
• op basis van analyse van de gestelde vraag
– naam van persoon, bedrijf, product, gebeurtenis, … >> feiten
– naam van gewoon persoon >> facebook / linked-in gegevens
– herkent vaste combinaties van woorden
– natuurlijke taal interpretatie
– statistiek op frequente eerdere vragen
• op basis van eerder zoekgedrag
eric sieverts, maart 201411
Google
Knowledge
Graph
wolfram|alpha
eric sieverts, maart 2014
Wie op “Bach” zoekt, vindt vermoedelijk liever
gegevens over hem dan websites over hem.
Google's Knowledge Graph kent 500 miljoen
objecten met 3,5 miljard kenmerken
(binnenkort ook in het Nederlands)
13
gegevens o.a. afkomstig uit:
"Freebase" (crowdsourced kennisbank),
Wikipedia, CIA World factbook en
statistische analyse van eigen gegevens
wat is in dit verband
een "graph"?
 een netwerk van al die concepten met
hun onderlinge relaties en kenmerken
14
graphs zijn nu "hot"
15 eric sieverts, maart 2014
social graph uit Twitter
social graph uit Facebook
relaties in Freebase
16 eric sieverts, maart 2014
meer uit de Knowledge Graph
generieke vragen
leveren lijstjes/"carousel",
soms in meer rubrieken
17 eric sieverts, maart 2014
18 eric sieverts, maart 2014
20 eric sieverts, maart 2014
feitelijk antwoord
boven gewone
resultaten
21
22 eric sieverts, maart 2014
vergelijkingen
23 eric sieverts, maart 2014
Bing heeft iets soortgelijks: "Satori"
maar dat reageert nog niet altijd zo
slim op combinaties van woorden
intermezzo: een onderzoekje
wat geeft beter antwoord op wat voor soort vragen?
zie: http://webzoek.pbworks.com/semantisch
• antwoord uit Google's Knowledge Graph
• antwoord uit Bing's Satori
• antwoord uit Wolfram|Alpha
• gegevens over dat onderwerp uit de Wikipedia
• eerste weblinks uit gewone zoekresultaat uit Google
• door Sensebot geselecteerde antwoorden
• door Cluuz geselecteerde antwoorden
• antwoord uit Ask-Cluuz
• antwoord uit Kngine
• door Factbites samengevatte antwoorden
• eerste weblinks uit (semantisch?) zoekresultaat uit Hakia
eric sieverts, maart 201426
intentie van de zoeker
intentie of context van vraag kan worden bepaald:
• op basis van de lokatie van de zoeker
• op basis van analyse van de gestelde vraag
• op basis van eerder zoekgedrag van de zoeker
– wat voor zoekvragen stelde gebruiker eerder
– naar welke resultaten keek gebruiker dan
(bijvoorbeeld al toegepast in Google's relevantie-personalisatie;
opgeslagen "history" is ook al "big data")
eric sieverts, maart 201427
2. bepalen van betekenis
betekenis herkennen van woorden en gegevens in te
indexeren tekst en/of in al gevonden resultaten
• herkennen van "entiteiten" in tekst
(herkennen van woorden/samenstellingen behorend tot categorieën
als plaats, persoon, bedrijf, product, ...)
• tekstanalyse voor automatisch categoriseren
(door "machine learning" getraind op taxonomie of thesaurus,
zowel inhoudelijk als bijv. "sentiment detection")
• betekenis die herkenbaar aanwezig is in "embedded metadata"
(bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch
web
• inhoudelijke koppeling met geselecteerde andere bronnen
(bijvoorbeeld via "linked data")
• ...
eric sieverts, maart 201428
example:
article from NYTimes
analysed by
….. >>
herkennen van "entiteiten"
29
example:
article from NYTimes
analysed by
"Open Calais"
http://viewer.opencalais.com/
30
example:
article from NYTimes
analysed by "Zemanta"
http://www.zemanta.com/demo/
31
betekenis door structuur
Facebook
• kent betekenis toe door gegevens gestructureerd op te slaan
• doet dat ook in een "graph" >> graph search
32 eric sieverts, maart 2014
2. bepalen van betekenis
betekenis herkennen van woorden en gegevens in te
indexeren tekst en/of in al gevonden resultaten
• herkennen van "entiteiten" in tekst
(herkennen van woorden/samenstellingen behorend tot categorieën
als plaats, persoon, bedrijf, product, ...)
• tekstanalyse voor automatisch categoriseren
(door "machine learning" getraind op taxonomie of thesaurus,
zowel inhoudelijk als bijv. "sentiment detection")
• betekenis die herkenbaar aanwezig is in "embedded metadata"
(bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch
web
• inhoudelijke koppeling met geselecteerde andere bronnen
(bijvoorbeeld via "linked data")
• ...
eric sieverts, maart 201433
sentiment detection
34
>> andere
voorbeelden
voorbeeld:
PDF document
geanalyseerd met
Dewey Classifier
automatische classificatie
35
resultaat van analyse
van PDF document
36
Google herkent
objecten in images
pinterest
biedt automatisch (?) gegenereerde
filters op onder meer recepten
?
2. bepalen van betekenis
betekenis herkennen van woorden en gegevens in te
indexeren tekst en/of in al gevonden resultaten
• herkennen van "entiteiten" in tekst
(herkennen van woorden/samenstellingen behorend tot categorieën
als plaats, persoon, bedrijf, product, ...)
• tekstanalyse voor automatisch categoriseren
(door "machine learning" getraind op taxonomie of thesaurus,
zowel inhoudelijk als bijv. "sentiment detection")
• betekenis die herkenbaar aanwezig is in "embedded metadata"
(bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch
web
• inhoudelijke koppeling met geselecteerde andere bronnen
(bijvoorbeeld via "linked data")
• ...
eric sieverts, maart 201439
eric sieverts, maart 2014
uit semantische codering
gestandaardiseerde markering van kenmerken in
webpagina's
voorbeelden van “embedded metadata”:
– recipe search bij Google en Yahoo
– toepassing e-commerce ontology
daarbij gebruikte standaarden:
– microformats / rich snippet markup / microdata / schema.org
(Google, Yahoo, Bing)
onder andere voor: recepten, recencies, personen,
producten, organisaties, gebeurtenissen, muziek
– RDFa
40
41
in huidig Google-interface
onzichtbaar en minder
handig geworden;
NB: alleen in google.com
bij Yahoo overzichtelijker
browser extensies
(in Chrome) om
embedded metadata
uit pagina's te pikken
standaardisatie van
kenmerken van producten
met "GR-ontologie"
volgens "RDFa“ in “XHTML”
43
44
nieuwe standaard van de zoekmachinegiganten: microdata
hiërarchie van kenmerken voor embeddable metadata in webpagina’s
45
+ nu ook
Yandex
de concepten uit de
good relations ontology
zijn recent ook in
schema.org geïncorporeerd
door Google, Bing en Yahoo vastgelegde standaard: microdata
met hiërarchie van embeddable metadata kenmerken voor het web
microdata en RDFa
• toepassing van deze technieken is vaak "SEO-driven"
• Google biedt webmasters "Structured data testing tool" dat
fouten in codering detecteert
zie blogpost op
SearchEngineLand
http://searchengineland.com/how-to-u
eric sieverts, maart 201447
wat heeft zoeker hieraan?
• zoeker kan gerichter zoeken en filteren
(zoals in Google's receptenzoeker)
• zoeker krijgt duidelijker informatie over
gevonden items
(zoals Google's rich snippets)
eric sieverts, maart 2014
metadata tools
• er zijn handige browsertools (voor chrome) die analyse
maken van in webpagina aanwezige metadata volgens
microformat, microdata of RDFa standaard
http://searchengineland.com/how-to-use-rich-snippets-semantic-markup
chrome extensions:
https://chrome.google.com/webstore/category/extensions
• met Google's "webmaster structured data testing tool"
kun je indirect net zo iets:
http://www.google.com/webmasters/tools/richsnippets
eric sieverts, maart 201449
intermezzo metadata tools
hulp voor makers
van pagina's voor
toevoegen metadata
2. bepalen van betekenis
betekenis herkennen van woorden en gegevens in te
indexeren tekst en/of in al gevonden resultaten
• herkennen van "entiteiten" in tekst
(herkennen van woorden/samenstellingen behorend tot categorieën
als plaats, persoon, bedrijf, product, ...)
• tekstanalyse voor automatisch categoriseren
(door "machine learning" getraind op taxonomie of thesaurus,
zowel inhoudelijk als bijv. "sentiment detection")
• betekenis die herkenbaar aanwezig is in "embedded metadata"
(bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch
web
• inhoudelijke koppeling met geselecteerde andere bronnen
(bijvoorbeeld via "linked data")
• ...
eric sieverts, maart 201457
intermezzo:
RDF, semantisch web,
ontologieën, linked data, …
rdf
eric sieverts, maart 2014
RDF = resource description framework
• RDF is een standaard voor het beschrijven van de relatie
tussen een resource (of een object) en zijn metadata
• RDF gebruikt “namespaces” om naar computer-leesbare
beschrijving van gebruikte metadatastandaarden te
verwijzen (link via URL)
• RDF is bedoeld om bestaande semantische systemen te
(her)gebruiken en te combineren
• RDF wordt meestal in XML-notatie weergegeven
• RDFa = “RDF in attributes” , standaard om metadata in de
inhoud van (X)HTML webpagina’s te verwerken
58
intermezzo RDF
rdf tripels
eric sieverts, maart 2014
• eigenschappen (metadata) worden vastgelegd in zogenaamde
tripels: subject <predicaat> object
(wat je ook zou mogen noemen : ding <eigenschap> waarde )
• waarbij
– te beschrijven ding een webadres (URI) heeft
– eigenschap van dat ding liefst ook een URI heeft
– "waarde" van die eigenschap liefst ook een URI heeft
• voorbeeld:
– boek (heeft een webadres: URI)
– heeft auteur (betekenis van eigenschap ergens beschreven: URI)
– persoon (gegevens van persoon ergens op web te vinden: URI)
• RDF-tripels worden ook gebruikt in "linked data"
• ze worden opgeslagen in zogenaamde triple-stores
59
intermezzo RDF
rdf tripels grafisch
eric sieverts, maart 2014
subject <predicaat> object
doc1 <heeft auteur> auth1
auth1 <heeft naam> john smith
auth1 <heeft affiliatie> home inc.
auth1 <heeft email> smith@home.com
grafische representatie van
simpel netwerk van 4 RDF-tripels
60
intermezzo RDF
rdf - weergave in xml
eric sieverts, maart 2014
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns="http://www.john.smith.net/rdfexample/">
<rdf:Description rdf:about="http://www.xxx.com/yyy/doc1.xml">
<author>
<rdf:Description rdf:about="http://www.xxx.com/autId/7801">
<name>John Smith</name>
<affiliation>Home Inc.</affiliation>
<email>Smith@home.com</email>
</rdf:Description>
</author>
</rdf:Description>
</rdf:RDF>
namespaces
URI's van beschreven resources
61
je zou eigenlijk ook nog met URI's moeten verwijzen
naar de plek waar die kenmerken gedefinieerd zijn
intermezzo RDF
rdf tripels
eric sieverts, maart 201462
naar idee van
Lucas Koster / IP
"Uit Berlijn"
boek
Uit Berlijn
"Armando"
Schuldig
landschap
http://www.worldcat.org/oclc/10098995  
is een
http://www.w3.org/1999/02/22-rdf-syntax-ns#type
naam
http://xmlns.com/foaf/spec/#term_name
http://viaf.org/viaf/9885610/ 
http://hdl.handle.net/10934/RM0001.COLLECT.496040 
is geschreven
door
is schilder van
http://purl.org/dc/terms/creator  
http://purl.org/dc/terms/creator  
intermezzo RDF
http://schema.org/Book
title
Armando
http://purl.org/dc/terms/title  
rdf bekijken
eric sieverts, maart 201463
intermezzo RDF
voor het bekijken van RDF in webpagina's bestaan,
behalve een paar (niet zo handige) Chrome extensies,
ook zogenaamde RDF Browsers als webservices,
waar je URL's van te analyseren pagina's kunt invoeren
bijvoorbeeld: "graphite"
– http://graphite.ecs.soton.ac.uk/browser
in semantisch web
wordt van "alles"
de betekenis
vastgelegd
eric sieverts, maart 2014
semantisch web
om betekenis ook te
kunnen begrijpen zijn
"ontologieën" nodig
64
intermezzo semantisch
web & ontologieën
ontologieën
eric sieverts, maart 2014
"Ontology is the philosophical study of the nature of
being, becoming, existence, or reality, as well as
the basic categories of being and their relations"
Wikipedia
filosofie
kunstmatige
intelligentie
semantisch
web
65
intermezzo semantisch
web & ontologieën
linked
(open) data
ontologieën
eric sieverts, maart 2014
een strikt en uitputtend schema
voor een bepaald onderwerpsdomein,
meestal in een hiërarchische structuur,
die alle relevante grootheden en hun relaties bevat,
alsmede de regels waaraan die grootheden en
relaties binnen dat domein voldoen
filosofie
kunstmatige
intelligentie
semantisch
web
66
intermezzo semantisch
web & ontologieën
linked
(open) data
ontologieën
• "kennis-representatie“ waarin kennis over (klein stukje van)
de wereld in geformaliseerde vorm is weergegeven
• meestal niet rechtstreeks gebruikt voor ontsluiting
• maakt vollediger en meer complexe representaties van de
werkelijkheid mogelijk dan met een thesaurus
• veel mogelijke soorten relaties tussen concepten
• vastgelegde rollen en eigenschappen van die concepten
• vaak voor een beperkt onderwerpsdomein (“wijn ontologie”)
• soms breder in een zogenaamde “core ontology”
bijvoorbeeld: CIDOC-CRM (conceptual reference model) voor
concepten, relaties en eigenschappen op gebied van cultureel
erfgoed
eric sieverts, maart 201467
intermezzo semantisch
web & ontologieën
relaties tussen enkele concepten
in een eenvoudige "wijn-ontologie"
Château Lafitte Rothschild {is een} wijnhuis
Château Lafitte Rothschild {produceert} Château Lafitte Rothschild Pauillac
Bordeaux {heeft als beste wijnhuizen} Château Lafitte Rothschild
Château Lafitte Rothschild Pauillac {wordt gemaakt door} Château Lafitte Rothschild
Château Lafitte Rothschild Pauillac {is een} Pauillac
Bordeaux {is een} wijnstreek
....
veel meer soorten relaties mogelijk
dan alleen BT, NT, RT, Use, Used for
68
hiërarchische structuur van
concepten van één soort in
een eenvoudige "wijn-ontologie"
ontologieën
eric sieverts, maart 2014
elk soort kennisorganisatiesysteem waarmee betekenis
beschreven kan worden, zoals
• "echte" ontologieën
• thesauri
• taxonomieën
• semantische netwerken
• namenlijsten
• concordanties
• …
filosofie
kunstmatige
intelligentie
semantisch
web
69
intermezzo semantisch
web & ontologieën
linked
(open) data
schema.org
is ook simpele
vorm hiervan
ontologieën
eric sieverts, maart 2014
"conceptuele datamodellen" voor allerlei domeinen, zoals
• foaf (persoonsgegevens)
• dublin core (15 velden voor vooral erfgoed)
• good-relations ontology (e-commerce)
• music ontology (muziek)
• skos (thesaurusrelaties)
• cidoc-crm (erfgoed)
definities van "velden", klassen van eigenschappen, e.d.,
meestal niet van hun inhouden
filosofie
kunstmatige
intelligentie
semantisch
web
70
intermezzo semantisch
web & ontologieën
linked
(open) data
ontologieën
voor “ontologieën” in het kader van semantisch web en
linked data is essentieel dat:
– ontologie zo beschikbaar is dat een computer-programma
hem kan lezen, verwerken en interpreteren
→ vereist gestandaardiseerde notaties en formele talen
om ze te beschrijven, zoals
• rdf
• rdfs
• owl
• skos
• …
eric sieverts, maart 201471
intermezzo semantisch
web & ontologieën
voorbeeld van de relaties
tussen concepten m.b.t.
het standbeeld van Balzac
door Rodin [CIDOC-CRM]
72
73
74
75
voorbeeld hoe diverse semantische standaarden
(ontologieën) via RDF werden gecombineerd
vroeger veel gebruikte
standaarden voor
beschrijvingselementen:
• v: vcard
• mo: music ontology
• foaf: friend of a friend
• owl: web ontology language
• geo
maar worden nu algemeen
vervangen door schema.org
76
oud
grafische weergave van
SKOS-representatie van
thesaurustermen & relaties:
netwerk van RDF-tripels
Term: Economic cooperation
Used For: Economic co-operation
Broader terms: Economic policy
Narrower terms: Economic integration,
European economic cooperation,
European industrial cooperation,
Industrial cooperation
Related terms: Interdependence
Scope Note: Includes cooperative measures
in banking, trade, industry etc., between
and among countries.
SKOS
Simple Knowledge
Organisation System
77
SKOS relaties
in dit voorbeeld zagen we standaard thesaurusrelaties:
<skos:prefLabel> voorkeursterm voor concept
<skos:altLabel> synoniemen
<skos:scopeNote> omschrijving van concept
<skos:broader> algemener concept
<skos:narrower> specifieker concept
ook beschrijving in hoeverre termen uit verschillende
thesauri inhoudelijk overeenkomen (concordantie) :
<skos:mappingRelation> overeenkomst met term uit ander systeem
<skos:exactMatch> term heeft zelfde betekenis
<skos:closeMatch> term heeft bijna zelfde betekenis
<skos:broadMatch> term is ruimer
<skos:narrowMatch> term is specifieker
zo kunnen zoekacties worden uitgebreid,
ook met termen uit andere systemen eric sieverts, maart 201478
semantisch web
• ultieme toepassing van interoperabiliteit
• gebruikt combinatie van
– RDF(S)
– ontologieën (ook thesauri, taxonomieën, semantisch netwerken, …)
– formele talen (als SKOS en OWL - ook wel ontologieën genoemd)
– annotatie van resources/objecten (=onderwerpsontsluiting)
• als vanuit allerlei systemen wordt gelinkt naar dergelijke
computerleesbare "databases" met semantische kennis,
kan programmatuur allerlei termen met elkaar in verband
brengen ten behoeve van zoeken (en andere functies)
• dat wordt bijvoorbeeld in Europeana toegepast
• en "linked data" moet dat nog makkelijker maken
eric sieverts, maart 201479
intermezzo semantisch
web & ontologieën
Tim Berners Lee:
1989: "invented" the World Wide Web
2004: proposed the "semantic web"
2006: designed "linked data" as a step towards
realisation of the semantic web
eric sieverts, maart 201480
van web tot linked data
intermezzo linked data
81
intermezzo linked data
linked data
linked (open) data
• kan weergegeven als RDF-tripels
zodat die data computer-leesbaar zijn
• ze staan op internet
zodat het "open" is
• bedoeld om te worden hergebruikt
zodat het belangrijk ingrediënt voor het semantisch web is
• is gestandaardiseerd
zodat het makkelijk hergebruikt kan worden
• iedereen kan (en moet!) data bijdragen
waardoor het soms wel een beetje een rommeltje is
• je kunt zoeken in linked data triple-stores
SPARQL is voor linked data wat SQL is voor relationele database
eric sieverts, maart 201482
intermezzo linked data
dbpedia: data
from Wikipedia
last.fm: artists
geonames:
6.2 M toponyms
BBC: wildlife
finder
project
GutenbergIMDB
music brainz
Reuters:
openCalais
viaf: virtual
international
authority file
LCSH
NY times
Flickr
"linked open data cloud" - 31 miljard data online – 504 miljoen links daartussen
door standaardisering van dataformats en metadata,
kunnen computers betekenis van die data "begrijpen" en die data gebruiken
rechtspraak.nl
sept 2011
fragment uit het
linked data
VIAF-record voor
Lewis Carroll
viaf.org/viaf/66462036/rdf.xml
84
fragment uit het
linked data
VIAF-record voor
Hugo Brandt Corstius
viaf.org/viaf/94439179/rdf.xml
85
linked data in worldcat
eric sieverts, maart 201486
linked data in worldcat
eric sieverts, maart 201487
sparql - endpoints
nog wat linked data jargon:
SPARQL Sparql Protocol And Rdf Query Language
wat SQL is voor relationele databases
is SPARQL voor RDF triple stores
Endpoints toegangspunten op het web waar je SPARQL
zoekactie op RDF triple stores kunt uitvoeren
(je moet daarvoor de SPARQL syntax kennen
- door een computer laten uitvoeren)
eric sieverts, maart 201488
intermezzo linked data
3. aanpassen zoekacties
aanpassen / verbeteren van zoekacties
 vooraf (automatisch) bewerken van zoekvraag
• variaties op zoekwoord meenemen in query
– spelling verbeterd (statistiek?) [veilgheid >> veiligheid]
– zoeken op woordstam (enkel/meervoud, vervoegingen, ….)
[vaccination >> vaccinations, vaccine, vaccinate, vaccinated, …]
– spellingsvariaties [immunisation <> immunization]
– samenstellingen opbreken (en omgekeerd)
[catfood <> cat food ; maatregel + veiligheid <> veiligheidsmaatregelen]
• synoniemen, acroniemen aan query toevoegen
(uit woordenlijst, semantisch netwerk, ontologie)
[vaccination <> immunization ; jfk <> john f kennedy]
• verwante en specifiekere begrippen aan query toevoegen
(uit semantisch netwerk, thesaurus, ontologie)
eric sieverts, maart 2014
heeft nog niet zo veel met
"semantiek" te maken;
Google doet dat wel al allemaal
89
eric sieverts, maart 2014
3. aanpassen zoekacties
aanpassen / verbeteren van zoekacties
 achteraf bewerken van zoekresultaat
• zoekresultaten clusteren op basis van inhoud
– meestal op basis van woordstatistiek (voorbeeld Clusty, Polymeta)
– soms op basis van automatische classificatie
• in gevonden document alinea(s) tonen die antwoord op vraag geeft
– KWIC display van zoekmachines is eenvoudige vorm daarvan
– zie bijv. Sensebot
• uit meer zoekresultaten samenvatting genereren van belangrijkste
bevindingen / antwoorden
– zie bijv. Factbites
90
91
92
93
semantische zoekmachines
voor "semantisch" gaan door:
• Wolfram|Alpha "computational knowledge engine", feitelijke gegevens
• DuckDuckGo niet semantischer dan google
• Hakia enterprise search; webresultaten nogal middelmatig
• Cognition voor specifieke databases, bijv. voor Medline
• Sensebot vat ook inhoud van meer documenten samen
• Factbites samengevatte informatie uit geselecteerde bronnen
• Cluuz selecteert (uit) antwoorden; ask.cluuz beantwoordt vragen
• Swoogle RDF ontology search engine
• Sindice zoekmachine voor sites met RDF metadata
• Kngine heeft ook een app voor smartphones
• Unsilo nog in ontwikkeling ("invite" aanvragen)
94 eric sieverts, maart 2014
what all that alphabet soup means
• CC Creative Commons
• CIDOC-CRM CIDOC Conceptual Reference Model
• DC Dublin Core
• FOAF Friend-of-a friend
• GR Good Relations Ontology
• HTML HyperText Markup Language
• LOD Linked Open Data
• MO Music Ontology
• OG Open Graph protocol
• OWL Web Ontology Language
• RDF Resource Description Framework
• RDFa RDF in Attributes
• SKOS Simple Knowledge Organisation System
• SPARQL Sparql Protocol And Rdf Query Language
• URI Uniform Resource Identifier
• URL Uniform Resource Locator
• VIAF Virtual International Authority File (authors)
• XHTML eXtensible HyperText Markup Language
• XML eXtensible Markup Language
the end
eric sieverts, maart 201496
voor meer "didactische" informatie zie o.a. semantic university
http://www.cambridgesemantics.com/semantic-university

Contenu connexe

En vedette

Linked Science - Building a Web of Research Data
Linked Science - Building a Web of Research DataLinked Science - Building a Web of Research Data
Linked Science - Building a Web of Research DataRinke Hoekstra
 
Zoeken en Open Access
Zoeken en Open AccessZoeken en Open Access
Zoeken en Open Accesshierohiero
 
Semantic mark-up with schema.org: helping search engines understand the Web
Semantic mark-up with schema.org: helping search engines understand the WebSemantic mark-up with schema.org: helping search engines understand the Web
Semantic mark-up with schema.org: helping search engines understand the WebPeter Mika
 
Is intelligence informatie?
Is intelligence informatie?Is intelligence informatie?
Is intelligence informatie?voginip
 
Phil Bradley - Advanced Internet Searching
Phil Bradley - Advanced Internet SearchingPhil Bradley - Advanced Internet Searching
Phil Bradley - Advanced Internet Searchingvoginip
 
Eerste Hulp Bij Informatievrijheid
Eerste Hulp Bij InformatievrijheidEerste Hulp Bij Informatievrijheid
Eerste Hulp Bij InformatievrijheidMarina Noordegraaf
 
Reflections on the reinvention of research - by Marydee Ojala
Reflections on the reinvention of research - by Marydee OjalaReflections on the reinvention of research - by Marydee Ojala
Reflections on the reinvention of research - by Marydee Ojalavoginip
 
Onderzoeksdata in beeld / In Search 4 Data
Onderzoeksdata in beeld / In Search 4 DataOnderzoeksdata in beeld / In Search 4 Data
Onderzoeksdata in beeld / In Search 4 DataMarina Noordegraaf
 
101 innovaties in de wetenschappelijke communicatie
101 innovaties in de wetenschappelijke communicatie101 innovaties in de wetenschappelijke communicatie
101 innovaties in de wetenschappelijke communicatievoginip
 
Een beter internet voor kinderen
Een beter internet voor kinderenEen beter internet voor kinderen
Een beter internet voor kinderenvoginip
 
Social media tools
Social media toolsSocial media tools
Social media toolsvoginip
 
Smartlogic, Semaphore and Semantically Enhanced Search – For “Discovery”
Smartlogic, Semaphore and Semantically Enhanced Search –  For “Discovery”Smartlogic, Semaphore and Semantically Enhanced Search –  For “Discovery”
Smartlogic, Semaphore and Semantically Enhanced Search – For “Discovery”voginip
 
Een nieuwe rol voor IP-ers
Een nieuwe rol voor IP-ersEen nieuwe rol voor IP-ers
Een nieuwe rol voor IP-ersvoginip
 
Brave new search world
Brave new search worldBrave new search world
Brave new search worldvoginip
 
Use of Twitter and social media
Use of Twitter and social mediaUse of Twitter and social media
Use of Twitter and social mediavoginip
 
Inzet van kennisportals tussen organisatie en klant
Inzet van kennisportals tussen organisatie en klantInzet van kennisportals tussen organisatie en klant
Inzet van kennisportals tussen organisatie en klantvoginip
 
De factcheckparadox
De factcheckparadox De factcheckparadox
De factcheckparadox voginip
 
Iedereen factchecker; tools en technieken
Iedereen factchecker; tools en techniekenIedereen factchecker; tools en technieken
Iedereen factchecker; tools en techniekenvoginip
 
Van bibliometrics naar altmetrics
Van bibliometrics naar altmetricsVan bibliometrics naar altmetrics
Van bibliometrics naar altmetricsWouter Gerritsma
 
Newsreader vogin-ip-26-mar-2015
Newsreader vogin-ip-26-mar-2015Newsreader vogin-ip-26-mar-2015
Newsreader vogin-ip-26-mar-2015Piek Vossen
 

En vedette (20)

Linked Science - Building a Web of Research Data
Linked Science - Building a Web of Research DataLinked Science - Building a Web of Research Data
Linked Science - Building a Web of Research Data
 
Zoeken en Open Access
Zoeken en Open AccessZoeken en Open Access
Zoeken en Open Access
 
Semantic mark-up with schema.org: helping search engines understand the Web
Semantic mark-up with schema.org: helping search engines understand the WebSemantic mark-up with schema.org: helping search engines understand the Web
Semantic mark-up with schema.org: helping search engines understand the Web
 
Is intelligence informatie?
Is intelligence informatie?Is intelligence informatie?
Is intelligence informatie?
 
Phil Bradley - Advanced Internet Searching
Phil Bradley - Advanced Internet SearchingPhil Bradley - Advanced Internet Searching
Phil Bradley - Advanced Internet Searching
 
Eerste Hulp Bij Informatievrijheid
Eerste Hulp Bij InformatievrijheidEerste Hulp Bij Informatievrijheid
Eerste Hulp Bij Informatievrijheid
 
Reflections on the reinvention of research - by Marydee Ojala
Reflections on the reinvention of research - by Marydee OjalaReflections on the reinvention of research - by Marydee Ojala
Reflections on the reinvention of research - by Marydee Ojala
 
Onderzoeksdata in beeld / In Search 4 Data
Onderzoeksdata in beeld / In Search 4 DataOnderzoeksdata in beeld / In Search 4 Data
Onderzoeksdata in beeld / In Search 4 Data
 
101 innovaties in de wetenschappelijke communicatie
101 innovaties in de wetenschappelijke communicatie101 innovaties in de wetenschappelijke communicatie
101 innovaties in de wetenschappelijke communicatie
 
Een beter internet voor kinderen
Een beter internet voor kinderenEen beter internet voor kinderen
Een beter internet voor kinderen
 
Social media tools
Social media toolsSocial media tools
Social media tools
 
Smartlogic, Semaphore and Semantically Enhanced Search – For “Discovery”
Smartlogic, Semaphore and Semantically Enhanced Search –  For “Discovery”Smartlogic, Semaphore and Semantically Enhanced Search –  For “Discovery”
Smartlogic, Semaphore and Semantically Enhanced Search – For “Discovery”
 
Een nieuwe rol voor IP-ers
Een nieuwe rol voor IP-ersEen nieuwe rol voor IP-ers
Een nieuwe rol voor IP-ers
 
Brave new search world
Brave new search worldBrave new search world
Brave new search world
 
Use of Twitter and social media
Use of Twitter and social mediaUse of Twitter and social media
Use of Twitter and social media
 
Inzet van kennisportals tussen organisatie en klant
Inzet van kennisportals tussen organisatie en klantInzet van kennisportals tussen organisatie en klant
Inzet van kennisportals tussen organisatie en klant
 
De factcheckparadox
De factcheckparadox De factcheckparadox
De factcheckparadox
 
Iedereen factchecker; tools en technieken
Iedereen factchecker; tools en techniekenIedereen factchecker; tools en technieken
Iedereen factchecker; tools en technieken
 
Van bibliometrics naar altmetrics
Van bibliometrics naar altmetricsVan bibliometrics naar altmetrics
Van bibliometrics naar altmetrics
 
Newsreader vogin-ip-26-mar-2015
Newsreader vogin-ip-26-mar-2015Newsreader vogin-ip-26-mar-2015
Newsreader vogin-ip-26-mar-2015
 

Similaire à Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.

Vinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadataVinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadataEric Sieverts
 
UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?Eric Sieverts
 
Iad2 1011q3 V04 Les1
Iad2 1011q3 V04 Les1Iad2 1011q3 V04 Les1
Iad2 1011q3 V04 Les1rolfHRO
 
40 jaar informatiegebruik
40 jaar informatiegebruik40 jaar informatiegebruik
40 jaar informatiegebruikEric Sieverts
 
Wij zullen vinden - ook in 2023
Wij zullen vinden - ook in 2023Wij zullen vinden - ook in 2023
Wij zullen vinden - ook in 2023Eric Sieverts
 
Enterprise Search - Evolutie Van Zoekmachines - Whitepaper
Enterprise Search - Evolutie Van Zoekmachines - WhitepaperEnterprise Search - Evolutie Van Zoekmachines - Whitepaper
Enterprise Search - Evolutie Van Zoekmachines - WhitepaperSilverside
 
20120829 Presentatie over Semantic Search
20120829 Presentatie over Semantic Search20120829 Presentatie over Semantic Search
20120829 Presentatie over Semantic Searchhannah_ff
 
What the f@#% is the Semantic Web?
What the f@#% is the Semantic Web?What the f@#% is the Semantic Web?
What the f@#% is the Semantic Web?Martin Hietkamp
 
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...Joyce van Aalten
 
Grote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als dataGrote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als datavoginip
 
Named entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nlNamed entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nlSmals
 
Zoeken in SharePoint by Arno Flapper Imtech ICT
Zoeken in SharePoint by Arno Flapper Imtech ICTZoeken in SharePoint by Arno Flapper Imtech ICT
Zoeken in SharePoint by Arno Flapper Imtech ICTDynamic People B.V.
 
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...CLICKNL
 
Technische SEO in 2020
Technische SEO in 2020Technische SEO in 2020
Technische SEO in 2020OrangeValley
 
Theo van Veen - Verrijkingen in Delpher: genereren, gebruiken en corrigeren
Theo van Veen - Verrijkingen in Delpher: genereren, gebruiken en corrigerenTheo van Veen - Verrijkingen in Delpher: genereren, gebruiken en corrigeren
Theo van Veen - Verrijkingen in Delpher: genereren, gebruiken en corrigerenKBNLResearch
 
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?voginip
 
Daan Odijk | Semantic Search ContentCafé #11
Daan Odijk | Semantic Search ContentCafé #11Daan Odijk | Semantic Search ContentCafé #11
Daan Odijk | Semantic Search ContentCafé #11ContentCafé
 
Presentatie Analistenmiddag Ambulancezorg 2021
Presentatie Analistenmiddag Ambulancezorg 2021Presentatie Analistenmiddag Ambulancezorg 2021
Presentatie Analistenmiddag Ambulancezorg 2021Tom Berger
 

Similaire à Semantisch zoeken - over knowledge graph, semantisch web, rdf enz. (20)

Vinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadataVinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadata
 
UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?
 
Iad2 1011q3 V04 Les1
Iad2 1011q3 V04 Les1Iad2 1011q3 V04 Les1
Iad2 1011q3 V04 Les1
 
Van Zoeken Naar Vinden
Van Zoeken Naar VindenVan Zoeken Naar Vinden
Van Zoeken Naar Vinden
 
40 jaar informatiegebruik
40 jaar informatiegebruik40 jaar informatiegebruik
40 jaar informatiegebruik
 
Wij zullen vinden - ook in 2023
Wij zullen vinden - ook in 2023Wij zullen vinden - ook in 2023
Wij zullen vinden - ook in 2023
 
Enterprise Search - Evolutie Van Zoekmachines - Whitepaper
Enterprise Search - Evolutie Van Zoekmachines - WhitepaperEnterprise Search - Evolutie Van Zoekmachines - Whitepaper
Enterprise Search - Evolutie Van Zoekmachines - Whitepaper
 
20120829 Presentatie over Semantic Search
20120829 Presentatie over Semantic Search20120829 Presentatie over Semantic Search
20120829 Presentatie over Semantic Search
 
What the f@#% is the Semantic Web?
What the f@#% is the Semantic Web?What the f@#% is the Semantic Web?
What the f@#% is the Semantic Web?
 
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...
 
Grote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als dataGrote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als data
 
Named entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nlNamed entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nl
 
Zoeken in SharePoint by Arno Flapper Imtech ICT
Zoeken in SharePoint by Arno Flapper Imtech ICTZoeken in SharePoint by Arno Flapper Imtech ICT
Zoeken in SharePoint by Arno Flapper Imtech ICT
 
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
 
Vinden Of Zoeken
Vinden Of ZoekenVinden Of Zoeken
Vinden Of Zoeken
 
Technische SEO in 2020
Technische SEO in 2020Technische SEO in 2020
Technische SEO in 2020
 
Theo van Veen - Verrijkingen in Delpher: genereren, gebruiken en corrigeren
Theo van Veen - Verrijkingen in Delpher: genereren, gebruiken en corrigerenTheo van Veen - Verrijkingen in Delpher: genereren, gebruiken en corrigeren
Theo van Veen - Verrijkingen in Delpher: genereren, gebruiken en corrigeren
 
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
 
Daan Odijk | Semantic Search ContentCafé #11
Daan Odijk | Semantic Search ContentCafé #11Daan Odijk | Semantic Search ContentCafé #11
Daan Odijk | Semantic Search ContentCafé #11
 
Presentatie Analistenmiddag Ambulancezorg 2021
Presentatie Analistenmiddag Ambulancezorg 2021Presentatie Analistenmiddag Ambulancezorg 2021
Presentatie Analistenmiddag Ambulancezorg 2021
 

Plus de Eric Sieverts

Een andere blik op Google
Een andere blik op GoogleEen andere blik op Google
Een andere blik op GoogleEric Sieverts
 
Searching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowSearching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowEric Sieverts
 
Information Retrieval: van specialisme tot commodity
Information Retrieval: van specialisme tot commodityInformation Retrieval: van specialisme tot commodity
Information Retrieval: van specialisme tot commodityEric Sieverts
 
Searching the internet - better with Google / Google not always best
Searching the internet - better with Google / Google not always bestSearching the internet - better with Google / Google not always best
Searching the internet - better with Google / Google not always bestEric Sieverts
 
Searching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowSearching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowEric Sieverts
 
Zin en onzin van metadata
Zin en onzin van metadataZin en onzin van metadata
Zin en onzin van metadataEric Sieverts
 
Metadata, standaarden, interoperabiliteit, semantisch web en linked data
Metadata, standaarden, interoperabiliteit, semantisch web en linked dataMetadata, standaarden, interoperabiliteit, semantisch web en linked data
Metadata, standaarden, interoperabiliteit, semantisch web en linked dataEric Sieverts
 
A pair of shoes in the thesaurus; some reflexions on human and computer indexing
A pair of shoes in the thesaurus; some reflexions on human and computer indexingA pair of shoes in the thesaurus; some reflexions on human and computer indexing
A pair of shoes in the thesaurus; some reflexions on human and computer indexingEric Sieverts
 
Een digitale bibliotheek of alleen Google?
Een digitale bibliotheek of alleen Google?Een digitale bibliotheek of alleen Google?
Een digitale bibliotheek of alleen Google?Eric Sieverts
 
Project Panorama: vistas on validated information
Project Panorama: vistas on validated informationProject Panorama: vistas on validated information
Project Panorama: vistas on validated informationEric Sieverts
 
Lifehacking met RSS en Netvibes? De strijd tegen informatie overload
Lifehacking met RSS en Netvibes? De strijd tegen informatie overloadLifehacking met RSS en Netvibes? De strijd tegen informatie overload
Lifehacking met RSS en Netvibes? De strijd tegen informatie overloadEric Sieverts
 
UBU-2.0 : allesopeenrijtje-2.0
UBU-2.0 : allesopeenrijtje-2.0UBU-2.0 : allesopeenrijtje-2.0
UBU-2.0 : allesopeenrijtje-2.0Eric Sieverts
 

Plus de Eric Sieverts (13)

Een andere blik op Google
Een andere blik op GoogleEen andere blik op Google
Een andere blik op Google
 
Searching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowSearching the internet - what patent searchers should know
Searching the internet - what patent searchers should know
 
Information Retrieval: van specialisme tot commodity
Information Retrieval: van specialisme tot commodityInformation Retrieval: van specialisme tot commodity
Information Retrieval: van specialisme tot commodity
 
Searching the internet - better with Google / Google not always best
Searching the internet - better with Google / Google not always bestSearching the internet - better with Google / Google not always best
Searching the internet - better with Google / Google not always best
 
Searching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowSearching the internet - what patent searchers should know
Searching the internet - what patent searchers should know
 
Zin en onzin van metadata
Zin en onzin van metadataZin en onzin van metadata
Zin en onzin van metadata
 
Metadata, standaarden, interoperabiliteit, semantisch web en linked data
Metadata, standaarden, interoperabiliteit, semantisch web en linked dataMetadata, standaarden, interoperabiliteit, semantisch web en linked data
Metadata, standaarden, interoperabiliteit, semantisch web en linked data
 
Searchtrends
SearchtrendsSearchtrends
Searchtrends
 
A pair of shoes in the thesaurus; some reflexions on human and computer indexing
A pair of shoes in the thesaurus; some reflexions on human and computer indexingA pair of shoes in the thesaurus; some reflexions on human and computer indexing
A pair of shoes in the thesaurus; some reflexions on human and computer indexing
 
Een digitale bibliotheek of alleen Google?
Een digitale bibliotheek of alleen Google?Een digitale bibliotheek of alleen Google?
Een digitale bibliotheek of alleen Google?
 
Project Panorama: vistas on validated information
Project Panorama: vistas on validated informationProject Panorama: vistas on validated information
Project Panorama: vistas on validated information
 
Lifehacking met RSS en Netvibes? De strijd tegen informatie overload
Lifehacking met RSS en Netvibes? De strijd tegen informatie overloadLifehacking met RSS en Netvibes? De strijd tegen informatie overload
Lifehacking met RSS en Netvibes? De strijd tegen informatie overload
 
UBU-2.0 : allesopeenrijtje-2.0
UBU-2.0 : allesopeenrijtje-2.0UBU-2.0 : allesopeenrijtje-2.0
UBU-2.0 : allesopeenrijtje-2.0
 

Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.

  • 1. semantisch zoeken over knowledge graph, semantisch web, rdf, linked data, ontologieën, metadata, ... VOGIN-IP-lezing 2014 Eric Sieverts @sieverts
  • 2. semantisch zoeken een deel van het materiaal in deze presentatie wordt ook gebruikt in de eendaagse cursus "semantisch zoeken" bij GO Opleidingen eric sieverts, maart 20142
  • 3. conflicting views? Semantic Web Business: Going Nowhere Slowly I've been a semantic web skeptic for years. SemWeb is useful for information enrichment in certain domains, via a circumscribed set of tools. However, the SemWeb offers a vanishingly small benefit to the vast majority of businesses. The vision persists but is unachievable; the business reality of SemWeb is going pretty much nowhere. The SemWeb dream centers on sharing linked data via the W3C's Resource Description Framework protocol. There is no question that SemWeb aspires to a worthy goal, but its tools and processes are no match for the reality of never-diminishing online, social, and enterprise data chaos. We will never achieve its ideal universe of neatly marked up data, published by content producers in accordance with the prescriptive W3C standards. Seth Grimes on January 7, 2014 in InformationWeek eric sieverts, maart 20143 In case you missed it, a series of recent articles have made a Big Announcement: The Semantic Web is not here yet. Additionally, neither are flying cars, the cure for cancer, humans traveling to Mars or a bunch of other futuristic ideas that still have merit. A problem with many of these articles is that they conflate the Vision of the Semantic Web with the practical technologies associated with the standards. While the Whole Enchilada has yet to emerge (and may never do so), the individual technologies are finding their way into ever more systems in a wide variety of industries. These are not all necessarily on the public Web, they are simply Webs of Data. Brian Sletten on January 13, 2014 in semanticweb.com
  • 4. semantisch zoeken vraag 1: • wanneer is een zoeksysteem een semantisch zoeksysteem? .... als het erop staat? eric sieverts, maart 20144
  • 5. semantisch zoeken vraag 2: • welke functionaliteit van een zoeksysteem zou u semantisch noemen? eric sieverts, maart 20145
  • 6. semantisch zoeken 10 Things that Make Search a Semantic Search [volgens Hakia dat zelf beweert semantische zoekmachine te zijn] 1. Handling morphological variations 2. Handling synonyms with correct senses 3. Handling generalizations 4. Handling concept matching 5. Handling knowledge matching 6. Handling natural language queries and questions 7. Ability to point to uninterrupted paragraph and the most relevant sentence 8. Ability to Customize and Organic Progress 9. Ability to operate without relying on statistics, user behavior, and other artificial means 10. Ability to detect its own performance eric sieverts, maart 2014 http://company.hakia.com/whatis.html 6
  • 7. semantisch zoeken Current trend : the semantic search system should be able to understand the query and give relevant results based on the current trend and news. Location of search : When searching for 'what is the temperature', semantic search should provide results based on the current location. Intent of the search : Semantic search should give appropriate search results based on the intent of the search and not on the specific words used. Variations of words : Semantic search should consider tenses, plural, singular etc and provide results for all semantic word variations. Synonyms : Semantic search should understand synonyms and give more or less the same results on any synonyms of the word users search for. Generalized and Specialized queries : Semantic Search should set relation between generalized and specialized queries and provide appropriate results. Concept matching : Sub-set of context matching. Semantic search should understand the broad concept of the query and return relevant results. Natural language queries : On search for 'What time is it in Arizona‘, Semantic Search would show you the current time in Arizona, USA. Change of meaning based on the group of words. The last word in a query may completely change its meaning. Semantic Search should distinguish such differences and give relevant search results. eric sieverts, maart 2014 http://www.techulator.com/resources/59Tony John (2012) - Semantic Search: Factors considered by Search Engines 7
  • 8. 8 maar dat is vooral vanuit SEO perspectief
  • 9. semantisch zoeken samenvattend: globaal 3 soorten toepassingen 1. inschatten van de intentie van de zoeker - en liefst concreet antwoord in plaats van "ten blue links" bijv.: zoekt mobiel in buurt van de Damstraat naar “pizza” >> adres van pizzeria in de buurt 2. bepalen van betekenis van woorden/tekst in documenten vooraf bij indexeren of achteraf in zoekresultaat; van eenvoudige herkenning van entiteiten of meegegeven metadata, tot complexe kennis van de wereld, zodat automatisch concepten worden toegekend of relevante aanvullende informatie verschijnt 3. automatisch aanpassen van zoekacties bijv.: zoekactie uitbreiden met gerelateerde zoekwoorden, zoekwoorden vervangen door betere zoekwoorden, (ook) in andere systemen zoeken eric sieverts, maart 20149
  • 10. 1. intentie van de zoeker intentie of context van vraag kan worden bepaald: • op basis van de lokatie van de zoeker – globaal: op basis van internetdomein waar gebruiker zit (ip-adres) op google.nl krijg je ander antwoord dan op google.com – heel precies: op basis van bekende gps- of gsm-gegevens (mobiel) • op basis van analyse van de gestelde vraag • op basis van eerder zoekgedrag van de zoeker ook bij dubbelzinnige zoekwoorden? eric sieverts, maart 201410
  • 11. intentie van de zoeker intentie of context van vraag kan worden bepaald: • op basis van lokatie • op basis van analyse van de gestelde vraag – naam van persoon, bedrijf, product, gebeurtenis, … >> feiten – naam van gewoon persoon >> facebook / linked-in gegevens – herkent vaste combinaties van woorden – natuurlijke taal interpretatie – statistiek op frequente eerdere vragen • op basis van eerder zoekgedrag eric sieverts, maart 201411 Google Knowledge Graph wolfram|alpha
  • 13. Wie op “Bach” zoekt, vindt vermoedelijk liever gegevens over hem dan websites over hem. Google's Knowledge Graph kent 500 miljoen objecten met 3,5 miljard kenmerken (binnenkort ook in het Nederlands) 13 gegevens o.a. afkomstig uit: "Freebase" (crowdsourced kennisbank), Wikipedia, CIA World factbook en statistische analyse van eigen gegevens
  • 14. wat is in dit verband een "graph"?  een netwerk van al die concepten met hun onderlinge relaties en kenmerken 14
  • 15. graphs zijn nu "hot" 15 eric sieverts, maart 2014 social graph uit Twitter social graph uit Facebook relaties in Freebase
  • 16. 16 eric sieverts, maart 2014 meer uit de Knowledge Graph generieke vragen leveren lijstjes/"carousel", soms in meer rubrieken
  • 17. 17 eric sieverts, maart 2014
  • 18. 18 eric sieverts, maart 2014
  • 19.
  • 20. 20 eric sieverts, maart 2014 feitelijk antwoord boven gewone resultaten
  • 21. 21
  • 22. 22 eric sieverts, maart 2014 vergelijkingen
  • 23. 23 eric sieverts, maart 2014
  • 24. Bing heeft iets soortgelijks: "Satori" maar dat reageert nog niet altijd zo slim op combinaties van woorden
  • 25.
  • 26. intermezzo: een onderzoekje wat geeft beter antwoord op wat voor soort vragen? zie: http://webzoek.pbworks.com/semantisch • antwoord uit Google's Knowledge Graph • antwoord uit Bing's Satori • antwoord uit Wolfram|Alpha • gegevens over dat onderwerp uit de Wikipedia • eerste weblinks uit gewone zoekresultaat uit Google • door Sensebot geselecteerde antwoorden • door Cluuz geselecteerde antwoorden • antwoord uit Ask-Cluuz • antwoord uit Kngine • door Factbites samengevatte antwoorden • eerste weblinks uit (semantisch?) zoekresultaat uit Hakia eric sieverts, maart 201426
  • 27. intentie van de zoeker intentie of context van vraag kan worden bepaald: • op basis van de lokatie van de zoeker • op basis van analyse van de gestelde vraag • op basis van eerder zoekgedrag van de zoeker – wat voor zoekvragen stelde gebruiker eerder – naar welke resultaten keek gebruiker dan (bijvoorbeeld al toegepast in Google's relevantie-personalisatie; opgeslagen "history" is ook al "big data") eric sieverts, maart 201427
  • 28. 2. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën als plaats, persoon, bedrijf, product, ...) • tekstanalyse voor automatisch categoriseren (door "machine learning" getraind op taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection") • betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web • inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data") • ... eric sieverts, maart 201428
  • 29. example: article from NYTimes analysed by ….. >> herkennen van "entiteiten" 29
  • 30. example: article from NYTimes analysed by "Open Calais" http://viewer.opencalais.com/ 30
  • 31. example: article from NYTimes analysed by "Zemanta" http://www.zemanta.com/demo/ 31
  • 32. betekenis door structuur Facebook • kent betekenis toe door gegevens gestructureerd op te slaan • doet dat ook in een "graph" >> graph search 32 eric sieverts, maart 2014
  • 33. 2. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën als plaats, persoon, bedrijf, product, ...) • tekstanalyse voor automatisch categoriseren (door "machine learning" getraind op taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection") • betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web • inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data") • ... eric sieverts, maart 201433
  • 35. voorbeeld: PDF document geanalyseerd met Dewey Classifier automatische classificatie 35
  • 36. resultaat van analyse van PDF document 36
  • 38. pinterest biedt automatisch (?) gegenereerde filters op onder meer recepten ?
  • 39. 2. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën als plaats, persoon, bedrijf, product, ...) • tekstanalyse voor automatisch categoriseren (door "machine learning" getraind op taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection") • betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web • inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data") • ... eric sieverts, maart 201439
  • 40. eric sieverts, maart 2014 uit semantische codering gestandaardiseerde markering van kenmerken in webpagina's voorbeelden van “embedded metadata”: – recipe search bij Google en Yahoo – toepassing e-commerce ontology daarbij gebruikte standaarden: – microformats / rich snippet markup / microdata / schema.org (Google, Yahoo, Bing) onder andere voor: recepten, recencies, personen, producten, organisaties, gebeurtenissen, muziek – RDFa 40
  • 41. 41 in huidig Google-interface onzichtbaar en minder handig geworden; NB: alleen in google.com bij Yahoo overzichtelijker
  • 42. browser extensies (in Chrome) om embedded metadata uit pagina's te pikken
  • 43. standaardisatie van kenmerken van producten met "GR-ontologie" volgens "RDFa“ in “XHTML” 43
  • 44. 44
  • 45. nieuwe standaard van de zoekmachinegiganten: microdata hiërarchie van kenmerken voor embeddable metadata in webpagina’s 45 + nu ook Yandex
  • 46. de concepten uit de good relations ontology zijn recent ook in schema.org geïncorporeerd door Google, Bing en Yahoo vastgelegde standaard: microdata met hiërarchie van embeddable metadata kenmerken voor het web
  • 47. microdata en RDFa • toepassing van deze technieken is vaak "SEO-driven" • Google biedt webmasters "Structured data testing tool" dat fouten in codering detecteert zie blogpost op SearchEngineLand http://searchengineland.com/how-to-u eric sieverts, maart 201447
  • 48. wat heeft zoeker hieraan? • zoeker kan gerichter zoeken en filteren (zoals in Google's receptenzoeker) • zoeker krijgt duidelijker informatie over gevonden items (zoals Google's rich snippets) eric sieverts, maart 2014
  • 49. metadata tools • er zijn handige browsertools (voor chrome) die analyse maken van in webpagina aanwezige metadata volgens microformat, microdata of RDFa standaard http://searchengineland.com/how-to-use-rich-snippets-semantic-markup chrome extensions: https://chrome.google.com/webstore/category/extensions • met Google's "webmaster structured data testing tool" kun je indirect net zo iets: http://www.google.com/webmasters/tools/richsnippets eric sieverts, maart 201449 intermezzo metadata tools
  • 50.
  • 51.
  • 52. hulp voor makers van pagina's voor toevoegen metadata
  • 53.
  • 54.
  • 55.
  • 56.
  • 57. 2. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën als plaats, persoon, bedrijf, product, ...) • tekstanalyse voor automatisch categoriseren (door "machine learning" getraind op taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection") • betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web • inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data") • ... eric sieverts, maart 201457 intermezzo: RDF, semantisch web, ontologieën, linked data, …
  • 58. rdf eric sieverts, maart 2014 RDF = resource description framework • RDF is een standaard voor het beschrijven van de relatie tussen een resource (of een object) en zijn metadata • RDF gebruikt “namespaces” om naar computer-leesbare beschrijving van gebruikte metadatastandaarden te verwijzen (link via URL) • RDF is bedoeld om bestaande semantische systemen te (her)gebruiken en te combineren • RDF wordt meestal in XML-notatie weergegeven • RDFa = “RDF in attributes” , standaard om metadata in de inhoud van (X)HTML webpagina’s te verwerken 58 intermezzo RDF
  • 59. rdf tripels eric sieverts, maart 2014 • eigenschappen (metadata) worden vastgelegd in zogenaamde tripels: subject <predicaat> object (wat je ook zou mogen noemen : ding <eigenschap> waarde ) • waarbij – te beschrijven ding een webadres (URI) heeft – eigenschap van dat ding liefst ook een URI heeft – "waarde" van die eigenschap liefst ook een URI heeft • voorbeeld: – boek (heeft een webadres: URI) – heeft auteur (betekenis van eigenschap ergens beschreven: URI) – persoon (gegevens van persoon ergens op web te vinden: URI) • RDF-tripels worden ook gebruikt in "linked data" • ze worden opgeslagen in zogenaamde triple-stores 59 intermezzo RDF
  • 60. rdf tripels grafisch eric sieverts, maart 2014 subject <predicaat> object doc1 <heeft auteur> auth1 auth1 <heeft naam> john smith auth1 <heeft affiliatie> home inc. auth1 <heeft email> smith@home.com grafische representatie van simpel netwerk van 4 RDF-tripels 60 intermezzo RDF
  • 61. rdf - weergave in xml eric sieverts, maart 2014 <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns="http://www.john.smith.net/rdfexample/"> <rdf:Description rdf:about="http://www.xxx.com/yyy/doc1.xml"> <author> <rdf:Description rdf:about="http://www.xxx.com/autId/7801"> <name>John Smith</name> <affiliation>Home Inc.</affiliation> <email>Smith@home.com</email> </rdf:Description> </author> </rdf:Description> </rdf:RDF> namespaces URI's van beschreven resources 61 je zou eigenlijk ook nog met URI's moeten verwijzen naar de plek waar die kenmerken gedefinieerd zijn intermezzo RDF
  • 62. rdf tripels eric sieverts, maart 201462 naar idee van Lucas Koster / IP "Uit Berlijn" boek Uit Berlijn "Armando" Schuldig landschap http://www.worldcat.org/oclc/10098995   is een http://www.w3.org/1999/02/22-rdf-syntax-ns#type naam http://xmlns.com/foaf/spec/#term_name http://viaf.org/viaf/9885610/  http://hdl.handle.net/10934/RM0001.COLLECT.496040  is geschreven door is schilder van http://purl.org/dc/terms/creator   http://purl.org/dc/terms/creator   intermezzo RDF http://schema.org/Book title Armando http://purl.org/dc/terms/title  
  • 63. rdf bekijken eric sieverts, maart 201463 intermezzo RDF voor het bekijken van RDF in webpagina's bestaan, behalve een paar (niet zo handige) Chrome extensies, ook zogenaamde RDF Browsers als webservices, waar je URL's van te analyseren pagina's kunt invoeren bijvoorbeeld: "graphite" – http://graphite.ecs.soton.ac.uk/browser
  • 64. in semantisch web wordt van "alles" de betekenis vastgelegd eric sieverts, maart 2014 semantisch web om betekenis ook te kunnen begrijpen zijn "ontologieën" nodig 64 intermezzo semantisch web & ontologieën
  • 65. ontologieën eric sieverts, maart 2014 "Ontology is the philosophical study of the nature of being, becoming, existence, or reality, as well as the basic categories of being and their relations" Wikipedia filosofie kunstmatige intelligentie semantisch web 65 intermezzo semantisch web & ontologieën linked (open) data
  • 66. ontologieën eric sieverts, maart 2014 een strikt en uitputtend schema voor een bepaald onderwerpsdomein, meestal in een hiërarchische structuur, die alle relevante grootheden en hun relaties bevat, alsmede de regels waaraan die grootheden en relaties binnen dat domein voldoen filosofie kunstmatige intelligentie semantisch web 66 intermezzo semantisch web & ontologieën linked (open) data
  • 67. ontologieën • "kennis-representatie“ waarin kennis over (klein stukje van) de wereld in geformaliseerde vorm is weergegeven • meestal niet rechtstreeks gebruikt voor ontsluiting • maakt vollediger en meer complexe representaties van de werkelijkheid mogelijk dan met een thesaurus • veel mogelijke soorten relaties tussen concepten • vastgelegde rollen en eigenschappen van die concepten • vaak voor een beperkt onderwerpsdomein (“wijn ontologie”) • soms breder in een zogenaamde “core ontology” bijvoorbeeld: CIDOC-CRM (conceptual reference model) voor concepten, relaties en eigenschappen op gebied van cultureel erfgoed eric sieverts, maart 201467 intermezzo semantisch web & ontologieën
  • 68. relaties tussen enkele concepten in een eenvoudige "wijn-ontologie" Château Lafitte Rothschild {is een} wijnhuis Château Lafitte Rothschild {produceert} Château Lafitte Rothschild Pauillac Bordeaux {heeft als beste wijnhuizen} Château Lafitte Rothschild Château Lafitte Rothschild Pauillac {wordt gemaakt door} Château Lafitte Rothschild Château Lafitte Rothschild Pauillac {is een} Pauillac Bordeaux {is een} wijnstreek .... veel meer soorten relaties mogelijk dan alleen BT, NT, RT, Use, Used for 68 hiërarchische structuur van concepten van één soort in een eenvoudige "wijn-ontologie"
  • 69. ontologieën eric sieverts, maart 2014 elk soort kennisorganisatiesysteem waarmee betekenis beschreven kan worden, zoals • "echte" ontologieën • thesauri • taxonomieën • semantische netwerken • namenlijsten • concordanties • … filosofie kunstmatige intelligentie semantisch web 69 intermezzo semantisch web & ontologieën linked (open) data schema.org is ook simpele vorm hiervan
  • 70. ontologieën eric sieverts, maart 2014 "conceptuele datamodellen" voor allerlei domeinen, zoals • foaf (persoonsgegevens) • dublin core (15 velden voor vooral erfgoed) • good-relations ontology (e-commerce) • music ontology (muziek) • skos (thesaurusrelaties) • cidoc-crm (erfgoed) definities van "velden", klassen van eigenschappen, e.d., meestal niet van hun inhouden filosofie kunstmatige intelligentie semantisch web 70 intermezzo semantisch web & ontologieën linked (open) data
  • 71. ontologieën voor “ontologieën” in het kader van semantisch web en linked data is essentieel dat: – ontologie zo beschikbaar is dat een computer-programma hem kan lezen, verwerken en interpreteren → vereist gestandaardiseerde notaties en formele talen om ze te beschrijven, zoals • rdf • rdfs • owl • skos • … eric sieverts, maart 201471 intermezzo semantisch web & ontologieën
  • 72. voorbeeld van de relaties tussen concepten m.b.t. het standbeeld van Balzac door Rodin [CIDOC-CRM] 72
  • 73. 73
  • 74. 74
  • 75. 75
  • 76. voorbeeld hoe diverse semantische standaarden (ontologieën) via RDF werden gecombineerd vroeger veel gebruikte standaarden voor beschrijvingselementen: • v: vcard • mo: music ontology • foaf: friend of a friend • owl: web ontology language • geo maar worden nu algemeen vervangen door schema.org 76 oud
  • 77. grafische weergave van SKOS-representatie van thesaurustermen & relaties: netwerk van RDF-tripels Term: Economic cooperation Used For: Economic co-operation Broader terms: Economic policy Narrower terms: Economic integration, European economic cooperation, European industrial cooperation, Industrial cooperation Related terms: Interdependence Scope Note: Includes cooperative measures in banking, trade, industry etc., between and among countries. SKOS Simple Knowledge Organisation System 77
  • 78. SKOS relaties in dit voorbeeld zagen we standaard thesaurusrelaties: <skos:prefLabel> voorkeursterm voor concept <skos:altLabel> synoniemen <skos:scopeNote> omschrijving van concept <skos:broader> algemener concept <skos:narrower> specifieker concept ook beschrijving in hoeverre termen uit verschillende thesauri inhoudelijk overeenkomen (concordantie) : <skos:mappingRelation> overeenkomst met term uit ander systeem <skos:exactMatch> term heeft zelfde betekenis <skos:closeMatch> term heeft bijna zelfde betekenis <skos:broadMatch> term is ruimer <skos:narrowMatch> term is specifieker zo kunnen zoekacties worden uitgebreid, ook met termen uit andere systemen eric sieverts, maart 201478
  • 79. semantisch web • ultieme toepassing van interoperabiliteit • gebruikt combinatie van – RDF(S) – ontologieën (ook thesauri, taxonomieën, semantisch netwerken, …) – formele talen (als SKOS en OWL - ook wel ontologieën genoemd) – annotatie van resources/objecten (=onderwerpsontsluiting) • als vanuit allerlei systemen wordt gelinkt naar dergelijke computerleesbare "databases" met semantische kennis, kan programmatuur allerlei termen met elkaar in verband brengen ten behoeve van zoeken (en andere functies) • dat wordt bijvoorbeeld in Europeana toegepast • en "linked data" moet dat nog makkelijker maken eric sieverts, maart 201479 intermezzo semantisch web & ontologieën
  • 80. Tim Berners Lee: 1989: "invented" the World Wide Web 2004: proposed the "semantic web" 2006: designed "linked data" as a step towards realisation of the semantic web eric sieverts, maart 201480 van web tot linked data intermezzo linked data
  • 82. linked data linked (open) data • kan weergegeven als RDF-tripels zodat die data computer-leesbaar zijn • ze staan op internet zodat het "open" is • bedoeld om te worden hergebruikt zodat het belangrijk ingrediënt voor het semantisch web is • is gestandaardiseerd zodat het makkelijk hergebruikt kan worden • iedereen kan (en moet!) data bijdragen waardoor het soms wel een beetje een rommeltje is • je kunt zoeken in linked data triple-stores SPARQL is voor linked data wat SQL is voor relationele database eric sieverts, maart 201482 intermezzo linked data
  • 83. dbpedia: data from Wikipedia last.fm: artists geonames: 6.2 M toponyms BBC: wildlife finder project GutenbergIMDB music brainz Reuters: openCalais viaf: virtual international authority file LCSH NY times Flickr "linked open data cloud" - 31 miljard data online – 504 miljoen links daartussen door standaardisering van dataformats en metadata, kunnen computers betekenis van die data "begrijpen" en die data gebruiken rechtspraak.nl sept 2011
  • 84. fragment uit het linked data VIAF-record voor Lewis Carroll viaf.org/viaf/66462036/rdf.xml 84
  • 85. fragment uit het linked data VIAF-record voor Hugo Brandt Corstius viaf.org/viaf/94439179/rdf.xml 85
  • 86. linked data in worldcat eric sieverts, maart 201486
  • 87. linked data in worldcat eric sieverts, maart 201487
  • 88. sparql - endpoints nog wat linked data jargon: SPARQL Sparql Protocol And Rdf Query Language wat SQL is voor relationele databases is SPARQL voor RDF triple stores Endpoints toegangspunten op het web waar je SPARQL zoekactie op RDF triple stores kunt uitvoeren (je moet daarvoor de SPARQL syntax kennen - door een computer laten uitvoeren) eric sieverts, maart 201488 intermezzo linked data
  • 89. 3. aanpassen zoekacties aanpassen / verbeteren van zoekacties  vooraf (automatisch) bewerken van zoekvraag • variaties op zoekwoord meenemen in query – spelling verbeterd (statistiek?) [veilgheid >> veiligheid] – zoeken op woordstam (enkel/meervoud, vervoegingen, ….) [vaccination >> vaccinations, vaccine, vaccinate, vaccinated, …] – spellingsvariaties [immunisation <> immunization] – samenstellingen opbreken (en omgekeerd) [catfood <> cat food ; maatregel + veiligheid <> veiligheidsmaatregelen] • synoniemen, acroniemen aan query toevoegen (uit woordenlijst, semantisch netwerk, ontologie) [vaccination <> immunization ; jfk <> john f kennedy] • verwante en specifiekere begrippen aan query toevoegen (uit semantisch netwerk, thesaurus, ontologie) eric sieverts, maart 2014 heeft nog niet zo veel met "semantiek" te maken; Google doet dat wel al allemaal 89
  • 90. eric sieverts, maart 2014 3. aanpassen zoekacties aanpassen / verbeteren van zoekacties  achteraf bewerken van zoekresultaat • zoekresultaten clusteren op basis van inhoud – meestal op basis van woordstatistiek (voorbeeld Clusty, Polymeta) – soms op basis van automatische classificatie • in gevonden document alinea(s) tonen die antwoord op vraag geeft – KWIC display van zoekmachines is eenvoudige vorm daarvan – zie bijv. Sensebot • uit meer zoekresultaten samenvatting genereren van belangrijkste bevindingen / antwoorden – zie bijv. Factbites 90
  • 91. 91
  • 92. 92
  • 93. 93
  • 94. semantische zoekmachines voor "semantisch" gaan door: • Wolfram|Alpha "computational knowledge engine", feitelijke gegevens • DuckDuckGo niet semantischer dan google • Hakia enterprise search; webresultaten nogal middelmatig • Cognition voor specifieke databases, bijv. voor Medline • Sensebot vat ook inhoud van meer documenten samen • Factbites samengevatte informatie uit geselecteerde bronnen • Cluuz selecteert (uit) antwoorden; ask.cluuz beantwoordt vragen • Swoogle RDF ontology search engine • Sindice zoekmachine voor sites met RDF metadata • Kngine heeft ook een app voor smartphones • Unsilo nog in ontwikkeling ("invite" aanvragen) 94 eric sieverts, maart 2014
  • 95. what all that alphabet soup means • CC Creative Commons • CIDOC-CRM CIDOC Conceptual Reference Model • DC Dublin Core • FOAF Friend-of-a friend • GR Good Relations Ontology • HTML HyperText Markup Language • LOD Linked Open Data • MO Music Ontology • OG Open Graph protocol • OWL Web Ontology Language • RDF Resource Description Framework • RDFa RDF in Attributes • SKOS Simple Knowledge Organisation System • SPARQL Sparql Protocol And Rdf Query Language • URI Uniform Resource Identifier • URL Uniform Resource Locator • VIAF Virtual International Authority File (authors) • XHTML eXtensible HyperText Markup Language • XML eXtensible Markup Language
  • 96. the end eric sieverts, maart 201496 voor meer "didactische" informatie zie o.a. semantic university http://www.cambridgesemantics.com/semantic-university