Presentatie door Ruben Verborgh tijdens het Connected Data Event op 2 december 2014 te Amsterdam. Deze presentatie valt onder de Creative Commons Attribution-ShareAlike 4.0 International licentie (http://creativecommons.org/licenses/by-sa/4.0/).
5. Duizenden brieven
van de Federale Overheid
keerden jaarlijks terug…
…omdat het adres
van het bedrijf veranderde.
Nog eens duizenden brieven
keerden jaarlijks terug…
…omdat het adres
en het bedrijf nooit hadden bestaan.
21. DBpedia is de Linked
versie van Wikipedia.
Gestructureerde data
wordt door een script
in triples omgezet.
http://wikipedia.org/wiki/Bill_Clinton
http://dbpedia.org/resource/Bill_Clinton
22. DBpedia is de Linked
versie van Wikipedia.
Zo’n script wordt
geschreven door IT’ers
en is specifiek voor
iedere website.
23. Hoe kunnen we zelf eenvoudig
data connected maken?
Hoe geven we dingen een URL?
Hoe linken we die URLs?
24. Hoe kunnen we zelf eenvoudig
data connected maken?
gestructureerde data
ongestructureerde data
25.
26. Hoe kunnen we dit stuk data
linken aan andere?
Record ID: 402320
Object Title: College bed/lounge designed by John Andrews, 1965
Registration Number: 2010/9/1
Categories: Sofa-beds|Furniture
Height: 310 mm
Width: 860 mm
Depth:
Diameter:
Weight:
27. Waar vinden we meer over
“Sofa-beds” en “Furniture”?
LCSH: Library of Congress Subject Headings
AAT: Art and Architecture Thesaurus
DDC: Dewey Decimal Classification
30. Waarom zouden we
deze URL gebruiken?
“Furniture” is een tekenreeks.
http://id.loc.gov/authorities/subjects/
sh85052522.html#concept
identificeert een stuk Connected Data,
dat verbonden is met andere.
31. Hoe gaan we van “Furniture”
naar “LCSH Furniture”?
Record ID: 402320
Object Title: College bed/lounge designed by John Andrews, 1965
Registration Number: 2010/9/1
Categories: Sofa-beds|Furniture
Height: 310 mm
Width: 860 mm
Depth:
Diameter:
Weight:
http://id.loc.gov/authorities/subjects/
sh85052522.html#concept
32. We queryen de LCSH-dataset
via de SPARQL-querytaal.
SELECT * WHERE {
?concept skos:prefLabel “Furniture".
}
http://id.loc.gov/authorities/subjects/
sh85052522.html#concept
33. We hoeven dit niet manueel
te doen voor elke entry.
OpenRefine
36. Met een minimale inspanning
is 90% van de dataset gelinkt. accepted for publication in Journal of the American Society for Information Science and Technology
copyright c
2012 (American Society for Information Science and Technology)
LCSH
LCSH + AAT
68.4%
81.1% 77.1%
PHM Collection
89.8% of records reconciled
AAT
http://freeyourmetadata.org/publications/
of the PHM records have been reconciled by combining the LCSH and the AAT.
37. Hoe kunnen we zelf eenvoudig
data connected maken?
gestructureerde data
ongestructureerde data
38. On March 15th, we visited
Washington to see
the White House.
39. Automatisch detecteren
van Named Entities in tekst.
On March 15th, we visited
Washington to see
the White House.
48. Hoe geven we gebruikers
toegang tot Connected Data?
data-dump
SPARQL endpoint
een eigen API
herbruikbare API
49.
50. Gebruikers downloaden alles,
en queryen data lokaal.
voordeel
eenvoudige interface
!
nadelen
grote bestanden
niet up-to-date
51. Hoe geven we gebruikers
toegang tot Connected Data?
data-dump
SPARQL endpoint
een eigen API
herbruikbare API
52. Linked Data bestaat uit triples.
SPARQL is een triple-querytaal.
SELECT * {
?movie dbpedia-owl:starring dbpedia:Al_Gore.
?movie rdfs:label ?title.
?movie dbpedia-owl:director ?director.
}
53.
54. De gebruikers beslissen
wat zij willen zien.
Endpoints bieden miljoenen
triples Linked Data aan.
Iedere gebruiker kan zeggen:
“ik wil dit soort triples.”
55. SPARQL endpoints hebben
beperkte beschikbaarheid.
If you have operational need
for SPARQL accessible data,
you must have your own infrastructure.
No public endpoints.
Public endpoints are for lookups and discovery;
sort of a dataset demo.
—Orri Erling, OpenLink (2014)
56. Gebruikers kiezen queries
zoals ze zelf willen.
voordelen
up-to-date
uniform en flexibel te bevragen
!
nadelen
hoge kost voor de aanbieder
lage beschikbaarheid
57. Hoe geven we gebruikers
toegang tot Connected Data?
data-dump
SPARQL endpoint
een eigen API
herbruikbare API
59. Er zijn dus 12.000 verschillende
manieren om hetzelfde te doen.
60.
61. Bouw dus vooral geen API.
Je wil niet nummer 12.001 zijn.
“The lie of the API”
62. APIs stellen data beschikbaar
zoals de aanbieder dit wil.
voordelen
up-to-date
goedkoop om aan te bieden
!
nadelen
duur om te bouwen en onderhouden
specifieke querysoftware nodig
63. Hoe geven we gebruikers
toegang tot Connected Data?
data-dump
SPARQL endpoint
een eigen API
herbruikbare API
64. Hoe kunnen we één API maken
voor Connected Data?
goedkoop om aan te bieden
!
eenvoudig om te queryen
!
toch up-to-date
65. De basis van Linked Data
bestaat uit triples.
Bied data aan per triple-patroon.
Bill_Clinton ? ?
? ? Al_Gore
? knows ?
66.
67. De client van de gebruiker
lost complexe vragen op.
SELECT * {
?movie dbpedia-owl:starring dbpedia:Al_Gore.
?movie rdfs:label ?title.
?movie dbpedia-owl:director ?director.
}
68. Simple servers en slimme clients
zorgen voor schaalbaarheid.
voordelen
goedkoop om aan te bieden
hoge beschikbaarheid
up-to-date data
!
nadeel
queries gaan trager
69. Ons onderzoek bestudeert
de trade-offs tussen Web APIs.
data-dump
SPARQL
linkeddatafragments.org
triple-patronen query-resultaten
78. Connected Data begint
met intelligente applicaties.
Bouw geen intelligente servers.
Bouw servers die clients in staat stellen
om intelligent te reageren.
79. Pluk het laaghangende fruit.
Wacht niet tot de hele boom rijp is.
@RubenVerborgh
ruben.verborgh.org