Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

semantischzoeken-2013.ppt

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité

Consultez-les par la suite

1 sur 104 Publicité

Plus De Contenu Connexe

Similaire à semantischzoeken-2013.ppt (20)

Plus par voginip (20)

Publicité

semantischzoeken-2013.ppt

  1. 1. Eric Sieverts semantisch zoeken iets over metadata, semantisch web, ontologieën, interoperabiliteit, linked data VOGIN-IP-lezing 2013
  2. 2. 2019 ? 2025 ? Holy Grail Modelling the human brain, and figuring out how it works, has long been one of the Holy Grails of supercomputing, prompting fears of a "technological singularity," where successively advanced artificial intelligences design ever more refined versions of themselves, leading to a future where humans become increasingly irrelevant. ... … Thinking the way that humans think would allow Google or Microsoft to anticipate even more what their users want, and to provide them with that data. Both companies can do that to some extent through data accumulated from millions of users; if the most common "t" word I search for is Twitter.com, Google can start pre-loading the page in the background. But thinking like a human thinks, and making the seemingly random associations that humans make thousands of times faster than we make, could mean everything from artificially-crafted memes to pre-processed sound bites for politicians. ... de ultieme semantische zoekmachine? 2
  3. 3. 3
  4. 4. semantisch zoeken vraag 1: • wanneer is een zoeksysteem een semantisch zoeksysteem? .... als het erop staat? eric sieverts, februari 2013 4
  5. 5. semantisch zoeken vraag 2: • welke functionaliteit van een zoeksysteem zou u semantisch noemen? eric sieverts, februari 2013 5
  6. 6. semantisch zoeken 10 Things that Make Search a Semantic Search [volgens Hakia dat zelf beweert semantische zoekmachine te zijn] 1. Handling morphological variations 2. Handling synonyms with correct senses 3. Handling generalizations 4. Handling concept matching 5. Handling knowledge matching 6. Handling natural language queries and questions 7. Ability to point to uninterrupted paragraph and the most relevant sentence 8. Ability to Customize and Organic Progress 9. Ability to operate without relying on statistics, user behavior, and other artificial means 10. Ability to detect its own performance eric sieverts, februari 2013 http://company.hakia.com/whatis.html 6
  7. 7. semantisch zoeken 1. Related searches/queries. The engine proposes searches that are in some way similar to the entered search 2. Reference results. The search engine is responding with materials that define the search terms. Presumption is that the user is probably searching for practical information rather than document hit lists. 3. Semantically annotated results. You're returned pages or documents with highlighting of text features, especially named or pattern-defined entities, that are semantically related to the search terms. 4. Full-text similarity search. A block of text ranging from a phrase to a full document is submitted. While matching techniques rely on statistical or vector-space similarity rather than meaning, results do fit the semantic label 5. Search on semantic/syntactic annotations. The user tags a search term to indicate the syntactic role the term plays or its semantic meaning -- whether it's a company name, location, or event. 6. Concept search. I enter "Ford films" and I get also documents that contain the word "movies". Conceptual relationships could be specified by a taxonomy or inferred by statistical co-occurrence. 7. Ontology-based search . . . . . . . eric sieverts, februari 2013 http://www.informationweek.com/software/ business-intelligence/breakthrough- analysis-two-nine-types-of/222400100 Seth Grimes (2010): Two + Nine Views of Semantic Search 7
  8. 8. semantisch zoeken 1. Related searches/queries. The engine proposes searches that are in some way similar to the entered search 2. Reference results. The search engine is responding with materials that define the search terms. Presumption is that the user is probably searching ... 3. Semantically annotated results. You're returned pages or documents with highlighting of text features, especially named or pattern-defined entities ... 4. Full-text similarity search. A block of text ranging from a phrase to a full document is submitted. While matching techniques rely on statistical or ... 5. Search on semantic/syntactic annotations. The user tags a search term to indicate the syntactic role the term plays or its semantic meaning -- ... 6. Concept search. I enter "Ford films" and I get also documents that contain the word "movies". Conceptual ... 7. Ontology-based search. The engine not only understands hierarchical relationships of entities and concepts as in a taxonomy, but also more complex inter-entity relationships. 8. Semantic Web search. The Semantic Web seeks to capture data relationships and make the resulting "Web of data" queryable. This lofty and worthy goal is years from practical usability. 9. Faceted search. Faceted search provides a means of exploring results according to a set of predefined, high-level categories called facets. 10. Clustered search. Clustered search is like faceted search, but without the predefined categories. Here, meaning is inferred from topics statistically extracted from the content of search results. 11. Natural language search. These 11 approaches don't each apply to every semantic search, all of the time, but they do each win the semantic-search label at least some of the time. eric sieverts, februari 2013 http://www.informationweek.com/software/ business-intelligence/breakthrough- analysis-two-nine-types-of/222400100 Seth Grimes (2010): Two + Nine Views of Semantic Search 8
  9. 9. semantisch zoeken Current trend : the semantic search system should be able to understand the query and give relevant results based on the current trend and news. Location of search : When searching for 'what is the temperature', semantic search should provide results based on the current location. Intent of the search : Semantic search should give appropriate search results based on the intent of the search and not on the specific words used. Variations of words : Semantic search should consider tenses, plural, singular etc and provide results for all semantic word variations. Synonyms : Semantic search should understand synonyms and give more or less the same results on any synonyms of the word users search for. Generalized and Specialized queries : Semantic Search should set relation between generalized and specialized queries and provide appropriate results. Concept matching : Sub-set of context matching. Semantic search should understand the broad concept of the query and return relevant results. Natural language queries : On search for 'What time is it in Arizona‘, Semantic Search would show you the current time in Arizona, USA. Change of meaning based on the group of words. The last word in a query may completely change its meaning. Semantic Search should distinguish such differences and give relevant search results. eric sieverts, februari 2013 http://www.techulator.com/resources/ 5933-What-Semantic-Search.aspx Tony John (2012) - Semantic Search: Factors considered by Search Engines 9
  10. 10. semantisch zoeken samenvattend: globaal 3 soorten toepassingen 1. inschatten van de intentie van de zoeker bijv.: hij zoekt mobiel in buurt van de Rozengracht naar “pizza” >> adres van pizzeria in de buurt 2. bepalen van betekenis van woorden/tekst in documenten vooraf bij indexeren of achteraf in zoekresultaat; van eenvoudige herkenning van entiteiten of meegegeven metadata, tot complexe kennis van de wereld, zodat automatisch concepten worden toegekend of relevante aanvullende informatie gelinkt wordt 3. automatisch aanpassen van zoekacties bijv.: zoekactie uitbreiden met gerelateerde zoekwoorden, zoekwoorden vervangen door betere zoekwoorden, (ook) in andere systemen zoeken eric sieverts, februari 2013 10
  11. 11. 1. intentie van de zoeker intentie of context van vraag kan worden bepaald: • op basis van de lokatie van de zoeker – globaal: op basis van internetdomein waar gebruiker zit (ip-adres) op google.nl krijg je ander antwoord dan op google.com – heel precies: op basis van bekende gps- of gsm-gegevens (mobiel) • op basis van analyse van de gestelde vraag • op basis van eerder zoekgedrag van de zoeker ook bij dubbelzinnige zoekwoorden? eric sieverts, februari 2013 11
  12. 12. intentie van de zoeker intentie of context van vraag kan worden bepaald: • op basis van lokatie • op basis van vraaganalyse – eenvoudig: • wie naam intikt van bekend persoon, bedrijf, product, gebeurtenis, object, zal wel algemene informatie daarover willen • wie naam van gewoon persoon intikt zal wel facebook / linked-in enz. gegevens willen (maar hoe weet systeem dat het een naam is?) – ietsje geavanceerd: • veel voorkomende combinaties met vaste woorden – geavanceerd: • natuurlijke taal technieken • op basis van statistiek op grote aantallen eerder ontvangen vragen • op basis van eerder zoekgedrag eric sieverts, februari 2013 12
  13. 13. Wie op “Bach” zoekt, vindt vermoedelijk liever gegevens over hem dan websites over hem 14
  14. 14. 15
  15. 15. 16
  16. 16. 17
  17. 17. intentie van de zoeker Google Knowledge Graph • kent 500 miljoen objecten met 3,5 miljard kenmerken en vele onderlinge relaties (maar nog alleen in het Engels) • toch nog verrassend hoe vaak je niet dit soort gegevens krijgt, terwijl je dat wel zou verwachten • wat is in dit verband een "graph"? een netwerk van al die concepten met hun onderlinge relaties en kenmerken • hoe komt Google aan al die gegevens? uit "Freebase" (crowdsourced kennisbank), Wikipedia, CIA World factbook en uit statistische analyse van eigen gegevens eric sieverts, februari 2013 18
  18. 18. 19
  19. 19. visualisaties van graphs 20
  20. 20. relaties in Freebase 21
  21. 21. 22
  22. 22. intentie van de zoeker intentie of context van vraag kan worden bepaald: • op basis van de lokatie van de zoeker • op basis van analyse van de gestelde vraag • op basis van eerder zoekgedrag van de zoeker – wat voor zoekvragen stelde gebruiker eerder – naar welke resultaten keek gebruiker dan (bijvoorbeeld al toegepast in Google's relevantie-personalisatie; opgeslagen "history" is ook al "big data") eric sieverts, februari 2013 23
  23. 23. 2. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën als plaats, persoon, bedrijf, product, ...) • betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) • tekstanalyse zoals bij automatische classificatie • tekstanalyse en koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data") • ... eric sieverts, februari 2013 24
  24. 24. The Calais Web Service automatically creates rich semantic metadata Named Entities Facts Events herkennen van "entiteiten" 25
  25. 25. example: article from NYTimes analysed by ….. >> herkennen van "entiteiten" 26
  26. 26. example: article from NYTimes analysed by "Open Calais" http://viewer.opencalais.com/ 27
  27. 27. 28
  28. 28. 29
  29. 29. example: article from NYTimes analysed by "Zemanta" http://www.zemanta.com/demo/ 30
  30. 30. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten • herkennen van "entiteiten" in tekst • betekenis herkenbaar aanwezig in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) • tekstanalyse zoals bij automatische classificatie • tekstanalyse en koppeling met geselecteerde andere bronnen • ... eric sieverts, februari 2013 31
  31. 31. eric sieverts, februari 2013 herkennen van kenmerken gestandaardiseerde markering van kenmerken in webpagina's voorbeelden van “embedded metadata”: – Google recipes – toepassing e-commerce ontology daarbij gebruikte standaarden: – microformats – RDFa – microdata 32
  32. 32. 33
  33. 33. eric sieverts, februari 2013 Google "rich snippets • standaardisatie van "kenmerken" in de beschrijving van recepten met "microformats" / "rich snippets markup" • andere soorten informatie waarvoor kenmerken in rich snippet markup zijn gestandaardiseerd: recencies, personen, producten, organisaties, gebeurtenissen en muziek 34
  34. 34. standaardisatie van kenmerken van producten met "GR-ontologie" volgens "RDFa“ in “XHTML” 35
  35. 35. 36
  36. 36. 37
  37. 37. nieuwe standaard van de zoekmachinegiganten: microdata hiërarchie van kenmerken voor embeddable metadata in webpagina’s 38
  38. 38. de concepten uit de good relations ontology zijn recent ook in schema.org geïncorporeerd 39
  39. 39. microformats en RDFa • toepassing van deze technieken is vaak "SEO-driven" zie blogpost op SearchEngineLand http://searchengineland.com/how -to-use-rich-snippets-semantic- markup-to-send-rich-signals- 139886 eric sieverts, februari 2013 40
  40. 40. wat heeft zoeker hieraan? • zoeker kan gerichter zoeken en filteren (zoals in Google's receptenzoeker) • zoeker krijgt duidelijker informatie over gevonden items (zoals Google's rich snippets) eric sieverts, februari 2013 41
  41. 41. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten • herkennen van "entiteiten" in tekst • betekenis herkenbaar aanwezig in "embedded metadata" • tekstanalyse zoals bij automatische classificatie (door "machine learning" getraind op taxonomie of thesaurus, zowel inhoudelijke concepten als bijv. "sentiment" in tekst, zodat zoekresultaat gecategoriseerd kan worden) • tekstanalyse en koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data") • ... eric sieverts, februari 2013 42
  42. 42. sentiment detection 43
  43. 43. sentiment detection 44
  44. 44. voorbeeld: PDF document geanalyseerd met Dewey Classifier automatische classificatie 45
  45. 45. resultaat van analyse van PDF document 46
  46. 46. intermezzo: rdf RDF = resource description framework • RDF is een standaard voor het beschrijven van de relatie tussen een resource (of een object) en zijn metadata • RDF verwijst naar daarbij gebruikte metadatastandaard(en) • RDF gebruikt “namespaces” om naar computer-leesbare beschrijving van die standaarden te verwijzen (link via URL) • RDF is bedoeld om bestaande semantische systemen te (her)gebruiken en te combineren • RDF-beschrijvingen worden meestal in XML-notatie weergegeven • RDFa = “RDF in attributes” , standaard om metadata in de inhoud van (X)HTML webpagina’s te verwerken eric sieverts, februari 2013 47
  47. 47. rdf RDF = resource description framework • resources moeten een URI hebben (een uniform resource identifier, zoals een URL) om ernaar te kunnen verwijzen • eigenschappen (metadata) worden vastgelegd in zogenaamde tripels: subject <predicaat> object (wat je ook zou kunnen weergeven als : ding <eigenschap> waarde ) • naar definities van die eigenschappen wordt meestal ook via een URI verwezen • RDF-tripels worden ook gebruikt in "linked data" eric sieverts, februari 2013 48
  48. 48. rdf tripels (en linked data) eric sieverts, februari 2013 beschrijving van metadata in RDF tripels: • waarbij – te beschrijven ding een webadres (URI) heeft – eigenschap van dat ding liefst ook een URI heeft – "waarde" van die eigenschap liefst ook een URI heeft • voorbeeld: – boek (heeft een webadres: URI) – heeft auteur (betekenis van eigenschap ergens beschreven: URI) – persoon (gegevens van persoon ergens op web te vinden: URI) • als linked data worden ze opgeslagen in zogenaamde RDF triple stores 49
  49. 49. rdf tripels eric sieverts, februari 2013 subject <predicaat> object doc1 <heeft auteur> auth1 auth1 <heeft naam> john smith auth1 <heeft affiliatie> home inc. auth1 <heeft email> smith@home.com grafische representatie van simpel netwerk van 4 RDF-tripels 50
  50. 50. rdf - weergave in xml eric sieverts, februari 2013 <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns="http://www.john.smith.net/rdfexample/"> <rdf:Description rdf:about="http://www.xxx.com/yyy/doc1.xml"> <author> <rdf:Description rdf:about="http://www.xxx.com/autId/7801"> <name>John Smith</name> <affiliation>Home Inc.</affiliation> <email>Smith@home.com</email> </rdf:Description> </author> </rdf:Description> </rdf:RDF> namespaces URI's van beschreven resources 51
  51. 51. via die webadressen (URI's) kan iedereen aan deze data linken = "resource" met URI = "literal" (gegeven) getypeerde (en op het web gedefinieerde) relaties tussen resources en gegevens rdf tripels 52
  52. 52. rdf-tripels en graphs verschillen zulke netwerkjes van RDF-tripels van die eerdere "graphs"?  niet wezenlijk gegevens en relaties uit RDF tripels kun je ook in zulke graphs weergeven eric sieverts, februari 2013 53
  53. 53. in webpagina verwerkte verwijzingen naar de standaarden voor gebruikte beschrijvingselementen: • v: vcard • mo: music ontology • foaf: friend of a friend • owl: web ontology language • geo 54
  54. 54. 55
  55. 55. 56
  56. 56. intermezzo: metadata tools • er zijn handige browsertools (voor chrome) die analyse maken van in webpagina aanwezige metadata volgens microformat, microdata of RDFa standaard http://searchengineland.com/how-to-use-rich-snippets-semantic- markup-to-send-rich-signals-139886 eric sieverts, februari 2013 57
  57. 57. 58
  58. 58. 59
  59. 59. metadata tools 60
  60. 60. metadata tools 61
  61. 61. metadata tools 62
  62. 62. metadata tools 63
  63. 63. metadata tools 64
  64. 64. metadata tools 65
  65. 65. metadata tools 66
  66. 66. metadata tools 67
  67. 67. metadata tools 68
  68. 68. metadata tools 69
  69. 69. metadata tools 70
  70. 70. metadata tools 71
  71. 71. 3. aanpassen zoekacties aanpassen / verbeteren van zoekacties  vooraf (automatisch) bewerken van zoekvraag • variaties op zoekwoord meenemen in query – spelling verbeterd (statistiek?) [veilgheid >> veiligheid] – zoeken op woordstam (enkel/meervoud, vervoegingen, ….) [vaccination >> vaccinations, vaccine, vaccinate, vaccinated, …] – spellingsvariaties [immunisation <> immunization] – samenstellingen opbreken (en omgekeerd) [catfood <> cat food ; maatregel + veiligheid <> veiligheidsmaatregelen] • synoniemen, acroniemen aan query toevoegen (uit woordenlijst, semantisch netwerk, ontologie) [vaccination <> immunization ; jfk <> john f kennedy] • verwante en specifiekere begrippen aan query toevoegen (uit semantisch netwerk, thesaurus, ontologie) eric sieverts, februari 2013 72
  72. 72. 3. aanpassen zoekacties aanpassen / verbeteren van zoekacties  achteraf bewerken van zoekresultaat • zoekresultaten clusteren op basis van inhoud – meestal op basis van woordstatistiek (voorbeeld Clusty, Polymeta) – soms op basis van automatische classificatie • in gevonden document alinea(s) tonen die antwoord op de vraag bevat – KWIC display van zoekmachines is eenvoudige vorm daarvan • uit meer zoekresultaten samenvatting genereren van belangrijkste bevindingen / antwoorden eric sieverts, februari 2013 73
  73. 73. 74
  74. 74. 75
  75. 75. 76
  76. 76. 77
  77. 77. semantisch zoeken vraag 3: • welke semantische zoekmachines kent u? (en waarom zijn die semantisch?) eric sieverts, februari 2013 78
  78. 78. semantische zoekmachines vaak genoemd in overzichten van semantisch zoeken: • Hakia enterprise search; webresultaten nogal middelmatig • DuckDuckGo niet semantischer dan google • Wolfram|Alpha "computational knowledge engine", feitelijke gegevens • Sensebot vat ook inhoud van meer documenten samen • Cognition voor specifieke databases, bijv. voor Medline • Factbites samengevatte informatie uit geselecteerde bronnen • Cluuz analyseert recultaten en geeft relaties • Kngine is alleen nog een app voor smartphones • Swoogle RDF ontology search engine • Sindice zoekmachine voor sites met RDF metadata • Powerset is opgekocht door (en geïntegreerd in) Bing • Kosmix • Evri bestaan niet meer als (web)zoekachine • Truevert eric sieverts, februari 2013 79
  79. 79. finale: semantisch web in semantisch web wordt van "alles" betekenis vastgelegd eric sieverts, februari 2013 om betekenis ook te begrijpen heeft men "ontologieën" nodig 80
  80. 80. ontologieën eric sieverts, februari 2013 definitie: een strikt en uitputtend schema voor een bepaald onderwerpsdomein, meestal in een hiërarchische structuur, die alle relevante grootheden en hun relaties bevat, alsmede de regels waaraan die grootheden en relaties binnen dat domein voldoen filosofie kunstmatige intelligentie computerleesbare kennisrepresentatie 81
  81. 81. ontologieën • "kennis-representatie“ waarin kennis over (klein stukje van) de wereld in geformaliseerde vorm is weergegeven • meestal niet rechtstreeks gebruikt voor ontsluiting • maakt vollediger en meer complexe representaties van de werkelijkheid mogelijk dan met een thesaurus • veel mogelijke soorten relaties tussen concepten • vastgelegde rollen en eigenschappen van die concepten • vaak voor een beperkt onderwerpsdomein (“wijn ontologie”) • soms breder in een zogenaamde “core ontology” bijvoorbeeld: CIDOC-CRM (conceptual reference model) voor concepten, relaties en eigenschappen op gebied van cultureel erfgoed eric sieverts, februari 2013 82
  82. 82. relaties tussen enkele concepten in een eenvoudige "wijn-ontologie" Château Lafitte Rothschild {is een} wijnhuis Château Lafitte Rothschild {produceert} Château Lafitte Rothschild Pauillac Bordeaux {heeft als beste wijnhuizen} Château Lafitte Rothschild Château Lafitte Rothschild Pauillac {wordt gemaakt door} Château Lafitte Rothschild Château Lafitte Rothschild Pauillac {is een} Pauillac Bordeaux {is een} wijnstreek .... veel meer soorten relaties mogelijk dan alleen BT, NT, RT, Use, Used for 83
  83. 83. hiërarchische structuur van concepten van één soort in een eenvoudige "wijn-ontologie" klassen-hiërarchie van DBpedia-ontologie 84
  84. 84. voorbeeld van de relaties tussen concepten m.b.t. het standbeeld van Balzac door Rodin [CIDOC-CRM] 85
  85. 85. ontologieën “ontologieën” in kader van het semantisch web • in meer algemene zin : algemene naam voor allerlei soorten onderwerpsontsluiting (thesauri, classificaties, taxonomieën, namenlijsten, .....) en ook voor concordanties tussen dergelijke systemen • essentiële vereisten : ontologie moet beschikbaar zijn in een vorm waarin hij door een computerprogramma kan worden gelezen, verwerkt en geïnterpreteerd → vereist gestandaardiseerde notaties en formele talen om ze te beschrijven eric sieverts, februari 2013 86
  86. 86. ontologie-notatie beschrijving van ontologieën voor semantisch web RDF resource description framework standaard om relaties tussen een object en zijn metadata te beschrijven OWL web ontology language standaard voor computer-leesbaar beschrijven van ontologieën RDFS RDF-schema standaard voor het beschrijven van metadata-modellen in RDF SKOS simple knowledge organization system standaard voor het beschrijven van thesauri, classificaties en hun onderlinge relaties in RDF eric sieverts, februari 2013 87
  87. 87. interoperabiliteit en SKOS om interoperabiliteit tussen systemen “automatisch” te kunnen laten verlopen is een standaard nodig om computerleesbaar te beschrijven: – hoe een bepaald ontsluitingssysteem in elkaar zit – hoe relaties tussen begrippen moeten worden geïnterpreteerd (bijv.: of iets een BT is, een scope note of .... ) – hoe begrippen zich verhouden tot die in een ander systeem, – ... om dat makkelijk en gestandaardiseerd te kunnen doen is SKOS ontwikkeld SKOS: Simple Knowledge Organisation System eric sieverts, februari 2013 88
  88. 88. interoperabiliteit definities • Interoperability is the ability of two or more systems or components to exchange information and to use the information that has been exchanged • Semantic Interoperability is the ability of computer systems to communicate information and have that information properly interpreted by the receiving system in the same sense as intended by the transmitting system. bron: Wikipedia • Interoperabiliteit betekent in het algemeen dat systemen (of apparatuur) in staat zijn tot onderlinge uitwisseling of/en communicatie. De systemen kunnen m.a.w. ‘praten met elkaar’ en zijn in zekere zin ‘compatibel’. Om interoperabiliteit te bereiken zijn standaarden, protocollen en procedures erg belangrijk bron: http://www.cjsm.vlaanderen.be/e-cultuur/beleidskader/bouwstenen/lexicon.html eric sieverts, november 2012 89
  89. 89. grafische weergave van SKOS-representatie van thesaurustermen & relaties: netwerk van RDF-tripels Term: Economic cooperation Used For: Economic co-operation Broader terms: Economic policy Narrower terms: Economic integration, European economic cooperation, European industrial cooperation, Industrial cooperation Related terms: Interdependence Scope Note: Includes cooperative measures in banking, trade, industry etc., between and among countries. SKOS 90
  90. 90. SKOS representatie in RDF <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:skos="http://www.w3.org/2004/02/skos/core#"> <skos:Concept> <skos:prefLabel>Economic cooperation</skos:prefLabel> <skos:altLabel>Economic co-operation</skos:altLabel> <skos:scopeNote>Includes cooperative measures in banking, trade, industry etc., between and among countries. </skos:scopeNote> <skos:broader> <skos:Concept> <skos:prefLabel>Economic policy</skos:prefLabel> </skos:Concept> </skos:broader> <skos:related> <skos:Concept> <skos:prefLabel>Interdependence</skos:prefLabel> </skos:Concept> </skos:related> <skos:narrower> <skos:Concept> <skos:prefLabel>Economic integration</skos:prefLabel> </skos:Concept> </skos:narrower> <!-- ...more narrower terms omitted ... --> </skos:Concept> </rdf:RDF> computerleesbare weergave - in xml eric sieverts, februari 2013 91
  91. 91. SKOS relaties in dit voorbeeld zagen we standaard thesaurusrelaties: <skos:prefLabel> voorkeursterm voor concept <skos:altLabel> synoniemen <skos:scopeNote> omschrijving van concept <skos:broader> algemener concept <skos:narrower> specifieker concept ook beschrijving in hoeverre termen uit verschillende thesauri inhoudelijk overeenkomen (concordantie) : <skos:mappingRelation> overeenkomst met term uit ander systeem <skos:exactMatch> term heeft zelfde betekenis <skos:closeMatch> term heeft bijna zelfde betekenis <skos:broadMatch> term is ruimer <skos:narrowMatch> term is specifieker zo kunnen zoekacties worden uitgebreid, ook met termen uit andere systemen eric sieverts, februari 2013 92
  92. 92. semantisch web • ultieme toepassing van interoperabiliteit • gebruikt combinatie van – RDF(S) – ontologieën (ook thesauri, taxonomieën, semantisch netwerken, …) – formele talen (zoals SKOS en OWL) – annotatie van resources/objecten (=metadatering) • als vanuit allerlei systemen maar naar dergelijke computerleesbare "databases" met semantische kennis gelinkt wordt, kan programmatuur allerlei termen met elkaar in verband brengen ten behoeve van zoeken (en andere functionaliteit) • dat wordt bijvoorbeeld in Europeana toegepast • en met "linked data" moet dat nog makkelijker worden eric sieverts, februari 2013 93
  93. 93. RDF en "linked data" er is momenteel veel publiciteit rond "linked (open) data" • dat zijn in principe RDF-tripels zodat die data computer-leesbaar zijn • ze staan op internet zodat het "open" is • ze zijn bedoeld om te worden hergebruikt zodat ze een belangrijk ingrediënt voor het semantisch web zijn • ze zijn gestandaardiseerd zodat ze makkelijk hergebruikt kunnen worden • iedereen kan (en moet!) data bijdragen waardoor het toch nog wel een beetje een rommeltje is eric sieverts, februari 2013 94
  94. 94. Tim Berners Lee: 1989: "invented" the World Wide Web 2004: proposed the "semantic web" 2006: designed "linked data" as a step towards realisation of the semantic web eric sieverts, februari 2013 95
  95. 95. 96
  96. 96. 97
  97. 97. dbpedia: data from Wikipedia last.fm: artists geonames: 6.2 M toponyms BBC: wildlife finder project Gutenberg IMDB music brainz Reuters: openCalais viaf: virtual international authority file LCSH NY times Flickr "linked open data cloud" - 31 miljard data online – 504 miljoen links daartussen door standaardisering van dataformats en metadata, kunnen computers betekenis van die data "begrijpen" en die data gebruiken rechtspraak.nl 98
  98. 98. fragment uit het linked data VIAF-record voor Lewis Carroll viaf.org/viaf/66462036/rdf.xml 99
  99. 99. fragment uit het linked data VIAF-record voor Hugo Brandt Corstius viaf.org/viaf/94439179/rdf.xml 100
  100. 100. sparql - endpoints nog wat linked data jargon: SPARQL Sparql Protocol And Rdf Query Language wat SQL is voor relationele databases is SPARQL voor RDF triple stores Endpoints toegangspunten op het web waar je SPARQL zoekactie op RDF triple stores kunt uitvoeren (je moet daarvoor de SPARQL syntax kennen - door een computer laten uitvoeren) eric sieverts, februari 2013 101
  101. 101. kernbegrippen kernbegrippen die we tegenkwamen • semantiek (= betekenis, begrijpen) • interoperabiliteit (= kunnen samenwerken) • metadata (= beschrijven & karakteriseren) • ontologieën (= kennis organisatie systemen) • semantisch web (= informatie op web begrijpen) • linked data (= gegevens op web begrijpen, linken en hergebruiken) op allerlei manieren horen daar standaarden bij meer "didactische" informatie o.a. op: semantic university http://www.cambridgesemantics.com/semantic-university eric sieverts, november 2012 102
  102. 102. what all that alphabet soup means • CC Creative Commons • CIDOC-CRM CIDOC Conceptual Reference Model • DC Dublin Core • FOAF Friend-of-a friend • GR Good Relations Ontology • HTML HyperText Markup Language • LOD Linked Open Data • MO Music Ontology • OG Open Graph protocol • OWL Web Ontology Language • RDF Resource Description Framework • RDFa RDF in Attributes • SKOS Simple Knowledge Organisation System • SPARQL Sparql Protocol And Rdf Query Language • URI Uniform Resource Identifier • URL Uniform Resource Locator • VIAF Virtual International Authority File (authors) • XHTML eXtensible HyperText Markup Language • XML eXtensible Markup Language
  103. 103. the end eric sieverts, februari 2013 104

×