1. ZBW is member of the Leibniz Association
Anforderungen an Thesauri
im Semantic Web
Joachim Neubert
ZBW – Leibniz Informationszentrum Wirtschaft, Kiel/Hamburg
Deutsche Nationalbibliothek
Leipzig 1.3.2016
Frankfurt a.M. 2.3.2016
2. Agenda
1. Thesauri im Semantic Web
2. Standards: SKOS, ISO 25964
3. STW als Beispiel eines SKOS-Thesaurus
4. Mappings / Crosskonkordanzen
5. Nutzung von SKOS-Thesauri und Mappings in Applikationen
6. Tools für SKOS-Thesauri
7. Anwendung auf die GND
8. Anforderungen / Wunschliste
Page 2
6. Boom von Thesauri im Semantic Web
• bartoc.org verzeichnet rund 100 Thesauri im SKOS-Format
• Getty: große Umbauten und Öffnung mit Blickrichtung auf Linked
Open Data (AAT, Geographical Names, ULAN Artists)
• Reorganisation und tendenzielle Verschmelzung der
agrarwissenschaftlichen Vokabulare (Agrovoc, NAL Thesaurus, z.T.
CAB Thesaurus) im GACS (Global Agricultural Concept Scheme)
• Neuentwicklungen wie Getty CONA (Cultural Objects Name
Authority)
• Wikidata als „universelle Normdatei“ und Verknüpfungspunkt
multilingualer Informationsressourcen
Page 6
8. Page 8
Strukturierung durch SKOS
• Simple Knowledge Organization System
• entwickelt mit dem Ziel, Schlagwortsysteme, Thesauri,
Klassifikationen u.ä. für das Semantic Web nutzbar zu machen
• beruht auf eindeutigen Identifiern (URIs) für Begriffe
skos:Concept – „unit of thought“
• erlaubt zu Begriffen Vorzugsbezeichnungen und alternative
Bezeichnungen in beliebig vielen Sprachen
• unterstützt die üblichen Thesaurusrelationen (broader, narrower,
related)
9. Page 9
Strukturierung durch SKOS (2)
• ermöglicht Dokumentation (definition, scopeNote, historyNote, etc.)
• ergänzende Gliederung durch skos:Collections
• zusätzliche Strukturierungsmöglichkeiten durch SKOS-XL
(z.B. Beziehung zwischen einer Bezeichnung und deren Abkürzung)
• unterstützt Mapping verschiedener Thesauri (exactMatch,
closeMatch, broadMatch, narrowMatch, relatedMatch)
• erweiterbar durch anwendungsspezifische Klassen und
Eigenschaften
• seit August 2009 Recommendation des W3C
http://www.w3.org/2004/02/skos/
10. Thesaurus Norm ISO 25964
ISO 25964 – löste 2011 (Teil 1) und 2013 (Teil 2) die technisch völlig
überholten DIN und ISO Normen aus den 1970er und 1980er Jahren ab
• umfangreiche Begriffsdefinitionen
Concept (Begriff) und Term (Bezeichnung) wie in SKOS
• relationales Datenmodell zur Repräsentation von Thesauri
• zusätzliche Strukturierung mit Hilfe von ThesaurusArrays und
ConceptGroups (Modellierung von Microthesauri)
• Interoperabilität zwischen Vokabularen
Page 10
11. Verbindung SKOS - ISO 25964
ISO-THES RDF-Vokabular als Ergänzung zu SKOS und SKOS-XL
http://www.niso.org/schemas/iso25964/correspondencesSKOS/
• Korrespondenz SKOS-ISO25964, zugleich SKOS Erweiterung
• Empfehlung, wie zwischen generischen, partitiven und instanziellen
Unterbegriffen unterschieden werden kann
• Empfehlung, wie compound equivalences (Benutze Kombination) in
SKOS definiert werden
• Empfehlungen für Thesaurus Arrays, Mikrothesauri u.ä.
Page 11
12. Einsatzbereich von SKOS
• primär zur Datenpublikation im Web und zum Datenaustausch
• ermöglicht Interoperabilität und erleichtert Mappings zwischen
Vokabularen
• zielt nicht darauf, den gesamten Reichtum von Thesauri abdecken
• soll nicht automatisches Schlussfolgern (Reasoning) ermöglichen
• in der Regel nicht verwendet für die interne Darstellung von Thesauri
in Pflegesystemen
• Workflows und Stati (z.B. Kandidat, freigegeben, …)
• Changelog (wer hat was wann geändert, und vor allem warum?)
• Indexierung ist für SKOS generell „out of scope“
Page 12
13. 3. STW als Beispiel eines SKOS-Thesaurus
Page 13
14. Page 14
Standard-Thesaurus Wirtschaft
• wurde in den 1990er Jahren unter öffentlicher Förderung von vier
wirtschaftswissenschaftlichen Institutionen entwickelt
• wird heute von der ZBW herausgegeben und weiterentwickelt
• umfasst ca. 6.000 Deskriptoren mit über 14.000 alternativen
Bezeichnungen in Deutsch und Englisch
• bildet feinmaschiges Begriffsnetz
• mehr als 13.000 Ober-/Unterbegriffsbeziehungen und 6.500
verwandte Begriffe
• zusätzlicher Zugang über Thesaurussystematik
mit rund 500 Stellen
21. Interoperabilität
• Datenbestände werden zunehmend über Portale, Discovery-
Systeme oder letztlich das Web miteinander verknüpft
• für die übergreifende Nutzung von Beständen mit gemischter
Erschließung sind Mappings notwendig
• strukturelle Ähnlichkeit von SKOS-Vokabularen erlaubt Einsatz von
standardisierten Tools
• Standardisierung der Mapping-Properties (skos:exactMatch etc.)
macht den Austausch und die Nutzung von einmal erzeugten
Mappings in unterschiedlichen Systemen einfach
Page 21
22. Erstellen von Mappings
• Optimal wäre eine Kombination und enge Integration von
automatischen und intellektuellen Mappingschritten
• Nutzung von Synonymen, Mehrsprachigkeit, Stringähnlichkeit,
linguistische Funktionen (z.B. Plural/Singular)
• Unterstützung bei intellektueller Kontrolle von Vorschlägen und beim
vollständig intellektuellen Erstellen einzelner Mappings
• klassische Ontology-Matching-Tools sind wenig geeignet für
umfangreiche Vokabulare
• Linked-Data-Tools häufig auf Optimierung eines vollautomatischen
Matchings ausgerichtet
• Offenes Problem: Pflege bei Änderungen der beteiligten Vokabulare
Page 22
23. Tools zum Erstellen von Mappings
• Silk (http://silkframework.org/) – generelles LOD-Mapping
• Amalgame (http://semanticweb.cs.vu.nl/amalgame/) – speziell
SKOS-Vokabulare, mehrstufige Workflows, intellektuelle Evaluierung
• CultuurLINK (http://cultuurlink.beeldengeluid.nl/) – Nachfolger von
Amalgame
• Cocoda (http://coli-conc.gbv.de/) – speziell SKOS-Vokabulare, v.a.
Klassifikationen, intellektuelle Erstellung (mit Autosuggest), bisher
Prototyp
Page 23
24. Exkurs: Mappings in Wikidata erstellen + pflegen?
• Wikidata = data backbone aller sprachspezifischen Wikipedia-
Ausgaben
• für jedes Wikipedia-Seite gibt es ein Wikidata-Datenobjekt (für die
GND z.B. Q36578), insgesamt 21 Mio.
• über 2000 Eigenschaften (Geburtsdatum, Geo-Koordinaten, …)
• bereits zahlreiche Eigenschaften für Normdaten (z.B. „GND-
Identifier“ P227)
• Vorläufer: PND-Projekt Wikipedia/DNB (seit 2009)
• Pflege wie in Wikipedia durch jedermann
Page 24
25. Use Case: Engl. Bezeichnungen für GND-Berufe
Ziel:
Zweisprachige Berufsbezeichnungen für wirtschaftswissenschaftlich
relevante Personen
Ausgangspunkt:
GND-Bezeichnungen sind ausschließlich deutschsprachig
Page 25
26. z.B. „Geograph“ / „Geographin“
• Wikidata-Datenobjekt mit dt. und engl. Bezeichnung existiert
(geschlechtsunspezifisch) (https://www.wikidata.org/wiki/Q901402)
• durch Nachtragen der GND-IDs ist die Übersetzung von der GND
aus erreichbar
• zugleich werden die deutsche und englische Wikipediaseite von der
GND aus erreichbar
• außerdem weitere Normdaten:
• ROME-Berufscode
• ISCO-Code
• Standard Occupational Classification Code
• Art&Architecture-Thesaurus-ID, Freebase-ID, NDL-ID, …
Page 26
28. Use Case (2): Mögliches Vorgehen
weitgehend script-bar:
für die x häufigsten Berufe
• Lookup der GND-ID in Wikidata
• falls gefunden: Engl. Bezeichnung entnehmen
• andernfalls: Lookup der deutschen Berufsbezeichnung (+
Synonyme) aus der GND in Wikidata
• falls gefunden: verifizieren und ggf. GND-ID nachtragen
• andernfalls: mit vermuteter engl. Bezeichnung suchen
• falls gefunden, deutsche Bezeichnung + GND-ID, ggf. auch
Link zu dt. Wikipedia-Seite in Wikidata nachtragen
• andernfalls: neues Wikidata-Datenobjekt anlegen (?)
Page 28
29. 5. Nutzung von SKOS-Thesauri und Mappings in
Applikationen
Page 29
30. Unterstützung bei der intellektuellen Indexierung
• Autosuggest-Funktionen (wie in der STW-Webpräsenz)
• vor allem für nicht-bibliothekarische Nutzer
• Self-Upload in Digital Repositories (z.B. EconStor)
• Forschungsdaten-Infrastrukturen (z.B. Sowidatanet, Edavax)
Page 30
31. Übernahme von Indexaten
• wenn zu einem Deskriptor in Vokabular A ein mit exactMatch
gemappter Deskriptor in Vokabular B existiert
• in beide Richtungen möglich
• semiautomatisch (mit intellektueller Kontrolle)
• falls automatisch, sollte Unterscheidung von intellektuell
zugeordneten Deskriptoren möglich bleiben
Page 31
34. Nutzung von Synonymen beim Indexaufbau
Page 34
Im Portal EconBiz werden für STW- wie auch GND-Deskriptoren durch
zusätzliche Indexeinträge recherchierbar gemacht:
STW
GND
https://github.com/jneubert/sparql-queries/tree/master/stw#stw-misc
38. Tools zur Qualitätssicherung
In den letzten Jahren mehrere Ansätze, SKOS-Thesauri entsprechend
der SKOS-Regeln und z.T. weiterer „best practices“ zu validieren:
• qSKOS (Christian Mader / Poolparty)
Validierung streng nach SKOS Reference
https://github.com/cmader/qSKOS/
• Skosify (Finnische Nationalbibliothek)
Konvertierung nach SKOS, Qualitätsverbesserung, Validierung
https://github.com/NatLibFi/Skosify
Paper: http://eprints.cs.univie.ac.at/3707/1/skosquality.pdf
Page 38
39. Tools zum Versionsvergleich
Was ist neu? Was hat sich geändert?
• skos-history
https://github.com/jneubert/skos-history
• Anwendung auf STW:
http://zbw.eu/stw/version/9.0/relaunch/about
Page 39
44. Daten, die für das Experiment ergänzt wurden
• skos:ConceptScheme
• Name
• Datum/Version
• skos:inScheme Statements – was gehört dazu, was nicht?
• Sachgruppen + deren Notationen
• SKOS-Properties:
• skos:prefLabel für gndo:preferredNameForTheSubjectHeading
• analog skos:altLabel, skos:definition
• generalisierte skos:broader Relation (für generic/instantial/partitive)
• fehlende Umkehrrelationen (broader/narrower)
Page 44
45. Repräsentation von GND Sachgruppen
• derzeit in einem eigenen skos:ConceptScheme als flache Liste von
skos:Concepts modelliert
http://d-nb.info/standards/vocab/gnd/gnd-sc
• alternative Möglichkeit: mehrstufige Hierarchie von
isothes:ConceptGroups (Subklasse von skos:Collection und daher
disjunct mit skos:Concept)
• Verknüpfung der einzelnen GND-Begriffe mit
gndo:gndSubjectCategory als Subproperty von skos:member
• in einer Sachsystematik ggf. Ausschluss von „Personen zu …“
Page 45
49. Beispiel: Zyklische hierarchische Relationen
Christenverfolgung OB Christenfeindlichkeit
Christenfeindlichkeit OB Christenverfolgung
Page 49
50. Versionsvergleich mit skos-history
Page 50
Zwei Versionen im Version Store: 2015-05-13 und 2015-10-13
Abfragbar mit SPARQL Queries in SPARQL Lab:
• Neue Begriffe
http://zbw.eu/beta/sparql-lab/?queryRef=https://api.github.com/repos/jneubert/skos-
history/contents/sparql/added_concepts.rq&endpoint=http://zbw.eu/beta/sparql/swdskosv/query&versionHistoryGraph=htt
p://zbw.eu/beta/swdskos/version&language=de
• Aufsplitterungen: Zu neuen Begriffen verschobene Benennungen
http://zbw.eu/beta/sparql-lab/?queryRef=https://api.github.com/repos/jneubert/skos-
history/contents/sparql/labels_moved_to_added_concepts.rq&endpoint=http://zbw.eu/beta/sparql/swdskosv/query&versio
nHistoryGraph=http://zbw.eu/beta/swdskos/version&language=de
• GND-spezifische Queries
53. Wunschliste für den GND Linked Data Dump
Metadaten zum gesamten Dataset, z.B. mit VoID, DCAT
• Name
• Version / Datum
• Publisher
• Lizenz
• Umfang
• Untermengen (Sachbegriffe, Personen, Institutionen, …)
Zugehörigkeit der einzelnen Konzepte zum Datenset explizit
kennzeichnen, z.B. mit dcterms:isPartOf
Page 53
54. Wunschliste (Fortsetzung)
Format
• utf-8 normalized (nicht in Grundzeichen und Akzent „zerlegt“)
• RDF validiert
• Datei aufgeteilt in Entitäten
Versionen
• alle veröffentlichten Versionen zum Download verfügbar
Struktur
• explizite Hierarchie in Sachgruppen-Systematik
Page 54
55. Zusammengefasst …
• Semantischen Reichtum der GND erhalten
• Kompatibilität zu SKOS-Vokabularen verbessern
(einige Früchte hängen sehr niedrig!)
Page 55