Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
1. Bibliotheken und Linked Open Data –
Erfahrungen und Ideen aus der UB Mannheim
Invited Talk an der
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
30. Juni 2011
Kai Eckert
Universitätsbibliothek Mannheim
2. Übersicht
1. Lokales: Was machen wir in Mannheim und warum
eigentlich?
2. Rechtliches: Wie offen ist Open Data, wer darf was
und mit welchen Lizenzen?
Jetz NEU!
wen t mit n
3. Technisches: Wie verknüpft man Daten? iger o
Tech ch
nik!
Und warum wollen alle „Linked Data“?
4. Historisches: Historie und Linked Open Data
Projekte in Deutschland
3. LOD an der UB Mannheim
• Juli 2010: Start des Linked Data Dienstes
unter http://data.bib.uni-mannheim.de.
– Titeldaten von SWB und HeBIS, hauptsächlich
unter Verwendung von Dblin Core (22 Millionen)
– Verknüpfungen zwischen Titeln des gleichen
Werkes (ubma:equalsForClassification)
– Rudimentäre Umsetzung der RVK
– Links zu DNB und FU Berlin
• März 2011: Freigabe des eigenen Katalogs
(CC0).
4. Warum denn Linked Data?
• Technisch: Weil wir es wollen (und können)!
– Begeisterung der beteiligten Personen für das
Semantic Web.
– Entsprechender technischer Hintergrund.
– „Ernsthafte“ Visionen:
• Erleichterung der Entwicklung neuer Anwendungen,
• bessere/leichtere Integration mit Webdiensten (Tagging,
Wikipedia, …),
• Ideale Plattform, um Projektergebnisse (wie die
Verknüpfung von Titeldaten oder Ergebnisse einer
automatischen Erschließung) zur Verfügung zu stellen
(Linked Open Projects).
5. Ja aber… warum freigeben?
• Rechtlich: Warum nicht?
– Freigabe von Daten ist kein großer Aufwand.
– Beim BSZ: gar kein Aufwand!
– Gibt es Gegenargumente?
• Geschäftsmodell? Was, wenn ich dann Pleite gehe?
• Angst? Was, wenn jemand meine Fehler sieht?
• Neid? Was, wenn jemand damit Geld verdient?
• Rechtliche Bedenken? Was, wenn ich das gar nicht
darf?
– Kein Grund, der dagegen spricht.
8. Open Bibliographic Data
Offene bibliographische Daten sind:
• “Offen”, d.h. die Daten können frei genutzt,
wiederverwendet und weiterverbreitet werden,
allenfalls unter der Einschränkung, dass der Urheber
genannt werden muss (attribution) und veränderte
Daten unter gleicher Lizenz veröffentlicht werden
(sharealike).
• Daten oder Metadaten, die im Bibliotheksumfeld
erzeugt werden, insbesondere Daten zur Erschließung
und Katalogisierung.
http://www.opendefinition.org/bibliographic/
9. Wie gibt man Daten frei?
1. Rechtliche Voraussetzungen
klären.
2. Daten von Drittanbietern
identifizieren.
3. Lizenzen und Verträge
prüfen.
4. Daten ggf. bereinigen.
5. Daten unter Hinweis auf die gewünschte
Lizenz zur Verfügung stellen (Download).
6. Datenformat angeben, ggf. dokumentieren.
11. Einschränkungen des
Urheberrechts
• Uneinheitlich, z.B.:
– Persönlicher Gebrauch
– (Nicht-kommerzieller Einsatz in der) Forschung,
Lehre
– Zitate
– Vervielfältigung teilweise gestattet und über
Verwertungsgesellschaften ausgeglichen (Kopien,
Aufzeichnungen, …)
– Kritiken, Kommentare, Parodien
– Nachrichten
12. Digitale Werke im Internet
• Urheber wollen eigentlich eine Nutzung.
• Dazu muss jedem Nutzer das Recht zur
Nutzung eingeräumt werden: Lizenz.
• Eine Lizenz zu verfassen ist nicht einfach und
für einen normalen Anwender bzw.
Werkersteller kaum zu leisten.
• Im Internet kommt noch das Problem dazu, dass
die Lizenz weltweit gelten muss.
• Trotzdem möchten Werkersteller ihre Rechte
wahrnehmen und nicht alles erlauben.
13. Gibt es einen Mittelweg?
all rights reserved
no rights reserved
14. Die „Creative Commons“
Idee
• 2001 in den USA von einer Gruppe um
Lawrence Lessig gegründet.
• Befürchtung, dass das US Copyright (und
andere Urheberrechtsgesetze) die Kreativität im
Internet behindern.
• Ziel: Mehr „kreatives“ Material unter offenen,
standardisierten Lizenzen verfügbar machen.
• Die Lizenzen sollen flexibel, leicht
verständlich, leicht zu nutzen und weltweit
gültig sein.
15. Die Creative Commons
Lizenzen
Mehr Rechte vorbehalten
• BY: Attribution
– Namensnennung
• SA: Sharealike
– Weitergabe unter
gleichen Bedingungen
• ND: No derivatives
– Keine Veränderungen
• NC: Non-commercial
– Kein kommerzieller Einsatz
Weniger Rechte vorbehalten
16. Lizenzen für Open Data?
Mehr Rechte vorbehalten
• BY: Attribuion
– Namensnennung
• SA: Sharealike
– Weitergabe unter
gleichen Bedingungen
• ND: No derivatives
– Keine Veränderungen
• NC: Non-commercial
– Kein kommerzieller Einsatz
Weniger Rechte vorbehalten
20. Open Data Commons
• Creative Commons ist ausgelegt auf „kreative“
Werke.
• Für Daten nicht optimal, da die Übertragung der
Lizenzen auf Daten unter Umständen Probleme
mit sich bringt.
• Open Data Commons orientiert sich an Creative
Commons und ist für Daten besser geeignet:
– ODC-BY: Attribution
– ODC-ODbL: Attribution-Share-Alike
21. No rights reserved: CC0 und
PDDL
• Eigentlich keine Lizenzen, sondern sogenannte
Waiver: Der Urheber erklärt öffentlich, von
seinen Urheberrechten keinen Gebrauch zu
machen.
• Ziel ist es, abhängig vom Rechtsraum zu
erreichen, dass ein Werk faktisch „Public
Domain“, also Allgemeingut wird.
• Denn z.B. in Deutschland kann das
Urheberrecht weder aufgegeben, noch
veräußert werden.
22. Warum nicht erst mal Non-
Commercial?
• Jede Einschränkung der Rechte an Daten
erschwert oder verhindert Interoperabilität:
– Non-commercial: Rechtliche Grauzone, Daten
können nicht mit offenen Daten kombiniert werden.
– No-derivatives: Daten können nicht angereichert,
sondern faktisch nur noch angezeigt werden.
• Beide Einschränkungen führen gemäß der Open
Bibliographic Data Definition zu nicht offenen
Daten!
23. Warum ist selbst CC-BY
nicht genug?
• Die Namensnennung ist gut gemeint, aber bei
einer Nutzung von Daten, Anreicherung,
Wiederveröffentlichung usw. ist die vollständige
Nennung aller Urheber technisch schwierig bis
hin zu nahezu unmöglich.
• Beispiel: Ergebnis einer Datenbankabfrage aus
einer Datenbank, die auf verschiedenen Quellen
basiert. Wie identifiziert man, was genau woher
kam?
24. Zusammenfassung
für Bibliotheksdaten
Public Domain!
(CC0 oder PDDL)
Denn nur Public Domain sichert die rechtliche
Interoperabilität der Daten.
25. Warum also Open
Bibliographic Data?
• Open Access auch für Bibliotheksdaten, die mit
Steuermitteln erstellt werden.
• Höhere Sichtbarkeit und Zugänglichkeit, wenn
die Daten in Systemen außerhalb der
Bibliothekswelt zum Einsatz kommen können.
• Rechtliche Kompatibilität für verteilte Daten.
• Gibt es ein Geschäftsmodell der Bibliotheken für
Daten? Wenn ja, ist es durch Open Data
gefährdet? Oder gibt es gar neue Chancen?
26. Die Zukunft von
Bibliotheksdaten
• Ein möglichst stark vernetzter Knoten in der
LOD-Cloud (Backbone des Semantic Web).
• Nicht mehr an eine Art oder einen Ort der
Präsentation gebunden.
• Nicht mehr an einen alleinigen Zweck
gebunden.
• Im Web auffindbar.
27. Jetz NEU!
wen t mit n
iger o
Tech ch
nik!
Linked Data
33. Wir generieren Aussagen aus Daten
Ich bin ein Leopard-Drückerfisch.
Ich gehöre zu den Drückerfischen.
34. Wir generieren Aussagen aus Daten
Ich bin ein Leopard-Drückerfisch.
Ich gehöre zu den Drückerfischen.
Ich bin 50 cm lang.
35. Wir generieren Aussagen aus Daten
http://example.org/species/90020 http://example.org/common_name „Clown Triggerfish“.
Ich gehöre zu den Drückerfischen.
Ich bin 50 cm lang.
36. Wir generieren Aussagen aus Daten
http://example.org/species/90020 http://example.org/common_name „Clown Triggerfish“.
Ich gehöre zu den Drückerfischen.
http://example.org/species/90020 http://example.org/length_cm 50.
59. Die Schönheit von URIs
Aussagen über Ressourcen können
unabhängig von den Ressourcen selbst getätigt
werden:
http://doi.acm.org/10.1145/1298406.1298426
http://purl.org/dc/elements/1.1/creator
Verschiedene Orte!
Verschiedene Besitzer!
http://kaiec.org/me
doi:10.1145/1298406.1298426 dc:creator http://kaiec.org/me
60. Die Eindeutigkeit von URIs
Eine URI beschreibt eindeutig und (hoffentlich) dauerhaft eine
ganz bestimmte Ressource.
http://kaiec.org/me
Aber: Eine Ressource kann durch verschiedene URIs
beschrieben werden
urn:4321-12345
http://gnd.dnb.de/data/person/12345
http://ki.informatik.uni-
mannheim.de/people/kai_eckert.html/#it
…
Keine Eineindeutigkeit!
61. Ist das ein Problem?
Die Äquivalenz von URIs lässt sich jederzeit
und von jedem als RDF Statement ausdrücken:
urn:4321-12345 owl:sameAs ↵
http://gnd.dnb.de/data/12345
Dadurch lassen sich insbesondere auch
Prädikate (Vokabular) gleichsetzen.
So lassen sich transparent Datenbestände mit
anderen Datenbeständen verknüpfen.
→ Linked Data
63. Exkurs: Verschiedene Schemata
http://...
Lediglich eine registrierte Domain notwendig, um Eindeutigkeit zu
sichern.
Möglichkeit, URIs mit beliebigen Inhalten zu dereferenzieren (RDF!)
PURL
Dienst von OCLC mit dem Vorteil, dass URIs dereferenzierbar bleiben,
selbst wenn man die eigene Domain wieder aufgibt.
URN
Eingeschränkt dereferenzierbar über Resolver-Dienste
Aufwändige Registrierung über IANA
info:
Nicht dereferenzierbar, aber leichter zu registrieren als URN
Namespaces.
65. Projekte
• International: LCSH der Library of Congress, LIBRIS der schwedischen
Nationalbibliothek (beide 2008).
• DNB: Gemeinsame Normdatei als Linked Data (März 2010)
• HBZ, BSZ: Open Data für Katalogdaten. (März 2010)
• UB Mannheim: Verknüpfungen zwischen HeBIS und SWB, Linked Data Aufbereitung.
(Juli 2010)
• lobid.org (September 2010):
– Titeldaten als Linked Open Data
– Identifikatoren für Organisationen
• CultureGraph: Zentrale Identifier und Verknüpfung von Datensätzen.
• GESIS: Thesaurus für Sozialwissenschaften
• ZBW: Standardthesaurus Wirtschaft
• Europeana (Open Data als Voraussetzung, RDF-basiertes Datenmodell)
• …
66. 10 Jahre Semantic Web
Tim Berners- Tim Berners- Linked Data LIBRIS, HBZ, DNB,
Lee’s Artikel in Lee publiziert Tutorial LCSH.info UB
Scientific Prinzipien für (Bizer et al.) Mannheim,
American zum Linked Data …
Semantic Web
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
LOD LoC W3C DINI
Cloud, LCSH LLD AG
Linking (Offiziell) XG KIM
Open
Data
Projekt
67. 5 Jahre Linked Data
Tim Berners- Tim Berners- Linked Data LIBRIS, HBZ, DNB,
Lee’s Artikel in Lee publiziert Tutorial LCSH.info UB
Scientific Prinzipien für (Bizer et al.) Mannheim,
American zum Linked Data …
Semantic Web
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
LOD LoC W3C DINI
Cloud, LCSH LLD AG
Linking (Offiziell) XG KIM
Open
Data
Projekt
68. 3 Jahre Linked Data in
Bibliotheken
Tim Berners- Tim Berners- Linked Data LIBRIS, HBZ, DNB,
Lee’s Artikel in Lee publiziert Tutorial LCSH.info UB
Scientific Prinzipien für (Bizer et al.) Mannheim,
American zum Linked Data …
Semantic Web
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
LOD LoC W3C DINI
Cloud, LCSH LLD AG
Linking (Offiziell) XG KIM
Open
Data
Projekt
69. 1 Jahr Linked Data in
Deutschland
Tim Berners- Tim Berners- Linked Data LIBRIS, HBZ, DNB,
Lee’s Artikel in Lee publiziert Tutorial LCSH.info UB
Scientific Prinzipien für (Bizer et al.) Mannheim,
American zum Linked Data …
Semantic Web
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
LOD LoC W3C DINI
Cloud, LCSH LLD AG
Linking (Offiziell) XG KIM
Open
Data
Projekt
71. Exkurs: Referenzen zu URIs
URI Schemes
http://www.iana.org/assignments/uri-schemes.html
Info URIs (info:<NID>/<NSS>)
http://info-
uri.info/registry/OAIHandler?verb=ListRecords&metadataPrefix=oai_dc
info:lc
− http://info-
uri.info/registry/OAIHandler?verb=GetRecord&metadataPrefix=reg&i
dentifier=info:lc/
Uniform Resource Names (urn:<NID>:<NSS>)
http://www.iana.org/assignments/urn-namespaces/
72. Credits und Lizenz
Silo-Foto von Robert Linder, linder6580 (sxc.hu)
Piratenflagge von Roger Kirby, theswedish (sxc.hu)
Folien zu Open Data basieren auf einem Vortrag von
Adrian Pohl:
http://www.slideshare.net/acka47/linked-open-data-in-der-
bibliothekswelt
Folien zu Creative Commons basieren auf einer
Vorlesung von Catharina Maracke.
Diese Präsentation steht unter der Creative-
Commons-Attribution-Share-Alike Lizenz:
http://creativecommons.org/licenses/by-sa/3.0