Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Dynamische Kataloganreicherung auf Basis von Linked Open Data

1 022 vues

Publié le

Vortrag auf dem 101. Deutschen Bibliothekartag, Hamburg, 24.05.2012
Heiko Jansen, Pascal Christoph
Hochschulbibliothekszentrum des Landes NRW

Publié dans : Technologie
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Dynamische Kataloganreicherung auf Basis von Linked Open Data

  1. 1. Heiko Jansen / Pascal ChristophDYNAMISCHEKATALOGANREICHERUNGAUF BASIS VON LINKED OPENDATA101. Deutscher BibliothekartagHamburg, 24.05.2012
  2. 2. Dieser Vortrag - inklusive der durch die Autoren erstellten Grafikenauf den Folien 17, 18 und 22 - steht unter einerCreative Commons Namensnennung 3.0 Deutschland Lizenzhttp://creativecommons.org/licenses/by/3.0/de/Davon ausgenommen sind die übrigen verwendeten Grafiken, Bilderund Screenshots, deren individuelle Rechte und Lizenzbedingungenfortgelten.
  3. 3. ÜBERSICHT3  Definition  Methoden  Projekt-Praxis  Technik  Matching  Verlinkung  Mögliche Weiterentwicklung  Fazit & Anwendungsbeispiel Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  4. 4. Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl. http://www.istockphoto.com/license.php) zunächst entfernt, bis wir Klarheit über die Nutzungsbedingungen haben…KATALOGANREICHERUNG?
  5. 5. DEFINITION5  Jegliche Ergänzung vorhandener Datensätze um zusätzliche Informationen  Links zum Volltext  Schlagwörter  Umschlagbilder  ...  Herkunft egal (Benutzer, Bibliotheken, Firmen...)  Neue Funktionen: nur mittelbar Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  6. 6. „INSTANT GRATIFICATION“ Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl. http://www.istockphoto.com/license.php) zunächst entfernt, bis wir Klarheit über die Nutzungsbedingungen haben…
  7. 7. Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl.http://www.istockphoto.com/license.php) zunächst entfernt, bis wirKlarheit über die Nutzungsbedingungen haben…
  8. 8. TYPISCHE8 ANREICHERUNGSMETHODEN Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012 http://findicons.com/pack/1014/ivista
  9. 9. VOR- UND NACHTEILE9 Dynamisches Mashup: Lokale DB: + Aktuell + Aufwendigere Zusammenführungen möglich + Relativ geringer Aufwand je Quelle + Daten nutzbar für Recherche und weitere Funktionen − Benötigt (performante) API − Keine Recherche über die − Hoher kontinuierlicher Aufwand für jede Quelle Daten Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  10. 10. GRUNDIDEE DES PROJEKTS10  Aggregation von LOD aus verteilten Quellen  Daten für beide Wege verfügbar machen  Lokalen Aufwand minimieren  Homogenisierte Daten zum Import  Eine API für viele Bestände Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  11. 11. INFRASTRUKTUR11 RDF-basierte Speicherung mit SPARQL Endpoint  Einfaches Hinzufügen neuer Daten  Nachnutzbar  „Selbst-beschreibender“ Dump  „API“ inbegriffen Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  12. 12. 12 Praxis
  13. 13. AUSGANGSLAGE – LOBID.ORG13  RDF Store mit SPARQL Endpoint: 4store  Open Data aus dem Verbundkatalog „hbz01“  10 M Titeldatensätze <=> 300 M Triple  Bereits bestehende Verknüpfungen des Katalogs:  58.000 zu b3kat  103.000 zur Dewey DC  192.000 zu DNB Titeldaten  702.886 zur ZDB  5.500.000 zur LOC Iso-639-2  9.600.000 zur GND Normdatei  18.000.000 zu lobid-organisation Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  14. 14. VERLINKUNGSSOFTWARE14  Silk  Culturegraph  Google Refine  TEL: „Unified Ingestion Manager“ (Service)  ...  eigene einfache Programme Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  15. 15. MATCHINGALGORITHMEN15  Abhängig von Daten  Spannende Daten liegen „woanders“ => andere Regelwerke  Beispiel DBpedia:  Autor, ISBN usw. fehlt meistens => bleibt Titel  Eingrenzungen:  deutsche DBpedia  category:Literarisches_Werk , category:Lexikon,_Enzyklopädie Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  16. 16. PROBLEME: DISAMBIGUIERUNG16  Matching zu ungenau  Postprozessierung: nur Bündel mit gleichem Autor zulassen Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  17. 17. BÜNDEL MIT GLEICHEM AUTOR17 Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  18. 18. BÜNDEL MIT VERSCHIEDENEN18 AUTOREN Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  19. 19. LOW-HANGINGKai Schreiber, „Reiche Ernte” 7. August 2005 via Flickr CC BY-SA 2.0
  20. 20. TRIPLIFIZIERUNG20  Properties finden oder selber prägen  rdrel:workManifested  => Triple: < lo b id -re so u rce > rdrel:workManifested < d b p e d ia-re so u rce > Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  21. 21. INDEXIERUNG21  Lizenzfragen klären  Triples importieren in SPARQL-Endpoint  Eigener „named Graph“ bietet Vorteile:  Leicht löschbar/veränderbar  Provenienz verfolgbar  Eingrenzung von Abfragen auf Named Graphs Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  22. 22. NAMED GRAPHS
  23. 23. WAS WURDE ERREICHT?23  12.000 „sichere“ Links zu 4.000 DBpedia Ressourcen => 4000 neue „Work“-Ebenen (von 33.000 möglichen)  Durchschnittliche Bündelgröße: 3  Links nach freebase: 3.000  1 Link zur linkedmdb  0,1 % Anreicherung Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  24. 24. WAS WURDE ERREICHT?24  5.500 Links zu 400 Project Gutenberg Ressourcen (Volltexte) => 0,05% Anreicherung  1.200.000 Links zur Work-Ebene der Open Library => 12,5% Anreicherung Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  25. 25. LOW-HANGINGKai Schreiber, „Reiche Ernte” 7. August 2005 via Flickr CC BY-SA 2.0
  26. 26. BEISPIELDBpedia:„Die Heilige Johanna der Schlachthöfe“
  27. 27. BEISPIEL31 Open Library „Der Herr der Ringe“ Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  28. 28. INTEGRATION IN KATALOGE35  Was darf übernommen werden, was nicht?  Was sollte übernommen werden, was nicht?  Menschen-lesbare Anzeige der Links/URIs  (Manche) Daten sollten lokal indexiert werden (zur Recherche)  ... Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  29. 29. WARUM LINKED OPEN DATA ?36  Richtig ist: „Warum nicht LOD?“  Gute Tools wie SILK basieren auf SPAQRL  Linked Data impliziert kontrolliertes Vokabular, Identifier, weitere Links … <= ideal!  Linked Open Data: Daten lassen sich nachnutzen/zwischenspeichern/verändern … <= ideal! Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  30. 30. HINTERGRUND37  Prefix-Auflösung: http://prefix.cc/rdrel  Blog Beitrag mit SILK Konfigurationsbeispiel https://wiki1.hbz-nrw.de/display/SEM/2012/05/03/First+results+using+SILK+to+link+to+DBpedia  49 bibliographische Datenquellen als LOD http://thedatahub.org/group/bibliographic?tags=lod Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  31. 31. 38 Weiterentwicklung
  32. 32. 39 Jewish Historical Society of the Upper Midwest; http://www.flickr.com/photos/jhsum-commons/4419490136/
  33. 33. POTENTIALE40  Mehr Datenquellen  Vokabular-Mapping  Mehr Verknüpfungen (FRBR-Werke oder coref oder ...) Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  34. 34. AUSBAUSTUFEN / A41  Sammlung von Informationen zu nicht im NRW-VK nachgewiesenen Titeln => Dienstleistung für Dritte  (Stabile) API  Abstraktionsebene für Datenhaltung und Suche  Einfacher für Anwender Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  35. 35. AUSBAUSTUFEN / B42 Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  36. 36. AUSBAUSTUFEN / C43  Sammelstelle für kollaborativen Content, z. B. Tagging?  Upload von Identifier/Tag Informationen aus verteilten Systemen  „Kritische Masse“ gemeinsam erreichbar Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  37. 37. 44 Fazit
  38. 38. 45 The Library of Congress, http://www.flickr.com/photos/library_of_congress/4037490394/
  39. 39. http://app.cheezburger.com/TemplateView.aspx?ciid=1131803
  40. 40. 50 Vielen Dank! Rückfragen jederzeit: jansen@hbz-nrw.de christoph@hbz-nrw.de +49 221 400 75 – 150 +49 221 400 75 – 139

×