Verbundübergreifende Datenkonsolidierung und wie man damit große Bestände effizient retroklassifiziert.
Vortrag vom 22. Mai 2012 auf dem 101. Bibliothekartag in Hamburg.
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Jetzt kommt zusammen, was zusammen gehört
1. Jetzt kommt zusammen,
was zusammen gehört
Verbundübergreifende Datenkonsolidierung und wie
man damit große Bestände effizient retroklassifiziert
Prof. Magnus Pfeffer
Hochschule der Medien, Stuttgart
pfeffer@hdm-stuttgart.de
2. Überblick
Ausgangslage
Konsolidierung von Erschließungsdaten
Softwaregestützte Retroklassifikation
Ausblick
22. Mai 2012 101. Bibliothekartag, Hamburg 2
4. Anlass
Retroklassifikation Freihandbestand UB Mannheim
Seit 2001
5 große Bibliotheksbereiche statt 11 kleine
Bereichsbibliotheken
RVK als einheitliche Klassifikation
Wunsch nach mehr Fremddaten
2004: Weniger als 50% der Titel mit RVK
22. Mai 2012 101. Bibliothekartag, Hamburg 4
5. Inkonsistente Erschließung
Herzfeld, Hans: Der erste Weltkrieg
18 Titelsätze im BVB
davon 11 mit RSWK, 8 mit RVK
Friedell, Egon: Kulturgeschichte der Neuzeit
31 Titelsätze im BVB
davon 21 mit SWD, 17 mit RVK
Tanenbaum, Andrew S.: Computer Networks
44 Titelsätze im BVB
davon 19 Deutsch, 15 Englisch, 1 Chinesisch
davon 38 mit RSWK, 31 mit RVK
22. Mai 2012 101. Bibliothekartag, Hamburg 5
6. Inkonsistente Erschließung
Tanenbaum, Andrew S.: Computer Networks
RVK Notationen
ST 200: 31 Titel
Informatik-Monografien-Vernetzung, verteilte Systeme-Allgemeines,
Netzmanagement
ST 205: 3 Titel
Informatik-Monografien-Vernetzung, verteilte Systeme-Internet
allgemein
QH 500: 2 Titel
Wirtschaftswissenschaften-Mathematik. Statistik. Ökonometrie.
Unternehmensforschung-Wirtschaftsinformatik. Datenverarbeitung
MS 7965: 1 Titel
Soziologie-Spezielle Soziologien-Soziologie der
Massenkommunikation und öffentlichen Meinung, Mediensoziologie-
Internet, neue Medien
22. Mai 2012 101. Bibliothekartag, Hamburg 6
8. Projekt 2010-2011
Grundidee: Übernahme von SWD und RVK aus
Vorauflagen
Parallelausgaben
Übersetzungen
Ausgangsdaten
Verbunddatenbank Südwestverbund und Hebis
MAB2 Format
22. Mai 2012 101. Bibliothekartag, Hamburg 8
9. Umsetzung
Vergleich auf Basis von
Übernahme bei
Einheitssachtitel identischem (Einheitsach-)Titel
UND einer Übereinstimmung
Feld 304_
bei Person/Körperschaft
Titel und Untertitel
Felder 331_, 335_
Autoren und Urheber
Felder 100_, 104a, 108a, 200_, 204a, 208a
beteiligte Personen und Körperschaften
Felder 100b, 104b, 108b, 200b, 204b, 208b
22. Mai 2012 101. Bibliothekartag, Hamburg 9
10. Umsetzung
Algorithmus
Berechne für alle Titel
Wenn Feld 304_ vorhanden
Suche Titel mit identischem Feld 304_
Vergleiche Autoren, Urheber und beteiligte
MATCH, wenn eine Übereinstimmung vorhanden
Sonst (nur Feld 331_ und 335_ vorhanden)
Suche Titel mit identischen Feldern 331_ und 335_
Vergleiche Autoren, Urheber und beteiligte
MATCH, wenn eine Übereinstimmung vorhanden
Technische Umsetzung
Perl unter Linux
Indexstrukturen im Hauptspeicher (>4GB)
22. Mai 2012 101. Bibliothekartag, Hamburg 10
11. Ergebnisse: SWB
5.809.349 Titel mit mindestens einem Match
Davon
3.269.340 ohne SWD
3.627.017 ohne RVK
Anreicherung durch Übernahme möglich bei
636.462 mit SWD
959.419 mit RVK
22. Mai 2012 101. Bibliothekartag, Hamburg 11
12. Ergebnisse: Hebis
4.535.618 Titel mit mindestens einem Match
Davon
3.068.968 ohne SWD
3.071.022 ohne RVK
Anreicherung durch Übernahme möglich bei
1.179.133 mit SWD
992.046 mit RVK
22. Mai 2012 101. Bibliothekartag, Hamburg 12
13. Nachnutzung
Daten zum Download
Textformat, bz2-Archiv
Titel-ID und gefundene Matches
Linked Open Data
RDF-Tripel der Form ID-equalsForClassification-ID
http://data.bib.uni-mannheim.de
Daten an die Verbundzentralen
Titel und gefundene SWD-IDs und RVK-Notationen
22. Mai 2012 101. Bibliothekartag, Hamburg 13
14. Prüfung
Online im Linked-Data Web
Verbünde erlaubten Titeldarstellung
Matches untereinander verlinkt
Wer: Externe Interessierte
Testdatenbanken der Verbünde
Einspielung der gelieferten Daten in Auszügen
Stichproben und Recherchen möglich
Wer: Sacherschließer und interessierte Verbundnutzer
→ Hohe Qualität der Ergebnisse bestätigt
22. Mai 2012 101. Bibliothekartag, Hamburg 14
15. Mehr Quellen – mehr Daten?
Beispiel Schlagwörter im SWB
451.677 angereicherte Titel bei Daten nur aus SWB
636.462 bei SWB plus Hebis
22. Mai 2012 101. Bibliothekartag, Hamburg 15
16. Mehr Quellen – mehr Daten?
Beispiel RVK UB Mannheim
Bibliotheksbereich A5, Sozialwissenschaften
63.300 Titel zu bearbeiten
44.991 Titel mit RVK-Notationen im SWB
45.610 Titel mit Übernahme aus SWB und Hebis
48.454 Titel mit Übernahme aus SWB, Hebis, BVB
(Nur experimentell; Suchen der Titel über den BVB-
Verbundkatalog)
22. Mai 2012 101. Bibliothekartag, Hamburg 16
19. Software-Tool
Umsetzung
Datenkonsolidierung wie beschrieben
Einschränken der Metadaten auf relevante Felder
Eigene, lokale Datenbank
Schneller Zugriff
Optimiert auf eine Anwendung
Programmiersprache Java
Alle Elemente für die GUI vorhanden
Plattformunabhängig
Einfache Installation des Programms
22. Mai 2012 101. Bibliothekartag, Hamburg 19
26. Links zu externen Quellen
Dynamische Links
Suche in Katalogen und
anderen Quellen
Anpassbar
22. Mai 2012 101. Bibliothekartag, Hamburg 26
27. Praktischer Einsatz
Referent 1
Bestand etwa 57.000 Titel
123 Sitzungen an 56 Tagen über 8 Monate
176 Stunden, Durchschnitt 324 Titel pro Stunde
Referent 2
Bestand etwa 12.500 Titel
28 Sitzungen an 21 Tagen über 6 Monate
29 Stunden, Durchschnitt 430 Titel pro Stunde
22. Mai 2012 101. Bibliothekartag, Hamburg 27
31. Stand Datenkonsolidierung
SWB und Hebis
Projekt abgeschlossen
Ergebnisse wurden in Produktivdatenbank eingespielt
HBZ und BVB
Verbundabzüge vorhanden
Aktuell: Datenaufbereitung und Abgleich
Datenlieferung voraussichtlich Juli oder August
Ergänzungslieferung an SWB und Hebis geplant
22. Mai 2012 101. Bibliothekartag, Hamburg 31