SlideShare une entreprise Scribd logo
1  sur  27
Télécharger pour lire hors ligne
Abgleich von Titeldaten zur Übernahme von
  Sacherschließungsinformationen über
             Verbundgrenzen

              Prof. Magnus Pfeffer
         Hochschule der Medien, Stuttgart
          pfeffer@hdm-stuttgart.de
Überblick
   Ausgangslage
   Ansatz
   Erste Projektphase
   Zweite Projektphase
   Ausblick




 2. August 2012     GfKl 2012 Hildesheim - LIS Workshop   2
Ausgangslage




2. August 2012   GfKl 2012 Hildesheim - LIS Workshop   3
Anlass
   Retroklassifikation Freihandbestand UB Mannheim
       Seit 2001
       5 große Bibliotheksbereiche statt 11 kleine
        Bereichsbibliotheken
       RVK als einheitliche Klassifikation
       Wunsch nach mehr Fremddaten
            2004: Weniger als 50% der Titel mit RVK




 2. August 2012            GfKl 2012 Hildesheim - LIS Workshop   4
Inkonsistente Erschließung
   Aus einem deutschen Verbundkatalog
       Herzfeld, Hans: Der erste Weltkrieg
            18 Titelsätze
            davon 11 mit RSWK, 8 mit RVK
       Friedell, Egon: Kulturgeschichte der Neuzeit
            31 Titelsätze
            davon 21 mit RSWK, 17 mit RVK
       Tanenbaum, Andrew S.: Computer Networks
            44 Titelsätze
            davon 19 Deutsch, 15 Englisch, 1 Chinesisch
            davon 38 mit RSWK, 31 mit RVK


 2. August 2012            GfKl 2012 Hildesheim - LIS Workshop   5
Inkonsistente Erschließung
   Tanenbaum, Andrew S.: Computer Networks
       RVK Notationen
           ST 200: 31 Titel
                 Informatik-Monografien-Vernetzung, verteilte Systeme-Allgemeines,
                  Netzmanagement
           ST 205: 3 Titel
                 Informatik-Monografien-Vernetzung, verteilte Systeme-Internet
                  allgemein
           QH 500: 2 Titel
                 Wirtschaftswissenschaften-Mathematik. Statistik. Ökonometrie.
                  Unternehmensforschung-Wirtschaftsinformatik. Datenverarbeitung
           MS 7965: 1 Titel
                 Soziologie-Spezielle Soziologien-Soziologie der
                  Massenkommunikation und öffentlichen Meinung, Mediensoziologie-
                  Internet, neue Medien

 2. August 2012                 GfKl 2012 Hildesheim - LIS Workshop                6
Ansatz




2. August 2012   GfKl 2012 Hildesheim - LIS Workshop   7
Grundidee
   Übernahme von RSWK und RVK aus
       Vor- und Folgeauflagen
       Parallelausgaben
       Übersetzungen


   Annahmen
       Titelgleichheit über Auflagen und Ausgaben
       Mindestens ein Autor/Herausgeber bleibt bei
        Neuauflage



 2. August 2012         GfKl 2012 Hildesheim - LIS Workshop   8
Grobes Matching
   Ausgangsdaten: MAB2
                                                           Match bei
       Nur monografische Titel                  identischem (Einheitsach-)Titel
                                                  UND einer Übereinstimmung
   Vergleich auf Basis von                         bei Person/Körperschaft
       Einheitssachtitel
            Feld 304_
       Titel und Untertitel
            Felder 331_, 335_
       Autoren und Urheber
            Felder 100_, 104a, 108a, 200_, 204a, 208a
       beteiligte Personen und Körperschaften
            Felder 100b, 104b, 108b, 200b, 204b, 208b

 2. August 2012            GfKl 2012 Hildesheim - LIS Workshop                9
Konsolidierung der Erschließung
    Clustering
         Basis: Matching-Ergebnisse
         Ergebnis: Inhaltlich konsistente Cluster
               „Werksebene“


    Verarbeitung innerhalb der Cluster
         Sammeln der Erschließungsinformationen
         Verteilen auf alle Elemente des Clusters




    2. August 2012             GfKl 2012 Hildesheim - LIS Workshop   10
Erste Projektphase




2. August 2012   GfKl 2012 Hildesheim - LIS Workshop   11
Projektzeitraum: 2010-2011
    Ausgangsdaten: Verbunddatenbanken
         Katalog des Südwestdeutschen Bibliotheksverbundes
          (SWB)
               12.777.191 Monografien
               3.979.796 (31,1%) mit RSWK-Schlagwörtern
               3.235.958 (25,3%) mit RVK-Notationen


         Katalog des Hessischen Bibliotheks- und
          Informationssystems (HeBIS)
               8.844.188 Monografien
               2.237.659 (25,3%) mit RSWK-Schlagwörtern
               1.933.081 (21,8%) mit RVK-Notationen

    2. August 2012           GfKl 2012 Hildesheim - LIS Workshop   12
Umsetzung
   Algorithmus
       Berechne für alle Titel
            Wenn Feld 304_ vorhanden
                  
                      Suche Titel mit identischem Feld 304_
                     Vergleiche Autoren, Urheber und beteiligte
                       
                           MATCH, wenn eine Übereinstimmung vorhanden
            Sonst (nur Feld 331_ und 335_ vorhanden)
                  
                      Suche Titel mit identischen Feldern 331_ und 335_
                     Vergleiche Autoren, Urheber und beteiligte
                       
                           MATCH, wenn eine Übereinstimmung vorhanden

   Technische Umsetzung
       Perl / Linux
       Indexstrukturen im Hauptspeicher (>4GB)

 2. August 2012                     GfKl 2012 Hildesheim - LIS Workshop   13
Ergebnisse: SWB
   5.809.349 Titel mit mindestens einem Match
       Davon
            3.269.340 ohne RSWK
            3.627.017 ohne RVK
       Anreicherung durch Übernahme möglich bei
            636.462 mit RSWK
            959.419 mit RVK




 2. August 2012          GfKl 2012 Hildesheim - LIS Workshop   14
Ergebnisse: Hebis
   4.535.618 Titel mit mindestens einem Match
       Davon
            3.068.968 ohne RSWK
            3.071.022 ohne RVK
       Anreicherung durch Übernahme möglich bei
            1.179.133 mit RSWK
            992.046 mit RVK




 2. August 2012          GfKl 2012 Hildesheim - LIS Workshop   15
Bereitstellung der Ergebnisse
   Daten zum Download
       Textformat, bz2-Archiv
       Titel-ID und gefundene Matches
   Linked Open Data
       RDF-Tripel der Form ID-equalsForClassification-ID
       http://data.bib.uni-mannheim.de
   Daten an die Verbundzentralen
       Titel und gefundene SWD-IDs und RVK-Notationen




 2. August 2012        GfKl 2012 Hildesheim - LIS Workshop   16
Evaluation
   Online im Linked-Data Web
       Verbünde erlaubten Titeldarstellung
       Matches untereinander verlinkt
       Wer: Externe Interessierte
   Testdatenbanken der Verbünde
       Einspielung der gelieferten Daten in Auszügen
       Stichproben und Recherchen möglich
       Wer: Sacherschließer und interessierte Verbundnutzer


→ Hohe Qualität der Ergebnisse bestätigt

 2. August 2012        GfKl 2012 Hildesheim - LIS Workshop   17
Nutzung
   Beispiel RVK UB Mannheim
       Bibliotheksbereich A5, Sozialwissenschaften
       63.300 Titel zu bearbeiten
       44.991 Titel mit RVK-Notationen im SWB
       45.610 Titel mit Übernahme aus SWB und Hebis
       48.454 Titel mit Übernahme aus SWB, Hebis, BVB
            (Nur experimentell; Suchen der Titel über den BVB-
             Verbundkatalog)




 2. August 2012            GfKl 2012 Hildesheim - LIS Workshop    18
Zweite Projektphase




2. August 2012    GfKl 2012 Hildesheim - LIS Workshop   19
Projektzeitraum: 2012
    Aggregation möglichst vieler Fremddaten
    Daten
         SWB
              Katalog des Südwestdeutschen Bibliotheksverbundes
         Hebis
              Katalog des Hessischen Bibliotheks- und Informationssystems
         HBZ
              Katalog des Hochschulbibliothekszentrum des Landes Nordrhein-
               Westfalen
         B3Kat
              Gemeinsamer Verbundkatalog von Bibliotheksverbund Bayern
               und dem Kooperativen Bibliotheksverbund Berlin-Brandenburg


    2. August 2012            GfKl 2012 Hildesheim - LIS Workshop        20
Ergebnisse

    Katalog Monografien      Anteil         Anteil            Zuwachs          Zuwachs
                             RVK            RSWK              RVK              RSWK

    SWB           13.330.743 4.217.226         4.083.113            581.780       957.275


    Hebis          8.844.188 1.933.081        2.237.659            1.097.992    1.308.581


    HBZ           13.271.840 1.018.298        3.322.100            2.272.558    1.080.162


    B3Kat         22.685.738 5.750.295        6.055.164            2.969.381    2.765.967


                                           Update 21.09.2012:
                                        Korrekte Zahlen für B3Kat
                                       (vorher: Copy-Paste Fehler
                                          mit Zahlen von Hebis)

 2. August 2012              GfKl 2012 Hildesheim - LIS Workshop                            21
Ausblick




2. August 2012   GfKl 2012 Hildesheim - LIS Workshop   22
Mehr...
    Mehr Titeldaten
         Gemeinsamer Bibliotheksverbund (GBV)
         Deutsche Nationalbibliothek (DNB)
         Schweizer und Österreichische Katalogdaten
         Open Data aus anderen (Verbund-)Katalogen


    Mehr Klassifikationssysteme
         LCC
         LCSH
         DDC / UDC

    2. August 2012      GfKl 2012 Hildesheim - LIS Workshop   23
… und nachhaltiger
    Probleme
         Eigenentwicklung ist weder wartbar noch portabel
         Datenmengen wachsen rapide
               >100 Mio. Titeldatensätze als Open Data verfügbar
         Vielzahl von Statistiken / Clusteringmethoden für
          unterschiedlichste Anwendungen


     → Aufbau einer offenen Infrastruktur für die Analyse
     von Metadaten




    2. August 2012            GfKl 2012 Hildesheim - LIS Workshop   24
Culturegraph.org
    Initiative von DNB und HBZ
         Ziel: Zusammenführen von bibliografischen
          Informationen, die als Linked Open Data zur Verfügung
          stehen
    Open Source Infrastruktur
         Parametrisierbare Metadatenverarbeitung
         Erweiterbar (Java)
         Skalierbar (Hadoop)
         http://sourceforge.net/projects/culturegraph/




    2. August 2012        GfKl 2012 Hildesheim - LIS Workshop   25
Weitere Anwendungen
    Konkordanzen zwischen Erschließungssystemen
    Analyse der Nutzung von Erschließungssystemen
         Statistiken
         Doppelstellen / Unscharfe Klassentrennung
    Verknüpfungen und Anreicherungen
         Explizite Beziehungen zwischen Titeln
         Nicht-bibliografische Ontologien
               z.B. Ortsnamen


     → Ihre Ideen sind gefragt!

    2. August 2012           GfKl 2012 Hildesheim - LIS Workshop   26
Danke für Ihre Aufmerksamkeit!



                                Folien online unter
                     http://www.slideshare.net/MagnusPfeffer/



                                     Dieses Werk bzw. Inhalt steht unter einer
             Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.




2. August 2012                        GfKl 2012 Hildesheim - LIS Workshop                                  27

Contenu connexe

Tendances

Resource Discovery - Sacherschließung am Ende?
Resource Discovery - Sacherschließung am Ende?Resource Discovery - Sacherschließung am Ende?
Resource Discovery - Sacherschließung am Ende?Magnus Pfeffer
 
Repositorieninhalte als Linked Data bereitstellen
Repositorieninhalte als Linked Data bereitstellenRepositorieninhalte als Linked Data bereitstellen
Repositorieninhalte als Linked Data bereitstellenPascal-Nicolas Becker
 
SWIB 2010: Linked Open Projects
SWIB 2010: Linked Open ProjectsSWIB 2010: Linked Open Projects
SWIB 2010: Linked Open ProjectsKai Eckert
 
Anforderungen an Thesauri im Semantic Web
Anforderungen an Thesauri im Semantic WebAnforderungen an Thesauri im Semantic Web
Anforderungen an Thesauri im Semantic WebJoachim Neubert
 
Schlanke Discovery-Lösung auf Basis von TYPO3. Der neue Bibliothekskatalog de...
Schlanke Discovery-Lösung auf Basis von TYPO3. Der neue Bibliothekskatalog de...Schlanke Discovery-Lösung auf Basis von TYPO3. Der neue Bibliothekskatalog de...
Schlanke Discovery-Lösung auf Basis von TYPO3. Der neue Bibliothekskatalog de...Felix Lohmeier
 
Semantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischSemantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischkostaedt
 
Freie Katalogdaten und Linked Data
Freie Katalogdaten und Linked DataFreie Katalogdaten und Linked Data
Freie Katalogdaten und Linked DataAdrian Pohl
 
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...Felix Lohmeier
 
Linked Open Projects
Linked Open ProjectsLinked Open Projects
Linked Open ProjectsKai Eckert
 
Dynamische Kataloganreicherung auf Basis von Linked Open Data
Dynamische Kataloganreicherung auf Basis von Linked Open DataDynamische Kataloganreicherung auf Basis von Linked Open Data
Dynamische Kataloganreicherung auf Basis von Linked Open Datah_jansen
 
Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserv...
Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserv...Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserv...
Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserv...Jakob .
 
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Felix Lohmeier
 

Tendances (14)

Resource Discovery - Sacherschließung am Ende?
Resource Discovery - Sacherschließung am Ende?Resource Discovery - Sacherschließung am Ende?
Resource Discovery - Sacherschließung am Ende?
 
Repositorieninhalte als Linked Data bereitstellen
Repositorieninhalte als Linked Data bereitstellenRepositorieninhalte als Linked Data bereitstellen
Repositorieninhalte als Linked Data bereitstellen
 
SWIB 2010: Linked Open Projects
SWIB 2010: Linked Open ProjectsSWIB 2010: Linked Open Projects
SWIB 2010: Linked Open Projects
 
Anforderungen an Thesauri im Semantic Web
Anforderungen an Thesauri im Semantic WebAnforderungen an Thesauri im Semantic Web
Anforderungen an Thesauri im Semantic Web
 
Schlanke Discovery-Lösung auf Basis von TYPO3. Der neue Bibliothekskatalog de...
Schlanke Discovery-Lösung auf Basis von TYPO3. Der neue Bibliothekskatalog de...Schlanke Discovery-Lösung auf Basis von TYPO3. Der neue Bibliothekskatalog de...
Schlanke Discovery-Lösung auf Basis von TYPO3. Der neue Bibliothekskatalog de...
 
Bam Vortrag Fh Lb
Bam Vortrag Fh LbBam Vortrag Fh Lb
Bam Vortrag Fh Lb
 
Semantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischSemantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktisch
 
SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...
SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...
SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...
 
Freie Katalogdaten und Linked Data
Freie Katalogdaten und Linked DataFreie Katalogdaten und Linked Data
Freie Katalogdaten und Linked Data
 
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...
 
Linked Open Projects
Linked Open ProjectsLinked Open Projects
Linked Open Projects
 
Dynamische Kataloganreicherung auf Basis von Linked Open Data
Dynamische Kataloganreicherung auf Basis von Linked Open DataDynamische Kataloganreicherung auf Basis von Linked Open Data
Dynamische Kataloganreicherung auf Basis von Linked Open Data
 
Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserv...
Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserv...Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserv...
Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserv...
 
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
 

Similaire à Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen über Verbundgrenzen

Goobi für alle(s).
Goobi für alle(s).Goobi für alle(s).
Goobi für alle(s).goobi_org
 
Bibliotheken und Linked Open Data Extended
Bibliotheken und Linked Open Data ExtendedBibliotheken und Linked Open Data Extended
Bibliotheken und Linked Open Data ExtendedMagnus Pfeffer
 
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...GESIS
 
Judaica link und der FID Jüdische Studien
Judaica link und der FID Jüdische StudienJudaica link und der FID Jüdische Studien
Judaica link und der FID Jüdische StudienKai Eckert
 
Linked Open Data
Linked Open DataLinked Open Data
Linked Open Datakostaedt
 
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenAMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenBjörn Muschall
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenLydiaU
 
Kataloganreicherung a la lod
Kataloganreicherung a la lodKataloganreicherung a la lod
Kataloganreicherung a la loddr0i
 
Integration der gemeinsamen Normdatei in DSpace auf Basis von lobid
Integration der gemeinsamen Normdatei in DSpace auf Basis von lobidIntegration der gemeinsamen Normdatei in DSpace auf Basis von lobid
Integration der gemeinsamen Normdatei in DSpace auf Basis von lobidPascal-Nicolas Becker
 
Wirtschaftlichkeit von Open Access-Lösungen. Das mandantenfähige Repository Q...
Wirtschaftlichkeit von Open Access-Lösungen. Das mandantenfähige Repository Q...Wirtschaftlichkeit von Open Access-Lösungen. Das mandantenfähige Repository Q...
Wirtschaftlichkeit von Open Access-Lösungen. Das mandantenfähige Repository Q...Dr. Achim Bonte
 

Similaire à Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen über Verbundgrenzen (13)

Goobi für alle(s).
Goobi für alle(s).Goobi für alle(s).
Goobi für alle(s).
 
Bibliotheken und Linked Open Data Extended
Bibliotheken und Linked Open Data ExtendedBibliotheken und Linked Open Data Extended
Bibliotheken und Linked Open Data Extended
 
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...
 
Judaica link und der FID Jüdische Studien
Judaica link und der FID Jüdische StudienJudaica link und der FID Jüdische Studien
Judaica link und der FID Jüdische Studien
 
Linked Open Data
Linked Open DataLinked Open Data
Linked Open Data
 
Research Papers in Economics: RePEc - ein fachliches Repository?
Research Papers in Economics: RePEc - ein fachliches Repository?Research Papers in Economics: RePEc - ein fachliches Repository?
Research Papers in Economics: RePEc - ein fachliches Repository?
 
Scholze gbv 5-9-12_final
Scholze gbv 5-9-12_finalScholze gbv 5-9-12_final
Scholze gbv 5-9-12_final
 
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenAMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
 
Kataloganreicherung a la lod
Kataloganreicherung a la lodKataloganreicherung a la lod
Kataloganreicherung a la lod
 
Integration der gemeinsamen Normdatei in DSpace auf Basis von lobid
Integration der gemeinsamen Normdatei in DSpace auf Basis von lobidIntegration der gemeinsamen Normdatei in DSpace auf Basis von lobid
Integration der gemeinsamen Normdatei in DSpace auf Basis von lobid
 
Wirtschaftlichkeit von Open Access-Lösungen. Das mandantenfähige Repository Q...
Wirtschaftlichkeit von Open Access-Lösungen. Das mandantenfähige Repository Q...Wirtschaftlichkeit von Open Access-Lösungen. Das mandantenfähige Repository Q...
Wirtschaftlichkeit von Open Access-Lösungen. Das mandantenfähige Repository Q...
 
Publikationsverhalten in den Wirtschaftswissenschaften, von Ralf Toepfer
Publikationsverhalten in den Wirtschaftswissenschaften, von Ralf ToepferPublikationsverhalten in den Wirtschaftswissenschaften, von Ralf Toepfer
Publikationsverhalten in den Wirtschaftswissenschaften, von Ralf Toepfer
 

Plus de Magnus Pfeffer

Metadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
Metadata Provenance Tutorial Part 2: Interoperable Metadata ProvenanceMetadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
Metadata Provenance Tutorial Part 2: Interoperable Metadata ProvenanceMagnus Pfeffer
 
Automatic creation of mappings between classification systems for bibliograph...
Automatic creation of mappings between classification systems for bibliograph...Automatic creation of mappings between classification systems for bibliograph...
Automatic creation of mappings between classification systems for bibliograph...Magnus Pfeffer
 
Automatic creation of mappings between classification systems
Automatic creation of mappings between classification systemsAutomatic creation of mappings between classification systems
Automatic creation of mappings between classification systemsMagnus Pfeffer
 
Automatisches Generieren von Konkordanzen
Automatisches Generieren von KonkordanzenAutomatisches Generieren von Konkordanzen
Automatisches Generieren von KonkordanzenMagnus Pfeffer
 
Bibliotheken und Linked Open Data Reduced
Bibliotheken und Linked Open Data ReducedBibliotheken und Linked Open Data Reduced
Bibliotheken und Linked Open Data ReducedMagnus Pfeffer
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open DataMagnus Pfeffer
 
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...Magnus Pfeffer
 
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzenAusleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzenMagnus Pfeffer
 
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...Magnus Pfeffer
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open DataMagnus Pfeffer
 
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...Magnus Pfeffer
 

Plus de Magnus Pfeffer (11)

Metadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
Metadata Provenance Tutorial Part 2: Interoperable Metadata ProvenanceMetadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
Metadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
 
Automatic creation of mappings between classification systems for bibliograph...
Automatic creation of mappings between classification systems for bibliograph...Automatic creation of mappings between classification systems for bibliograph...
Automatic creation of mappings between classification systems for bibliograph...
 
Automatic creation of mappings between classification systems
Automatic creation of mappings between classification systemsAutomatic creation of mappings between classification systems
Automatic creation of mappings between classification systems
 
Automatisches Generieren von Konkordanzen
Automatisches Generieren von KonkordanzenAutomatisches Generieren von Konkordanzen
Automatisches Generieren von Konkordanzen
 
Bibliotheken und Linked Open Data Reduced
Bibliotheken und Linked Open Data ReducedBibliotheken und Linked Open Data Reduced
Bibliotheken und Linked Open Data Reduced
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open Data
 
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...
 
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzenAusleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
 
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open Data
 
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
 

Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen über Verbundgrenzen

  • 1. Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen über Verbundgrenzen Prof. Magnus Pfeffer Hochschule der Medien, Stuttgart pfeffer@hdm-stuttgart.de
  • 2. Überblick  Ausgangslage  Ansatz  Erste Projektphase  Zweite Projektphase  Ausblick 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 2
  • 3. Ausgangslage 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 3
  • 4. Anlass  Retroklassifikation Freihandbestand UB Mannheim  Seit 2001  5 große Bibliotheksbereiche statt 11 kleine Bereichsbibliotheken  RVK als einheitliche Klassifikation  Wunsch nach mehr Fremddaten  2004: Weniger als 50% der Titel mit RVK 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 4
  • 5. Inkonsistente Erschließung  Aus einem deutschen Verbundkatalog  Herzfeld, Hans: Der erste Weltkrieg  18 Titelsätze  davon 11 mit RSWK, 8 mit RVK  Friedell, Egon: Kulturgeschichte der Neuzeit  31 Titelsätze  davon 21 mit RSWK, 17 mit RVK  Tanenbaum, Andrew S.: Computer Networks  44 Titelsätze  davon 19 Deutsch, 15 Englisch, 1 Chinesisch  davon 38 mit RSWK, 31 mit RVK 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 5
  • 6. Inkonsistente Erschließung  Tanenbaum, Andrew S.: Computer Networks  RVK Notationen  ST 200: 31 Titel  Informatik-Monografien-Vernetzung, verteilte Systeme-Allgemeines, Netzmanagement  ST 205: 3 Titel  Informatik-Monografien-Vernetzung, verteilte Systeme-Internet allgemein  QH 500: 2 Titel  Wirtschaftswissenschaften-Mathematik. Statistik. Ökonometrie. Unternehmensforschung-Wirtschaftsinformatik. Datenverarbeitung  MS 7965: 1 Titel  Soziologie-Spezielle Soziologien-Soziologie der Massenkommunikation und öffentlichen Meinung, Mediensoziologie- Internet, neue Medien 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 6
  • 7. Ansatz 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 7
  • 8. Grundidee  Übernahme von RSWK und RVK aus  Vor- und Folgeauflagen  Parallelausgaben  Übersetzungen  Annahmen  Titelgleichheit über Auflagen und Ausgaben  Mindestens ein Autor/Herausgeber bleibt bei Neuauflage 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 8
  • 9. Grobes Matching  Ausgangsdaten: MAB2 Match bei  Nur monografische Titel identischem (Einheitsach-)Titel UND einer Übereinstimmung  Vergleich auf Basis von bei Person/Körperschaft  Einheitssachtitel  Feld 304_  Titel und Untertitel  Felder 331_, 335_  Autoren und Urheber  Felder 100_, 104a, 108a, 200_, 204a, 208a  beteiligte Personen und Körperschaften  Felder 100b, 104b, 108b, 200b, 204b, 208b 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 9
  • 10. Konsolidierung der Erschließung  Clustering  Basis: Matching-Ergebnisse  Ergebnis: Inhaltlich konsistente Cluster  „Werksebene“  Verarbeitung innerhalb der Cluster  Sammeln der Erschließungsinformationen  Verteilen auf alle Elemente des Clusters 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 10
  • 11. Erste Projektphase 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 11
  • 12. Projektzeitraum: 2010-2011  Ausgangsdaten: Verbunddatenbanken  Katalog des Südwestdeutschen Bibliotheksverbundes (SWB)  12.777.191 Monografien  3.979.796 (31,1%) mit RSWK-Schlagwörtern  3.235.958 (25,3%) mit RVK-Notationen  Katalog des Hessischen Bibliotheks- und Informationssystems (HeBIS)  8.844.188 Monografien  2.237.659 (25,3%) mit RSWK-Schlagwörtern  1.933.081 (21,8%) mit RVK-Notationen 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 12
  • 13. Umsetzung  Algorithmus  Berechne für alle Titel  Wenn Feld 304_ vorhanden  Suche Titel mit identischem Feld 304_  Vergleiche Autoren, Urheber und beteiligte  MATCH, wenn eine Übereinstimmung vorhanden  Sonst (nur Feld 331_ und 335_ vorhanden)  Suche Titel mit identischen Feldern 331_ und 335_  Vergleiche Autoren, Urheber und beteiligte  MATCH, wenn eine Übereinstimmung vorhanden  Technische Umsetzung  Perl / Linux  Indexstrukturen im Hauptspeicher (>4GB) 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 13
  • 14. Ergebnisse: SWB  5.809.349 Titel mit mindestens einem Match  Davon  3.269.340 ohne RSWK  3.627.017 ohne RVK  Anreicherung durch Übernahme möglich bei  636.462 mit RSWK  959.419 mit RVK 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 14
  • 15. Ergebnisse: Hebis  4.535.618 Titel mit mindestens einem Match  Davon  3.068.968 ohne RSWK  3.071.022 ohne RVK  Anreicherung durch Übernahme möglich bei  1.179.133 mit RSWK  992.046 mit RVK 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 15
  • 16. Bereitstellung der Ergebnisse  Daten zum Download  Textformat, bz2-Archiv  Titel-ID und gefundene Matches  Linked Open Data  RDF-Tripel der Form ID-equalsForClassification-ID  http://data.bib.uni-mannheim.de  Daten an die Verbundzentralen  Titel und gefundene SWD-IDs und RVK-Notationen 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 16
  • 17. Evaluation  Online im Linked-Data Web  Verbünde erlaubten Titeldarstellung  Matches untereinander verlinkt  Wer: Externe Interessierte  Testdatenbanken der Verbünde  Einspielung der gelieferten Daten in Auszügen  Stichproben und Recherchen möglich  Wer: Sacherschließer und interessierte Verbundnutzer → Hohe Qualität der Ergebnisse bestätigt 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 17
  • 18. Nutzung  Beispiel RVK UB Mannheim  Bibliotheksbereich A5, Sozialwissenschaften  63.300 Titel zu bearbeiten  44.991 Titel mit RVK-Notationen im SWB  45.610 Titel mit Übernahme aus SWB und Hebis  48.454 Titel mit Übernahme aus SWB, Hebis, BVB  (Nur experimentell; Suchen der Titel über den BVB- Verbundkatalog) 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 18
  • 19. Zweite Projektphase 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 19
  • 20. Projektzeitraum: 2012  Aggregation möglichst vieler Fremddaten  Daten  SWB  Katalog des Südwestdeutschen Bibliotheksverbundes  Hebis  Katalog des Hessischen Bibliotheks- und Informationssystems  HBZ  Katalog des Hochschulbibliothekszentrum des Landes Nordrhein- Westfalen  B3Kat  Gemeinsamer Verbundkatalog von Bibliotheksverbund Bayern und dem Kooperativen Bibliotheksverbund Berlin-Brandenburg 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 20
  • 21. Ergebnisse Katalog Monografien Anteil Anteil Zuwachs Zuwachs RVK RSWK RVK RSWK SWB 13.330.743 4.217.226 4.083.113 581.780 957.275 Hebis 8.844.188 1.933.081 2.237.659 1.097.992 1.308.581 HBZ 13.271.840 1.018.298 3.322.100 2.272.558 1.080.162 B3Kat 22.685.738 5.750.295 6.055.164 2.969.381 2.765.967 Update 21.09.2012: Korrekte Zahlen für B3Kat (vorher: Copy-Paste Fehler mit Zahlen von Hebis) 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 21
  • 22. Ausblick 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 22
  • 23. Mehr...  Mehr Titeldaten  Gemeinsamer Bibliotheksverbund (GBV)  Deutsche Nationalbibliothek (DNB)  Schweizer und Österreichische Katalogdaten  Open Data aus anderen (Verbund-)Katalogen  Mehr Klassifikationssysteme  LCC  LCSH  DDC / UDC 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 23
  • 24. … und nachhaltiger  Probleme  Eigenentwicklung ist weder wartbar noch portabel  Datenmengen wachsen rapide  >100 Mio. Titeldatensätze als Open Data verfügbar  Vielzahl von Statistiken / Clusteringmethoden für unterschiedlichste Anwendungen → Aufbau einer offenen Infrastruktur für die Analyse von Metadaten 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 24
  • 25. Culturegraph.org  Initiative von DNB und HBZ  Ziel: Zusammenführen von bibliografischen Informationen, die als Linked Open Data zur Verfügung stehen  Open Source Infrastruktur  Parametrisierbare Metadatenverarbeitung  Erweiterbar (Java)  Skalierbar (Hadoop)  http://sourceforge.net/projects/culturegraph/ 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 25
  • 26. Weitere Anwendungen  Konkordanzen zwischen Erschließungssystemen  Analyse der Nutzung von Erschließungssystemen  Statistiken  Doppelstellen / Unscharfe Klassentrennung  Verknüpfungen und Anreicherungen  Explizite Beziehungen zwischen Titeln  Nicht-bibliografische Ontologien  z.B. Ortsnamen → Ihre Ideen sind gefragt! 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 26
  • 27. Danke für Ihre Aufmerksamkeit! Folien online unter http://www.slideshare.net/MagnusPfeffer/ Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz. 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 27