Vortrag im Rahmen des Workshops "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" auf dem 5. Kongress Bibliothek und Information Deutschland vom 11. bis 14. März 2013 in Leipzig.
4. Instanzbasierter Vergleich
Datenbasis:
Mehrfach erschlossene Einträge in Katalogen
13. März 2013 5. Kongress Bibliothek und Information
5. Instanzbasierter Vergleich
Annahmen
Inhaltlich überlappende Klassen treten zusammen auf
Häufigkeit des Auftretens ist ein Indiz für die Stärke des
Zusammenhangs
Aufbereitung
Extraktion aller Paare aus zwei Erschließungssystemen
Aufsummieren der vorkommenden Paare
13. März 2013 5. Kongress Bibliothek und Information
7. Beispiel
Titel 1 Paare
DDC: 179.9 179.9 / CC 7200
RVK: CC 7200 179.9 / CC 7250
RVK: CC 7250 179.9 / CC 7200
Titel 2
DDC: 179.9
RVK: CC 7200
13. März 2013 5. Kongress Bibliothek und Information
8. Instanzbasierter Vergleich
Auswertung
am Beispiel zweier Klassifikationen A und B
Zwei Klassen treten ausschließlich als Paar auf
1:1 Zuordnung = exakte Übereinstimmung
Klasse aus A hat immer denselben Partner aus B, der
hat aber auch andere Partner aus A
N:1 Zuordnung = Klasse aus A ist engeres Konzept
Klasse aus A tritt mit mehreren Partnern auf
1:N Zuordnung = Klasse aus A ist weiter gefasstes Konzept
Aber: Klasse tritt nicht auf
Keine Folgerung möglich
13. März 2013 5. Kongress Bibliothek und Information
9. Beispiel
Auswertung für DDC
2 mal 179.9 / CC 7200
1 mal 179.9 / CC 7250
Ergebnis
179.9 narrowMatch CC 7200
179.9 narrowMatch CC 7250
13. März 2013 5. Kongress Bibliothek und Information
10. Beispiel
Auswertung für RVK
2 mal CC 7200 / 179.9
1 mal CC 7250 / 179.9
Ergebnis
CC 7200 broadMatch 179.9
CC 7250 broadMatch 179.9
13. März 2013 5. Kongress Bibliothek und Information
12. Titeldaten sind anders
Mehrere Auflagen
Mehrere Ausgaben
13. März 2013 5. Kongress Bibliothek und Information
13. Titeldaten
Mehrere Ausgaben und Auflagen verfälschen die
Statistik
Paare werden mehrfach erfasst
Keine Vergleichbarkeit der absoluten Häufigkeiten
Lösung: Auswertung der Cluster anstelle der
einzelnen Titel
Häufigkeiten werden direkt vergleichbar
„Stärke“ der Korrelationen können ermittelt werden
„Ausreißer“ können sicher erkannt und entfernt werden
13. März 2013 5. Kongress Bibliothek und Information
14. Projekt:
Konkordanz RVK ↔ DDC
13. März 2013 5. Kongress Bibliothek und Information
15. Datenbasis
Alle deutschen Verbundkataloge
SWB
BVB
GBV
HeBIS
HBZ
DNB
13. März 2013 5. Kongress Bibliothek und Information
16. Umsetzung
Metafactory
Aufbereiten von MAB2 und MARC21 Daten
Clustering auf Werksebene
Keygenerierung für Matching-Prozess
Matching und Clusterbildung (transitive Hülle)
Sammeln der Erschließungsinformationen im Cluster
Statistik
Auszählen des gemeinsamen Auftretens von Klassen
Ausgabe
Mappings einzelner Klassen
Beide Richtungen
13. März 2013 5. Kongress Bibliothek und Information
17. Offene Fragen
Enthalten die Titeldaten nach dem Clustering
genügend auswertbare Erschließungen?
Macht es Sinn, einen globalen Cut-Off zu verwenden,
um Ausreißer zu verwerfen?
Oder ist es besser, jede Klasse gesondert
auszuwerten?
Wie kann eine effiziente Qualitätssicherung betrieben
werden?
13. März 2013 5. Kongress Bibliothek und Information
18. Danke für Ihre Aufmerksamkeit!
Folien online unter
http://www.slideshare.net/MagnusPfeffer/
Dieses Werk bzw. Inhalt steht unter einer
Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.
13. März 2013 5. Kongress Bibliothek und Information