Automatisches Generieren von Konkordanzen

Automatisches Generieren von
Konkordanzen

Prof. Magnus Pfeffer
Hochschule der Medien, Stuttgart
pfeffer@hdm-stuttgart.de

Überblick
 Grundidee
 Optimierung durch Clustering
 Projekt: Konkordanz RVK ↔ DDC

13. März 2013 5. Kongress Bibliothek und Information

Grundidee


Instanzbasierter Vergleich
 Datenbasis:
Mehrfach erschlossene Einträge in Katalogen


 Annahmen
 Inhaltlich überlappende Klassen treten zusammen auf
 Häufigkeit des Auftretens ist ein Indiz für die Stärke des
Zusammenhangs

 Aufbereitung
 Extraktion aller Paare aus zwei Erschließungssystemen
 Aufsummieren der vorkommenden Paare


Beispiel


Beispiel
 Titel 1  Paare
 DDC: 179.9  179.9 / CC 7200
 RVK: CC 7200  179.9 / CC 7250
 RVK: CC 7250  179.9 / CC 7200
 Titel 2
 DDC: 179.9
 RVK: CC 7200


 Auswertung
 am Beispiel zweier Klassifikationen A und B
 Zwei Klassen treten ausschließlich als Paar auf
 1:1 Zuordnung = exakte Übereinstimmung
 Klasse aus A hat immer denselben Partner aus B, der
hat aber auch andere Partner aus A
 N:1 Zuordnung = Klasse aus A ist engeres Konzept
 Klasse aus A tritt mit mehreren Partnern auf
 1:N Zuordnung = Klasse aus A ist weiter gefasstes Konzept
 Aber: Klasse tritt nicht auf
 Keine Folgerung möglich


Beispiel
 Auswertung für DDC
 2 mal 179.9 / CC 7200
 1 mal 179.9 / CC 7250

 Ergebnis
 179.9 narrowMatch CC 7200
 179.9 narrowMatch CC 7250


Beispiel
 Auswertung für RVK
 2 mal CC 7200 / 179.9
 1 mal CC 7250 / 179.9

 Ergebnis
 CC 7200 broadMatch 179.9
 CC 7250 broadMatch 179.9


Optimierung durch Clustering


Titeldaten sind anders
 Mehrere Auflagen

 Mehrere Ausgaben


Titeldaten
 Mehrere Ausgaben und Auflagen verfälschen die
Statistik
 Paare werden mehrfach erfasst
 Keine Vergleichbarkeit der absoluten Häufigkeiten

 Lösung: Auswertung der Cluster anstelle der
einzelnen Titel
 Häufigkeiten werden direkt vergleichbar
 „Stärke“ der Korrelationen können ermittelt werden
 „Ausreißer“ können sicher erkannt und entfernt werden


Projekt:
Konkordanz RVK ↔ DDC


Datenbasis
 Alle deutschen Verbundkataloge
 SWB
 BVB
 GBV
 HeBIS
 HBZ
 DNB


Umsetzung
 Metafactory
 Aufbereiten von MAB2 und MARC21 Daten
 Clustering auf Werksebene
 Keygenerierung für Matching-Prozess
 Matching und Clusterbildung (transitive Hülle)
 Sammeln der Erschließungsinformationen im Cluster
 Statistik
 Auszählen des gemeinsamen Auftretens von Klassen
 Ausgabe
 Mappings einzelner Klassen
 Beide Richtungen


Offene Fragen
 Enthalten die Titeldaten nach dem Clustering
genügend auswertbare Erschließungen?

 Macht es Sinn, einen globalen Cut-Off zu verwenden,
um Ausreißer zu verwerfen?
 Oder ist es besser, jede Klasse gesondert
auszuwerten?

 Wie kann eine effiziente Qualitätssicherung betrieben
werden?


Danke für Ihre Aufmerksamkeit!

Folien online unter
http://www.slideshare.net/MagnusPfeffer/

Dieses Werk bzw. Inhalt steht unter einer
Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.


Automatisches Generieren von Konkordanzen

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Plus de Magnus Pfeffer

Plus de Magnus Pfeffer (19)

Automatisches Generieren von Konkordanzen