Measuring Completeness as Metadata Quality Metric in Europeana (CAS 2018)
Data element constraints for DDB (DDB 2021)
1. Data element rules
for metadata records of the
Deutsche Digitale Bibliothek
A conceptual plan, presented at the Workshop zur Entwicklung eines
Qualitätsbewertungsverfahren für Metadaten, 2021-06-23
Péter Király (pkiraly@gwdg.de)
Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG)
2. Identifikator für den Datensatz 1.1 Im gelieferten Datensatz muss ein ID für den Datensatz
vorhanden sein.
Identifikator für den Datengeber 1.2 Der ID für den Datensatz muss eindeutig sein.
Vorschaubild 1.3 In Datensätzen, die mehrere hierarchische Ebenen abbilden,
müssen die Beschreibungseinheiten der einzelnen Teile eines
Objektes über einen eindeutigen Identifikator innerhalb des
Datensatzes verfügen.
Link zum Digitalen Objekt 1.4 Der Identifikator für den Datensatz muss unveränderlich sein und
darf sich auch insbesondere dann nicht ändern, wenn aktualisierte
Datenbestände an die DDB geliefert werden.
Rechtsstatus für das Digitale Objekt 1.5 Der ID für den Datensatz ist maschinell gut zu verarbeiten.
Objekttitel
...
3. section ID description score on
positive
test
score on
negative
test
Identifikator für den Datensatz 1.1 Im gelieferten Datensatz muss ein ID für
den Datensatz vorhanden sein. 0 -9
Identifikator für den Datengeber 1.2 Der ID für den Datensatz muss eindeutig
sein.
+2 -6
Vorschaubild 1.3 In Datensätzen, die mehrere hierarchische
Ebenen abbilden, müssen die
Beschreibungseinheiten der einzelnen
Teile eines Objektes über einen
eindeutigen Identifikator innerhalb des
Datensatzes verfügen.
0 -2
Link zum Digitalen Objekt 1.4 Der Identifikator für den Datensatz muss
unveränderlich sein und darf sich auch
insbesondere dann nicht ändern, wenn
aktualisierte Datenbestände an die DDB
geliefert werden.
0 -1
4. The vocabulary (based on SHACL)
Cardinality: minCount <number>, maxCount <number>
Value range: minExclusive <number>, minInclusive <number>,
maxExclusive <number>, maxInclusive <number>
String constraints: minLength <number>, maxLength <number>,
pattern <regular expression>
Data element comparisions: equals <field label>, disjoint <field label>,
lessThan <field label>, lessThanOrEquals <field label>
Logical operators: and [<rule1>, ..., <ruleN>], or [<rule1>, ..., <ruleN>],
not [<rule1>, ..., <ruleN>]
6. run the analysis
java -cp metadata-qa-ddb.jar de.gwdg.metadataqa.ddb.App
--input UB_W-rzburg_Bilder.xml
--schema ddb-dc-schema.yaml
--output result.json
a file containing the records to
analyse
the schema file with the formal rules and other information
the result of the analysis
7. result as machine readable output (JSON)
"recordId:pattern:1.5":{
"type":"PASSED",
"score":4
},
"providerid:and:providerid:minCount:providerid:minLength:2.1":{
"type":"FAILED",
"score":-6
},
"description:pattern:3.2":{
"type":"NA",
"score":null
},
"ruleCatalog:score":{
"type":"FAILED",
"score":-6
}
the
data
element
simplified rule description
rule ID
a success score has been defined, so calculated
a failure score has been defined, so calculated
a success score has been defined, so calculated
the overall score
8. Identifikator für den Datensatz 1.1 Im gelieferten Datensatz muss ein ID für den Datensatz
vorhanden sein.
0
Identifikator für den Datengeber 1.2 Der ID für den Datensatz muss eindeutig sein. +4
Vorschaubild 1.3 In Datensätzen, die mehrere hierarchische Ebenen abbilden,
müssen die Beschreibungseinheiten der einzelnen Teile eines
Objektes über einen eindeutigen Identifikator innerhalb des
Datensatzes verfügen.
+2
Link zum Digitalen Objekt 1.4 Der Identifikator für den Datensatz muss unveränderlich sein
und darf sich auch insbesondere dann nicht ändern, wenn
aktualisierte Datenbestände an die DDB geliefert werden.
0
Rechtsstatus für das Digitale
Objekt
1.5 Der ID für den Datensatz ist maschinell gut zu verarbeiten. -6
Objekttitel
...