SlideShare une entreprise Scribd logo
1  sur  8
Data element rules
for metadata records of the
Deutsche Digitale Bibliothek
A conceptual plan, presented at the Workshop zur Entwicklung eines
Qualitätsbewertungsverfahren für Metadaten, 2021-06-23
Péter Király (pkiraly@gwdg.de)
Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG)
Identifikator für den Datensatz 1.1 Im gelieferten Datensatz muss ein ID für den Datensatz
vorhanden sein.
Identifikator für den Datengeber 1.2 Der ID für den Datensatz muss eindeutig sein.
Vorschaubild 1.3 In Datensätzen, die mehrere hierarchische Ebenen abbilden,
müssen die Beschreibungseinheiten der einzelnen Teile eines
Objektes über einen eindeutigen Identifikator innerhalb des
Datensatzes verfügen.
Link zum Digitalen Objekt 1.4 Der Identifikator für den Datensatz muss unveränderlich sein und
darf sich auch insbesondere dann nicht ändern, wenn aktualisierte
Datenbestände an die DDB geliefert werden.
Rechtsstatus für das Digitale Objekt 1.5 Der ID für den Datensatz ist maschinell gut zu verarbeiten.
Objekttitel
...
section ID description score on
positive
test
score on
negative
test
Identifikator für den Datensatz 1.1 Im gelieferten Datensatz muss ein ID für
den Datensatz vorhanden sein. 0 -9
Identifikator für den Datengeber 1.2 Der ID für den Datensatz muss eindeutig
sein.
+2 -6
Vorschaubild 1.3 In Datensätzen, die mehrere hierarchische
Ebenen abbilden, müssen die
Beschreibungseinheiten der einzelnen
Teile eines Objektes über einen
eindeutigen Identifikator innerhalb des
Datensatzes verfügen.
0 -2
Link zum Digitalen Objekt 1.4 Der Identifikator für den Datensatz muss
unveränderlich sein und darf sich auch
insbesondere dann nicht ändern, wenn
aktualisierte Datenbestände an die DDB
geliefert werden.
0 -1
The vocabulary (based on SHACL)
Cardinality: minCount <number>, maxCount <number>
Value range: minExclusive <number>, minInclusive <number>,
maxExclusive <number>, maxInclusive <number>
String constraints: minLength <number>, maxLength <number>,
pattern <regular expression>
Data element comparisions: equals <field label>, disjoint <field label>,
lessThan <field label>, lessThanOrEquals <field label>
Logical operators: and [<rule1>, ..., <ruleN>], or [<rule1>, ..., <ruleN>],
not [<rule1>, ..., <ruleN>]
formal definition of rules
rules:
- and:
- minCount: 1
- minLength: 1
failureScore: -9
id: 1.1
- unique: true
failureScore: -9
id: 1.2
- pattern: ^[p{Alpha}d.]+$
successScore: 3
id: 1.5
run the analysis
java -cp metadata-qa-ddb.jar de.gwdg.metadataqa.ddb.App 
--input UB_W-rzburg_Bilder.xml 
--schema ddb-dc-schema.yaml 
--output result.json
a file containing the records to
analyse
the schema file with the formal rules and other information
the result of the analysis
result as machine readable output (JSON)
"recordId:pattern:1.5":{
"type":"PASSED",
"score":4
},
"providerid:and:providerid:minCount:providerid:minLength:2.1":{
"type":"FAILED",
"score":-6
},
"description:pattern:3.2":{
"type":"NA",
"score":null
},
"ruleCatalog:score":{
"type":"FAILED",
"score":-6
}
the
data
element
simplified rule description
rule ID
a success score has been defined, so calculated
a failure score has been defined, so calculated
a success score has been defined, so calculated
the overall score
Identifikator für den Datensatz 1.1 Im gelieferten Datensatz muss ein ID für den Datensatz
vorhanden sein.
0
Identifikator für den Datengeber 1.2 Der ID für den Datensatz muss eindeutig sein. +4
Vorschaubild 1.3 In Datensätzen, die mehrere hierarchische Ebenen abbilden,
müssen die Beschreibungseinheiten der einzelnen Teile eines
Objektes über einen eindeutigen Identifikator innerhalb des
Datensatzes verfügen.
+2
Link zum Digitalen Objekt 1.4 Der Identifikator für den Datensatz muss unveränderlich sein
und darf sich auch insbesondere dann nicht ändern, wenn
aktualisierte Datenbestände an die DDB geliefert werden.
0
Rechtsstatus für das Digitale
Objekt
1.5 Der ID für den Datensatz ist maschinell gut zu verarbeiten. -6
Objekttitel
...

Contenu connexe

Plus de Péter Király

Requirements of DARIAH community for a Dataverse repository (SSHOC 2020)
Requirements of DARIAH community for a Dataverse repository (SSHOC 2020)Requirements of DARIAH community for a Dataverse repository (SSHOC 2020)
Requirements of DARIAH community for a Dataverse repository (SSHOC 2020)Péter Király
 
Validating 126 million MARC records (DATeCH 2019)
Validating 126 million MARC records (DATeCH 2019)Validating 126 million MARC records (DATeCH 2019)
Validating 126 million MARC records (DATeCH 2019)Péter Király
 
Measuring Metadata Quality (doctoral defense 2019)
Measuring Metadata Quality (doctoral defense 2019)Measuring Metadata Quality (doctoral defense 2019)
Measuring Metadata Quality (doctoral defense 2019)Péter Király
 
Empirical evaluation of library catalogues (SWIB 2019)
Empirical evaluation of library catalogues (SWIB 2019)Empirical evaluation of library catalogues (SWIB 2019)
Empirical evaluation of library catalogues (SWIB 2019)Péter Király
 
GRO.data - Dataverse in Göttingen (Dataverse Europe 2020)
GRO.data - Dataverse in Göttingen (Dataverse Europe 2020)GRO.data - Dataverse in Göttingen (Dataverse Europe 2020)
GRO.data - Dataverse in Göttingen (Dataverse Europe 2020)Péter Király
 
Incubating Göttingen Cultural Analytics Alliance (SUB 2021)
Incubating Göttingen Cultural Analytics Alliance (SUB 2021)Incubating Göttingen Cultural Analytics Alliance (SUB 2021)
Incubating Göttingen Cultural Analytics Alliance (SUB 2021)Péter Király
 
Continuous quality assessment for MARC21 catalogues (MINI ELAG 2021)
Continuous quality assessment for MARC21 catalogues (MINI ELAG 2021)Continuous quality assessment for MARC21 catalogues (MINI ELAG 2021)
Continuous quality assessment for MARC21 catalogues (MINI ELAG 2021)Péter Király
 
Introduction to data quality management (BVB KVB FDM-KompetenzPool, 2021)
Introduction to data quality management (BVB KVB FDM-KompetenzPool, 2021)Introduction to data quality management (BVB KVB FDM-KompetenzPool, 2021)
Introduction to data quality management (BVB KVB FDM-KompetenzPool, 2021)Péter Király
 
Magyar irodalom idegen nyelven (BTK ITI 2021)
Magyar irodalom idegen nyelven (BTK ITI 2021)Magyar irodalom idegen nyelven (BTK ITI 2021)
Magyar irodalom idegen nyelven (BTK ITI 2021)Péter Király
 
Validating JSON, XML and CSV data with SHACL-like constraints (DINI-KIM 2022)
Validating JSON, XML and CSV data with SHACL-like constraints (DINI-KIM 2022)Validating JSON, XML and CSV data with SHACL-like constraints (DINI-KIM 2022)
Validating JSON, XML and CSV data with SHACL-like constraints (DINI-KIM 2022)Péter Király
 
FRBR a book history perspective (Bibliodata WG 2022)
FRBR a book history perspective (Bibliodata WG 2022)FRBR a book history perspective (Bibliodata WG 2022)
FRBR a book history perspective (Bibliodata WG 2022)Péter Király
 
GRO.data - Dataverse in Göttingen (Magdeburg Coffee Lecture, 2022)
GRO.data - Dataverse in Göttingen (Magdeburg Coffee Lecture, 2022)GRO.data - Dataverse in Göttingen (Magdeburg Coffee Lecture, 2022)
GRO.data - Dataverse in Göttingen (Magdeburg Coffee Lecture, 2022)Péter Király
 
Understanding, extracting and enhancing catalogue data (CE Book history works...
Understanding, extracting and enhancing catalogue data (CE Book history works...Understanding, extracting and enhancing catalogue data (CE Book history works...
Understanding, extracting and enhancing catalogue data (CE Book history works...Péter Király
 
Measuring cultural heritage metadata quality (Semantics 2017)
Measuring cultural heritage metadata quality (Semantics 2017)Measuring cultural heritage metadata quality (Semantics 2017)
Measuring cultural heritage metadata quality (Semantics 2017)Péter Király
 
Measuring Metadata Quality in Europeana (ADOCHS 2017)
Measuring Metadata Quality in Europeana (ADOCHS 2017)Measuring Metadata Quality in Europeana (ADOCHS 2017)
Measuring Metadata Quality in Europeana (ADOCHS 2017)Péter Király
 
Measuring library catalogs (ADOCHS 2017)
Measuring library catalogs (ADOCHS 2017)Measuring library catalogs (ADOCHS 2017)
Measuring library catalogs (ADOCHS 2017)Péter Király
 
Evaluating Data Quality in Europeana: Metrics for Multilinguality (MTSR 2018)
Evaluating Data Quality in Europeana: Metrics for Multilinguality (MTSR 2018)Evaluating Data Quality in Europeana: Metrics for Multilinguality (MTSR 2018)
Evaluating Data Quality in Europeana: Metrics for Multilinguality (MTSR 2018)Péter Király
 
Researching metadata quality (ORKG 2018)
Researching metadata quality (ORKG 2018)Researching metadata quality (ORKG 2018)
Researching metadata quality (ORKG 2018)Péter Király
 
Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)
Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)
Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)Péter Király
 
Measuring Completeness as Metadata Quality Metric in Europeana (CAS 2018)
Measuring Completeness as Metadata Quality Metric in Europeana (CAS 2018)Measuring Completeness as Metadata Quality Metric in Europeana (CAS 2018)
Measuring Completeness as Metadata Quality Metric in Europeana (CAS 2018)Péter Király
 

Plus de Péter Király (20)

Requirements of DARIAH community for a Dataverse repository (SSHOC 2020)
Requirements of DARIAH community for a Dataverse repository (SSHOC 2020)Requirements of DARIAH community for a Dataverse repository (SSHOC 2020)
Requirements of DARIAH community for a Dataverse repository (SSHOC 2020)
 
Validating 126 million MARC records (DATeCH 2019)
Validating 126 million MARC records (DATeCH 2019)Validating 126 million MARC records (DATeCH 2019)
Validating 126 million MARC records (DATeCH 2019)
 
Measuring Metadata Quality (doctoral defense 2019)
Measuring Metadata Quality (doctoral defense 2019)Measuring Metadata Quality (doctoral defense 2019)
Measuring Metadata Quality (doctoral defense 2019)
 
Empirical evaluation of library catalogues (SWIB 2019)
Empirical evaluation of library catalogues (SWIB 2019)Empirical evaluation of library catalogues (SWIB 2019)
Empirical evaluation of library catalogues (SWIB 2019)
 
GRO.data - Dataverse in Göttingen (Dataverse Europe 2020)
GRO.data - Dataverse in Göttingen (Dataverse Europe 2020)GRO.data - Dataverse in Göttingen (Dataverse Europe 2020)
GRO.data - Dataverse in Göttingen (Dataverse Europe 2020)
 
Incubating Göttingen Cultural Analytics Alliance (SUB 2021)
Incubating Göttingen Cultural Analytics Alliance (SUB 2021)Incubating Göttingen Cultural Analytics Alliance (SUB 2021)
Incubating Göttingen Cultural Analytics Alliance (SUB 2021)
 
Continuous quality assessment for MARC21 catalogues (MINI ELAG 2021)
Continuous quality assessment for MARC21 catalogues (MINI ELAG 2021)Continuous quality assessment for MARC21 catalogues (MINI ELAG 2021)
Continuous quality assessment for MARC21 catalogues (MINI ELAG 2021)
 
Introduction to data quality management (BVB KVB FDM-KompetenzPool, 2021)
Introduction to data quality management (BVB KVB FDM-KompetenzPool, 2021)Introduction to data quality management (BVB KVB FDM-KompetenzPool, 2021)
Introduction to data quality management (BVB KVB FDM-KompetenzPool, 2021)
 
Magyar irodalom idegen nyelven (BTK ITI 2021)
Magyar irodalom idegen nyelven (BTK ITI 2021)Magyar irodalom idegen nyelven (BTK ITI 2021)
Magyar irodalom idegen nyelven (BTK ITI 2021)
 
Validating JSON, XML and CSV data with SHACL-like constraints (DINI-KIM 2022)
Validating JSON, XML and CSV data with SHACL-like constraints (DINI-KIM 2022)Validating JSON, XML and CSV data with SHACL-like constraints (DINI-KIM 2022)
Validating JSON, XML and CSV data with SHACL-like constraints (DINI-KIM 2022)
 
FRBR a book history perspective (Bibliodata WG 2022)
FRBR a book history perspective (Bibliodata WG 2022)FRBR a book history perspective (Bibliodata WG 2022)
FRBR a book history perspective (Bibliodata WG 2022)
 
GRO.data - Dataverse in Göttingen (Magdeburg Coffee Lecture, 2022)
GRO.data - Dataverse in Göttingen (Magdeburg Coffee Lecture, 2022)GRO.data - Dataverse in Göttingen (Magdeburg Coffee Lecture, 2022)
GRO.data - Dataverse in Göttingen (Magdeburg Coffee Lecture, 2022)
 
Understanding, extracting and enhancing catalogue data (CE Book history works...
Understanding, extracting and enhancing catalogue data (CE Book history works...Understanding, extracting and enhancing catalogue data (CE Book history works...
Understanding, extracting and enhancing catalogue data (CE Book history works...
 
Measuring cultural heritage metadata quality (Semantics 2017)
Measuring cultural heritage metadata quality (Semantics 2017)Measuring cultural heritage metadata quality (Semantics 2017)
Measuring cultural heritage metadata quality (Semantics 2017)
 
Measuring Metadata Quality in Europeana (ADOCHS 2017)
Measuring Metadata Quality in Europeana (ADOCHS 2017)Measuring Metadata Quality in Europeana (ADOCHS 2017)
Measuring Metadata Quality in Europeana (ADOCHS 2017)
 
Measuring library catalogs (ADOCHS 2017)
Measuring library catalogs (ADOCHS 2017)Measuring library catalogs (ADOCHS 2017)
Measuring library catalogs (ADOCHS 2017)
 
Evaluating Data Quality in Europeana: Metrics for Multilinguality (MTSR 2018)
Evaluating Data Quality in Europeana: Metrics for Multilinguality (MTSR 2018)Evaluating Data Quality in Europeana: Metrics for Multilinguality (MTSR 2018)
Evaluating Data Quality in Europeana: Metrics for Multilinguality (MTSR 2018)
 
Researching metadata quality (ORKG 2018)
Researching metadata quality (ORKG 2018)Researching metadata quality (ORKG 2018)
Researching metadata quality (ORKG 2018)
 
Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)
Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)
Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)
 
Measuring Completeness as Metadata Quality Metric in Europeana (CAS 2018)
Measuring Completeness as Metadata Quality Metric in Europeana (CAS 2018)Measuring Completeness as Metadata Quality Metric in Europeana (CAS 2018)
Measuring Completeness as Metadata Quality Metric in Europeana (CAS 2018)
 

Data element constraints for DDB (DDB 2021)

  • 1. Data element rules for metadata records of the Deutsche Digitale Bibliothek A conceptual plan, presented at the Workshop zur Entwicklung eines Qualitätsbewertungsverfahren für Metadaten, 2021-06-23 Péter Király (pkiraly@gwdg.de) Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG)
  • 2. Identifikator für den Datensatz 1.1 Im gelieferten Datensatz muss ein ID für den Datensatz vorhanden sein. Identifikator für den Datengeber 1.2 Der ID für den Datensatz muss eindeutig sein. Vorschaubild 1.3 In Datensätzen, die mehrere hierarchische Ebenen abbilden, müssen die Beschreibungseinheiten der einzelnen Teile eines Objektes über einen eindeutigen Identifikator innerhalb des Datensatzes verfügen. Link zum Digitalen Objekt 1.4 Der Identifikator für den Datensatz muss unveränderlich sein und darf sich auch insbesondere dann nicht ändern, wenn aktualisierte Datenbestände an die DDB geliefert werden. Rechtsstatus für das Digitale Objekt 1.5 Der ID für den Datensatz ist maschinell gut zu verarbeiten. Objekttitel ...
  • 3. section ID description score on positive test score on negative test Identifikator für den Datensatz 1.1 Im gelieferten Datensatz muss ein ID für den Datensatz vorhanden sein. 0 -9 Identifikator für den Datengeber 1.2 Der ID für den Datensatz muss eindeutig sein. +2 -6 Vorschaubild 1.3 In Datensätzen, die mehrere hierarchische Ebenen abbilden, müssen die Beschreibungseinheiten der einzelnen Teile eines Objektes über einen eindeutigen Identifikator innerhalb des Datensatzes verfügen. 0 -2 Link zum Digitalen Objekt 1.4 Der Identifikator für den Datensatz muss unveränderlich sein und darf sich auch insbesondere dann nicht ändern, wenn aktualisierte Datenbestände an die DDB geliefert werden. 0 -1
  • 4. The vocabulary (based on SHACL) Cardinality: minCount <number>, maxCount <number> Value range: minExclusive <number>, minInclusive <number>, maxExclusive <number>, maxInclusive <number> String constraints: minLength <number>, maxLength <number>, pattern <regular expression> Data element comparisions: equals <field label>, disjoint <field label>, lessThan <field label>, lessThanOrEquals <field label> Logical operators: and [<rule1>, ..., <ruleN>], or [<rule1>, ..., <ruleN>], not [<rule1>, ..., <ruleN>]
  • 5. formal definition of rules rules: - and: - minCount: 1 - minLength: 1 failureScore: -9 id: 1.1 - unique: true failureScore: -9 id: 1.2 - pattern: ^[p{Alpha}d.]+$ successScore: 3 id: 1.5
  • 6. run the analysis java -cp metadata-qa-ddb.jar de.gwdg.metadataqa.ddb.App --input UB_W-rzburg_Bilder.xml --schema ddb-dc-schema.yaml --output result.json a file containing the records to analyse the schema file with the formal rules and other information the result of the analysis
  • 7. result as machine readable output (JSON) "recordId:pattern:1.5":{ "type":"PASSED", "score":4 }, "providerid:and:providerid:minCount:providerid:minLength:2.1":{ "type":"FAILED", "score":-6 }, "description:pattern:3.2":{ "type":"NA", "score":null }, "ruleCatalog:score":{ "type":"FAILED", "score":-6 } the data element simplified rule description rule ID a success score has been defined, so calculated a failure score has been defined, so calculated a success score has been defined, so calculated the overall score
  • 8. Identifikator für den Datensatz 1.1 Im gelieferten Datensatz muss ein ID für den Datensatz vorhanden sein. 0 Identifikator für den Datengeber 1.2 Der ID für den Datensatz muss eindeutig sein. +4 Vorschaubild 1.3 In Datensätzen, die mehrere hierarchische Ebenen abbilden, müssen die Beschreibungseinheiten der einzelnen Teile eines Objektes über einen eindeutigen Identifikator innerhalb des Datensatzes verfügen. +2 Link zum Digitalen Objekt 1.4 Der Identifikator für den Datensatz muss unveränderlich sein und darf sich auch insbesondere dann nicht ändern, wenn aktualisierte Datenbestände an die DDB geliefert werden. 0 Rechtsstatus für das Digitale Objekt 1.5 Der ID für den Datensatz ist maschinell gut zu verarbeiten. -6 Objekttitel ...