SemSci2017 - Detailed Provenance Capture of Data Processing

Detailed
Provenance Capture
of Data Processing
Ben De Meester, Anastasia Dimou,
Ruben Verborgh, and Erik Mannens
Ghent University – imec – IDLab, Belgium

Outline
Linked Data Generation
Problem
Solution
Results

Linked Data comes from
data
Unstructured data
Semi-structured data
Structured data
…

Linked Data comes from
processed data
Unstructured data Parse
Semi-structured data Extract
Structured data Add schema annotations
… …

Going from data to linked data
Data
Schema transformations
Data transformations
Linked Data

Linked Data generation =
schema + data transformations
dbr:
Barney_G
umble

dbr:
Barney_G
umble
dbo:birthDate
dbp:voiceactor
dbp:gender
dbp:name
…

dbr:
Hawaii
dbr:
Barney_G
umble
dbo:birthDate
dbp:voiceactor
dbp:gender
dbp:name
“1954-4-20"
dbr:
Dan_Caste
llaneta
“Male”
“Barney Gumble”@en
… …

Problem: there’s always a drunk Barney
Data
Schema processing
Data processing
Linked Data

Knowing where the data
comes from is as important as
the data itself
Oh Yeah?

dbr:
Hawaii
dbr:
Barney_G
umble
dbo:birthDate
dbp:voiceactor
dbp:gender
dbp:name
“1954-4-20"
dbr:
Dan_Caste
llaneta
“Male”
“Barney Gumble”@en
… …
Linked Data re-generation?
Provenance of those transformations

How it’s done for data processing
Provenance log:
Person A used Software B, on System C

Problem: how to reproduce?
Provenance log:
Person A used Software B, on System C
Software B offline?
System C not booting?

What do we need?
Fine-grained provenance
for schema transformations
for data transformations
Independent of the implementation

How can we tell where the
data comes from, without
depending on the system?

Outline
Problem: Data Processing Provenance
Solution
Results

What do we want?
Term-level,
implementation-independent provenance

What do we want?
Term-level,
Generated automatically

What do we want?
Term-level,
Generated automatically
Declarative generation process

Steps
Align schema and data transformations
in a declarative document
Generate provenance based on
declarative schema transformations
Generate provenance based on
declarative data transformations

Declarative generation process?
Align schema and data transformations in a declarative
document

Declarative generation process? Solved!
document
RML + FnO

Declarative generation process? Solved!
document
RML + FnO for DBpedia EF
Declarative data transformations for Linked Data generation: the case of DBpedia
De Meester, B., Maroy, W., Dimou, A., Verborgh, R., and Mannens, E.
Sustainable Linked Data Generation: The Case of DBpedia
Maroy, W., Dimou, A., Kontokostas, D., De Meester, B., Verborgh, R., Lehmann, J., Mannens, E. and Hellmann, S.

Schema transformations provenance?
Generate provenance based on declarative mapping
document

Schema transformations provenance?
Solved!
Generate provenance based on declarative mapping
document
RML + PROV
Automated metadata generation for Linked Data generation and publishing workflows
Dimou, A., De Nies, T., Verborgh, R., Mannens, E., and Van de Walle, R.

Data transformations provenance?
Generate provenance based on declarative data
transformations

Data transformations provenance?

Outline
Problem: Data Processing Provenance
Solution
Declarative generation
FnO and PROV
Results

FnO: Function
expects
output
inputString
predicate
outputString
predicate
DBpedia_
date_parser
fno:Function

FnO: Execution
DBpedia_
date_parser
Function
“April 20th 1954”
parseExecution
fno:Execution
“1954-04-20”
outputString
executesinputString

FnO: General Execution
Function
Data Transformation Output
Input

Aligning FnO and PROV
Output
prov:Entity
Tool
prov:Agent
wasGeneratedBy
Data Transformation
prov:Activity
Function
prov:Entity
used
Input
prov:Entity
used wasAssociatedWith
wasAttributedTo

Uncool thing:
It’s big
When including provenance generation,
for every processed term,
you add 10 triples

Cool thing #1:
System details complementary
Output
prov:Entity
Tool
prov:Agent
wasGeneratedBy
Data Transformation
prov:Activity
Function
prov:Entity
used
Input
prov:Entity
wasAttributedTo

Cool thing #2:
Aligning with RML complementary
wasInformedBy
Output
prov:Entity
Tool
prov:Agent
wasGeneratedBy
Data Transformation
prov:Activity
Function
prov:Entity
used
Input
prov:Entity
Schema
Transformation
prov:Activity
wasAttributedTo

Cool thing #3:
It actually works
RMLMapper
https://github.com/RMLio/RML-Mapper
FunctionProcessor
https://github.com/FnOio/function-processor-java
DBpedia Extraction Sample
https://fno.io/prov/dbpedia/

How can we find a drunk Barney?
Query for long-lasting processes
Query all outputs of a certain function/tool
Query all input-output pairs

What to do with a drunk Barney?
Performance evaluation
Qualitative comparison
Iterative improvement
(only changing what is needed!)

SemSci2017 - Detailed Provenance Capture of Data Processing

Recommandé

Recommandé

Contenu connexe

Plus de Ben De Meester

Plus de Ben De Meester (6)

Dernier

Dernier (20)

SemSci2017 - Detailed Provenance Capture of Data Processing

Notes de l'éditeur