Splendid: SPARQL Endpoint Federation Exploiting VOID Descriptions

Institute for Web Science and Technologies
University of Koblenz ▪ Landau, Germany

SPLENDID: SPARQL Endpoint Federation
Exploiting VOID Descriptions

Olaf Görlitz, Steffen Staab

Motivation

How to access a large number of linked data sources?

WeST Institute Olaf Görlitz
People and Knowledge Networks COLD 2011, Bonn, Germany Slide 2

Data Integration Approaches

Data Warehouse Link Traversal

 Efficient query execution  Live Data Access
 Complete results  Flexible / On Demand
 Data copies  Incomplete results
 Inflexible  Biased by starting point


Our Approach

Data Federation

Live data access
Flexible source integration
Effective query planning
Complete results

Hypothesis:
Efficient query federation is possible using core Semantic
Web technology (i.e. SPARQL endpoints, VoiD descriptions)


VoiD: „Vocabulary of Interlinked Datasets“

} General Information

} Basic statistics
triples = 732744

} Type statistics
chebi:Compound = 50477

} Predicate statistics
bio:formula = 39555


Distributed Query Processing

Contribution:
Apply Best Practices of RDBMS for RDF Federation

http://code.google.com/p/rdffederator/

Query Example

Which drugs are categorized as micronutrients?

SELECT ?drug ?title WHERE {
  ?drug drugbank:drugCategory category:micronutrient .
  ?drug drugbank:casRegistryNumber ?id .
  ?keggDrug rdf:type kegg:Drug .
  ?keggDrug bio2rdf:xRef ?id .
  ?keggDrug purl:title ?title . }
}


Query Processing

Source Selection Join Optimization Query Execution

}


Query Processing


1. Step: Index-based source mapping

  ?drug drugbank:drugCategory category:micronutrient . → drugbank
  ?drug drugbank:casRegistryNumber ?id . → drugbank
  ?keggDrug rdf:type kegg:Drug . → kegg
  ?keggDrug bio2rdf:xRef ?id . → kegg
  ?keggDrug purl:title ?title . } → kegg, dbpedia, Chebi
}

predicate-index type-index
drugbank:drugCategory → drugbank kegg:Drug → kegg


Query Processing


2. Step: Refinement with ASK Queries

}

No index for subject / object values


Query Processing


3. Step: Grouping Triple Patterns

  ?drug drugbank:casRegistryNumber ?id . } drugbank
  ?keggDrug bio2rdf:xRef ?id . } kegg
  ?keggDrug purl:title ?title . } } kegg, dbpedia, Chebi
}

+ grouping sameAs patterns


Join Order Optimization


Dynamic Programming with statistics-based cost estimation

bind join /
hash join


Evaluation

FedBench Evaluation Suite Measuring
• Life Science + Cross Domain Data • #data sources selected
• different query characteristics • query execution time

Orthogonal State-of-the-Art approaches:
DARQ AliBaba FedX SPLENDID
Statistics ServiceDesc – – VoiD
Source Statistics All sources ASK queries Statistics +
Selection (predicates) ASK queries
Query DynProg Heuristics Heuristics DynProg
Optimization
Query Bind join Bind join Bound Join + Bind Join +
Execution parallelization Hash Join


Evaluation: Source Selection


owl:sameAs rdf:type


Evaluation: Query Optimization



Conclusion

Publish more VoiD description!

VoiD-based query federation is efficient

What next?
 Combination with FedX
 Improving estimation and cost model
 Integrating SPARQL 1.1 features

Splendid: SPARQL Endpoint Federation Exploiting VOID Descriptions

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (6)

Similaire à Splendid: SPARQL Endpoint Federation Exploiting VOID Descriptions

Similaire à Splendid: SPARQL Endpoint Federation Exploiting VOID Descriptions (20)

Dernier

Dernier (20)

Splendid: SPARQL Endpoint Federation Exploiting VOID Descriptions

Notes de l'éditeur