O documento discute sistemas de integração de dados, suas arquiteturas e abordagens ao longo do tempo, incluindo dataspaces. Apresenta as fases de inicialização, uso e manutenção de dataspaces, caracterizando suas dimensões como identificação de fontes, esquema de integração, mapeamentos e avaliação de consultas."
2. motivação
...
... ...
Distribuição Heterogeneidade
Autonomia Transparência
2
3. agenda
Sistemas de integração de dados
Evolução das soluções
Arquiteturas/Abordagens
Integração semântica
Dataspaces/pay as you go
Conclusões
3
4. sistemas de integração de dados
Data integration systems offer
uniform access to a set of
autonomous and heterogeneous
data sources.
Alon Halevy
4
5. sistemas de integração de dados
§ O número de fontes de dados pode crescer
§ As fontes de dados podem ser estruturadas ou não
§ Heterogeneidade em diferentes níveis
<....>
<....>
<....>
<....>
<....> <....>
<....> <....>
<....> <....>
<....> <....>
5
6. sistemas de integração de dados
integração de dados é um processo !
entender
Dados, propriedades,
valores, significados
Metadados são
fundamentais!
padronizar
Definir terminologia, como
lidar com objetos e
valores inconsistentes,
definir esquema integrado
especificar
Configurar o mecanismo
de integração
executar
Integrar!!!
(materialização x mediação)
Beauty and Beast: The Theory and Practice of Information Integration , [Hass, 2007 ]
6
7. sistemas de integração de dados
The integration process is iterative,
and never-ending.
Change is constant...
Laura Haas
7
8. sistemas de integração de dados
The goal of data integration is to build
tools that make it easier to build data
integration applications, rather than
completely automating the process.
Alon Halevy
8
9. evolução das soluções
...
Dataspaces
Integração de dados usando web services
Sistemas baseados em ontologias
Sistemas baseados em agentes
Sistemas de mediação
Sistemas de bancos de dados múltiplos
Aplicações de banco de dados
9
10. evolução das soluções/aplicações
aplicação ... aplicação
mediação, data
warehouse, P2P,
dataspace, agentes, Camada de integração
ontologias, serviços
web, informações
de dados
contextuais
dados governamentais,
biológicos, médicos, ...
dados na web...
fontes de dados
10
15. arquiteturas/abordagens
formalizando...
Um sistema de integração de dados
(mediação) é uma tripla (G, S, M), onde:
– G é o esquema global
– S é o esquema fonte
– M é o mapeamento entre G e S
Data Integration: A theoretical perspective , [Lenzerini, 2002]
15
17. arquiteturas/abordagens (mapeamentos semânticos)
esquema G
global
... Como conceitos
nas fontes
correspondem a
conceitos no
... esquema global?
... ...
esquema esquema esquema
local local local
S
17
18. arquiteturas/abordagens (mapeamentos semânticos)
R Name Surname Age Salary
S1 N SN A S2 N SN S D
Geração dos mapeamentos semânticos
1 identificação de correspondências (matchings)
2 geração das expressões de mapeamento (mappings)
Abordagens para definição de mapeamentos semânticos: GAV e LAV
18
19. arquiteturas/abordagens (mapeamentos semânticos)
[Souza, 2009]
R Name Surname Age Salary global schema
S1 N SN A S2 N SN S D
local
schemas
In this example, the GAV mapping would be:
R(Name, Surname, Age, Salary) :- S1(N,SN,A), S2(N, SN, S)
Q(S):- R(Name, Surname, Age, Salary), A = 40
view
Q(S):- S1(N, SN,A), S2(N, SN, S, D), A = 40
unfolding
19
20. arquiteturas/abordagens (mapeamentos semânticos)
[Souza, 2009]
R1 Name Surname Age Salary R2 Name Dept
S1 N SN A S2 N SN S D
In this example, the LAV mapping would be:
S1(N,SN,A) :- R1(Name, Surname, Age)
S2(N,SN,S,D) :- R1(Name, Surname, Salary), R2(Name, Dept)
Q(Name, Surname, Age, Dept):- R1(Name, Surname, Age, Salary),
R2(Name, Dept), A < 50, D = “Education”. view
Q (N, SN, A) :- S1(N,SN,A), S2(N,SN,S,D)
rewriting
20
21. integração semântica
Agrupar e combinar dados de
diferentes fontes considerando uma
semântica explícita
21
22. integração semântica
ontologias
Zelia Gattai
Salvador
married
isIn
livedIn
Jorge Amado Bahia
wrote
wrote partOf
Mar Morto
Brazil
Tieta do Agreste
partOf
Ceará
22
23. integração semântica (abordagens)
1 uma única ontologia
ontologia
global
2 múltiplas ontologias
ontologia ontologia ontologia
local local local
Ontology-Based Integration of Information – A Survey of Existing Approaches ,
[ Wache et. al, 2001 ]
23
24. integração semântica - (abordagens)
3 abordagem híbrida
vocabulário
compartilhado
ontologia ontologia ontologia
local local local
Ontology-Based Integration of Information – A Survey of Existing Approaches ,
[ Wache et. Al, 2001 ]
24
25. dataspaces/pay as you go
Problem: Querying Several Sources
What is the impact of global warming
Query in Zurich?
? ? ? ?
Systems
Data
Sources
Email Web DB
Laptop
Server Server Server
“iTrails: Pay-as-you-go Information Integration in Dataspaces“, [Salles, 2007]
25
26. dataspaces/pay as you go
Job!
Solution 1: Use a Search Engine
Query global warming zurich
Graph IR
Search Engine
System
Drawback: Query semantics are not precise!
TopX [VLDB05], FleXPath [SIGMOD04],
XSearch [VLDB03], XRank [SIGMOD03]
text, text, text, text,
links links links links
Data
Sources
[Salles, 2007] Email Web DB
Laptop
Server Server Server
26
27. dataspaces/pay as you go
Solution 2: Use an Information
Integration System
//Temperatures/*[city =
zurich ] Query
.
. .
.
Information
... Temps Cities Integration
Drawback: Too much effort to provide
...
System
CO2
System
Sunspots
schema mappings![VLDB96]),
GAV (e.g. [ICDE95]), LAV (e.g.
GLAV [AAAI99], P2P (e.g. [SIGMOD04])
missing missing schema schema
schema schema mapping mapping
mapping mapping
[Salles, 2007]
Data
Sources
Email Web DB
Laptop
Server Server Server
27
28. dataspaces/pay as you go
Research Challenge:
Is There an Integration Solution in-between These Two
Extremes?
global warming zurich
//Temperatures/*[city =
global warming zurich zurich ]
?
.
.
. .
.
.
Graph IR Dataspace ... Information
Search Engine
Temps Cities
Integration
System
... CO2 Sunspots
System
Pay-as-you-go full-blown
text,
Information schema
links text, text, text, text, mappings
Integration links links links links
[Salles, 2007]
Data Data
Sources Sources
Email Web DB Dataspace Vision by
Laptop Franklin, Halevy, and Maier
Server Server Server [SIGMOD Record 05]
28
30. dataspaces/pay as you go
algumas diferenças...
§ Mapeamentos semânticos e esquema de
mediação serão criados automaticamente
(porém, podem ser aproximados)
§ Diferentes mecanismos de consulta
(respostas aproximadas ou parciais)
A semântica poderá ser aperfeiçoada
com o tempo
30
31. dataspaces/pay as you go
“The vision of dataspaces has been articulated
as providing various of the benefits of classical
data integration, but with reduced up-front
costs, combined with opportunities for
incremental refinement, enabling a “pay as
you go” approach.”
[Hedeler 2009] Dimensions of Dataspaces
31
32. dataspaces/pay as you go
“This paper defines a collection of dimensions
that capture both the components that a
dataspace management system may contain
and the lifecycle it may support.”
[Hedeler 2009] Dimensions of Dataspaces
32
33. dataspaces/pay as you go
Motivação
Dataspaces
– Custo baixo
– Integração por demanda
– Baixa qualidade (incerteza)
– Podem visar coleções de dados diversos
como: arquivos pessoais, dados de empresas
ou a própria web
33
34. dataspaces/pay as you go
Quadro de Classificação
Tempo de vida de um dataspace
– Curto prazo
– Médio prazo
– Longo prazo
– Diferentes contextos, diferentes tempos de
vida
34
35. dataspaces/pay as you go
Quadro de Classificação
Ciclo de vida do dataspace
– Diferentes contextos necessitam apenas de
um subconjunto do ciclo de vida conceitual
Fases do ciclo de vida
– Inicialização
– Teste/avaliação
– Implantação
– Manutenção
– Uso e melhoria
35
37. dataspaces/pay as you go
Fase de Inicialização
§ As dimensões que caracterizam a fase de
inicialização de um dataspace estão
relacionadas com o processo e suas entradas
ou com a saída do processo
§ É importante entender que...
§ Matching = conjunto de correspondências
§ Mapping = regras utilizadas para executar as
traduções entre esquemas
37
38. dataspaces/pay as you go
Fase de Inicialização
Identificação de fontes
– Geral ou específico
– Não-estruturado, semi-estruturado ou
estruturado
– Local ou distribuído
38
39. dataspaces/pay as you go
Fase de Inicialização
Esquema de integração (projeto e derivação)
– Manual, semi-automático ou automático
– União ou merge de esquemas
– Escopo geral ou específico
– Um score de incerteza pode ser relacionado ao
esquema de integração
39
40. dataspaces/pay as you go
Fase de Inicialização
Matchings e sua identificação
– Entre fontes locais, entre fontes locais e o
esquema de integração
– Manual, semi-automático ou automático
– Incerteza (score)
– Esquema, instância ou dados de treinamento
40
41. dataspaces/pay as you go
Fase de Inicialização
Mappings e sua identificação
– Sempre expressos entre esquemas locais e o
esquema de integração
– O processo de derivação pode ser automático, semi-
automático ou manual
– Um grau de incerteza pode ser acrescentado aos
mapeamentos (score)
– Informações sobre instâncias, esquemas e matchings
podem ser usadas na identificação de mapeamentos
41
42. dataspaces/pay as you go
Fase de Inicialização
Recursos de dados resultantes
– Virtual, parcialmente materializada ou
materializada
– Grau de incerteza (score)
– Duplicatas ou conflitos: pode coexistir ou não
42
43. dataspaces/pay as you go
Fase de Uso: busca/consulta
Avaliação (resultados de concultas)
– Completa (comp)
– Parcial (part)
Se múltiplas fontes são consultadas?
– Combinação de Resultados (Merge ou Union)
Verificação de Incerteza
– Scores ou Ranking
43
44. dataspaces/pay as you go
Fase de Manutenção e Melhoria
§ Manutenção: lida com o fato das fontes de
dados serem autônomas
§ Melhoria: visa aperfeiçoar os resultados de
integração ao longo do tempo
§ Mesmos passos da fase de inicialização com
algumas adições:
– Feedback para o usuário
– Novos alinhamentos e mapeamentos, no caso de
atualizaçõe, ou seja, quando as fontes são
modificadas)
44
45. dataspaces/pay as you go
Fase: Manutenção e Melhoria
Manutenção
– DSMS precisam ser capazes de lidar com a evolução
das fontes de dados (adição e/ou remoção de fontes)
– DSMS deve exigir pouco ou nenhum esforço manual
para responder a essas mudanças
– Benefícios:
• Reuso de tarefas de integrações já feitas
– Matchings, mapeamentos, esquemas de integração e feedback do
usuário
45
46. dataspaces/pay as you go
Fase: Manutenção e Melhoria
Melhoria
§ Aquisição de feedback sobre diferentes recursos de
dados
• Alinhamentos
• Mapeamentos
• Esquema de integração
• Consultas
§ Uso de Feedback
• Implícito
• Explicito
46
47. dataspaces/pay as you go
Propostas de Dataspaces
§ ALADIN
§ SEMEX
§ iMeMeX
§ PayGo
§ UDI
47
48. algumas referências...
§ Araújo, F.F.; Pinheiro, A. M.; Farias, K.M.; Lóscio, F. B; Oliveira, D.M. (2008) FlagelLink: A
Decision Support System for Distributed Flagellar Data using Data Warehouse . In: To the 23rd
Annual ACM Symposium on Applied Computing.
§ Lóscio, B.F. 1998, ‘Atualização de Múltiplas Bases de Dados através de Mediadores’, M.S. thesis,
Computer Science Department, University Federal of Ceará.
§ Lóscio, B. F. Managing the Evolution of XML-based Mediation Queries, PhD thesis, Informatics
Center- Federal University of Pernambuco, 2003.
§ Breitman, K. K.; Casanova, M. A.; Truszkowski, W. (2007) Semantic Web: Concepts, Technologies
and Applications. Londres: Springer, 2007, v.1. p.337.
§ Guarino, N. (1998) Formal Ontology and Information Systems. In N. Guarino, (Ed.) Formal
Ontology in Information Systems, pp. 3-15, IOS Press, Amsterdam, Netherlands.
§ Uschold, M., Gruninger, M. (2004) Ontologies and Semantics for Seamless Connectivity. ACM
SIGMOD Record Vol. 33, Issue 4.
§ Noy, N. F. (2004) Semantic Integration: A Survey of Ontology-Based Approaches. In ACM
SIGMOD Record Vol. 33, Issue 4: pp. 65-70.
§ Wache, H., Vögele, T., Visser, U., Stuckenschmidt, H., Schuster, G., Neumann, H. and Hübner, S.
(2001) Ontology-based Integration of Information - A Survey of Existing Approaches. In
Proceedings of IJCAI-01 Workshop: Ontologies and Information Sharing.
§ Lenzerini, M. (2002) Data Integration: A Theoretical Perspective. In Proceedings of ACM
Symposium on Principles of Database Systems.
§ Halevy, A. Y., Franklin, M. J., Maier, D.: Principles of dataspace systems. PODS (2006).
§ Pires, C. E. S. Ontology-based clustering in a peer data management system, PhD thesis,
Informatics Center- Federal University of Pernambuco, 2009.
§ Souza, D. Using Semantics to enhance query reformulation in dynamic distributed enviornments,
PhD thesis, Informatics Center- Federal University of Pernambuco, 2009.
48