SlideShare une entreprise Scribd logo
1  sur  48
Télécharger pour lire hors ligne
Integração de Dados:
Ontem, hoje e sempre
    Bernadette Farias Lóscio
        bfl@cin.ufpe.br
motivação




                   ...



             ...           ...



    Distribuição Heterogeneidade
       Autonomia Transparência
                                   2
agenda


     Sistemas de integração de dados
     Evolução das soluções
     Arquiteturas/Abordagens
     Integração semântica
     Dataspaces/pay as you go
     Conclusões



                                       3
sistemas de integração de dados




     Data integration systems offer
       uniform access to a set of
    autonomous and heterogeneous
             data sources.

                     Alon Halevy


                                      4
sistemas de integração de dados

§  O número de fontes de dados pode crescer
§  As fontes de dados podem ser estruturadas ou não
§  Heterogeneidade em diferentes níveis




                   <....>
                   <....>
                   <....>
                   <....>




       <....>   <....>
       <....>   <....>
       <....>   <....>
       <....>   <....>




                                                       5
sistemas de integração de dados
                                  integração de dados é um processo !
   entender
  Dados, propriedades,
  valores, significados
  Metadados são
  fundamentais!
                               padronizar
                          Definir terminologia, como
                          lidar com objetos e
                          valores inconsistentes,
                          definir esquema integrado
                                                        especificar
                                                       Configurar o mecanismo
                                                            de integração


                                                                        executar
                                                                         Integrar!!!
                                                                  (materialização x mediação)

Beauty and Beast: The Theory and Practice of Information Integration , [Hass, 2007 ]
                                                                                           6
sistemas de integração de dados




    The integration process is iterative,
            and never-ending.
          Change is constant...

                    Laura Haas



                                            7
sistemas de integração de dados



    The goal of data integration is to build
     tools that make it easier to build data
      integration applications, rather than
     completely automating the process.

                  Alon Halevy



                                               8
evolução das soluções


                                                      ...


                                                Dataspaces

                                         Integração de dados usando web services

                                  Sistemas baseados em ontologias

                        Sistemas baseados em agentes

                 Sistemas de mediação

           Sistemas de bancos de dados múltiplos

   Aplicações de banco de dados




                                                                                   9
evolução das soluções/aplicações

                        aplicação ... aplicação
  mediação, data
  warehouse, P2P,
dataspace, agentes,     Camada de integração
ontologias, serviços
 web, informações
                             de dados
    contextuais



dados governamentais,
 biológicos, médicos,                   ...
   dados na web...
                                    fontes de dados

                                                      10
arquiteturas/abordagens




                          arquitetura de
                           mediadores




[Lóscio, 1998]

                                           11
arquiteturas/abordagens

           reformulação de consultas - mediação




[Lóscio, 1998]

                                                  12
arquiteturas/abordagens

           reformulação de consultas - mediação




[Lóscio, 1998]

                                                  13
arquiteturas/abordagens

           reformulação de consultas - mediação




[Lóscio, 1998]

                                                  14
arquiteturas/abordagens


     formalizando...
    Um sistema de integração de dados
    (mediação) é uma tripla (G, S, M), onde:
     –  G é o esquema global
     –  S é o esquema fonte
     –  M é o mapeamento entre G e S



        Data Integration: A theoretical perspective , [Lenzerini, 2002]

                                                                          15
arquiteturas/abordagens (mapeamentos semânticos)


                    esquema         G
                     global
                          ...
                                           M

             ...        ...         ...
         esquema    esquema     esquema
           local      local       local
                                           S




                                                   16
arquiteturas/abordagens (mapeamentos semânticos)


                 esquema        G
                  global
                       ...             Como conceitos
                                          nas fontes
                                       correspondem a
                                         conceitos no
                     ...               esquema global?
           ...                   ...
      esquema esquema esquema
        local   local   local
                                           S




                                                         17
arquiteturas/abordagens (mapeamentos semânticos)

                  R   Name   Surname   Age   Salary




         S1   N       SN       A       S2    N   SN   S   D




     Geração dos mapeamentos semânticos
     1   identificação de correspondências (matchings)

     2   geração das expressões de mapeamento (mappings)
 Abordagens para definição de mapeamentos semânticos: GAV e LAV
                                                                  18
arquiteturas/abordagens (mapeamentos semânticos)

[Souza, 2009]
                     R   Name   Surname   Age   Salary   global schema




            S1   N       SN       A       S2    N   SN    S     D
                                                                         local
                                                                         schemas


 In this example, the GAV mapping would be:
 R(Name, Surname, Age, Salary) :- S1(N,SN,A), S2(N, SN, S)

 Q(S):- R(Name, Surname, Age, Salary), A = 40
                                                           view
 Q(S):- S1(N, SN,A), S2(N, SN, S, D), A = 40
                                                         unfolding
                                                                                   19
arquiteturas/abordagens (mapeamentos semânticos)
[Souza, 2009]
                     R1 Name    Surname       Age   Salary          R2 Name       Dept




                S1     N       SN         A                  S2 N     SN      S          D




    In this example, the LAV mapping would be:
    S1(N,SN,A) :- R1(Name, Surname, Age)
    S2(N,SN,S,D) :- R1(Name, Surname, Salary), R2(Name, Dept)

    Q(Name, Surname, Age, Dept):- R1(Name, Surname, Age, Salary),
    R2(Name, Dept), A < 50, D = “Education”.                                         view
     Q (N, SN, A) :- S1(N,SN,A), S2(N,SN,S,D)
                                                                                   rewriting
                                                                                               20
integração semântica




         Agrupar e combinar dados de
       diferentes fontes considerando uma
               semântica explícita


                                            21
integração semântica


         ontologias

      Zelia Gattai
                                        Salvador
            married
                                                           isIn
                              livedIn
            Jorge Amado                            Bahia
                          wrote
          wrote                                            partOf
                           Mar Morto
                                                    Brazil
  Tieta do Agreste
                                                           partOf

                                                   Ceará


                                                                  22
integração semântica (abordagens)
                  1 uma única ontologia
                        ontologia
                         global



                  2 múltiplas ontologias
             ontologia          ontologia          ontologia
               local              local              local

  Ontology-Based Integration of Information – A Survey of Existing Approaches ,
                              [ Wache et. al, 2001 ]
                                                                                  23
integração semântica - (abordagens)

                    3 abordagem híbrida

                               vocabulário
                             compartilhado
             ontologia          ontologia           ontologia
               local              local               local



  Ontology-Based Integration of Information – A Survey of Existing Approaches ,
                              [ Wache et. Al, 2001 ]

                                                                                  24
dataspaces/pay as you go
     Problem: Querying Several Sources
                       What is the impact of global warming
Query                                in Zurich?
                                      ?            ?        ?               ?



Systems




 Data
Sources
                                          Email           Web                DB
                   Laptop
                                          Server         Server             Server
          “iTrails: Pay-as-you-go Information Integration in Dataspaces“, [Salles, 2007]
                                                                                           25
dataspaces/pay as you go
                                                             Job!	

          Solution 1: Use a Search Engine
 Query            global warming zurich




                                            Graph IR
                                          Search Engine
 System
  Drawback: Query semantics are not precise!
      TopX [VLDB05], FleXPath [SIGMOD04],
                 XSearch [VLDB03], XRank [SIGMOD03]


                      text,       text,      text,   text,
                      links       links      links   links

 Data
Sources
[Salles, 2007]                Email        Web    DB
                  Laptop
                              Server      Server Server
                                                                       26
dataspaces/pay as you go

                    Solution 2: Use an Information
                          Integration System
                                                    //Temperatures/*[city =
                                                            zurich ]                     Query
                                             .
                                             .              .
                                                            .
                                                                    Information
                                    ...    Temps         Cities      Integration
                 Drawback: Too much effort to provide
                                ...
                                                                       System
                                           CO2
                                                            System
                                                       Sunspots


                         schema mappings![VLDB96]),
                             GAV (e.g. [ICDE95]), LAV (e.g.
                                 GLAV [AAAI99], P2P (e.g. [SIGMOD04])

                                      missing          missing       schema        schema
                                      schema           schema        mapping       mapping
                                      mapping          mapping
[Salles, 2007]




                                                                                         Data
                                                                                        Sources
                                                   Email           Web          DB
                                  Laptop
                                                   Server         Server       Server
                                                                                             27
dataspaces/pay as you go
                       Research Challenge:
      Is There an Integration Solution in-between These Two
                            Extremes?
                                      global warming zurich
                                                                            //Temperatures/*[city =
   global warming zurich                                                            zurich ]




                                                    ?
                                                                                   .
                                                                                   .
                                                                                   .          .
                                                                                              .
                                                                                              .
                      Graph IR                                Dataspace ...                           Information
                    Search Engine
                                                                                  Temps     Cities
                                                                                                       Integration
                                                               System
                                                                            ...   CO2     Sunspots
                                                                                                         System

                   Pay-as-you-go                                                                     full-blown
                     text,
                    Information                                                                       schema
                     links              text,       text,      text,   text,                         mappings
                     Integration        links       links      links   links
[Salles, 2007]




                  Data                                                                     Data
                 Sources                                                                  Sources
                                                Email        Web    DB                          Dataspace Vision by
                                    Laptop                                                   Franklin, Halevy, and Maier
                                                Server      Server Server                       [SIGMOD Record 05]

                                                                                                                  28
dataspaces/pay as you go




[Halevy, 2006]

                           29
dataspaces/pay as you go


     algumas diferenças...
  §  Mapeamentos semânticos e esquema de
      mediação serão criados automaticamente
      (porém, podem ser aproximados)

  §  Diferentes mecanismos de consulta
      (respostas aproximadas ou parciais)

    A semântica poderá ser aperfeiçoada
               com o tempo
                                               30
dataspaces/pay as you go



  “The vision of dataspaces has been articulated
  as providing various of the benefits of classical
    data integration, but with reduced up-front
      costs, combined with opportunities for
    incremental refinement, enabling a “pay as
                you go” approach.”

           [Hedeler 2009] Dimensions of Dataspaces


                                                      31
dataspaces/pay as you go



  “This paper defines a collection of dimensions
     that capture both the components that a
   dataspace management system may contain
        and the lifecycle it may support.”

           [Hedeler 2009] Dimensions of Dataspaces




                                                     32
dataspaces/pay as you go

                   Motivação
    Dataspaces
     –  Custo baixo
     –  Integração por demanda
     –  Baixa qualidade (incerteza)
     –  Podem visar coleções de dados diversos
        como: arquivos pessoais, dados de empresas
        ou a própria web




                                                     33
dataspaces/pay as you go

          Quadro de Classificação
    Tempo de vida de um dataspace
     –  Curto prazo
     –  Médio prazo
     –  Longo prazo
     –  Diferentes contextos, diferentes tempos de
        vida




                                                     34
dataspaces/pay as you go

          Quadro de Classificação
    Ciclo de vida do dataspace
     –  Diferentes contextos necessitam apenas de
        um subconjunto do ciclo de vida conceitual
    Fases do ciclo de vida
     –  Inicialização
     –  Teste/avaliação
     –  Implantação
     –  Manutenção
     –  Uso e melhoria
                                                     35
dataspaces/pay as you go

          Quadro de Classificação




                                    36
dataspaces/pay as you go

             Fase de Inicialização
     §  As dimensões que caracterizam a fase de
         inicialização de um dataspace estão
         relacionadas com o processo e suas entradas
         ou com a saída do processo
     §  É importante entender que...
       §  Matching = conjunto de correspondências
       §  Mapping = regras utilizadas para executar as
           traduções entre esquemas




                                                          37
dataspaces/pay as you go

            Fase de Inicialização



    Identificação de fontes
     –  Geral ou específico
     –  Não-estruturado, semi-estruturado ou
        estruturado
     –  Local ou distribuído


                                               38
dataspaces/pay as you go

             Fase de Inicialização
    Esquema de integração (projeto e derivação)
     –  Manual, semi-automático ou automático
     –  União ou merge de esquemas
     –  Escopo geral ou específico
     –  Um score de incerteza pode ser relacionado ao
        esquema de integração




                                                        39
dataspaces/pay as you go

             Fase de Inicialização
    Matchings e sua identificação
     –  Entre fontes locais, entre fontes locais e o
        esquema de integração
     –  Manual, semi-automático ou automático
     –  Incerteza (score)
     –  Esquema, instância ou dados de treinamento




                                                       40
dataspaces/pay as you go

              Fase de Inicialização
    Mappings e sua identificação
     –  Sempre expressos entre esquemas locais e o
        esquema de integração
     –  O processo de derivação pode ser automático, semi-
        automático ou manual
     –  Um grau de incerteza pode ser acrescentado aos
        mapeamentos (score)
     –  Informações sobre instâncias, esquemas e matchings
        podem ser usadas na identificação de mapeamentos



                                                             41
dataspaces/pay as you go

             Fase de Inicialização
    Recursos de dados resultantes
     –  Virtual, parcialmente materializada ou
        materializada
     –  Grau de incerteza (score)
     –  Duplicatas ou conflitos: pode coexistir ou não




                                                         42
dataspaces/pay as you go

       Fase de Uso: busca/consulta
    Avaliação (resultados de concultas)
     –  Completa (comp)
     –  Parcial (part)
    Se múltiplas fontes são consultadas?
     –  Combinação de Resultados (Merge ou Union)
    Verificação de Incerteza
     –  Scores ou Ranking




                                                    43
dataspaces/pay as you go

     Fase de Manutenção e Melhoria
  §  Manutenção: lida com o fato das fontes de
      dados serem autônomas
  §  Melhoria: visa aperfeiçoar os resultados de
      integração ao longo do tempo
  §  Mesmos passos da fase de inicialização com
      algumas adições:
     –  Feedback para o usuário
     –  Novos alinhamentos e mapeamentos, no caso de
        atualizaçõe, ou seja, quando as fontes são
        modificadas)

                                                       44
dataspaces/pay as you go

       Fase: Manutenção e Melhoria
    Manutenção
     –  DSMS precisam ser capazes de lidar com a evolução
        das fontes de dados (adição e/ou remoção de fontes)
     –  DSMS deve exigir pouco ou nenhum esforço manual
        para responder a essas mudanças
     –  Benefícios:
        •  Reuso de tarefas de integrações já feitas
            –  Matchings, mapeamentos, esquemas de integração e feedback do
               usuário




                                                                              45
dataspaces/pay as you go

       Fase: Manutenção e Melhoria
    Melhoria
     §  Aquisição de feedback sobre diferentes recursos de
         dados
        •    Alinhamentos
        •    Mapeamentos
        •    Esquema de integração
        •    Consultas


     §  Uso de Feedback
        •  Implícito
        •  Explicito


                                                              46
dataspaces/pay as you go

         Propostas de Dataspaces
  §  ALADIN
  §  SEMEX
  §  iMeMeX
  §  PayGo
  §  UDI




                                   47
algumas referências...
  §    Araújo, F.F.; Pinheiro, A. M.; Farias, K.M.; Lóscio, F. B; Oliveira, D.M. (2008) FlagelLink: A
        Decision Support System for Distributed Flagellar Data using Data Warehouse . In: To the 23rd
        Annual ACM Symposium on Applied Computing.
  §    Lóscio, B.F. 1998, ‘Atualização de Múltiplas Bases de Dados através de Mediadores’, M.S. thesis,
        Computer Science Department, University Federal of Ceará.
  §    Lóscio, B. F. Managing the Evolution of XML-based Mediation Queries, PhD thesis, Informatics
        Center- Federal University of Pernambuco, 2003.
  §    Breitman, K. K.; Casanova, M. A.; Truszkowski, W. (2007) Semantic Web: Concepts, Technologies
        and Applications. Londres: Springer, 2007, v.1. p.337.
  §    Guarino, N. (1998) Formal Ontology and Information Systems. In N. Guarino, (Ed.) Formal
        Ontology in Information Systems, pp. 3-15, IOS Press, Amsterdam, Netherlands.
  §    Uschold, M., Gruninger, M. (2004) Ontologies and Semantics for Seamless Connectivity. ACM
        SIGMOD Record Vol. 33, Issue 4.
  §    Noy, N. F. (2004) Semantic Integration: A Survey of Ontology-Based Approaches. In ACM
        SIGMOD Record Vol. 33, Issue 4: pp. 65-70.
  §    Wache, H., Vögele, T., Visser, U., Stuckenschmidt, H., Schuster, G., Neumann, H. and Hübner, S.
        (2001) Ontology-based Integration of Information - A Survey of Existing Approaches. In
        Proceedings of IJCAI-01 Workshop: Ontologies and Information Sharing.
  §    Lenzerini, M. (2002) Data Integration: A Theoretical Perspective. In Proceedings of ACM
        Symposium on Principles of Database Systems.
  §    Halevy, A. Y., Franklin, M. J., Maier, D.: Principles of dataspace systems. PODS (2006).
  §    Pires, C. E. S. Ontology-based clustering in a peer data management system, PhD thesis,
        Informatics Center- Federal University of Pernambuco, 2009.
  §    Souza, D. Using Semantics to enhance query reformulation in dynamic distributed enviornments,
        PhD thesis, Informatics Center- Federal University of Pernambuco, 2009.




                                                                                                           48

Contenu connexe

Similaire à Integracao dados Ontem Hoje e Sempre

Arquitetura da Informação e Usabilidade
Arquitetura da Informação e UsabilidadeArquitetura da Informação e Usabilidade
Arquitetura da Informação e Usabilidadesaspi2
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Caio Moreno
 
Análise da Dispersão dos Esforços dos Funcionários
Análise da Dispersão dos Esforços dos FuncionáriosAnálise da Dispersão dos Esforços dos Funcionários
Análise da Dispersão dos Esforços dos FuncionáriosGuttenberg Ferreira Passos
 
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...Paulo Henrique Santini
 
Map reduce novas abordagens para o processo de datamining em grandes volumn...
Map reduce   novas abordagens para o processo de datamining em grandes volumn...Map reduce   novas abordagens para o processo de datamining em grandes volumn...
Map reduce novas abordagens para o processo de datamining em grandes volumn...João Gabriel Lima
 
POR UM MÉTODO PERSPECTIVISTA DE ANÁLISE DE REDES
POR UM MÉTODO PERSPECTIVISTA DE ANÁLISE DE REDESPOR UM MÉTODO PERSPECTIVISTA DE ANÁLISE DE REDES
POR UM MÉTODO PERSPECTIVISTA DE ANÁLISE DE REDESfabiomalini
 
Plano de investigação - Apresentação
Plano de investigação - ApresentaçãoPlano de investigação - Apresentação
Plano de investigação - ApresentaçãoMarduken
 
Apostila projeto geo 2005
Apostila projeto geo 2005Apostila projeto geo 2005
Apostila projeto geo 2005Hudson Góis
 
Db mapeamento relacional
Db mapeamento relacionalDb mapeamento relacional
Db mapeamento relacionalEdvaldo Freitas
 
Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS
Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOSEnancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS
Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOSluizclaudiomaia
 
A representação dos cenários que orientam o processo de projeto.
A representação dos cenários que orientam o processo de projeto.A representação dos cenários que orientam o processo de projeto.
A representação dos cenários que orientam o processo de projeto.Redes de Projeto
 
QGIS - inicio (Sistemas de Informação Geográfica SIG)
QGIS - inicio (Sistemas de Informação Geográfica SIG)QGIS - inicio (Sistemas de Informação Geográfica SIG)
QGIS - inicio (Sistemas de Informação Geográfica SIG)EuricoPortugal
 

Similaire à Integracao dados Ontem Hoje e Sempre (20)

Arquitetura da Informação e Usabilidade
Arquitetura da Informação e UsabilidadeArquitetura da Informação e Usabilidade
Arquitetura da Informação e Usabilidade
 
GIS Day 2011 - Benefícios ArcGIS
GIS Day 2011 - Benefícios ArcGISGIS Day 2011 - Benefícios ArcGIS
GIS Day 2011 - Benefícios ArcGIS
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
 
Análise da Dispersão dos Esforços dos Funcionários
Análise da Dispersão dos Esforços dos FuncionáriosAnálise da Dispersão dos Esforços dos Funcionários
Análise da Dispersão dos Esforços dos Funcionários
 
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...
 
Arquitetura da Informacao e Webdesign
Arquitetura da Informacao e WebdesignArquitetura da Informacao e Webdesign
Arquitetura da Informacao e Webdesign
 
Map reduce novas abordagens para o processo de datamining em grandes volumn...
Map reduce   novas abordagens para o processo de datamining em grandes volumn...Map reduce   novas abordagens para o processo de datamining em grandes volumn...
Map reduce novas abordagens para o processo de datamining em grandes volumn...
 
POR UM MÉTODO PERSPECTIVISTA DE ANÁLISE DE REDES
POR UM MÉTODO PERSPECTIVISTA DE ANÁLISE DE REDESPOR UM MÉTODO PERSPECTIVISTA DE ANÁLISE DE REDES
POR UM MÉTODO PERSPECTIVISTA DE ANÁLISE DE REDES
 
Aula 1 final
Aula 1 finalAula 1 final
Aula 1 final
 
Plano de investigação - Apresentação
Plano de investigação - ApresentaçãoPlano de investigação - Apresentação
Plano de investigação - Apresentação
 
Workshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big DataWorkshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big Data
 
Apostila projeto geo 2005
Apostila projeto geo 2005Apostila projeto geo 2005
Apostila projeto geo 2005
 
Bancodedados
BancodedadosBancodedados
Bancodedados
 
Db mapeamento relacional
Db mapeamento relacionalDb mapeamento relacional
Db mapeamento relacional
 
Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS
Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOSEnancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS
Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS
 
A representação dos cenários que orientam o processo de projeto.
A representação dos cenários que orientam o processo de projeto.A representação dos cenários que orientam o processo de projeto.
A representação dos cenários que orientam o processo de projeto.
 
Arquitetura de Software EXPLICADA
Arquitetura de Software EXPLICADAArquitetura de Software EXPLICADA
Arquitetura de Software EXPLICADA
 
QGIS - inicio (Sistemas de Informação Geográfica SIG)
QGIS - inicio (Sistemas de Informação Geográfica SIG)QGIS - inicio (Sistemas de Informação Geográfica SIG)
QGIS - inicio (Sistemas de Informação Geográfica SIG)
 
GeoWeb - Carto e QGIS Cloud
GeoWeb - Carto e QGIS CloudGeoWeb - Carto e QGIS Cloud
GeoWeb - Carto e QGIS Cloud
 
Oficina Pentaho
Oficina PentahoOficina Pentaho
Oficina Pentaho
 

Integracao dados Ontem Hoje e Sempre

  • 1. Integração de Dados: Ontem, hoje e sempre Bernadette Farias Lóscio bfl@cin.ufpe.br
  • 2. motivação ... ... ... Distribuição Heterogeneidade Autonomia Transparência 2
  • 3. agenda Sistemas de integração de dados Evolução das soluções Arquiteturas/Abordagens Integração semântica Dataspaces/pay as you go Conclusões 3
  • 4. sistemas de integração de dados Data integration systems offer uniform access to a set of autonomous and heterogeneous data sources. Alon Halevy 4
  • 5. sistemas de integração de dados §  O número de fontes de dados pode crescer §  As fontes de dados podem ser estruturadas ou não §  Heterogeneidade em diferentes níveis <....> <....> <....> <....> <....> <....> <....> <....> <....> <....> <....> <....> 5
  • 6. sistemas de integração de dados integração de dados é um processo ! entender Dados, propriedades, valores, significados Metadados são fundamentais! padronizar Definir terminologia, como lidar com objetos e valores inconsistentes, definir esquema integrado especificar Configurar o mecanismo de integração executar Integrar!!! (materialização x mediação) Beauty and Beast: The Theory and Practice of Information Integration , [Hass, 2007 ] 6
  • 7. sistemas de integração de dados The integration process is iterative, and never-ending. Change is constant... Laura Haas 7
  • 8. sistemas de integração de dados The goal of data integration is to build tools that make it easier to build data integration applications, rather than completely automating the process. Alon Halevy 8
  • 9. evolução das soluções ... Dataspaces Integração de dados usando web services Sistemas baseados em ontologias Sistemas baseados em agentes Sistemas de mediação Sistemas de bancos de dados múltiplos Aplicações de banco de dados 9
  • 10. evolução das soluções/aplicações aplicação ... aplicação mediação, data warehouse, P2P, dataspace, agentes, Camada de integração ontologias, serviços web, informações de dados contextuais dados governamentais, biológicos, médicos, ... dados na web... fontes de dados 10
  • 11. arquiteturas/abordagens arquitetura de mediadores [Lóscio, 1998] 11
  • 12. arquiteturas/abordagens reformulação de consultas - mediação [Lóscio, 1998] 12
  • 13. arquiteturas/abordagens reformulação de consultas - mediação [Lóscio, 1998] 13
  • 14. arquiteturas/abordagens reformulação de consultas - mediação [Lóscio, 1998] 14
  • 15. arquiteturas/abordagens formalizando... Um sistema de integração de dados (mediação) é uma tripla (G, S, M), onde: –  G é o esquema global –  S é o esquema fonte –  M é o mapeamento entre G e S Data Integration: A theoretical perspective , [Lenzerini, 2002] 15
  • 16. arquiteturas/abordagens (mapeamentos semânticos) esquema G global ... M ... ... ... esquema esquema esquema local local local S 16
  • 17. arquiteturas/abordagens (mapeamentos semânticos) esquema G global ... Como conceitos nas fontes correspondem a conceitos no ... esquema global? ... ... esquema esquema esquema local local local S 17
  • 18. arquiteturas/abordagens (mapeamentos semânticos) R Name Surname Age Salary S1 N SN A S2 N SN S D Geração dos mapeamentos semânticos 1 identificação de correspondências (matchings) 2 geração das expressões de mapeamento (mappings) Abordagens para definição de mapeamentos semânticos: GAV e LAV 18
  • 19. arquiteturas/abordagens (mapeamentos semânticos) [Souza, 2009] R Name Surname Age Salary global schema S1 N SN A S2 N SN S D local schemas In this example, the GAV mapping would be: R(Name, Surname, Age, Salary) :- S1(N,SN,A), S2(N, SN, S) Q(S):- R(Name, Surname, Age, Salary), A = 40 view Q(S):- S1(N, SN,A), S2(N, SN, S, D), A = 40 unfolding 19
  • 20. arquiteturas/abordagens (mapeamentos semânticos) [Souza, 2009] R1 Name Surname Age Salary R2 Name Dept S1 N SN A S2 N SN S D In this example, the LAV mapping would be: S1(N,SN,A) :- R1(Name, Surname, Age) S2(N,SN,S,D) :- R1(Name, Surname, Salary), R2(Name, Dept) Q(Name, Surname, Age, Dept):- R1(Name, Surname, Age, Salary), R2(Name, Dept), A < 50, D = “Education”. view Q (N, SN, A) :- S1(N,SN,A), S2(N,SN,S,D) rewriting 20
  • 21. integração semântica Agrupar e combinar dados de diferentes fontes considerando uma semântica explícita 21
  • 22. integração semântica ontologias Zelia Gattai Salvador married isIn livedIn Jorge Amado Bahia wrote wrote partOf Mar Morto Brazil Tieta do Agreste partOf Ceará 22
  • 23. integração semântica (abordagens) 1 uma única ontologia ontologia global 2 múltiplas ontologias ontologia ontologia ontologia local local local Ontology-Based Integration of Information – A Survey of Existing Approaches , [ Wache et. al, 2001 ] 23
  • 24. integração semântica - (abordagens) 3 abordagem híbrida vocabulário compartilhado ontologia ontologia ontologia local local local Ontology-Based Integration of Information – A Survey of Existing Approaches , [ Wache et. Al, 2001 ] 24
  • 25. dataspaces/pay as you go Problem: Querying Several Sources What is the impact of global warming Query in Zurich? ? ? ? ? Systems Data Sources Email Web DB Laptop Server Server Server “iTrails: Pay-as-you-go Information Integration in Dataspaces“, [Salles, 2007] 25
  • 26. dataspaces/pay as you go Job! Solution 1: Use a Search Engine Query global warming zurich Graph IR Search Engine System Drawback: Query semantics are not precise! TopX [VLDB05], FleXPath [SIGMOD04], XSearch [VLDB03], XRank [SIGMOD03] text, text, text, text, links links links links Data Sources [Salles, 2007] Email Web DB Laptop Server Server Server 26
  • 27. dataspaces/pay as you go Solution 2: Use an Information Integration System //Temperatures/*[city = zurich ] Query . . . . Information ... Temps Cities Integration Drawback: Too much effort to provide ... System CO2 System Sunspots schema mappings![VLDB96]), GAV (e.g. [ICDE95]), LAV (e.g. GLAV [AAAI99], P2P (e.g. [SIGMOD04]) missing missing schema schema schema schema mapping mapping mapping mapping [Salles, 2007] Data Sources Email Web DB Laptop Server Server Server 27
  • 28. dataspaces/pay as you go Research Challenge: Is There an Integration Solution in-between These Two Extremes? global warming zurich //Temperatures/*[city = global warming zurich zurich ] ? . . . . . . Graph IR Dataspace ... Information Search Engine Temps Cities Integration System ... CO2 Sunspots System Pay-as-you-go full-blown text, Information schema links text, text, text, text, mappings Integration links links links links [Salles, 2007] Data Data Sources Sources Email Web DB Dataspace Vision by Laptop Franklin, Halevy, and Maier Server Server Server [SIGMOD Record 05] 28
  • 29. dataspaces/pay as you go [Halevy, 2006] 29
  • 30. dataspaces/pay as you go algumas diferenças... §  Mapeamentos semânticos e esquema de mediação serão criados automaticamente (porém, podem ser aproximados) §  Diferentes mecanismos de consulta (respostas aproximadas ou parciais) A semântica poderá ser aperfeiçoada com o tempo 30
  • 31. dataspaces/pay as you go “The vision of dataspaces has been articulated as providing various of the benefits of classical data integration, but with reduced up-front costs, combined with opportunities for incremental refinement, enabling a “pay as you go” approach.” [Hedeler 2009] Dimensions of Dataspaces 31
  • 32. dataspaces/pay as you go “This paper defines a collection of dimensions that capture both the components that a dataspace management system may contain and the lifecycle it may support.” [Hedeler 2009] Dimensions of Dataspaces 32
  • 33. dataspaces/pay as you go Motivação Dataspaces –  Custo baixo –  Integração por demanda –  Baixa qualidade (incerteza) –  Podem visar coleções de dados diversos como: arquivos pessoais, dados de empresas ou a própria web 33
  • 34. dataspaces/pay as you go Quadro de Classificação Tempo de vida de um dataspace –  Curto prazo –  Médio prazo –  Longo prazo –  Diferentes contextos, diferentes tempos de vida 34
  • 35. dataspaces/pay as you go Quadro de Classificação Ciclo de vida do dataspace –  Diferentes contextos necessitam apenas de um subconjunto do ciclo de vida conceitual Fases do ciclo de vida –  Inicialização –  Teste/avaliação –  Implantação –  Manutenção –  Uso e melhoria 35
  • 36. dataspaces/pay as you go Quadro de Classificação 36
  • 37. dataspaces/pay as you go Fase de Inicialização §  As dimensões que caracterizam a fase de inicialização de um dataspace estão relacionadas com o processo e suas entradas ou com a saída do processo §  É importante entender que... §  Matching = conjunto de correspondências §  Mapping = regras utilizadas para executar as traduções entre esquemas 37
  • 38. dataspaces/pay as you go Fase de Inicialização Identificação de fontes –  Geral ou específico –  Não-estruturado, semi-estruturado ou estruturado –  Local ou distribuído 38
  • 39. dataspaces/pay as you go Fase de Inicialização Esquema de integração (projeto e derivação) –  Manual, semi-automático ou automático –  União ou merge de esquemas –  Escopo geral ou específico –  Um score de incerteza pode ser relacionado ao esquema de integração 39
  • 40. dataspaces/pay as you go Fase de Inicialização Matchings e sua identificação –  Entre fontes locais, entre fontes locais e o esquema de integração –  Manual, semi-automático ou automático –  Incerteza (score) –  Esquema, instância ou dados de treinamento 40
  • 41. dataspaces/pay as you go Fase de Inicialização Mappings e sua identificação –  Sempre expressos entre esquemas locais e o esquema de integração –  O processo de derivação pode ser automático, semi- automático ou manual –  Um grau de incerteza pode ser acrescentado aos mapeamentos (score) –  Informações sobre instâncias, esquemas e matchings podem ser usadas na identificação de mapeamentos 41
  • 42. dataspaces/pay as you go Fase de Inicialização Recursos de dados resultantes –  Virtual, parcialmente materializada ou materializada –  Grau de incerteza (score) –  Duplicatas ou conflitos: pode coexistir ou não 42
  • 43. dataspaces/pay as you go Fase de Uso: busca/consulta Avaliação (resultados de concultas) –  Completa (comp) –  Parcial (part) Se múltiplas fontes são consultadas? –  Combinação de Resultados (Merge ou Union) Verificação de Incerteza –  Scores ou Ranking 43
  • 44. dataspaces/pay as you go Fase de Manutenção e Melhoria §  Manutenção: lida com o fato das fontes de dados serem autônomas §  Melhoria: visa aperfeiçoar os resultados de integração ao longo do tempo §  Mesmos passos da fase de inicialização com algumas adições: –  Feedback para o usuário –  Novos alinhamentos e mapeamentos, no caso de atualizaçõe, ou seja, quando as fontes são modificadas) 44
  • 45. dataspaces/pay as you go Fase: Manutenção e Melhoria Manutenção –  DSMS precisam ser capazes de lidar com a evolução das fontes de dados (adição e/ou remoção de fontes) –  DSMS deve exigir pouco ou nenhum esforço manual para responder a essas mudanças –  Benefícios: •  Reuso de tarefas de integrações já feitas –  Matchings, mapeamentos, esquemas de integração e feedback do usuário 45
  • 46. dataspaces/pay as you go Fase: Manutenção e Melhoria Melhoria §  Aquisição de feedback sobre diferentes recursos de dados •  Alinhamentos •  Mapeamentos •  Esquema de integração •  Consultas §  Uso de Feedback •  Implícito •  Explicito 46
  • 47. dataspaces/pay as you go Propostas de Dataspaces §  ALADIN §  SEMEX §  iMeMeX §  PayGo §  UDI 47
  • 48. algumas referências... §  Araújo, F.F.; Pinheiro, A. M.; Farias, K.M.; Lóscio, F. B; Oliveira, D.M. (2008) FlagelLink: A Decision Support System for Distributed Flagellar Data using Data Warehouse . In: To the 23rd Annual ACM Symposium on Applied Computing. §  Lóscio, B.F. 1998, ‘Atualização de Múltiplas Bases de Dados através de Mediadores’, M.S. thesis, Computer Science Department, University Federal of Ceará. §  Lóscio, B. F. Managing the Evolution of XML-based Mediation Queries, PhD thesis, Informatics Center- Federal University of Pernambuco, 2003. §  Breitman, K. K.; Casanova, M. A.; Truszkowski, W. (2007) Semantic Web: Concepts, Technologies and Applications. Londres: Springer, 2007, v.1. p.337. §  Guarino, N. (1998) Formal Ontology and Information Systems. In N. Guarino, (Ed.) Formal Ontology in Information Systems, pp. 3-15, IOS Press, Amsterdam, Netherlands. §  Uschold, M., Gruninger, M. (2004) Ontologies and Semantics for Seamless Connectivity. ACM SIGMOD Record Vol. 33, Issue 4. §  Noy, N. F. (2004) Semantic Integration: A Survey of Ontology-Based Approaches. In ACM SIGMOD Record Vol. 33, Issue 4: pp. 65-70. §  Wache, H., Vögele, T., Visser, U., Stuckenschmidt, H., Schuster, G., Neumann, H. and Hübner, S. (2001) Ontology-based Integration of Information - A Survey of Existing Approaches. In Proceedings of IJCAI-01 Workshop: Ontologies and Information Sharing. §  Lenzerini, M. (2002) Data Integration: A Theoretical Perspective. In Proceedings of ACM Symposium on Principles of Database Systems. §  Halevy, A. Y., Franklin, M. J., Maier, D.: Principles of dataspace systems. PODS (2006). §  Pires, C. E. S. Ontology-based clustering in a peer data management system, PhD thesis, Informatics Center- Federal University of Pernambuco, 2009. §  Souza, D. Using Semantics to enhance query reformulation in dynamic distributed enviornments, PhD thesis, Informatics Center- Federal University of Pernambuco, 2009. 48