With the growth of e-government programs, the available data to citizens is growing in volume every day. However, to make these data a useful source of information, to be referenced and integrated more easily by different applications, they should be published according to the best practices of
Linked Open Data, using standards for description (RDF) and identification
(URI) of data resources on the web. The main goal of this work is to propose a
platform and approach to support the exposure, sharing and association of
data resources in the form of Linked Open Data, offering a user-friendly environment to stimulate the publication of data and their association to other
existing data. Central functionalities to be included are data cleaning, transformation, linking, annotation and referencing to terminology mechanisms.
http://andrefreitas.org/papers/SBBD-Workshop-eGov-preprint.pdf
Kelli de Faria Cordeiro, Fabricio Firmino de Faria, Bianca de Oliveira Pereira, André Freitas, João Vitor Villas Boas Freitas, Ana Christina Bringuente, Lucas de Oliveira Arantes, Rodrigo Calhau, Veruska Zamborlini, Maria Luiza Machado Campos, Giancarlo Guizzardi, An Approach for Managing and Semantically Enriching the Publication of Linked Open Governmental Data, 3rd Workshop of Applied Computing in Electronic Government (WCGE), In WEBMEDIA/SBBD, 2011
Dados Abertos e os Serviços para a Gestão de Dados de Investigação - Workshop...
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
1. An approach for managing and
semantically enriching the publication
of Linked Open Governmental Data
Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1, Bianca de Oliveira Pereira1,2, André
Freitas2, Cristiano Expedito Ribeiro1, João Vitor Villas Boas Freitas1, Ana Christina
Bringuente3, Lucas de Oliveira Arantes3, Rodrigo Calhau3, Veruska Zamborlini3, Maria
Luiza Machado Campos1, Giancarlo Guizzardi3
1Graduate Program in Informatics (PPGI)
Federal University of Rio de Janeiro (UFRJ) – Brazil
2Digital
Enterprise Research Institute (DERI)
National University of Ireland – Galway – Ireland
3Ontology and Conceptual Modeling Research Group (NEMO) – Computer Science
Department – Federal University of Espírito Santo (UFES) – Brazil
2. Agenda
• Motivação e contextualização
• Cenário Atual em Dados Abertos Interligados (LOD)
• Projeto LinkedDataBR
• ETL Workflow
• Tratamento Semântico Incremental
• Estudo de Caso
• Considerações finais
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 2
3. Motivação e contextualização
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 3
4. Motivação e contextualização
Estão abertos?
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 4
5. Motivação e contextualização
RNP
CAPES
CNPq
Uso conjunto
é ainda um desafio!
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 5
6. Motivação e contextualização
• Interoperabilidade e Integração de dados na Web ainda
requerem considerável esforço
– Mesmo dentro de uma organização!
. Tivemos SGBD por mais de meio século, mas conseguimos a
integração que se pretendia? O que faltou ?
– E agora, na Web:
• Distribuídos, heterogêneos, em grande escala, altamente
visíveis, grande número de diferentes usuários, …
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 6
7. Linked Open Data (LOD)
• LOD pode ser considerado uma abordagem mais
simplista de uso de tecnologias da Web Semântica
• Baseada em triplas (RDF) para representar os dados de
forma realmente “granular”
– Facilita a interligação
– Acompanhado de um descritor
• Abordagem pay-as-you-go
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 7
8. Linked Open Data (LOD)
– O que vem a ser Dados Abertos Interligados?
• Utilização ampla de padrões
• Representação de dados em um grão mínimo (triplas RDF)
– Flexibilidade nas ligações entre itens de dados
• Tem a interoperabilidade em sua essência
– RDF: Resource DESCRIPTION Framework
» Criado para interoperar METADADOS!
– Descritores estão na base da proposta
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 8
9. Linked Open Data (LOD)
– Uma maneira “nova” de publicar e consumir dados!
• O poder das ligações tipadas
• O poder da colaboração
– Consumidores podem ser publicadores também!
• Mais e mais dados sendo gerados e potencialmente
“ligáveis”
– Sensores e Web das Coisas
• Dados e metadados sendo explorados juntos em
novas aplicações
• Consulta E Navegação E Busca!
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 9
10. Dados publicados como LOD
265 datasets - 32 bilhões de triplas - 42% de dados de governo
Setembro de 2011
Até quando conseguiremos representar esta nuvem?
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 10
11. Cenário Atual - Internacional
• Muitas iniciativas de governo
– Governo Britânico, Estados Unidos, Espanha, etc.
– Diferentes abordagens
– Entrando em fase mais madura
• Muitas iniciativas do setor privado
– BBC, New York Times, ...
• Muitas iniciativas em e-Ciência
– Dados genômicos, dados de meio-ambiente,...
• Forte envolvimento da área acadêmica
– Consórcio W3C, Sir Tim Berners Lee (MIT)
– DERI/NUI (Irlanda), Univ. Berlim (Alemanha), Univ. de Madri (Espanha)
– Projeto LOD2
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 11
12. Cenário Atual - Internacional
• Grande diversidade de ferramentas
– Ainda sendo experimentadas
– Foco em atividades específicas de publicação, consumo e colaboração
– Ainda razoável esforço requerido para seu uso conjunto
• Abordagem liberal
– Prioridade para “expor” os dados e depois ir complementando sua
descrição
– Uso de ontologias ainda incipiente
– Processo de publicação muito artesanal
– Qualidade do dado publicado ainda pouco rastreável
• Entrando em fase de amadurecimento
– Maior preocupação com semântica e descritores
– Frameworks para integração de ferramentas sendo discutidos
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 12
13. Cenário Atual - Nacional
• Inicialmente evoluindo sobre pesquisas e aplicações da Web
Semântica e Ontologias
• PUC-RJ, UFRJ, UFES, PUC-RJ, PUC-RS, …
• Interesse crescente no Governo:
– Inicialmente uma certa confusão com dados abertos
– Acordo assinado entre o Brasil, EUA e mais 6 países
– Tema do CONSEGI deste ano
– Ministério do Planejamento :
• Cria o INDA – Infraestrutura Nacional de Dados Abertos
• Baseada em LOD e uso de ontologias
– Apoio do W3C Brasil e CGI/BR
• Cria o GT Ontologias
– Iniciativas experimentais em LOD
• Experimentos pontuais -> simples conversão de dados e interfaces atraentes
• Tecnologia ainda pouco conhecida
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 13
14. Linked
LinkedDataBR
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
15. Nossa Abordagem Linked
• Alguns domínios requerem uma abordagem sistemática
que garanta:
– Maior controle do processo
– Manutenção da consistência dos dados sendo publicados
• Este é o caso de:
– Dados Governamentais
– Dados de e-Ciência
• Necessário adotar uma abordagem de “gestão de dados”
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 15
16. LinkedDataBR - FOCO Linked
• Foco
– no apoio ao processo de publicação
– na qualidade do dado
• Característica da solução:
– Plataforma integrada e flexível
– Maximização no reuso de ferramentas existentes
(software livre)
– Explorar:
• Gerência de metadados
• Apoio ao processo com ferramenta de workflow (ETL)
• Tratamento Semântico
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
17. LinkedDataBR - FOCO Linked
LinkedDataBR
Feed/Expose
Treatment Process LinkedDataCloud
Governmental and Non
Governmental Entities
Pre-
Universities and Research Processing Triplification Linking
Institutes
Data Producers
Consumers
Requests Governmental and Non
URI Governmental Entities
Provenance Vocabulary Triples Responses Universities and Research
Ontology Linked Data Institutes
Citizen and Private
Repository Queries Companies
Consume/Explore
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 17
18. Projeto LinkedDataBR Linked
• Objetivos
– Construção de uma infra-estrutura inicial de suporte à
publicação e criação de repositórios de dados abertos
utilizando os padrões de Linked Data
E ainda:
– Criação de diretrizes associadas ao processo de publicação
– Criação de grupo de interesse e mobilização para apoio e
estímulo à iniciativa de Linked Open Data no Brasil e sua
inserção no cenário mundial de dados abertos interligados.
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 18
19. Projeto LinkedDataBR Linked
• Arquitetura
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 19
20. ETL Workflow (Captura de Proveniência)
Publishing Workflow Process
Extract Transform Load
Stage Triplify Linking
Workflow Implementation Design
Raw Government Triples
Data
Provenance
Prospective Provenance Data Triples
Workflow Implementation Execution
Linked Open
Government Data
Retrospective Provenance Data
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 20
21. Publicação de Dados Abertos Ligados
ABORDAGENS PARA O
ENRIQUECIMENTO SEMÂNTICO
21
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 21
22. Ausência de preocupação com a semântica
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 22
23. Alguma preocupação com a semântica
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 23
24. Preocupação mediana com a semântica
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 24
25. Muita preocupação com a semântica
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 25
26. Linked
Exemplo de Cenário de Publicação de
Dados Interligados
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 26
27. Cenário de Aplicação C&T
Cenário de Financiamentos de Projetos de Pesquisa
Projetos de
Currículos de Instituições de
Pesquisa
Pesquisadores Pesquisa
tem
participação
RNP tem
Lattes de instituição eMec
tem
FNDCT
participação
de
Grupos de
Pesquisa - CNPq
GP-CNPq
27
32. Resultado
swrc:Project
Projetos GrupoTrabalho Instituticao
Grafos interligados RNP
“LinkedDataBR”
WGFase LODBR temNome
temFase temInsituicao UFRJ
LODBR_Ph1 “Universidade
temNome
Federal do Rio temSigla
Participante temParticipacaoDe do Janeiro” “UFRJ”
swrc:University
temNome “Maria Luiza
CNPq CV Lattes MLMC M. Campos”
Pesquisador eMec Instituições
“Maria Luiza UFRJ temNome
Machado Campos” temNome
MLMC “UFRJ”
“UFRJ” swrc:Person temLocalOferta
enderecoProfissional temSigla
2009 temAno temPublicacao “Universidade
RioJ Federal do Rio
“CrossMDA: a Model- MLMC0232 Grupos de Pesquisa CNPq do Janeiro”
driven Approach for temTitulo MLMC “Maria Luiza
Aspect Management” temNome
M.Campos”
Publicacao temParticipante
“Grupo
temArea Engenharia do
swrc:Publication GRECO Predominante Conhecimento”
swrc:ResearchGroup
temNome “Knowledge Engineering”
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
33. Resultado
...
<rdf:Description rdf:about="http://www.rnp.br/resource/LDBR_Ph1">
<rdf:type rdf:resource="http://www.rnp.br/ontology/WGPhase"/>
<rnp:hasParticipationOf rdf:resource="http://www.rnp.br/resource/MLMC"/>
</rdf:Description>
...
<rdf:Description rdf:about="http://www.rnp.br/resource/MLMC">
<rdf:type rdf:resource="http://www.rnp.br/ontology/Participant"/>
<rdf:type rdf:resource="http://swrc.ontoware.org/ontology/Person"/>
<rnp:hasFullName> Maria Luiza Machado Campos </rnp:hasFullName>
<owl:sameAs rdf:resource="http://lattes.cnpq.br/resource/MLMC"/>
<owl:sameAs rdf:resource="http://www.cnpq.br/resource/MLMC"/>
</rdf:Description>
...
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 33
34. Considerações Finais
• Iniciativas nacionais e internacionais pela transparência das
ações governamentais e participação do cidadão.
• Dado Aberto possui um papel fundamental, mas o valor real
do dado é revelado se os dados são explorados em conjunto.
• LOD é uma abordagem de interoperabilidade e integração
• Em LOGD é essencial considerar algumas garantias de
qualidade e estratégias de interoperabilidade
• Plataforma do LinkedDataBR e a abordagem de
enriquecimento semântico incremental
• Concebida para apoiar os publicadores e gestores de dados de
governo
• O potencial da colaboração do cidadão (wisdom of the
crowds) desempenhará um papel importante no
mapeamento e ligação.
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 34
35. An approach for managing and
semantically enriching the publication
of Linked Open Governmental Data
http://greco.ppgi.ufrj.br/gtlinkedbr/
Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1, Bianca de Oliveira Pereira1,2, André
Freitas2, Cristiano Expedito Ribeiro1, João Vitor Villas Boas Freitas1, Ana Christina
Bringuente3, Lucas de Oliveira Arantes3, Rodrigo Calhau3, Veruska Zamborlini3, Maria
Luiza Machado Campos1, Giancarlo Guizzardi3
1Graduate Program in Informatics (PPGI)
Federal University of Rio de Janeiro (UFRJ) – Brazil
2Digital
Enterprise Research Institute (DERI)
National University of Ireland – Galway – Ireland
3Ontology and Conceptual Modeling Research Group (NEMO) – Computer Science
Department – Federal University of Espírito Santo (UFES) – Brazil