SlideShare une entreprise Scribd logo
1  sur  49
Télécharger pour lire hors ligne
Gestão de dados de investigação 
da recolha até ao depósito 
! 
Uma abordagem baseada em ontologias e dados ligados 
Cristina Ribeiro 
mcr@fe.up.pt DEI—Faculdade de 
Engenharia da 
Universidade do 
João Correia Lopes Porto / INESC TEC 
jlopes@fe.up.pt 
João Rocha da Silva 
joaorosilva@gmail.com 
Faculdade de 
Engenharia da 
Universidade do 
Porto / INESC TEC 
João Aguiar Castro 
joaoaguiarcastro@gmail.com 
Ricardo Amorim 
ricardo.amorim3@gmail.com 
CONFOA 2014, 6-7 outubro 2014, Coimbra 
1
Conteúdo 
• Gestão de dados de investigação no “long tail” 
• “Linked Open Data”: porque é importante? 
• Colaboração para facilitar a criação de metadados 
• A plataforma Dendro 
• Recolha de metadados no laboratório: LabTablet 
• Conclusões 
2
Gestão de dados de 
investigação no “long tail” 
Porque é preciso começar cedo 
3
A “cauda longa” da 
investigação 
2011: a revista “Science” inquiriu os revisores 
do ano anterior sobre as suas práticas 
de uso e disponibilização de dados 
4
A “cauda longa” da 
investigação 
2011: a revista “Science” inquiriu os revisores 
do ano anterior sobre as suas práticas 
de uso e disponibilização de dados 
~1700 respostas 
4
Source 
Dealing with data. Challenges and opportunities. Introduction. (2011). Science 
(New York, N.Y.), 331(6018), 692–3. doi:10.1126/science.331.6018.692 
5
Source 
Dealing with data. Challenges and opportunities. Introduction. (2011). Science 
(New York, N.Y.), 331(6018), 692–3. doi:10.1126/science.331.6018.692 
6
Recolha 
Processamento 
Escrita de artigo 
Preservação, 
Partilha 
7
Recolha 
Processamento 
Escrita de artigo 
8
Recolha 
Processamento 
Escrita de artigo 
8 
Investigador sai
Recolha 
Processamento 
Escrita de artigo 
8 
Investigador sai 
Metadata
Recolha 
Processamento 
Escrita de artigo 
9
Recolha 
Processamento 
Escrita de artigo 
9 
Projeto termina
Recolha 
Processamento 
Escrita de artigo 
10 
“Onde estão os dados?” 
“Como / quando / por quem foram 
produzidos?”
Os curadores não conseguem lidar com a 
descrição a posteriori 
Os investigadores têm de participar 
na gestão dos dados desde o início 
São eles os especialistas do domínio 
11
Dados Abertos Ligados 
(“Linked Open Data”) 
O que são? Porque precisamos deles ? 
12
Linked Open Data 
• Simplicidade! 
- O LOD é um modelo muito simples para representar dados 
• Significado! 
- Recursos são ligados por propriedades com significados 
bem estabelecidos 
• Interoperabilidade! 
- Métodos normalizados para interrogar dados - SPARQL 
- Representações em formatos normalizados - RDF, OWL 
13
14
! 
! 
!!! 
! 
http://dendro.fe.up.pt/project/ 
datanotes/data/base 
%20data.xls 
14
nie:isLogicalPartOf 
!!!! 
http://dendro.fe.up.pt/ 
project/datanotes/data 
! 
! 
!!! 
! 
http://dendro.fe.up.pt/project/ 
datanotes/data/base 
%20data.xls 
14
nie:isLogicalPartOf 
!!!! 
http://dendro.fe.up.pt/ 
project/datanotes/data 
rdf:type 
nie:File 
! 
! 
!!! 
! 
http://dendro.fe.up.pt/project/ 
datanotes/data/base 
%20data.xls 
14
nie:isLogicalPartOf 
!!!! 
http://dendro.fe.up.pt/ 
project/datanotes/data 
“Base data of the 
DCB experiments” 
dc:title 
rdf:type 
nie:File 
! 
! 
!!! 
! 
http://dendro.fe.up.pt/project/ 
datanotes/data/base 
%20data.xls 
14
nie:isLogicalPartOf 
!!!! 
http://dendro.fe.up.pt/ 
project/datanotes/data 
“Base data of the 
DCB experiments” 
dc:title 
nie:title 
base data.xls 
rdf:type 
nie:File 
! 
! 
!!! 
! 
http://dendro.fe.up.pt/project/ 
datanotes/data/base 
%20data.xls 
14
nie:isLogicalPartOf 
!!!! 
http://dendro.fe.up.pt/ 
project/datanotes/data 
“Base data of the 
DCB experiments” 
dc:title 
nie:title 
base data.xls 
rdf:type 
nie:File 
dcb:initialCrackLength 
180mm 
! 
! 
!!! 
! 
http://dendro.fe.up.pt/project/ 
datanotes/data/base 
%20data.xls 
14
Dataset de Química 
Analítica 
Dataset de Mecânica 
de Fratura 
… 
Genéricos 
Author 
Description 
Creation date 
… 
Author 
Description 
Creation date 
… 
… 
Específicos do 
Domínio 
Sample Count 
Analysed Substance 
… 
Initial Crack Length 
Specimen Type 
… 
15
Colaboração 
Na criação de metadados úteis agora e no futuro 
16
Recolha 
Processamento 
Escrita de artigo 
Preservação, 
Partilha 
17
Recolha 
Depósito 
Colaboração Descrição 
Depósito 
a longo prazo 
Partilha 
18
Gathering 
… 
19
Dendro 
Uma plataforma de código aberto para “Linked 
Open Data” em ambientes de investigação 
20
21
Metadados 
Ontologias 
Descrição 
• Armazenamwento de 
dados suportado em 
“Linked Data” 
• Sem base de dados 
relacional 
• Modelo cresce com 
carregamento de 
ontologias 
• Sistemas externos 
recuperam recursos via 
SPARQL 
22
Metadata 
Ontologies 
File 
Storage 
! 
! 
Depósito 
• Cluster HFS para 
ficheiros grandes 
ou numerosos 
• Construído para 
a nuvem 
23
Metadata 
Ontologies 
Business 
Logic 
File 
Storage 
! 
! 
Colaboração 
• Controlo de acessos 
flexível 
• Histórico de versões 
• Pré-visualização de 
dados 
• Salvaguarda / Restauro 
• Integração 
• DSpace (SWORD) 
• ePrints (SWORD) 
• CKAN 
• Figshare 
24
Metadata 
Ontologies 
API 
Business 
Logic 
File 
Storage 
! 
! 
Partilha 
• Todas as operações 
disponíveis via API 
RESTful usando JSON 
• Todos os recursos des-referenciáveis 
(HTTP 
content negotiation) 
• Arquitetura de 
“plugins” permite 
integração com 
sistemas externos 
Web UI 
25
Para os curadores 
• Os curadores podem trabalhar com os investigadores 
para construir ontologias usando ferramentas (ex: Protégé) 
• Ontologias estabelecidas podem ser carregadas (DC, 
FOAF…) 
• As ontologias amadurecem (com reutilização em 
instâncias Dendro) 
• Dados, metadados e o seu significado mantêm-se juntos 
Beyond ! 
INSPIRE: An ontology for biodiversity metadata records Creating lightweight ontologies for dataset description: Practical applications in a 
cross-domain research data management workflow 
Rocha da Silva, J., Castro, J., Ribeiro, C., Honrado, J., Lomba, A., Gonçalves, J. 
Castro, J., Rocha da Silva, J., Ribeiro, C. 
10th International Workshop on Ontology Content (OntoContent 2014) 
Digital Libraries 2014 (DL2014) 
(pre-print available at http://dendro.fe.up.pt/) (pre-print available at http://dendro.fe.up.pt/) 
26
Para os programadores 
• 100% software de código aberto 
• Uma API rica permite ligar o Dendro a qualquer 
sistema (ex: aplicações móveis) 
Ontology-based multi-domain metadata for research data management using triple stores 
LabTablet: semantic metadata collection on a multi-domain laboratory notebook 
Rocha da Silva, J., Ribeiro, C., Correia Lopes, J. 
Amorim,R., Castro, J., Rocha da Silva, J., Ribeiro, C. 
18th International Database Engineering & Applications Symposium (IDEAS 2014) 
8th Metadata and Semantics Research Conference (MTSR 2014) 
(pre-print available at http://dendro.fe.up.pt/) (pre-print available at http://dendro.fe.up.pt/) 
27
Usando a API: LabTablet 
• Cadernos de laboratório: fonte de metadados do 
domínio 
• Caderno de laboratório eletrónico: metadados 
importados para Dendro 
LabTablet: semantic metadata collection on a multi-domain laboratory notebook 
Amorim,R., Castro, J., Rocha da Silva, J., Ribeiro, C. 
8th Metadata and Semantics Research Conference (MTSR 2014) 
(pre-print available at http://dendro.fe.up.pt/) 28
29
30
LabTablet: uso dos sensores 
do dispositivo 
31
32
Independência da aplicação 
Triple Store Ontologias 
“Base de Dados” “Documentação” 
33
Conclusões 
• Gestão de dados de investigação deve começar cedo 
• “Linked Open Data”: simples, flexível, interoperável 
• O suporte à colaboração ajuda os investigadores a 
recolher metadados tendo em vista o depósito 
• Dendro: uma plataforma completamente “open-source” 
para RDM, construída sobre “Linked Open Data” 
• O Dendro integra com as principais plataformas de 
repositórios 
34
Conclusões (cont.) 
• Outras aplicações: comunicação via API 
• Ontologias: fonte de descritores para metadados 
• O modelo de dados cresce à medida que se 
acrescentam ontologias 
• Os curadores podem modelar e partilhar as ontologias 
• As ontologias dos domínios evoluem com a 
reutilização 
35
Visit us at 
http://dendro.fe.up.pt 
36
Extras 
37
RDF/XML, 
SPARQL 
Endpoint 
HTML 
JSON 
API 
DB Adapter ES Endpoint GridFS Client 
Presentation 
Graph Database 
(LOD) 
Web Interface 
Distributed 
document index 
AngularJS 
(JavaScript) 
NodeJS 
(JavaScript) 
File Storage 
Cluster 
Business Logic 
Logic 
Openlink 
Virtuoso 7 
ElasticSearch 
MongoDB 
(GridFS) 
Web Human Users 
JSON JSON JSON 
Data 
38
Curated 
Dataset 
Working 
Files 
Deposit 
Curator 
Dendro 
FOAF 
DC 
dc:title 
nie:isPartOf 
dcb:specimenLength 
Ontology 
concept 
reuse 
Web Portal 
SPARQL 
Endpoint 
Sharing  
evolution 
“Mature” 
ontologies on the web 
Metadata 
validation 
Data 
producers 
Free-Text 
Search 
API 
CKAN 
Dryad 
Domain-Specific 
Lightweight Ontologies 
dcb 
dcb 
Data 
reuser 
dcb 
Specification of new metadata ontologies 
1 
2 
3 
4 
39

Contenu connexe

Similaire à Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarRecursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarBianca Santana
 
Data RepositóriUM: projeto de implementação do repositório de dados para a Un...
Data RepositóriUM: projeto de implementação do repositório de dados para a Un...Data RepositóriUM: projeto de implementação do repositório de dados para a Un...
Data RepositóriUM: projeto de implementação do repositório de dados para a Un...Pedro Príncipe
 
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 20144 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014WANDERSON JONER
 
Tecnologias para bibliotecas
Tecnologias para bibliotecasTecnologias para bibliotecas
Tecnologias para bibliotecasAnderson Santana
 
Visualização de dados
Visualização de dadosVisualização de dados
Visualização de dadoslrmodesto
 
Diretrizes OpenAire para Repositórios de Dados, Repositórios de Literatura e ...
Diretrizes OpenAire para Repositórios de Dados, Repositórios de Literatura e ...Diretrizes OpenAire para Repositórios de Dados, Repositórios de Literatura e ...
Diretrizes OpenAire para Repositórios de Dados, Repositórios de Literatura e ...Pedro Príncipe
 
Ver
VerVer
Vercsmp
 
Modeloestruturaçaoads
ModeloestruturaçaoadsModeloestruturaçaoads
Modeloestruturaçaoadscsmp
 
Uma Arquitetura com Implementação para Integração Semântica de Ontologias e B...
Uma Arquitetura com Implementação para Integração Semântica de Ontologias e B...Uma Arquitetura com Implementação para Integração Semântica de Ontologias e B...
Uma Arquitetura com Implementação para Integração Semântica de Ontologias e B...Adriel Café
 
Linked Data - Minicurso - SBBD 2011
Linked Data - Minicurso - SBBD 2011Linked Data - Minicurso - SBBD 2011
Linked Data - Minicurso - SBBD 2011Regis Magalhães
 
Dataverse cariniana 2017
Dataverse cariniana 2017Dataverse cariniana 2017
Dataverse cariniana 2017Cariniana Rede
 
Projeto Piloto de Web Semântica com Dados da Secretaria da Saúde
Projeto Piloto de Web Semântica com Dados da Secretaria da SaúdeProjeto Piloto de Web Semântica com Dados da Secretaria da Saúde
Projeto Piloto de Web Semântica com Dados da Secretaria da SaúdeinovaDay .
 

Similaire à Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados (20)

Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarRecursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
 
Desafios e oportunidades da interoperabilidade nos repositórios de acesso aberto
Desafios e oportunidades da interoperabilidade nos repositórios de acesso abertoDesafios e oportunidades da interoperabilidade nos repositórios de acesso aberto
Desafios e oportunidades da interoperabilidade nos repositórios de acesso aberto
 
Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...
Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...
Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...
 
Software DSpace 2 de 4
Software DSpace 2 de 4Software DSpace 2 de 4
Software DSpace 2 de 4
 
Diretrizes OpenAire para repositorios
Diretrizes OpenAire para repositorios Diretrizes OpenAire para repositorios
Diretrizes OpenAire para repositorios
 
Pesquisa Reproduzivel
Pesquisa ReproduzivelPesquisa Reproduzivel
Pesquisa Reproduzivel
 
O NoSQL e o Relacional: Uma Análise
O NoSQL e o Relacional: Uma AnáliseO NoSQL e o Relacional: Uma Análise
O NoSQL e o Relacional: Uma Análise
 
Dados de pesquisa: compartilhamento e publicação
Dados de pesquisa: compartilhamento e publicaçãoDados de pesquisa: compartilhamento e publicação
Dados de pesquisa: compartilhamento e publicação
 
Data RepositóriUM: projeto de implementação do repositório de dados para a Un...
Data RepositóriUM: projeto de implementação do repositório de dados para a Un...Data RepositóriUM: projeto de implementação do repositório de dados para a Un...
Data RepositóriUM: projeto de implementação do repositório de dados para a Un...
 
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 20144 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
 
Tecnologias para bibliotecas
Tecnologias para bibliotecasTecnologias para bibliotecas
Tecnologias para bibliotecas
 
Visualização de dados
Visualização de dadosVisualização de dados
Visualização de dados
 
Diretrizes OpenAire para Repositórios de Dados, Repositórios de Literatura e ...
Diretrizes OpenAire para Repositórios de Dados, Repositórios de Literatura e ...Diretrizes OpenAire para Repositórios de Dados, Repositórios de Literatura e ...
Diretrizes OpenAire para Repositórios de Dados, Repositórios de Literatura e ...
 
Ver
VerVer
Ver
 
Modeloestruturaçaoads
ModeloestruturaçaoadsModeloestruturaçaoads
Modeloestruturaçaoads
 
Uma Arquitetura com Implementação para Integração Semântica de Ontologias e B...
Uma Arquitetura com Implementação para Integração Semântica de Ontologias e B...Uma Arquitetura com Implementação para Integração Semântica de Ontologias e B...
Uma Arquitetura com Implementação para Integração Semântica de Ontologias e B...
 
Digital Object Identifier (DOI) viabilizando a via verde
Digital Object Identifier (DOI) viabilizando a via verdeDigital Object Identifier (DOI) viabilizando a via verde
Digital Object Identifier (DOI) viabilizando a via verde
 
Linked Data - Minicurso - SBBD 2011
Linked Data - Minicurso - SBBD 2011Linked Data - Minicurso - SBBD 2011
Linked Data - Minicurso - SBBD 2011
 
Dataverse cariniana 2017
Dataverse cariniana 2017Dataverse cariniana 2017
Dataverse cariniana 2017
 
Projeto Piloto de Web Semântica com Dados da Secretaria da Saúde
Projeto Piloto de Web Semântica com Dados da Secretaria da SaúdeProjeto Piloto de Web Semântica com Dados da Secretaria da Saúde
Projeto Piloto de Web Semântica com Dados da Secretaria da Saúde
 

Plus de Conferência Luso-Brasileira de Ciência Aberta

Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...Conferência Luso-Brasileira de Ciência Aberta
 

Plus de Conferência Luso-Brasileira de Ciência Aberta (20)

Citações e métricas complementares: um estudo da sua correlação em artigos ci...
Citações e métricas complementares: um estudo da sua correlação em artigos ci...Citações e métricas complementares: um estudo da sua correlação em artigos ci...
Citações e métricas complementares: um estudo da sua correlação em artigos ci...
 
Pré-Workshop: Formação em Edição Eletrónica
Pré-Workshop: Formação em Edição EletrónicaPré-Workshop: Formação em Edição Eletrónica
Pré-Workshop: Formação em Edição Eletrónica
 
Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...
Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...
Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...
 
10 anos RCAAP - ConfOA
10 anos RCAAP - ConfOA10 anos RCAAP - ConfOA
10 anos RCAAP - ConfOA
 
Programa de formação modular sobre Ciência Aberta
Programa de formação modular sobre Ciência AbertaPrograma de formação modular sobre Ciência Aberta
Programa de formação modular sobre Ciência Aberta
 
Análise da Produção Científica Brasileira em Periódicos de Acesso Aberto
Análise da Produção Científica Brasileira em Periódicos de Acesso AbertoAnálise da Produção Científica Brasileira em Periódicos de Acesso Aberto
Análise da Produção Científica Brasileira em Periódicos de Acesso Aberto
 
Acesso aberto como ferramenta para o empoderamento do paciente
Acesso aberto como ferramenta para o empoderamento do pacienteAcesso aberto como ferramenta para o empoderamento do paciente
Acesso aberto como ferramenta para o empoderamento do paciente
 
Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...
Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...
Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...
 
Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...
Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...
Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...
 
Melhorando a citabilidade de programas de computador para pesquisa com o Cita...
Melhorando a citabilidade de programas de computador para pesquisa com o Cita...Melhorando a citabilidade de programas de computador para pesquisa com o Cita...
Melhorando a citabilidade de programas de computador para pesquisa com o Cita...
 
Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...
Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...
Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...
 
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
 
Serviço Nacional de Registo de Identificadores DOI
Serviço Nacional de Registo de Identificadores DOIServiço Nacional de Registo de Identificadores DOI
Serviço Nacional de Registo de Identificadores DOI
 
Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...
Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...
Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...
 
Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...
Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...
Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...
 
Preservação digital, gestão de dados de pesquisa e biodversidade
Preservação digital, gestão de dados de pesquisa e biodversidadePreservação digital, gestão de dados de pesquisa e biodversidade
Preservação digital, gestão de dados de pesquisa e biodversidade
 
Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...
Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...
Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...
 
Do acesso à informação aos Dados Parlamentares Abertos em Portugal
Do acesso à informação aos Dados Parlamentares Abertos em PortugalDo acesso à informação aos Dados Parlamentares Abertos em Portugal
Do acesso à informação aos Dados Parlamentares Abertos em Portugal
 
Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...
Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...
Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...
 
Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...
Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...
Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...
 

Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

  • 1. Gestão de dados de investigação da recolha até ao depósito ! Uma abordagem baseada em ontologias e dados ligados Cristina Ribeiro mcr@fe.up.pt DEI—Faculdade de Engenharia da Universidade do João Correia Lopes Porto / INESC TEC jlopes@fe.up.pt João Rocha da Silva joaorosilva@gmail.com Faculdade de Engenharia da Universidade do Porto / INESC TEC João Aguiar Castro joaoaguiarcastro@gmail.com Ricardo Amorim ricardo.amorim3@gmail.com CONFOA 2014, 6-7 outubro 2014, Coimbra 1
  • 2. Conteúdo • Gestão de dados de investigação no “long tail” • “Linked Open Data”: porque é importante? • Colaboração para facilitar a criação de metadados • A plataforma Dendro • Recolha de metadados no laboratório: LabTablet • Conclusões 2
  • 3. Gestão de dados de investigação no “long tail” Porque é preciso começar cedo 3
  • 4. A “cauda longa” da investigação 2011: a revista “Science” inquiriu os revisores do ano anterior sobre as suas práticas de uso e disponibilização de dados 4
  • 5. A “cauda longa” da investigação 2011: a revista “Science” inquiriu os revisores do ano anterior sobre as suas práticas de uso e disponibilização de dados ~1700 respostas 4
  • 6. Source Dealing with data. Challenges and opportunities. Introduction. (2011). Science (New York, N.Y.), 331(6018), 692–3. doi:10.1126/science.331.6018.692 5
  • 7. Source Dealing with data. Challenges and opportunities. Introduction. (2011). Science (New York, N.Y.), 331(6018), 692–3. doi:10.1126/science.331.6018.692 6
  • 8. Recolha Processamento Escrita de artigo Preservação, Partilha 7
  • 10. Recolha Processamento Escrita de artigo 8 Investigador sai
  • 11. Recolha Processamento Escrita de artigo 8 Investigador sai Metadata
  • 13. Recolha Processamento Escrita de artigo 9 Projeto termina
  • 14. Recolha Processamento Escrita de artigo 10 “Onde estão os dados?” “Como / quando / por quem foram produzidos?”
  • 15. Os curadores não conseguem lidar com a descrição a posteriori Os investigadores têm de participar na gestão dos dados desde o início São eles os especialistas do domínio 11
  • 16. Dados Abertos Ligados (“Linked Open Data”) O que são? Porque precisamos deles ? 12
  • 17. Linked Open Data • Simplicidade! - O LOD é um modelo muito simples para representar dados • Significado! - Recursos são ligados por propriedades com significados bem estabelecidos • Interoperabilidade! - Métodos normalizados para interrogar dados - SPARQL - Representações em formatos normalizados - RDF, OWL 13
  • 18. 14
  • 19. ! ! !!! ! http://dendro.fe.up.pt/project/ datanotes/data/base %20data.xls 14
  • 20. nie:isLogicalPartOf !!!! http://dendro.fe.up.pt/ project/datanotes/data ! ! !!! ! http://dendro.fe.up.pt/project/ datanotes/data/base %20data.xls 14
  • 21. nie:isLogicalPartOf !!!! http://dendro.fe.up.pt/ project/datanotes/data rdf:type nie:File ! ! !!! ! http://dendro.fe.up.pt/project/ datanotes/data/base %20data.xls 14
  • 22. nie:isLogicalPartOf !!!! http://dendro.fe.up.pt/ project/datanotes/data “Base data of the DCB experiments” dc:title rdf:type nie:File ! ! !!! ! http://dendro.fe.up.pt/project/ datanotes/data/base %20data.xls 14
  • 23. nie:isLogicalPartOf !!!! http://dendro.fe.up.pt/ project/datanotes/data “Base data of the DCB experiments” dc:title nie:title base data.xls rdf:type nie:File ! ! !!! ! http://dendro.fe.up.pt/project/ datanotes/data/base %20data.xls 14
  • 24. nie:isLogicalPartOf !!!! http://dendro.fe.up.pt/ project/datanotes/data “Base data of the DCB experiments” dc:title nie:title base data.xls rdf:type nie:File dcb:initialCrackLength 180mm ! ! !!! ! http://dendro.fe.up.pt/project/ datanotes/data/base %20data.xls 14
  • 25. Dataset de Química Analítica Dataset de Mecânica de Fratura … Genéricos Author Description Creation date … Author Description Creation date … … Específicos do Domínio Sample Count Analysed Substance … Initial Crack Length Specimen Type … 15
  • 26. Colaboração Na criação de metadados úteis agora e no futuro 16
  • 27. Recolha Processamento Escrita de artigo Preservação, Partilha 17
  • 28. Recolha Depósito Colaboração Descrição Depósito a longo prazo Partilha 18
  • 30. Dendro Uma plataforma de código aberto para “Linked Open Data” em ambientes de investigação 20
  • 31. 21
  • 32. Metadados Ontologias Descrição • Armazenamwento de dados suportado em “Linked Data” • Sem base de dados relacional • Modelo cresce com carregamento de ontologias • Sistemas externos recuperam recursos via SPARQL 22
  • 33. Metadata Ontologies File Storage ! ! Depósito • Cluster HFS para ficheiros grandes ou numerosos • Construído para a nuvem 23
  • 34. Metadata Ontologies Business Logic File Storage ! ! Colaboração • Controlo de acessos flexível • Histórico de versões • Pré-visualização de dados • Salvaguarda / Restauro • Integração • DSpace (SWORD) • ePrints (SWORD) • CKAN • Figshare 24
  • 35. Metadata Ontologies API Business Logic File Storage ! ! Partilha • Todas as operações disponíveis via API RESTful usando JSON • Todos os recursos des-referenciáveis (HTTP content negotiation) • Arquitetura de “plugins” permite integração com sistemas externos Web UI 25
  • 36. Para os curadores • Os curadores podem trabalhar com os investigadores para construir ontologias usando ferramentas (ex: Protégé) • Ontologias estabelecidas podem ser carregadas (DC, FOAF…) • As ontologias amadurecem (com reutilização em instâncias Dendro) • Dados, metadados e o seu significado mantêm-se juntos Beyond ! INSPIRE: An ontology for biodiversity metadata records Creating lightweight ontologies for dataset description: Practical applications in a cross-domain research data management workflow Rocha da Silva, J., Castro, J., Ribeiro, C., Honrado, J., Lomba, A., Gonçalves, J. Castro, J., Rocha da Silva, J., Ribeiro, C. 10th International Workshop on Ontology Content (OntoContent 2014) Digital Libraries 2014 (DL2014) (pre-print available at http://dendro.fe.up.pt/) (pre-print available at http://dendro.fe.up.pt/) 26
  • 37. Para os programadores • 100% software de código aberto • Uma API rica permite ligar o Dendro a qualquer sistema (ex: aplicações móveis) Ontology-based multi-domain metadata for research data management using triple stores LabTablet: semantic metadata collection on a multi-domain laboratory notebook Rocha da Silva, J., Ribeiro, C., Correia Lopes, J. Amorim,R., Castro, J., Rocha da Silva, J., Ribeiro, C. 18th International Database Engineering & Applications Symposium (IDEAS 2014) 8th Metadata and Semantics Research Conference (MTSR 2014) (pre-print available at http://dendro.fe.up.pt/) (pre-print available at http://dendro.fe.up.pt/) 27
  • 38. Usando a API: LabTablet • Cadernos de laboratório: fonte de metadados do domínio • Caderno de laboratório eletrónico: metadados importados para Dendro LabTablet: semantic metadata collection on a multi-domain laboratory notebook Amorim,R., Castro, J., Rocha da Silva, J., Ribeiro, C. 8th Metadata and Semantics Research Conference (MTSR 2014) (pre-print available at http://dendro.fe.up.pt/) 28
  • 39. 29
  • 40. 30
  • 41. LabTablet: uso dos sensores do dispositivo 31
  • 42. 32
  • 43. Independência da aplicação Triple Store Ontologias “Base de Dados” “Documentação” 33
  • 44. Conclusões • Gestão de dados de investigação deve começar cedo • “Linked Open Data”: simples, flexível, interoperável • O suporte à colaboração ajuda os investigadores a recolher metadados tendo em vista o depósito • Dendro: uma plataforma completamente “open-source” para RDM, construída sobre “Linked Open Data” • O Dendro integra com as principais plataformas de repositórios 34
  • 45. Conclusões (cont.) • Outras aplicações: comunicação via API • Ontologias: fonte de descritores para metadados • O modelo de dados cresce à medida que se acrescentam ontologias • Os curadores podem modelar e partilhar as ontologias • As ontologias dos domínios evoluem com a reutilização 35
  • 46. Visit us at http://dendro.fe.up.pt 36
  • 48. RDF/XML, SPARQL Endpoint HTML JSON API DB Adapter ES Endpoint GridFS Client Presentation Graph Database (LOD) Web Interface Distributed document index AngularJS (JavaScript) NodeJS (JavaScript) File Storage Cluster Business Logic Logic Openlink Virtuoso 7 ElasticSearch MongoDB (GridFS) Web Human Users JSON JSON JSON Data 38
  • 49. Curated Dataset Working Files Deposit Curator Dendro FOAF DC dc:title nie:isPartOf dcb:specimenLength Ontology concept reuse Web Portal SPARQL Endpoint Sharing evolution “Mature” ontologies on the web Metadata validation Data producers Free-Text Search API CKAN Dryad Domain-Specific Lightweight Ontologies dcb dcb Data reuser dcb Specification of new metadata ontologies 1 2 3 4 39