Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados - Cristina Ribeiro, João Lopes, João Silva, João Castro, Ricardo Amorim
Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados
1. Gestão de dados de investigação
da recolha até ao depósito
!
Uma abordagem baseada em ontologias e dados ligados
Cristina Ribeiro
mcr@fe.up.pt DEI—Faculdade de
Engenharia da
Universidade do
João Correia Lopes Porto / INESC TEC
jlopes@fe.up.pt
João Rocha da Silva
joaorosilva@gmail.com
Faculdade de
Engenharia da
Universidade do
Porto / INESC TEC
João Aguiar Castro
joaoaguiarcastro@gmail.com
Ricardo Amorim
ricardo.amorim3@gmail.com
CONFOA 2014, 6-7 outubro 2014, Coimbra
1
2. Conteúdo
• Gestão de dados de investigação no “long tail”
• “Linked Open Data”: porque é importante?
• Colaboração para facilitar a criação de metadados
• A plataforma Dendro
• Recolha de metadados no laboratório: LabTablet
• Conclusões
2
3. Gestão de dados de
investigação no “long tail”
Porque é preciso começar cedo
3
4. A “cauda longa” da
investigação
2011: a revista “Science” inquiriu os revisores
do ano anterior sobre as suas práticas
de uso e disponibilização de dados
4
5. A “cauda longa” da
investigação
2011: a revista “Science” inquiriu os revisores
do ano anterior sobre as suas práticas
de uso e disponibilização de dados
~1700 respostas
4
6. Source
Dealing with data. Challenges and opportunities. Introduction. (2011). Science
(New York, N.Y.), 331(6018), 692–3. doi:10.1126/science.331.6018.692
5
7. Source
Dealing with data. Challenges and opportunities. Introduction. (2011). Science
(New York, N.Y.), 331(6018), 692–3. doi:10.1126/science.331.6018.692
6
15. Os curadores não conseguem lidar com a
descrição a posteriori
Os investigadores têm de participar
na gestão dos dados desde o início
São eles os especialistas do domínio
11
17. Linked Open Data
• Simplicidade!
- O LOD é um modelo muito simples para representar dados
• Significado!
- Recursos são ligados por propriedades com significados
bem estabelecidos
• Interoperabilidade!
- Métodos normalizados para interrogar dados - SPARQL
- Representações em formatos normalizados - RDF, OWL
13
32. Metadados
Ontologias
Descrição
• Armazenamwento de
dados suportado em
“Linked Data”
• Sem base de dados
relacional
• Modelo cresce com
carregamento de
ontologias
• Sistemas externos
recuperam recursos via
SPARQL
22
33. Metadata
Ontologies
File
Storage
!
!
Depósito
• Cluster HFS para
ficheiros grandes
ou numerosos
• Construído para
a nuvem
23
34. Metadata
Ontologies
Business
Logic
File
Storage
!
!
Colaboração
• Controlo de acessos
flexível
• Histórico de versões
• Pré-visualização de
dados
• Salvaguarda / Restauro
• Integração
• DSpace (SWORD)
• ePrints (SWORD)
• CKAN
• Figshare
24
35. Metadata
Ontologies
API
Business
Logic
File
Storage
!
!
Partilha
• Todas as operações
disponíveis via API
RESTful usando JSON
• Todos os recursos des-referenciáveis
(HTTP
content negotiation)
• Arquitetura de
“plugins” permite
integração com
sistemas externos
Web UI
25
36. Para os curadores
• Os curadores podem trabalhar com os investigadores
para construir ontologias usando ferramentas (ex: Protégé)
• Ontologias estabelecidas podem ser carregadas (DC,
FOAF…)
• As ontologias amadurecem (com reutilização em
instâncias Dendro)
• Dados, metadados e o seu significado mantêm-se juntos
Beyond !
INSPIRE: An ontology for biodiversity metadata records Creating lightweight ontologies for dataset description: Practical applications in a
cross-domain research data management workflow
Rocha da Silva, J., Castro, J., Ribeiro, C., Honrado, J., Lomba, A., Gonçalves, J.
Castro, J., Rocha da Silva, J., Ribeiro, C.
10th International Workshop on Ontology Content (OntoContent 2014)
Digital Libraries 2014 (DL2014)
(pre-print available at http://dendro.fe.up.pt/) (pre-print available at http://dendro.fe.up.pt/)
26
37. Para os programadores
• 100% software de código aberto
• Uma API rica permite ligar o Dendro a qualquer
sistema (ex: aplicações móveis)
Ontology-based multi-domain metadata for research data management using triple stores
LabTablet: semantic metadata collection on a multi-domain laboratory notebook
Rocha da Silva, J., Ribeiro, C., Correia Lopes, J.
Amorim,R., Castro, J., Rocha da Silva, J., Ribeiro, C.
18th International Database Engineering & Applications Symposium (IDEAS 2014)
8th Metadata and Semantics Research Conference (MTSR 2014)
(pre-print available at http://dendro.fe.up.pt/) (pre-print available at http://dendro.fe.up.pt/)
27
38. Usando a API: LabTablet
• Cadernos de laboratório: fonte de metadados do
domínio
• Caderno de laboratório eletrónico: metadados
importados para Dendro
LabTablet: semantic metadata collection on a multi-domain laboratory notebook
Amorim,R., Castro, J., Rocha da Silva, J., Ribeiro, C.
8th Metadata and Semantics Research Conference (MTSR 2014)
(pre-print available at http://dendro.fe.up.pt/) 28
44. Conclusões
• Gestão de dados de investigação deve começar cedo
• “Linked Open Data”: simples, flexível, interoperável
• O suporte à colaboração ajuda os investigadores a
recolher metadados tendo em vista o depósito
• Dendro: uma plataforma completamente “open-source”
para RDM, construída sobre “Linked Open Data”
• O Dendro integra com as principais plataformas de
repositórios
34
45. Conclusões (cont.)
• Outras aplicações: comunicação via API
• Ontologias: fonte de descritores para metadados
• O modelo de dados cresce à medida que se
acrescentam ontologias
• Os curadores podem modelar e partilhar as ontologias
• As ontologias dos domínios evoluem com a
reutilização
35
48. RDF/XML,
SPARQL
Endpoint
HTML
JSON
API
DB Adapter ES Endpoint GridFS Client
Presentation
Graph Database
(LOD)
Web Interface
Distributed
document index
AngularJS
(JavaScript)
NodeJS
(JavaScript)
File Storage
Cluster
Business Logic
Logic
Openlink
Virtuoso 7
ElasticSearch
MongoDB
(GridFS)
Web Human Users
JSON JSON JSON
Data
38
49. Curated
Dataset
Working
Files
Deposit
Curator
Dendro
FOAF
DC
dc:title
nie:isPartOf
dcb:specimenLength
Ontology
concept
reuse
Web Portal
SPARQL
Endpoint
Sharing
evolution
“Mature”
ontologies on the web
Metadata
validation
Data
producers
Free-Text
Search
API
CKAN
Dryad
Domain-Specific
Lightweight Ontologies
dcb
dcb
Data
reuser
dcb
Specification of new metadata ontologies
1
2
3
4
39