O documento descreve o projeto Sabiia, um sistema aberto e integrado de informação em agricultura desenvolvido pela Embrapa. O Sabiia coleta e centraliza metadados de publicações científicas de acesso aberto sobre agricultura de várias instituições. O sistema fornece mecanismos de busca para acessar essas publicações e agrega valor aos dados disponibilizados por provedores de informação.
Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...
Confoa 2011-sabiia
1. Planejamento e desenvolvimento de
serviço de informação em pesquisa
agropecuária: Caso do Sistema Aberto e
Integrado de Informação em Agricultura
(Sabiia)
Isaque Vacari
2° Conferência Luso-Brasileira sobre Acesso Aberto
Rio de Janeiro (RJ) – Novembro de 2011
3. Projeto Sabiia
• Motivação:
Pesquisa Agropecuária
+
Acesso Aberto à Informação
+
Padrão Aberto e Interoperável
+
Software Livre
=
Sistema Aberto e Integrado de Informação em
Agricultura (Sabiia)
4. Projeto Sabiia
O Sistema Aberto e Integrado de Informação em
Agricultura (Sabiia) é um mecanismo de busca
automatizado que coleta e centraliza metadados de
provedores de dados científicos de acesso aberto (OAI-
PMH), previamente selecionados. Essa interface reúne
informações sobre agricultura e áreas afins,
possibilitando o acesso ao texto integral de milhares de
publicações científicas disponíveis em diversas
instituições nacionais e internacionais. O Sabiia permite
o acesso a documentos como livros, capítulos de livros,
artigos em periódicos, folhetos, teses, anais e
proceedings de eventos, entre outros.
5. Projeto Sabiia
• Inicio:
– Janeiro de 2009.
• Contribuições:
– Facilitar e aumentar a visibilidade do acesso as publicações científicas da
área de pesquisa agropecuária e afins.
• Governança:
– Embrapa Informação Tecnológica;
– Embrapa Informática Agropecuária;
– Sistema Embrapa de Bibliotecas (SEB);
• 42 bibliotecas especializadas.
• Parceiros:
– Universidade Federal de Brasília (UnB) – Dr. Fernando César Lima Leite.
• Patrocinador:
– Empresa Brasileira de Pesquisa Agropecuária (Embrapa).
6. Projeto Sabiia
• Objetivos:
– identificar e coletar metadados de provedores de dados da área
de pesquisa agropecuária e áreas afins disponíveis em ambiente
de acesso aberto no Brasil e no mundo;
– disponibilizar os metadados coletados em um sistema de
recuperação de informação (mecanimo de busca);
– expor os metadados coletados para outros provedores de
serviços ou sistema de informação que porventura tenham
interesse em coletá-los;
– monitorar permanentemente o surgimento de novos provedores
de dados;
– estabelecer e reavaliar, quando se fizer necessário, política de
desenvolvimento da coleção que compõe o sistema;
– adotar soluções livres e gratuitas que permitam adaptação e
reúso para desenvolvimento do sistema.
8. Projeto Sabiia
- Passo a Passo -
Da identificação dos provedores de dados
e coleta de dados até o desenvolvimento
e disponibilização do portal Sabiia
Todo processo sistematizado e
automatizado
9. Projeto Sabiia
• Levantamento de provedores de dados de
interesse da pesquisa agropecuária:
– Um exame preliminar identificou um total de 261
provedores de dados em áreas de interesse da pesquisa
agropecuária. Dentre eles, 52 periódicos nacionais, 74
periódicos estrangeiros, 27 repositórios institucionais e
temáticos, 4 repositórios de conferências, e 104 periódicos
nacionais e estrangeiros disponíveis no SciELO. Dos 261
provedores de dados identificados e selecionados, cerca de
128 (49%) provedores de dados disponibilizam seus dados
para uso por outros sistemas de informação.
10. Projeto Sabiia
• Levantamento de provedores de dados de
interesse da pesquisa agropecuária:
– Principais Sistemas de Informação utilizados no
levantamento de provedores de dados:
• Doaj: http://www.doaj.org/
• OpenDoar: http://www.opendoar.org
• Roar: http://roar.eprints.org/
• Scielo: http://www.scielo.org
11. Projeto Sabiia
• Passo 1 - Coleta de dados:
– Os dados bibliográficos dos
provedores de dados são
coletados com o software livre
jOAI (Java Open Archives
Initiative) e armazenados em
arquivos no formato XML.
12. Projeto Sabiia
• Passo 2 – Tratamento de dados:
– Os dados armazenados em arquivos XML são tratados,
convertidos e armazenados no Sistema Gerenciador de
Banco de Dados PostgreSQL.
– Exemplos de tratamento:
• Unificação do carácter separador de palavras-chaves: Agricultura
familiar, pequeno agricultor, política pública;
• Conversão dos dados bibliográficos coletados para UTF-8.
Tratamento
e
Conversão de dados
para o
PostgreSQL
13. Projeto Sabiia
• Passo 3 – Conversão de Dados para Busca:
– Os dados armazenados no PostgreSQL são convertidos para
o formato da ferramenta de busca Apache Solr.
Conversão de
dados
para o formato
Apache Solr
14. Projeto Sabiia
• Passo 4 – Visualização e recuperação da
informação no sistema Sabiia:
– O sistema Sabiia interage com a ferramenta de
recuperação de informação Apache Solr, apresentando as
informações recuperadas em uma interface mais intuitiva e
amigável.
15. Projeto Sabiia
• Passo 5 – Exposição dos metadados coletados:
– Os dados coletados, tratados e armazenados no Sistema
Gerenciador de Banco de Dados PostgreSQL são convertidos
para a ferramenta OAICat. A ferramenta OAICat é
responsável por expor os metadados do sistema Sabiia
utilizando-se do protocolo OAI-PMH;
– Dessa forma, o sistema Sabiia além de atuar como
Provedor de Serviços assume o papel de Agregador de
Dados.
Conversão de
dados
para o OAICat
19. Projeto Sabiia
• Recursos de busca:
– Busca simples e avançada;
– Busca com operadores booleanos;
– Busca específica por campo;
– Busca por provedor de dados e ano de publicação;
– Agrupamento e refinamento do resultado da busca por Provedor de
Dados, Autor, Palavra-chave etc;
– Paginação do resultado da busca;
– Highlighting sobre o resultado da busca;
– Nuvem de tags;
– Impressão do resultado da busca.
• Internacionalização:
– Português, Espanhol e Inglês.
20. Projeto Sabiia
• Screenshot da interface de busca:
Busca simples
Agrupamento e
Refinamento da Busca Resultado da Busca
21. Projeto Sabiia
• Screenshot da interface de busca:
Busca por Campo
Busca por
Provedor de Dados
Busca por
Ano de Publicação
25. Projeto Sabiia
• Dados estatísticos:
– 130 provedores de dados coletados ativos;
– 279.412 documentos indexados;
– 2.500 visitas por dia;
– 40.000 hits por dia;
– 3.000 buscas por dia.
29. Projeto Sabiia
• Principais dificuldades encontradas:
– Coleta de dados em Provedores de Dados por tema:
• Exemplo: coletar a coleção de publicações agrícolas da Biblioteca
Digital Brasileira de Teses e Dissertações (BDTD);
• Exemplo: coletar a coleção de publicações agrícolas da Universidade
de São Paulo (USP).
– Serviço de coleta de dados inexistente:
• Cerca de 30% dos provedores de dados identificados não
disponibilizam os metadados para intercâmbio de dados, ou seja, não
implementam o serviço OAI-PMH.
30. Projeto Sabiia
• Resultados e discussão:
– O intercâmbio de dados entre provedores de dados e
provedores de serviços previsto pelo protocolo OAI-PMH
possibilitam a criação de novos serviços de valor agregado. O
Sabiia é um exemplo prático de criação de serviço com valor
agregado, onde metadados expostos em escala planetária por
diversos provedores de dados OAI-PMH do setor agropecuário
e área afins são centralizados, unificados e disponibilizados
em uma única interface para consulta.
– A adoção de padrões abertos e interoperáveis, associada ao
acesso livre e irrestrito aos dados e informações configuram
uma nova oportunidade para construção de aplicações
digitais e democratização do acesso aos resultados de
pesquisas e do conhecimento em geral.
31. Projeto Sabiia
• Resultados e discussão:
– O uso de software livre mostrou-se adequado e viável face
aos desafios impostos para o desenvolvimento do Sistema
de Informação Sabiia, permitindo à Embrapa conquistar
autonomia tecnológica em soluções de livres para
desenvolvimento de provedores de serviços baseados no
protocolo OAI-PMH.
32. Projeto Sabiia
• Trabalhos futuros:
– Incorporação de ferramentas de Análise e Extração de
Informações Gerenciais – Business Inteligence (BI) -
Pentaho:
33. Projeto Sabiia
• Trabalhos futuros:
– Coletar coleções da Biblioteca Digital Brasileira de Teses e
Dissertações (BDTD) em agricultura e correlatas.
– Embrapa + Biblioteca Nacional de Agricultura (BINAGRI) +
Serviço Nacional de Pesquisa Agropecuária (SNPA):
Integração do sistema Sabiia com catálogos de bibliotecas
especializadas em agricultura.