Slides da Apresentação realizada no Seminário de Gestão de Dados de Pesquisa e Boas Práticas para o Desenvolvimento da Ciência, 9 de março de 2018, São Paulo - SP, Universidade de São Paulo (USP), evento em Comemoração ao Dia do Bibliotecário. A Apresentação da Profa. Dra. Luana Sales - Instituto de Energia Nuclear - PPGCI-IBICT-UFRJ, destaca a importância da gestão dos dados de pesquisa e as atividades desempenhadas pelos bibliotecários no apoio aos pesquisadores.
Gestão de Dados de Pesquisa e o Papel dos Bibliotecários
1.
2. AGENDA
• Afinal, o que é Dado de pesquisa?
• Como são gerados os dados de
pesquisa?
• O problema da gestão dos dados
• O que é gestão de dados?
• Como o bibliotecário pode ajudar?
• A Guisa de Conclusão
3.
4. AFINAL, O QUE É DADO DE PESQUISA
?
uma sequencia de bits proveniente de um sensor sísmico é dado de
pesquisa para os sismólogos;
amostras de rochas são dados de pesquisa para um geomorfologista;
conversas gravadas são dados de pesquisa para sociólogos;
e inscrições em cuneiformes são dados de pesquisa para quem
estuda linguagens do Oriente Próximo.
O dado de pesquisa é dependente de interpretação. Ele pode ser
muitas coisas diferentes para pessoas e circunstancias diferentes
5. Porém, os cuneiformes podem
ser também dados para o
arqueólogo ou para o
ambientalista que buscam
padrões climáticos históricos;
de forma similar, os dados
sísmicos podem ser úteis para
biólogos que estudam
comportamento animal.
Borgman (2007, p.119)
cuneiformes
dados sísmicos
biólogos
arqueólogos
ambientalistas
... mas podem ser
reinterpretados em outros
contextos
“Dados são sempre registrados tomando como base de algum interesse, perspectiva,
tecnologia e prática que determinam seus significados e utilidades em diferentes
contextos”
Nielsen e Hjorland (2014, p.225)
6. ENTREVISTAS
ANOTAÇÕES
DADOS DE PESQUISA SÃO GERADOS PARA DIFERENTES
PROPÓSITOS, POR DIFERENTES COMUNIDADES
CIENTÍFICAS E POR MEIO DE DIFERENTES PROCESSOS
AFINAL, O QUE É DADO DE PESQUISA
?
8. DADOS EXPERIMENTAIS são provenientes de situações
controladas em bancadas de laboratórios. Em tese, dados
experimentais provenientes de experimentos que podem ser
precisamente reproduzidos e não precisam ser armazenados
indefinidamente; entretanto, nem sempre é possível reproduzir
precisamente todas as condições experimentais.
9. DADOS GOVERNAMENTAIS
Dados provenientes de recenseamento,
registros médicos, seguro social, etc. são
críticos para as pesquisas nas áreas de saúde,
ciências sociais e humanidades.
Dados sensíveis
DADOS ACUMULADOS POR
REDES SOCIAIS, MÁQUINAS
DE BUSCA, ETC.
Big data
Comércio Transacional baseado em dados de
negócios
10. DADOS BRUTOS
ou
DADOS PRIMÁRIOS
Dados provenientes
diretamente do
instrumento científico
.PROCESSAMENTO
. CALIBRAÇÃO
.VALIDAÇÃO
.COMBINAÇÃO COM OUTROS
DADOS
Coleções de dados consolidados, revisados e geralmente passados por processos
de curadoria que estão arquivados em centros de dados. Por exemplo: banco de
dados de sequência genética, estruturas química, dados espaciais.
11. Como são gerados os dados de pesquisa?
BIG DATA CIENTÍFICO
Grandes projetos
Observatórios
Instalações complexas
Dados distribuídos
Simulação por computador
Ciência aberta
DADOS ABERTOS
Metodologias
Equipamentos
Software
Cadernos de laboratório
Roteiro de entrevistas
Resultados negativos
DADOS DOS DO GRANDE
NÚMERO DE PEQUENOS
LABORATÓRIOS
Heterogêneos
Não tratados
Invisíveis
Coletivamente é o maior
volume
TECNOLOGIA
COMPUTACIONAL
APLICADAS A ESTUDOS EM
HUMANIDADES.
Humanidades estudando
Tecnologias digitais
(Bobley)
12. INSTRUMENTO
CIENTÍFICO
DADOS
BRUTOS
PROCESSAMENTO
DOS DADOS
ANÁLISE DOS
DADOS
Selecionar subset
Mesclar mútiplos datasets
Conversão
Normalização
Limpeza dos dados
COMPUTAÇÃO EM NUVEM
COMPUTAÇÃO EM GRADE
Estatísticas
Simulação
Plotagem
Visualização
Modelos
Algoritmos
Publicações
OS DADOS PODEM SER GERADOS EM DIVERSOS ESTÁGIOS DA PESQUISA
FLUXO
DOS DADOS
13. Desafios na Gestão de dados
1 - Os dados de pesquisa
nascem, em sua maioria,
em formato digital,
carregando em si toda a
problemática da
preservação digital
14. REALIDADE VIRTUAL
GAMES
SIMULAÇÕES
MODELOS EM 3D
ESTRUTURAS QUÍMICAS
SOFTWARE
WEBSITE/MULTIMÍDIA
VIDEOS
FOTOS
GRÁFICOS
ESPECIFICAÇÕES
ENTREVISTAS
FORMÚLAS
TABELAS
ANOTAÇÕES
DADOS NUMÉRICOS
NÍVEISDEABSTRAÇÃO
dispositivos de
imersão e
interativas
apresentações
sensoriais
imagem em
movimento
imagens
sons
documentos
letras
símbolos
números
Texto e
números não
contam toda
história
DADOS DE PESQUISA SÃO
OBJETOS COMPLEXOS,
DIVERSIFICADOS E
HETEROGÊNEOS.
OS OBJETIVOS E OS
MÉTODOS USADOS PARA
PRODUZI-LOS VARIAM
ENORMEMENTE DE
ACORDO COM OS
CAMPOS CIENTÍFICOS,
ASSIM COMO OS
CRITÉRIOS PARA
COMPARTILHÁ-LOS,
Desafios na
Gestão de
dados
2 -Preservar
bits não é
suficiente
para garantir
a capacidade
de reuso dos
dados
16. DESAFIOS NA
GESTÃO DE DADOS
4 - Para que os
dados sejam
reusados
é preciso torna-los
visíveis para as
comunidades
acadêmicas,
Instituições de
pesquisa,
agências de
fomento e para o
cidadão comum
Há uma parcela dos produtos de
pesquisa que necessita de
infraestruturas
INFORMACIONAIS
TECNOLÓGICAS,
POLÍTICAS E
GERENCIAIS
17. PLANO DE
GESTÃO DE
DADOS
DE PESQUISA
IDENTIFICADO
CITADO
VISÍVELLOCALIZADO
RECUPERADO
ACESSADO
INTERPRETADO
CONTEXTUALIZADO
AVALIADO
PROVENIÊNCIA
COMPARTILHADO
ON-LINE
LINKADO COM
PUBLICAÇÃO
CONSIDERA PRIVACIDADE/ÉTICA
LICENÇA APROPRIADA
REUSADO
DADO DE
PESQUISA
MANEIRO
ANOTADO
ATIVA COLABORAÇÃO
INTEROPERÁVEL
ARQUIVADO
PRESERVADO
18. ENCONTRÁVEL:
Fácil de achar por humanos e
computadores por meio de metadados
que facilitem a busca por datsets
específicos.
ACESSÍVEL:
Armazenado por longo prazo de forma
que ele pode ser facilmente acessado
e/ou baixado com licenças e condições
de acesso bem definidas (acesso aberto
quando possível)
INTEROPERÁVEL
Pronto para combinar com outros
dados por seres humanos ou por
computadores
REUSÁVEL
Pronto para ser usado para
pesquisas futuras, e para ser
processado usando métodos
computacionais.
PRINCÍPIO FAIR
Para se tornarem Dados FAIR é preciso CURADORIA E
GESTÃO
20. PESQUISA EM PROGRESSO
geração/coleta dos dados ativa
Gestão de curto prazo
Análise de dados
Processamento dos dados
Versionamento
Armazenamento
Backups
PESQUISA FINALIZADA
Publicação dos dados
Preservação de longo prazo
Contextualização
Ambientes confiáveis
Acesso/Reuso
Metadados
A gestão
acontece em
dois
momentos
21. As bibliotecas de pesquisa
tem que capturar dados em
diferentes estágios da
geração e processamento dos
dados de pesquisa.
O planejamento da gestão de
dados se torna parte do
processo de investigação
científica
PÓS-PUBLICAÇÃO PRÉ-PUBLICAÇÃO
PLANO DE DADOS DE PESQUISA
Como o Bibliotecário pode ajudar?
Esta Foto de Autor
Desconhecido está
licenciado em CC
BY-ND
22. CAPTURA DE DADOS
Inserção de coleções de dados – brutos ou derivados - provenientes de experimentos, simulações, observações,
questionários, levantamentos etc. Os dados podem ser submetidos pelos próprios autores ou por equipes especializadas
vinculadas ao serviço.
CATALOGAÇÃO DAS COLEÇÕES DE DADOS
Descrição, atribuição de metadados e inclusão de documentação que assegurem que os
dados possam ser acessados e interpretados no tempo e no espaço.
ARQUIVAMENTO E PRESERVAÇÃO
Arquivamento seguro que garanta a gestão de curto e longo prazo das coleções de dados
orientadas por um plano/política de preservação digital
INTEROPERABILIDADE
Intercâmbio e compartilhamento e linkage com outros repositórios de
dados e outros sistemas de informação (repositórios institucionais, bibliotecas
digitais de publicações acadêmicas, editoras científicas)
RECUPERAÇÃO, ACESSO E REUSO
Interface web para a descoberta, acesso e
download de coleções de dados relevantes para o
usuário ou para aplicações computacionais,
como visualização e mapeamento, que podem
prover serviços a partir dessas coleções; vinculado a
uma política de acesso estabelecida pela instituição
que inclui: tempo de embargo, direito de acesso,
pagamentos, restrições sobre determinadas
coleções, acesso somente aos metadados, registros
de usuários e termos de uso dos dados.
24. DESCRIÇÃO DOS DADOS
Tipo de dados produzidos pela pesquisa
Quantidade de dados que será coletada
Como os dados serão coletados
Como os dados serão processados
Formatos de arquivo que serão usados
Como os arquivos serão nomeados
Medidas para garantir a qualidade dos dados
Coleções de dados disponíveis
Dados existentes que serão usados
Preservação de curto prazo
Responsáveis pela gestão de curto prazo
METADADOS
Metadados necessários
Como os metadados serão criados
Esquema que será usado
POLÍTICA DE ACESSO,
COMPARTILHAMENTO E
REUSO
Obrigações de compartilhamento
Como os dados serão compartilhados
Questões éticas e de privacidade
Propriedade intelectual e copyright
Usos futuros e usuários potenciais
Citação dos dados
GESTÃO DO ARQUIVAMENTO
DE LONGO PRAZO:
PRESERVAÇÃO DIGITAL DOS
DADOS DE PESQUISA
Que dados serão preservados
Onde os dados serão arquivados
Necessidade de formatação dos dados
Responsável pelo contato com o centro de dados
ORÇAMENTO: CUSTOS
ENVOLVIDOS NA GESTÃO DE
DADOS
Custos previstos
Como os custos serão cobertos
PLANO DE
GESTÃO DE
DADOS
DE PESQUISA
26. Elaboração padrões para gestão de dados de
pesquisa de áreas específicas
• Metadados
• Vocabulários
• Taxonomias
27. Participar ativamente da pesquisa
institucional
• Observando o ciclo de vida
dos dados gerados na
Instituição (O bibliotecário
na bancada de Laboratório)
• Auxiliar no desenvolvimento
de políticas institucionais de
gestão de dados
• Planejar o uso de recursos
• Incentivar a adoção de
políticas de dados abertos,
quando apropriado
28. Parcerias
Fazer parceria com
pesquisadores, grupos de
pesquisa, e centros de
dados para promover uma
infraestrutura interoperável
para preservação, acesso,
compartilhamento e
descoberta de dados
29. Promover a Citação adequada dos dados
A capacidade das coleções de dados e suas versões hospedadas nos repositórios de serem
IDENTIFICADAS permanentemente torna-se essencial para o acesso, preservação e citação; é um fator
importante também nos processos de interoperabilidade e de linking com outros recursos via, por
exemplo, linked data.
IDENTIFICADORES
PERSISTENTES
DOI
URN
HANDLES
Específicos
CITAÇÃO
PADRONIZADA
FERRAMENTAS DE APOIO À CITAÇÃO
EXPORTAÇÃO EM FORMATOS
DIVERSOS/COMPARTILHAMENTO
• Auxiliar na
elaboração de
referências de
dados de pesquisa
• Aplicação
identificadores
persistentes aos
dados.
• Controle de
Versionamento
33. VISIBILIDADE
COMPARTILHAMENTO/COMUNICAÇÃO
CRÉDITO AO AUTOR
disponibilidade on-line
descoberta
acesso
MEMÓRIA CIENTÍFICA | TRANSPARÊNCIA
CURADORIA DIGITAL
INDICADOR DE QUALIDADE E PRODUTIVIDADE
REUSO DOS DADOS
INTEROPERABILIDADE
NOVOS TIPOS DE PUBLICAÇÃO
SEGURANÇA DOS DADOS
Preservação
Arquivamento
Anotação
Pub Ampliada
Pub Semântica
Data Journal
Tornar as plataformas de
Gestão de Dados mais atraentes
ao pesquisador
DESENVOLVER
NOVOS SERVIÇOS
SOB ESSAS
PLATAFORMAS
34. À GUISA DE CONCLUSÃO
• A biblioteca é a ligação institucional entre o pesquisador e o mundo dos dados de pesquisa
• Os serviços em torno de dados de pesquisa garantem que as bibliotecas de pesquisa continuem
tendo papel relevante no mundo da Ciência.
• Incentivos para pesquisadores precisam ser criados através da atribuição de DOI, citações
apropriadas, bem como novos tipos de metrias.
• A questão do financiamento para planejamento e gestão de dados e é uma preocupação real.
• Poucas biblioteca conseguirão exercer todas atividades, provavelmente Bibliotecas diferentes
assumirão papéis diferentes. (Trabalho cooperativo continua sendo importante)
• As bibliotecas devem ter cuidado para não colocar muita ênfase na abertura dos dados porque
especialmente nos estágios iniciais de um projeto de pesquisa, a maioria dos pesquisadores não
querem que seus dados sejam disponibilizados sem o seu consentimento e fora de seu controle.
• As bibliotecas devem manter contato não apenas com centros de dados, mas devem se
concentrar também em colaborações com grupos de pesquisa locais e até pesquisadores
individuais que vem gerando dados dentro de pequenos laboratórios sem nenhum mecanismo de
gerenciamento.