Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Funções e disfunções das bases de dados em levantamentos bibliométricos (atualização 2013)
1. Funções e disfunções das bases de
dados em levantamentos
bibliométricos
Letícia Strehl
2. Sumário
• Bases de dados e levantamentos bibliométricos
– Componentes das bases de dados:
•
•
•
•
cobertura
indexação
busca
resultado
– A produção e o impacto como dado:
• autores
• instituições
• referências
3. Componentes das bases de dados
1. Cobertura: o conjunto de registros ou
documentos (conjunto de documentos)
2. Indexação: o método de indexação ou acesso
ao conjunto de documentos (método de
acesso)
3. Busca: a verbalização desta necessidade em
uma seqüência de expressões de busca
(estratégia de busca)
Três do 6 componentes enumerados por: TAGUE-SUTCLIFFE, J. M. Em: Some perspectives on the evaluation of
information retrieval systems. Journal of the American Society for Information Science , v. 47, n. 1, p. 1-3, 1996.
4. Requisitos das bases de dados para estudos
de produção e impacto
• Indexação de:
– uma quantidade representativa de documentos
(cobertura);
– identificação consiste de
autores, assuntos, instituições e referências citadas
nas publicações.
Atualmente, as principais bases de dados para o
cumprimento desta finalidade são a Web of Science
(WoS), a Scopus e o Google Acadêmico (GA)
7. Cobertura:
O conjunto de registros ou documentos
– Número de registros:
• Total
• Por tipo de documento (artigos de revistas, trabalhos
em eventos, teses, livros, etc.)
• Por idioma
• Por país responsável pela publicação das fontes
– Período de cobertura das fontes
– Periodicidade de atualização
Adaptado de: JACSO, P. Content evaluation of databases. Annual Review of Information Science and
Technology, v. 32, p. 231-267, 1997.
8. Análise quantitativa da composição de
bases de dados: um exemplo
Periódicos arbitrados
≈30 mil
Scopus
≈18 mil
Web os Science
≈10 mil
Bustos-González, Atilio. Edición de revistas científicas con visibilidad ficas internacional: criterios para ser incluidos en bases de datos comprensivas.
Apresentação realizada no "Seminário de Comunicação Científica, São Paulo, 13 de junho de 2008".
ELSEVIER. About Scopus. 2011.
THOMSON REUTERS. Web of Science. 2011.
9. A importância da cobertura
retrospectiva
WoS:
1945, 1956- e
1975-Scopus:
1996
-GA
?????
LARIVIERE, V.; ARCHAMBAULT, E.; GINGRAS, Y. Long-term patterns in the aging of the scientific literature, 1900–2004. 2007.
Trabalho apresentado no 11th International Conference on Scientometrics and Informetrics, 2007, Madrid.
10. O Índice H como uma prova do impacto da
cobertura da base no resultado bibliométrico
Índice H:
– relação entre o número de trabalhos que o pesquisador publica e o número de
citações que recebe
– 1 fórmula, várias fontes de dados
Índice H:
Scopus= 23
Google Scholar= 103
Web of Science=74
11. Os dados e os indicadores:
Fator de impacto
SCI E SSCI NA WEB OF
SCIENCE
Acesso via:
JOURNAL CITATION
REPORTS
Acesso via:
12. Os dados e os indicadores
SJR
Scopus
Acesso via:
Scimago
Acesso livre!
13. Os dados e os indicadores
SNIP
Scopus
Acesso via:
CWTS Journal Indicators
Acesso livre!
14. A cobertura:
seletiva versus exaustiva
bom e ruim em ambas
O seletivo bom e o seletivo ruim
Produção em
periódicos que
adotam
criteriosa
avaliação por
pares
Destes, apena
s os que
tratam de
interesse
internacional
16. A cobertura:
seletiva versus exaustiva
bom e ruim em ambas
O exaustivo bom e o exaustivo ruim
Produção em
periódicos que
adotam
criteriosa
avaliação por
pares
Produção em
periódicos que
adotam
duvidosa
avaliação por
?
pares
da produção ONDE
do impacto DO que NO que
19. Indexação
• A forma de representação que dá acesso ao
conjunto de dados
• Recursos cada vez mais sofisticados
• Todavia, em regra, os dados tem a qualidade
limitada à própria informação dada pelos autores
20. A qualidade dos dados e a precisão das
informações dos próprios autores
Autor
Referência
Instituição
24. Soluções para autores e instituições:
a contribuição do usuário da base Scopus
O usuário informa à base que os
diferentes registros identificam
um único autor ou instituição
25. A precisa identificação das referências:
situações agravantes
Disponibilidade dos artigos nos sites publishers antes da publicação
A identificação do DOI
nas referências é um
atenuante.
Disponibilidade dos manuscritos nos repositórios sem identificação dos dados de publicação
33. Autores?
• Autor fantasma: P Login ou seja Please Login (2.340 artigos)
• Autores perdidos
Problema aparentemente
resolvido!
34. A precisa identificação da produção:
recursos atenuantes
Perfil do pesquisador no GA:
o pesquisador reune as diferentes
versões que correspondem a uma
única produção
35. Algumas ressalvas para o uso do
Google Acadêmico
• Nem todos os periódicos importantes indexados
pelas bases de dados tradicionais estão
indexados pelo GA;
• as citação a documentos recentes são mais
comuns no GA uma vez que documentos mais
antigos estão disponíveis em menor quantidade
na Web;
• algumas áreas estão melhor representadas por
contarem tradicionalmente com repositórios
mais antigos e exaustivos, um exemplo é a física
como a pioneira base de pré-prints arXiv.org.
36. TODAS AS BASES POSSUEM
INCONSISTÊNCIAS!
TODO O LEVANTAMENTO
BIBLIOMÉTRICO EXIGE LIMPEZA DE
DADOS!
37. Todavia, para PeterJácso as inconsistências do
GA são tantas que inviabilizam por completo o
uso dos dados para cálculo de índices
bibliométricos
Mas, para a recuperação, o GA é uma excelente
ferramenta
As inconsistências no GA estão diminuindo!!!!!!!
Jacsó, P. Google Scholar's Ghost Authors. Library Journal. 2009.
39. A busca
• Limitação do universo de documentos a ser
estudado por sua representação em
expressões de busca
• As inconsistências na indexação requerem a
realização de uma série buscas intermediárias
para contemplar todas as diferentes formas de
representação do objeto de estudo
40. Recursos das bases de dados para a
reunião de registros dispersos pelas
inconsistências
41. Depois de identificar “todas” as formas
possíveis de representação:
use e abuse dos operadores booleanos, de proximidade e truncagem:
o “help” das bases de dados será o seu único amigo
42. Um exemplo de expressão de busca
para recuperar a produção da UFRGS
OG=(Universidade Federal do Rio Grande do Sul) OR OO=(Univ Fed Rio
Grande Sul OR UFRGS OR Federal University Rio Grande do Sul OR Fed Univ
Rio Grande do Sul OR Fed Univ Rio Grande Sul OR Rio Grande do Sul Fed Univ
OR Rio Grande Sul Fed Univ OR Agron Univ Fed Rio Grande do Sul OR Fed
Univ RS OR Univ Fed Rio Grande do Sul OR Fdn Univ Fed Rio Grande Sul OR
URFGS OR UFGRS OR Univ Fed Rio Do Sul OR Fed Univ Rio Grande Sul UFRGS
OR Fdn Univ Fed Rio Grande Sul OR Fed Univ Hosp Rio Grande Sul OR Fed
Univ Rio Grande Sul State OR Fed Univ Fed Rio Grande Sul OR IF UFRGS) OR
AD=(Univ Fed Rio Grande Sul OR UFRGS OR Federal University Rio Grande do
Sul OR Fed Univ Rio Grande do Sul OR Fed Univ Rio Grande Sul OR Rio Grande
do Sul Fed Univ OR Rio Grande Sul Fed Univ OR Agron Univ Fed Rio Grande do
Sul OR Fed Univ RS OR Univ Fed Rio Grande do Sul OR Fdn Univ Fed Rio
Grande Sul OR URFGS OR UFGRS OR Univ Fed Rio Do Sul OR Fed Univ Rio
Grande Sul UFRGS OR Fdn Univ Fed Rio Grande Sul OR Fed Univ Hosp Rio
Grande Sul OR Fed Univ Rio Grande Sul State OR Fed Univ Fed Rio Grande Sul
OR IF UFRGS)
445 registros são não recuperados pelo campo padronizado