SlideShare une entreprise Scribd logo
1  sur  18
Télécharger pour lire hors ligne
Ciência de Dados aplicada ao Arca
Desenvolvimento e disponibilização de ferramentas
para Recuperação de Informação no Repositório
Institucional da Fundação Oswaldo Cruz
Jefferson Lima
Marcel Pedroso
Vinicius Assef Neto
Icict/Fiocruz
Utilizar Mineração de Textos e Aprendizagem por Máquina
(Machine Learning) com o objetivo de aprimorar a Recuperação da
Informação por meio da classificação automática de artigos, teses
e dissertações depositados no Arca.
Objetivo
1) Volume crescente de objetos digitais;
2) A classificação de conteúdos não é uma ciência exata;
3) Caráter dinâmico ligado aos descritores;
4) Explorar novas possibilidades de Recuperação da Informação.
Motivação
Por que usar Machine Learning?
1. Extração automática de descritores;
2. Cluster de documentos semelhantes;
3. Identificação das relações entre entidades como doenças e
compostos químicos;
4. Georeferenciamento de publicações;
5. Identificação pesquisadores que analisam objetos semelhantes.
Objeto: Teses, dissertações e artigos depositados no ARCA
Conjunto de publicações não representa real produção acadêmica da Fiocruz
4.707 obras analisadas
Metodologia proposta para a extração de descritores
1. Obtenção do Corpus
2. Pré-processamento dos documentos
a.Extração de dados dos arquivos PDF
b.Remoção de stopwords e de pontuação
c.Uso de stemming
d.Identificação de n-grams relevantes
e.Identificação do idioma principal do texto (inglês, português ou espanhol)
3. Captura de dados do vocabulário Descritores em Ciências da Saúde
(DeCS)
4. Cruzamento entre n-grams e o DeCS para a identificação de descritores
para os documentos
Alguns resultados
Melhora na revocação
Alguns resultados
Análise temporal da utilização de termos (PSF x ESF)
ESF
PSF
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Aplicações de Mineração de textos – FGV/CPDOC
Acervo do ex-ministro das Relações
Exteriores do Brasil Antônio Azeredo da
Silveira, que ocupou o cargo entre 1974
e 1979.
10.428 documentos com cerca de 67
mil páginas.
“… manuscritos, documentos com
gráficos, despachos em várias línguas”
Fonte: https://oglobo.globo.com/sociedade/tecnologia/fgv-usa-inteligencia-artificial-para-agilizar-trabalho-de-historiadores-21872633
1) Nada disso é possível sem Acesso Aberto;
2) Garantir a legibilidade por máquina;
3) Empoderamento do usuário;
4) Interdisciplinaridade.
Considerações finais:
Plataforma de Ciência de Dados aplicada à Saúde (bigdata.saude@icict.fiocruz.br)
Jefferson Lima (jefferson.lima@icict.fiocruz.br)
Marcel Pedroso (marcel.pedroso@icict.fiocruz.br)
Vinicius Assef Neto (vinicius.assef@icict.fiocruz.br)

Contenu connexe

Similaire à Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017

Pesquisa bibliografica: Engenharia
Pesquisa bibliografica: EngenhariaPesquisa bibliografica: Engenharia
Pesquisa bibliografica: EngenhariaLeticia Strehl
 
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...Joel S. Coleti
 
Arquitetura mínima de metadados para dados científicos
Arquitetura mínima de metadados para dados científicosArquitetura mínima de metadados para dados científicos
Arquitetura mínima de metadados para dados científicosAna Carolina Simionato
 
Publicação de artigos científicos em revistas indexadas
Publicação de artigos científicos em revistas indexadasPublicação de artigos científicos em revistas indexadas
Publicação de artigos científicos em revistas indexadasAngela Pereira de Farias
 
A preservação digital num repositório de Dados de Pesquisa: o caso do IRD
A preservação digital num repositório de Dados de Pesquisa: o caso do IRDA preservação digital num repositório de Dados de Pesquisa: o caso do IRD
A preservação digital num repositório de Dados de Pesquisa: o caso do IRDpascal aventurier
 
Encontros Bibli e o Portal de Periódicos UFSC
Encontros Bibli e o Portal de Periódicos UFSCEncontros Bibli e o Portal de Periódicos UFSC
Encontros Bibli e o Portal de Periódicos UFSCUFSC
 
2a apresentação pb g5
2a apresentação pb g52a apresentação pb g5
2a apresentação pb g5pekenit5a1991
 
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...Joel S. Coleti
 
Dataverse cariniana 2017
Dataverse cariniana 2017Dataverse cariniana 2017
Dataverse cariniana 2017Cariniana Rede
 
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarRecursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarBianca Santana
 
Da ciência aos dados abertos
Da ciência aos dados abertosDa ciência aos dados abertos
Da ciência aos dados abertosFabrício Garrido
 
As conquistas chinesas do ábaco à atualidade
As conquistas chinesas do ábaco à atualidadeAs conquistas chinesas do ábaco à atualidade
As conquistas chinesas do ábaco à atualidadeConceição Rosa
 
Fonte primaria [modo de compatibilidade]
Fonte primaria [modo de compatibilidade]Fonte primaria [modo de compatibilidade]
Fonte primaria [modo de compatibilidade]jani_jpa2012
 
#3# ebsco e b on-workshop de doutoramento__27 e 28 novembro 2015.ppt
#3# ebsco e b on-workshop de doutoramento__27 e 28 novembro 2015.ppt#3# ebsco e b on-workshop de doutoramento__27 e 28 novembro 2015.ppt
#3# ebsco e b on-workshop de doutoramento__27 e 28 novembro 2015.pptCarlos Lopes
 
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.pptva_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.pptAllas Jony da Silva Oliveira
 
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.pptva_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.pptAdemar Trindade
 

Similaire à Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017 (20)

Pesquisa bibliografica: Engenharia
Pesquisa bibliografica: EngenhariaPesquisa bibliografica: Engenharia
Pesquisa bibliografica: Engenharia
 
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
 
Informações documentárias
Informações documentáriasInformações documentárias
Informações documentárias
 
Fontes de informação na produção cientifica - Prof. Ma. Diana Vilas Boas Sout...
Fontes de informação na produção cientifica - Prof. Ma. Diana Vilas Boas Sout...Fontes de informação na produção cientifica - Prof. Ma. Diana Vilas Boas Sout...
Fontes de informação na produção cientifica - Prof. Ma. Diana Vilas Boas Sout...
 
Arquitetura mínima de metadados para dados científicos
Arquitetura mínima de metadados para dados científicosArquitetura mínima de metadados para dados científicos
Arquitetura mínima de metadados para dados científicos
 
Atlas analise de dados
Atlas analise de dadosAtlas analise de dados
Atlas analise de dados
 
Publicação de artigos científicos em revistas indexadas
Publicação de artigos científicos em revistas indexadasPublicação de artigos científicos em revistas indexadas
Publicação de artigos científicos em revistas indexadas
 
A preservação digital num repositório de Dados de Pesquisa: o caso do IRD
A preservação digital num repositório de Dados de Pesquisa: o caso do IRDA preservação digital num repositório de Dados de Pesquisa: o caso do IRD
A preservação digital num repositório de Dados de Pesquisa: o caso do IRD
 
Encontros Bibli e o Portal de Periódicos UFSC
Encontros Bibli e o Portal de Periódicos UFSCEncontros Bibli e o Portal de Periódicos UFSC
Encontros Bibli e o Portal de Periódicos UFSC
 
2a apresentação pb g5
2a apresentação pb g52a apresentação pb g5
2a apresentação pb g5
 
7 AULA_SRI.ppt
7 AULA_SRI.ppt7 AULA_SRI.ppt
7 AULA_SRI.ppt
 
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
 
Dataverse cariniana 2017
Dataverse cariniana 2017Dataverse cariniana 2017
Dataverse cariniana 2017
 
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarRecursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
 
Da ciência aos dados abertos
Da ciência aos dados abertosDa ciência aos dados abertos
Da ciência aos dados abertos
 
As conquistas chinesas do ábaco à atualidade
As conquistas chinesas do ábaco à atualidadeAs conquistas chinesas do ábaco à atualidade
As conquistas chinesas do ábaco à atualidade
 
Fonte primaria [modo de compatibilidade]
Fonte primaria [modo de compatibilidade]Fonte primaria [modo de compatibilidade]
Fonte primaria [modo de compatibilidade]
 
#3# ebsco e b on-workshop de doutoramento__27 e 28 novembro 2015.ppt
#3# ebsco e b on-workshop de doutoramento__27 e 28 novembro 2015.ppt#3# ebsco e b on-workshop de doutoramento__27 e 28 novembro 2015.ppt
#3# ebsco e b on-workshop de doutoramento__27 e 28 novembro 2015.ppt
 
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.pptva_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
 
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.pptva_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
 

Plus de Conferência Luso-Brasileira de Ciência Aberta

Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...Conferência Luso-Brasileira de Ciência Aberta
 

Plus de Conferência Luso-Brasileira de Ciência Aberta (20)

Citações e métricas complementares: um estudo da sua correlação em artigos ci...
Citações e métricas complementares: um estudo da sua correlação em artigos ci...Citações e métricas complementares: um estudo da sua correlação em artigos ci...
Citações e métricas complementares: um estudo da sua correlação em artigos ci...
 
Pré-Workshop: Formação em Edição Eletrónica
Pré-Workshop: Formação em Edição EletrónicaPré-Workshop: Formação em Edição Eletrónica
Pré-Workshop: Formação em Edição Eletrónica
 
Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...
Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...
Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...
 
10 anos RCAAP - ConfOA
10 anos RCAAP - ConfOA10 anos RCAAP - ConfOA
10 anos RCAAP - ConfOA
 
Programa de formação modular sobre Ciência Aberta
Programa de formação modular sobre Ciência AbertaPrograma de formação modular sobre Ciência Aberta
Programa de formação modular sobre Ciência Aberta
 
Análise da Produção Científica Brasileira em Periódicos de Acesso Aberto
Análise da Produção Científica Brasileira em Periódicos de Acesso AbertoAnálise da Produção Científica Brasileira em Periódicos de Acesso Aberto
Análise da Produção Científica Brasileira em Periódicos de Acesso Aberto
 
Acesso aberto como ferramenta para o empoderamento do paciente
Acesso aberto como ferramenta para o empoderamento do pacienteAcesso aberto como ferramenta para o empoderamento do paciente
Acesso aberto como ferramenta para o empoderamento do paciente
 
Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...
Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...
Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...
 
Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...
Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...
Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...
 
Melhorando a citabilidade de programas de computador para pesquisa com o Cita...
Melhorando a citabilidade de programas de computador para pesquisa com o Cita...Melhorando a citabilidade de programas de computador para pesquisa com o Cita...
Melhorando a citabilidade de programas de computador para pesquisa com o Cita...
 
Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...
Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...
Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...
 
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
 
Serviço Nacional de Registo de Identificadores DOI
Serviço Nacional de Registo de Identificadores DOIServiço Nacional de Registo de Identificadores DOI
Serviço Nacional de Registo de Identificadores DOI
 
Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...
Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...
Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...
 
Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...
Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...
Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...
 
Preservação digital, gestão de dados de pesquisa e biodversidade
Preservação digital, gestão de dados de pesquisa e biodversidadePreservação digital, gestão de dados de pesquisa e biodversidade
Preservação digital, gestão de dados de pesquisa e biodversidade
 
Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...
Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...
Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...
 
Do acesso à informação aos Dados Parlamentares Abertos em Portugal
Do acesso à informação aos Dados Parlamentares Abertos em PortugalDo acesso à informação aos Dados Parlamentares Abertos em Portugal
Do acesso à informação aos Dados Parlamentares Abertos em Portugal
 
Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...
Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...
Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...
 
Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...
Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...
Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...
 

Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017

  • 1. Ciência de Dados aplicada ao Arca Desenvolvimento e disponibilização de ferramentas para Recuperação de Informação no Repositório Institucional da Fundação Oswaldo Cruz Jefferson Lima Marcel Pedroso Vinicius Assef Neto Icict/Fiocruz
  • 2. Utilizar Mineração de Textos e Aprendizagem por Máquina (Machine Learning) com o objetivo de aprimorar a Recuperação da Informação por meio da classificação automática de artigos, teses e dissertações depositados no Arca. Objetivo
  • 3. 1) Volume crescente de objetos digitais; 2) A classificação de conteúdos não é uma ciência exata; 3) Caráter dinâmico ligado aos descritores; 4) Explorar novas possibilidades de Recuperação da Informação. Motivação
  • 4. Por que usar Machine Learning? 1. Extração automática de descritores; 2. Cluster de documentos semelhantes; 3. Identificação das relações entre entidades como doenças e compostos químicos; 4. Georeferenciamento de publicações; 5. Identificação pesquisadores que analisam objetos semelhantes.
  • 5. Objeto: Teses, dissertações e artigos depositados no ARCA Conjunto de publicações não representa real produção acadêmica da Fiocruz 4.707 obras analisadas
  • 6. Metodologia proposta para a extração de descritores 1. Obtenção do Corpus 2. Pré-processamento dos documentos a.Extração de dados dos arquivos PDF b.Remoção de stopwords e de pontuação c.Uso de stemming d.Identificação de n-grams relevantes e.Identificação do idioma principal do texto (inglês, português ou espanhol) 3. Captura de dados do vocabulário Descritores em Ciências da Saúde (DeCS) 4. Cruzamento entre n-grams e o DeCS para a identificação de descritores para os documentos
  • 8. Alguns resultados Análise temporal da utilização de termos (PSF x ESF) ESF PSF
  • 9. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 10. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 11. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 12. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 13. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 14. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 15. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 16. Aplicações de Mineração de textos – FGV/CPDOC Acervo do ex-ministro das Relações Exteriores do Brasil Antônio Azeredo da Silveira, que ocupou o cargo entre 1974 e 1979. 10.428 documentos com cerca de 67 mil páginas. “… manuscritos, documentos com gráficos, despachos em várias línguas” Fonte: https://oglobo.globo.com/sociedade/tecnologia/fgv-usa-inteligencia-artificial-para-agilizar-trabalho-de-historiadores-21872633
  • 17. 1) Nada disso é possível sem Acesso Aberto; 2) Garantir a legibilidade por máquina; 3) Empoderamento do usuário; 4) Interdisciplinaridade. Considerações finais:
  • 18. Plataforma de Ciência de Dados aplicada à Saúde (bigdata.saude@icict.fiocruz.br) Jefferson Lima (jefferson.lima@icict.fiocruz.br) Marcel Pedroso (marcel.pedroso@icict.fiocruz.br) Vinicius Assef Neto (vinicius.assef@icict.fiocruz.br)