Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
Edanz Journal Selector 
a Prototype based on Solr/Nutch/Hadoop
Liang SHEN 
@shenzhuxi 
Web Developer 
European Bioinformatics Institute 
Drupal/Solr
Edanz Journal Selector (2011)
So many journals!
DEMO
Open Access 
• By National Center for Biotechnology Information, U.S. National Library of Medicine 
• Approximately 26,000...
Feeds 
Journal TOCs 
• 21,498 journals from 1,677 publishers 
• Institute for Computer Based Learning 
• Heriot-Watt Unive...
Springer 
• Springer Metadata API 
• Provides 
metadata 
for 
over 
5 
million 
online 
documents 
• Springer Open Access ...
Open Source Stack 
• Infrastructure: Amazon Web Service 
• Data processing: Hadoop/Hive 
• Index: Solr/Lucene 
• Web servi...
HDFS 
Index 
API 
Feeds 
Web
Springer Journal Selector
Chinese
Japanese
Scalability 
• Shards
Internet vs. Intranet
Re-think after 3 years 
Don't use Hadoop (<5TB)
Thanks! 
Liang Shen
Edanz Journal Selector, A Prototype based on Solr/Nutch/Hadoop: Presented by Liang Shen, European Bioinformatics Institute
Edanz Journal Selector, A Prototype based on Solr/Nutch/Hadoop: Presented by Liang Shen, European Bioinformatics Institute
Prochain SlideShare
Chargement dans…5
×
Prochain SlideShare
Downtown SF Lucene/Solr Meetup: Developing Scalable Search for User Generated Content at PlayStation
Suivant
Télécharger pour lire hors ligne et voir en mode plein écran

0

Partager

Télécharger pour lire hors ligne

Edanz Journal Selector, A Prototype based on Solr/Nutch/Hadoop: Presented by Liang Shen, European Bioinformatics Institute

Télécharger pour lire hors ligne

Presented at Lucene/Solr Revolution 2014

Livres associés

Gratuit avec un essai de 30 jours de Scribd

Tout voir
  • Soyez le premier à aimer ceci

Edanz Journal Selector, A Prototype based on Solr/Nutch/Hadoop: Presented by Liang Shen, European Bioinformatics Institute

  1. 1. Edanz Journal Selector a Prototype based on Solr/Nutch/Hadoop
  2. 2. Liang SHEN @shenzhuxi Web Developer European Bioinformatics Institute Drupal/Solr
  3. 3. Edanz Journal Selector (2011)
  4. 4. So many journals!
  5. 5. DEMO
  6. 6. Open Access • By National Center for Biotechnology Information, U.S. National Library of Medicine • Approximately 26,000 records are included in the PubMed journal lists
  7. 7. Feeds Journal TOCs • 21,498 journals from 1,677 publishers • Institute for Computer Based Learning • Heriot-Watt University
  8. 8. Springer • Springer Metadata API • Provides metadata for over 5 million online documents • Springer Open Access API • Provides metadata, full-­‐text content, and images for over 80,000 open access ar:cles
  9. 9. Open Source Stack • Infrastructure: Amazon Web Service • Data processing: Hadoop/Hive • Index: Solr/Lucene • Web service: Drupal • Piwik
  10. 10. HDFS Index API Feeds Web
  11. 11. Springer Journal Selector
  12. 12. Chinese
  13. 13. Japanese
  14. 14. Scalability • Shards
  15. 15. Internet vs. Intranet
  16. 16. Re-think after 3 years Don't use Hadoop (<5TB)
  17. 17. Thanks! Liang Shen

Presented at Lucene/Solr Revolution 2014

Vues

Nombre de vues

2 409

Sur Slideshare

0

À partir des intégrations

0

Nombre d'intégrations

1 049

Actions

Téléchargements

18

Partages

0

Commentaires

0

Mentions J'aime

0

×