Google gehört zu den meistgenutzten und einflussreichsten Webangebote unserer Zeit. Seit der Diversifikation der Google-Dienstleistungen finden sich hier zusätzliche Angebote, die für die wissenschaftliche Arbeit zunehmend wichtiger werden. Diese Präsentation beschreibt Möglichkeiten zur Integration von Bibliotheksbeständen in Google, Google Books und Google Scholar. Darüber können Bibliotheksbenutzer kontext-bezogen zum lokalen Bestand zurückgeführt werden.
2. 01/30/15Seite 2
Google Index
Google indexiert das sogenannte „Visible Web“ (= frei
zugängliche Webseiten, die über einen Link erreichbar sind)
… nicht jedoch das „Invisible Web“ (= Webseiten, die
geschützt sind oder nur nach Nutzeraktion angezeigt werden,
z.B. Datenbanken, Bibliothekskataloge)
Ansatz „Virtuelles Bücherregal NRW“ (2003): Aus den
dynamischen Inhalten eines Katalogs statische HTML Seiten
generieren, die von Suchmaschinen (insbesondere Google)
erschlossen werden können
3. 01/30/15Seite 3
Virtuelles Bücherregal NRW
aus: Florian Seiffert, Büchersuche für Dummies, InetBib-Tagung 2003, s. https://eldorado.tu-dortmund.de/handle/2003/2296
4. 01/30/15Seite 4
Google Index
Google indexiert das sogenannte „Visible Web“ (= frei
zugängliche Webseiten, die über einen Link erreichbar sind)
… nicht jedoch das „Invisible Web“ (= Webseiten, die
geschützt sind oder nur nach Nutzeraktion angezeigt werden,
z.B. Datenbanken, Bibliothekskataloge)
Ansatz „Virtuelles Bücherregal NRW“ (2003): Aus den
dynamischen Inhalten eines Katalogs statische HTML Seiten
generieren, die von Suchmaschinen (insbesondere Google)
erschlossen werden können
Kritik: Überschwemmung der Suchmaschinen-Indexe mit
Informationen, die für die Mehrheit der Nutzer nicht relevant
sind
5. 01/30/15Seite 5
Bibliotheks-Kollektionen für die Indexierung optimieren:
Sitemaps-Protokoll
Das “Sitemaps”-Protokoll wurde von Suchmaschinen (Google,
Yahoo! und Microsoft) entwickelt, um es den Betreibern von
Websites (“Invisible Web”) zu ermöglichen, über Seiten zu
informieren, die indexiert werden sollen
Der Standard beschreibt eine hierarchisch strukturierte
Darstellung aller relevanten Inhaltsseiten, mittels miteinander
verlinkten XML-Dateien
Weiterführende Informationen: http://sitemaps.org/
Beispiel: http://pubman.mpdl.mpg.de/pubman/sitemap.xml
6. 01/30/15Seite 6
Google Books
In 2004 eingeführte Plattform zum Zugriff auf von Google
digitalisierte Werke
Das Angebot speist sich aus zwei Kooperationsprojekten:
mit Verlagen: Ablieferung von Büchern oder PDF-Volltexten
durch die Lizenzinhaber -> Nutzer können nur vergleichsweise
wenige Seiten des Buchs einsehen
mit ausgewählten Bibliotheken: Scannen von
Bibliotheksbeständen ohne vorherige Einwilligung der
Lizenzinhabers -> Freie Verfügbarkeit von “gemeinfreien”
Werken (je nach Standort, USA)
12. 01/30/15
Seite
Google Scholar
Google Scholar ist eine multidisziplinäre Suchmaschine für
wissenschaftliche Inhalte (Volltexte & bibliographische
Nachweise)
Quellen: Google veröffentlicht keine Details bzgl. Abdeckung
und Aktualisierung
Enthalten sind:
Untermenge aus dem Google Index
Volltexte von Verlagen und Fachgesellschaften (Vereinbarung
über Volltextindexierung: Wiley: ja, Elsevier nicht)
Freiverfügbare Volltexte, z.B. Preprints, Patente, Entscheidungen
Freiverfügbare Referenzdatenbanken, z.B. PubMed, getCited.org
Zitierungen
15. 01/30/15
Seite
Google Scholars Library Links Program & MPG/SFX
Seit 2007 ermöglicht Google Bibliotheken mit einem “Link
Resolver”, diesen in die Suchresultat-Seite einzubinden
Als Voraussetzung muss die Bibliothek ihre elektronischen
Bestände an Google melden (-> Positionierung der Links)
SFX-Software kann zur Registrierung verwendet werden,
nach Rücksprache mit der vLib Projektgruppe nicht MPG-weit
umgesetzt:
Bestandsangaben in SFX unvollständig
Bedenken gegenüber Google & Google Scholar
MPG-Registrierung überschreitet Limitierung
16. 01/30/15
Seite
Google Scholar: Registrierungs-Alternative
MPIs können ihre Bestände aber eigenständig bei Google
Scholar anmelden:
Export der Bestandsinformationen aus der EZB und
Erstellung der Holdingsfiles (XML)
Erstellung der Registrierungsdatei (XML)
Ablage der Dateien (Registrierung + Holdings) auf einem
Webserver
Benachrichtigung an Google
s. http://scholar.google.com/intl/en/scholar/libraries.html
17. 01/30/15
Seite
Diskussion
Grundsätzlich ist eine Einbindung von Bibliotheksbeständen
in Google Dienste möglich
… aber nicht ohne Aufwand, vor allem Meldung der
Bibliotheksbestände an Dritte
Abschätzung: Aufwand gegen Nutzen
Alternativer Ansatz: Angebot von lokalisierten Browser-
PlugIns (z.B. LibX)
19. 01/30/15
Seite
Und andersherum? Vom Katalog zu Google Books…
Google Books bietet diverse
Schnittstellen (“APIs”), die für
eine “dynamische Integration”
der Google Books Bestände
benutzt werden kann
Problem: Das reibungslose
Nachweis hängt häufig an der
Existenz eines ISBN
Notes de l'éditeur
Google ist unbestritten eins der meistgenutzten und einflussreichsten Webangebote unserer Zeit. Seit der Diversifikation der Google-Dienstleistungen finden sich hier zusätzliche Angebote, die für die wissenschaftliche Arbeit zunehmend wichtiger werden. Diese Präsentation beschreibt Möglichkeiten zur Integration von Bibliotheksbeständen in Google, Google Books und Google Scholar, die es den Nutzern ermöglicht, kontext-bezogen wieder zum lokalen Bestand zurückzufinden.
Literatur zum “Virtuellen Bücherregal NRW”:
Seiffert, Florian: Das virtuelle Bücherregal NRW (2003), s. http://www.seiffert.net/doc/030412-DasvirtuelleBuecherregalNRW-BUB.PDF
Seiffert, Florian: Wie indexieren Google & Co 13 Millionen Seiten? (2004), s. http://www.florian-seiffert.de/2004/Bonn/Inetbib2004.pdf
Seiffert, Florian: Büchersuche für Dummies - Das virtuelle Bücherregal NRW, 7. InetBib-Tagung vom 12. bis 14. November 2003 in Frankfurt am Main (2003), s. https://eldorado.tu-dortmund.de/handle/2003/2296
Der Bildschirmausdruck stammt aus einer Präsentation von Florian Seiffert zur Inetbib 2003; das Angebot ist mittlerweile nicht mehr online.
Neben den Katalogen bieten Bibliotheken aber häufig noch andere/einzigartige Kollektionen (z.B. Digitalisierte Werke, Institutional Repositories, Literatursammlungen, etc.), die von Suchmaschinen indexiert werden sollen. Das Sitemaps-Protokoll bietet eine Möglichkeit, alle relevanten Inhalte für die Indexierung zu registrieren. Die tatsächliche Indexierung ist aber nicht garantiert…
Bibliotheksprogramm, Definition von gemeinfreien Büchern: “Only books in the public domain -- books no longer under copyright -- have the download feature available. For users in the United States, this typically means books published before 1923. For users outside the U.S., we make determinations based on appropriate local laws. Since whether a book is in the public domain can often be a tricky legal question, we err on the side of caution and display at most a few snippets until we have determined that the book has entered the public domain. These books...may be in the public domain, but until we can be sure, we show them as if they are not.”
TODO: Link fehlt!
Da es keine detaillierte Inhaltsliste gibt, können die verfügbaren Volltextangebote auch nicht strukturiert erschlossen werden.
Weiterführende Informationen bzgl. Beteiligung am WorldCat: http://www.oclc.org/uk/en/worldcat/join/default.htm
„Google Scholar ist eine Suchmaschine für wissenschaftliche Inhalte (insbes. Aufsätze im Volltext und bibliographische Nachweise von Büchern), mit der ein Teilbestand des Google-Web-Index recherchiert werden kann. Dazu kommen Angebote von Verlagen und Fachgesellschaften, die in das Angebot mit aufgenommen wurden. Mit vielen der großen Wissenschaftsverlage und Fachgesellschaften wurden Vereinbarungen über die Indexierung deren Inhalte getroffen, es sind aber keineswegs alle großen Verlage mit im Boot. Die wichtigste Ausnahme dürfte Elsevier sein, auf dessen Inhalte nicht zugegriffen werden kann.“ s. http://www.durchdenken.de/lewandowski/doc/ZFBB_Preprint.pdf
Google Scholar ist vergleichbar mit kostenpflichtigen Angeboten, die in der MPG kostenpflichtig lizenziert sind, v.a. Web of Science und Scopus, aber leider ist auch hier die genaue Abdeckung unbekannt.
Registrierungsdateien werden auf einem Webserver abgelegt und dann von Google in regelmässigen Abständen geharvested