Cloud Computing für die Verarbeitung von Metadaten

Cloud Computing für die Verarbeitung von
Metadaten
Prof. Magnus Pfeffer
pfeffer@hdm-stuttgart.de

Überblick
 Herausforderung Metadatenmanagement
 Werkzeuge zum Metadatenmanagement
 Cloud-basierte Dienstleistungen
 Aktuelle Projekte
 Fazit

Herausforderung Metadatenmanagement
5.12.2014 BI Symposium 2014 3

Früher war alles einfacher...
 (Online-)Katalog
 Titelaufnahmen gedruckter Medien mit lokalem Bestand
 Verknüpfte Normdaten
 Zentrale, kooperative Bearbeitung im Verbund
 Datenmanagement
 Ein Datenformat (MAB2)
 Ein Regelwerk (RAK)
 Ein Datenlieferant (Verbund)
 Ein Datenempfänger (integriertes Bibliothekssystem oder
lokaler OPAC)
5.12.2014 BI Symposium 2014 4

Und heute?
 Resource Discovery
 Elektronischer und gedruckter Bestand
 Bücher und Zeitschriften
 Titel- und Aufsatzebene
 Konsortial erworbene elektronische Zugänge
 Bibliografische Daten
 Volltexte
 Andere digitale Medien
 Bilddatenbanken
 Digitalisate
 Freie Quellen
 Open Access
 Nicht lizenzierte Medien
 Bibliografischer Nachweis als Ausgangspunkt für Lieferdienste
5.12.2014 BI Symposium 2014 5

Und heute?
 Datenmanagement
 Viele Datenformate
 MAB2, Marc21, Dublin Core, METS/MODS, …
 Viele Regelwerke
 RAK, AACR, RDA, ...
 Viele Datenquellen
 Eigene Datenbanken, Verbund, Konsortium, Lieferanten,
Anbieter, ...
 Mehrere Datenempfänger
 Integriertes Bibliothekssystem
 Resource Discovery System
5.12.2014 BI Symposium 2014 6

Herausforderungen
 Komplexität der Datenverarbeitung
 Kenntnis von Formaten
 Qualitätssicherung
 Informationsverluste
 Datenmengen
 Mehrere zehn Millionen Einträge nur für lizenzierte Medien
möglich
 Freie + nichtlizenzierte Medien → mehrere hundert
Millionen Einträge
5.12.2014 BI Symposium 2014 7

Werkzeuge zum Metadatenmanagement
5.12.2014 BI Symposium 2014 8

Metafacture
 Entwickelt im Rahmen des Projekts Culturegraph
 Hauptentwickler: Deutsche Nationalbibliothek und HBZ-NRW
 Komponenten
 Flux
 Skriptsprache zum Aufbau von Verarbeitungs-Pipelines
 Umwandlung, Speichern und Analysieren von Daten
 Keine Programmiersprachenkenntnisse erforderlich
 Morph
 Anwendungsspezifische Sprache zur Verarbeitung von Metadaten
 Modellierung als „Pipeline“
 Konfiguration in XML
 Framework
 Technische Umsetzung der einzelnen Komponenten in Java
 Erweiterbar durch eigene Programme
5.12.2014 BI Symposium 2014 9

Catmandu
 Sammlung von Werkzeugen zur Datenverarbeitung in
Bibliotheken
 Einlesen von Metadaten aus unterschiedlichen Quellen
 Speichern von Metadaten
 Suchen in Metadaten
 Export und Umwandlung in unterschiedliche Formate
 Sprache „Fix“
 Beschreibung von Transformationen und Bearbeitung von
Metadaten
 Entwicklung von eigenen Abläufen und Anwendungen
durch Kombination der Werkzeuge mit anderen
Entwicklungsumgebungen
5.12.2014 BI Symposium 2014 10

d:swarm
 Datenintegrations- und -modellierungswerkzeug
 Flexibles (elastisches), graphenbasiertes Datenmodell
 Überführung von Daten aus heterogenen Datenquellen
 Middleware-Lösung
 Durchführung aller bibliothekarischen
Datenverarbeitungsprozesse
 zwischen bestehenden Datenmanagementsystemen und
Webanwendungen (z.B. Discovery-System)
 Unterstützt u.a.
 Analysen zur Verbesserung der Datenqualität
 Deduplizierung und Zusammenführen von Titeldaten
 FRBRisierung bibliographischer Daten
5.12.2014 BI Symposium 2014 11

Cloud-basierte Dienstleistungen
5.12.2014 BI Symposium 2014 12

Das Versprechen der „Cloud“
 Web-basierte Dienstleistungen
 Von einfacher Infrastruktur bis zu komplexer Software
 Skalierung der Leistung nach Bedarf
 Gigantische Speichervolumina
 Schnelle Rechenleistung
 Nutzungsbasierte Abrechnung
 Keine hohen Anschaffungskosten
 Planbare laufende Kosten
5.12.2014 BI Symposium 2014 13

Cloud: Einfache Dienstleistungen
 Rechnerkapazität
 Virtuelle Server in Rechenzentren
 Auswahl bei Ausstattung und Betriebssystem
 Große Anzahl in kurzer Zeit buchbar
 Speicherkapazität
 Anteile an großen Festplatten-Verbünden
 Auswahl bei Geschwindigkeit und Netzanbindung
 Sehr große Datenmengen speicherbar
→ „Infrastructure-as-a-Service“ (IaaS)
5.12.2014 BI Symposium 2014 14

Produkte
 Rechenkapazität
 Amazon Elastic Compute Cloud (EC2)
 Google Compute Engine
 Microsoft Azure Virtual Machines
 Speicherkapazität
 Amazon Simple Storage Service (S3)
 Google Storage
 Microsoft Azure Storage
5.12.2014 BI Symposium 2014 15

Nutzungsszenarien
 Wechsel der Arbeitsumgebung
 Vom eigenen Arbeitsplatzrechner oder lokalen Server zum
virtuellen Server beim Cloud-Anbieter
 Vorteil: Geringere Kosten bei höherer Kapazität
 Beispiel: Amazon EC2 Typ „c3.8xlarge“ mit 32 CPUs und 60
GB RAM: $1,68 pro Stunde
 Zentrale Speicherung von großen Datenmengen
 Metadaten unter freien Lizenzen („Open Data“)
 Vorteil: Schneller Zugriff ohne Last für Netzwerke von
Datenanbietern
 Beispiel: Google Storage 50GB mit 10GB Transfers:
$2,61 pro Monat
5.12.2014 BI Symposium 2014 16

Cloud: Definierte Umgebungen
 Bereitstellung von Schnittstellen zur Programmierung
spezifischer Anwendungen
 Höherer Abstraktionsgrad
 Kunde „sieht“ nur die Schnittstellen, nicht mehr die virtuelle
Maschine mit Betriebssystem
 Umsetzung in Infrastruktur Aufgabe des Diensteanbieters
 Angebote für unterschiedliche Zielanwendungen
 Wissenschaftliche Datenverarbeitung
 Web-basierte Anwendungen
 Datenbanken
→ „Platform-as-a-Service“ (PaaS)
5.12.2014 BI Symposium 2014 17

Produkte
 Google App Engine
 Plattform für die Entwicklung von Web-Applikationen
 Programmiersprachen: Java, Python, PHP, Go
 Eigenschaften
 Persistente Speicherung von Daten
 Automatische Skalierung und Lastverteilung
 Programmabläufe, die nicht von Webzugriffen ausgelöst
werden
 Asynchrone Berechnungen, zeitgesteuerte Läufe
 Aber: Kein direkter Zugang zum Server
5.12.2014 BI Symposium 2014 18

Produkte
 Hadoop
 Plattform zur Programmierung verteilter Berechnungen zur
echten Skalierung für sehr große Datenmengen
 Eigenschaften
 Persistente Speicherung und Datenzugriff über alle Rechner
des Verbundes
 Automatisiert Aufteilen des Arbeitspakets, Verteilen auf
mehrere Rechner, Zusammenführen der Ergebnisse
 Programmierung in Java
 Zusätzliche Skriptsprachen zur einfacheren Programmierung
(z.B. „Pig Latin“)
5.12.2014 BI Symposium 2014 19

Produkte
 AWS DynamoDB
 NoSQL-Datenbankservice
 NoSQL
 Speicherung von Schlüssel-Wert-Paaren
 Speicherung von teilstrukturierten Daten
 Besser geeignet für typische Anwendungen im Metadatenbereich
als klassische relationale Datenbanken
 Eigenschaften
 Sehr schneller schlüsselbasierter Zugriff auf Daten
 konsistente Latenz im einstelligen Millisekundenbereich
 Skalierung für alle Größenordnungen
5.12.2014 BI Symposium 2014 20

Nutzungsszenarien
 Hadoop
 Verteilte Bearbeitung sehr großer Datenmengen
 Komplexe Operationen
 Datenvergleich und Clustering ähnlicher Daten
 Datenbereinigung
 Unterstützt in Metafacture
 NoSQL
 Zentrale indexierte Ablage von Daten („Backend“)
 Schneller Zugriff über Identifikatoren
 Spontane Abfragen und einfache Analysen direkt über die
Datenbank möglich
 Unterstützt in Catmandu und Metafacture
5.12.2014 BI Symposium 2014 21

Cloud: Einzelanwendungen
 Anwendungen für Endanwender
 Komplette Abstraktion der technischen Umsetzung
 Kunde nutzt nur noch eine web-basierte Schnittstelle
 Umsetzung und Skalierung Aufgabe des Anbieters
 Zahlreiche Angebote
 Dropbox
 Google Mail
 Microsoft Office 365 online
 …
 Aber: (Noch) keine für Metadatenverarbeitung
→ „Software-as-a-Service“ (SaaS)
5.12.2014 BI Symposium 2014 22

Aktuelle Projekte
5.12.2014 BI Symposium 2014 23

Datenaggregation
 Idee
 Sammeln von Open-Data Metadatenpaketen
 Dokumentierte Ablage in Cloud-Speicherdienst
 Bereitstellung in mehreren Datenformaten
 Erhoffter Nutzen
 Zentrale Anlaufstelle für Datennutzer
 Vermeidung von Doppelarbeit
 Einfache Nachnutzung in virtuellen Servern
5.12.2014 BI Symposium 2014 24

Toolsets
 Idee
 Bereitstellung von Werkzeugen und Programme zur
Metdatenverarbeitung ohne aufwändige Installation
 Vorbereitete Server-Einrichtung für Cloud-Dienste
 Wenn möglich: Testinstallationen mit web-basiertem
Zugang
 Erhoffter Nutzen
 Niederschwelliger Zugang zu den Werkzeugen
 Einfache Evaluation der Möglichkeiten
 Nutzung in der Lehre
5.12.2014 BI Symposium 2014 25

Fazit
5.12.2014 BI Symposium 2014 26

Es sieht ganz gut aus...
 Komplexität der Verarbeitung
 Es gibt gute Werkzeuge zur Vereinfachung häufiger
Bearbeitungsschritte
 Zahlreiche Projekte
 Unterschiedliche Ansätze und Schwerpunkte
 Sehr aktive Entwicklung
 Anwendungen in der Praxis und Forschung
 Bald: Anwendung in der Lehre
5.12.2014 BI Symposium 2014 27

Es sieht ganz gut aus...
 Cloud-Dienste
 Einfacher Effizienzgewinn und Kostenvorteile durch die
Umstieg auf IaaS-Angebote jederzeit realisierbar
 Gemeinsame Nutzung von Daten und Werkzeugen durch
Bereitstellung in Cloud-Angeboten
 Skalierung auch für sehr große Datenmengen durch die
Nutzung von PaaS-Angeboten technisch möglich
 Und besonders: d:swarm als vielversprechender Ansatz
eines SaaS-Angebots im Bereich Metadatenmanagement
5.12.2014 BI Symposium 2014 28

Fragen
??
5.12.2014 BI Symposium 2014 29

Danke für Ihre Aufmerksamkeit!
Folien online unter
http://www.slideshare.net/MagnusPfeffer/
Dieses Werk bzw. Inhalt steht unter einer
Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.
5.12.2014 BI Symposium 2014 30

Cloud Computing für die Verarbeitung von Metadaten

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (14)

En vedette

En vedette (20)

Similaire à Cloud Computing für die Verarbeitung von Metadaten

Similaire à Cloud Computing für die Verarbeitung von Metadaten (20)

Plus de Magnus Pfeffer

Plus de Magnus Pfeffer (12)

Cloud Computing für die Verarbeitung von Metadaten