SlideShare une entreprise Scribd logo
1  sur  30
Télécharger pour lire hors ligne
Cloud Computing für die Verarbeitung von 
Metadaten 
Prof. Magnus Pfeffer 
pfeffer@hdm-stuttgart.de
Überblick 
 Herausforderung Metadatenmanagement 
 Werkzeuge zum Metadatenmanagement 
 Cloud-basierte Dienstleistungen 
 Aktuelle Projekte 
 Fazit
Herausforderung Metadatenmanagement 
5.12.2014 BI Symposium 2014 3
Früher war alles einfacher... 
 (Online-)Katalog 
 Titelaufnahmen gedruckter Medien mit lokalem Bestand 
 Verknüpfte Normdaten 
 Zentrale, kooperative Bearbeitung im Verbund 
 Datenmanagement 
 Ein Datenformat (MAB2) 
 Ein Regelwerk (RAK) 
 Ein Datenlieferant (Verbund) 
 Ein Datenempfänger (integriertes Bibliothekssystem oder 
lokaler OPAC) 
5.12.2014 BI Symposium 2014 4
Und heute? 
 Resource Discovery 
 Elektronischer und gedruckter Bestand 
 Bücher und Zeitschriften 
 Titel- und Aufsatzebene 
 Konsortial erworbene elektronische Zugänge 
 Bibliografische Daten 
 Volltexte 
 Andere digitale Medien 
 Bilddatenbanken 
 Digitalisate 
 Freie Quellen 
 Open Access 
 Nicht lizenzierte Medien 
 Bibliografischer Nachweis als Ausgangspunkt für Lieferdienste 
5.12.2014 BI Symposium 2014 5
Und heute? 
 Datenmanagement 
 Viele Datenformate 
 MAB2, Marc21, Dublin Core, METS/MODS, … 
 Viele Regelwerke 
 RAK, AACR, RDA, ... 
 Viele Datenquellen 
 Eigene Datenbanken, Verbund, Konsortium, Lieferanten, 
Anbieter, ... 
 Mehrere Datenempfänger 
 Integriertes Bibliothekssystem 
 Resource Discovery System 
5.12.2014 BI Symposium 2014 6
Herausforderungen 
 Komplexität der Datenverarbeitung 
 Kenntnis von Formaten 
 Qualitätssicherung 
 Informationsverluste 
 Datenmengen 
 Mehrere zehn Millionen Einträge nur für lizenzierte Medien 
möglich 
 Freie + nichtlizenzierte Medien → mehrere hundert 
Millionen Einträge 
5.12.2014 BI Symposium 2014 7
Werkzeuge zum Metadatenmanagement 
5.12.2014 BI Symposium 2014 8
Metafacture 
 Entwickelt im Rahmen des Projekts Culturegraph 
 Hauptentwickler: Deutsche Nationalbibliothek und HBZ-NRW 
 Komponenten 
 Flux 
 Skriptsprache zum Aufbau von Verarbeitungs-Pipelines 
 Umwandlung, Speichern und Analysieren von Daten 
 Keine Programmiersprachenkenntnisse erforderlich 
 Morph 
 Anwendungsspezifische Sprache zur Verarbeitung von Metadaten 
 Modellierung als „Pipeline“ 
 Konfiguration in XML 
 Framework 
 Technische Umsetzung der einzelnen Komponenten in Java 
 Erweiterbar durch eigene Programme 
5.12.2014 BI Symposium 2014 9
Catmandu 
 Sammlung von Werkzeugen zur Datenverarbeitung in 
Bibliotheken 
 Einlesen von Metadaten aus unterschiedlichen Quellen 
 Speichern von Metadaten 
 Suchen in Metadaten 
 Export und Umwandlung in unterschiedliche Formate 
 Sprache „Fix“ 
 Beschreibung von Transformationen und Bearbeitung von 
Metadaten 
 Entwicklung von eigenen Abläufen und Anwendungen 
durch Kombination der Werkzeuge mit anderen 
Entwicklungsumgebungen 
5.12.2014 BI Symposium 2014 10
d:swarm 
 Datenintegrations- und -modellierungswerkzeug 
 Flexibles (elastisches), graphenbasiertes Datenmodell 
 Überführung von Daten aus heterogenen Datenquellen 
 Middleware-Lösung 
 Durchführung aller bibliothekarischen 
Datenverarbeitungsprozesse 
 zwischen bestehenden Datenmanagementsystemen und 
Webanwendungen (z.B. Discovery-System) 
 Unterstützt u.a. 
 Analysen zur Verbesserung der Datenqualität 
 Deduplizierung und Zusammenführen von Titeldaten 
 FRBRisierung bibliographischer Daten 
5.12.2014 BI Symposium 2014 11
Cloud-basierte Dienstleistungen 
5.12.2014 BI Symposium 2014 12
Das Versprechen der „Cloud“ 
 Web-basierte Dienstleistungen 
 Von einfacher Infrastruktur bis zu komplexer Software 
 Skalierung der Leistung nach Bedarf 
 Gigantische Speichervolumina 
 Schnelle Rechenleistung 
 Nutzungsbasierte Abrechnung 
 Keine hohen Anschaffungskosten 
 Planbare laufende Kosten 
5.12.2014 BI Symposium 2014 13
Cloud: Einfache Dienstleistungen 
 Rechnerkapazität 
 Virtuelle Server in Rechenzentren 
 Auswahl bei Ausstattung und Betriebssystem 
 Große Anzahl in kurzer Zeit buchbar 
 Speicherkapazität 
 Anteile an großen Festplatten-Verbünden 
 Auswahl bei Geschwindigkeit und Netzanbindung 
 Sehr große Datenmengen speicherbar 
→ „Infrastructure-as-a-Service“ (IaaS) 
5.12.2014 BI Symposium 2014 14
Produkte 
 Rechenkapazität 
 Amazon Elastic Compute Cloud (EC2) 
 Google Compute Engine 
 Microsoft Azure Virtual Machines 
 Speicherkapazität 
 Amazon Simple Storage Service (S3) 
 Google Storage 
 Microsoft Azure Storage 
5.12.2014 BI Symposium 2014 15
Nutzungsszenarien 
 Wechsel der Arbeitsumgebung 
 Vom eigenen Arbeitsplatzrechner oder lokalen Server zum 
virtuellen Server beim Cloud-Anbieter 
 Vorteil: Geringere Kosten bei höherer Kapazität 
 Beispiel: Amazon EC2 Typ „c3.8xlarge“ mit 32 CPUs und 60 
GB RAM: $1,68 pro Stunde 
 Zentrale Speicherung von großen Datenmengen 
 Metadaten unter freien Lizenzen („Open Data“) 
 Vorteil: Schneller Zugriff ohne Last für Netzwerke von 
Datenanbietern 
 Beispiel: Google Storage 50GB mit 10GB Transfers: 
$2,61 pro Monat 
5.12.2014 BI Symposium 2014 16
Cloud: Definierte Umgebungen 
 Bereitstellung von Schnittstellen zur Programmierung 
spezifischer Anwendungen 
 Höherer Abstraktionsgrad 
 Kunde „sieht“ nur die Schnittstellen, nicht mehr die virtuelle 
Maschine mit Betriebssystem 
 Umsetzung in Infrastruktur Aufgabe des Diensteanbieters 
 Angebote für unterschiedliche Zielanwendungen 
 Wissenschaftliche Datenverarbeitung 
 Web-basierte Anwendungen 
 Datenbanken 
→ „Platform-as-a-Service“ (PaaS) 
5.12.2014 BI Symposium 2014 17
Produkte 
 Google App Engine 
 Plattform für die Entwicklung von Web-Applikationen 
 Programmiersprachen: Java, Python, PHP, Go 
 Eigenschaften 
 Persistente Speicherung von Daten 
 Automatische Skalierung und Lastverteilung 
 Programmabläufe, die nicht von Webzugriffen ausgelöst 
werden 
 Asynchrone Berechnungen, zeitgesteuerte Läufe 
 Aber: Kein direkter Zugang zum Server 
5.12.2014 BI Symposium 2014 18
Produkte 
 Hadoop 
 Plattform zur Programmierung verteilter Berechnungen zur 
echten Skalierung für sehr große Datenmengen 
 Eigenschaften 
 Persistente Speicherung und Datenzugriff über alle Rechner 
des Verbundes 
 Automatisiert Aufteilen des Arbeitspakets, Verteilen auf 
mehrere Rechner, Zusammenführen der Ergebnisse 
 Programmierung in Java 
 Zusätzliche Skriptsprachen zur einfacheren Programmierung 
(z.B. „Pig Latin“) 
5.12.2014 BI Symposium 2014 19
Produkte 
 AWS DynamoDB 
 NoSQL-Datenbankservice 
 NoSQL 
 Speicherung von Schlüssel-Wert-Paaren 
 Speicherung von teilstrukturierten Daten 
 Besser geeignet für typische Anwendungen im Metadatenbereich 
als klassische relationale Datenbanken 
 Eigenschaften 
 Sehr schneller schlüsselbasierter Zugriff auf Daten 
 konsistente Latenz im einstelligen Millisekundenbereich 
 Skalierung für alle Größenordnungen 
5.12.2014 BI Symposium 2014 20
Nutzungsszenarien 
 Hadoop 
 Verteilte Bearbeitung sehr großer Datenmengen 
 Komplexe Operationen 
 Datenvergleich und Clustering ähnlicher Daten 
 Datenbereinigung 
 Unterstützt in Metafacture 
 NoSQL 
 Zentrale indexierte Ablage von Daten („Backend“) 
 Schneller Zugriff über Identifikatoren 
 Spontane Abfragen und einfache Analysen direkt über die 
Datenbank möglich 
 Unterstützt in Catmandu und Metafacture 
5.12.2014 BI Symposium 2014 21
Cloud: Einzelanwendungen 
 Anwendungen für Endanwender 
 Komplette Abstraktion der technischen Umsetzung 
 Kunde nutzt nur noch eine web-basierte Schnittstelle 
 Umsetzung und Skalierung Aufgabe des Anbieters 
 Zahlreiche Angebote 
 Dropbox 
 Google Mail 
 Microsoft Office 365 online 
 … 
 Aber: (Noch) keine für Metadatenverarbeitung 
→ „Software-as-a-Service“ (SaaS) 
5.12.2014 BI Symposium 2014 22
Aktuelle Projekte 
5.12.2014 BI Symposium 2014 23
Datenaggregation 
 Idee 
 Sammeln von Open-Data Metadatenpaketen 
 Dokumentierte Ablage in Cloud-Speicherdienst 
 Bereitstellung in mehreren Datenformaten 
 Erhoffter Nutzen 
 Zentrale Anlaufstelle für Datennutzer 
 Vermeidung von Doppelarbeit 
 Einfache Nachnutzung in virtuellen Servern 
5.12.2014 BI Symposium 2014 24
Toolsets 
 Idee 
 Bereitstellung von Werkzeugen und Programme zur 
Metdatenverarbeitung ohne aufwändige Installation 
 Vorbereitete Server-Einrichtung für Cloud-Dienste 
 Wenn möglich: Testinstallationen mit web-basiertem 
Zugang 
 Erhoffter Nutzen 
 Niederschwelliger Zugang zu den Werkzeugen 
 Einfache Evaluation der Möglichkeiten 
 Nutzung in der Lehre 
5.12.2014 BI Symposium 2014 25
Fazit 
5.12.2014 BI Symposium 2014 26
Es sieht ganz gut aus... 
 Komplexität der Verarbeitung 
 Es gibt gute Werkzeuge zur Vereinfachung häufiger 
Bearbeitungsschritte 
 Zahlreiche Projekte 
 Unterschiedliche Ansätze und Schwerpunkte 
 Sehr aktive Entwicklung 
 Anwendungen in der Praxis und Forschung 
 Bald: Anwendung in der Lehre 
5.12.2014 BI Symposium 2014 27
Es sieht ganz gut aus... 
 Cloud-Dienste 
 Einfacher Effizienzgewinn und Kostenvorteile durch die 
Umstieg auf IaaS-Angebote jederzeit realisierbar 
 Gemeinsame Nutzung von Daten und Werkzeugen durch 
Bereitstellung in Cloud-Angeboten 
 Skalierung auch für sehr große Datenmengen durch die 
Nutzung von PaaS-Angeboten technisch möglich 
 Und besonders: d:swarm als vielversprechender Ansatz 
eines SaaS-Angebots im Bereich Metadatenmanagement 
5.12.2014 BI Symposium 2014 28
Fragen 
?? 
5.12.2014 BI Symposium 2014 29
Danke für Ihre Aufmerksamkeit! 
Folien online unter 
http://www.slideshare.net/MagnusPfeffer/ 
Dieses Werk bzw. Inhalt steht unter einer 
Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz. 
5.12.2014 BI Symposium 2014 30

Contenu connexe

Tendances

Standardisierte Nutzungsstatiken für Repositorien und Linkresolver
Standardisierte Nutzungsstatiken für Repositorien und LinkresolverStandardisierte Nutzungsstatiken für Repositorien und Linkresolver
Standardisierte Nutzungsstatiken für Repositorien und LinkresolverDaniel Beucke
 
Normdatendienste der VZG und ihre Anwendungsmöglichkeiten
Normdatendienste der VZG und ihre AnwendungsmöglichkeitenNormdatendienste der VZG und ihre Anwendungsmöglichkeiten
Normdatendienste der VZG und ihre Anwendungsmöglichkeitenintranda GmbH
 
Clustering auf Werksebene
Clustering auf WerksebeneClustering auf Werksebene
Clustering auf WerksebeneMagnus Pfeffer
 
1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trend1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trendintranda GmbH
 
schema.org und Bibliotheken
schema.org und Bibliothekenschema.org und Bibliotheken
schema.org und BibliothekenAdrian Pohl
 
VIVO Use Case Dresden #VIVODE15 9.9.2015
VIVO Use Case Dresden #VIVODE15 9.9.2015VIVO Use Case Dresden #VIVODE15 9.9.2015
VIVO Use Case Dresden #VIVODE15 9.9.2015Felix Lohmeier
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Dennis Zielke
 
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...Felix Lohmeier
 
OPAL - Open Data Portal Germany
OPAL - Open Data Portal GermanyOPAL - Open Data Portal Germany
OPAL - Open Data Portal GermanyAdrian Wilke
 
Metadatenmanagement: die ETH-Bibliothek beschreitet neue Wege
Metadatenmanagement: die ETH-Bibliothek beschreitet neue WegeMetadatenmanagement: die ETH-Bibliothek beschreitet neue Wege
Metadatenmanagement: die ETH-Bibliothek beschreitet neue WegeETH-Bibliothek
 
Resource Discovery - Sacherschließung am Ende?
Resource Discovery - Sacherschließung am Ende?Resource Discovery - Sacherschließung am Ende?
Resource Discovery - Sacherschließung am Ende?Magnus Pfeffer
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platformredsys
 
Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...
Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...
Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...Martin Blenkle
 

Tendances (14)

Standardisierte Nutzungsstatiken für Repositorien und Linkresolver
Standardisierte Nutzungsstatiken für Repositorien und LinkresolverStandardisierte Nutzungsstatiken für Repositorien und Linkresolver
Standardisierte Nutzungsstatiken für Repositorien und Linkresolver
 
Normdatendienste der VZG und ihre Anwendungsmöglichkeiten
Normdatendienste der VZG und ihre AnwendungsmöglichkeitenNormdatendienste der VZG und ihre Anwendungsmöglichkeiten
Normdatendienste der VZG und ihre Anwendungsmöglichkeiten
 
Clustering auf Werksebene
Clustering auf WerksebeneClustering auf Werksebene
Clustering auf Werksebene
 
SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...
SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...
SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...
 
1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trend1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trend
 
schema.org und Bibliotheken
schema.org und Bibliothekenschema.org und Bibliotheken
schema.org und Bibliotheken
 
VIVO Use Case Dresden #VIVODE15 9.9.2015
VIVO Use Case Dresden #VIVODE15 9.9.2015VIVO Use Case Dresden #VIVODE15 9.9.2015
VIVO Use Case Dresden #VIVODE15 9.9.2015
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
 
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...
 
OPAL - Open Data Portal Germany
OPAL - Open Data Portal GermanyOPAL - Open Data Portal Germany
OPAL - Open Data Portal Germany
 
Metadatenmanagement: die ETH-Bibliothek beschreitet neue Wege
Metadatenmanagement: die ETH-Bibliothek beschreitet neue WegeMetadatenmanagement: die ETH-Bibliothek beschreitet neue Wege
Metadatenmanagement: die ETH-Bibliothek beschreitet neue Wege
 
Resource Discovery - Sacherschließung am Ende?
Resource Discovery - Sacherschließung am Ende?Resource Discovery - Sacherschließung am Ende?
Resource Discovery - Sacherschließung am Ende?
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platform
 
Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...
Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...
Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...
 

En vedette

Internet in2015
Internet in2015Internet in2015
Internet in2015Popowski
 
TÉNÉRÉ EXPERIENCE TOURS 2012
TÉNÉRÉ EXPERIENCE TOURS 2012TÉNÉRÉ EXPERIENCE TOURS 2012
TÉNÉRÉ EXPERIENCE TOURS 2012fotopower
 
Presentacion internet
Presentacion   internetPresentacion   internet
Presentacion internetdannyismael
 
Metodologia diapositivas
Metodologia diapositivasMetodologia diapositivas
Metodologia diapositivasBRYA_N
 
Deutsche Börse Cloud Exchange - Präsentation
Deutsche Börse Cloud Exchange - Präsentation Deutsche Börse Cloud Exchange - Präsentation
Deutsche Börse Cloud Exchange - Präsentation Deutsche Börse AG
 
Factsheet STOXX GC Pooling Indizes
Factsheet STOXX GC Pooling IndizesFactsheet STOXX GC Pooling Indizes
Factsheet STOXX GC Pooling IndizesDeutsche Börse AG
 
Robert Halver, Baader Bank: Kapitalmarktausblick
Robert Halver, Baader Bank: KapitalmarktausblickRobert Halver, Baader Bank: Kapitalmarktausblick
Robert Halver, Baader Bank: KapitalmarktausblickDeutsche Börse AG
 
Formemos hijos triunfadores
Formemos hijos triunfadoresFormemos hijos triunfadores
Formemos hijos triunfadoresdianislauw69
 
Presentacion carolina
Presentacion carolinaPresentacion carolina
Presentacion carolinaCeciliaGualpa
 
Los autómatas s-200, s-300 y su programción con Simatic Step 7 v5.4 Incl Sp3
Los autómatas s-200, s-300 y su programción con Simatic Step 7 v5.4 Incl Sp3Los autómatas s-200, s-300 y su programción con Simatic Step 7 v5.4 Incl Sp3
Los autómatas s-200, s-300 y su programción con Simatic Step 7 v5.4 Incl Sp3Frann Paz
 
El priista numero 23
El priista numero 23El priista numero 23
El priista numero 23MNCGuerrero
 

En vedette (20)

Puentemaslindosdelmundo
PuentemaslindosdelmundoPuentemaslindosdelmundo
Puentemaslindosdelmundo
 
La basura
La basuraLa basura
La basura
 
Urss
UrssUrss
Urss
 
Internet in2015
Internet in2015Internet in2015
Internet in2015
 
TÉNÉRÉ EXPERIENCE TOURS 2012
TÉNÉRÉ EXPERIENCE TOURS 2012TÉNÉRÉ EXPERIENCE TOURS 2012
TÉNÉRÉ EXPERIENCE TOURS 2012
 
Presentacion internet
Presentacion   internetPresentacion   internet
Presentacion internet
 
Metodologia diapositivas
Metodologia diapositivasMetodologia diapositivas
Metodologia diapositivas
 
windows movie make
windows movie makewindows movie make
windows movie make
 
Deutsche Börse Cloud Exchange - Präsentation
Deutsche Börse Cloud Exchange - Präsentation Deutsche Börse Cloud Exchange - Präsentation
Deutsche Börse Cloud Exchange - Präsentation
 
Cultura
CulturaCultura
Cultura
 
Factsheet STOXX GC Pooling Indizes
Factsheet STOXX GC Pooling IndizesFactsheet STOXX GC Pooling Indizes
Factsheet STOXX GC Pooling Indizes
 
Decimo a
Decimo aDecimo a
Decimo a
 
Las wikis
Las wikisLas wikis
Las wikis
 
TAREA 4
TAREA 4TAREA 4
TAREA 4
 
Robert Halver, Baader Bank: Kapitalmarktausblick
Robert Halver, Baader Bank: KapitalmarktausblickRobert Halver, Baader Bank: Kapitalmarktausblick
Robert Halver, Baader Bank: Kapitalmarktausblick
 
Formemos hijos triunfadores
Formemos hijos triunfadoresFormemos hijos triunfadores
Formemos hijos triunfadores
 
Presentacion carolina
Presentacion carolinaPresentacion carolina
Presentacion carolina
 
T folge11 ftt
T folge11 fttT folge11 ftt
T folge11 ftt
 
Los autómatas s-200, s-300 y su programción con Simatic Step 7 v5.4 Incl Sp3
Los autómatas s-200, s-300 y su programción con Simatic Step 7 v5.4 Incl Sp3Los autómatas s-200, s-300 y su programción con Simatic Step 7 v5.4 Incl Sp3
Los autómatas s-200, s-300 y su programción con Simatic Step 7 v5.4 Incl Sp3
 
El priista numero 23
El priista numero 23El priista numero 23
El priista numero 23
 

Similaire à Cloud Computing für die Verarbeitung von Metadaten

Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data KonnektivitätTrivadis
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesOPITZ CONSULTING Deutschland
 
Event-Streaming in Echtzeit: Der MongoDB-Kafka-Connector in Action!
Event-Streaming in Echtzeit: Der MongoDB-Kafka-Connector in Action!Event-Streaming in Echtzeit: Der MongoDB-Kafka-Connector in Action!
Event-Streaming in Echtzeit: Der MongoDB-Kafka-Connector in Action!confluent
 
Übersetzungsproduktivität: Der nächste Schritt
Übersetzungsproduktivität: Der nächste SchrittÜbersetzungsproduktivität: Der nächste Schritt
Übersetzungsproduktivität: Der nächste SchrittSDL Language Technologies
 
SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSven Schlarb
 
RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?Capgemini
 
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenAMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenBjörn Muschall
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenLydiaU
 
Erweitern sie ihr Data Center mit Cloud Services
Erweitern sie ihr Data Center mit Cloud ServicesErweitern sie ihr Data Center mit Cloud Services
Erweitern sie ihr Data Center mit Cloud ServicesAWS Germany
 
sones auf windows azure whitepaper (german)
sones auf windows azure whitepaper (german)sones auf windows azure whitepaper (german)
sones auf windows azure whitepaper (german)sones GmbH
 
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Gunther Pippèrr
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRene Burgener
 
Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)AWS Germany
 
amsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphaseamsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-FörderphaseBjörn Muschall
 
16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und RepositorienPascal-Nicolas Becker
 
sones NoSQL GraphDatenbank für Bilderportale
sones NoSQL GraphDatenbank für Bilderportalesones NoSQL GraphDatenbank für Bilderportale
sones NoSQL GraphDatenbank für Bilderportalesones GmbH
 
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die CloudSQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die CloudAWS Germany
 
Datenbanken - Eine Übersicht (WPMeetUP München)
Datenbanken - Eine Übersicht (WPMeetUP München)Datenbanken - Eine Übersicht (WPMeetUP München)
Datenbanken - Eine Übersicht (WPMeetUP München)Dietmar Leher
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rMarcel Franke
 
skilllocation Foliensatz zu Microsoft Azure
skilllocation Foliensatz zu Microsoft Azureskilllocation Foliensatz zu Microsoft Azure
skilllocation Foliensatz zu Microsoft AzureCarola Pantenburg
 

Similaire à Cloud Computing für die Verarbeitung von Metadaten (20)

Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
 
Event-Streaming in Echtzeit: Der MongoDB-Kafka-Connector in Action!
Event-Streaming in Echtzeit: Der MongoDB-Kafka-Connector in Action!Event-Streaming in Echtzeit: Der MongoDB-Kafka-Connector in Action!
Event-Streaming in Echtzeit: Der MongoDB-Kafka-Connector in Action!
 
Übersetzungsproduktivität: Der nächste Schritt
Übersetzungsproduktivität: Der nächste SchrittÜbersetzungsproduktivität: Der nächste Schritt
Übersetzungsproduktivität: Der nächste Schritt
 
SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare Langzeitarchivierung
 
RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?
 
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenAMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
 
Erweitern sie ihr Data Center mit Cloud Services
Erweitern sie ihr Data Center mit Cloud ServicesErweitern sie ihr Data Center mit Cloud Services
Erweitern sie ihr Data Center mit Cloud Services
 
sones auf windows azure whitepaper (german)
sones auf windows azure whitepaper (german)sones auf windows azure whitepaper (german)
sones auf windows azure whitepaper (german)
 
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 
Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)
 
amsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphaseamsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphase
 
16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien
 
sones NoSQL GraphDatenbank für Bilderportale
sones NoSQL GraphDatenbank für Bilderportalesones NoSQL GraphDatenbank für Bilderportale
sones NoSQL GraphDatenbank für Bilderportale
 
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die CloudSQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
 
Datenbanken - Eine Übersicht (WPMeetUP München)
Datenbanken - Eine Übersicht (WPMeetUP München)Datenbanken - Eine Übersicht (WPMeetUP München)
Datenbanken - Eine Übersicht (WPMeetUP München)
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und r
 
skilllocation Foliensatz zu Microsoft Azure
skilllocation Foliensatz zu Microsoft Azureskilllocation Foliensatz zu Microsoft Azure
skilllocation Foliensatz zu Microsoft Azure
 

Plus de Magnus Pfeffer

Metadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
Metadata Provenance Tutorial Part 2: Interoperable Metadata ProvenanceMetadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
Metadata Provenance Tutorial Part 2: Interoperable Metadata ProvenanceMagnus Pfeffer
 
Automatic creation of mappings between classification systems for bibliograph...
Automatic creation of mappings between classification systems for bibliograph...Automatic creation of mappings between classification systems for bibliograph...
Automatic creation of mappings between classification systems for bibliograph...Magnus Pfeffer
 
Automatic creation of mappings between classification systems
Automatic creation of mappings between classification systemsAutomatic creation of mappings between classification systems
Automatic creation of mappings between classification systemsMagnus Pfeffer
 
Automatisches Generieren von Konkordanzen
Automatisches Generieren von KonkordanzenAutomatisches Generieren von Konkordanzen
Automatisches Generieren von KonkordanzenMagnus Pfeffer
 
Bibliotheken und Linked Open Data Extended
Bibliotheken und Linked Open Data ExtendedBibliotheken und Linked Open Data Extended
Bibliotheken und Linked Open Data ExtendedMagnus Pfeffer
 
Bibliotheken und Linked Open Data Reduced
Bibliotheken und Linked Open Data ReducedBibliotheken und Linked Open Data Reduced
Bibliotheken und Linked Open Data ReducedMagnus Pfeffer
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open DataMagnus Pfeffer
 
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...Magnus Pfeffer
 
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzenAusleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzenMagnus Pfeffer
 
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...Magnus Pfeffer
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open DataMagnus Pfeffer
 
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...Magnus Pfeffer
 

Plus de Magnus Pfeffer (12)

Metadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
Metadata Provenance Tutorial Part 2: Interoperable Metadata ProvenanceMetadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
Metadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
 
Automatic creation of mappings between classification systems for bibliograph...
Automatic creation of mappings between classification systems for bibliograph...Automatic creation of mappings between classification systems for bibliograph...
Automatic creation of mappings between classification systems for bibliograph...
 
Automatic creation of mappings between classification systems
Automatic creation of mappings between classification systemsAutomatic creation of mappings between classification systems
Automatic creation of mappings between classification systems
 
Automatisches Generieren von Konkordanzen
Automatisches Generieren von KonkordanzenAutomatisches Generieren von Konkordanzen
Automatisches Generieren von Konkordanzen
 
Bibliotheken und Linked Open Data Extended
Bibliotheken und Linked Open Data ExtendedBibliotheken und Linked Open Data Extended
Bibliotheken und Linked Open Data Extended
 
Bibliotheken und Linked Open Data Reduced
Bibliotheken und Linked Open Data ReducedBibliotheken und Linked Open Data Reduced
Bibliotheken und Linked Open Data Reduced
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open Data
 
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...
 
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzenAusleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
 
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open Data
 
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
 

Cloud Computing für die Verarbeitung von Metadaten

  • 1. Cloud Computing für die Verarbeitung von Metadaten Prof. Magnus Pfeffer pfeffer@hdm-stuttgart.de
  • 2. Überblick  Herausforderung Metadatenmanagement  Werkzeuge zum Metadatenmanagement  Cloud-basierte Dienstleistungen  Aktuelle Projekte  Fazit
  • 4. Früher war alles einfacher...  (Online-)Katalog  Titelaufnahmen gedruckter Medien mit lokalem Bestand  Verknüpfte Normdaten  Zentrale, kooperative Bearbeitung im Verbund  Datenmanagement  Ein Datenformat (MAB2)  Ein Regelwerk (RAK)  Ein Datenlieferant (Verbund)  Ein Datenempfänger (integriertes Bibliothekssystem oder lokaler OPAC) 5.12.2014 BI Symposium 2014 4
  • 5. Und heute?  Resource Discovery  Elektronischer und gedruckter Bestand  Bücher und Zeitschriften  Titel- und Aufsatzebene  Konsortial erworbene elektronische Zugänge  Bibliografische Daten  Volltexte  Andere digitale Medien  Bilddatenbanken  Digitalisate  Freie Quellen  Open Access  Nicht lizenzierte Medien  Bibliografischer Nachweis als Ausgangspunkt für Lieferdienste 5.12.2014 BI Symposium 2014 5
  • 6. Und heute?  Datenmanagement  Viele Datenformate  MAB2, Marc21, Dublin Core, METS/MODS, …  Viele Regelwerke  RAK, AACR, RDA, ...  Viele Datenquellen  Eigene Datenbanken, Verbund, Konsortium, Lieferanten, Anbieter, ...  Mehrere Datenempfänger  Integriertes Bibliothekssystem  Resource Discovery System 5.12.2014 BI Symposium 2014 6
  • 7. Herausforderungen  Komplexität der Datenverarbeitung  Kenntnis von Formaten  Qualitätssicherung  Informationsverluste  Datenmengen  Mehrere zehn Millionen Einträge nur für lizenzierte Medien möglich  Freie + nichtlizenzierte Medien → mehrere hundert Millionen Einträge 5.12.2014 BI Symposium 2014 7
  • 8. Werkzeuge zum Metadatenmanagement 5.12.2014 BI Symposium 2014 8
  • 9. Metafacture  Entwickelt im Rahmen des Projekts Culturegraph  Hauptentwickler: Deutsche Nationalbibliothek und HBZ-NRW  Komponenten  Flux  Skriptsprache zum Aufbau von Verarbeitungs-Pipelines  Umwandlung, Speichern und Analysieren von Daten  Keine Programmiersprachenkenntnisse erforderlich  Morph  Anwendungsspezifische Sprache zur Verarbeitung von Metadaten  Modellierung als „Pipeline“  Konfiguration in XML  Framework  Technische Umsetzung der einzelnen Komponenten in Java  Erweiterbar durch eigene Programme 5.12.2014 BI Symposium 2014 9
  • 10. Catmandu  Sammlung von Werkzeugen zur Datenverarbeitung in Bibliotheken  Einlesen von Metadaten aus unterschiedlichen Quellen  Speichern von Metadaten  Suchen in Metadaten  Export und Umwandlung in unterschiedliche Formate  Sprache „Fix“  Beschreibung von Transformationen und Bearbeitung von Metadaten  Entwicklung von eigenen Abläufen und Anwendungen durch Kombination der Werkzeuge mit anderen Entwicklungsumgebungen 5.12.2014 BI Symposium 2014 10
  • 11. d:swarm  Datenintegrations- und -modellierungswerkzeug  Flexibles (elastisches), graphenbasiertes Datenmodell  Überführung von Daten aus heterogenen Datenquellen  Middleware-Lösung  Durchführung aller bibliothekarischen Datenverarbeitungsprozesse  zwischen bestehenden Datenmanagementsystemen und Webanwendungen (z.B. Discovery-System)  Unterstützt u.a.  Analysen zur Verbesserung der Datenqualität  Deduplizierung und Zusammenführen von Titeldaten  FRBRisierung bibliographischer Daten 5.12.2014 BI Symposium 2014 11
  • 13. Das Versprechen der „Cloud“  Web-basierte Dienstleistungen  Von einfacher Infrastruktur bis zu komplexer Software  Skalierung der Leistung nach Bedarf  Gigantische Speichervolumina  Schnelle Rechenleistung  Nutzungsbasierte Abrechnung  Keine hohen Anschaffungskosten  Planbare laufende Kosten 5.12.2014 BI Symposium 2014 13
  • 14. Cloud: Einfache Dienstleistungen  Rechnerkapazität  Virtuelle Server in Rechenzentren  Auswahl bei Ausstattung und Betriebssystem  Große Anzahl in kurzer Zeit buchbar  Speicherkapazität  Anteile an großen Festplatten-Verbünden  Auswahl bei Geschwindigkeit und Netzanbindung  Sehr große Datenmengen speicherbar → „Infrastructure-as-a-Service“ (IaaS) 5.12.2014 BI Symposium 2014 14
  • 15. Produkte  Rechenkapazität  Amazon Elastic Compute Cloud (EC2)  Google Compute Engine  Microsoft Azure Virtual Machines  Speicherkapazität  Amazon Simple Storage Service (S3)  Google Storage  Microsoft Azure Storage 5.12.2014 BI Symposium 2014 15
  • 16. Nutzungsszenarien  Wechsel der Arbeitsumgebung  Vom eigenen Arbeitsplatzrechner oder lokalen Server zum virtuellen Server beim Cloud-Anbieter  Vorteil: Geringere Kosten bei höherer Kapazität  Beispiel: Amazon EC2 Typ „c3.8xlarge“ mit 32 CPUs und 60 GB RAM: $1,68 pro Stunde  Zentrale Speicherung von großen Datenmengen  Metadaten unter freien Lizenzen („Open Data“)  Vorteil: Schneller Zugriff ohne Last für Netzwerke von Datenanbietern  Beispiel: Google Storage 50GB mit 10GB Transfers: $2,61 pro Monat 5.12.2014 BI Symposium 2014 16
  • 17. Cloud: Definierte Umgebungen  Bereitstellung von Schnittstellen zur Programmierung spezifischer Anwendungen  Höherer Abstraktionsgrad  Kunde „sieht“ nur die Schnittstellen, nicht mehr die virtuelle Maschine mit Betriebssystem  Umsetzung in Infrastruktur Aufgabe des Diensteanbieters  Angebote für unterschiedliche Zielanwendungen  Wissenschaftliche Datenverarbeitung  Web-basierte Anwendungen  Datenbanken → „Platform-as-a-Service“ (PaaS) 5.12.2014 BI Symposium 2014 17
  • 18. Produkte  Google App Engine  Plattform für die Entwicklung von Web-Applikationen  Programmiersprachen: Java, Python, PHP, Go  Eigenschaften  Persistente Speicherung von Daten  Automatische Skalierung und Lastverteilung  Programmabläufe, die nicht von Webzugriffen ausgelöst werden  Asynchrone Berechnungen, zeitgesteuerte Läufe  Aber: Kein direkter Zugang zum Server 5.12.2014 BI Symposium 2014 18
  • 19. Produkte  Hadoop  Plattform zur Programmierung verteilter Berechnungen zur echten Skalierung für sehr große Datenmengen  Eigenschaften  Persistente Speicherung und Datenzugriff über alle Rechner des Verbundes  Automatisiert Aufteilen des Arbeitspakets, Verteilen auf mehrere Rechner, Zusammenführen der Ergebnisse  Programmierung in Java  Zusätzliche Skriptsprachen zur einfacheren Programmierung (z.B. „Pig Latin“) 5.12.2014 BI Symposium 2014 19
  • 20. Produkte  AWS DynamoDB  NoSQL-Datenbankservice  NoSQL  Speicherung von Schlüssel-Wert-Paaren  Speicherung von teilstrukturierten Daten  Besser geeignet für typische Anwendungen im Metadatenbereich als klassische relationale Datenbanken  Eigenschaften  Sehr schneller schlüsselbasierter Zugriff auf Daten  konsistente Latenz im einstelligen Millisekundenbereich  Skalierung für alle Größenordnungen 5.12.2014 BI Symposium 2014 20
  • 21. Nutzungsszenarien  Hadoop  Verteilte Bearbeitung sehr großer Datenmengen  Komplexe Operationen  Datenvergleich und Clustering ähnlicher Daten  Datenbereinigung  Unterstützt in Metafacture  NoSQL  Zentrale indexierte Ablage von Daten („Backend“)  Schneller Zugriff über Identifikatoren  Spontane Abfragen und einfache Analysen direkt über die Datenbank möglich  Unterstützt in Catmandu und Metafacture 5.12.2014 BI Symposium 2014 21
  • 22. Cloud: Einzelanwendungen  Anwendungen für Endanwender  Komplette Abstraktion der technischen Umsetzung  Kunde nutzt nur noch eine web-basierte Schnittstelle  Umsetzung und Skalierung Aufgabe des Anbieters  Zahlreiche Angebote  Dropbox  Google Mail  Microsoft Office 365 online  …  Aber: (Noch) keine für Metadatenverarbeitung → „Software-as-a-Service“ (SaaS) 5.12.2014 BI Symposium 2014 22
  • 23. Aktuelle Projekte 5.12.2014 BI Symposium 2014 23
  • 24. Datenaggregation  Idee  Sammeln von Open-Data Metadatenpaketen  Dokumentierte Ablage in Cloud-Speicherdienst  Bereitstellung in mehreren Datenformaten  Erhoffter Nutzen  Zentrale Anlaufstelle für Datennutzer  Vermeidung von Doppelarbeit  Einfache Nachnutzung in virtuellen Servern 5.12.2014 BI Symposium 2014 24
  • 25. Toolsets  Idee  Bereitstellung von Werkzeugen und Programme zur Metdatenverarbeitung ohne aufwändige Installation  Vorbereitete Server-Einrichtung für Cloud-Dienste  Wenn möglich: Testinstallationen mit web-basiertem Zugang  Erhoffter Nutzen  Niederschwelliger Zugang zu den Werkzeugen  Einfache Evaluation der Möglichkeiten  Nutzung in der Lehre 5.12.2014 BI Symposium 2014 25
  • 26. Fazit 5.12.2014 BI Symposium 2014 26
  • 27. Es sieht ganz gut aus...  Komplexität der Verarbeitung  Es gibt gute Werkzeuge zur Vereinfachung häufiger Bearbeitungsschritte  Zahlreiche Projekte  Unterschiedliche Ansätze und Schwerpunkte  Sehr aktive Entwicklung  Anwendungen in der Praxis und Forschung  Bald: Anwendung in der Lehre 5.12.2014 BI Symposium 2014 27
  • 28. Es sieht ganz gut aus...  Cloud-Dienste  Einfacher Effizienzgewinn und Kostenvorteile durch die Umstieg auf IaaS-Angebote jederzeit realisierbar  Gemeinsame Nutzung von Daten und Werkzeugen durch Bereitstellung in Cloud-Angeboten  Skalierung auch für sehr große Datenmengen durch die Nutzung von PaaS-Angeboten technisch möglich  Und besonders: d:swarm als vielversprechender Ansatz eines SaaS-Angebots im Bereich Metadatenmanagement 5.12.2014 BI Symposium 2014 28
  • 29. Fragen ?? 5.12.2014 BI Symposium 2014 29
  • 30. Danke für Ihre Aufmerksamkeit! Folien online unter http://www.slideshare.net/MagnusPfeffer/ Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz. 5.12.2014 BI Symposium 2014 30