SCAPE Skalierbare Langzeitarchivierung

04.10.2013
Dr. Sven Schlarb
Österreichische Nationalbibliothek
Abteilung für Forschung und Entwicklung
sven.schlarb@onb.ac.at
SCAPE
Skalierbare Langzeitarchivierung

• Einführung
• SCAPE Lösungen
• Repositories
• Werkzeuge
• Planung der Langzeitarchivierung
• Anwendungsfälle
• Web-Archivierung
• Repositories
• Wissenschaftliche Daten
• Datenzentren
• Weiterführende Informationen
Übersicht
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

SCAPE – Worum gehts im Allgemeinen?
• „Big data“ – Verarbeitung großer Datenmengen
• Skalierbarkeit in mehrerlei Hinsicht
• Anzahl
• Größe
• Komplexität
• Vielfalt der Datenformate
• IT Umgebungen (Hardware, Software, Systeme) sind für
das Management zunehmender Datenmengen nicht
ausgerichtet
der zu verarbeitenden Objekte

SCAPE – Worum gehts konkret?
• Planung und Durchführung rechenintensiver
Maßnahmen der Langzeitarchivierung, zum Beispiel:
• Ingest großer Datenmengen in ein Repository
• Dateiformat-Identifikation und Bestimmung von Dateieigenschaften
• Multi-Terabyte Migration
• Ausarbeitung typischer Anwendungsfälle die skalierbare
Maßnahmen für die Langzeitarchivierung erfordern
• Umsetzung der Anwendungsfälle und Einsatz in
Bibliotheken und Datenzentren

• Basis
• Computer-Cluster
• Virtualsierung
(XEN/Eucalyptus)
• Softwareverteilung
• Debian Pakete
• Tool Spezifikation
• Auftragsausführung
• Apache Hadoop (HDFS/MapReduce)
• Apache Oozie (Workflows)
Skalierbare Datenverarbeitung

• Fedora 4.0.0
• Nur REST, kein SOAP
• Auf der Basis von RDF
• JCR 2.0 Implementieriung – ModeShape (Jboss)
• Infinispan (Jboss) verteilter NoSQL Datenspeicher
• Lily 2.0
• Basierend auf HBase/HDFS
• Integrierte Datenverarbeitung
und -speicherung
Skalierbare Repositories

In SCAPE entwickelte Software-Werkzeuge
Jpylyzer – JPEG 2000 Validierung
Matchbox – Duplikat-Bilderkennung XCorrSound – Audio-Vergleich
Pagelyzer– Web-Inhalte vergleichen

• Tool Wrapper
• Integration bestehender Software-Werkzeuge in die SCAPE Platform
• Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und
Qualitätssicherung
• Standardisierte Ausführung (Kommandozeile)
• Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen
• Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind.
• Generiert Langzeitarchivierungskomponenten
• Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern
• Automatischer Veröffentlichung von Kompmenten auf myExperiment
• Standardisierte Eingabe und Ausgabe, die das Kombinieren der Workflow-
Komponenten vereinfacht
• Langzeitarchivierungswerkzeugkasten
• Werkzeugsammlung für die Langzeitarchivierung
• Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung
• Einfaches deployment unter Linux (via apt‐get)
• apt-get install digital-preservation-tools
Integration existierender Software-Werkzeuge

• SCOUT: Automatisierte Überwachung der Langzeitarchivierung
• Einbindung externer Informationsquellen der Langzeitarchivierung
• Fall-basierte Benachrichtigungsfunktionen
• c3po: Skalierbare Analyse von Archivinhalten
• Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar)
• Auswertung von FITS-Datei-Analyseergebnissen
• Detaillierte Statistiken
• Möglichkeiten der Stichprobenbildung
• PLATO 4.1: scalable preservation planning
• www.ifs.tuwien.ac.at/dp/plato
• Weiterentwicklung der Version aus dem Planets-Projekt
• Neue Funktionalität
• Gemeinsame Planung der Langzeitarchivierung in Gruppen
• Integration maschinenlesbarer Richtlinien
Planung der Langzeitarchivierung

SCAPE Architektur
Plan
Management
API
Digital Object
Repository
Execution
Platform
JESJES
HadoopHadoop
JES API
Data
Connector API
Automated Watch
Automated Planning
PLATOPLATO
Plan
Management
GUI
Plan
Management
GUI
Digital
Objects/
Metadata
Preservation
Plan Store
Preservation
Plan Store
PlanPlan
Component
Catalogue
Component
Catalogue
Component
Lookup
API
Taverna
Workbench
Taverna
Workbench
Component
Registration
API
Component
Profile
Validator
Automated Watch
SourcesSources
Push
API
Pull
API
KnowledgeKnowledge
Source
Adaptor
Source
Adaptor
Client
Service
Client
Service
Watch Request
API
Notification API
Report
API
AssessmentAssessment
Data
Publication
Platform
Data
Publication
Platform
LDS3
API
Data
Loader
Application
Data
Loader
Application

• Bei großen Datenmengen ist es meist einfacher die
verarbeitende Komponente zu den Daten zu bringen als
umgekehrt, die Daten zur verarbeitenden Komponente
• Feingranulare Parallelisierung: Die Ausführung der
Datenverarbeitung findet auf den zur Verfügung stehenden
Prozessorkernen statt
• Hardware-bedingte Ausfälle sind keine Besonderheit, sondern es
gibt spezielle Vorkehrungen dafür
• Redundanz: Datenblöcke werden redundant gespeichert
(Default: 3x)  Ausfallsicherheit, Flexibler Zugriff auf Daten
• Daten-Lokalität: Freier Knoten mit direktem Zugang zu
Datenblock übernimmt die Verarbeitung
Einige Hadoop Grundprinzipien

Die physische Sicht: Prozessor (CPU)
Beispielkonfiguration einer Quad-Core-CPU Pro Cluster-Knoten
4 physische Kerne
8 Hyperthreading-Kerne (System „sieht“ 8 Kerne)

Die physische Sicht: Cluster-Knoten
Verteilte Datenverarbeitung (MapReduce)
Verteilter Datenspeicher (HDFS)
Hadoop = MapReduce + HDFS
2 x Quad-Core-CPUs:
10 Map (Parallelisierung)
4 Reduce (Aggregation)
4 x 1 TB Festplatten bei Redundanz 3:
1,33 TB effektiv (rein rechnerisch)

Verteilte Datenverarbeitung (MapReduce)
Task1
Task 2
Task 3
Output data
Aggregated
Result
Aggregated
Result
Aggregated
Result
Aggregated
Result

Skalierbares Open Source Puzzle
Taverna Workflow Server (REST API)

• HDFS als Master oder Temporärspeicher: Müssen die Dateien
für die Verarbeitung erst auf den Cluster kopiert werden?
 Widerspricht eigentlich dem Prinzip: Prozessor bei den Daten.
• Daten-Teilbarkeit: Lassen sich die Eingangsdaten für die
Parallelisierung in kleinere Datensegmente unterteilen
(Standard: 64 MB)?
• Das „Kleine Dateien“-Problem: Wenn eine große Menge
kleinerer Dateien vorliegen, lässt es der Anwendungsfall zu, diese
zu einer einzigen großen Datei zusammenzufassen?
• Wahlfreier Datenzugriff: Ist die sequentielle Verarbeitung der
Eingangsdaten ausreichend? Gibt es häufig Änderungen?
Fragestellungen zur Daten-Vorbereitung

SCAPE Anwendungsfälle
• Große digitale Repositories
• Format-Konvertierung umfangreicher Bestände
• Überwiegend Parallelisierung, d.h. vor Allem “Map”
• Schlechte Audio-Qualität automatisiert entdecken
• XCorrSound-Anwendung
• Duplikat-Seiten in großen Buchbeständen
erkennen
• Matchbox-Anwendung
• Duplikate innerhalb eines Buches finden
• Verschiedene Buchversionen miteinander vergleichen
• Wissenschaftliche Daten
• Konvertierung von RAW zu NEXUS
• Große Datenmengen aus Physik-Experimenten
• Herausforderung: Verschiedene Teilchenbeschleuniger
produzieren unterschiedliche RAW Datenformate
from digitalbevaring.dk

SCAPE Testbeds
• Web Content
• Datei-Analyse und Datei-Formaterkennung
 Statistiken: MapReduce Anwendungsfälle
• Qualitätssicherung in der Web-Archivierung
• Data Centers
• Übertragung medizinischer Daten in Datenzentren
• Voraussetzung: Verschlüsselung und
Anonymisierung
from digitalbevaring.dk

Weiterführende Informationen
• Entwicklungs-Infrastruktur
• Code-Repository bei der Open Planets Foundation und GitHub
• https://github.com/openplanets/
• Wiki
• http://wiki.opf-labs.org/display/SP/Home
• Veröffentlichungen
• http://www.scape-project.eu/category/publication
• Projektergebnisse:
• http://www.scape-project.eu/category/deliverable
• SCAPE-Werkzeuge:
• http://www.scape-project.eu/tools

SCAPE Hackathon in Wien
• Langzeitarchivierung mit Hadoop:
Hadoop-driven Digital Preservation
• 2. bis 4. Dezember 2013 in Wien
an der
Österreichischen Nationalbibliothek
© Justin Smith / Wikimedia Commons, CC-By-SA-3.0
http://www.openplanetsfoundation.org/events/scape-opf-hackathon-hadoop-driven-digital-preservation

SCAPE Contact Information
• SCAPE
• http://www.scape-project.eu
• Twitter: #scapeproject
• office@list.scape-project.eu
• Dr. Sven Schlarb
Österreichische Nationalbibliothek
sven.schlarb@onb.ac.at

SCAPE Skalierbare Langzeitarchivierung

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (16)

Similaire à SCAPE Skalierbare Langzeitarchivierung

Similaire à SCAPE Skalierbare Langzeitarchivierung (20)

SCAPE Skalierbare Langzeitarchivierung