Nowadays, we constantly produce data in an unprecedented scale at various do mains. In the context of research data, large organizations, like CERN, produce information which is of significant importance and which cannot be reproduced in the future. It is therefore our responsibility to make sure that this information is preserved in a way that it will be available to the future generations.
This challenge, which is broadly referred to as digital preservation, has drawn the attention of several researchers and led to the design of a standard for long-term dig ital data storage, known as the Open Archival Information System (OAIS) standard. Several systems have been developed towards this direction, however these solu tions were either not fully-compliant with the OAIS standard, some were short term projects that have been decommissioned or they were not open-source and available to the research community. In this context, CERN proposed the Digital Memory project, a digital archiving initiative that should allow researchers to archive their data in a way that it will be accessible in the future.
In this thesis, which is part of the Digital Memory project, we confront the afore mentioned challenges by proposing an architecture that is fully OAIS-compliant, is integrated with CERN repositories and supports transparency, as the user can easily manage and monitor the actions performed on archival packages. Initially, we implement a tool that can be used to harvest data from various CERN sources like CDS, Indico, CERN Open Data, Gitlab and CodiMD in an OAIS-compliant format called Submission Information Package (SIP). This package can be supplied to the platform in order to create the actual archival packages that can be stored for long term preservation. These packages contain additional metadata and normalization of content that will guarantee long term survival of the information content. Additionally, we show how easy it is for a user to create, monitor and group their archives by using the User Interface. The platform can be easily deployed by anyone on Open shift with the use of Helm charts. Concerning our evaluation we discuss how the the performance of the platform can be improved and we show that the resulting packages as well as the platform as a whole is fully OAIS-compliant.
3. Ευρωπαϊκός Οργανισμός Πυρηνικών Ερευνών (CERN)
4
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Ιδρύθηκε το 1954 και είναι το μεγαλύτερο εργαστήριο
πυρηνικής και σωματιδιακής φυσικής στον κόσμο
• Βρίσκεται στα σύνορα Ελβετίας και Γαλλίας και
εργάζονται περίπου 20.000 άτομα από όλο τον κόσμο
• Για τα πειράματα χρησιμοποιείται ένα σύστημα επιταχυντών
σωματιδίων.
• Ο μεγαλύτερος επιταχυντής είναι ο Μεγάλος Επιταχυντής
Αδρονίων (LHC) με περίμετρο 27 χιλιόμετρα.
• Οι συγκρούσεις πραγματοποιούνται σε 4 τοποθεσίες που
υπάρχουν οι αντίστοιχοι 4 ανιχνευτές (CMS, ATLAS, Alice, LHCb)
4. Δεδομένα στο CERN
5
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Ο όγκος των δεδομένων που παράγεται
καθημερινά είναι τεράστιος.
• Περιλαμβάνει μετρήσεις από πειράματα,
datasets, βιβλιογραφία, έγγραφα, papers,
πολυμέσα κλπ.
• Πολλά από αυτά είναι μεγάλης επιστημονικής
αξίας και δεν μπορούν να αναπαραχθούν στο
μέλλον.
• Οφείλουμε να προφυλάσσουμε αυτά τα δεδομένα
και να σιγουρέψουμε ότι θα είναι διαθέσιμα στις
επόμενες γενιές
5. Κίνδυνοι απώλειας δεδομένων
6
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Σφάλμα Υλικού: Αλλαγή των αποθηκευμένων bits χωρίς μεθόδους ανάκτησης (π.χ.
Αθροίσματα Ελέγχου [Checksums])
• Απώλεια Υλικού (π.χ. Large Electron-Positron Collider)
• Απαρχαίωση: Δεν υπάρχει λογισμικό να ανοίξει τον τύπο αρχείου ή δεν ανοίγει
σωστά.
• Ελλιπής περιγραφή: Το αρχείο υπάρχει αλλά δεν υπάρχει σωστή περιγραφή και
ευρετηριοποίηση ώστε το αρχείο να είναι προσβάσιμο.
• Μη εκτίμηση της αξίας των δεδομένων (π.χ. πρώτη ιστοσελίδα στο CERN)
• Αναβαθμίσεις υλικού και μετεγκατάσταση δεδομένων
• Ανθρώπινα λάθη & Κυβερνοεπιθέσεις
6. CERN Digital Memory Project
7
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Δημιουργήθηκε στο CERN το 2016 με σκοπό να λύσει τα
τα παραπάνω προβλήματα.
• Να ψηφιοποιήσει αρχεία που βρίσκονταν ακόμη σε
αναλογική μορφή (π.χ. έγγραφα, δισκέτες,
φωτογραφίες και παρουσιάσεις)
• Να δημιουργήσει ένα ψηφιακό αρχείο για το CERN και
να ενσωματώσει τις τεχνικές ψηφιακής διατήρησης
(data preservation) στα υπάρχοντα αποθετήρια του
CERN.
• Να δημιουργήσει μία εφαρμογή μέσω τις οποίας οι
χρήστες θα μπορούν να διατηρούν και να
αρχειοθετούν τα δεδομένα τους.
7. Στόχος Διπλωματικής Εργασίας
8
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Η δημιουργία μίας εφαρμογής μακροχρόνιας
διατήρησης δεδομένων για το CERN σύμφωνα με το
πρότυπο Open Archival Information System (OAIS).
8. OAIS (Open Archival Information System)
9
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Πακέτο υποβολής – Submission Information Package (SIP): Περιέχει το αρχικό περιεχόμενο
• Πακέτο αρχείου – Archival Information Package (AIP): Δημιουργείται για να εγγυηθεί την
επιβίωση της πληροφορίας στο μέλλον.
• Πακέτο διάχυσης – Dissemination Information Package (DIP): Προέρχεται από το AIP
κατόπιν αιτήματος ενός χρήστη.
9. Απαραίτητες προϋποθέσεις OAIS
10
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Να διαπραγματεύεται για την δομή και τον τύπο των αρχείων που αποδέχεται τις
πληροφορίες από τους Παραγωγούς.
Να έχει τον έλεγχο των πληροφοριών.
Να καθορίζει ποια είναι η καθορισμένη κοινότητα και να βεβαιωθεί ότι οι
πληροφορίες είναι κατανοητές.
Να βεβαιώσει ότι οι πληροφορίες διατηρούνται έναντι όλων των πιθανών
κινδύνων.
Να βεβαιώσει ότι το αρχείο παραμένει αναλλοίωτο και πιστό αντίγραφο ως προς το
πρωτότυπο.
Να διαθέσει τις πληροφορίες στην καθορισμένη κοινότητα.
10. Παρόμοιες Προσεγγίσεις
11
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Δεν είναι πάντα συμβατές με το πρότυπο OAIS (ePrints, DSpace)
Βραχυπρόθεσμα έργα με μη συνεχή χρηματοδότηση (eARK)
Διακοπή χρηματοδότησης και αποσυναρμολόγηση (DAITSS)
Προγράμματα μη διαθέσιμα στην ερευνητική κοινότητα σαν ανοικτού
κώδικα (SPAR)
11. CERN SIP
12
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Αποτελεί τον τύπο αρχείου που
αποδέχεται το σύστημα από
τους παραγωγούς.
• Βασίζεται στο πρότυπο BagIt
File Packaging Format.
sip::cds::547698::1567483649
bag-info.txt
manifest-md5.txt
bagit.txt
data
CERN SIP Πρότυπο
Απαραίτητα
Περιγραφικά
Δεδομένα
BagIt File
Packaging
Format v0.97
meta
sip.json
bagit-create.log
SIP metadata
Creation logs
Bag information
Checksums
Creation info.
content
document.pdf
metadata.xml
Original file
Upstream metadata
12. BagIt Create
13
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Εργαλείο που επιτρέπει στο χρήστη να δημιουργήσει ένα πακέτο υποβολής (SIP) σύμφωνα με
την προδιαγραφή του CERN SIP.
BagIt Create
Εγγραφές σε αποθετήρια
Τοπικά αρχεία
ΕΙΣΟΔΟΣ
CDS Invenio Zenodo Indico CodiMD Gitlab
EΞΟΔΟΣ
Πακέτο
CERN
SIP
13. OAIS Platform
14
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Παρέχει έναν εύκολο τρόπο συλλογής πληροφοριών από τα
αποθετήρια και δημιουργίας πακέτων υποβολής SIP (χρησιμοποιώντας
το εργαλείο BagIt-create).
Επικυρώνει πακέτα υποβολής SIP ως προς την συμβατότητα με την
προδιαγραφή CERN SIP και να επικυρώνει το άθροισμα ελέγχου.
Ελέγχει την ροή εργασιών διατήρησης και διατηρεί ένα μητρώο.
Μπορεί να χρησιμοποιηθεί μέσω του API ή μέσω της διεπαφής χρήστη.
15. Χρήση του Archivematica
16
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Ανοιχτού κώδικα λογισμικό που χρησιμοποιείται από πολλά ιδρύματα και υπηρεσίες και
έχει ενεργή κοινότητα.
Παρέχει εργαλεία για την μετατροπή του SIP σε AIP συμβατά με το πρότυπο OAIS.
Επικύρωση SIP Antivirus Scan
Κανονικοποίηση
αρχείων
Προσθήκη
απαραίτητων
μεταδεδομένων
Προσθήκη
αρχείου
README
Δημιουργία AIP
Καθορίζεται από τον διαχειριστή.
π.χ. όλες οι φωτογραφίες να μετατρέπονται σε .jpeg
Περιγραφή του
προτύπου και του
πακέτου
17. Ανάπτυξη Συστήματος
18
OAIS Platform Archivematica
Django
Application
Database
Celery
(Εκτελεστής
Εργασιών)
Redis
(in-memory
data store)
Dashboard
ClamAV
(Antivirus)
Storage
Service
MCP Server
(Scheduler)
MCP Client
(Runner)
Elasticsearch
Database
Fits
(File
identification
& Metadata
Extraction)
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
18. Ανάπτυξη Συστήματος
19
Το σύστημα αποτελείται από πολλά επί μέρους προγράμματα που
δημιουργούν προβλήματα συνδεσιμότητας και αλληλεξάρτησης.
Τοποθέτηση όλων των διαφορετικών εργαλείων σε εικονικά περιβάλλοντα
(containers).
Χρήση λογισμικού ενορχήστρωσης (container orchestration) για έξυπνη
κλιμάκωση, καλύτερη διαχείριση πόρων και αυτοματοποίηση
λειτουργιών.
Για την ανάπτυξη του συστήματος επιλέξαμε το Openshift, μια
διαδικτυακή πλατφόρμα διαχείρισης ενορχήστρωσης containers.
Επιτρέπει την έξυπνη διαχείριση και ανάπτυξη του συστήματος καθώς και
τον καθορισμό πολιτικών σε περίπτωση σφάλματος.
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
19. Μετρήσεις & Απόδοση
20
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Για τον έλεγχο της απόδοσης χρησιμοποιήθηκε σε όλα τα πειράματα ο
ίδιος συνδυασμός αρχείων συνολικού μεγέθους 810ΜΒ
Παραμετροποίηση των πόρων στο Openshift για την εύρεση της
κατάλληλης διαμόρφωσης.
Έλεγχος χρόνου και μετρήσεων μέσω PromQL που προέρχονται από την
εφαρμογή του Openshift.
20. Μετρήσεις & Απόδοση
21
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
0:02
0:10
0:17
0:24
0:31
0:38
0:46
0:53
1:00
1 Runner 1 Runner with increased RAM 2 Runners with increased RAM 2 Runners with increased CPU + RAM
Μέσος Χρόνος Επεξεργασίας (ωω:λλ)
Μέσος Χρόνος Επεξεργασίας
21. Μετρήσεις & Απόδοση
22
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
0.00
0.20
0.40
0.60
0.80
1.00
1.20
1.40
1.60
1.80
2.00
1 Runner 1 Runner with increased RAM 2 Runners with increased RAM 2 Runners with increased CPU + RAM
Ταχύτητα Επεξεργασίας (MB/s)
Ταχύτητα Επεξεργασίας (MB/s)
22. Παραγόμενο Αρχείο AIP
23
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Κανονικοποιημένο
αρχείο (Μορφή PDF/A)
Αρχείο README
Metadata σύμφωνα με
το πρότυπο OAIS
Logs
Checksums
23. Συμβασιμότητα με το πρότυπο OAIS
24
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Προϋπόθεση Υλοποίηση
1. Διαπραγματεύεται για την δομή και τον τύπο των αρχείων
που αποδέχεται τις πληροφορίες από τους Παραγωγούς.
Τα δεδομένα που αποδέχονται πρέπει να
βασίζονται στο πρότυπο CERN SIP. ✅
2. Έχει τον έλεγχο των πληροφοριών ώστε να διασφαλίζεται η
μακροπρόθεσμη διατήρηση.
Πλήρης έλεγχος των πληροφοριών αφού
διατηρούνται στην βάση δεδομένων και προβολή
μέσω της διεπαφής χρήστη. ✅
3. Καθορισμός κοινότητας και να βεβαίωση ότι οι πληροφορίες
είναι κατανοητές
Προσωπικό και ερευνητές του CERN. Πρόσβαση
μέσω ιδρυματικού λογαριασμού. ✅
4. Οι πληροφορίες διατηρούνται έναντι όλων των πιθανών
κινδύνων και ότι το αρχείο δεν θα διαγραφεί ποτέ εκτός εάν
υπάρξει αλλαγή πολιτικής.
Τα μεταδεδομένα, το αρχείο README, καθώς και το
πακέτο AIP εγγυούνται ότι οι πληροφορίες θα είναι
κατανοητές και προσβάσιμες στο μέλλον. ✅
5. Βεβαίωση ότι το αρχείο είναι αναλλοίωτο και
επικαιροποιημένο ως προς το πρωτότυπο.
Όλα τα βήματα επεξεργασίας καταγράφονται και
υπάρχει αναφορά στο αρχικό αρχείο. ✅
6. Οι πληροφορίες είναι διαθέσιμες στην καθορισμένη
κοινότητα.
Ο χρήστης μπορεί να συνδεθεί με τον ιδρυματικό
λογαριασμό του και να έχει πρόσβαση στις
πληροφορίες του. ✅
24. Μελλοντική Έρευνα
25
Ενοποίηση με περισσότερες υπηρεσίες μακροπρόθεσμες ψηφιακής
αποθήκευσης (π.χ. CERN Tape Archive).
Περαιτέρω ενοποίηση με το InvenioRDM για ευρετηρίαση και
δημιουργία εκδόσεων.
Διαρκής ενημέρωση της πολιτικής διατήρησης και κανονικοποίησης
αρχείων στο Archivematica.
Γενικότερη βελτιστοποίηση του Archivematica για αύξηση της
απόδοσης.
Δημιουργία αρχείου διάχυσης DIP από την διεπαφή χρήστη.
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
26. Ψηφιακή διατήρηση (Digital Preservation)
27
• Στοχεύει να εξασφαλίσει τη χρηστικότητα και την προσβασιμότητα ψηφιακών
πληροφοριών με την πάροδο του χρόνου και των τεχνολογικών εξελίξεων.
• Καθορισμός πολιτικών για να εξασφαλισθεί ότι το αρχειοθετημένο
περιεχόμενο παραμένει προσβάσιμο μετά από πολλά χρόνια.
• Στόχος είναι η μείωση της πιθανότητας απώλειας δεδομένων με το μικρότερο
δυνατό κόστος.
34. PDI
35
Το πακέτο πληροφοριών περιέχει τις πληροφορίες περιεχομένου και τις πληροφορίες
περιγραφής διατήρησης (PDI).
Χωρίζεται σε πέντε τύπους πληροφοριών:
• Δεδομένα προέλευσης (περιγράφει την πηγή πληροφοριών)
• Δεδομένα πλαισίου (γιατί δημιουργήθηκε το πακέτο και η συσχέτισή του με άλλα
πακέτα)
• Δεδομένα αναφοράς (μοναδικό αναγνωριστικό για αναφορά στο πακέτο)
• Δεδομένα επαναφοράς (αθροίσματα ελέγχου)
• Δεδομένα πρόσβασης (ποιος έχει πρόσβαση σε αυτό το πακέτο)