SlideShare une entreprise Scribd logo
1  sur  57
Télécharger pour lire hors ligne
VASA YRKESHÖGSKOLA




            Kai Martonen


Digital Arkivering och Lagring




      Företagsekonomi och turism
                 2008
1



VASA YRKESHÖGSKOLA
Utbildningsprogrammet för företagsekonomi


ABSTRAKT


Författare             Kai Martonen
Titel                  Digital Arkivering och Lagring
År                     2008
Språk                  svenska
Sidantal               52
Handledare             Kenneth Norrgård




Syftet med detta lärdomsprov är att ge läsaren insikt i riskerna med modern
datalagring och vilka lösningar som finns tillgängliga för enskilda konsumenter
och skapare av digital information. Arbetet omfattar teorier om hur digital
information uppkommer och hur den ändrat förfarandet med hänsyn till lagring
och arkivering. I teoridelen presenteras även tidiga, nutida och framtida
lagringslösningar med deras för och nackdelar. I den praktiska delen av arbetet
undersöks en ny lovande lagringsmetod genom cloud computing.




Ämnesord             Data, Lagring, Digital, Information, Cloud, Computing
2



VAASA POLYTECHNIC
Utbildningsprogrammet för företagsekonomi


ABSTRACT


Author                 Kai Martonen
Topic                  Digital Archiving and Storage
Year                   2008
Language               Swedish
Pages                  52
Name of Supervisor     Kenneth Norrgård




The aim of this thesis is to examine the risks associated with modern data
storage and what solutions are available for the consumer and creators of digital
information. The theory part examines the origins of digital information and
how it has changed procedures when it comes to storage and archiving. Early,
modern and future storage solutions are also explained in the theory part.
Finally, this thesis practically examines a promising storage method using cloud
computing.




Keywords          Data, Storage, Digital, Information, Cloud, Computing
3



INNEHÅLL

ABSTRAKT

ABSTRACT

1   INLEDNING                                    6

    1.1 Problemställning                         7
    1.2 Avgränsning och disposition              7
    1.3 Datasäkerhet                             7
    1.4 Bakgrund                                 8

2   DIGITALISERING                               9

    2.1 Ursprunget                               10
    2.2 Digitala bibliotek                       10
    2.3 Digitala arkiv                           11
    2.4 Digitaliseringsmetoder                   12
    2.5 Kostnadseffektivitet och globalisering   13
    2.6 Standardiserade filformat                14
        2.6.1 OOXML vs. ODF                      15

3   LAGRINGSMEDIA                                16

    3.1 Magnetisk media                          16
        3.1.1 Magnetband                         17
        3.1.2 Hårdskivor                         18
    3.2 Flashbaserad media                       21
        3.2.1 SSD minne                          22
    3.3 Optisk media                             23
        3.3.1 CD                                 23
        3.3.2 DVD                                24
        3.3.3 Blu-ray                            24
    3.4 Framtidens media                         25
    3.5 Digital lagringskostnader                26
4



4   LÖSNINGAR                                     27

    4.1 Lagringsklimat                            28
    4.2 Hårdvarulösningar                         29
        4.2.1 RAID                                29
            4.2.1.1 RAID 0                        30
            4.2.1.2 RAID 1                        31
            4.2.1.3 RAID 5                        32
        4.2.2 Nätverkslagring                     33
            4.2.2.1 DAS                           34
            4.2.2.2 NAS                           35
            4.2.2.3 SAN                           36
        4.2.3 Cloud computing                     37

5   IMPLEMENTERING AV AMAZON S3 OCH JUNGLE DISK   39

    5.1 S3-tjänsten                               41
    5.2 Jungle Disk                               46

6   SLUTORD                                       53

KÄLLFÖRTECKNING
5



1   INLEDNING

Den tidigaste arkiveringen av digital information gjordes av amerikanska
rymdforskningsinstitutet NASA. Från 50-talet och framåt har de varit i spetsen
för hur data lagras och används. Rymdsonder skickades ut i rymden och dessa
sände tillbaka oersättlig information till jorden, där de lagrades på magnetband
för framtida bruk. (Claesson & Larsson 2001)

Magnetbanden från rymdsonden Voyager I arkiverades i stora klimat-
kontrollerade rum för att dessa skulle hålla så länge som möjligt. Men när
forskarna ett antal år senare skulle analysera dem, visade det sig att stora delar
gått förlorade eftersom man hade glömt bort i vilket format informationen hade
sparats. (Claesson & Larsson 2001)

Några år senare var det Viking sondens tur, denna gång hade man allt under
kontroll, trodde man. När man tog fram magnetbanden märkte man att de hade
börja ruttna och istället för att utföra analyser måste man nu anlita experter för
att återskapa informationen från de förstörda banden. (Stepanek 1998)

En av dessa experter var Jeff Rothenberg som sedan detta uppdrag har jobbat på
problemet med långtidslagringen av digital information. Han myntade
ordspråket, “digital information håller för alltid, eller fem år – beroende på
vilket som kommer först”. (Stepanek 2008)
6



1.1 Problemställning

I dagens samhälle lagrar vi allt mera information och det lagras allt mera
information om oss. Detta tack vare den digitala tekniken. Denna relativt nya
teknik har medfört många nya synsätt på hur information skall hanteras och
lagras för framtiden. Frågan jag ställer med detta arbete är; hur och var bör data
förvaras för att framtidssäkra informationen för kommande generationer? Hur
kan man bäst försäkra sig om att den digitala informationen som skapas idag kan
återskapas i framtiden? Vilka moderna lösningar erbjuder de bästa förhållandena
med tanke på långvarighet, säkerhet, användarvänlighet och kostnad?

1.2 Avgränsning och disposition

Ämnesområden i den teoretiska delen av detta arbete fokuserar på strategier och
lösningar gällande långtidslagring av digital information. De ämnen som arbetet
omfattar är uppkomsten av digital information, lagringshårdvara och
lagringslösningar. I den empiriska delen implementeras och analyseras en av de
senaste och intressantaste lagringslösningarna på en praktisk basis med
tillhörande   observationer   och     kommentarer.   Avslutningsvis   presenteras
slutsatser och exempel på möjlig fortsatt forskning inom området.

1.3 Datasäkerhet

Datasäkerhet förknippas ofta med åtkomsten av konfidentiell information men
också allt mer med hanteringen och lagringen av informationen. Konfidentiell
information som t.ex. löner och patientjournaler lagras i databaser på servrar.
Även personlig information såsom digitala fotografier och e-post lagras ofta på
hårdskivan i hemdatorn. Det finns många områden som påverkas till olika grad
av övergången från analog till digital information, bland dessa kan nämnas
släktforskning, multimedia, bankärenden, brevväxling och till och med politiska
val i och med elektronisk röstning.
7



1.4 Bakgrund

För att få ett begrepp om hur man skall gå till väga kan man se på den relativt
korta period som digital information producerats och arkiverats, vilka misstag
man begått och vad man kan lära sig av dem.

Då digital arkivering misslyckas finns det ofta en av två bidragande faktorer;
lagringsmediet är fysiskt skadat eller oläsbart på grund av dåliga rutiner, brist på
kunskap eller vilja, eller så är formaten på den digitala informationen
oanvändbar på grund av proprietära och icke standardiserade filformat. (Stander
& Merwe 2002)

Området med att framtidssäkra digital information är nytt och skiljer sig
dramatiskt från tidigare processer med analog media. Till skillnad från rutiner
gällande analog information, där passivitet är nyckeln, kräver den digitala
informationen ständig uppmärksamhet. I och med att existerande arkiverings-
metoder för digital media är relativt osäkra och ständig befinner sig i förändring,
kräver dessa med tiden, en migrering till nyare och bättre lagringsmetoder.
(Stander & Merwe 2002)

Varför övergår man då, i en allt större utsträckning, till digital information?
Hanteringen av digital information, speciellt i stora mängder, är mycket lättare
än dess analoga motpart. Till skillnad från analog media sker dessutom ingen
degradering av den digitala informationen, när man övergår till en ny
arkiveringsform eller lagringsmedia. Eftersom man med digital information kan
producera 100% identiska kopior skapas en redundans som hittills varit omöjlig
när det gäller analog information.
8



2     DIGITALISERING

Digitalisering, som är en stor bidragande faktor till efterfrågan på stabila
långtidslagringslösningar, innebär att man överför analog information till ett
digitalt format. Digital information kan består av binär data, dvs. ettor och
nollor, som inte förändras eller degraderas vid migration från ett lagringsmedia
till ett annat. Motsatsen är analog information där data representeras av fysiska
förändringar i mediet, t.ex. LP-skivor och målningar. Varje kopia av analog
information är olika originalet och i de flesta fallen av sämre kvalitet.
(Emanuelsson 2006)

Idag föds nästan 100% av all ny information digitalt, allt från röntgenplåtar till
sjökort. En stor del av informationen som föds digitalt reproduceras även
analogt, t.ex. böcker, men i en allt större utsträckning finns det information som
bevaras digitalt under hela dess livstid, t.ex. digitala fotografier. (Smith 2003: 4-
10)
9



2.1 Fördelar med digitaliseringen

Digitaliseringen av gammal analog information har flera fördelar. Sökning i det
digitaliserade materialet är enkelt, materialet kan dupliceras oändligt och spridas
över hela världen via t.ex. internet. Digitalisering är även av stort värde vid
exempelvis forskning och undersökning av ett ursprungsmaterial, som inte
skulle tåla den fysiska hanteringen, eller där materialet annars är onåbart.
(Emanuelsson 2006)

2.2 Digitala bibliotek

Det vanligaste digitaliseringsobjektet idag är böcker; bibliotek, frivillig-
organisationer och företag digitaliserar dessa för olika ändamål. Till de större
digitaliseringsprojekten hör bland annat Google Book Search och Project
Gutenberg. Google Book Search har i samarbete med de största biblioteken
runtom i världen redan digitaliserat över 7 miljoner böcker och man skannar
över 3000 böcker dagligen. (Herwig 2007)

Detta har väckt många frågor hos alla inblandade parter. Hur kan man balansera
konsumenternas stora efterfrågan på snabb och effektiv information, samtidigt
som man tar författarnas och förlagens rättigheter i beaktande? Google Book
Search har löst problemet genom att göra böckerna sökbara, men sökresultaten
består endast av ett kort textutdrag ur boken, varefter man satt in en länk till en
bokhandel, där man kan köpa boken i dess helhet, antingen digitalt eller i
analogt format. Denna lösning gäller tillsvidare endast i USA, i resten av
världen erbjuder Google Book Search söktjänster i böcker där upphovsrätten har
upphört. (Herwig 2007)
10



2.3 Digitala arkiv

I Finland är det arkivverket, som består av riksarkivet och alla sju landsarkiv,
som kommit längst med digitaliseringen. År 2007 skannade man det miljonte
dokumentet, Finlands självständighetsförklaring. Även Museiverket och
Nationalbiblioteket har de senaste åren, med uppmuntran från EU, påbörjat
digitaliseringen av sina arkiv, i syftet att säkra det nationella och europeiska
kulturarvet. Riksarkivet i Sverige, som digitaliserar cirka 20 miljoner sidor
årligen, är idag ledande inom digitaliseringsprocessen och har gett Sverige
anseendet som ett genuint informationssamhälle. (Arkivverkets årsberättelse
2007: 8-9)

Arkivverket är idag redo att ta emot digitala handlingar från myndigheter och
organisationer, men detta har försvårats på grund av bristen på standardiserade
filformat och god arkiveringskunskap hos myndigheterna. Ända tills
standarderna är fastslagna och kunskapen finns, måste all digital information
som överlåts till arkivet medföljas med en parallell pappersversion.
(Arkivverkets årsberättelse 2007: 17-18)

Som en pilotstudie har arkivverket gett finska järnvägsverket tillstånd att helt
övergå till en varaktig digital arkivering. Järnvägsverket är en ny myndighet
som grundades 2007 i och med privatiseringen av järnvägarna. I samband med
grundandet av den nya myndigheten beslöts att den skulle ha ett papperslöst
kontor i form av ett elektroniskt ärendehanteringssystem. Detta beslut betyder
att de officiella handlingarna inte behöver förvaras i pappersform eller
digitaliseras i efterhand utan kan direkt undertecknas och arkiveras elektroniskt.
(Arkivverkets pressmeddelande 8/2008)
11



2.4 Digitaliseringsmetoder

Böcker och dokument kan digitaliseras på tre sätt, genom fotografering, manuell
digitalisering eller OCR-mjukvara (Optical Characterization Recognition).
Genom att fotografera varje sida i en bok bygger man upp en digital
representation av boken som sedan kan läsas eller avsökas på t.ex. nätet. Denna
tidiga digitaliseringsmetod har många nackdelar. De digitala bilderna, som ofta
sparas i det okomprimerade men standardiserade TIFF-filformatet (Tagged
Image File Format), tar upp onödigt mycket utrymme och eftersom man inte kan
göra textsökningar på bilder, måste nyckelord manuellt associeras med
innehållet i bilderna. Nuförtiden används denna metod endast när både texten
och de fysiska sidorna är av intresse, t.ex. böcker med illustrationer eller
medeltida verk med artistisk kalligrafi. (Anderson & Tedd 2005: 299)

För att göra innehållet sökbart måste själva texten digitaliseras. Speciellt i de
äldre verken måste man då utföra en manuell digitalisering, vilket innebär att en
person översätter texten med hjälp av ordbehandlingsprogram. Denna metod är
kostsam både i tid och pengar. (Anderson & Tedd 2005: 299)

OCR är en metod som går ut på att ett datorprogram läser sidorna i den
skannade boken eller dokumentet och därefter överför texten till digitaliserad
form. Man överför alltså endast innehållet i texten och inte själva sidan som i
fotograferingsmetoden. OCR-metoden kräver större investeringar i mjukvara,
hårdvara och tar längre tid att utföra än fotografering. Men, med en exakthet på
99,8% är detta den ideala digitaliseringsmetoden, för verk som producerats med
moderna bokpressar och standardiserade typsnitt. (Anderson & Tedd 2005: 299)
12



2.5 Kostnadseffektivitet och globalisering

Att lagra data i ett digitalt format har inte alltid varit det lönsammaste
alternativet, genom tiden har analog media, som t.ex. papper, haft stora
konkurrensfördelar. I mitten av 90-talet, i och med bättre digitala
lagringstekniker, övertog digital lagringsmedia pappret som det kostnads-
effektivaste lagringsmediet, åren därefter följde bild, ljud och video. Detta gav
upphov till nya konsumentprodukter som digitalkameror, mp3-spelare och andra
elektroniska prylar. (Morris & Truskowski 2003: 206)

Även produceringen och spridningen underlättas då informationen befinner sig i
ett digitalt format. Man kan säga att dessa nya kommunikationsmedel är en av
grundstenarna till en den ökande globaliseringen av digitala tjänster.
Digitaliseringen, de nya kommunikationsmedlen och relaterade tekniker ger, ur
ett internationellt perspektiv, en stor kostnadseffektivitet, men samtidigt även
stora omställningssvårigheter. (Miyashita 2003)

För att lösa dessa problem bildades världshandelsorganisationen (World Trade
Organization) i mitten av 90-talet. Organisationen har tre huvudavtal; GATT
(General Agreement on Tariffs and Trade) som reglerar varuhandel mellan
länder, GATS (General Agreement on Trade in Services) som reglerar tjänster
över landsgränser och TRIPS (Trade Related Aspects of Intellectual Property
Rights) som innehåller regler om bland annat upphovsrättsskydd och patent.
(Miyashita 2003)

Det är främst GATS och TRIPS avtalen som påverkar hur användningen av
digitala tjänster används och kommer att användas i framtiden. Den nya
tekniken medför att arbete kan utföras i låglöneländer i realtid för avsevärt
mindre kostnader och att omställningen från analog till digital information
accelereras på en global skala. (Miyashita 2003)
13



2.6 Standardiserade filformat

I inledningen av detta arbete beskrevs hur NASA endast koncentrerade sig på
överlevnaden av det fysiska mediat i sin långtidslagringsstrategi, men snabbt
märkte man att även formatet som innehållet lagrats i påverkar långtids-
lagringen. Om man inte kan läsa innehållet spelar det ingen roll om det fysiska
mediat överlever.

I mitten av 80-talet, i och med persondatorns inträde på marknaden, uppstod det
problem när varje tillverkare av datorprogram föredrog sina egna proprietära
filformat. Hittills hade detta inte varit ett problem, men i och med en ökad
användning av persondatorer, måste standarder för filformat upprättas, så att de
kan avläsas även efter att hårdvaran eller mjukvaran övergetts.

Den internationella standardiseringsorganisationen (ISO) upprättade 1986 en
filformatsstandard för detta ändamål. Det var önskvärt att det rörde sig om ett
filformat som inte var beroende av operativsystem eller program och dessutom
skulle det vara läs- och skrivbart för människor samt enkelt att lära. Man kom
upp med SGML (Standard Generalized Markup Language) som fungerade som
en rosettasten för filformat. (Claesson & Larsson 2001)

När internet slog igenom på 90-talet var det viktigt att alla plattformar skulle
förstå innehållet på webbsidorna. Lösningen var HTML (HyperText Markup
Language) som bygger på SGML-standarden. (Claesson & Larsson 2001)

Mjukvarutillverkare var inte lika öppna till standardisering. De fortsatte att
använda sina egna proprietära filformat i syftet att tvinga konsumenterna att
använda endast program av en specifik tillverkare, ett indirekt tvång som
inverkade negativt på framtidsstödet av digital information. Bästa exemplet av
detta har varit mjukvaruföretaget Microsofts motstånd mot att använda öppna
filformat i sitt kontorspaket Office. (Kosek 2008: 51-55)
14



2.6.1 OOXML vs. ODF

Microsoft har sedan mitten av 90-talet varit ledande inom kontorsapplikationer
med sitt Office-paket. Filformaten har dock alltid varit proprietära, vilket i stort
sett betyder att man är bunden till Microsofts produkter för att läsa och ändra
filerna. Microsoft Office var dock så populärt att dessa filformat, trots deras
proprietära natur, blev en sorts informell standard. (Kosek 2008: 51-55)

Samtidigt utvecklades, baserat på öppen källkod och SGML, en basstruktur för
arkivering av kontorsapplikationsfiler kallad XML. På denna grund skapade
flera av de största aktörerna på webben, bl.a. Google, Sun Microsystems och
IBM, ett öppet filformat för kontorsapplikationer kallat Open Document Format
(ODF). Denna filtyp, som godkändes som standard 2005, specificerade hur
dokument skall formateras så att de lätt kan läsas på webben, utan att behöva
installera kommersiella program. (Kosek 2008: 51-55)

Microsoft insåg snabbt att denna filformatsstandard hotade deras starka ställning
på marknaden, men istället för att adoptera den, föreslog de att deras nuvarande
filformat, OOXML (Office Open XML), skulle standardiseras. Tack vare
Microsofts starka ställning och trots många protester från resten av IT-
branschen, godkändes OOXML våren 2008 under stor dramatik. (Kosek 2008:
51-55)

OOXML har, till skillnad från andra XML-baserade filformat, olika
licensieringskrav, vilket i sin tur medför ett status quo i standardiserings-
processen, när det nu finns två tävlande filformat. Microsofts stängda men
populära OOXML och det öppna men inte långt implementerade ODF. Detta är
ett exempel på hur ekonomiska intressen kan låsa in användare i format vars
framtid inte kan garanteras. (Kosek 2008: 51-55)
15



3   LAGRINGSMEDIA

Lagringsmedia är den fysiska lagringshårdvaran för data. I dag finns endast tre
sätt att lagra digital information på; magnetiskt, med flashminne eller optiskt.
Alla tre metoder har sina egna för- och nackdelar. När man bestämmer sig för
lagringsmedia finns det några faktorer som man måste observera som t.ex.
hållbarhet, framtidssäkring samt kostnad i tid och pengar.

Det har genom tiderna funnit många sorters lagringsmedia och många av dessa
har redan försvunnit. Många lagringsmedia som t.ex. hålkort och disketter har
föråldrats när nya och bättre media tagits fram. Andra försök att introducera nya
lagringsmedium har misslyckats på grund av proprietär teknik, där endast en
tillverkare har tillgången eller rättigheten till teknologin, eller bristen på
standardisering mellan tillverkarna, t.ex. Minidisc och Zip Disk, båda formaten
utvecklade av Sony. (Sorrel 2008)

3.1 Magnetisk media

De stora framstegen inom magnetisk media har spelat en stor roll i utvecklandet
av dagens IT-samhälle. I dagens läge sparas 90% av världens information på
magnetisk media. Magnetisk lagringsmedia delas in i två kategorier, hård media
och mjuk media. Till hård media räknas hårdskivor, till mjuk media räknas
disketter, kasetter och magnetband. All magnetisk media har en yta som är
belagt med ett ferromagnetiskt material. Genom att utsätta mediat för
elektromagnetiska fält, kan digital information lagras eller skrivas över med ny
data. Möjligheten att återanvända mediat, genom att radera gammal data, har
gjort magnetisk media mycket populärt. (Ross & Gow 1999: 1-9; Pinheiro,
Weber & Barroso 2007)
16



Utan uppsyn och skötsel är magnetisk media dock inte ideal för
långtidsarkivering av information. Oavsett media avtar magnetismen med tiden,
mjuk magnetisk media har ett tunnare lager ferromagnetiskt material och avtar
därför snabbare än hård magnetisk media. De kemiska materialen som främst
används i de mjuka magnetiska media orsakar även oxidation och korrosion
vilket påverkar magnetismen negativt. Långtidsförvaring av hård magnetisk
media har också nackdelar eftersom de, förutom oxidation och korrosion, kan få
mekaniska och mjukvarufel. (Ross & Gow 1999: 1-9)

3.1.1 Magnetband

Magnetband hör till de stabilare magnetiska arkiveringsmedia, dess livslängd
kan vara upp till 75 år. Tidiga versioner av magnetband hade dock dåliga
magnetiska egenskaper, vilket ledde till användningen av mera kemikalier,
oxider och järnbaserade partiklar i tillverkningsprocessen. Dessa kemikalier
hade bra magnetiska egenskaper men orsakade polymererna, som håller ihop
själva bandet, att upplösas efter bara några år. Man började då använda tjockare
band, vilket i sin tur ger mindre utrymme för data. Det uppstod t.o.m. företag
som kemisk processade magnetbanden före arkiveringen, i hopp om att de skulle
hålla längre. På 80-talet hade man finslipat magnetbandsteknologin, men då
hade redan hårdskivan slagit igenom. Varför har magnetband då inte en högre
användningsgrad, då den har en god hållbarhet och ett väldigt lågt pris?
(Gilheany 2007; Jääskeläinen 2007: 38; Ross & Gow 1999: 1-9)

Till skillnad från övriga lagringsmedia finns det ingen enhetlig standard på
magnetband. Sedan 1951 har det funnits 33 olika magnetbandsstandarder och
varje tillverkare har sina egna proprietära format. Till varje format krävs även
skild hårdvara, som innebär höga initiella hårdvarukostnader för att skriva och
läsa av den digitala informationen. Dessa formatförändringarna medför därför,
trots magnetbandets relativt goda säkerhet och låga kostnad, en stor risk när det
kommer till långtidsarkivering, speciellt jämfört med hårdskivan. (Brodkin
2008: 22)
17



3.1.2 Hårdskivor

Hårdskivan har länge använts jämsides med magnetband. Den erbjuder till
skillnad från magnetband en snabb och enkel åtkomst av data. Hårdskivor
kräver inte heller skild hårdvara för att läsa eller skriva data, vilket är fallet med
mjuk magnetisk media. Hårdskivan innehåller nämligen färdigt drivmotor, läs-
och skrivhuvud, elektroniska kretsar och mjukvara. All denna mekanik och de
snabbt roterande skivorna medför dock en större risk för komplikationer som
man bör vara medveten om. (Jääskeläinen 2007: 38)

Eftersom hårdskivan oftast är i daglig användning skulle man tro att de även
förstörs lättare. En undersökning gjord av Google mellan 2002 och 2007 visar
att det inte finns någon märkbar skillnad i krascher med hårdskivor i daglig
användning och hårdskivor som arkiverats på bokhyllan. Samma undersökning
visar också att risken för krascher endast ökar marginellt med tiden. Med
moderna hårdskivor kan man räkna med en livslängd på upp till fem år, om de
används dagligen och bevaras under optimala förhållanden. (Pinheiro, Weber &
Barroso 2007)



    10 %

     8%

     6%

     4%

     2%

     0%
                1 år          2 år         3 år         4 år         5 år


Diagram 1, risken för hårdskivskrascher ligger mellan 6 och 9 procent per år.
(Pinheiro, Weber & Barroso 2007)
18



Ännu på tidigt 90-tal befann sig hårdskivan i utvecklingsstadiet och var långt
ifrån lämplig för långtidsdatalagring. Till de större problemen hörde
sammansmältning av läs- och skrivhuvudet, som sitter på ett avstånd av 15
miljondelar av en millimeter från de snurrande plattorna. De kunde fysiskt fästa
sig vid de snurrande plattorna och orsaka mekanisk skada, s.k. stiction, som
gjorde   hårdskivan   obrukbar.    Moderna    hårdskivor    sätter   automatiskt
skrivhuvudet i viloposition när de inte är i användning. (Ross & Gow 1999: 1-9)

De nya hårdskivor har fått bukt med barnsjukdomarna som plågade de tidiga
hårdskivorna, samtidigt som man sett en signifikant ökning av lagrings-
kapaciteten. Magnetbanden som länge tävlat med hårdskivorna gällande
lagringskapaciteten har lämnat på efterkälken. Mark Kryder från Carnegie
Mellon Universitys Data Storage Systems Center, och numera teknologichef för
Seagate Technologies, den ledande hårdskivstillverkaren, myntade, i mitten av
80-talet, Kryder’s Law: mängden data som kan sparas på en hårdskiva,
fördubblas varje år. (Walter 2005: 32-33)


GB

1000

 100

  10

   1

 0,1

0,01
         1980      1985     1990      1995      2000       2005      2010


Diagram 2, lagringskapacitetens utveckling för hårdskivor. (Walter 2005: 33)
19



Mätestickan för lagring är dock inte lagringskapacitet utan kostnad per gigabyte.
Följande är utvecklingen och prognosen för kostnad per gigabyte för hårdskivor
från 1992 till 2010. (Gilheany 2003)




Diagram 3, hårdskivans kostnadsutveckling i euro per gigabyte. (Gilheany
2003)


Utvecklingen visar en kostnadsminskning på 45 procent per år. Idag är
hårdskivan den mest kostnadseffektiva metoden för arkivering av digital
information.
20



3.2 Flashbaserade minnen

Flashminnen bygger på transistorteknik och följer därför Moore’s Law som
säger att transistorernas effektivitet fördubblas vartannat år. Transistorer, eller
halvledare som de också kallas, är grundstenen inom modern elektronik och
väldigt flexibla. Vanligtvis används transistorer för databeräkning men i och
med den snabba utvecklingen används de i allt större grad även för datalagring.
Flashminnen består av miljontals transistorer som håller en svag elektrisk
laddning beroende på om de representerar en binär etta eller nolla. (Walter 2005:
32-33)

Till denna minnestekniks fördelar hör en snabb läs- och skrivhastighet, en låg
energikonsumtion och låga produktionskostnader, därför används den för
lagring av digital information i vardagselektronik, där dessa egenskaper har stor
betydelse, t.ex. mp3-spelare, digitalkameror och USB-stickor.

Nackdelarna är den relativt låga lagringskapaciteten, att de påverkas av
magnetiska störningar, t.ex. statisk elektricitet och det faktum att den svaga
elektriska laddningen i transistorerna långsamt avtar med tiden, man kan räkna
med att ett flashminne inte behåller data längre än tio år. Det största problemet
med flashminnen är dock att de har ett begränsat antal skriv- och läscykler.
Dessa nackdelar har kanske påverkat möjligheten att använda flashminnen för
långtidsdatalagring, men de många fördelarna har förstärkt denna teknologis
popularitet i vardagligselektroniken, där långtidsdatalagringen inte är av stor
betydelse. (Lai 2008)
21



3.2.1 SSD-minne

SSD (Solid State Drive) bygger på samma transistorteknik som flashbaserade
minnen, men är anpassade för användning i bärbara datorer. Eftersom de inte
har några rörliga delar, t.ex. snurrande skivor, läs- och skrivhuvuden, är de
mycket robusta och energisnåla, vilket i sin tur betyder bättre stöttålighet och
batteritid. (Jääskeläinen 2007: 38)

Utåt påminner SSD-minnet om en vanlig hårdskiva, men består egentligen av en
mängd mindre flashminnen. Tack vare flashteknikens robusthet har SSD-
minnen använts i rymdforskningen, sjöfarten och räddningsverksamhet i åratal,
t.ex. svarta lådor i flygplan. Jämfört med hårdskivor tål de även höga
temperatur- och tryckskillnader. Vanliga hårdskivor kan inte användas på höjder
högre än 3 kilometer eftersom tryckskillnaden ändrar fysiskt hårdskivans
karaktär. (Jääskeläinen 2007: 38)

Det finns många fördelar med SSD-minnen, de är snabbare, tystare och kan ta
mera stryk än hårdskivor, men de har samma problem som flashminnen,
nämligen en begränsad livslängd. Beroende på tillverkare utlovas 1-5 miljoner
skriv- och läscykler, vilket är betydligt mindre än hårdskivor. SSD-minnen
befinner sig dock i en tidig utvecklingsperiod och elektroniken i nyare SSD-
minnen styr minnet så att varje transistor är i lika stor användning, detta
resulterar i att minnet tärs jämnare. SSD-minnen med mindre lagringskapacitet
tärs således också snabbare än de med större kapacitet. (Jääskeläinen 2007: 38)

Utvecklingstakten är som sagt fortfarande hög inom flashminnesteknologin och
2008 började man sälja bärbara konsumentdatorer med denna teknik. Det går
även att köpa hybridskivor som består till hälften av SSD-minne och andra
hälften av en vanlig hårdskiva. SSD-minnen har ungefär samma förutsättningar
för långtidslagring av data som magnetisk och optisk media, kostnaden är dock
ännu för hög. (Jääskeläinen 2007: 38)
22



3.3 Optisk media

Optisk lagring använder sig av laser för att skriva och läsa digital information.
På grund av att de flesta optiska media inte kan återanvändas kallas detta format
WORM (Write Once, Read Many), det finns dock versioner som kan
återanvändas, men livslängden och antal skrivcykler på dessa är långt ifrån
optimala. (Jääskeläinen 2007: 38)

3.3.1 CD

CD-skivan (Compact Disc) var en av de första optiska lagringsmedia som
standardiserades och introducerades i slutet av 80-talet. Dessa tidiga versioner
av CD-skivan var inte anpassade för lagring, men tio år senare hade tekniken
mognat och priserna sjunkit till den grad att man började använda dem för
dagliga lagringsändamål. CD-skivor kommer i ett antal olika format varav CD-r
och CD-rw är de vanligaste, det sistnämnda formatet kan återanvändas men har
en betydligt kortare livslängd. (Emanuelsson 2006)

Tyvärr gjorde man kostnadsinbesparingar genom att använda billiga material-
kombinationer som zink, aluminium och plast, istället för den optimala material-
kombinationen guld och glas. Tidiga CD-skivor hade, och billiga CD-skivor har
än idag, problem med oxidation. Även de tryckta etiketterna på skivorna kan
medföra kemiska reaktioner som försämrar eller förstör läsbarheten. CD-skivor
av god kvalitet är svåra att hitta och oftast mer än dubbelt så dyra som de billiga.
Man kan därför säga att den teoretiskt förväntade livslängden på 20-50 år i
verkligheten bara är ungefär 10 år. (Emanuelsson 2006)

Med endast 600 megabyte utrymme och en relativt kort fysisk livslängd, i
kombination med allt större filstorlekar och mängd digital information som
skulle sparas, gav CD:n snabbt vika för DVD:n. (Emanuelsson 2006)
23



3.3.2 DVD

DVD, eller Digital Versatile Disc, introducerades i mitten av 90-talet och hann
snabbt ikapp CD:ns popularitet. DVD:n bygger på samma teknologi, men dess
lagringskapacitet överstiger CD:ns 7 till 14 gånger om. Till skillnad från CD:n
använder DVD:n ett flertal lager för att lagra data, detta ger DVD:n en kapacitet
på 4,5 och 9 gigabyte, beroende på antal lager. (Emanuelsson 2006)

Både CD:n och DVD:n är format som länge föredragits av musik- och
filmbranschen. Eftersom både CD:n och DVD:n hade ett stort genomslag på
marknaden och de sedan länge är etablerade format, kan man säga att deras
tekniska livslängd är god, dvs. stödet för formaten är starkt förankrat. Tyvärr
lider de båda formatens fysiska livslängd på grund av billiga produktions-
metoder och material. (Emanuelsson 2006)

3.3.3 Blu-ray Disc

Blu-ray är den senaste generationen optisk media, och förkortas BD. Precis som
CD och DVD finns det flera format av Blu-ray, det vanligaste formaten håller
25 eller 50 gigabyte data. Beroende på antal lager kan en Blu-ray skiva hålla upp
till 8 lager data vilket skulle ge möjligheten att lagra upp till 200 gigabyte på en
skiva. Vi befinner oss ännu i ett tidigt skede i utvecklingen av denna teknik och
kostnaderna är ännu höga, man har dock lärt sig av de tidiga problemen med CD
och DVD-formaten. Blu-ray konsortiet, som kom upp med formatet, kräver att
tillverkarna av skivorna måste hålla sig till strikta standarder, med godkända
material och kemikalier i tillverkningsprocessen, som inte fräter eller oxiderar
skivan. (Järvinen 2008: 26)

Som man lärt sig av tidigare lanseringar av lagringsmedia som senare
misslyckats, är det inte själva tekniken som avgör om det lyckas utan
implementeringen kring det nya formatet. Det är ännu för tidigt att säga om Blu-
ray formatet har en strålande framtid, eller om det är en teknik som håller mera
än den kan lova.
24



3.4 Framtidens media

Enligt många är det omöjligt för lagringskapaciteten i magnetisk media att
fördubblas varje år, ifall inte nya lagringsmetoder utvecklas. Den teknik som
används i dagens lagringsmedia har krympt till den partikelstorlek, att det är
svårt att rymma data på det minimala fysiska utrymmet, utan att de olika
magnetiska mönstren börjar påverka varandra eller inte går att avläsa. (Bartels
2001)

Teorin om holografisk lagring har funnits i decennier men först nu har man
börjat inse att utvecklingen måste påskyndas. Holografisk lagring bygger på
optisk lagring, men istället för endimensionell media (t.ex. CD- och DVD-
skivor) använder man tredimensionell lagring. Utvecklingen är ännu i ett så
tidigt stadium att man inte bestämt sig för hurudant format mediat kommer att
ha eller vilket material det kommer att bestå av, de tidiga prototyperna av
holografisk media har varit i skivformat. Problemet man stött på, är att utveckla
ett material som det går att lagra holografisk data på, men som inte sönderfaller i
samma takt som andra optiska media. (Ashley 2000: 341)
25



3.5 Digitala lagringskostnader

Ur nedanstående diagram, gällande lagringskostnader, kan man se att den
magnetiska lagringstekniken är förmånligast per gigabyte, följt av optiska och
flashminnestekniken. Magnetbanden är billigast, men hårdvaran som krävs till
dessa kan kosta flera tusen euro. De optiska skivorna kräver också skild
hårdvara för att läsas och skrivas, men de är betydligt billigare. När det gäller
hårdskivor och flashminnen ger diagrammet en exakt kostnad, då dessa kan
användas utan någon extra hårdvara.



  Magnetband
     Hårdskiva
          SSD
         Flash
       BD-R 2
         BD-R
      DVD-r 2
       DVD-R
         CD-R

              0,00 €   0,50 €   1,00 €    1,50 €   2,00 €   2,50 €    3,00 €


Diagram 4, lagringskostnader för olika media. (Tudor 2005; Järvinen 2008: 26)
26



4   LÖSNINGAR

Val av rätt media och hårdvara är inte den slutgiltiga lösningen för
långtidslagring av digital information. Eftersom ingen av de nuvarande
lagringsmedia teknikerna kan garantera att de håller data över en längre tid
krävs det även bra strategier för långtidslagring.

De ord som man stöter mest på när man pratar om datalagringslösningar och
strategier är redundans, diversifiering och migrering. Redundans går ut på att ha
fler än en kopia på den lagrade informationen, detta benämns ofta också som
säkerhetskopior. Säkerheten ökar dock inte ju fler kopior man har, kopiorna
måste även vara så diversifierade som möjligt. (Kennedy 2008: 34-35)

Diversifiering betyder lagring av viktig data på olika lagringsmedia i olika
fysiska utrymmen. Om alla säkerhetskopior är lagrade på samma sorts media
och även i samma fysiska utrymme sker en drastisk minskning av säkerheten.
Orsaken är att om det uppstår fel i lagringsmedia, ökar risken att felet upprepar
sig i de andra medierna av samma typ och om alla säkerhetskopior bevaras i
samma utrymmen kan de förstöras i t.ex. en brand eller naturkatastrof. (Kennedy
2008: 34-35)

Migrering är en viktig strategi för långtidslagring av digital information och går
ut på att överföra data från en, oftast äldre lagringsmedia, till en nyare. Själva
proceduren är lätt, eftersom den nya lagringsmedia oftast har större kapacitet
och är både billigare och snabbare. Det svåra är att finna rätt tid för migreringen,
man kan inte vänta för länge, tills det inte finns något stöd för den äldre
lagringsmedia eller den förstörts. Man kan inte heller migrera för ofta, eftersom
detta leder till onödiga kostnader. (Tristram 2002: 36-43)

Det gäller alltså att hitta rätt balans mellan redundans, diversifiering och
migrering samtidigt som man tar kostnad, livslängd, åtkomst och andra
riskfaktorer i beaktande. (Kennedy 2008: 34-35)
27



4.1 Lagringsklimat

Uppbevaring av digital lagringsmedia kan delas in i två metoder, passiv och
aktiv. Den passiva lagringsmetoden påminner mycket om hur analog
information uppbevaras; ostört i kalla och mörka klimatkontrollerade utrymmen.
Vid aktiv uppbevaring är lagringsmediet i ständig användning och kräver därför
extra säkerhetsåtgärder.

För passiv uppbevaring gäller det, för såväl analoga som digitala lagringsmedia,
att ha ett lämpligt lagringsklimat, så att deras fysiska livslängd skall hållas så
lång som möjlig. Dessa utrymmen bör ha en kontrollerad luftfuktighet, under
60%, och en temperatur några grader under vanlig rumstemperatur. Stora
temperatur   och    luftfuktighetsskillnader   bör   också    undvikas.    Optisk
lagringsmedia skall helst förvaras i något svalare utrymmen medan magnetisk-
och flashmedia även bör skyddas mot elektrostatisk och magnetisk påverkan.
(Arkivverkets föreskrifter 2007, 15)

En fördel med magnetisk lagringsmedia är att de, istället för att vara inlåsta i
arkiv, ofta är i flitig användning. En stor del hårdskivorna som används för
arkiveringsändamål är kopplade till nätverk, ofta i serverutrymmen. Dessa
utrymmen måste därför uppfylla högre krav än de som är anpassade för passiv
långtidslagring. Bland annat krävs strömtillförsel som inte fluktuerar eller bryts
vid eventuella strömavbrott. Lagringsmedia i aktiv användning kräver också
speciella brandsläckningssystem för elektronik, skydd för elektromagnetiska
störningar och ett luftkylningssystem så att man undviker överhettning.
(Shimonski 2003: 47-48)
28



4.2 Hårdvarulösningar

De flesta stora datortillverkare erbjuder lösningar för datalagring och nästan alla
är baserade på magnetisk lagringsmedia. Mindre företag och privatpersoner där
kostnaden spelar en stor roll och där den lagrade informationen är av mindre
betydelse kan använda sig av optiska lagringsmedia.

Moderna datalagringslösningar bygger på tre metoder, RAID, Nätverkslagring
och Cloud computing. Dessa tre metoder löser problemen med redundans,
diversifiering och migrering till olika grad och alla bygger de på nätverks-
teknologi. (Bartels 2007)

4.2.1 RAID

RAID (Redundant Array of Independent/Inexpensive Disks) var en av de första
largringslösningarna som började erbjudas i början av 90-talet. Genom att
använda sig av ett flertal koordinerade hårdskivor ger RAID en redundans som
en ensam hårdskiva inte kan ge, dessutom ger användningen av RAID-lösningar
bättre prestanda, speciellt snabbheten att läsa och skriva data när de används i
videoediteringssyfte. Det finns flera olika implementeringar av RAID beroende
på om det är effektiviteten eller säkerheten som prioriteras. (Morris &
Truskowski 2003: 206)
29



4.2.1.1 RAID 0

RAID 0 är den enklaste lösningen och ger ingen egentlig säkerhetsförbättring,
trots att den använder sig av flera hårdskivor, tvärtom ökar säkerhetsrisken.
Eftersom moderna hårdskivor har flaskhalsar, i och med begränsade läs- och
skrivhastigheter, är de inte ideala för t.ex. editering av stora högupplösta
videofiler. Genom att använda ett flertal hårdskivor i RAID 0 konfiguration,
fördubblas hastigheten då flera hårdskivor delar på bördan, men eftersom
hårdskivorna innehåller gemensam data, går allt förlorat om en av hårdskivorna
skulle råka krascha. Ju fler hårdskivor som tillsätts desto bättre prestanda, men
även en större risk för krascher och förlorad data. Vid användningen av RAID 0
bör den digitala information som producerats därför genast överföras till en
lösning där lagring är prioriterad. (Farley 2002: 159-207)


         RAID 0




  DISK 0        DISK 1


Bild 1, RAID 0 konfigurering.
30



4.2.1.2 RAID 1

RAID 1 innebär en spegling eller kloning av data över två eller fler hårdskivor,
det som skrivs på den primära hårdskivan överförs bit för bit till den, eller de,
sekundära hårdskivorna. Detta ger en dubbel redundans, men ingen
diversifiering. Denna sorts RAID-lösning är bäst då en hårdskiva kraschar eller
andra problem uppstår. (Farley 2002, 159-207)

Denna RAID-konfiguration används ofta i företag och organisationer där det är
viktigt att snabbt komma tillbaka efter en krasch. Beroende på vad som
prioriteras kan man säkerhetskopiera hela system inklusive operativsystem och
programvara eller endast den viktiga informationen. Den senare versionen tar
upp mindre utrymme, men ominstallationen av programvaran är en extra
kostnad både i tid och pengar, vilket många helst vill undvika. (Farley 2002:
159-207)

           RAID 1




  DISK 0       DISK 1


Bild 2, RAID 1 konfigurering.
31



4.2.1.3 RAID 5

RAID 5, eller egentlig RAID, använder sig av tre eller flera hårdskivor, men
lagringskapaciteten är procentuellt mindre än andra RAID-lösningar. Varje
hårdskiva har en ständigt uppdaterad checksumma för innehållet i de andra
hårdskivorna och om en hårdskiva skulle råka krascha, kan man genom
informationen i de andra checksummorna återskapa den förlorade datan. RAID
5 är den säkraste och mest förekommande lösningen för datalagring och erbjuds
i ett flertal former från datortillverkare. (Farley 2002: 159-207)


                       RAID 5




  DISK 0        DISK 1        DISK 2        DISK 3


Bild 3, RAID 5 konfigurering.

Nackdelen med denna lösning är att den är långsam, svår att implementera och
oftast inte tillräckligt fysiskt diversifierad. RAID 5 löser problemet med
redundans och migrering men bara delvis diversifieringen. RAID-lösningar
bevaras ofta i samma fysiska utrymmen, bränder, magnetiska och elektriska
störningar och liknande fall påverkar på så vis hela populationen av
lagringsmedia och inte enskilda media. (Farley 2002: 159-207)
32



4.2.2 Nätverkslagring

Användning av nätverk för lagringsändamål har länge varit aktuellt, men inte
alltid praktiskt. I och med bättre ethernet tekniker, såsom gigabit ethernet, är
nätverkslagringslösningar nu mycket populära. Det är inte längre stora företag
som använder sig av filservrar för åtkomsten av information, denna teknik har
även börjat uppenbara sig i våra hem tack vare en stor ökning av digital
multimedia. Det räcker inte längre att bara ha en hylla för DVD-filmer,
nuförtiden förses nästan all hemelektronik med nätverksportar för uppkoppling
mot resten av hemelektroniken, inklusive lagringsmedia. Vi vill ha
informationen snabbare, enklare och överallt. Det finns tre olika nätverks-
lagringslösningar som används idag och de kan i sin tur ha olika RAID-
konfigurationer, oberoende av åtkomstsätt. (Alabi 2004)
33



4.2.2.1 DAS

DAS (Direct Attached Storage) är den enklaste lösningen och går ut på att
lagringsmedia kopplas upp mot en server eller dator i ett nätverk. Lagringsmedia
är inte direkt uppkopplad till nätverket och kan inte nås om servern eller datorn
är urkopplad. För att komma åt den lagrade informationen måste klienten ha
behörighet till servern eller datorn, som i sin tur överför data från lagringsmediet
genom en ethernet anslutning. Servern eller datorn använder eget operativ-
system för att konfigurera den externa lagringsmedia. (Alabi 2004)




                                                                  DAS




Bild 4, DAS arkitektur.

Denna lösning passar för hemmanätverk och mindre företag med få servrar.
DAS är svår att skala uppåt och om man räknar med att utöka antalet servrar bör
man satsa på NAS eller SAN-lösningar. (Alabi 2004)
34



4.2.2.2 NAS

Ethernet NAS (Network Attached Storage) kan vara allt ifrån en hårdskiva, en
grupp hårdskivor eller en filserver, med eller utan RAID-konfiguration som
kopplats upp mot ett nätverk. Till skillnad från en DAS är lagringsmedia direkt
uppkopplat mot nätverket och fungerar som en dedikerad filserver, med ett eget
IP-nummer, enligt klient-server modellen. Det är sedan möjligt för personer med
åtkomst till nätverket att använda den för datalagring. (Alabi 2004)

Ethernet NAS kan ha flera konfigurationer, den används ofta som ett område för
säkerhetskopierade filer, medan originalen finns på den lokala hårdskivan. På
läroanstalter används denna lösning ofta som lagringsutrymme för studerande.
Eftersom ethernet NAS har sitt eget multiplattform operativsystem, är det
möjligt för datorer med olika filsystem, t.ex. Windows, Mac och Unix, att
använda sig av denna lösning samtidigt. (Alabi 2004)




                                      NAS




Bild 5, NAS arkitektur.
35



4.2.2.3 SAN

SAN (Storage Area Network) är steget upp från en NAS och består av flera
ihopkopplade datalagringsenheter över ett eget nätverk, ofta ljusfiber-
kabelnätverk. Denna lösning kan hantera stora datamängder som används av
bl.a. internet operatörer, mediebolag och superdatorer på forskningsanstalter
med stora lagrings- och distributionsbehov. (Alabi 2004)

Genom att använda sig av egna nätverk belastar inte SAN-lösningen existerande
nätverk. SAN-lösningar används ofta som lastbalanserare i stamnät för att jämna
ut trafiken till populära eller överbelastade servrar. Till skillnad från DAS och
NAS fungerar SAN inte på filsystemsnivå, utan överför alltid stora block av
data, istället för enskilda filer. (Alabi 2004)




                                                     ASIEN

    USA                            SAN




                                                           EUROPA

Bild 6, SAN arkitektur.
36



4.2.3 Cloud computing

Trenden bland såväl företag som privatpersoner är att köpa nättjänster, istället
för att själva sköta driften av dyra servrar och krångliga applikationer.
Nättjänster är ofta mera kostnadseffektiva och låter företagen rikta in sig på sin
kärnverksamhet, istället för underhåll av sina egna IT-system. Dessutom
erbjuder de säkerhet genom redundans, diversifiering och migrering.
(Danielsson 2008)

Enligt en undersökning gjord av InformationWeek är lagring, arkivering och
säkerhetskopiering den tjänst som företag är mest intresserade av att utlokalisera
till utomstående nätföretag. (George 2007: 40)




        Lagring och arkivering                                       3,3

         Kontorsapplikationer                                        3,2

                        Servrar                                      3,0

                Databeräkning                                        2,9

             Server utrymmen                                         2,8

                     Databaser                                       2,7

  Säkerhet och administration                                        2,6

                                  0        1        2         3        4


Diagram 5, intresse för utlokalisering av tjänster på nätet, på skalan 0 till 5
(George 2007: 40)
37



Cloud computing beskriver användningen av internet för de saker som tidigare
krävde installerad programvara på en lokal dator, server eller nätverk. Internet,
som i diagram ofta illustreras som ett moln, har flyttat fokusen från traditionella
mjuk- och hårdvaruprodukter till nätbaserade tjänster. Denna, relativt snabba
anpassning till nättjänster, har skapat många nya företag samtidigt som de
traditionella IT-företagen har haft stora anpassningsproblem. (Danielsson 2008)

Bland de första tjänster som flyttade ut på nätet var e-post och idag sker
majoriteten av e-post-trafiken via webbmail. Fördelen med webbmail är att
användaren har tillgång till sin e-post var än han eller hon befinner sig och
dessutom behöver man inte bekymra sig om säkerhetskopiering eftersom de
flesta nättjänster sköter säkerhetskopieringen för en. Nackdelen är tillgången till
tjänsten om denna ligger nere en längre tid, nättjänsteföretaget går under eller
om användaren saknar internetanslutning. Detta kan dock undvikas genom att
synkronisera innehållet på nätet med den lokala datorn. (Danielsson 2008)

Det är inte bara e-post som flyttat ut på nätet, vanliga redskapsprogram och
andra icke processorintensiva program används i allt större utsträckning på
nätet. Affärsmodellen för dessa tjänster går vanligen ut på reklamfinansiering
eller abonnemang. Den information som produceras, vare sig det är e-post,
textdokument eller kalkylblad, sparas även de på nätet. Nätföretaget Google,
som är ledande inom cloud computing, erbjuder upp till 7 gigabyte
lagringsutrymme för sina fria nättjänster, utrymmet går dock att utökas mot
betalning. För företag och privatpersoner är detta dock inte tillräckligt, eftersom
de ofta har mycket större behov. (George 2007: 40)
38



5      IMPLEMENTERING AV S3 OCH JUNGLE DISK

Nätföretaget Amazons S3-tjänst (Simple Storage System), är ett populärt
multiplattformsystem för säkerhetskopiering och arkivering. Denna nättjänst
introducerades i USA i början av 2006 och i Europa i slutet av 2007. Företaget
har lång erfarenhet och en bra utbyggd infrastruktur för digital arkivering.
(Chaganti 2008)

Jämfört med andra stora konkurrenter som erbjuder datalagring på webben är
Amazons priser bara en bråkdel och baserar sig på den mängd data som laddas
upp, sparas och laddas ner. Den initiella kostnaden är hög eftersom det oftast är
en stor mängd data som överförs, men när allt väl är säkerhetskopierat är det
endast filer, där ändringar ägt rum, som uppdateras på S3. (Chaganti 2008)

Redundans uppkommer genom en RAID 5 konfigurering på Amazons servrar.
Problemet med diversifiering löses genom att distribuera den lagrade datan
mellan s.k. serverfarmer runtom i världen via en SAN och migrering underlättas
av att man använder standardiserade internetprotokoll. (Chaganti 2008)

Amazon S3 erbjuder endast lagringtjänster, hur man väljer att kommunicera
med tjänsten är upp till användaren själv. Genom att erbjuda programutvecklare
en API (Application Programming Interface) har Amazon gett tredje parter
möjlighet att utveckla och erbjuda klientprogram som sköter kommunikationen
mellan användaren och tjänsten. Det finns flera olika sorters program,
användargränssnitt och protokoll att välja emellan, beroende på användarens
behov. Man har utvecklat allt från webbapplikationer och FTP-lösningar (File
Transfer Protocol) till säkerhetskopierings- och synkroniseringsprogram för
kommunikation med tjänsten. (Chaganti 2008)
39



Eftersom Amazon S3 är en internetbaserad lagringstjänst är det även möjligt att
direktlänka till filer. Själva webbutiken Amazon.com och andra populära sidor
använder S3-tjänsten när de serverar informationen till sina besökare. Genom att
använda S3 som en CDN (Content Delivery Network) underlättas nerladdningen
av bland annat bilder, som vanligtvis kräver stor bandbredd. Genom att sprida ut
bilderna på S3 servrar runtom i världen laddas de ner från den närmast belägna
serverfarmen. (Chaganti 2008)

Jag har i denna del av lärdomsprovet implementerat en Amazon S3-lösning med
det kommersiella programmet Jungle Disk som erbjuder mångfaldiga funktioner
till Amazons S3-tjänst.
40



5.1 S3-tjänsten

S3 är en av flera tjänster som erbjuds av Amazon Web Services (AWS).
Registreringen är enkel och sker på internetadressen http://aws.amazon.com/s3/.
Alla transaktioner är SSL krypterade med 128-bitar och certifierade av Verisign.
Denna procedur utförs endast då ett nytt konto skall registreras, konfigureringen
av S3-tjänsten utförs på klientsidan.




Bild 7, registrering vid Amazons S3-tjänst.
41



Betalning sker via kreditkort, direktdebitering från bankkonto eller via Amazons
eget betalsystem. Prissättningen varierar beroende på var man vill att den
fysiska lagringen skall ske men transaktionerna beräknas alltid i amerikanska
dollar. Kostnaden för tjänsten är något lägre i USA på grund av bättre utbyggd
infrastruktur och mera konkurrens. Det är dock möjligt för europeiska användare
att lagra data på de billigare amerikanska servrarna, men på grund av de långa
avstånden kommer tjänsten då att vara långsammare.




Bild 8, debitering i S3-tjänsten.
42



Debiteringen sker månadsvis och baserar sig på flera faktorer. Priset beräknas
huvudsakligen på mängden gigabyte data som lagras på kontot. Detta pris
varierar beroende på den totala mängd data som lagras. Den lägsta nivån man
kan få mängdrabatt på är 50 terabyte, vilket i praktiken betyder att endast
företag omfattas av rabatten.

               Lagring           USA         Europa
               < 50 TB            0,15        0,18
               50 - 400 TB        0,14        0,17
               400 – 500 TB       0,13        0,16
               > 500TB            0,12        0,15

               Tabell 1, månadskostnad i dollar för lagring per gigabyte.


Den andra faktorn som påverkar priset är transportkostnaden. Detta är en
engångskostnad och beräknas per gigabyte som laddas upp till tjänsten.
Beroende på hur ofta säkerhetskopieringar eller uppdateringar görs kan denna
kostnad variera stort.

               Uppladdning       USA         Europa
                                  0,10        0,10

               Tabell 2, uppladdningskostnad i dollar per gigabyte.
43



Nerladdningskostnaden är något högre än uppladdningskostnaden eftersom det
då är Amazons servrar som sköter transporten. Det är även möjligt att få
mängdrabatt på nerladdnings-kostnaderna, detta baseras då på mängden terabyte
per månad som laddas ner. De stora datamängderna det är frågan om betyder att
det igen främst är företag som omfattas av rabatterna.

               Nerladdning       USA         Europa
               < 10 TB           0,17          0,17
               10 – 50 TB        0,13          0,13
               50 – 150 TB       0,11          0,11
               > 150 TB          0,10          0,10

               Tabell 3, nerladdningskostnad i dollar per gigabyte.

Om S3-tjänsten används för lagring för webbinnehåll, t.ex. multimedia, som
tillgås direkt från Amazons servrar, kan nerladdningsmängden bli mycket stor.
Flera largringskrävande webbsidor använder sig av S3-tjänsten, bland annat
använder många webbalbum tjänsten för att servera digital fotografier.

Om S3-tjänsten används för servering av webbinnehåll tillkommer en liten
extrakostnad som baserar sig på antalet kommandon som skickas till Amazons
servrar. Om en besökare till ett webbalbum efterfrågar ett fotografi, skickas ett
GET kommando till S3-tjänsten. Denna lilla extrakostnad beräknas per 10 000
efterfrågningar.

 Kommandon                                               USA          Europa
 1.000 CUT, COPY, POST och LIST kommandon                 0,01         0,01
 10.000 GET och övriga kommandon                          0,01         0,01
 DELETE kommandot                                         0,00         0,00

Tabell 4, kostnad i dollar för utförande av kommandon.
44



När man registrerat ett konto på S3-tjänsten får man ett användarnamn och
lösenord, men på grund av säkerhetsrestriktioner får man inte själv välja dessa.
Access Key ID fungerar som användarnamn och Secret Access Key som
lösenord. Det är dock möjligt att ha flera lösenord till ett konto om man har flera
användare.




Bild 9, användarnamn och lösenord.
45



5.2 Jungle Disk

Nästa steg är att installera ett program som skall sköta kommunikationen mellan
den lokala datorn och S3 tjänsten. Det längst utvecklade programmet för detta
ändamål är Jungle Disk som kan laddas ner från http://www.jungledisk.com/.




Bild 10, installation av Jungle Disk.

Jungle Disk är ett kommersiellt program med en engångskostnad på 20
amerikanska dollar, men finns även tillgänglig som en demoversion som är aktiv
i 30 dagar. Programmet är multiplattform vilket betyder att den kan köras på
Microsoft Windows, Apple OS X och Unix/Linux operativsystem. Jungle Disk
är inte bundet till antalet användare, endast till ett specifikt konto på Amazon
S3. Detta betyder att det kan köras av flera användare samtidigt, så länge de är
uppkopplade till samma Amazon S3 konto.
46



Alternativa program är Bucket Explorer som kostar 50 dollar eller S3Drive som
har öppen källkod och är gratis. Eftersom S3 tjänsten är så flexibel finns det
även program som ger tillgång till S3 kontot som kan köras via kommandolinjen
i DOS och Linux. Det finns även FTP-program, plug-ins för webbläsare och
java-klienter på webbsidor som kan ge tillgång till S3 kontot.

Det finns tre versioner av Jungle Disk. Desktop versionen är till för
privatanvändare, workgroup versionen riktar in sig på företag och home server
versionen säkerhetskopierar informationen på en hemserver eller NAS. Detta
arbete gjordes i hemmiljö och således valdes desktop versionen.




Bild 11, användarnamn och lösenord.

För att få tillgång till lagringsutrymmet på Amazons servrar fyller man i Access
Key ID och Secret Access Key som man fick när man registrerade sig vid
tjänsten.
47



Konfigureringsmenyn ger tre alternativ till hur Jungle Disk kan användas. Man
kan bestämma vilka mappar som automatiskt skall säkerhetskopieras till S3,
detta alternativ väljs om man inte manuellt vill flytta över filer. Eftersom
säkerhetskopieringen sker automatiskt kan det vara svårt att hålla uppsyn över
vilka filer och hur mycket information laddas upp till S3. Man kan dock
bestämma om hur ofta och om det bara är ändrade filer som skall laddas upp.




Bild 12, konfigurering av Jungle Disk.

Det andra alternativet är att använda S3 som ett virtuellt nätverksområde. I
denna konfiguration syns S3 som ett eget område, med mappar och filer, i den
lokala filhanteraren. Det går även att använda en kombination av båda. I detta
arbete används alternativ två där S3 agerar som ett eget nätverksområde.
48



Eftersom S3 fungerar globalt måste man bestämma var geografiskt det är bäst
att lagra informationen. I detta arbete, där S3 simuleras som ett lokalt
nätverksområde, prioriteras snabbheten, därför väljs Amazons europeiska
serverfarmer, trots något högre lagrings- och transportkostnader.




Bild 13, geografiska lagringsplatser.
49



Nästa steg i processen är att namnge det simulerade lokala området som
kommer att synas i filhanteraren, i detta arbete namnges området Jungle Disk.

Amazon S3 erbjuder ingen kryptering så eventuell känslig information måste
krypteras före den laddas upp. Jungle Disk ger användaren två alternativ när det
kommer till kryptering. Antingen är det endast uppladdningen som är krypterad
eller så krypteras både uppladdningen och all den information som lagras på
tjänsten. Jungle Disk använder sig av en 256-bits AES krypteringsalgoritm och
ingen annan än användaren har åtkomst till den krypterade informationen, inte
ens Amazon.




Bild 14, kryptering.

Den konfiguration som används i detta arbete är till för hemanvändare så
snabbheten prioriteras högre än säkerheten, därför väljs standard alternativet där
endast uppladdningen är krypterad.
50




Nu är Jungle Disk färdigt konfigurerad. Om man vill ändra t.ex. namn på
området, antalet områden eller kryptering kan man göra det i efterhand i
applikationsfönstret.




Bild 15, konfigurationen färdigställd.

Jungle Disk fungerar i bakgrunden och kräver endast lite processorkraft.
Programmet startar upp automatiskt och påminner användaren om sin närvaro
genom en liten ikon i aktivitetsfältet.
51



När Jungle Disk är rätt installerat syns lagringsutrymmet S3 som ett eget område
i filhanteraren. Härefter kan man manuellt flytta över viktiga dokument till och
från det nya området.




Bild 16, Jungle Disk i filhanteraren.

Amazon S3 har ett eget filsystem där data lagras i så kallade keys och buckets.
En key kan jämföras med en fil och en bucket motsvarar en katalog. På grund av
filsystemet som tjänsten använder finns det inte något hierarkiskt katalogdjup,
men Jungle Disk kan simulera detta med ett virtuellt filsystem. Detta syns i
filhanteraren när installationen är slutförd. Amazon S3 har inte heller stöd för
namnbyten efter att filer laddats upp på tjänsten. Namnbyten måste ske på det
lokala området och därefter laddas upp på nytt till lagringstjänsten.
52



6   AVSLUTNING

Under de senaste 50 åren som man skapat digital information har vi haft dålig
erfarenhet med långtidslagringen. Först nu i och med IT-revolutionen och
informationssamhällets framfart, ser vi försök att lösa detta problem som
påverkar allt från det nationella kulturarvet till det globaliserade arbetssamhället.
Internets framgång har öppnat många nya portar, men har också skapat många
hinder. Framgången har till stor del berott på dess globala och öppna standarder,
något som hittills saknat motpart i den icke uppkopplade delen av
informationssamhället. Digitaliseringen har också påverkat vårt synsätt på hur
den digitala informationen skall lagras och de problem som uppstår i processen.

Beslut som berör långtidslagringen av digital information skall uppfylla tre
kriterier: tekniken, strategin och kostnaden. Tekniken och strategierna finns,
men som vi har sett är det ofta bristen på kunskap och vilja och således
finansiering som leder till försvinnandet av värdefull digital information eller
dess kostsamma återvinnande. Från mjukvarutillverkarnas sida har vi sett en
ökad, men motvillig förståelse för öppna standarder vilket är hoppingivande,
trots att det ofta krävs politisk påtryckning. Det verkar som om tillverkarna
kommit över det gamla synsättet med att binda sina kunder till lösningar som
endast gynnar dem och inte slutanvändaren, oavsett om det är nu eller om
hundra år.

Fördelarna med digitaliseringen är en överväldigande och snabb tillgång till
digital information, vilket passar vårt nya informationsdrivna samhälle. Den
digitala informationen kräver dock ett synsätt med långtidsperspektiv och
ständig   uppmärksamhet.      De    dyra    och   invecklade     strategierna   med
långtidslagringen har visat sig kräva politiska beslut, men allt fler privatpersoner
ser nödvändigheten med dessa när den digitala informationen börjat påverka
deras egna liv. Detta är uppenbart från de hårdvarulösningar och nättjänster som
skapats under de senaste åren i hopp om att erbjuda svaret på frågan hur dagens
digitala information skall framtidssäkras för kommande generationer.
53



KÄLLFÖRTECKNING


Tryckta verk och artiklar:


Anderson Ian G. & Tedd, Lucy A. 2005. Digital histories. s. 299
(http://site.ebrary.com/lib/vamklibrary/Doc?id=10103484&ppg=2)


Arkivverkets föreskrifter och anvisningar angående arkivutrymmen 2007.
s. 15 (www.narc.fi/Arkistolaitos/a/tiedostot/PDF/arkistotilamaarays_se.pdf)


Arkivverkets Årsberättelse 2007. s. 8-9, 17-18
(www.narc.fi/Arkistolaitos/a/tiedostot/PDF/vk2007.pdf)


Ashley, J. m.fl. Holographic data storage. IBM Journal of Research and
Development 3/2000. s. 341 (www.research.ibm.com/journal/rd/443/ashley.pdf)


Brodkin, John 2008. IBM, Sun each claim 'first' 1TB tape drive. Network
World. Vol. 25, nr. 28 s. 22
http://proquest.umi.com/pqdweb?did=1522796871&sid=1&Fmt=6&clientId=46
965&RQT=309&VName=PQD


Farley, Marc 2002. Building Storage Networks. s. 159-207
(http://site.ebrary.com/lib/vamklibrary/Doc?id=5008161&f00)


George, Randy. Cloud Storage’s Top Uses. Information Week 8/2007 s. 40
(proquest.umi.com/pqdweb?did=1585424621&sid=4&Fmt=6&clientId=46965
&RQT=309&VName=PQD)


Järvinen, Petteri. Blu-ray, viimeinen elokuvalevy. Tietokone 11/2008. s.26


Jääskeläinen, Ossi. Tallennustekniikan vallankumous. MikroPC 6/2007 s. 38
54



Kennedy, Dennis. Master Your Disasters. ABA Journal 9/2008 s. 34-35
(proquest.umi.com/pqdweb?did=1557161061&sid=2&Fmt=3&clientId=46965
&RQT=309&VName=PQD&cfc=1)


Kosek, Jirka 2008. From the Office Document Format Battlefield. IT
Professional Magazine 3/2008 s. 51-55
(proquest.umi.com/pqdweb?did=1501873941&sid=2&Fmt=6&clientId=46965
&RQT=309&VName=PQD)


Lai S.K. Flash memories: Successes and challenges. IBM Journal of Research
and Development 5/2008 (www.research.ibm.com/journal/rd/524/lai.pdf)


Morris R. & Truskowski B. The evolution of storage systems. IBM Systems
Journal 2/2003 s. 206 (www.research.ibm.com/journal/sj/422/morris.pdf)


Ross, Seamus & Gow, Ann 1999. Electronic Libraries (eLib) Programme on the
Preservation of Electronic Materials s. 1-9
(www.ukoln.ac.uk/services/elib/papers/supporting/pdf/p2.pdf)


Shimonski, Robert 2003. Windows 2000 & Windows Server 2003 Clustering
and Load Balancing s. 47-48
(http://site.ebrary.com/lib/vamklibrary/Doc?id=10045497&f00)


Smith, Bernard. Preserving Tomorrow’s Memory: Preserving Digital Content
for Future Generations. International Preservation News 5/2003 s. 4-10
(www.ifla.org/VI/4/news/ipnn29.pdf)


Tristram, Claire. Data Extinction. Technology Review 8/2002 s. 36-43
(proquest.umi.com/pqdweb?did=195539721&sid=2&Fmt=6&clientId=46965&
RQT=309&VName=PQD)
55



Walter, Chip. Kryder´s Law. Scientific American 8/2005 s. 32-33
(www.chipwalter.com/articles/profiles/kryder.pdf)


Internetkällor:


Alabi, Duran 2004. NAS, DAS or SAN? – Choosing the Right Storage
Technology for Your Organization (www.storagesearch.com/xtore-art1.html)


Arkivverket pressmeddelande 8/2008. Järnvägsverket först med elektronisk
arkivering.
(www.narc.fi/Arkistolaitos/sve/aktuellt/meddelande/meddelande_120808.html)


Bartels, Anna 2007. Datalagring, affärssystem, hållbarhet – långsiktigt digitalt
bevarande. (www.ida.liu.se/~HIIC70/exam/Framl0712/07BartelsManus.pdf)


Chaganti, Prabhakar 2008. Cloud Computing with Amazon Web Services
(www.ibm.com/developerworks/architecture/library/ar-
cloudaws1/index.html?S_TACT=105AGX20&S_CMP=EDU


Claesson, Henrik & Larsson, Karin 2001. Arkivering av digital information.
(https://gupea.ub.gu.se/dspace/bitstream/2077/1384/1/Henrik_Claesson-
Karin_La..pdf)

Danielsson, Lars 2008. Molnet som skuggar allt.
(www.idg.se/2.1085/1.184163/molnet-som-skuggar-allt)


Emanuelsson, Charlotte 2006. Digitalisering av kulturarvet – En studie av
digitalisering vid två museer. (bada.hb.se/bitstream/2320/1480/1/06-65.pdf)


Gilheany, Steve 2003. Projecting the Cost of Magnetic Disk Storage Over the
Next 10 Years (www.archivebuilders.com/whitepapers/22011p.pdf)
56



Herwig, Malte 2007. Putting the World’s Books On The Web.
(www.spiegel.de/international/business/0,1518,473529,00.html)


Miyashita, Makiko 2003. The Impact of the Internet on Globalization.
(courses.washington.edu/com538/2003/student_presentations/MakikoMiyashita.
ppt)


Pinheiro, Eduardo & Weber, Wolf-Dietrich & Barroso, Luiz André 2007.
Failure Trends in a Large Disk Drive Population.
(research.google.com/archive/disk_failures.pdf)


Sorrel, Charlie 2008. 5 Obsolete Storage Formats.
(blog.wired.com/gadgets/2008/06/five-obsolete-s.html)


Stander A. & van der Merwe N. 2002. Long Term Data Storage: Are We
Getting Closer to a Solution? (www.codata.org/codata02/09info/Stander-
slides/Stander-paper.pdf)


Stepanek, Marcia 1998. Data Storage: From Digits to Dust.
(www.businessweek.com/archives/1998/b3574124.arc.htm)


Tudor, Marius 2005. Are flash solid state driver ready for the enterprise?
(www.embeddedstar.com/articles/2005/2/article20050207-1.html)

Contenu connexe

En vedette

En vedette (18)

Jelajah Nusantara Campaign
Jelajah Nusantara CampaignJelajah Nusantara Campaign
Jelajah Nusantara Campaign
 
S t o r y b o a r d
S t o r y   b o a r dS t o r y   b o a r d
S t o r y b o a r d
 
Genética de populações
Genética de populaçõesGenética de populações
Genética de populações
 
アメブロヘッダーメニューの設置方法
アメブロヘッダーメニューの設置方法アメブロヘッダーメニューの設置方法
アメブロヘッダーメニューの設置方法
 
Tic Project
Tic ProjectTic Project
Tic Project
 
Risultati e classifica torneo di ciociaria 2012 (2)
Risultati e classifica torneo di ciociaria 2012 (2)Risultati e classifica torneo di ciociaria 2012 (2)
Risultati e classifica torneo di ciociaria 2012 (2)
 
Proyecto
ProyectoProyecto
Proyecto
 
.
..
.
 
Apostila anvisa06
Apostila anvisa06Apostila anvisa06
Apostila anvisa06
 
Apresentação Programa EMAGRECENDO
Apresentação Programa EMAGRECENDOApresentação Programa EMAGRECENDO
Apresentação Programa EMAGRECENDO
 
turismo
turismoturismo
turismo
 
Polynomial dpf
Polynomial dpfPolynomial dpf
Polynomial dpf
 
平安是福
平安是福平安是福
平安是福
 
Bases legais educação inclusiva
Bases legais educação inclusivaBases legais educação inclusiva
Bases legais educação inclusiva
 
Comportamiento drogas
Comportamiento drogasComportamiento drogas
Comportamiento drogas
 
Apresentação sítio sta. rita
Apresentação sítio sta. ritaApresentação sítio sta. rita
Apresentação sítio sta. rita
 
Grecia clase 3 esparta y atenas
Grecia clase 3 esparta y atenasGrecia clase 3 esparta y atenas
Grecia clase 3 esparta y atenas
 
faculty of Education: Trend &amp; Development
faculty of Education: Trend &amp; Developmentfaculty of Education: Trend &amp; Development
faculty of Education: Trend &amp; Development
 

Digital Arkivering och Lagring

  • 1. VASA YRKESHÖGSKOLA Kai Martonen Digital Arkivering och Lagring Företagsekonomi och turism 2008
  • 2. 1 VASA YRKESHÖGSKOLA Utbildningsprogrammet för företagsekonomi ABSTRAKT Författare Kai Martonen Titel Digital Arkivering och Lagring År 2008 Språk svenska Sidantal 52 Handledare Kenneth Norrgård Syftet med detta lärdomsprov är att ge läsaren insikt i riskerna med modern datalagring och vilka lösningar som finns tillgängliga för enskilda konsumenter och skapare av digital information. Arbetet omfattar teorier om hur digital information uppkommer och hur den ändrat förfarandet med hänsyn till lagring och arkivering. I teoridelen presenteras även tidiga, nutida och framtida lagringslösningar med deras för och nackdelar. I den praktiska delen av arbetet undersöks en ny lovande lagringsmetod genom cloud computing. Ämnesord Data, Lagring, Digital, Information, Cloud, Computing
  • 3. 2 VAASA POLYTECHNIC Utbildningsprogrammet för företagsekonomi ABSTRACT Author Kai Martonen Topic Digital Archiving and Storage Year 2008 Language Swedish Pages 52 Name of Supervisor Kenneth Norrgård The aim of this thesis is to examine the risks associated with modern data storage and what solutions are available for the consumer and creators of digital information. The theory part examines the origins of digital information and how it has changed procedures when it comes to storage and archiving. Early, modern and future storage solutions are also explained in the theory part. Finally, this thesis practically examines a promising storage method using cloud computing. Keywords Data, Storage, Digital, Information, Cloud, Computing
  • 4. 3 INNEHÅLL ABSTRAKT ABSTRACT 1 INLEDNING 6 1.1 Problemställning 7 1.2 Avgränsning och disposition 7 1.3 Datasäkerhet 7 1.4 Bakgrund 8 2 DIGITALISERING 9 2.1 Ursprunget 10 2.2 Digitala bibliotek 10 2.3 Digitala arkiv 11 2.4 Digitaliseringsmetoder 12 2.5 Kostnadseffektivitet och globalisering 13 2.6 Standardiserade filformat 14 2.6.1 OOXML vs. ODF 15 3 LAGRINGSMEDIA 16 3.1 Magnetisk media 16 3.1.1 Magnetband 17 3.1.2 Hårdskivor 18 3.2 Flashbaserad media 21 3.2.1 SSD minne 22 3.3 Optisk media 23 3.3.1 CD 23 3.3.2 DVD 24 3.3.3 Blu-ray 24 3.4 Framtidens media 25 3.5 Digital lagringskostnader 26
  • 5. 4 4 LÖSNINGAR 27 4.1 Lagringsklimat 28 4.2 Hårdvarulösningar 29 4.2.1 RAID 29 4.2.1.1 RAID 0 30 4.2.1.2 RAID 1 31 4.2.1.3 RAID 5 32 4.2.2 Nätverkslagring 33 4.2.2.1 DAS 34 4.2.2.2 NAS 35 4.2.2.3 SAN 36 4.2.3 Cloud computing 37 5 IMPLEMENTERING AV AMAZON S3 OCH JUNGLE DISK 39 5.1 S3-tjänsten 41 5.2 Jungle Disk 46 6 SLUTORD 53 KÄLLFÖRTECKNING
  • 6. 5 1 INLEDNING Den tidigaste arkiveringen av digital information gjordes av amerikanska rymdforskningsinstitutet NASA. Från 50-talet och framåt har de varit i spetsen för hur data lagras och används. Rymdsonder skickades ut i rymden och dessa sände tillbaka oersättlig information till jorden, där de lagrades på magnetband för framtida bruk. (Claesson & Larsson 2001) Magnetbanden från rymdsonden Voyager I arkiverades i stora klimat- kontrollerade rum för att dessa skulle hålla så länge som möjligt. Men när forskarna ett antal år senare skulle analysera dem, visade det sig att stora delar gått förlorade eftersom man hade glömt bort i vilket format informationen hade sparats. (Claesson & Larsson 2001) Några år senare var det Viking sondens tur, denna gång hade man allt under kontroll, trodde man. När man tog fram magnetbanden märkte man att de hade börja ruttna och istället för att utföra analyser måste man nu anlita experter för att återskapa informationen från de förstörda banden. (Stepanek 1998) En av dessa experter var Jeff Rothenberg som sedan detta uppdrag har jobbat på problemet med långtidslagringen av digital information. Han myntade ordspråket, “digital information håller för alltid, eller fem år – beroende på vilket som kommer först”. (Stepanek 2008)
  • 7. 6 1.1 Problemställning I dagens samhälle lagrar vi allt mera information och det lagras allt mera information om oss. Detta tack vare den digitala tekniken. Denna relativt nya teknik har medfört många nya synsätt på hur information skall hanteras och lagras för framtiden. Frågan jag ställer med detta arbete är; hur och var bör data förvaras för att framtidssäkra informationen för kommande generationer? Hur kan man bäst försäkra sig om att den digitala informationen som skapas idag kan återskapas i framtiden? Vilka moderna lösningar erbjuder de bästa förhållandena med tanke på långvarighet, säkerhet, användarvänlighet och kostnad? 1.2 Avgränsning och disposition Ämnesområden i den teoretiska delen av detta arbete fokuserar på strategier och lösningar gällande långtidslagring av digital information. De ämnen som arbetet omfattar är uppkomsten av digital information, lagringshårdvara och lagringslösningar. I den empiriska delen implementeras och analyseras en av de senaste och intressantaste lagringslösningarna på en praktisk basis med tillhörande observationer och kommentarer. Avslutningsvis presenteras slutsatser och exempel på möjlig fortsatt forskning inom området. 1.3 Datasäkerhet Datasäkerhet förknippas ofta med åtkomsten av konfidentiell information men också allt mer med hanteringen och lagringen av informationen. Konfidentiell information som t.ex. löner och patientjournaler lagras i databaser på servrar. Även personlig information såsom digitala fotografier och e-post lagras ofta på hårdskivan i hemdatorn. Det finns många områden som påverkas till olika grad av övergången från analog till digital information, bland dessa kan nämnas släktforskning, multimedia, bankärenden, brevväxling och till och med politiska val i och med elektronisk röstning.
  • 8. 7 1.4 Bakgrund För att få ett begrepp om hur man skall gå till väga kan man se på den relativt korta period som digital information producerats och arkiverats, vilka misstag man begått och vad man kan lära sig av dem. Då digital arkivering misslyckas finns det ofta en av två bidragande faktorer; lagringsmediet är fysiskt skadat eller oläsbart på grund av dåliga rutiner, brist på kunskap eller vilja, eller så är formaten på den digitala informationen oanvändbar på grund av proprietära och icke standardiserade filformat. (Stander & Merwe 2002) Området med att framtidssäkra digital information är nytt och skiljer sig dramatiskt från tidigare processer med analog media. Till skillnad från rutiner gällande analog information, där passivitet är nyckeln, kräver den digitala informationen ständig uppmärksamhet. I och med att existerande arkiverings- metoder för digital media är relativt osäkra och ständig befinner sig i förändring, kräver dessa med tiden, en migrering till nyare och bättre lagringsmetoder. (Stander & Merwe 2002) Varför övergår man då, i en allt större utsträckning, till digital information? Hanteringen av digital information, speciellt i stora mängder, är mycket lättare än dess analoga motpart. Till skillnad från analog media sker dessutom ingen degradering av den digitala informationen, när man övergår till en ny arkiveringsform eller lagringsmedia. Eftersom man med digital information kan producera 100% identiska kopior skapas en redundans som hittills varit omöjlig när det gäller analog information.
  • 9. 8 2 DIGITALISERING Digitalisering, som är en stor bidragande faktor till efterfrågan på stabila långtidslagringslösningar, innebär att man överför analog information till ett digitalt format. Digital information kan består av binär data, dvs. ettor och nollor, som inte förändras eller degraderas vid migration från ett lagringsmedia till ett annat. Motsatsen är analog information där data representeras av fysiska förändringar i mediet, t.ex. LP-skivor och målningar. Varje kopia av analog information är olika originalet och i de flesta fallen av sämre kvalitet. (Emanuelsson 2006) Idag föds nästan 100% av all ny information digitalt, allt från röntgenplåtar till sjökort. En stor del av informationen som föds digitalt reproduceras även analogt, t.ex. böcker, men i en allt större utsträckning finns det information som bevaras digitalt under hela dess livstid, t.ex. digitala fotografier. (Smith 2003: 4- 10)
  • 10. 9 2.1 Fördelar med digitaliseringen Digitaliseringen av gammal analog information har flera fördelar. Sökning i det digitaliserade materialet är enkelt, materialet kan dupliceras oändligt och spridas över hela världen via t.ex. internet. Digitalisering är även av stort värde vid exempelvis forskning och undersökning av ett ursprungsmaterial, som inte skulle tåla den fysiska hanteringen, eller där materialet annars är onåbart. (Emanuelsson 2006) 2.2 Digitala bibliotek Det vanligaste digitaliseringsobjektet idag är böcker; bibliotek, frivillig- organisationer och företag digitaliserar dessa för olika ändamål. Till de större digitaliseringsprojekten hör bland annat Google Book Search och Project Gutenberg. Google Book Search har i samarbete med de största biblioteken runtom i världen redan digitaliserat över 7 miljoner böcker och man skannar över 3000 böcker dagligen. (Herwig 2007) Detta har väckt många frågor hos alla inblandade parter. Hur kan man balansera konsumenternas stora efterfrågan på snabb och effektiv information, samtidigt som man tar författarnas och förlagens rättigheter i beaktande? Google Book Search har löst problemet genom att göra böckerna sökbara, men sökresultaten består endast av ett kort textutdrag ur boken, varefter man satt in en länk till en bokhandel, där man kan köpa boken i dess helhet, antingen digitalt eller i analogt format. Denna lösning gäller tillsvidare endast i USA, i resten av världen erbjuder Google Book Search söktjänster i böcker där upphovsrätten har upphört. (Herwig 2007)
  • 11. 10 2.3 Digitala arkiv I Finland är det arkivverket, som består av riksarkivet och alla sju landsarkiv, som kommit längst med digitaliseringen. År 2007 skannade man det miljonte dokumentet, Finlands självständighetsförklaring. Även Museiverket och Nationalbiblioteket har de senaste åren, med uppmuntran från EU, påbörjat digitaliseringen av sina arkiv, i syftet att säkra det nationella och europeiska kulturarvet. Riksarkivet i Sverige, som digitaliserar cirka 20 miljoner sidor årligen, är idag ledande inom digitaliseringsprocessen och har gett Sverige anseendet som ett genuint informationssamhälle. (Arkivverkets årsberättelse 2007: 8-9) Arkivverket är idag redo att ta emot digitala handlingar från myndigheter och organisationer, men detta har försvårats på grund av bristen på standardiserade filformat och god arkiveringskunskap hos myndigheterna. Ända tills standarderna är fastslagna och kunskapen finns, måste all digital information som överlåts till arkivet medföljas med en parallell pappersversion. (Arkivverkets årsberättelse 2007: 17-18) Som en pilotstudie har arkivverket gett finska järnvägsverket tillstånd att helt övergå till en varaktig digital arkivering. Järnvägsverket är en ny myndighet som grundades 2007 i och med privatiseringen av järnvägarna. I samband med grundandet av den nya myndigheten beslöts att den skulle ha ett papperslöst kontor i form av ett elektroniskt ärendehanteringssystem. Detta beslut betyder att de officiella handlingarna inte behöver förvaras i pappersform eller digitaliseras i efterhand utan kan direkt undertecknas och arkiveras elektroniskt. (Arkivverkets pressmeddelande 8/2008)
  • 12. 11 2.4 Digitaliseringsmetoder Böcker och dokument kan digitaliseras på tre sätt, genom fotografering, manuell digitalisering eller OCR-mjukvara (Optical Characterization Recognition). Genom att fotografera varje sida i en bok bygger man upp en digital representation av boken som sedan kan läsas eller avsökas på t.ex. nätet. Denna tidiga digitaliseringsmetod har många nackdelar. De digitala bilderna, som ofta sparas i det okomprimerade men standardiserade TIFF-filformatet (Tagged Image File Format), tar upp onödigt mycket utrymme och eftersom man inte kan göra textsökningar på bilder, måste nyckelord manuellt associeras med innehållet i bilderna. Nuförtiden används denna metod endast när både texten och de fysiska sidorna är av intresse, t.ex. böcker med illustrationer eller medeltida verk med artistisk kalligrafi. (Anderson & Tedd 2005: 299) För att göra innehållet sökbart måste själva texten digitaliseras. Speciellt i de äldre verken måste man då utföra en manuell digitalisering, vilket innebär att en person översätter texten med hjälp av ordbehandlingsprogram. Denna metod är kostsam både i tid och pengar. (Anderson & Tedd 2005: 299) OCR är en metod som går ut på att ett datorprogram läser sidorna i den skannade boken eller dokumentet och därefter överför texten till digitaliserad form. Man överför alltså endast innehållet i texten och inte själva sidan som i fotograferingsmetoden. OCR-metoden kräver större investeringar i mjukvara, hårdvara och tar längre tid att utföra än fotografering. Men, med en exakthet på 99,8% är detta den ideala digitaliseringsmetoden, för verk som producerats med moderna bokpressar och standardiserade typsnitt. (Anderson & Tedd 2005: 299)
  • 13. 12 2.5 Kostnadseffektivitet och globalisering Att lagra data i ett digitalt format har inte alltid varit det lönsammaste alternativet, genom tiden har analog media, som t.ex. papper, haft stora konkurrensfördelar. I mitten av 90-talet, i och med bättre digitala lagringstekniker, övertog digital lagringsmedia pappret som det kostnads- effektivaste lagringsmediet, åren därefter följde bild, ljud och video. Detta gav upphov till nya konsumentprodukter som digitalkameror, mp3-spelare och andra elektroniska prylar. (Morris & Truskowski 2003: 206) Även produceringen och spridningen underlättas då informationen befinner sig i ett digitalt format. Man kan säga att dessa nya kommunikationsmedel är en av grundstenarna till en den ökande globaliseringen av digitala tjänster. Digitaliseringen, de nya kommunikationsmedlen och relaterade tekniker ger, ur ett internationellt perspektiv, en stor kostnadseffektivitet, men samtidigt även stora omställningssvårigheter. (Miyashita 2003) För att lösa dessa problem bildades världshandelsorganisationen (World Trade Organization) i mitten av 90-talet. Organisationen har tre huvudavtal; GATT (General Agreement on Tariffs and Trade) som reglerar varuhandel mellan länder, GATS (General Agreement on Trade in Services) som reglerar tjänster över landsgränser och TRIPS (Trade Related Aspects of Intellectual Property Rights) som innehåller regler om bland annat upphovsrättsskydd och patent. (Miyashita 2003) Det är främst GATS och TRIPS avtalen som påverkar hur användningen av digitala tjänster används och kommer att användas i framtiden. Den nya tekniken medför att arbete kan utföras i låglöneländer i realtid för avsevärt mindre kostnader och att omställningen från analog till digital information accelereras på en global skala. (Miyashita 2003)
  • 14. 13 2.6 Standardiserade filformat I inledningen av detta arbete beskrevs hur NASA endast koncentrerade sig på överlevnaden av det fysiska mediat i sin långtidslagringsstrategi, men snabbt märkte man att även formatet som innehållet lagrats i påverkar långtids- lagringen. Om man inte kan läsa innehållet spelar det ingen roll om det fysiska mediat överlever. I mitten av 80-talet, i och med persondatorns inträde på marknaden, uppstod det problem när varje tillverkare av datorprogram föredrog sina egna proprietära filformat. Hittills hade detta inte varit ett problem, men i och med en ökad användning av persondatorer, måste standarder för filformat upprättas, så att de kan avläsas även efter att hårdvaran eller mjukvaran övergetts. Den internationella standardiseringsorganisationen (ISO) upprättade 1986 en filformatsstandard för detta ändamål. Det var önskvärt att det rörde sig om ett filformat som inte var beroende av operativsystem eller program och dessutom skulle det vara läs- och skrivbart för människor samt enkelt att lära. Man kom upp med SGML (Standard Generalized Markup Language) som fungerade som en rosettasten för filformat. (Claesson & Larsson 2001) När internet slog igenom på 90-talet var det viktigt att alla plattformar skulle förstå innehållet på webbsidorna. Lösningen var HTML (HyperText Markup Language) som bygger på SGML-standarden. (Claesson & Larsson 2001) Mjukvarutillverkare var inte lika öppna till standardisering. De fortsatte att använda sina egna proprietära filformat i syftet att tvinga konsumenterna att använda endast program av en specifik tillverkare, ett indirekt tvång som inverkade negativt på framtidsstödet av digital information. Bästa exemplet av detta har varit mjukvaruföretaget Microsofts motstånd mot att använda öppna filformat i sitt kontorspaket Office. (Kosek 2008: 51-55)
  • 15. 14 2.6.1 OOXML vs. ODF Microsoft har sedan mitten av 90-talet varit ledande inom kontorsapplikationer med sitt Office-paket. Filformaten har dock alltid varit proprietära, vilket i stort sett betyder att man är bunden till Microsofts produkter för att läsa och ändra filerna. Microsoft Office var dock så populärt att dessa filformat, trots deras proprietära natur, blev en sorts informell standard. (Kosek 2008: 51-55) Samtidigt utvecklades, baserat på öppen källkod och SGML, en basstruktur för arkivering av kontorsapplikationsfiler kallad XML. På denna grund skapade flera av de största aktörerna på webben, bl.a. Google, Sun Microsystems och IBM, ett öppet filformat för kontorsapplikationer kallat Open Document Format (ODF). Denna filtyp, som godkändes som standard 2005, specificerade hur dokument skall formateras så att de lätt kan läsas på webben, utan att behöva installera kommersiella program. (Kosek 2008: 51-55) Microsoft insåg snabbt att denna filformatsstandard hotade deras starka ställning på marknaden, men istället för att adoptera den, föreslog de att deras nuvarande filformat, OOXML (Office Open XML), skulle standardiseras. Tack vare Microsofts starka ställning och trots många protester från resten av IT- branschen, godkändes OOXML våren 2008 under stor dramatik. (Kosek 2008: 51-55) OOXML har, till skillnad från andra XML-baserade filformat, olika licensieringskrav, vilket i sin tur medför ett status quo i standardiserings- processen, när det nu finns två tävlande filformat. Microsofts stängda men populära OOXML och det öppna men inte långt implementerade ODF. Detta är ett exempel på hur ekonomiska intressen kan låsa in användare i format vars framtid inte kan garanteras. (Kosek 2008: 51-55)
  • 16. 15 3 LAGRINGSMEDIA Lagringsmedia är den fysiska lagringshårdvaran för data. I dag finns endast tre sätt att lagra digital information på; magnetiskt, med flashminne eller optiskt. Alla tre metoder har sina egna för- och nackdelar. När man bestämmer sig för lagringsmedia finns det några faktorer som man måste observera som t.ex. hållbarhet, framtidssäkring samt kostnad i tid och pengar. Det har genom tiderna funnit många sorters lagringsmedia och många av dessa har redan försvunnit. Många lagringsmedia som t.ex. hålkort och disketter har föråldrats när nya och bättre media tagits fram. Andra försök att introducera nya lagringsmedium har misslyckats på grund av proprietär teknik, där endast en tillverkare har tillgången eller rättigheten till teknologin, eller bristen på standardisering mellan tillverkarna, t.ex. Minidisc och Zip Disk, båda formaten utvecklade av Sony. (Sorrel 2008) 3.1 Magnetisk media De stora framstegen inom magnetisk media har spelat en stor roll i utvecklandet av dagens IT-samhälle. I dagens läge sparas 90% av världens information på magnetisk media. Magnetisk lagringsmedia delas in i två kategorier, hård media och mjuk media. Till hård media räknas hårdskivor, till mjuk media räknas disketter, kasetter och magnetband. All magnetisk media har en yta som är belagt med ett ferromagnetiskt material. Genom att utsätta mediat för elektromagnetiska fält, kan digital information lagras eller skrivas över med ny data. Möjligheten att återanvända mediat, genom att radera gammal data, har gjort magnetisk media mycket populärt. (Ross & Gow 1999: 1-9; Pinheiro, Weber & Barroso 2007)
  • 17. 16 Utan uppsyn och skötsel är magnetisk media dock inte ideal för långtidsarkivering av information. Oavsett media avtar magnetismen med tiden, mjuk magnetisk media har ett tunnare lager ferromagnetiskt material och avtar därför snabbare än hård magnetisk media. De kemiska materialen som främst används i de mjuka magnetiska media orsakar även oxidation och korrosion vilket påverkar magnetismen negativt. Långtidsförvaring av hård magnetisk media har också nackdelar eftersom de, förutom oxidation och korrosion, kan få mekaniska och mjukvarufel. (Ross & Gow 1999: 1-9) 3.1.1 Magnetband Magnetband hör till de stabilare magnetiska arkiveringsmedia, dess livslängd kan vara upp till 75 år. Tidiga versioner av magnetband hade dock dåliga magnetiska egenskaper, vilket ledde till användningen av mera kemikalier, oxider och järnbaserade partiklar i tillverkningsprocessen. Dessa kemikalier hade bra magnetiska egenskaper men orsakade polymererna, som håller ihop själva bandet, att upplösas efter bara några år. Man började då använda tjockare band, vilket i sin tur ger mindre utrymme för data. Det uppstod t.o.m. företag som kemisk processade magnetbanden före arkiveringen, i hopp om att de skulle hålla längre. På 80-talet hade man finslipat magnetbandsteknologin, men då hade redan hårdskivan slagit igenom. Varför har magnetband då inte en högre användningsgrad, då den har en god hållbarhet och ett väldigt lågt pris? (Gilheany 2007; Jääskeläinen 2007: 38; Ross & Gow 1999: 1-9) Till skillnad från övriga lagringsmedia finns det ingen enhetlig standard på magnetband. Sedan 1951 har det funnits 33 olika magnetbandsstandarder och varje tillverkare har sina egna proprietära format. Till varje format krävs även skild hårdvara, som innebär höga initiella hårdvarukostnader för att skriva och läsa av den digitala informationen. Dessa formatförändringarna medför därför, trots magnetbandets relativt goda säkerhet och låga kostnad, en stor risk när det kommer till långtidsarkivering, speciellt jämfört med hårdskivan. (Brodkin 2008: 22)
  • 18. 17 3.1.2 Hårdskivor Hårdskivan har länge använts jämsides med magnetband. Den erbjuder till skillnad från magnetband en snabb och enkel åtkomst av data. Hårdskivor kräver inte heller skild hårdvara för att läsa eller skriva data, vilket är fallet med mjuk magnetisk media. Hårdskivan innehåller nämligen färdigt drivmotor, läs- och skrivhuvud, elektroniska kretsar och mjukvara. All denna mekanik och de snabbt roterande skivorna medför dock en större risk för komplikationer som man bör vara medveten om. (Jääskeläinen 2007: 38) Eftersom hårdskivan oftast är i daglig användning skulle man tro att de även förstörs lättare. En undersökning gjord av Google mellan 2002 och 2007 visar att det inte finns någon märkbar skillnad i krascher med hårdskivor i daglig användning och hårdskivor som arkiverats på bokhyllan. Samma undersökning visar också att risken för krascher endast ökar marginellt med tiden. Med moderna hårdskivor kan man räkna med en livslängd på upp till fem år, om de används dagligen och bevaras under optimala förhållanden. (Pinheiro, Weber & Barroso 2007) 10 % 8% 6% 4% 2% 0% 1 år 2 år 3 år 4 år 5 år Diagram 1, risken för hårdskivskrascher ligger mellan 6 och 9 procent per år. (Pinheiro, Weber & Barroso 2007)
  • 19. 18 Ännu på tidigt 90-tal befann sig hårdskivan i utvecklingsstadiet och var långt ifrån lämplig för långtidsdatalagring. Till de större problemen hörde sammansmältning av läs- och skrivhuvudet, som sitter på ett avstånd av 15 miljondelar av en millimeter från de snurrande plattorna. De kunde fysiskt fästa sig vid de snurrande plattorna och orsaka mekanisk skada, s.k. stiction, som gjorde hårdskivan obrukbar. Moderna hårdskivor sätter automatiskt skrivhuvudet i viloposition när de inte är i användning. (Ross & Gow 1999: 1-9) De nya hårdskivor har fått bukt med barnsjukdomarna som plågade de tidiga hårdskivorna, samtidigt som man sett en signifikant ökning av lagrings- kapaciteten. Magnetbanden som länge tävlat med hårdskivorna gällande lagringskapaciteten har lämnat på efterkälken. Mark Kryder från Carnegie Mellon Universitys Data Storage Systems Center, och numera teknologichef för Seagate Technologies, den ledande hårdskivstillverkaren, myntade, i mitten av 80-talet, Kryder’s Law: mängden data som kan sparas på en hårdskiva, fördubblas varje år. (Walter 2005: 32-33) GB 1000 100 10 1 0,1 0,01 1980 1985 1990 1995 2000 2005 2010 Diagram 2, lagringskapacitetens utveckling för hårdskivor. (Walter 2005: 33)
  • 20. 19 Mätestickan för lagring är dock inte lagringskapacitet utan kostnad per gigabyte. Följande är utvecklingen och prognosen för kostnad per gigabyte för hårdskivor från 1992 till 2010. (Gilheany 2003) Diagram 3, hårdskivans kostnadsutveckling i euro per gigabyte. (Gilheany 2003) Utvecklingen visar en kostnadsminskning på 45 procent per år. Idag är hårdskivan den mest kostnadseffektiva metoden för arkivering av digital information.
  • 21. 20 3.2 Flashbaserade minnen Flashminnen bygger på transistorteknik och följer därför Moore’s Law som säger att transistorernas effektivitet fördubblas vartannat år. Transistorer, eller halvledare som de också kallas, är grundstenen inom modern elektronik och väldigt flexibla. Vanligtvis används transistorer för databeräkning men i och med den snabba utvecklingen används de i allt större grad även för datalagring. Flashminnen består av miljontals transistorer som håller en svag elektrisk laddning beroende på om de representerar en binär etta eller nolla. (Walter 2005: 32-33) Till denna minnestekniks fördelar hör en snabb läs- och skrivhastighet, en låg energikonsumtion och låga produktionskostnader, därför används den för lagring av digital information i vardagselektronik, där dessa egenskaper har stor betydelse, t.ex. mp3-spelare, digitalkameror och USB-stickor. Nackdelarna är den relativt låga lagringskapaciteten, att de påverkas av magnetiska störningar, t.ex. statisk elektricitet och det faktum att den svaga elektriska laddningen i transistorerna långsamt avtar med tiden, man kan räkna med att ett flashminne inte behåller data längre än tio år. Det största problemet med flashminnen är dock att de har ett begränsat antal skriv- och läscykler. Dessa nackdelar har kanske påverkat möjligheten att använda flashminnen för långtidsdatalagring, men de många fördelarna har förstärkt denna teknologis popularitet i vardagligselektroniken, där långtidsdatalagringen inte är av stor betydelse. (Lai 2008)
  • 22. 21 3.2.1 SSD-minne SSD (Solid State Drive) bygger på samma transistorteknik som flashbaserade minnen, men är anpassade för användning i bärbara datorer. Eftersom de inte har några rörliga delar, t.ex. snurrande skivor, läs- och skrivhuvuden, är de mycket robusta och energisnåla, vilket i sin tur betyder bättre stöttålighet och batteritid. (Jääskeläinen 2007: 38) Utåt påminner SSD-minnet om en vanlig hårdskiva, men består egentligen av en mängd mindre flashminnen. Tack vare flashteknikens robusthet har SSD- minnen använts i rymdforskningen, sjöfarten och räddningsverksamhet i åratal, t.ex. svarta lådor i flygplan. Jämfört med hårdskivor tål de även höga temperatur- och tryckskillnader. Vanliga hårdskivor kan inte användas på höjder högre än 3 kilometer eftersom tryckskillnaden ändrar fysiskt hårdskivans karaktär. (Jääskeläinen 2007: 38) Det finns många fördelar med SSD-minnen, de är snabbare, tystare och kan ta mera stryk än hårdskivor, men de har samma problem som flashminnen, nämligen en begränsad livslängd. Beroende på tillverkare utlovas 1-5 miljoner skriv- och läscykler, vilket är betydligt mindre än hårdskivor. SSD-minnen befinner sig dock i en tidig utvecklingsperiod och elektroniken i nyare SSD- minnen styr minnet så att varje transistor är i lika stor användning, detta resulterar i att minnet tärs jämnare. SSD-minnen med mindre lagringskapacitet tärs således också snabbare än de med större kapacitet. (Jääskeläinen 2007: 38) Utvecklingstakten är som sagt fortfarande hög inom flashminnesteknologin och 2008 började man sälja bärbara konsumentdatorer med denna teknik. Det går även att köpa hybridskivor som består till hälften av SSD-minne och andra hälften av en vanlig hårdskiva. SSD-minnen har ungefär samma förutsättningar för långtidslagring av data som magnetisk och optisk media, kostnaden är dock ännu för hög. (Jääskeläinen 2007: 38)
  • 23. 22 3.3 Optisk media Optisk lagring använder sig av laser för att skriva och läsa digital information. På grund av att de flesta optiska media inte kan återanvändas kallas detta format WORM (Write Once, Read Many), det finns dock versioner som kan återanvändas, men livslängden och antal skrivcykler på dessa är långt ifrån optimala. (Jääskeläinen 2007: 38) 3.3.1 CD CD-skivan (Compact Disc) var en av de första optiska lagringsmedia som standardiserades och introducerades i slutet av 80-talet. Dessa tidiga versioner av CD-skivan var inte anpassade för lagring, men tio år senare hade tekniken mognat och priserna sjunkit till den grad att man började använda dem för dagliga lagringsändamål. CD-skivor kommer i ett antal olika format varav CD-r och CD-rw är de vanligaste, det sistnämnda formatet kan återanvändas men har en betydligt kortare livslängd. (Emanuelsson 2006) Tyvärr gjorde man kostnadsinbesparingar genom att använda billiga material- kombinationer som zink, aluminium och plast, istället för den optimala material- kombinationen guld och glas. Tidiga CD-skivor hade, och billiga CD-skivor har än idag, problem med oxidation. Även de tryckta etiketterna på skivorna kan medföra kemiska reaktioner som försämrar eller förstör läsbarheten. CD-skivor av god kvalitet är svåra att hitta och oftast mer än dubbelt så dyra som de billiga. Man kan därför säga att den teoretiskt förväntade livslängden på 20-50 år i verkligheten bara är ungefär 10 år. (Emanuelsson 2006) Med endast 600 megabyte utrymme och en relativt kort fysisk livslängd, i kombination med allt större filstorlekar och mängd digital information som skulle sparas, gav CD:n snabbt vika för DVD:n. (Emanuelsson 2006)
  • 24. 23 3.3.2 DVD DVD, eller Digital Versatile Disc, introducerades i mitten av 90-talet och hann snabbt ikapp CD:ns popularitet. DVD:n bygger på samma teknologi, men dess lagringskapacitet överstiger CD:ns 7 till 14 gånger om. Till skillnad från CD:n använder DVD:n ett flertal lager för att lagra data, detta ger DVD:n en kapacitet på 4,5 och 9 gigabyte, beroende på antal lager. (Emanuelsson 2006) Både CD:n och DVD:n är format som länge föredragits av musik- och filmbranschen. Eftersom både CD:n och DVD:n hade ett stort genomslag på marknaden och de sedan länge är etablerade format, kan man säga att deras tekniska livslängd är god, dvs. stödet för formaten är starkt förankrat. Tyvärr lider de båda formatens fysiska livslängd på grund av billiga produktions- metoder och material. (Emanuelsson 2006) 3.3.3 Blu-ray Disc Blu-ray är den senaste generationen optisk media, och förkortas BD. Precis som CD och DVD finns det flera format av Blu-ray, det vanligaste formaten håller 25 eller 50 gigabyte data. Beroende på antal lager kan en Blu-ray skiva hålla upp till 8 lager data vilket skulle ge möjligheten att lagra upp till 200 gigabyte på en skiva. Vi befinner oss ännu i ett tidigt skede i utvecklingen av denna teknik och kostnaderna är ännu höga, man har dock lärt sig av de tidiga problemen med CD och DVD-formaten. Blu-ray konsortiet, som kom upp med formatet, kräver att tillverkarna av skivorna måste hålla sig till strikta standarder, med godkända material och kemikalier i tillverkningsprocessen, som inte fräter eller oxiderar skivan. (Järvinen 2008: 26) Som man lärt sig av tidigare lanseringar av lagringsmedia som senare misslyckats, är det inte själva tekniken som avgör om det lyckas utan implementeringen kring det nya formatet. Det är ännu för tidigt att säga om Blu- ray formatet har en strålande framtid, eller om det är en teknik som håller mera än den kan lova.
  • 25. 24 3.4 Framtidens media Enligt många är det omöjligt för lagringskapaciteten i magnetisk media att fördubblas varje år, ifall inte nya lagringsmetoder utvecklas. Den teknik som används i dagens lagringsmedia har krympt till den partikelstorlek, att det är svårt att rymma data på det minimala fysiska utrymmet, utan att de olika magnetiska mönstren börjar påverka varandra eller inte går att avläsa. (Bartels 2001) Teorin om holografisk lagring har funnits i decennier men först nu har man börjat inse att utvecklingen måste påskyndas. Holografisk lagring bygger på optisk lagring, men istället för endimensionell media (t.ex. CD- och DVD- skivor) använder man tredimensionell lagring. Utvecklingen är ännu i ett så tidigt stadium att man inte bestämt sig för hurudant format mediat kommer att ha eller vilket material det kommer att bestå av, de tidiga prototyperna av holografisk media har varit i skivformat. Problemet man stött på, är att utveckla ett material som det går att lagra holografisk data på, men som inte sönderfaller i samma takt som andra optiska media. (Ashley 2000: 341)
  • 26. 25 3.5 Digitala lagringskostnader Ur nedanstående diagram, gällande lagringskostnader, kan man se att den magnetiska lagringstekniken är förmånligast per gigabyte, följt av optiska och flashminnestekniken. Magnetbanden är billigast, men hårdvaran som krävs till dessa kan kosta flera tusen euro. De optiska skivorna kräver också skild hårdvara för att läsas och skrivas, men de är betydligt billigare. När det gäller hårdskivor och flashminnen ger diagrammet en exakt kostnad, då dessa kan användas utan någon extra hårdvara. Magnetband Hårdskiva SSD Flash BD-R 2 BD-R DVD-r 2 DVD-R CD-R 0,00 € 0,50 € 1,00 € 1,50 € 2,00 € 2,50 € 3,00 € Diagram 4, lagringskostnader för olika media. (Tudor 2005; Järvinen 2008: 26)
  • 27. 26 4 LÖSNINGAR Val av rätt media och hårdvara är inte den slutgiltiga lösningen för långtidslagring av digital information. Eftersom ingen av de nuvarande lagringsmedia teknikerna kan garantera att de håller data över en längre tid krävs det även bra strategier för långtidslagring. De ord som man stöter mest på när man pratar om datalagringslösningar och strategier är redundans, diversifiering och migrering. Redundans går ut på att ha fler än en kopia på den lagrade informationen, detta benämns ofta också som säkerhetskopior. Säkerheten ökar dock inte ju fler kopior man har, kopiorna måste även vara så diversifierade som möjligt. (Kennedy 2008: 34-35) Diversifiering betyder lagring av viktig data på olika lagringsmedia i olika fysiska utrymmen. Om alla säkerhetskopior är lagrade på samma sorts media och även i samma fysiska utrymme sker en drastisk minskning av säkerheten. Orsaken är att om det uppstår fel i lagringsmedia, ökar risken att felet upprepar sig i de andra medierna av samma typ och om alla säkerhetskopior bevaras i samma utrymmen kan de förstöras i t.ex. en brand eller naturkatastrof. (Kennedy 2008: 34-35) Migrering är en viktig strategi för långtidslagring av digital information och går ut på att överföra data från en, oftast äldre lagringsmedia, till en nyare. Själva proceduren är lätt, eftersom den nya lagringsmedia oftast har större kapacitet och är både billigare och snabbare. Det svåra är att finna rätt tid för migreringen, man kan inte vänta för länge, tills det inte finns något stöd för den äldre lagringsmedia eller den förstörts. Man kan inte heller migrera för ofta, eftersom detta leder till onödiga kostnader. (Tristram 2002: 36-43) Det gäller alltså att hitta rätt balans mellan redundans, diversifiering och migrering samtidigt som man tar kostnad, livslängd, åtkomst och andra riskfaktorer i beaktande. (Kennedy 2008: 34-35)
  • 28. 27 4.1 Lagringsklimat Uppbevaring av digital lagringsmedia kan delas in i två metoder, passiv och aktiv. Den passiva lagringsmetoden påminner mycket om hur analog information uppbevaras; ostört i kalla och mörka klimatkontrollerade utrymmen. Vid aktiv uppbevaring är lagringsmediet i ständig användning och kräver därför extra säkerhetsåtgärder. För passiv uppbevaring gäller det, för såväl analoga som digitala lagringsmedia, att ha ett lämpligt lagringsklimat, så att deras fysiska livslängd skall hållas så lång som möjlig. Dessa utrymmen bör ha en kontrollerad luftfuktighet, under 60%, och en temperatur några grader under vanlig rumstemperatur. Stora temperatur och luftfuktighetsskillnader bör också undvikas. Optisk lagringsmedia skall helst förvaras i något svalare utrymmen medan magnetisk- och flashmedia även bör skyddas mot elektrostatisk och magnetisk påverkan. (Arkivverkets föreskrifter 2007, 15) En fördel med magnetisk lagringsmedia är att de, istället för att vara inlåsta i arkiv, ofta är i flitig användning. En stor del hårdskivorna som används för arkiveringsändamål är kopplade till nätverk, ofta i serverutrymmen. Dessa utrymmen måste därför uppfylla högre krav än de som är anpassade för passiv långtidslagring. Bland annat krävs strömtillförsel som inte fluktuerar eller bryts vid eventuella strömavbrott. Lagringsmedia i aktiv användning kräver också speciella brandsläckningssystem för elektronik, skydd för elektromagnetiska störningar och ett luftkylningssystem så att man undviker överhettning. (Shimonski 2003: 47-48)
  • 29. 28 4.2 Hårdvarulösningar De flesta stora datortillverkare erbjuder lösningar för datalagring och nästan alla är baserade på magnetisk lagringsmedia. Mindre företag och privatpersoner där kostnaden spelar en stor roll och där den lagrade informationen är av mindre betydelse kan använda sig av optiska lagringsmedia. Moderna datalagringslösningar bygger på tre metoder, RAID, Nätverkslagring och Cloud computing. Dessa tre metoder löser problemen med redundans, diversifiering och migrering till olika grad och alla bygger de på nätverks- teknologi. (Bartels 2007) 4.2.1 RAID RAID (Redundant Array of Independent/Inexpensive Disks) var en av de första largringslösningarna som började erbjudas i början av 90-talet. Genom att använda sig av ett flertal koordinerade hårdskivor ger RAID en redundans som en ensam hårdskiva inte kan ge, dessutom ger användningen av RAID-lösningar bättre prestanda, speciellt snabbheten att läsa och skriva data när de används i videoediteringssyfte. Det finns flera olika implementeringar av RAID beroende på om det är effektiviteten eller säkerheten som prioriteras. (Morris & Truskowski 2003: 206)
  • 30. 29 4.2.1.1 RAID 0 RAID 0 är den enklaste lösningen och ger ingen egentlig säkerhetsförbättring, trots att den använder sig av flera hårdskivor, tvärtom ökar säkerhetsrisken. Eftersom moderna hårdskivor har flaskhalsar, i och med begränsade läs- och skrivhastigheter, är de inte ideala för t.ex. editering av stora högupplösta videofiler. Genom att använda ett flertal hårdskivor i RAID 0 konfiguration, fördubblas hastigheten då flera hårdskivor delar på bördan, men eftersom hårdskivorna innehåller gemensam data, går allt förlorat om en av hårdskivorna skulle råka krascha. Ju fler hårdskivor som tillsätts desto bättre prestanda, men även en större risk för krascher och förlorad data. Vid användningen av RAID 0 bör den digitala information som producerats därför genast överföras till en lösning där lagring är prioriterad. (Farley 2002: 159-207) RAID 0 DISK 0 DISK 1 Bild 1, RAID 0 konfigurering.
  • 31. 30 4.2.1.2 RAID 1 RAID 1 innebär en spegling eller kloning av data över två eller fler hårdskivor, det som skrivs på den primära hårdskivan överförs bit för bit till den, eller de, sekundära hårdskivorna. Detta ger en dubbel redundans, men ingen diversifiering. Denna sorts RAID-lösning är bäst då en hårdskiva kraschar eller andra problem uppstår. (Farley 2002, 159-207) Denna RAID-konfiguration används ofta i företag och organisationer där det är viktigt att snabbt komma tillbaka efter en krasch. Beroende på vad som prioriteras kan man säkerhetskopiera hela system inklusive operativsystem och programvara eller endast den viktiga informationen. Den senare versionen tar upp mindre utrymme, men ominstallationen av programvaran är en extra kostnad både i tid och pengar, vilket många helst vill undvika. (Farley 2002: 159-207) RAID 1 DISK 0 DISK 1 Bild 2, RAID 1 konfigurering.
  • 32. 31 4.2.1.3 RAID 5 RAID 5, eller egentlig RAID, använder sig av tre eller flera hårdskivor, men lagringskapaciteten är procentuellt mindre än andra RAID-lösningar. Varje hårdskiva har en ständigt uppdaterad checksumma för innehållet i de andra hårdskivorna och om en hårdskiva skulle råka krascha, kan man genom informationen i de andra checksummorna återskapa den förlorade datan. RAID 5 är den säkraste och mest förekommande lösningen för datalagring och erbjuds i ett flertal former från datortillverkare. (Farley 2002: 159-207) RAID 5 DISK 0 DISK 1 DISK 2 DISK 3 Bild 3, RAID 5 konfigurering. Nackdelen med denna lösning är att den är långsam, svår att implementera och oftast inte tillräckligt fysiskt diversifierad. RAID 5 löser problemet med redundans och migrering men bara delvis diversifieringen. RAID-lösningar bevaras ofta i samma fysiska utrymmen, bränder, magnetiska och elektriska störningar och liknande fall påverkar på så vis hela populationen av lagringsmedia och inte enskilda media. (Farley 2002: 159-207)
  • 33. 32 4.2.2 Nätverkslagring Användning av nätverk för lagringsändamål har länge varit aktuellt, men inte alltid praktiskt. I och med bättre ethernet tekniker, såsom gigabit ethernet, är nätverkslagringslösningar nu mycket populära. Det är inte längre stora företag som använder sig av filservrar för åtkomsten av information, denna teknik har även börjat uppenbara sig i våra hem tack vare en stor ökning av digital multimedia. Det räcker inte längre att bara ha en hylla för DVD-filmer, nuförtiden förses nästan all hemelektronik med nätverksportar för uppkoppling mot resten av hemelektroniken, inklusive lagringsmedia. Vi vill ha informationen snabbare, enklare och överallt. Det finns tre olika nätverks- lagringslösningar som används idag och de kan i sin tur ha olika RAID- konfigurationer, oberoende av åtkomstsätt. (Alabi 2004)
  • 34. 33 4.2.2.1 DAS DAS (Direct Attached Storage) är den enklaste lösningen och går ut på att lagringsmedia kopplas upp mot en server eller dator i ett nätverk. Lagringsmedia är inte direkt uppkopplad till nätverket och kan inte nås om servern eller datorn är urkopplad. För att komma åt den lagrade informationen måste klienten ha behörighet till servern eller datorn, som i sin tur överför data från lagringsmediet genom en ethernet anslutning. Servern eller datorn använder eget operativ- system för att konfigurera den externa lagringsmedia. (Alabi 2004) DAS Bild 4, DAS arkitektur. Denna lösning passar för hemmanätverk och mindre företag med få servrar. DAS är svår att skala uppåt och om man räknar med att utöka antalet servrar bör man satsa på NAS eller SAN-lösningar. (Alabi 2004)
  • 35. 34 4.2.2.2 NAS Ethernet NAS (Network Attached Storage) kan vara allt ifrån en hårdskiva, en grupp hårdskivor eller en filserver, med eller utan RAID-konfiguration som kopplats upp mot ett nätverk. Till skillnad från en DAS är lagringsmedia direkt uppkopplat mot nätverket och fungerar som en dedikerad filserver, med ett eget IP-nummer, enligt klient-server modellen. Det är sedan möjligt för personer med åtkomst till nätverket att använda den för datalagring. (Alabi 2004) Ethernet NAS kan ha flera konfigurationer, den används ofta som ett område för säkerhetskopierade filer, medan originalen finns på den lokala hårdskivan. På läroanstalter används denna lösning ofta som lagringsutrymme för studerande. Eftersom ethernet NAS har sitt eget multiplattform operativsystem, är det möjligt för datorer med olika filsystem, t.ex. Windows, Mac och Unix, att använda sig av denna lösning samtidigt. (Alabi 2004) NAS Bild 5, NAS arkitektur.
  • 36. 35 4.2.2.3 SAN SAN (Storage Area Network) är steget upp från en NAS och består av flera ihopkopplade datalagringsenheter över ett eget nätverk, ofta ljusfiber- kabelnätverk. Denna lösning kan hantera stora datamängder som används av bl.a. internet operatörer, mediebolag och superdatorer på forskningsanstalter med stora lagrings- och distributionsbehov. (Alabi 2004) Genom att använda sig av egna nätverk belastar inte SAN-lösningen existerande nätverk. SAN-lösningar används ofta som lastbalanserare i stamnät för att jämna ut trafiken till populära eller överbelastade servrar. Till skillnad från DAS och NAS fungerar SAN inte på filsystemsnivå, utan överför alltid stora block av data, istället för enskilda filer. (Alabi 2004) ASIEN USA SAN EUROPA Bild 6, SAN arkitektur.
  • 37. 36 4.2.3 Cloud computing Trenden bland såväl företag som privatpersoner är att köpa nättjänster, istället för att själva sköta driften av dyra servrar och krångliga applikationer. Nättjänster är ofta mera kostnadseffektiva och låter företagen rikta in sig på sin kärnverksamhet, istället för underhåll av sina egna IT-system. Dessutom erbjuder de säkerhet genom redundans, diversifiering och migrering. (Danielsson 2008) Enligt en undersökning gjord av InformationWeek är lagring, arkivering och säkerhetskopiering den tjänst som företag är mest intresserade av att utlokalisera till utomstående nätföretag. (George 2007: 40) Lagring och arkivering 3,3 Kontorsapplikationer 3,2 Servrar 3,0 Databeräkning 2,9 Server utrymmen 2,8 Databaser 2,7 Säkerhet och administration 2,6 0 1 2 3 4 Diagram 5, intresse för utlokalisering av tjänster på nätet, på skalan 0 till 5 (George 2007: 40)
  • 38. 37 Cloud computing beskriver användningen av internet för de saker som tidigare krävde installerad programvara på en lokal dator, server eller nätverk. Internet, som i diagram ofta illustreras som ett moln, har flyttat fokusen från traditionella mjuk- och hårdvaruprodukter till nätbaserade tjänster. Denna, relativt snabba anpassning till nättjänster, har skapat många nya företag samtidigt som de traditionella IT-företagen har haft stora anpassningsproblem. (Danielsson 2008) Bland de första tjänster som flyttade ut på nätet var e-post och idag sker majoriteten av e-post-trafiken via webbmail. Fördelen med webbmail är att användaren har tillgång till sin e-post var än han eller hon befinner sig och dessutom behöver man inte bekymra sig om säkerhetskopiering eftersom de flesta nättjänster sköter säkerhetskopieringen för en. Nackdelen är tillgången till tjänsten om denna ligger nere en längre tid, nättjänsteföretaget går under eller om användaren saknar internetanslutning. Detta kan dock undvikas genom att synkronisera innehållet på nätet med den lokala datorn. (Danielsson 2008) Det är inte bara e-post som flyttat ut på nätet, vanliga redskapsprogram och andra icke processorintensiva program används i allt större utsträckning på nätet. Affärsmodellen för dessa tjänster går vanligen ut på reklamfinansiering eller abonnemang. Den information som produceras, vare sig det är e-post, textdokument eller kalkylblad, sparas även de på nätet. Nätföretaget Google, som är ledande inom cloud computing, erbjuder upp till 7 gigabyte lagringsutrymme för sina fria nättjänster, utrymmet går dock att utökas mot betalning. För företag och privatpersoner är detta dock inte tillräckligt, eftersom de ofta har mycket större behov. (George 2007: 40)
  • 39. 38 5 IMPLEMENTERING AV S3 OCH JUNGLE DISK Nätföretaget Amazons S3-tjänst (Simple Storage System), är ett populärt multiplattformsystem för säkerhetskopiering och arkivering. Denna nättjänst introducerades i USA i början av 2006 och i Europa i slutet av 2007. Företaget har lång erfarenhet och en bra utbyggd infrastruktur för digital arkivering. (Chaganti 2008) Jämfört med andra stora konkurrenter som erbjuder datalagring på webben är Amazons priser bara en bråkdel och baserar sig på den mängd data som laddas upp, sparas och laddas ner. Den initiella kostnaden är hög eftersom det oftast är en stor mängd data som överförs, men när allt väl är säkerhetskopierat är det endast filer, där ändringar ägt rum, som uppdateras på S3. (Chaganti 2008) Redundans uppkommer genom en RAID 5 konfigurering på Amazons servrar. Problemet med diversifiering löses genom att distribuera den lagrade datan mellan s.k. serverfarmer runtom i världen via en SAN och migrering underlättas av att man använder standardiserade internetprotokoll. (Chaganti 2008) Amazon S3 erbjuder endast lagringtjänster, hur man väljer att kommunicera med tjänsten är upp till användaren själv. Genom att erbjuda programutvecklare en API (Application Programming Interface) har Amazon gett tredje parter möjlighet att utveckla och erbjuda klientprogram som sköter kommunikationen mellan användaren och tjänsten. Det finns flera olika sorters program, användargränssnitt och protokoll att välja emellan, beroende på användarens behov. Man har utvecklat allt från webbapplikationer och FTP-lösningar (File Transfer Protocol) till säkerhetskopierings- och synkroniseringsprogram för kommunikation med tjänsten. (Chaganti 2008)
  • 40. 39 Eftersom Amazon S3 är en internetbaserad lagringstjänst är det även möjligt att direktlänka till filer. Själva webbutiken Amazon.com och andra populära sidor använder S3-tjänsten när de serverar informationen till sina besökare. Genom att använda S3 som en CDN (Content Delivery Network) underlättas nerladdningen av bland annat bilder, som vanligtvis kräver stor bandbredd. Genom att sprida ut bilderna på S3 servrar runtom i världen laddas de ner från den närmast belägna serverfarmen. (Chaganti 2008) Jag har i denna del av lärdomsprovet implementerat en Amazon S3-lösning med det kommersiella programmet Jungle Disk som erbjuder mångfaldiga funktioner till Amazons S3-tjänst.
  • 41. 40 5.1 S3-tjänsten S3 är en av flera tjänster som erbjuds av Amazon Web Services (AWS). Registreringen är enkel och sker på internetadressen http://aws.amazon.com/s3/. Alla transaktioner är SSL krypterade med 128-bitar och certifierade av Verisign. Denna procedur utförs endast då ett nytt konto skall registreras, konfigureringen av S3-tjänsten utförs på klientsidan. Bild 7, registrering vid Amazons S3-tjänst.
  • 42. 41 Betalning sker via kreditkort, direktdebitering från bankkonto eller via Amazons eget betalsystem. Prissättningen varierar beroende på var man vill att den fysiska lagringen skall ske men transaktionerna beräknas alltid i amerikanska dollar. Kostnaden för tjänsten är något lägre i USA på grund av bättre utbyggd infrastruktur och mera konkurrens. Det är dock möjligt för europeiska användare att lagra data på de billigare amerikanska servrarna, men på grund av de långa avstånden kommer tjänsten då att vara långsammare. Bild 8, debitering i S3-tjänsten.
  • 43. 42 Debiteringen sker månadsvis och baserar sig på flera faktorer. Priset beräknas huvudsakligen på mängden gigabyte data som lagras på kontot. Detta pris varierar beroende på den totala mängd data som lagras. Den lägsta nivån man kan få mängdrabatt på är 50 terabyte, vilket i praktiken betyder att endast företag omfattas av rabatten. Lagring USA Europa < 50 TB 0,15 0,18 50 - 400 TB 0,14 0,17 400 – 500 TB 0,13 0,16 > 500TB 0,12 0,15 Tabell 1, månadskostnad i dollar för lagring per gigabyte. Den andra faktorn som påverkar priset är transportkostnaden. Detta är en engångskostnad och beräknas per gigabyte som laddas upp till tjänsten. Beroende på hur ofta säkerhetskopieringar eller uppdateringar görs kan denna kostnad variera stort. Uppladdning USA Europa 0,10 0,10 Tabell 2, uppladdningskostnad i dollar per gigabyte.
  • 44. 43 Nerladdningskostnaden är något högre än uppladdningskostnaden eftersom det då är Amazons servrar som sköter transporten. Det är även möjligt att få mängdrabatt på nerladdnings-kostnaderna, detta baseras då på mängden terabyte per månad som laddas ner. De stora datamängderna det är frågan om betyder att det igen främst är företag som omfattas av rabatterna. Nerladdning USA Europa < 10 TB 0,17 0,17 10 – 50 TB 0,13 0,13 50 – 150 TB 0,11 0,11 > 150 TB 0,10 0,10 Tabell 3, nerladdningskostnad i dollar per gigabyte. Om S3-tjänsten används för lagring för webbinnehåll, t.ex. multimedia, som tillgås direkt från Amazons servrar, kan nerladdningsmängden bli mycket stor. Flera largringskrävande webbsidor använder sig av S3-tjänsten, bland annat använder många webbalbum tjänsten för att servera digital fotografier. Om S3-tjänsten används för servering av webbinnehåll tillkommer en liten extrakostnad som baserar sig på antalet kommandon som skickas till Amazons servrar. Om en besökare till ett webbalbum efterfrågar ett fotografi, skickas ett GET kommando till S3-tjänsten. Denna lilla extrakostnad beräknas per 10 000 efterfrågningar. Kommandon USA Europa 1.000 CUT, COPY, POST och LIST kommandon 0,01 0,01 10.000 GET och övriga kommandon 0,01 0,01 DELETE kommandot 0,00 0,00 Tabell 4, kostnad i dollar för utförande av kommandon.
  • 45. 44 När man registrerat ett konto på S3-tjänsten får man ett användarnamn och lösenord, men på grund av säkerhetsrestriktioner får man inte själv välja dessa. Access Key ID fungerar som användarnamn och Secret Access Key som lösenord. Det är dock möjligt att ha flera lösenord till ett konto om man har flera användare. Bild 9, användarnamn och lösenord.
  • 46. 45 5.2 Jungle Disk Nästa steg är att installera ett program som skall sköta kommunikationen mellan den lokala datorn och S3 tjänsten. Det längst utvecklade programmet för detta ändamål är Jungle Disk som kan laddas ner från http://www.jungledisk.com/. Bild 10, installation av Jungle Disk. Jungle Disk är ett kommersiellt program med en engångskostnad på 20 amerikanska dollar, men finns även tillgänglig som en demoversion som är aktiv i 30 dagar. Programmet är multiplattform vilket betyder att den kan köras på Microsoft Windows, Apple OS X och Unix/Linux operativsystem. Jungle Disk är inte bundet till antalet användare, endast till ett specifikt konto på Amazon S3. Detta betyder att det kan köras av flera användare samtidigt, så länge de är uppkopplade till samma Amazon S3 konto.
  • 47. 46 Alternativa program är Bucket Explorer som kostar 50 dollar eller S3Drive som har öppen källkod och är gratis. Eftersom S3 tjänsten är så flexibel finns det även program som ger tillgång till S3 kontot som kan köras via kommandolinjen i DOS och Linux. Det finns även FTP-program, plug-ins för webbläsare och java-klienter på webbsidor som kan ge tillgång till S3 kontot. Det finns tre versioner av Jungle Disk. Desktop versionen är till för privatanvändare, workgroup versionen riktar in sig på företag och home server versionen säkerhetskopierar informationen på en hemserver eller NAS. Detta arbete gjordes i hemmiljö och således valdes desktop versionen. Bild 11, användarnamn och lösenord. För att få tillgång till lagringsutrymmet på Amazons servrar fyller man i Access Key ID och Secret Access Key som man fick när man registrerade sig vid tjänsten.
  • 48. 47 Konfigureringsmenyn ger tre alternativ till hur Jungle Disk kan användas. Man kan bestämma vilka mappar som automatiskt skall säkerhetskopieras till S3, detta alternativ väljs om man inte manuellt vill flytta över filer. Eftersom säkerhetskopieringen sker automatiskt kan det vara svårt att hålla uppsyn över vilka filer och hur mycket information laddas upp till S3. Man kan dock bestämma om hur ofta och om det bara är ändrade filer som skall laddas upp. Bild 12, konfigurering av Jungle Disk. Det andra alternativet är att använda S3 som ett virtuellt nätverksområde. I denna konfiguration syns S3 som ett eget område, med mappar och filer, i den lokala filhanteraren. Det går även att använda en kombination av båda. I detta arbete används alternativ två där S3 agerar som ett eget nätverksområde.
  • 49. 48 Eftersom S3 fungerar globalt måste man bestämma var geografiskt det är bäst att lagra informationen. I detta arbete, där S3 simuleras som ett lokalt nätverksområde, prioriteras snabbheten, därför väljs Amazons europeiska serverfarmer, trots något högre lagrings- och transportkostnader. Bild 13, geografiska lagringsplatser.
  • 50. 49 Nästa steg i processen är att namnge det simulerade lokala området som kommer att synas i filhanteraren, i detta arbete namnges området Jungle Disk. Amazon S3 erbjuder ingen kryptering så eventuell känslig information måste krypteras före den laddas upp. Jungle Disk ger användaren två alternativ när det kommer till kryptering. Antingen är det endast uppladdningen som är krypterad eller så krypteras både uppladdningen och all den information som lagras på tjänsten. Jungle Disk använder sig av en 256-bits AES krypteringsalgoritm och ingen annan än användaren har åtkomst till den krypterade informationen, inte ens Amazon. Bild 14, kryptering. Den konfiguration som används i detta arbete är till för hemanvändare så snabbheten prioriteras högre än säkerheten, därför väljs standard alternativet där endast uppladdningen är krypterad.
  • 51. 50 Nu är Jungle Disk färdigt konfigurerad. Om man vill ändra t.ex. namn på området, antalet områden eller kryptering kan man göra det i efterhand i applikationsfönstret. Bild 15, konfigurationen färdigställd. Jungle Disk fungerar i bakgrunden och kräver endast lite processorkraft. Programmet startar upp automatiskt och påminner användaren om sin närvaro genom en liten ikon i aktivitetsfältet.
  • 52. 51 När Jungle Disk är rätt installerat syns lagringsutrymmet S3 som ett eget område i filhanteraren. Härefter kan man manuellt flytta över viktiga dokument till och från det nya området. Bild 16, Jungle Disk i filhanteraren. Amazon S3 har ett eget filsystem där data lagras i så kallade keys och buckets. En key kan jämföras med en fil och en bucket motsvarar en katalog. På grund av filsystemet som tjänsten använder finns det inte något hierarkiskt katalogdjup, men Jungle Disk kan simulera detta med ett virtuellt filsystem. Detta syns i filhanteraren när installationen är slutförd. Amazon S3 har inte heller stöd för namnbyten efter att filer laddats upp på tjänsten. Namnbyten måste ske på det lokala området och därefter laddas upp på nytt till lagringstjänsten.
  • 53. 52 6 AVSLUTNING Under de senaste 50 åren som man skapat digital information har vi haft dålig erfarenhet med långtidslagringen. Först nu i och med IT-revolutionen och informationssamhällets framfart, ser vi försök att lösa detta problem som påverkar allt från det nationella kulturarvet till det globaliserade arbetssamhället. Internets framgång har öppnat många nya portar, men har också skapat många hinder. Framgången har till stor del berott på dess globala och öppna standarder, något som hittills saknat motpart i den icke uppkopplade delen av informationssamhället. Digitaliseringen har också påverkat vårt synsätt på hur den digitala informationen skall lagras och de problem som uppstår i processen. Beslut som berör långtidslagringen av digital information skall uppfylla tre kriterier: tekniken, strategin och kostnaden. Tekniken och strategierna finns, men som vi har sett är det ofta bristen på kunskap och vilja och således finansiering som leder till försvinnandet av värdefull digital information eller dess kostsamma återvinnande. Från mjukvarutillverkarnas sida har vi sett en ökad, men motvillig förståelse för öppna standarder vilket är hoppingivande, trots att det ofta krävs politisk påtryckning. Det verkar som om tillverkarna kommit över det gamla synsättet med att binda sina kunder till lösningar som endast gynnar dem och inte slutanvändaren, oavsett om det är nu eller om hundra år. Fördelarna med digitaliseringen är en överväldigande och snabb tillgång till digital information, vilket passar vårt nya informationsdrivna samhälle. Den digitala informationen kräver dock ett synsätt med långtidsperspektiv och ständig uppmärksamhet. De dyra och invecklade strategierna med långtidslagringen har visat sig kräva politiska beslut, men allt fler privatpersoner ser nödvändigheten med dessa när den digitala informationen börjat påverka deras egna liv. Detta är uppenbart från de hårdvarulösningar och nättjänster som skapats under de senaste åren i hopp om att erbjuda svaret på frågan hur dagens digitala information skall framtidssäkras för kommande generationer.
  • 54. 53 KÄLLFÖRTECKNING Tryckta verk och artiklar: Anderson Ian G. & Tedd, Lucy A. 2005. Digital histories. s. 299 (http://site.ebrary.com/lib/vamklibrary/Doc?id=10103484&ppg=2) Arkivverkets föreskrifter och anvisningar angående arkivutrymmen 2007. s. 15 (www.narc.fi/Arkistolaitos/a/tiedostot/PDF/arkistotilamaarays_se.pdf) Arkivverkets Årsberättelse 2007. s. 8-9, 17-18 (www.narc.fi/Arkistolaitos/a/tiedostot/PDF/vk2007.pdf) Ashley, J. m.fl. Holographic data storage. IBM Journal of Research and Development 3/2000. s. 341 (www.research.ibm.com/journal/rd/443/ashley.pdf) Brodkin, John 2008. IBM, Sun each claim 'first' 1TB tape drive. Network World. Vol. 25, nr. 28 s. 22 http://proquest.umi.com/pqdweb?did=1522796871&sid=1&Fmt=6&clientId=46 965&RQT=309&VName=PQD Farley, Marc 2002. Building Storage Networks. s. 159-207 (http://site.ebrary.com/lib/vamklibrary/Doc?id=5008161&f00) George, Randy. Cloud Storage’s Top Uses. Information Week 8/2007 s. 40 (proquest.umi.com/pqdweb?did=1585424621&sid=4&Fmt=6&clientId=46965 &RQT=309&VName=PQD) Järvinen, Petteri. Blu-ray, viimeinen elokuvalevy. Tietokone 11/2008. s.26 Jääskeläinen, Ossi. Tallennustekniikan vallankumous. MikroPC 6/2007 s. 38
  • 55. 54 Kennedy, Dennis. Master Your Disasters. ABA Journal 9/2008 s. 34-35 (proquest.umi.com/pqdweb?did=1557161061&sid=2&Fmt=3&clientId=46965 &RQT=309&VName=PQD&cfc=1) Kosek, Jirka 2008. From the Office Document Format Battlefield. IT Professional Magazine 3/2008 s. 51-55 (proquest.umi.com/pqdweb?did=1501873941&sid=2&Fmt=6&clientId=46965 &RQT=309&VName=PQD) Lai S.K. Flash memories: Successes and challenges. IBM Journal of Research and Development 5/2008 (www.research.ibm.com/journal/rd/524/lai.pdf) Morris R. & Truskowski B. The evolution of storage systems. IBM Systems Journal 2/2003 s. 206 (www.research.ibm.com/journal/sj/422/morris.pdf) Ross, Seamus & Gow, Ann 1999. Electronic Libraries (eLib) Programme on the Preservation of Electronic Materials s. 1-9 (www.ukoln.ac.uk/services/elib/papers/supporting/pdf/p2.pdf) Shimonski, Robert 2003. Windows 2000 & Windows Server 2003 Clustering and Load Balancing s. 47-48 (http://site.ebrary.com/lib/vamklibrary/Doc?id=10045497&f00) Smith, Bernard. Preserving Tomorrow’s Memory: Preserving Digital Content for Future Generations. International Preservation News 5/2003 s. 4-10 (www.ifla.org/VI/4/news/ipnn29.pdf) Tristram, Claire. Data Extinction. Technology Review 8/2002 s. 36-43 (proquest.umi.com/pqdweb?did=195539721&sid=2&Fmt=6&clientId=46965& RQT=309&VName=PQD)
  • 56. 55 Walter, Chip. Kryder´s Law. Scientific American 8/2005 s. 32-33 (www.chipwalter.com/articles/profiles/kryder.pdf) Internetkällor: Alabi, Duran 2004. NAS, DAS or SAN? – Choosing the Right Storage Technology for Your Organization (www.storagesearch.com/xtore-art1.html) Arkivverket pressmeddelande 8/2008. Järnvägsverket först med elektronisk arkivering. (www.narc.fi/Arkistolaitos/sve/aktuellt/meddelande/meddelande_120808.html) Bartels, Anna 2007. Datalagring, affärssystem, hållbarhet – långsiktigt digitalt bevarande. (www.ida.liu.se/~HIIC70/exam/Framl0712/07BartelsManus.pdf) Chaganti, Prabhakar 2008. Cloud Computing with Amazon Web Services (www.ibm.com/developerworks/architecture/library/ar- cloudaws1/index.html?S_TACT=105AGX20&S_CMP=EDU Claesson, Henrik & Larsson, Karin 2001. Arkivering av digital information. (https://gupea.ub.gu.se/dspace/bitstream/2077/1384/1/Henrik_Claesson- Karin_La..pdf) Danielsson, Lars 2008. Molnet som skuggar allt. (www.idg.se/2.1085/1.184163/molnet-som-skuggar-allt) Emanuelsson, Charlotte 2006. Digitalisering av kulturarvet – En studie av digitalisering vid två museer. (bada.hb.se/bitstream/2320/1480/1/06-65.pdf) Gilheany, Steve 2003. Projecting the Cost of Magnetic Disk Storage Over the Next 10 Years (www.archivebuilders.com/whitepapers/22011p.pdf)
  • 57. 56 Herwig, Malte 2007. Putting the World’s Books On The Web. (www.spiegel.de/international/business/0,1518,473529,00.html) Miyashita, Makiko 2003. The Impact of the Internet on Globalization. (courses.washington.edu/com538/2003/student_presentations/MakikoMiyashita. ppt) Pinheiro, Eduardo & Weber, Wolf-Dietrich & Barroso, Luiz André 2007. Failure Trends in a Large Disk Drive Population. (research.google.com/archive/disk_failures.pdf) Sorrel, Charlie 2008. 5 Obsolete Storage Formats. (blog.wired.com/gadgets/2008/06/five-obsolete-s.html) Stander A. & van der Merwe N. 2002. Long Term Data Storage: Are We Getting Closer to a Solution? (www.codata.org/codata02/09info/Stander- slides/Stander-paper.pdf) Stepanek, Marcia 1998. Data Storage: From Digits to Dust. (www.businessweek.com/archives/1998/b3574124.arc.htm) Tudor, Marius 2005. Are flash solid state driver ready for the enterprise? (www.embeddedstar.com/articles/2005/2/article20050207-1.html)