1. Toegang
tot
Nederlandse
Oral
History
collec3es:
van
technologische
pilots
naar
bruikbaar
modellen
2.
3. Twee
perspec3even
1. Beheer
en
onderzoek
mbt
gesproken
woord
collec3es
2. Technische
aspecten
van
toegankelijk
maken
van
gesproken
woord
collec3es
4. 1998-‐2012
Onderzoek
bij
Universiteit
Twente
Ervaringen
van
content-‐beheerders
en
marktpar3jen
2.
TOEGANKELIJK
MAKEN
VAN
GESPROKEN
WOORD
WF
Hermans
13. Beheer
• OH
heel
divers
beheerd
-‐
nauwelijks
tot
zeer
adequaat
• toegang
tot
collec3es
is
over
het
algemeen
beperkt
• voorlopers
maken
gebruik
van
diverse
professionele
infrastructuren
• mogelijkheden
van
moderne
technologie
worden
wel
gezien
maar
het
ontbreekt
aan
kennis
en
middelen
om
zelf
fundamentele
stappen
te
ondernemen.
14. Onderzoek
• hergebruik
en
toegang
stuit
op
barrières:
– conservering
bronnen
– ontslui3ng
bronnen
– privacy
issues
– mentaliteitsverandering
– samenwerking
met
ICT
15. Van
technologische
pilots
naar
bruikbare
modellen
VERTELD
VERLEDEN
2010-‐2012
Digitalisering
met
Beleid
16. LATEN
ZIEN
WAT
ER
KAN
DISCUSSIE
OVER
WAT
ER
NODIG
IS
PRAKTISCHE
AANZET
17. Kennisoverdracht
• best-‐prac3ces
• stap-‐voor-‐stap
plannen
• diverse
onderwerpen:
– digitalisering
– formaatconversie,
stroomlijnen
standaarden
– online
raadplegen
en
zoeken
– toevoegen
van
(automa3sche)
metadata
– koppelen
van
collec3es
aan
andere
bronnen
– waarborgen
privacy
en
copyright
– privacy
en
IPR
• dienstenmodel
18. Discussie
• wat
zijn
de
wensen
en
eisen
van
beheerders
en
onderzoekers
nu
precies?
• welke
barrières
staan
het
gebruik
van
technologie
in
de
weg
• hoe
kan
technologie
ingezet
worden
om
specifieke
onderzoeksvragen
te
helpen
beantwoorden?
• hoe
moet
de
gebruikersinterface
eruit
zien?
• hoe
moet
worden
omgegaan
met
de
tekortkomingen
van
automa3sche
annota3es?
19. Prak3sche
aanzet
• koppelen
van
gebruikerseisen
aan
technische
mogelijkheden
en
infrastructuur
met
een
collec3e-‐portal
als
proof-‐of-‐concept:
– “yes
we
can”!
• aanzet
tot
uitgebreide
ontslui3ng
van
en
toegang
tot
Nederlandse
Oral
History
collec3es
• toekomst
(Verteld
Verleden
2.0):
‘completeren’
materiaal,
tools
voor
onderzoekers
(workspace),
automa3sch
koppelen
aan
relevante
bronnen
21. Gebruikers
• Requirements
voor
de
collec3e-‐portal
op
basis
van
– bestaande
applica3es
– gesprekken
met
collec3ebeheerders
– discussies
met
onderzoekers
• Inventarisa3e
van
Oral
History
collec3es
• Aanslui3ng
bij
bestaande
netwerken/
projecten
• CLARIN,
CATCH,
FP7-‐AXES,
AV
Collec3e
NL
22.
23. Infrastructuur
Uitgangspunten:
• Gedistribueerde
aanpak:
– laat
de
data
en
kennis
bij
de
collec3ebeheerders
maar
zorg
voor
een
infrastructuur
die
het
mogelijk
maakt
om
samen
te
werken
• Service
oriented
– maak
technologie
beschikbaar
binnen
de
infrastructuur
–
in
huis
halen
technologie
niet
nodig
• Minimale
requirements:
– digitale
collec3es
– metadata
harvestable
via
OAI-‐PMH
25. gedistribueerde
aanpak
gezamenlijke
toegang
metadata
repositories
portal
search
harves3ng
protocol
(OAI-‐PMH)
harves3ng
indexering
&
merging
collec3es
Verteld
repository
zoekfunc3onaliteit
Verleden
via
portal
of
eigen
website
harvester
spraakher
streaming
kenning
server
metadata
metadata
metadata
(catch+)
digital/
brondata
Infrastructuur
trans
‘het
veld’
26. Dienstenstructuur
• uitwerking
van
prak3sche
scenario’s
voor
collec3ebeheerders
om
zelf
aan
de
slag
te
gaan
mbt:
– opslag
– digitalisering
– metadatering
– beschikbaarstelling
– zoeken
– etc.
27. Dissemina3e
• Resultaten
breed
uitdragen
aan
de
hand
van
diverse
dissemina3eac3viteiten
• Bezoeken
collec3ebeheerders
– GAVA,
Zeeuws
Archief,
Gemeentearchief
Leiden,
Gemeentearchief
Romerdam,
• Seminars:
DISH,
VVG,
Alema,
Huizinga
Inst.
• Workshops
over
oral
history:
Alema
• Conferen3es:
– Digital
Humani3es
(Stanford),
Suppor3ng
Digital
Humani3es
(Kopenhagen),
Conference
INNL
–
innova3on
and
history
(Amsterdam)
32. Resultaten
• verzameling
informa3e
met
betrekking
tot
(toegankelijk
maken)
OH
collec3es
(portal)
– redelijk
gevuld
met
prak3sche
scenario’s
en
inhoudelijke
informa3e.
Ruimte
om
verder
uit
te
werken
– handzame
bundeling
informa3e
voor
beheerders
en
onderzoekers
wordt
nog
aan
gewerkt
• gebruikersonderzoek
met
OH
onderzoekers
(wetenschappelijke
publica3es)
– nunge
stappen
gezet.
Belangrijk
om
echte
prak3jktesten
te
doen
met
onderzoekers.
33. Resultaten
• gedistribueerde
aanpak
– basisidee
werkt
maar
uitvoering
in
prak3jk
weerbars3g
(later
meer)
• 1ste
aanzet
Oral
History
Portal:
– beperkt
aantal
collec3es
(minder
dan
gehoopt)
– nog
niet
‘state-‐of-‐the-‐art’
(later
meer)
34. lessons
learned
• gedistribueerde
aanpak:
– metadata
formaat:
• metadata
voor
Oral
History
niet
al3jd
goed
te
mappen
naar
DC.
Tijd-‐gecodeerde
metadata
(bv
aooms3g
uit
spraakherkenning)
• Eigen
OH
formaat?
Gekozen
voor
DC
waarbinnen
verwezen
kan
worden
naar
andere
dragers.
Op
VV
omzenng
naar
mpeg-‐7.
– harvesten:
sets
noodzakelijk
• bv
niet
alles
van
DANS
harvesten
– streaming
• verschillende
streaming
protocollen
• link
extrac3e
voor
elke
collec3e
anders
(PID,
landingspagina)
• login
model
(niet
open
beschikbaar
vanwege
controlle)
35. lessons
learned
(cont.)
• embedding:
– wel:
op
eigen
website
doorzoekbaar
maken
eigen
collec3e,
niet:
vrij
fragmenten
embedden
– alleen
geauthoriseerde
embedding
(losse
regelingen
per
instelling,
nog
niet
geimplementeerd).
• collec3es:
– in
het
archief
hebben
is
wat
anders
dan
uit
het
archief
krijgen
– gedigitaliseerd
≠
beschikbaar
• ontbreken
koppeling
bron
–
metadata
• niet
ook
streaming
beschikbaar
of
verkeerd
formaat
– metadata
issues:
• metadata
niet
digitaal
of
in
onhandig
formaat
(ms-‐word,
excel)
• metadata
in
eigen
schema
(vereist
mapping
en
technische
kennis)
36. lessons
learned
(cont.)
• state-‐of-‐the-‐art:
– inzet
beschikbare
tools
in
prak3jk
weerbars3g.
Techniek
is
er
maar
kleine
stukjes
ontbreken.
Aansluitpuntjes
waar
mensen
over
struikelen
– voorbeeld
spraakherkenningsketen:
• digitalisering,
‘in
het
systeem
zemen’,
transport,
resultaat
in
het
systeem
zemen,
harvestable
maken,
doorzoekbaar
maken,
representeren
in
interface
– persistent
iden3fiers
laten
vallen
als
eis
– fragment
en
facet
search
beschikbaar
maar
sterk
aqankelijk
van
beschikbare
metadata
granulariteit
– niet
toegekomen
aan
innova3eve
interfaces
toegespitst
op
wensen
onderzoekers
37. conclusies
• focus
op
infrastructuur,
gedistribueerde
aanpak,
en
kennisoverdracht
heer
nunge
resultaten
opgeleverd
– meer
kennis/ervaring
toegang
tot
gesproken
woord
collec3es
– basis
om
verder
op
door
te
gaan:
meer
collec3es,
uitbouw
informa3e
• gebruik
door
onderzoekers/publiek
is
onderbelicht
gebleven