SlideShare une entreprise Scribd logo
1  sur  33
Télécharger pour lire hors ligne
GiVE metadata
Stand van zaken - collegagroep - 16 maart 2023
GiVE metadata - Context
● Grote hoeveelheden digitaal materiaal gearchiveerd
○ digitaliseringsprojecten afgelopen jaren
○ digitaal geboren content
● Manuele metadering is duur en tijdrovend
● Tegelijkertijd: tooling op basis van AI wordt matuur
Relance middelen - GiVE metadata
● Wat willen we doen?
○ Spraakherkenning op Nederlandse spraak (audio/video)
○ Entiteit herkenning op tekst (Personen, locaties)
○ Gezichtsdetectie op video ; gezichtsherkenning op een beperkte set
personen
● Op welke collecties?
○ Alle reeds gearchiveerde AV-collecties (behalve die van omroepen)
Schaal
● 120 contentpartners betrokken
● Per activiteit
○ Spraakherkenning en Entiteit Herkenning :
130.000 gearchiveerde stuks of 160.000 uur
media
○ Gezichtsdetectie en -herkenning :
100.000 gearchiveerde stuks of 120.000 uur
media
Verdere projectgegevens
● Timing: najaar 2021 tot eind 2023
● Workflows die later ook herbruikbaar zijn
● Privacy en ethische aspecten
● Mature technologie, beperkte onderzoekscomponent
○ We werken verder o.b.v. resultaten FAME en eerder onderzoek in de
media en CE sectoren.
○ Nauw contact met organisaties (bv. VRT, Beeld en Geluid, BBC, .. ) die hier
ervaring mee hebben.
Veel partners
● We werken met materiaal van
heel veel partners
● Vaak ook nieuwe uitdagingen /
inzichten
● Informatie via communicatieplan
● Betrokkenheid via werkgroep
○ krijgen meer in-depth informatie
○ bepalen mee wat we doen en niet
doen
■ bvb. parametrisering
gezichtsherkenning
■ bvb. beheer referentieset gezichten.
Deze presentatie
● Tussentijdse stand van zaken
○ Work in progress
○ Blik in de keuken
● Juridische aspect
● Spraakherkenning
● Gezichtsherkenning
● Future work
Beeld: De keuken, Louis Thevenet ; Collectie museum Dhondt-Dhaenens Fotograaf: Cedric Verhelst
public domain
Juridische aspecten
• AI toepassen: het kan volgens GDPR (archivering in het
algemeen belang)
• Maar DPIA is nodig want:
• Grootschalige verwerking
• → Aantal betrokkenen
• → Volume van de gegevens
• → Duur van de activiteit
• Creatie van nieuwe metadata kan linken leggen tussen
personen en lidmaatschap vakbond/etniciteit/politieke
voorkeur…
→ Verwerking van ‘bijzondere categorieën
persoonsgegevens’
Data Protection Impact Assessment
● Deel 1 : omschrijf wat je wil doen
○ Algemene beschrijving beoogde verwerking
○ Beschrijving type persoonsgegevens
○ Doel van de verwerking
○ Bronnen van de persoonsgegevens
○ Betrokkenen
● Deel 2 : Risico analyse
○ Wat zijn de taken in het project?
○ Welke risico's zijn hieraan verbonden?
○ Hoe gaan we deze minimaliseren?
⇒ Checklist voor privacy aspecten binnen project
Ethische aspecten
● ism. Kenniscentrum data &
maatschappij
● Meerdere workshops, focus op
gezichtsherkenning
○ breng alle stakeholders samen
■ archivarissen, personen die
herkend zullen worden, technici
○ Probeer tot een principes document
te komen of gedeeld inzicht / proces
○ Bvb. referentielijst
Ethische / juridische conclusies worden samengevat & gedeeld
● Relatief mature producten in de markt
● Marktbevraging eerste helft 2022
○ Wat is mogelijk op dit moment, hoe snel kan de verwerking (snel!), …
○ Informele gesprekken die ons inzicht leverden in wat kan
● Europese aanbestedingsprocedure tweede helft 2022
● Criteria
○ Prijs (om 1 uur te transcriberen)
○ Kwaliteit via benchmarking (zie volgende slides)
● 5 deelnemers:
○ Azure, Speechmatics, Scriptix, Amberscript, Notubiz
Spraakherkenning
Benchmark - objectieve kwaliteitsmeting
Dataset
● Handgeselecteerd uit het archief
● 5 hoofdcategorieën: Radio/TV interview, Politiek debat/interview, Spontaan commentaar (sport/event),
Reportage/Documentaire, Nieuwsbulletin
● Nevencategorieën: podiumkunsten, dialect, oud materiaal, andere taal
● 165 bestanden, >3 uur audio
Data Annotatie (extern bureau)
● Ground Truth transcripties (letterlijk)
● Keyword annotaties: locatie, persoon, organisatie, belangrijke kernwoorden
STT Benchmark - methodologie
STT solutions
● SaaS: Speechmatics, Amberscript, Notubiz, Scriptix, Azure
● Whisper: OpenSource multi-language STT model (Open AI)
Benchmark tool
● Gebaseerd op EBU benchmark-stt
● WER (Word Error Rate): hoe lager, hoe minder fouten in de transcriptie
● Verschillende WER scenarios: no-stopwords, keywords (PER, LOC, ORG, KEY, ALL)
● 4 kwaliteitsklasses: Excellent (0-0.1), Good (0.1, 0.2), Average (0.2-0.3), Poor (>0.3)
● Totale kwaliteitsscore: gebaseerd op hoeveel files onder welke kwaliteitsklasse vallen
● Enkel kwaliteit van hoofdcategorieën telt mee voor kwaliteitsscore
STT Benchmark - results
Conclusie: Speechmatics heeft de beste transcriptiekwaliteit
● Gezichten identificeren en herkennen in video (> 100k uur)
○ Grote volumes gezichten, grote volume aan data
● Referentieset: te herkennen gezichten
○ Hoe gaan we die samenstellen?
○ Hoe beheren?
○ Gedeelde referentieset?
● Vaak voorkomende gezichten, niet gelinkt aan referentieset
○ Kunnen we hier rond functionaliteit uitbouwen?
○ Bvb. top X meest voorkomende gezichten in je collectie
○ Opportuniteit om referentieset uit te breiden.
Gezichtsherkenning - Wat willen we?
● Analyse
○ Kopen?
■ Marktbevraging
■ Wat kan op dit moment?
■ Wat is de kost?
○ Bouwen
■ Kunnen we verder op FAME bouwen?
■ Wat is de kost?
● Ethische aspecten & betrokkenheid gebruikers
○ Functionele analyse ism. werkgroep
○ Kenniscentrum data & maatschappij
Gezichtsherkenning - Aanpak
Gezichtsherkenning - kopen vs bouwen
● Kopen
○ Marktbevraging
■ AWS
■ Azure
■ Vicarvision
○ Kosten
■ Operationele kost
■ Relatief duur
○ Meer geavanceerde cases zijn
moeilijker te realiseren
○ Privacy & ethiek
● Bouwen
○ Meer vrijheden
○ Meer op maat van onze use cases /
content partners
○ Technische uitdagingen
■ Kan het überhaupt?
■ Welke modellen zijn nodig?
■ Zijn ze open source?
○ Wat zou de kost zijn om dit te
bouwen?
Uiteindelijk gekozen om dit te bouwen, vertrekkende van FAME
Gezichtsherkenning - bouwen op FAME
● FAME
○ Gezichtsherkenning op vnl. foto.
○ Reeds uitgebreide referentieset samengesteld
○ Basisflow voor detectie en herkenning uitgewerkt
○ Heel wat privacy aspecten onderzocht
● Uitdagingen
○ Schaal (foto vs. video)
○ Matching algoritme helemaal anders (geen validatie)
○ Gedeelde referentieset vs referentieset per partner
○ GiVE = geen research (bvb. gebruik modellen zoals insightface)
Bouw pipeline
● Team externe consultants (Cronos, IT Planet, Ordina)
○ specialisten AI + Machine Learning
○ programmeur workflows
○ functionele analist (referentie set beheer)
○ project management
● Samenwerking met werkgroep
○ Sessies rond parametrisering
○ Uitgebreide functionele analyse: wat willen jullie?
Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Detecteer gezichten in 1 frame
Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Bereken fingerprint van elke face
Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Volg een gezicht van een persoon over meerdere frames binnen 1 shot tot trackers
Tracker Tracker
Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Cluster groepen van gevolgde gezichten (trackers) bij elkaar tot personen
Tracker 1
Tracker 0
Persoon 0
Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Faces Persoon 0
Goede gelijkenis
Zelfde persoon
Subset obv
kwaliteit
Gezichtsherkenning - parameters
Gezichtskwaliteit
● Box-grootte
● Pose (landmarks)
● Belichting
● Blurriness
● Confidence
Schermtijd
● Duur van gezicht binnen 1 shot (tracker)
● Aantal keer dat gezicht terugkomt (aantal trackers per persoon)
● Totale schermtijd van 1 persoon in video
Nu: parametrisering met werkgroep
Oranje gezichten komen te kort voor (bv. kort shot binnen reportage);
gezichten in de achtergrond leveren vaak geen metadata op omdat ze te
klein zijn
05:48
http://give-face-
qas.private.cloud.meemoo.be/task_results/baba7b5ef1d2459180c2ea8fffa49d02cf2aed7b29ba41758f43c7e1eae
457a1b6a6377d6b4d4e2c8b032c69a4597bbc_af862059c93c6475d5320919c7c48b7d
2:00 http://give-face-
qas.private.cloud.meemoo.be/task_results/99496d03b4904e1fa23c6b0a203d36db8651dc32f64049bb995ffd93d
bc395c28cb9a1f48db84a5c9b10192aba6e9d2c_af862059c93c6475d5320919c7c48b7d
Referentieset en gebruik van tooling
● Basis: FAME referentieset
○ Foto's te herkennen personen
○ Identifiers met link naar publieke bronnen waar mogelijk
● Interviews + sessie werkgroep leden
○ Wat moeten we kunnen in het beheer van de ref set?
○ Wat willen we precies kunnen?
● Doel: gedeelde visie
○ Achterliggende processen
○ Daaruit: vereisten voor de software + wireframes
Referentieset - voorlopige resultaten
● Gedeeld beheer door CP's
○ Geen ownership van de data
○ Gebruikers kunnen alle referentie set entries aanpassen
○ Wel gedetailleerd inzicht in historiek en aanpassingen
● Links naar zowel publieke als private bronnen
○ Bvb. wikidata
○ Bvb. interne identifiers
● Begeleiding van de beheerders
○ Richtlijnen / checks op fotokwaliteit
Gezichtsherkenning - Functionele analyse
Gezichtsherkenning - Functionele analyse
Metadata uit machine learning is dynamisch (processen
verbteren, nieuwe referentiepersonen, etc.)
Welke “provenance” data en historiek biedt meerwaarde voor
content partners ?
- aanmaak (metadata door AI of manueel aangemaakt)
- datum
- indien manueel: naam van persoon, organisatie
- specifieke AI meta
- Spraak: API version
- Gezicht: model version
- versioning & granulariteit per update
- Gezicht:
- herkende personen toegevoegd aan metadata file ?
(Meta) Metadata
● NER - analyse loopt op dit moment
● Voorjaar 2023
○ Opstart pipeline spraakherkenning
○ Opstart pipeline gezichtsdetectie
○ Opstart pipeline NER
● Eind 2023
○ Ter beschikking stellen resultaten aan partners.
○ Finale resultaten / deliverables beschikbaar
Verder werk
Dit project kadert binnen het relanceplan Vlaamse Veerkracht en wordt
gerealiseerd met de steun van het Europees Fonds voor Regionale Ontwikkeling.

Contenu connexe

Similaire à GIVE-metadataproject

Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-anani...
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-anani...Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-anani...
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-anani...Twittercrisis
 
CV - Michel Noordzij - Januari 2015
CV - Michel Noordzij - Januari 2015CV - Michel Noordzij - Januari 2015
CV - Michel Noordzij - Januari 2015Michel Noordzij
 
08 pitch wp 4 informatiearchitectuur
08 pitch wp 4 informatiearchitectuur08 pitch wp 4 informatiearchitectuur
08 pitch wp 4 informatiearchitectuurKING
 
Functie impact analyse digitale technologie p en o dagen
Functie impact analyse digitale technologie p en o dagenFunctie impact analyse digitale technologie p en o dagen
Functie impact analyse digitale technologie p en o dagenMinisterie van BZK
 
Presentatie digitale preservering_packed_20170329
Presentatie digitale preservering_packed_20170329Presentatie digitale preservering_packed_20170329
Presentatie digitale preservering_packed_20170329Heemkunde Vlaanderen
 
INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...
INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...
INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...B.A.
 
IATI at Partos ICT Plaza
IATI at Partos ICT PlazaIATI at Partos ICT Plaza
IATI at Partos ICT PlazaRolf Kleef
 
Lectric Leergang Intranet Manager - Dag 1
Lectric Leergang Intranet Manager - Dag 1Lectric Leergang Intranet Manager - Dag 1
Lectric Leergang Intranet Manager - Dag 1Vanessa Bos-Steijn
 
Presentatie klantenmiddag 2015
Presentatie klantenmiddag 2015Presentatie klantenmiddag 2015
Presentatie klantenmiddag 201512Build
 
Doe ik het goed? Certificering van e-depots, Kees Waterman
Doe ik het goed? Certificering van e-depots, Kees WatermanDoe ik het goed? Certificering van e-depots, Kees Waterman
Doe ik het goed? Certificering van e-depots, Kees WatermanNetwerk Digitaal Erfgoed
 
Gastcollege Hanzehogeschool Groningen 10 januari 2014
Gastcollege Hanzehogeschool Groningen 10 januari 2014Gastcollege Hanzehogeschool Groningen 10 januari 2014
Gastcollege Hanzehogeschool Groningen 10 januari 2014Harold van Heeringen
 
Document management introductie
Document management introductieDocument management introductie
Document management introductieKoenraad Seys
 
Mobpro - Uitschalen binnen de Ad-Tech wereld
Mobpro - Uitschalen binnen de Ad-Tech wereldMobpro - Uitschalen binnen de Ad-Tech wereld
Mobpro - Uitschalen binnen de Ad-Tech wereldBigDataExpo
 
Leveranciersbijeenkomst informatievoorziening sociaaldomein
Leveranciersbijeenkomst informatievoorziening sociaaldomeinLeveranciersbijeenkomst informatievoorziening sociaaldomein
Leveranciersbijeenkomst informatievoorziening sociaaldomeinKING
 
Webinar trends in testing 2017 03 08 (in dutch)
Webinar trends in testing 2017 03 08 (in dutch)Webinar trends in testing 2017 03 08 (in dutch)
Webinar trends in testing 2017 03 08 (in dutch)Rik Marselis
 

Similaire à GIVE-metadataproject (20)

Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-anani...
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-anani...Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-anani...
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-anani...
 
digitale_preservering 20180328
digitale_preservering 20180328digitale_preservering 20180328
digitale_preservering 20180328
 
CV - Michel Noordzij - Januari 2015
CV - Michel Noordzij - Januari 2015CV - Michel Noordzij - Januari 2015
CV - Michel Noordzij - Januari 2015
 
08 pitch wp 4 informatiearchitectuur
08 pitch wp 4 informatiearchitectuur08 pitch wp 4 informatiearchitectuur
08 pitch wp 4 informatiearchitectuur
 
Functie impact analyse digitale technologie p en o dagen
Functie impact analyse digitale technologie p en o dagenFunctie impact analyse digitale technologie p en o dagen
Functie impact analyse digitale technologie p en o dagen
 
Presentatie digitale preservering_packed_20170329
Presentatie digitale preservering_packed_20170329Presentatie digitale preservering_packed_20170329
Presentatie digitale preservering_packed_20170329
 
INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...
INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...
INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...
 
IATI at Partos ICT Plaza
IATI at Partos ICT PlazaIATI at Partos ICT Plaza
IATI at Partos ICT Plaza
 
Lectric Leergang Intranet Manager - Dag 1
Lectric Leergang Intranet Manager - Dag 1Lectric Leergang Intranet Manager - Dag 1
Lectric Leergang Intranet Manager - Dag 1
 
LECTRIC Intranet Management
LECTRIC Intranet ManagementLECTRIC Intranet Management
LECTRIC Intranet Management
 
Presentatie klantenmiddag 2015
Presentatie klantenmiddag 2015Presentatie klantenmiddag 2015
Presentatie klantenmiddag 2015
 
Doe ik het goed? Certificering van e-depots, Kees Waterman
Doe ik het goed? Certificering van e-depots, Kees WatermanDoe ik het goed? Certificering van e-depots, Kees Waterman
Doe ik het goed? Certificering van e-depots, Kees Waterman
 
Gastcollege Hanzehogeschool Groningen 10 januari 2014
Gastcollege Hanzehogeschool Groningen 10 januari 2014Gastcollege Hanzehogeschool Groningen 10 januari 2014
Gastcollege Hanzehogeschool Groningen 10 januari 2014
 
Bas de Vos - SKO - FOAM
Bas de Vos - SKO - FOAMBas de Vos - SKO - FOAM
Bas de Vos - SKO - FOAM
 
Document management introductie
Document management introductieDocument management introductie
Document management introductie
 
Slides webinar werken in de IT
Slides webinar werken in de ITSlides webinar werken in de IT
Slides webinar werken in de IT
 
Mobpro - Uitschalen binnen de Ad-Tech wereld
Mobpro - Uitschalen binnen de Ad-Tech wereldMobpro - Uitschalen binnen de Ad-Tech wereld
Mobpro - Uitschalen binnen de Ad-Tech wereld
 
Leveranciersbijeenkomst informatievoorziening sociaaldomein
Leveranciersbijeenkomst informatievoorziening sociaaldomeinLeveranciersbijeenkomst informatievoorziening sociaaldomein
Leveranciersbijeenkomst informatievoorziening sociaaldomein
 
Monitoring sucks
Monitoring sucksMonitoring sucks
Monitoring sucks
 
Webinar trends in testing 2017 03 08 (in dutch)
Webinar trends in testing 2017 03 08 (in dutch)Webinar trends in testing 2017 03 08 (in dutch)
Webinar trends in testing 2017 03 08 (in dutch)
 

Plus de meemoo, Vlaams instituut voor het archief

GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023
GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023
GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023meemoo, Vlaams instituut voor het archief
 

Plus de meemoo, Vlaams instituut voor het archief (20)

Publiek domein - namiddagsessie partnerevent 30 nov 2023
Publiek domein - namiddagsessie partnerevent 30 nov 2023Publiek domein - namiddagsessie partnerevent 30 nov 2023
Publiek domein - namiddagsessie partnerevent 30 nov 2023
 
Uitwisselplatform 30 november 2023
Uitwisselplatform 30 november 2023Uitwisselplatform 30 november 2023
Uitwisselplatform 30 november 2023
 
GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023
GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023
GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023
 
Presentatie partnerevent 30 nov 2023 - plenaire sessie
Presentatie partnerevent 30 nov 2023 - plenaire sessiePresentatie partnerevent 30 nov 2023 - plenaire sessie
Presentatie partnerevent 30 nov 2023 - plenaire sessie
 
Presentatie online partnerevent plenaire sessie 11 mei 2023
Presentatie online partnerevent plenaire sessie 11 mei 2023Presentatie online partnerevent plenaire sessie 11 mei 2023
Presentatie online partnerevent plenaire sessie 11 mei 2023
 
GIVE-Topstukkenproject 3D-scanning
GIVE-Topstukkenproject 3D-scanningGIVE-Topstukkenproject 3D-scanning
GIVE-Topstukkenproject 3D-scanning
 
Invulboeken voor Objecten en Publicaties
Invulboeken voor Objecten en PublicatiesInvulboeken voor Objecten en Publicaties
Invulboeken voor Objecten en Publicaties
 
Vlaamse erfgoeddatabanken
Vlaamse erfgoeddatabankenVlaamse erfgoeddatabanken
Vlaamse erfgoeddatabanken
 
Publiekdomeindag 2023 - Rechtenworkshop
Publiekdomeindag 2023 - RechtenworkshopPubliekdomeindag 2023 - Rechtenworkshop
Publiekdomeindag 2023 - Rechtenworkshop
 
Publiekdomeindag 2023
Publiekdomeindag 2023Publiekdomeindag 2023
Publiekdomeindag 2023
 
Inspiratiesessie: het groeipad sociale media
Inspiratiesessie: het groeipad sociale mediaInspiratiesessie: het groeipad sociale media
Inspiratiesessie: het groeipad sociale media
 
Presentatie online partnerevent 1 december 2022.pdf
Presentatie online partnerevent 1 december 2022.pdfPresentatie online partnerevent 1 december 2022.pdf
Presentatie online partnerevent 1 december 2022.pdf
 
20221110_PRESENTATIE Sectordag musea.pptx
20221110_PRESENTATIE Sectordag musea.pptx20221110_PRESENTATIE Sectordag musea.pptx
20221110_PRESENTATIE Sectordag musea.pptx
 
20220610_Info-sessie CP's.pptx
20220610_Info-sessie CP's.pptx20220610_Info-sessie CP's.pptx
20220610_Info-sessie CP's.pptx
 
Partnerevent 9 juni 2022 - plenair - voormiddag.pdf
Partnerevent 9 juni 2022 - plenair - voormiddag.pdfPartnerevent 9 juni 2022 - plenair - voormiddag.pdf
Partnerevent 9 juni 2022 - plenair - voormiddag.pdf
 
20220217 rechtenworkshop publiekdomeindag (1)
20220217 rechtenworkshop publiekdomeindag (1)20220217 rechtenworkshop publiekdomeindag (1)
20220217 rechtenworkshop publiekdomeindag (1)
 
Public Domain Day Belgium 2022
Public Domain Day Belgium 2022Public Domain Day Belgium 2022
Public Domain Day Belgium 2022
 
Archivering sociale media
Archivering sociale mediaArchivering sociale media
Archivering sociale media
 
IIIF-projecten
IIIF-projectenIIIF-projecten
IIIF-projecten
 
Transforming living heritage into data
Transforming living heritage into dataTransforming living heritage into data
Transforming living heritage into data
 

GIVE-metadataproject

  • 1. GiVE metadata Stand van zaken - collegagroep - 16 maart 2023
  • 2. GiVE metadata - Context ● Grote hoeveelheden digitaal materiaal gearchiveerd ○ digitaliseringsprojecten afgelopen jaren ○ digitaal geboren content ● Manuele metadering is duur en tijdrovend ● Tegelijkertijd: tooling op basis van AI wordt matuur
  • 3. Relance middelen - GiVE metadata ● Wat willen we doen? ○ Spraakherkenning op Nederlandse spraak (audio/video) ○ Entiteit herkenning op tekst (Personen, locaties) ○ Gezichtsdetectie op video ; gezichtsherkenning op een beperkte set personen ● Op welke collecties? ○ Alle reeds gearchiveerde AV-collecties (behalve die van omroepen)
  • 4. Schaal ● 120 contentpartners betrokken ● Per activiteit ○ Spraakherkenning en Entiteit Herkenning : 130.000 gearchiveerde stuks of 160.000 uur media ○ Gezichtsdetectie en -herkenning : 100.000 gearchiveerde stuks of 120.000 uur media
  • 5. Verdere projectgegevens ● Timing: najaar 2021 tot eind 2023 ● Workflows die later ook herbruikbaar zijn ● Privacy en ethische aspecten ● Mature technologie, beperkte onderzoekscomponent ○ We werken verder o.b.v. resultaten FAME en eerder onderzoek in de media en CE sectoren. ○ Nauw contact met organisaties (bv. VRT, Beeld en Geluid, BBC, .. ) die hier ervaring mee hebben.
  • 6. Veel partners ● We werken met materiaal van heel veel partners ● Vaak ook nieuwe uitdagingen / inzichten ● Informatie via communicatieplan ● Betrokkenheid via werkgroep ○ krijgen meer in-depth informatie ○ bepalen mee wat we doen en niet doen ■ bvb. parametrisering gezichtsherkenning ■ bvb. beheer referentieset gezichten.
  • 7. Deze presentatie ● Tussentijdse stand van zaken ○ Work in progress ○ Blik in de keuken ● Juridische aspect ● Spraakherkenning ● Gezichtsherkenning ● Future work Beeld: De keuken, Louis Thevenet ; Collectie museum Dhondt-Dhaenens Fotograaf: Cedric Verhelst public domain
  • 8. Juridische aspecten • AI toepassen: het kan volgens GDPR (archivering in het algemeen belang) • Maar DPIA is nodig want: • Grootschalige verwerking • → Aantal betrokkenen • → Volume van de gegevens • → Duur van de activiteit • Creatie van nieuwe metadata kan linken leggen tussen personen en lidmaatschap vakbond/etniciteit/politieke voorkeur… → Verwerking van ‘bijzondere categorieën persoonsgegevens’
  • 9. Data Protection Impact Assessment ● Deel 1 : omschrijf wat je wil doen ○ Algemene beschrijving beoogde verwerking ○ Beschrijving type persoonsgegevens ○ Doel van de verwerking ○ Bronnen van de persoonsgegevens ○ Betrokkenen ● Deel 2 : Risico analyse ○ Wat zijn de taken in het project? ○ Welke risico's zijn hieraan verbonden? ○ Hoe gaan we deze minimaliseren? ⇒ Checklist voor privacy aspecten binnen project
  • 10. Ethische aspecten ● ism. Kenniscentrum data & maatschappij ● Meerdere workshops, focus op gezichtsherkenning ○ breng alle stakeholders samen ■ archivarissen, personen die herkend zullen worden, technici ○ Probeer tot een principes document te komen of gedeeld inzicht / proces ○ Bvb. referentielijst Ethische / juridische conclusies worden samengevat & gedeeld
  • 11. ● Relatief mature producten in de markt ● Marktbevraging eerste helft 2022 ○ Wat is mogelijk op dit moment, hoe snel kan de verwerking (snel!), … ○ Informele gesprekken die ons inzicht leverden in wat kan ● Europese aanbestedingsprocedure tweede helft 2022 ● Criteria ○ Prijs (om 1 uur te transcriberen) ○ Kwaliteit via benchmarking (zie volgende slides) ● 5 deelnemers: ○ Azure, Speechmatics, Scriptix, Amberscript, Notubiz Spraakherkenning
  • 12. Benchmark - objectieve kwaliteitsmeting Dataset ● Handgeselecteerd uit het archief ● 5 hoofdcategorieën: Radio/TV interview, Politiek debat/interview, Spontaan commentaar (sport/event), Reportage/Documentaire, Nieuwsbulletin ● Nevencategorieën: podiumkunsten, dialect, oud materiaal, andere taal ● 165 bestanden, >3 uur audio Data Annotatie (extern bureau) ● Ground Truth transcripties (letterlijk) ● Keyword annotaties: locatie, persoon, organisatie, belangrijke kernwoorden
  • 13. STT Benchmark - methodologie STT solutions ● SaaS: Speechmatics, Amberscript, Notubiz, Scriptix, Azure ● Whisper: OpenSource multi-language STT model (Open AI) Benchmark tool ● Gebaseerd op EBU benchmark-stt ● WER (Word Error Rate): hoe lager, hoe minder fouten in de transcriptie ● Verschillende WER scenarios: no-stopwords, keywords (PER, LOC, ORG, KEY, ALL) ● 4 kwaliteitsklasses: Excellent (0-0.1), Good (0.1, 0.2), Average (0.2-0.3), Poor (>0.3) ● Totale kwaliteitsscore: gebaseerd op hoeveel files onder welke kwaliteitsklasse vallen ● Enkel kwaliteit van hoofdcategorieën telt mee voor kwaliteitsscore
  • 14. STT Benchmark - results Conclusie: Speechmatics heeft de beste transcriptiekwaliteit
  • 15. ● Gezichten identificeren en herkennen in video (> 100k uur) ○ Grote volumes gezichten, grote volume aan data ● Referentieset: te herkennen gezichten ○ Hoe gaan we die samenstellen? ○ Hoe beheren? ○ Gedeelde referentieset? ● Vaak voorkomende gezichten, niet gelinkt aan referentieset ○ Kunnen we hier rond functionaliteit uitbouwen? ○ Bvb. top X meest voorkomende gezichten in je collectie ○ Opportuniteit om referentieset uit te breiden. Gezichtsherkenning - Wat willen we?
  • 16. ● Analyse ○ Kopen? ■ Marktbevraging ■ Wat kan op dit moment? ■ Wat is de kost? ○ Bouwen ■ Kunnen we verder op FAME bouwen? ■ Wat is de kost? ● Ethische aspecten & betrokkenheid gebruikers ○ Functionele analyse ism. werkgroep ○ Kenniscentrum data & maatschappij Gezichtsherkenning - Aanpak
  • 17. Gezichtsherkenning - kopen vs bouwen ● Kopen ○ Marktbevraging ■ AWS ■ Azure ■ Vicarvision ○ Kosten ■ Operationele kost ■ Relatief duur ○ Meer geavanceerde cases zijn moeilijker te realiseren ○ Privacy & ethiek ● Bouwen ○ Meer vrijheden ○ Meer op maat van onze use cases / content partners ○ Technische uitdagingen ■ Kan het überhaupt? ■ Welke modellen zijn nodig? ■ Zijn ze open source? ○ Wat zou de kost zijn om dit te bouwen? Uiteindelijk gekozen om dit te bouwen, vertrekkende van FAME
  • 18. Gezichtsherkenning - bouwen op FAME ● FAME ○ Gezichtsherkenning op vnl. foto. ○ Reeds uitgebreide referentieset samengesteld ○ Basisflow voor detectie en herkenning uitgewerkt ○ Heel wat privacy aspecten onderzocht ● Uitdagingen ○ Schaal (foto vs. video) ○ Matching algoritme helemaal anders (geen validatie) ○ Gedeelde referentieset vs referentieset per partner ○ GiVE = geen research (bvb. gebruik modellen zoals insightface)
  • 19. Bouw pipeline ● Team externe consultants (Cronos, IT Planet, Ordina) ○ specialisten AI + Machine Learning ○ programmeur workflows ○ functionele analist (referentie set beheer) ○ project management ● Samenwerking met werkgroep ○ Sessies rond parametrisering ○ Uitgebreide functionele analyse: wat willen jullie?
  • 20. Gezichtsherkenning - Video Pipeline Face Detection Face Tracking Face Clustering Face Embedding Face Identification Video pipeline Detecteer gezichten in 1 frame
  • 21. Gezichtsherkenning - Video Pipeline Face Detection Face Tracking Face Clustering Face Embedding Face Identification Video pipeline Bereken fingerprint van elke face
  • 22. Gezichtsherkenning - Video Pipeline Face Detection Face Tracking Face Clustering Face Embedding Face Identification Video pipeline Volg een gezicht van een persoon over meerdere frames binnen 1 shot tot trackers Tracker Tracker
  • 23. Gezichtsherkenning - Video Pipeline Face Detection Face Tracking Face Clustering Face Embedding Face Identification Video pipeline Cluster groepen van gevolgde gezichten (trackers) bij elkaar tot personen Tracker 1 Tracker 0 Persoon 0
  • 24. Gezichtsherkenning - Video Pipeline Face Detection Face Tracking Face Clustering Face Embedding Face Identification Video pipeline Faces Persoon 0 Goede gelijkenis Zelfde persoon Subset obv kwaliteit
  • 25. Gezichtsherkenning - parameters Gezichtskwaliteit ● Box-grootte ● Pose (landmarks) ● Belichting ● Blurriness ● Confidence Schermtijd ● Duur van gezicht binnen 1 shot (tracker) ● Aantal keer dat gezicht terugkomt (aantal trackers per persoon) ● Totale schermtijd van 1 persoon in video
  • 26. Nu: parametrisering met werkgroep Oranje gezichten komen te kort voor (bv. kort shot binnen reportage); gezichten in de achtergrond leveren vaak geen metadata op omdat ze te klein zijn 05:48 http://give-face- qas.private.cloud.meemoo.be/task_results/baba7b5ef1d2459180c2ea8fffa49d02cf2aed7b29ba41758f43c7e1eae 457a1b6a6377d6b4d4e2c8b032c69a4597bbc_af862059c93c6475d5320919c7c48b7d 2:00 http://give-face- qas.private.cloud.meemoo.be/task_results/99496d03b4904e1fa23c6b0a203d36db8651dc32f64049bb995ffd93d bc395c28cb9a1f48db84a5c9b10192aba6e9d2c_af862059c93c6475d5320919c7c48b7d
  • 27. Referentieset en gebruik van tooling ● Basis: FAME referentieset ○ Foto's te herkennen personen ○ Identifiers met link naar publieke bronnen waar mogelijk ● Interviews + sessie werkgroep leden ○ Wat moeten we kunnen in het beheer van de ref set? ○ Wat willen we precies kunnen? ● Doel: gedeelde visie ○ Achterliggende processen ○ Daaruit: vereisten voor de software + wireframes
  • 28. Referentieset - voorlopige resultaten ● Gedeeld beheer door CP's ○ Geen ownership van de data ○ Gebruikers kunnen alle referentie set entries aanpassen ○ Wel gedetailleerd inzicht in historiek en aanpassingen ● Links naar zowel publieke als private bronnen ○ Bvb. wikidata ○ Bvb. interne identifiers ● Begeleiding van de beheerders ○ Richtlijnen / checks op fotokwaliteit
  • 31. Metadata uit machine learning is dynamisch (processen verbteren, nieuwe referentiepersonen, etc.) Welke “provenance” data en historiek biedt meerwaarde voor content partners ? - aanmaak (metadata door AI of manueel aangemaakt) - datum - indien manueel: naam van persoon, organisatie - specifieke AI meta - Spraak: API version - Gezicht: model version - versioning & granulariteit per update - Gezicht: - herkende personen toegevoegd aan metadata file ? (Meta) Metadata
  • 32. ● NER - analyse loopt op dit moment ● Voorjaar 2023 ○ Opstart pipeline spraakherkenning ○ Opstart pipeline gezichtsdetectie ○ Opstart pipeline NER ● Eind 2023 ○ Ter beschikking stellen resultaten aan partners. ○ Finale resultaten / deliverables beschikbaar Verder werk
  • 33. Dit project kadert binnen het relanceplan Vlaamse Veerkracht en wordt gerealiseerd met de steun van het Europees Fonds voor Regionale Ontwikkeling.