SlideShare une entreprise Scribd logo
1  sur  20
18-04-24
Automatisch Metadateren
de kansen en de uitdagingen
Niels Bogaards, AI Lead NBD Biblion,
co-founder Bookarang
Agenda
▶NBD Biblion
▶Metadata voor boeken
▶Automatisch metadateren
▶(Technische) uitdagingen
▶Nieuwe toepassingen van metadata
18-4-2024
NBD Biblion
Stichting die boeken, diensten en metadata levert
aan de openbare bibliotheek
▶Boeken plankklaar maken (custom machines en
productiehal)
▶Metadata produceren om boeken te beschrijven
▶Boeken verkopen en leveren (2M / jaar)
▶Innovatieve ihkv leesbevordering
18-4-2024
Metadata voor boeken
▶metadata beschrijft een boek om het te kunnen beoordelen en
vinden
▶zoeken en beoordelen kan om allerlei verschillende redenen:
▶archivering
▶collectioneren
▶fysieke plaatsing in een bibliotheek
▶lees inspiratie
▶etc.
▶metadata standaardiseren maakt het mogelijke zoekstrategieën
en tools te ontwikkelen
▶mogelijkheden van digitale tools nemen enorm toe: soms wordt
metadata de limiterende factor
18-4-2024
Metadata productie
▶NBD Biblion metadateert 15000 titels per jaar
▶traditioneel door bibliografen / catalografen
▶twee soorten klassieke metadata
▶bibliografisch (feitelijk)
▶redactioneel (interpretatie)
▶doel-specifieke metadata
▶aanschafinformatie
▶recommendation tools
▶metadata voor scholen
Waarom automatisch metadateren?
In 2018 is NBD Biblion begonnen met
automatisch metadateren, met als
doelen:
▶sneller en goedkoper produceren
▶objectievere metadata
▶toekomstbestendig zijn
18-4-2024
Sneller en goedkoper metadateren
Voor automatisch metadateren
▶ bibliografische en redactionele metadata door 40 bibliografen bij NBD Biblion
▶ op basis van papieren boeken
▶ Aanschafinformatietekst werd geschreven door 700 recensenten die een boek
opgestuurd kregen: gemiddeld 6 weken
Huidige situatie
▶ 95% op basis van digitale vormen van het boek
▶ AI pipeline levert alle metadata
▶ handmatige checks en correctie
▶ digitaal boek binnen 24 uur gemetadateerd
18-4-2024
Objectiever metadateren?
Voor automatisch metadateren:
▶ recensenten leverden een mening over het boek
▶ moeilijk objectiviteit af te dwingen / te meten
Beoogd doel:
▶ metadata produceren zonder waardeoordeel
▶ AI pipeline levert alle metadata
▶ onbevooroordeeld advies aan collectioneurs
▶ objectieve vergelijkingen metrieken
18-4-2024
Toekomstbestendig metadateren
12-4-2024
▶ ondersteuning voor toekomstige concepten en
nieuwe inzichten en classificaties
▶ integratie met innovatieve tools
▶ dynamische, adaptieve boek omschrijvingen
▶ aanpasbaar aan verschillende
formaten en standaards
Hoe werkt automatisch metadateren?
▶ digitaal boek (print-pdf, scan/OCR, epub)
▶ digitale workflow, parallel aan papieren stroom
▶ pipeline met 60+ custom AI algoritmes
▶ menselijke check (outlier detection, probability,
etc.)
▶acceptabele foutmarge: 0%
▶metadata gaat naar gedeelde nationale catalogus
▶metadata wordt verwerkt in fysieke boeken
12-4-2024
Uitdagingen
12-4-2024
Technisch
▶veel informatie ‘tussen de regels’
▶boeken zijn lang; groot context window nodig
▶AI algoritmes hebben veel (GPU) power en
geheugen nodig, zowel in training als in evaluatie
▶relative sparsity: bijv. trefwoorden
Inhoudelijk
▶gewenste uitkomsten soms subjectief
▶zeer diverse dataset
▶veel kennis nooit goed vastgelegd
AutoMeta pipeline
▶algoritmes voor deelproblemen
▶genre, thema, trefwoord, tijdperk
▶leesniveau, complexiteit, stijl
▶colofon, logo’s, etc.
▶ gebruik van standaard libraries
▶PyTorch, SkLearn etc.
▶transformers, BERT, spacy
▶ gebruik van volledige tekst van het boek:
▶te groot voor off the shelf algoritmes
▶complexe information density
➡ veel custom machine learning
18-4-2024
Machine Learning voorbeelden
Thriller
Sociale roman
Machine Learning voorbeelden
12-4-2024
Machine Learning voorbeelden
Nieuwe toepassingen van metadata
▶ recommendation tools
▶ interactief boeken vinden
▶ gepersonaliseerde aanbevelingen
▶ leesbevordering op scholen
▶ ondersteuning in de bibliotheek
▶ collectioneren
▶ analyse van de collectie op nieuwe
aspecten
▶ tools om collectie op beleid aan te laten
sluiten
Nieuwe toepassingen van metadata
Demo
Voorbeeld: Transparante collectie
Inclusie en neutraliteit kunnen op gespannen voet staan:
liever informeren dan censureren.
AI kan de bibliotheek helpen:
▶ verouderd of denigrerend taalgebruik detecteren
▶ achterhaalde concepten signaleren:
• genderstereotypes
• achterhaalde standpunten over etniciteit, kolonialisme, etc
▶ we weten nog niet welke concepten over 10 jaar onacceptabel zijn
• dierenrechten? vlees eten? reuzen en dwergen? links gedachtengoed?
door metadata niet vast in steen te zetten, kunnen we ons aan tijd,
locatie en doelgroep aanpassen
18-4-2024
Metadata R&D bij NBD Biblion
▶ Buitenlandse talen
▶ Pools, Arabisch, Chinees
▶ Automatische metadatering naar 100% correct
▶ Inclusie, diversiteit en metadata
▶ alternatieve catalogusinteractie (chatbots etc.)
▶ vertalen en hertalen van metadata
▶ Gebruik van verantwoorde LLM’s
18-4-2024
Conclusie
Automatisch metadateren is sinds 2021 in productie bij NBD Biblion
Ontwikkeling en verbetering loopt nog steeds door: foutloze AI op een bijzondere
dataset blijft vooralsnog een grote uitdaging
Nieuwe toepassingen op basis van metadata en AI helpen bibliotheken om de
juiste boeken in hun collectie te hebben en ze te koppelen aan lezers en
evenementen
18-4-2024

Contenu connexe

Similaire à Automatisch metadateren - de kansen en de uitdagingen

Dante_Metadata winst voor het boekenvak, uitgevers en boekhandelaren
Dante_Metadata winst voor het boekenvak, uitgevers en boekhandelarenDante_Metadata winst voor het boekenvak, uitgevers en boekhandelaren
Dante_Metadata winst voor het boekenvak, uitgevers en boekhandelarenboek_be
 
Open Cultuur Data Masterclass #3 - Open State - Lex Slaghuis
Open Cultuur Data Masterclass #3 - Open State - Lex SlaghuisOpen Cultuur Data Masterclass #3 - Open State - Lex Slaghuis
Open Cultuur Data Masterclass #3 - Open State - Lex SlaghuisKennisland
 
Kennissessie RUG-bibliotheken, mei 2008
Kennissessie RUG-bibliotheken, mei 2008Kennissessie RUG-bibliotheken, mei 2008
Kennissessie RUG-bibliotheken, mei 2008Guus van den Brekel
 
20190329 leveranciersbijeenkomst Toekomstperspectief Informatie- en archiefbe...
20190329 leveranciersbijeenkomst Toekomstperspectief Informatie- en archiefbe...20190329 leveranciersbijeenkomst Toekomstperspectief Informatie- en archiefbe...
20190329 leveranciersbijeenkomst Toekomstperspectief Informatie- en archiefbe...VNG Realisatie
 
20090929 Presentatie Ovinob
20090929 Presentatie Ovinob20090929 Presentatie Ovinob
20090929 Presentatie OvinobBibliobart
 
Viaa presentatie bootcamp 2019 Matthias Priem
Viaa presentatie bootcamp 2019 Matthias PriemViaa presentatie bootcamp 2019 Matthias Priem
Viaa presentatie bootcamp 2019 Matthias PriemPACKED vzw
 
Kenta Informatievaardigheden 20070626
Kenta Informatievaardigheden 20070626Kenta Informatievaardigheden 20070626
Kenta Informatievaardigheden 20070626Alexander Stierman
 
Acknowledge 05 De Vdab Piloot Gerd Goetschalckx
Acknowledge 05 De Vdab Piloot Gerd GoetschalckxAcknowledge 05 De Vdab Piloot Gerd Goetschalckx
Acknowledge 05 De Vdab Piloot Gerd Goetschalckximec.archive
 
Naar Eengemaakt Bibliotheeksysteem voor Vlaanderen (IAZ, 18 september 2015)
Naar Eengemaakt Bibliotheeksysteem voor Vlaanderen (IAZ, 18 september 2015)Naar Eengemaakt Bibliotheeksysteem voor Vlaanderen (IAZ, 18 september 2015)
Naar Eengemaakt Bibliotheeksysteem voor Vlaanderen (IAZ, 18 september 2015)Bibnet vzw
 
Digital competence frameworks in Flemish Education March 2017
Digital competence frameworks in Flemish Education March 2017Digital competence frameworks in Flemish Education March 2017
Digital competence frameworks in Flemish Education March 2017Jan De Craemer
 
Eduvision - Webinar Hoe Word Ik Big Data Professional?
Eduvision - Webinar Hoe Word Ik Big Data Professional?Eduvision - Webinar Hoe Word Ik Big Data Professional?
Eduvision - Webinar Hoe Word Ik Big Data Professional?Eduvision Opleidingen
 
Locus Basispresentatie West Vlaanderen
Locus Basispresentatie West VlaanderenLocus Basispresentatie West Vlaanderen
Locus Basispresentatie West VlaanderenSylvie Fermaut
 
Workflow maakt handmatig archiveren overbodig
Workflow maakt handmatig archiveren overbodigWorkflow maakt handmatig archiveren overbodig
Workflow maakt handmatig archiveren overbodigHarry
 

Similaire à Automatisch metadateren - de kansen en de uitdagingen (20)

Dante_Metadata winst voor het boekenvak, uitgevers en boekhandelaren
Dante_Metadata winst voor het boekenvak, uitgevers en boekhandelarenDante_Metadata winst voor het boekenvak, uitgevers en boekhandelaren
Dante_Metadata winst voor het boekenvak, uitgevers en boekhandelaren
 
Automatische metadatacreatie
Automatische metadatacreatieAutomatische metadatacreatie
Automatische metadatacreatie
 
Mee met meemoo
Mee met meemooMee met meemoo
Mee met meemoo
 
Jan Bollansee, “Databanken in de bibliotheek: klik hier voor meer informatie”
Jan Bollansee,  “Databanken in de bibliotheek: klik hier voor meer informatie”Jan Bollansee,  “Databanken in de bibliotheek: klik hier voor meer informatie”
Jan Bollansee, “Databanken in de bibliotheek: klik hier voor meer informatie”
 
Open Cultuur Data Masterclass #3 - Open State - Lex Slaghuis
Open Cultuur Data Masterclass #3 - Open State - Lex SlaghuisOpen Cultuur Data Masterclass #3 - Open State - Lex Slaghuis
Open Cultuur Data Masterclass #3 - Open State - Lex Slaghuis
 
Kennissessie RUG-bibliotheken, mei 2008
Kennissessie RUG-bibliotheken, mei 2008Kennissessie RUG-bibliotheken, mei 2008
Kennissessie RUG-bibliotheken, mei 2008
 
20190329 leveranciersbijeenkomst Toekomstperspectief Informatie- en archiefbe...
20190329 leveranciersbijeenkomst Toekomstperspectief Informatie- en archiefbe...20190329 leveranciersbijeenkomst Toekomstperspectief Informatie- en archiefbe...
20190329 leveranciersbijeenkomst Toekomstperspectief Informatie- en archiefbe...
 
20090929 Presentatie Ovinob
20090929 Presentatie Ovinob20090929 Presentatie Ovinob
20090929 Presentatie Ovinob
 
Viaa presentatie bootcamp 2019 Matthias Priem
Viaa presentatie bootcamp 2019 Matthias PriemViaa presentatie bootcamp 2019 Matthias Priem
Viaa presentatie bootcamp 2019 Matthias Priem
 
Viaa presentatie bootcamp 2019 Matthias Priem
Viaa presentatie bootcamp 2019 Matthias PriemViaa presentatie bootcamp 2019 Matthias Priem
Viaa presentatie bootcamp 2019 Matthias Priem
 
Kenta Informatievaardigheden 20070626
Kenta Informatievaardigheden 20070626Kenta Informatievaardigheden 20070626
Kenta Informatievaardigheden 20070626
 
Acknowledge 05 De Vdab Piloot Gerd Goetschalckx
Acknowledge 05 De Vdab Piloot Gerd GoetschalckxAcknowledge 05 De Vdab Piloot Gerd Goetschalckx
Acknowledge 05 De Vdab Piloot Gerd Goetschalckx
 
Metadata en identifiers: NSTC, ISNI & DOI
Metadata en identifiers: NSTC, ISNI & DOIMetadata en identifiers: NSTC, ISNI & DOI
Metadata en identifiers: NSTC, ISNI & DOI
 
Naar een eengemaakt bibliotheeksysteem voor Vlaanderen
 Naar een eengemaakt bibliotheeksysteem voor Vlaanderen Naar een eengemaakt bibliotheeksysteem voor Vlaanderen
Naar een eengemaakt bibliotheeksysteem voor Vlaanderen
 
Naar Eengemaakt Bibliotheeksysteem voor Vlaanderen (IAZ, 18 september 2015)
Naar Eengemaakt Bibliotheeksysteem voor Vlaanderen (IAZ, 18 september 2015)Naar Eengemaakt Bibliotheeksysteem voor Vlaanderen (IAZ, 18 september 2015)
Naar Eengemaakt Bibliotheeksysteem voor Vlaanderen (IAZ, 18 september 2015)
 
Digital competence frameworks in Flemish Education March 2017
Digital competence frameworks in Flemish Education March 2017Digital competence frameworks in Flemish Education March 2017
Digital competence frameworks in Flemish Education March 2017
 
Eduvision - Webinar Hoe Word Ik Big Data Professional?
Eduvision - Webinar Hoe Word Ik Big Data Professional?Eduvision - Webinar Hoe Word Ik Big Data Professional?
Eduvision - Webinar Hoe Word Ik Big Data Professional?
 
Locus Basispresentatie West Vlaanderen
Locus Basispresentatie West VlaanderenLocus Basispresentatie West Vlaanderen
Locus Basispresentatie West Vlaanderen
 
Workflow maakt handmatig archiveren overbodig
Workflow maakt handmatig archiveren overbodigWorkflow maakt handmatig archiveren overbodig
Workflow maakt handmatig archiveren overbodig
 
Desaever Dirk
Desaever DirkDesaever Dirk
Desaever Dirk
 

Plus de voginip

Zo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko BoonstraZo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko Boonstravoginip
 
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingHybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingvoginip
 
Solving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source TechniquesSolving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source Techniquesvoginip
 
PiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar makenPiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar makenvoginip
 
Red het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimteRed het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimtevoginip
 
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)voginip
 
ASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel CanterASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel Cantervoginip
 
The Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical ResearchThe Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical Researchvoginip
 
Oude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en WikipediaOude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en Wikipediavoginip
 
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...voginip
 
Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?voginip
 
The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...voginip
 
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...voginip
 
Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!voginip
 
Systematisch zoeken op het web
Systematisch zoeken op het webSystematisch zoeken op het web
Systematisch zoeken op het webvoginip
 
Grote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als dataGrote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als datavoginip
 
Werken met Wikidata
Werken met WikidataWerken met Wikidata
Werken met Wikidatavoginip
 
Een gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenEen gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenvoginip
 
Een startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietEen startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietvoginip
 
Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open voginip
 

Plus de voginip (20)

Zo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko BoonstraZo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko Boonstra
 
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingHybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
 
Solving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source TechniquesSolving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source Techniques
 
PiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar makenPiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar maken
 
Red het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimteRed het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimte
 
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
 
ASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel CanterASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel Canter
 
The Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical ResearchThe Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical Research
 
Oude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en WikipediaOude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en Wikipedia
 
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
 
Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?
 
The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...
 
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
 
Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!
 
Systematisch zoeken op het web
Systematisch zoeken op het webSystematisch zoeken op het web
Systematisch zoeken op het web
 
Grote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als dataGrote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als data
 
Werken met Wikidata
Werken met WikidataWerken met Wikidata
Werken met Wikidata
 
Een gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenEen gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardigheden
 
Een startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietEen startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat niet
 
Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open
 

Automatisch metadateren - de kansen en de uitdagingen

  • 1. 18-04-24 Automatisch Metadateren de kansen en de uitdagingen Niels Bogaards, AI Lead NBD Biblion, co-founder Bookarang
  • 2. Agenda ▶NBD Biblion ▶Metadata voor boeken ▶Automatisch metadateren ▶(Technische) uitdagingen ▶Nieuwe toepassingen van metadata 18-4-2024
  • 3. NBD Biblion Stichting die boeken, diensten en metadata levert aan de openbare bibliotheek ▶Boeken plankklaar maken (custom machines en productiehal) ▶Metadata produceren om boeken te beschrijven ▶Boeken verkopen en leveren (2M / jaar) ▶Innovatieve ihkv leesbevordering 18-4-2024
  • 4. Metadata voor boeken ▶metadata beschrijft een boek om het te kunnen beoordelen en vinden ▶zoeken en beoordelen kan om allerlei verschillende redenen: ▶archivering ▶collectioneren ▶fysieke plaatsing in een bibliotheek ▶lees inspiratie ▶etc. ▶metadata standaardiseren maakt het mogelijke zoekstrategieën en tools te ontwikkelen ▶mogelijkheden van digitale tools nemen enorm toe: soms wordt metadata de limiterende factor 18-4-2024
  • 5. Metadata productie ▶NBD Biblion metadateert 15000 titels per jaar ▶traditioneel door bibliografen / catalografen ▶twee soorten klassieke metadata ▶bibliografisch (feitelijk) ▶redactioneel (interpretatie) ▶doel-specifieke metadata ▶aanschafinformatie ▶recommendation tools ▶metadata voor scholen
  • 6. Waarom automatisch metadateren? In 2018 is NBD Biblion begonnen met automatisch metadateren, met als doelen: ▶sneller en goedkoper produceren ▶objectievere metadata ▶toekomstbestendig zijn 18-4-2024
  • 7. Sneller en goedkoper metadateren Voor automatisch metadateren ▶ bibliografische en redactionele metadata door 40 bibliografen bij NBD Biblion ▶ op basis van papieren boeken ▶ Aanschafinformatietekst werd geschreven door 700 recensenten die een boek opgestuurd kregen: gemiddeld 6 weken Huidige situatie ▶ 95% op basis van digitale vormen van het boek ▶ AI pipeline levert alle metadata ▶ handmatige checks en correctie ▶ digitaal boek binnen 24 uur gemetadateerd 18-4-2024
  • 8. Objectiever metadateren? Voor automatisch metadateren: ▶ recensenten leverden een mening over het boek ▶ moeilijk objectiviteit af te dwingen / te meten Beoogd doel: ▶ metadata produceren zonder waardeoordeel ▶ AI pipeline levert alle metadata ▶ onbevooroordeeld advies aan collectioneurs ▶ objectieve vergelijkingen metrieken 18-4-2024
  • 9. Toekomstbestendig metadateren 12-4-2024 ▶ ondersteuning voor toekomstige concepten en nieuwe inzichten en classificaties ▶ integratie met innovatieve tools ▶ dynamische, adaptieve boek omschrijvingen ▶ aanpasbaar aan verschillende formaten en standaards
  • 10. Hoe werkt automatisch metadateren? ▶ digitaal boek (print-pdf, scan/OCR, epub) ▶ digitale workflow, parallel aan papieren stroom ▶ pipeline met 60+ custom AI algoritmes ▶ menselijke check (outlier detection, probability, etc.) ▶acceptabele foutmarge: 0% ▶metadata gaat naar gedeelde nationale catalogus ▶metadata wordt verwerkt in fysieke boeken 12-4-2024
  • 11. Uitdagingen 12-4-2024 Technisch ▶veel informatie ‘tussen de regels’ ▶boeken zijn lang; groot context window nodig ▶AI algoritmes hebben veel (GPU) power en geheugen nodig, zowel in training als in evaluatie ▶relative sparsity: bijv. trefwoorden Inhoudelijk ▶gewenste uitkomsten soms subjectief ▶zeer diverse dataset ▶veel kennis nooit goed vastgelegd
  • 12. AutoMeta pipeline ▶algoritmes voor deelproblemen ▶genre, thema, trefwoord, tijdperk ▶leesniveau, complexiteit, stijl ▶colofon, logo’s, etc. ▶ gebruik van standaard libraries ▶PyTorch, SkLearn etc. ▶transformers, BERT, spacy ▶ gebruik van volledige tekst van het boek: ▶te groot voor off the shelf algoritmes ▶complexe information density ➡ veel custom machine learning 18-4-2024
  • 16. Nieuwe toepassingen van metadata ▶ recommendation tools ▶ interactief boeken vinden ▶ gepersonaliseerde aanbevelingen ▶ leesbevordering op scholen ▶ ondersteuning in de bibliotheek ▶ collectioneren ▶ analyse van de collectie op nieuwe aspecten ▶ tools om collectie op beleid aan te laten sluiten
  • 17. Nieuwe toepassingen van metadata Demo
  • 18. Voorbeeld: Transparante collectie Inclusie en neutraliteit kunnen op gespannen voet staan: liever informeren dan censureren. AI kan de bibliotheek helpen: ▶ verouderd of denigrerend taalgebruik detecteren ▶ achterhaalde concepten signaleren: • genderstereotypes • achterhaalde standpunten over etniciteit, kolonialisme, etc ▶ we weten nog niet welke concepten over 10 jaar onacceptabel zijn • dierenrechten? vlees eten? reuzen en dwergen? links gedachtengoed? door metadata niet vast in steen te zetten, kunnen we ons aan tijd, locatie en doelgroep aanpassen 18-4-2024
  • 19. Metadata R&D bij NBD Biblion ▶ Buitenlandse talen ▶ Pools, Arabisch, Chinees ▶ Automatische metadatering naar 100% correct ▶ Inclusie, diversiteit en metadata ▶ alternatieve catalogusinteractie (chatbots etc.) ▶ vertalen en hertalen van metadata ▶ Gebruik van verantwoorde LLM’s 18-4-2024
  • 20. Conclusie Automatisch metadateren is sinds 2021 in productie bij NBD Biblion Ontwikkeling en verbetering loopt nog steeds door: foutloze AI op een bijzondere dataset blijft vooralsnog een grote uitdaging Nieuwe toepassingen op basis van metadata en AI helpen bibliotheken om de juiste boeken in hun collectie te hebben en ze te koppelen aan lezers en evenementen 18-4-2024

Notes de l'éditeur

  1. Diversiteit en inclusie zijn complexe, moeilijke maar ook heel belangrijke begrippen. Bibliotheken zijn hard bezig om een vertrouwde en veilige plek voor alle bezoekers te zijn en te blijven, bijv. door  Thema's uit te lichten  Verouderd taalgebruik te herzien De collectie beter aan te laten sluiten op de diversiteit van de huidige samenleving
  2. Diversiteit en inclusie zijn complexe, moeilijke maar ook heel belangrijke begrippen. Bibliotheken zijn hard bezig om een vertrouwde en veilige plek voor alle bezoekers te zijn en te blijven, bijv. door  Thema's uit te lichten  Verouderd taalgebruik te herzien De collectie beter aan te laten sluiten op de diversiteit van de huidige samenleving
  3. Inclusie revolutie – ruimte voor diversiteit, verschillen erkennen, elkaar respecteren, maar wel ter aller tijden zeggen, dit is er