De l'usager au catalogue : métadonnées sociales pour les archives et les bibliothèques
1. ’USAG ER AU
DE L
CATAL OGUE
es sociales
Méta donné et les
les ar chives
pour ques
bib liothè
CC BY-NC-ND jonathan_W, Flickr
Pauline Moirez, BnF
#CRESAT2012
28/09/2012
5. Inventer de nouvelles
relations avec nos
usagers
CC BY-NC-SA Emily Taliaferro Prince, Flick
6. … pour enrichir
nos catalogues et
inventaires, et
l’offre faite à nos
usagers
CC BY fibroblast, Flickr
7. Une terminologie fluctuante…
qui reflète les attentes des
institutions culturelles
Crowdsourcing
Web collaboratif Métadonnées
sociales
Web participatif
CC BY-NC-SA monmimoun, Flickr
9. o llabo ratif
W eb c
Échanges, interaction
Communautés
Travail en commun
COMMENT ?
10. articipatif
Web p
Interaction de haut niveau
Connaissances et
compétences des usagers
Co-construction
patrimoniale
QUOI ?
11. Les archives participatives
Un organisme, un site ou une collection
auxquels des personnes qui ne sont pas
des professionnels des archives apportent
leur connaissance ou ajoutent des
contenus, généralement dans un contexte
numérique en ligne. Il en résulte une
meilleure compréhension des documents
d’archives.
Kate Theimer
12. adon nées
Mét
soc iales
Amélioration et
enrichissement des
descriptions de nos fonds et
collections
Etude OCLC
2011
Social Metadata
POUR QUOI ? for Libraries,
Archives and
Museums
14. Les métadonnées sont le turbo
des inventaires et des catalogues
CHERCHER, EXPLORER
TROUVER
IDENTIFIER, CONSULTER
(PRESERVER)
R IE N QUE ÇA !
Source : Internet Archive
15. Les métadonnées ne naissent ni
dans les roses ni dans les choux
professionnelles
automatiques
… ou sociales !
CC BY-SA T. Kiya, Flickr
54. Et bien d’autres
questions encore…
QUALITE
FORMATS
CC BY-ND Helga Weber, Flickr
NORMALISATION
…
55. Merci de votre attention
pauline.moirez@bnf.fr
@archives_masala
CC BY-NC Go Esewhere, flickr
Notes de l'éditeur
On parle de web collaboratif et d’institutions culturelles en insistant sur la richesse des interactions avec les usagers, sur les volumes produits, sur les enjeux incroyables que représente le crowdsourcing pour les bibs et les archives, mais rarement en se posant la question concrète de l’apport pour nos catalogues. Alors que concrètement le but est bien d’enrichir nos catalogues, nos inventaires, nos instruments de recherches, nos bases de données !
Les données des catalogues des bibliothèques et des IR des archives sont parfaitement à leur place sur le web : elles diffusent des contenus riches, des informations qualifiées et structurées.
Parce que c’est bien de cela qu’il s’agit ! Donner une nouvelle visibilité à nos catalogues et à nos inventaires, les enrichir des données produites par nos usagers. On parle de web collaboratif et d’institutions culturelles en insistant sur la richesse des interactions avec les usagers, sur les volumes produits, sur les enjeux incroyables que représente le crowdsourcing pour les bibs et les archives, mais rarement en se posant la question concrète de l’apport pour nos catalogues. Alors que concrètement le but est bien d’enrichir nos catalogues, nos inventaires, nos instruments de recherches, nos bases de données ! Bref, produire de nouvelles métadonnées, des données d’un nouveau genre…
La fluctuation de la terminologie ne reflète pas tant la diversité des projets (qui est réelle mais qui peut être désignée de façons différentes) que les enjeux que l’on y met. Interroger la terminologie permet donc de multiplier les angles d’analyse de ce web … collaboratif, participatif…?
On parlera de « crowdsourcing pour désigner des projets collaboratifs de grande ampleur, et l’accent sera davantage mis sur le nombre des participants, sur la notoriété du projet, sur la constitution de communautés de contributeurs, que sur la valeur scientifique de leurs contributions. Mechanical Turk
Et pas forcément un grand nombre de participants. Peut aussi servir à désigner l’apport de contenus par les usagers.
http://www.oclc.org/research/publications/library/2012/2012-01r.html = le croisement entre une activité et une destination donnée aux produits de cette activité
Données à propos de données , permettant de les référencer, de les décrire, de les manipuler « Les métadonnées sont des informations structurées qui décrivent , expliquent, localisent ou encore facilitent la découverte , l’ utilisation ou la gestion d’une ressource d’information. » Correspond à la fois aux descriptions archivistiques, aux notices bibliographiques, aux notices d’autorité et même au document comme sa propre métadonnée
Ce qui permet le signalement, la diffusion, l’accès, la « searchability » and « findability » de nos collections
Professionnelles Automatiques (techniques ou fouille de données) sociales
La numérisation et la mise en ligne ouvrent des possibilités nouvelles pour la constitution de métadonnées sociales INDEXATION COLLABORATIVE IDENTIFICATION DE PHOTOGRAPHIES CORRECTION D’OCR TRANSCRIPTION COLLABORATIVE Cette participation des usagers, qui peut exister sur de simples données bibliographiques, est renforcée par la mise en ligne des bibliothèques numériques. En effet, la mise à disposition des usagers de documents numérisés, images voire textes OCRisés, permet des opérations de crowdsourcing plus ambitieuses qui enrichissent notablement la description des documents : indexation, identification de photographies, correction d’OCR, ou encore transcription collaborative. La mise en ligne des documents numérisés permet de donner aux usagers les clefs pour contribuer à leur description.
Même problématique de la masse et typologies documentaires souvent similaires MAIS Unicité du document d’archives, programmes de numérisation massifs Multiplicité du document de bibliothèque, qui permet d’imaginer des mutualisations
Par rapport aux métadonnées professionnelles « classiques »
Enquête sur les usages des doctorants dans les universités de Bretagne : ressources documentaires utilisées : Google 96% - catalogue de la bibliothèque 65%
Un tagging encadré et contrôlé qui évite l’écueil du vandalisme documentaire
http://latribunedesarchives.blogspot.fr/2012/02/edition-collaborative-de-manuscrits-sur.html Les Archives départementales des Alpes-Maritimes collaborent depuis janvier 2012 avec Wikimedia France sur Wikisource afin d'utiliser cet outil collaboratif pour transcrire des sources manuscrites autour d'une petite communauté de paléographes. Ont déjà été mises en ligne trois visites pastorales des XVIIe-XVIIIe siècles.
Pour les archives, le web demande des inventaires plus précis, à la pièce, des bases de données nominatives identification, description et indexation au niveau de la pièce, voire transcription des contenus pour permettre une recherche en plein texte.
Ces techniques sont utilisées tout particulièrement pour l’identification de documents iconographiques, auxquels il est impossible d’accéder par un moteur de recherche s’ils ne disposent pas d’un minimum de données descriptives.
Les folksonomies apportent des termes qui correspondent davantage aux recherches des usagers: à la fois recherche plein texte, mais aussi besoins qui demandent de détourner le document de son utilité première (cf. moustaches) L’usager peut également être invité à enrichir l’indexation des ressources numériques, par l’ajout de mot-clefs ou « tags ». Ce processus d’indexation et de classification collaborative, par des mots-clés librement choisis par chaque internaute, est appelé « folksonomie ». Celle-ci n’apporte évidemment pas la qualité d’une indexation professionnelle normalisée et appuyée sur des référentiels contrôlés ; elle pose même des problèmes de polysémie, d’orthographe, d’absence de hiérarchie, ou encore de personnalisation des vocabulaires. Mais le tagging social fournit une indexation simple, gratuite et rapide, appuyée sur une large communauté d’usagers, qui couvre potentiellement tous les domaines de la bibliothèque numérique et tous les types de documents. De plus, ces folksonomies sont conformes aux usages du web, elles s’expriment dans des vocabulaires simples et intuitifs qui correspondent aux modes de recherche en langage naturel des usagers
la Bibliothèque du Congrès diffuse depuis 2008 environ 4600 photographies anciennes sur Flickr [1] , alliant ainsi la dissémination des contenus et l’ouverture à la participation des usagers. En un peu moins d’une année, ces photographies ont été vues plus de 10 millions de fois, 7000 commentaires ont été saisis, et 67 000 tags ajoutés. La fréquentation de la bibliothèque numérique a augmenté de 20 % pendant cette période. La qualité des commentaires a permis la mise à jour et l’enrichissement de 500 notices bibliographiques, tandis que les tags apportent des compléments notables à l’indexation professionnelle (par exemple, des informations géographiques, des traductions, des relevés d’objets ou de couleurs présents sur les photos).
> critiques, notes, etc. Mais problème de la masse critique! Qu’il s’agisse de l’évaluation d’un ouvrage (notation, commentaires), d’un partage sur des réseaux sociaux (par exemple via le bouton « J’aime » de Facebook) ou d’une véritable critique argumentée
Constitution et diffusion de « playlists », de galeries, de parcours thématiques qui pourront aider la recherche et le cheminement des autres visiteurs.
Ajout de photographies et géolocalisation Partenaires individuels et institutions (ex. Museum de Toulouse)
2.1. Face à la problématique de la masse commune aux archives et bibliothèques, les internautes apportent un volume de contributions qu’on n’aurait jamais imaginées Cf. Trove 2 millions de lignes Many hands make light work Indexation EC enrichir les catalogues dans des proportions que les institutions ne peuvent pas envisager seules Waisda? de l’Institut néerlandais pour le Son et l’Image, qui propose, sous forme ludique, l’indexation collaborative des archives de la télévision, et qui a rencontré un excellent succès public (plus de 340 000 tags ajoutés pendant les 6 premiers mois) Les chiffres sont parlants : aux Archives départementales de l’Ain, 500 000 pages ont été indexées en 2 ans ; aux Archives départementales du Cantal, 1000 indexations sont réalisées chaque jour
La bibliothèque numérique Trove [1] propose une stratégie globale et cohérente de crowdsourcing (tagging et commentaires) sur l’ensemble des collections. Le programme de correction collaborative d’OCR sur les périodiques numérisés reste toutefois l’aspect le plus innovant de l’ensemble. Mis en place depuis 2008, il propose aux internautes de participer à l’amélioration de la transcription de plus de 6 millions de pages (chiffres de mars 2012). 2 millions de lignes de texte sont ainsi corrigées chaque mois par environ 30 000 volontaires. L’intégration de ce service au cœur même de la bibliothèque numérique permet de rendre immédiatement disponibles aux internautes les enrichissements apportés. Le succès de l’opération repose notamment sur une bonne animation de la communauté des contributeurs (valorisés par la mise en avant chaque mois des « top correctors »), sur une interface ergonomique et agréable, et sur l’intégration des contributions des internautes aux fonctionnalités de recherche, ce qui met en avant leur richesse et leurs apports et améliore notablement l’aisance de recherche dans les collections. [1] Rose Holley, Many Hands Make Light Work: Public Collaborative OCR Text Correction in Australian Historic Newspapers , 2009, http://www.nla.gov.au/ndp/project_details/documents/ANDP_ManyHands.pdf. http://www.diglib.org/forums/2012forum/no-tempest-in-my-teapot-analysis-of-crowdsourced-data-and-user-experiences-at-the-california-digital-newspaper-collection/ This rate has since risen to approximately 2,400,000 lines per month (June 2012). The top producer alone has corrected more than 2,250,000 lines.
Mais également regroupement/capitalisation de compétences particulières dont ne disposent pas forcément les professionnels (ex. identification de photos)
Comment motiver les contributeurs ? Comment obtenir la masse critique de participations qui justifie la mise en place des programmes La question de la motivation (on n’est pas Mechanical Turk)
Les Archives nationales du Royaume-Uni participent au projet Old Weather [1] de transcription et géolocalisation collaborative des relevés météorologiques manuscrits réalisés par les navires de la Marine royale au début du XXe siècle. L’objectif est de disposer de bases de données météorologiques complètes et fiables, sur lesquelles les météorologues pourront appuyer des études scientifiques pour comprendre et modéliser le climat d’aujourd’hui et ses évolutions demain.
Citizen archivist
AD Cantal
Waisda
NARA Animation de communauté, reconnaissance, récompenses, compétition Mise en avant des tops contributeurs Utilisation de leur production Rendre des comptes sur l’état d’avancement (il faut toujours qu’i len reste à faire, mais si ça avance, c’est bien) 1940USCensus https://the1940census.com/resources/1940-census-state-progress/
8 catalogues sur 10 intègrent la participation de l’usager, mais 4 sur 10 seulement intègrent les métadonnées sociales dans leurs résultats de recherche (Marc Maisonneuve)
Où générer les contributions ? Si hors site, comment les recentraliser ? partenariat BnF/Wikisource (Ouvrir des documents à la transcription collaborative : BnF : 1500 livres sur Wikisource http://blog.wikimedia.fr/rencontres-wikimedia-2010-le-partenariat-entre-wikimedia-france-et-la-bibliotheque-nationale-de-france-2391)
Qualité AD Ain : test de paléo 1940Census bac à sable poru s’exercer Ailleurs : souvent double ou triple vérifications Formats Quelles conséquences pour nos métadonnées professionnelles? Introduction de données géographiques? Evolution de nos formats pour intégrer ces données ? Quels formats ?