1. 1
Le crowdsourcing à la BnF,
est-ce ?
Bilan d’une plate-forme de correction collaborative
Jean-Baptiste Vaisman
Service Numérisation
Bibliothèque nationale de France
2. Une qualité OCR disparate pour un grand
volume d’ouvrages numérisés
2
Premier objectif
Obtenir la conformité à
l’original en évaluant la
qualité de la
numérisation et en y
apportant les corrections
nécessaires
OCR
230 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
3. De nouveaux territoires d’usage du
document
Recherche d’information en plein texte
Emergence de nouveaux supports
Exigence d’accessibilité étendue
Deuxième objectif
Corriger et enrichir les
documents pour répondre
à ces nouveaux besoins
et ainsi améliorer leur
accès et leur diffusion
330 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
4. Enjeux scientifiques et techniques
Correction
Structure
Enrichissement
Accessibilité
Diffusion
Indexation
------------------
------------------
------------------
------------------
-----------
430 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
5. Le projet de recherche FUI 12 Ozalid
Conception de la plateforme collaborative
de correction et d’enrichissement de documents numérisés
Crowdsourcing et réseau social
• Le réseau social comme support de la collaboration
Approche par expérimentation
• Gallica : un cadre d’usage opérationnel
Coopération homme-machine enrichie
• Outils d’apprentissage incrémental ou de propagation des
actions
530 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
6. Un consortium pluridisciplinaire
– Orange Labs : Coordinateur, architecture, écrit numérique
– BnF : Expérimentation, corpus, animation de réseaux sociaux
– Jamespot : Réseaux Sociaux, crowdsourcing
– Urbilog : Webservices, composants d'interface
– I2S : chaînes de numérisation, études d’industrialisation
– ISEP : Traitement d'image
– INSA Lyon : Traitement d'image
– Université Claude Bernard : apprentissage, analyse d'activité
– Université Paris 8 : Ergonomie, sociologie et accessibilité
630 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
7. Trois modules interconnectés
Moteur autocontrôle
Editeur de
correction
Réseau social
730 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
8. Principe de fusion des corrections
Nouvelle référence
du document
• 2 rôles (correcteur et animateur)
mais pas de hiérarchie entre les
utilisateurs
• Chaque utilisateur travaille sur une
version qui lui est propre (épreuve
utilisateur). Elle sera fusionnée avec
les corrections des autres utilisateurs
lors de la génération d’une nouvelle
référence.
• La génération d’une nouvelle
référence peut entrainer des conflits
d’interprétation (ou alternatives) qui
sont gérés par des mécanismes de
levée de doute.
Gr A Gr B
p8
p23
p37
p8
p56
p12
Fusion
approuve
approuva
Levée de doute
x
Document de référence
830 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
9. Comment motiver les usagers à
contribuer à un projet de crowdsourcing ?
• Un état de l’art des projets de crowdsourcing a mis en
lumière trois enjeux pour leur réussite :
– Recrutement : comment faire connaître le projet, comment faire
venir des contributeurs potentiels ?
– Motivation / adhésion : comment convaincre l’usager de
contribuer ?
– Animation / cohésion : comment maintenir l’implication des
usagers, les convaincre de devenir des contributeurs réguliers ?
Pauline Moirez, Jean-Philippe Moreux et Isabelle Josse, Etat de l’art en matière de
crowdsourcing dans les bibliothèques numériques, 02/2013, disponible en ligne :
http://www.bnf.fr/documents/crowdsourcing_rapport.pdf
930 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
10. Une plateforme au croisement du
participatif et du collaboratif
• Accueillir tous les types de contributeurs
– Des interfaces intuitives pour une prise en main facile
– Permettre de participer en mode anonyme
• Le réseau social comme levier du crowdsourcing
– Susciter l’émulation par la collaboration
– Créer du lien entre les contributeurs en développant la socialisation
par affinités
• Permettre aux utilisateurs de s’emparer de la plateforme
– Offrir des fonctionnalités de discussion pour faciliter les échanges
entre contributeurs
– Permettre à tout correcteur de devenir animateur d’un groupe de
correction
1030 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
11. Identifier les leviers de motivation
les statistiques d'usages de Gallica
les usages de documents de Gallica constatés sur le web
les usages possibles
Documents les plus consultés ou téléchargés Sciences occultes
Collection "Patrie"Cuisine & gastronomie Témoins de la Grande Guerre Romans d’anticipation
Collection "Crimes et châtiments" Contes d’ici et d’ailleurs Voyage à Paris Les jeux
1130 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
12. Une communication ciblée et récurrente
Lancement par les réseaux
sociaux Gallica
Billet général de présentation de
Correct sur le blog Gallica sur la
page Facebook
Tweet général et tweets ciblés
auprès des comptes de
communautés identifiées
Communication thématique et
évènementielle
Communication thématique sur un
corpus ou un sujet d’actualité
En prévision : Atelier de correction
événementiel (on-line
ou en présentiel)
autour d’un
document ou
d’un corpus
Témoins de la Grande Guerre
1230 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
13. 2012-2013 2013-2014 2014-2015
RECHERCHE / PROTOTYPE
Mener en parallèle recherche et expérimentation
13
EXPERIMENTATION
Expérimentation 3
Observation continue
des activités de la
plateforme
Réalisation d’une
étude d’usage
Expérimentation 1
En avril 2013 ,
expérimentation du
1er prototype de
l’éditeur de correction
Expérimentation 2
Le 19 juin à La BnF,
expérimentation en
réseau, réalisée
simultanément à
distance et à la BnF
Editeur de correction Module réseau social Ouverture de Correct
1330 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
14. 1ère expérimentation : 17-19 avril 2013
Observation des comportements en situation de correction
14
Les 17, 18, 19 avril 2013, à la BU de
Paris 8
24 personnes (dont 2 personnes en
difficulté de lire) ont testé notre
application sur PC en entretien filmé
d’1heure.
1430 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
15. 2ème expérimentation : le 19 juin 2013
Observation des activités en réseau
Jeu de rôle pour simuler la collaboration en réseau
• Des testeurs :
o En présentiel : 10 personnes réunies dans une salle de formation
o A distance : 22 personnes inscrites préalablement
• Des compères : 1 administrateur, 3 animateurs, 3 correcteurs complices
• Des observateurs : 4 expérimentateurs pour suivre l’activité de l’administrateur et
des animateurs, 2 maraudeurs pour observer les correcteurs en présentiel
1530 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
16. 24 novembre 2014 : ouverture de la plateforme correct
Expérimentation en conditions réelles
16
www.reseau-correct.fr
1630 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
17. Premiers résultats
(03/2015)
• Trois semaines après le lancement de Correct, un peu plus de 500
correcteurs inscrits et plus de 200 connexions en anonyme
• A la fin de l’expérimentation, sur 64 documents, 1 322 674 mots corrigés
pour 5 746 pages corrigées (1/3 du nombre total de pages mises à
disposition)
• Très bonnes audiences sur certains documents (74 correcteurs pour un
même document)
• 6 à 10 personnes revenaient chaque jour
• Réseau social :
– plus de 300 articles et plus de 200 commentaires
– 22 groupes formés dont 18 pour la correction et 4 groupes d’information pratique
1730 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
18. Réalisation d’une étude d’usage
• Analyse des indicateurs quantitatifs relatifs à
l’usage de la plateforme (11/2014-01/2015)
• Une enquête en ligne auprès des utilisateurs de
Correct (01/2015) : 159 réponses dont 59 sans
avoir testé la plateforme
• 4 focus group : entretiens collectifs organisés à la
BnF (02/2015, 31 participants)
• Recueil de carnets d’activité des correcteurs les
plus actifs
18
Etude d’usage réalisée par le Bureau Van Dijk et disponible en ligne :
http://www.bnf.fr/documents/correct_etude_usages.pdf
1830 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
19. Quelques chiffres sur les corrections
• Les 3 documents avec le plus grand nombre
de correcteurs :
1930 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Document Collection Nombre de correcteurs
inscrits
Contes populaires du Cambodge, du
Laos et du Siam, d’Auguste Pavie,
édition de 1903
Contes d’ici et
d’ailleurs
49
Impressions de guerre : extraits du
Journal de route d’un caporal du
153e régiment d’infanterie, édition
de 1917
Témoins de la
Grande Guerre
36
Le viandier, de Guillaume Tirel dit
Taillevent, édition de 1892
Cuisine &
gastronomie
20
20. Quelques chiffres sur les corrections
• Les 2 collections les plus corrigées :
20
Collection Part des visites Taux moyen de correction
des documents de la
collection
Romans
d’anticipation
22 % 68 %
Témoins de la
Grande Guerre
19 % 54 %
En comparaison
Contes d’ici et
d’ailleurs
19 % 31 %
2030 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
21. Quelques chiffres sur les corrections
• Les 4 collections avec le taux de correction le plus
élevé (> 60 %, sur la base de leurs 4 documents les
plus corrigés) :
Collection Taux moyen de
correction des
documents de
la collection
Commentaire
Crimes et châtiments 69 % Plus grand nombre de
corrections/correcteurs
Romans d’anticipation 68 % Plus grand nombre de
corrections
Sciences occultes 63 % Plus grand nombre de
pages corrigées
Contes d’ici et d’ailleurs 62 % Plus grand nombre de
correcteurs inscrits sur un
document (49)
2130 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
22. Portrait-robot d’un Correcteur
• Une personne active (78 %
des utilisateurs)
• Travaillant dans la culture
mais pas seulement (30 %
dans autres métiers)
• Qui peut avoir
– entre 18 et 35 ans (37%),
– 36 et 50 ans (32 %)
– entre 51 et 70 ans (26 %)
2230 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
23. Portrait-robot d’un Correcteur
• Un utilisateur de Gallica
+ Aimant la lecture et les services en
ligne
+ Curieux de découvrir ou d’enrichir
ses connaissances sur un thème
qui l’intéresse (principal facteur de
choix du document corrigé)
+ Peut être actif jusqu’au 24/12 à
16h
• Les 10 utilisateurs les plus actifs
ont réalisé près de 50 % des
corrections (minimum de 10 000
chacun)
2330 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
24. Principaux résultats de l’étude d’usage
• Des attentes d’amélioration d’interface des outils
ou du réseau social mais un potentiel reconnu
• Une attente des utilisateurs pour participer à
l’amélioration du contenu
• Une activité plutôt solitaire même si le réseau
social est vu comme un atout pour l’animation
• De nouveaux documents entraîne la participation
des utilisateurs
• Souhait d’enrichir les documents
2430 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
25. « Le projet Correct doit être maintenu. Si je
peux faire quelque chose pour qu’il perdure
je le ferai.
Le projet est formidable. C’est important ! »
Conclusion
2530 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
26. Merci de votre attention
jean-baptiste.vaisman@bnf.fr
2630 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016