Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits
1.
Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.
Artefacts attestés et conservés,
cotes historiques, factices, actuelles…
pour la création d'un référentiel
(et d’un ISMSN ? International Standard Manuscript Shelfmark Number)
Eduard Frunzeanu, Bénédicte Giffard, Régis Robineau
avec la collaboration d’Anne-Marie Turcan-Verkerk
2.
Objectifs :
Créer et alimenter des corpus qui font sens.
Les réunir autour d’une problématique commune pour
parvenir à une masse de données significative.
Permettre leur interrogation conjointe,
et leur réutilisation.
Bibliotheca bibliothecarum novissima
équipement de données sur la transmission
des textes anciens
3.
– Campus Condorcet (coordinateur)
– Bibliothèque nationale de France
– CESR, Tours (UMR 7323)
– CIHAM, Lyon-Avignon (UMR 5648)
– CRAHAM, Caen (UMR 6273)
– Ecole nationale des chartes, CJM (EA 3624)
– Ecole Pratique des Hautes Etudes, SAPRAT (EA 4116)
– Institut de recherche et d’histoire des textes (UPR 841)
– Pôle document numérique de la MRSH de Caen (USR 3486)
– … et bientôt les Archives Nationales
les partenaires
4.
• Un projet sur 7 ans (2012-2019)
• 100 chercheurs et ingénieurs
• environ 45 contrats / an
• une “équipe portail”: 5 personnes en 2017
coord. : Régis Robineau (Biblissima / EPHE)
Biblissima c’est
5.
une cinquantaine de projets
scientifiques et techniques
Engranger, créer, exposer des données
à une grande échelle et à différents niveaux,
selon des thématiques et des priorités
définies par le projet.
6.
une infrastructure numérique
créer un système
de gestion et d’analyse des données historiques pour
donner un accès simple
à des données complexes et hétérogènes
7.
Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.
la mission de Biblissima :
fédérer les bibliothèques numériques
structurer les corpus et les communautés :
politique scientifique
former les communautés
faciliter l’accès aux ressources textuelles et
documentaires
8.
mission accomplie : le portail
Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.
10.
http://beta.biblissima.fr/
Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.
11.
Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.
l’objectif opérationnel :
créer de facto un référentiel de manuscrits et d'imprimés, pour :
permettre la fusion des données d'un même manuscrit décrit dans
plusieurs bases
normaliser les différentes formes de cotes issues des bases, en
retenant une forme dite « canonique »
avoir des URI stables et uniques pour chaque manuscrit (en tant
qu'URL de la page web d'un manuscrit dans le portail, et en tant
qu'identifiant du manuscrit en tant que tel dans les données RDF)
12.
Alimenter et maintenir via OpenRefine un fichier de
fusion et de normalisation de toutes les cotes
présentes dans les différentes bases à traiter (à
partir des exports xml fournis directement par les
partenaires ou générés par Biblissima à partir de
dumps).
Pour chaque manuscrit ou imprimé, il s'agit de :
aligner toutes les formes possibles des cotes et vérifier
qu’il s’agit bien d’un même manuscrit ou imprimé
récupérer la forme « canonique » de la cote (quand elle
existe) telle qu’elle est employée dans la bibliothèque
concernée
Etape 1
13.
Alimenter et maintenir via OpenRefine un fichier de
fusion et de normalisation de toutes les cotes
présentes dans les différentes bases à traiter (à
partir des exports xml fournis directement par les
partenaires ou générés par Biblissima à partir de
dumps).
Pour chaque manuscrit ou imprimé, il s'agit de :
aligner toutes les formes possibles des cotes et vérifier
qu’il s’agit bien d’un même manuscrit ou imprimé
récupérer la forme « canonique » de la cote (quand elle
existe) telle qu’elle est employée dans la bibliothèque
concernée
générer pour chaque item un identifiant unique
alphanumérique sur la base de la concaténation de
l'identifiant unique de l'établissement de conservation et
de la chaîne de caractères de la cote « canonique ».
Etape 1
14.
Ces formes canoniques et ces identifiants sont
ensuite injectés grâce à des scripts dans les exports
XML pivot de chaque base de données.
Exemple de la BnF : c'est à cette étape que l'on
récupère automatiquement les URL des
numérisations Gallica (si elles ne sont pas déjà
indiquées dans la base source)
ainsi que les identifiants ARK de BAM (qui
permettent de construire le lien pérenne vers la
notice BAM qui apparaîtra dans la section "Sources
des données" de la page du manuscrit).
Etape 2
15.
Au moment de l'import des données dans le portail
Biblissima, Cubicweb se base sur ces identifiants
pour fusionner les informations et créer une seule
page web pour un même manuscrit.
Etape 3
16.
Au moment de l'import des données dans le portail
Biblissima, Cubicweb se base sur ces identifiants
pour fusionner les informations et créer une seule
page web pour un même manuscrit.
Avantage : une solution pragmatique
applicable de manière unifiée à tous les cas présents
dans les données :
manuscrits attestés
Incunables sans cote
manuscrits ou incunables conservés
manuscrits ou incunables avec / sans URI pré-
existante (BAM ou Medium par ex.)
Manuscrits ou incunables avec plusieurs URI
potentielles (doublons BAM, BAM+Medium...)
et tous les cas imprévisibles…
Etape 3
17.
Ce référentiel est accessible en bout de chaîne sur
le portail à travers le point d'entrée « Manuscrits et
imprimés anciens ».
A terme il sera aussi exploitable et requêtable par
des programmes informatiques à travers le Sparql
endpoint.
Il pourrait également être disponible sous la forme
d'un gros fichier à télécharger (CSV ou autre).
Etape 4
18.
Sous une forme structurée, ce référentiel pourrait se
composer des éléments suivants (quand la cote existe)
:
forme canonique de la cote (celle utilisée sur le portail et qui a
servi à créer l'identifiant Biblissima du manuscrit)
forme canonique de la cote complète (telle qu'affichée partout
sur le portail) : concaténation de "Pays / Ville / Etablissement
de conservation / [Département] / Cote / [Folios] »
URI Biblissima du manuscrit (ex.
http://beta.biblissima.fr/ark:/43093/
mdatad8066ee591c0b7ddc381b7072a0e4679fa32b34b)
forme retenue du nom de l'établissement de conservation
URI Biblissima de l'établissement de conservation (ex.
http://beta.biblissima.fr/fr/ark:/43093/cdatacb12511198k)
URI externes, avec le cas échéant : URI BAM
(ex. http://archivesetmanuscrits.bnf.fr/ark:/12148/cc73235f/cd0e
1607), URI Medium
(ex. http://medium.irht.cnrs.fr/ark:/63955/md5370796399)
19.
Quelques chiffres :
— Medium (IRHT) : 80 000 cotes
(tous pays, diverses langues)
mapping avec les 258 000
citations de manuscrits
dans Scriptorium : ID Medium
— 100 000 cotes au minimum dans les ressources Biblissima
Accroissements à prévoir :
exemplaires imprimés
cotes d’archives
20.
Step by step
1. Harmonisation et nettoyage au sein de Bibale et de Medium
(terminé)
liste des manuscrits sans ID Medium (attestés, perdus, en mains privées… :
1132 mss)
harmonisation du libellé des cotes entre les deux bases
nettoyage et « normalisation » du libellé des manuscrits attestés
vérification et correction des ID fautifs (ID Medium qui était fautivement
attribué à deux manuscrits différents ou à un manuscrit qui n’avait rien à
voir)
élimination des doublons éventuels
Export initial de Bibale + Medium = 6330 composants
une fois le nettoyage fini : 5113.
21.
Step by step
2. Harmoniser Bibale / Pinakes / Jonas / Medium en ce qui
concerne les cotes BnF
(dans le but de lister toutes les cotes BnF présentes dans les bases
IRHT, afin de récupérer leur ID BnF pour ensuite leur attribuer un ID
Biblissima)
Travail par étapes (exports trop lourds pour être traités par Open Refine
d’un coup) :
Récupérer les manuscrits BnF pour Bibale et Jonas
Ajouter Medium et enfin Pinakes.
A chaque étape :
Repérer et éliminer les doublons, afin d’établir une seule liste des
composants BnF présents dans les 4 bases.
Comparer la forme de la cote dans la base étudiée et celle de BAM.
Ajouter à chaque manuscrit, la cote libellée selon la forme canonique
BnF.
22.
Step by step
3. Poursuivre ce travail pour l’ensemble des ressources Biblissima
actuelles
23.
Step by step
3. Poursuivre ce travail pour l’ensemble des ressources Biblissima
actuelles
4. Prévoir le même travail pour les ressources nouvelles
24.
Step by step
3. Poursuivre ce travail pour l’ensemble des ressources Biblissima
actuelles
4. Prévoir le même travail pour les ressources nouvelles
5. Assurer la pérennisation du référentiel, et donc de Biblissima
25.
Step by step
3. Poursuivre ce travail pour l’ensemble des ressources Biblissima
actuelles
4. Prévoir le même travail pour les ressources nouvelles
5. Assurer la pérennisation du référentiel, et donc de Biblissima
6. Pas de pérennisation sans gouvernance : fixer les règles de
maintien et développement du référentiel avec tous les partenaires
26.
Step by step
3. Poursuivre ce travail pour l’ensemble des ressources Biblissima
actuelles
4. Prévoir le même travail pour les ressources nouvelles
5. Assurer la pérennisation du référentiel, et donc de Biblissima
6. Pas de pérennisation sans gouvernance : fixer les règles de
maintien et développement du référentiel avec tous les partenaires
Merci !
27.
http://beta.biblissima.fr/
http://www.biblissima-condorcet.fr/
merci à
eduard.frunzeanu@biblissima-condorcet.fr
benedicte.giffard@irht.cnrs.fr
regis.robineau@biblissima-condorcet.fr
et
kevin.bois@biblissima-condorcet.fr
pauline.charbonnier@biblissima-condorcet.fr
elizabeth.macdonald@biblissima-condorcet.fr
anciennes collaboratrices : Stefanie Gehrke, Anita Mazur, Marie Muffat
Il semblerait que vous ayez déjà ajouté cette diapositive à .
Créer un clipboard
Vous avez clippé votre première diapositive !
En clippant ainsi les diapos qui vous intéressent, vous pourrez les revoir plus tard. Personnalisez le nom d’un clipboard pour mettre de côté vos diapositives.
Créer un clipboard
Partager ce SlideShare
Vous avez les pubs en horreur?
Obtenez SlideShare sans publicité
Bénéficiez d'un accès à des millions de présentations, documents, e-books, de livres audio, de magazines et bien plus encore, sans la moindre publicité.
Offre spéciale pour les lecteurs de SlideShare
Juste pour vous: Essai GRATUIT de 60 jours dans la plus grande bibliothèque numérique du monde.
La famille SlideShare vient de s'agrandir. Profitez de l'accès à des millions de livres numériques, livres audio, magazines et bien plus encore sur Scribd.
Apparemment, vous utilisez un bloqueur de publicités qui est en cours d'exécution. En ajoutant SlideShare à la liste blanche de votre bloqueur de publicités, vous soutenez notre communauté de créateurs de contenu.
Vous détestez les publicités?
Nous avons mis à jour notre politique de confidentialité.
Nous avons mis à jour notre politique de confidentialité pour nous conformer à l'évolution des réglementations mondiales en matière de confidentialité et pour vous informer de la manière dont nous utilisons vos données de façon limitée.
Vous pouvez consulter les détails ci-dessous. En cliquant sur Accepter, vous acceptez la politique de confidentialité mise à jour.