Calames Histoire naturelle, anatomie et dissection
Calames et l’ABES Calames  =  Ca talogue en  l igne des  a rchives et des  m anuscrits de l’ e nseignement  s upérieur ABES  =  A gence  b ibliographique de l’ e nseignement  s upérieur Sudoc (monographies, périodiques…)    PeB Calames (manuscrits, archives) Star (workflow des thèses électroniques) Groupement de commandes pour la doc. élec. …
Plan Genèse de Calames Anatomie de Calames Dissection de Calames
Genèse de Calames
2. Genèse de Calames a.   La naissance du projet
Les 2 faces de Calames une interface de consultation et de recherche  (ouverte depuis le 1 er  décembre 2007) un outil de catalogage  (rodage à partir d’avril 2008, avec 9 établissements)
Périmètre de Cal am es (1)   Quels documents ?    Manuscrits  et  archives diversité :  ms. médiévaux, papiers de chercheurs ou d'érudits, ms. littéraires contemporains, archives audiovisuelles, … quelles limites ?
Périmètre de Calam es  (2) Quels établissements ? Etablissements d’enseignement supérieur : en majorité des bibliothèques mais les bibliothèques ne sont pas les seuls partenaires    Calames, c'est aussi un réseau
Calames : pourquoi ? Fonds de manuscrits : peu décrits au mieux en format MARC dans les catalogues de bibliothèques  format peu adapté à la structure des données, recherche parfois difficile, mais au moins disponible en ligne beaucoup d’inventaires manuscrits, dactylographiés ou imprimés : consultables sur place encore beaucoup de fonds tout juste inventoriés, et à peine accessibles
Une opportunité : le CGM Projet d’informatisation du  Catalogue général des manuscrits des bibliothèques publiques de France 116 volumes, 182 000 notices, publiés entre 1849 et 1993 tous types de « bibliothèques publiques » : municipales, universitaires, sociétés savantes, ministères, BN (Arsenal)…
Le projet CGM Projet interministériel (Culture + Ens. Sup.) lancé en 2001 Choix d'une structure XML   : DTD EAD (Encoded Archival Description) Accès commun par le CCFr mais chacun disposera de ses données   (pour l'Ens. Sup. : l’ABES + chaque bibliothèque)
Palme Répertoire de manuscrits littéraires français contemporains constitué entre 1995 et 2006  dans toutes sortes de bibliothèques françaises  hébergé dans BN-Opaline jusqu’en juin 2007 données converties en EAD
CGM + Palme = Deux opportunités pour mener une politique des manuscrits globale, dans le périmètre Ens. Sup.    autour du réseau et des outils Calames
Politique Ens. Sup. Catalogage centralisé en ligne Sécurité Cohérence Esprit réseau Simplicité Hors Sudoc Fonctionnalités avancées Catalogue collectif en ligne, mais … Exports vers les outils locaux (Pléade…) Vues locales et customisées sur le catalogue Données réutilisables (SRU, RDF…)
2. Genèse de Calames b.   La déroulement du projet
Le projet Calames :  quand ? Conception :  mars – décembre 2006 Développements :  janvier – juillet 2007 Tests et ajustements :  juillet – novembre 2007 Chargement des données EAD :  octobre 2007 – février 2008 Lancement de Calames (interface publique) :  1 er  décembre 2007 Ouverture de l’interface de catalogage :  avril 2008
Les contraintes du projet Les délais : 18 mois La masse des données La structure des données EAD Les performances L’extensibilité Ouverture (recherche fédérée SRU, moteurs…)
Les contraintes du projet (suite) Les exports en UNIMARC La gestion des autorités
La solution retenue Développer à partir de solutions XML génériques : Une base de données mixte (XML + relationnel)  Un éditeur XML générique et accessible par un navigateur
Qui a travaillé sur  les outils ? Choix de développer des outils en interne 2 informaticiens (conception + développement) 2 bibliothécaires Appel à un graphiste professionnel Appui sur le groupe de travail ES de la rétroconversion
Le groupe de travail composition : SDBIS, bibliothèques avec de riches fonds de manuscrits, dont des experts et formateurs EAD  Jacqueline Artier (Sorbonne), Pascale Heurtel (Museum), Patrick Latour (Mazarine), Gérard Littler (BNUS), Max Naudi (SDBIS), Fabienne Queyroux (Institut), Nathalie Rollet (BSG), Mireille Vial (BIU Montpellier) travail concomitant sur la préparation des données et sur les développements des outils    avantages et inconvénients
Relations ABES / Groupe de travail Forte interaction Itérations spécifications/développements ABES, force de proposition (scénarios, prototypes, maquettes…)   Pas du « développement agile », mais ça y ressemble
2. Anatomie
Questions clés Comment stocker la structure XML EAD ? Comment l’indexer ? Comment y accéder ? Comment l’afficher
2 méthodes Le fichier EAD en tant qu’instance XML Le fichier EAD en tant que base de données    Calames utilise les deux méthodes
Méthode 1 : EAD en tant que  XML Exploiter le fichier  tel quel On garde toutes la richesse des données On utilise des outils standard : XQuery pour interroger XQuery update (en développement au W3C) Méthode utilisée pour le  catalogage  dans Calames XML-DML (Microsoft) en attendant XQuery update
Méthode 1 : EAD en tant que  XML Le fichier EAD est stocké et mis en mémoire comme un  tout Dans l’interface de catalogage, il est affiché et modifié  bloc par bloc Démo Calames Catalogage Souplesse maximale
Méthode 1 : EAD en tant que  XML Pourquoi ne pas utiliser encore cette méthode pour la recherche et la consultation ? problèmes de performance problèmes de la recherche Full Text    Le « tout XML » n’est pas encore prêt
Méthode 2 : EAD en tant que  base de données Traduire la structure EAD en base de données relationnelles Pour  : Technologie éprouvée et performante La régularité de l’EAD s’y prête assez bien Contre  : Trop rigide Comment gérer le contenu mixte ? <unittitle> Papiers de  <persname> Untel </persname></unittitle>
Méthode 2 : EAD en tant que  base de données Compromis dans Calames : Découper EAD en <c> liés Chaque <c> est stocké en tant qu’instance XML Le meilleur du relationnel et le meilleur d’XML
De la base à la page Web La base renvoie directement de l’XML… … qui est exploitable dans le navigateur
Interface AJAX AJAX =  Asynchronous JavaScript and XML Modifier une page Web de manière partielle, en allant chercher certaines infos XML (ou JSON) sur le serveur.    Permet une  interface plus réactive
Interface AJAX Le serveur envoie de l’XML C’est le navigateur (client) qui est en charge de construire l’HTML Avec Javascript Avec XSLT   le serveur est soulagé   performances améliorées
AJAX inconvénients et solutions Interfaces non accessibles par les handicapés visuels par les moteurs de recherche (robots)    Proposer une version dégradée du site en pur HTML (ex: Gmail)
3. Dissection
Méthode de dissection Scalpel  = Firebug (plugin Firefox) Observer le code (html, javascript, css, xslt) Observer les requêtes AJAX Observer les flux de données
2. Dissection de Calames a. La page de recherche
Anatomie > la recherche (1) Recherche simple par défaut Combinable avec recherche avancée Filtrage sur bibliothèque(s)   Apparition du champ  Cote Accès direct à chaque bibliothèque Feuilletage des index
Anatomie > la recherche (2) Chargement initial de données : Liste des bibliothèques (XML) Liste des langues (XML) Décodage des bibliothèques (JSON) Décodage des langues (JSON) Chargement initial de l’XSLT
Anatomie > la recherche (3) Feuilletage des index Listes dynamiques en fonction de la bibliothèque Autocomplétion ( search as you type ) Exploitation des renvois des autorités Sudoc
2. Dissection de Calames b. La page des résultats
Anatomie > les résultats (1) Une liste de résultats (1000 max) Une URL réutilisable Liste filtrée (traitements côté serveur) 50 résultats par page (car rapide) Tris Facettes
Anatomie > les résultats (2) Traitements sur la liste brute :  infanticide Si un lot de résultats contient un <c> parent et un de ses <c> enfants, on supprime l’enfant. Moins de résultats Moins de redondances Compense l’héritage (des dates, langues, sujets…) La navigation permet de retrouver l’enfant disparu
Anatomie > les résultats (3) Facettes Filtres  a posteriori  (non  a priori ) Évitent de reformuler la recherche Raffiner pas à pas la recherche Hélas, pas de mention du nombre d’occurrences (prix à payer pour infanticide…)
2. Dissection de Calames c. L’affichage des notices
Anatomie > les notices et leur contexte (1) Zoomer sur un composant <c> Pouvoir se déplacer autour : Les ancêtres Les enfants Les frères (avant et après) Pouvoir afficher plusieurs niveaux dans la même page Avoir une vue moins parcellaire Affichage et impression à la carte
Anatomie > l’arborescence Obtenir une vue plus large sur l’arborescence globale Enjeu = comment se promener dans des arbres composés de milliers d’items ?
Anatomie > les nuages  Vue globale sur un corpus
Anatomie > Liens sortants Lier vers des images, des transcriptions, des bibliographies… Lier sans vampiriser Lier sans  saisir  toutes les URL http://elec.enc.sorbonne.fr/miroir/donat/traduction/?para=paris2  ?
Anatomie > Liens entrants Aujourd’hui : URL stables et propres Demain : URL pérennes Dilemme pérennité / « usabilité » Sur quoi construire l’URL pérenne ? La cote ?    Réflexion en cours…
pour en savoir plus... Calames http://www.calames.abes.fr   Site de l’ABES  http://www.abes.fr/abes/page,580,manuscrits.html   Arabesques n° 48 et n° 49 http://www.abes.fr/abes/page,386,arabesques.html   Calames, le blog  http://calames.wordpress.com/   Nous écrire [email_address]
Crédits photos http://flickr.com/photos/54945394@N00/1338967778/   http://flickr.com/photos/drlopezfranco/1447712697/ http://flickr.com/photos/patrlynch/450129440/

Calames - presentation à l'ecole des chartes

  • 1.
    Calames Histoire naturelle,anatomie et dissection
  • 2.
    Calames et l’ABESCalames = Ca talogue en l igne des a rchives et des m anuscrits de l’ e nseignement s upérieur ABES = A gence b ibliographique de l’ e nseignement s upérieur Sudoc (monographies, périodiques…)  PeB Calames (manuscrits, archives) Star (workflow des thèses électroniques) Groupement de commandes pour la doc. élec. …
  • 3.
    Plan Genèse deCalames Anatomie de Calames Dissection de Calames
  • 4.
  • 5.
    2. Genèse deCalames a. La naissance du projet
  • 6.
    Les 2 facesde Calames une interface de consultation et de recherche (ouverte depuis le 1 er décembre 2007) un outil de catalogage (rodage à partir d’avril 2008, avec 9 établissements)
  • 7.
    Périmètre de Calam es (1) Quels documents ?  Manuscrits et archives diversité : ms. médiévaux, papiers de chercheurs ou d'érudits, ms. littéraires contemporains, archives audiovisuelles, … quelles limites ?
  • 8.
    Périmètre de Calames (2) Quels établissements ? Etablissements d’enseignement supérieur : en majorité des bibliothèques mais les bibliothèques ne sont pas les seuls partenaires  Calames, c'est aussi un réseau
  • 9.
    Calames : pourquoi? Fonds de manuscrits : peu décrits au mieux en format MARC dans les catalogues de bibliothèques format peu adapté à la structure des données, recherche parfois difficile, mais au moins disponible en ligne beaucoup d’inventaires manuscrits, dactylographiés ou imprimés : consultables sur place encore beaucoup de fonds tout juste inventoriés, et à peine accessibles
  • 10.
    Une opportunité :le CGM Projet d’informatisation du Catalogue général des manuscrits des bibliothèques publiques de France 116 volumes, 182 000 notices, publiés entre 1849 et 1993 tous types de « bibliothèques publiques » : municipales, universitaires, sociétés savantes, ministères, BN (Arsenal)…
  • 11.
    Le projet CGMProjet interministériel (Culture + Ens. Sup.) lancé en 2001 Choix d'une structure XML : DTD EAD (Encoded Archival Description) Accès commun par le CCFr mais chacun disposera de ses données (pour l'Ens. Sup. : l’ABES + chaque bibliothèque)
  • 12.
    Palme Répertoire demanuscrits littéraires français contemporains constitué entre 1995 et 2006 dans toutes sortes de bibliothèques françaises hébergé dans BN-Opaline jusqu’en juin 2007 données converties en EAD
  • 13.
    CGM + Palme= Deux opportunités pour mener une politique des manuscrits globale, dans le périmètre Ens. Sup.  autour du réseau et des outils Calames
  • 14.
    Politique Ens. Sup.Catalogage centralisé en ligne Sécurité Cohérence Esprit réseau Simplicité Hors Sudoc Fonctionnalités avancées Catalogue collectif en ligne, mais … Exports vers les outils locaux (Pléade…) Vues locales et customisées sur le catalogue Données réutilisables (SRU, RDF…)
  • 15.
    2. Genèse deCalames b. La déroulement du projet
  • 16.
    Le projet Calames: quand ? Conception : mars – décembre 2006 Développements : janvier – juillet 2007 Tests et ajustements : juillet – novembre 2007 Chargement des données EAD : octobre 2007 – février 2008 Lancement de Calames (interface publique) : 1 er décembre 2007 Ouverture de l’interface de catalogage : avril 2008
  • 17.
    Les contraintes duprojet Les délais : 18 mois La masse des données La structure des données EAD Les performances L’extensibilité Ouverture (recherche fédérée SRU, moteurs…)
  • 18.
    Les contraintes duprojet (suite) Les exports en UNIMARC La gestion des autorités
  • 19.
    La solution retenueDévelopper à partir de solutions XML génériques : Une base de données mixte (XML + relationnel) Un éditeur XML générique et accessible par un navigateur
  • 20.
    Qui a travaillésur les outils ? Choix de développer des outils en interne 2 informaticiens (conception + développement) 2 bibliothécaires Appel à un graphiste professionnel Appui sur le groupe de travail ES de la rétroconversion
  • 21.
    Le groupe detravail composition : SDBIS, bibliothèques avec de riches fonds de manuscrits, dont des experts et formateurs EAD Jacqueline Artier (Sorbonne), Pascale Heurtel (Museum), Patrick Latour (Mazarine), Gérard Littler (BNUS), Max Naudi (SDBIS), Fabienne Queyroux (Institut), Nathalie Rollet (BSG), Mireille Vial (BIU Montpellier) travail concomitant sur la préparation des données et sur les développements des outils  avantages et inconvénients
  • 22.
    Relations ABES /Groupe de travail Forte interaction Itérations spécifications/développements ABES, force de proposition (scénarios, prototypes, maquettes…)  Pas du « développement agile », mais ça y ressemble
  • 23.
  • 24.
    Questions clés Commentstocker la structure XML EAD ? Comment l’indexer ? Comment y accéder ? Comment l’afficher
  • 25.
    2 méthodes Lefichier EAD en tant qu’instance XML Le fichier EAD en tant que base de données  Calames utilise les deux méthodes
  • 26.
    Méthode 1 :EAD en tant que XML Exploiter le fichier tel quel On garde toutes la richesse des données On utilise des outils standard : XQuery pour interroger XQuery update (en développement au W3C) Méthode utilisée pour le catalogage dans Calames XML-DML (Microsoft) en attendant XQuery update
  • 27.
    Méthode 1 :EAD en tant que XML Le fichier EAD est stocké et mis en mémoire comme un tout Dans l’interface de catalogage, il est affiché et modifié bloc par bloc Démo Calames Catalogage Souplesse maximale
  • 28.
    Méthode 1 :EAD en tant que XML Pourquoi ne pas utiliser encore cette méthode pour la recherche et la consultation ? problèmes de performance problèmes de la recherche Full Text  Le « tout XML » n’est pas encore prêt
  • 29.
    Méthode 2 :EAD en tant que base de données Traduire la structure EAD en base de données relationnelles Pour : Technologie éprouvée et performante La régularité de l’EAD s’y prête assez bien Contre : Trop rigide Comment gérer le contenu mixte ? <unittitle> Papiers de <persname> Untel </persname></unittitle>
  • 30.
    Méthode 2 :EAD en tant que base de données Compromis dans Calames : Découper EAD en <c> liés Chaque <c> est stocké en tant qu’instance XML Le meilleur du relationnel et le meilleur d’XML
  • 31.
    De la baseà la page Web La base renvoie directement de l’XML… … qui est exploitable dans le navigateur
  • 32.
    Interface AJAX AJAX= Asynchronous JavaScript and XML Modifier une page Web de manière partielle, en allant chercher certaines infos XML (ou JSON) sur le serveur.  Permet une interface plus réactive
  • 33.
    Interface AJAX Leserveur envoie de l’XML C’est le navigateur (client) qui est en charge de construire l’HTML Avec Javascript Avec XSLT  le serveur est soulagé  performances améliorées
  • 34.
    AJAX inconvénients etsolutions Interfaces non accessibles par les handicapés visuels par les moteurs de recherche (robots)  Proposer une version dégradée du site en pur HTML (ex: Gmail)
  • 35.
  • 36.
    Méthode de dissectionScalpel = Firebug (plugin Firefox) Observer le code (html, javascript, css, xslt) Observer les requêtes AJAX Observer les flux de données
  • 37.
    2. Dissection deCalames a. La page de recherche
  • 38.
    Anatomie > larecherche (1) Recherche simple par défaut Combinable avec recherche avancée Filtrage sur bibliothèque(s)  Apparition du champ Cote Accès direct à chaque bibliothèque Feuilletage des index
  • 39.
    Anatomie > larecherche (2) Chargement initial de données : Liste des bibliothèques (XML) Liste des langues (XML) Décodage des bibliothèques (JSON) Décodage des langues (JSON) Chargement initial de l’XSLT
  • 40.
    Anatomie > larecherche (3) Feuilletage des index Listes dynamiques en fonction de la bibliothèque Autocomplétion ( search as you type ) Exploitation des renvois des autorités Sudoc
  • 41.
    2. Dissection deCalames b. La page des résultats
  • 42.
    Anatomie > lesrésultats (1) Une liste de résultats (1000 max) Une URL réutilisable Liste filtrée (traitements côté serveur) 50 résultats par page (car rapide) Tris Facettes
  • 43.
    Anatomie > lesrésultats (2) Traitements sur la liste brute : infanticide Si un lot de résultats contient un <c> parent et un de ses <c> enfants, on supprime l’enfant. Moins de résultats Moins de redondances Compense l’héritage (des dates, langues, sujets…) La navigation permet de retrouver l’enfant disparu
  • 44.
    Anatomie > lesrésultats (3) Facettes Filtres a posteriori (non a priori ) Évitent de reformuler la recherche Raffiner pas à pas la recherche Hélas, pas de mention du nombre d’occurrences (prix à payer pour infanticide…)
  • 45.
    2. Dissection deCalames c. L’affichage des notices
  • 46.
    Anatomie > lesnotices et leur contexte (1) Zoomer sur un composant <c> Pouvoir se déplacer autour : Les ancêtres Les enfants Les frères (avant et après) Pouvoir afficher plusieurs niveaux dans la même page Avoir une vue moins parcellaire Affichage et impression à la carte
  • 47.
    Anatomie > l’arborescenceObtenir une vue plus large sur l’arborescence globale Enjeu = comment se promener dans des arbres composés de milliers d’items ?
  • 48.
    Anatomie > lesnuages Vue globale sur un corpus
  • 49.
    Anatomie > Lienssortants Lier vers des images, des transcriptions, des bibliographies… Lier sans vampiriser Lier sans saisir toutes les URL http://elec.enc.sorbonne.fr/miroir/donat/traduction/?para=paris2 ?
  • 50.
    Anatomie > Liensentrants Aujourd’hui : URL stables et propres Demain : URL pérennes Dilemme pérennité / « usabilité » Sur quoi construire l’URL pérenne ? La cote ?  Réflexion en cours…
  • 51.
    pour en savoirplus... Calames http://www.calames.abes.fr Site de l’ABES http://www.abes.fr/abes/page,580,manuscrits.html Arabesques n° 48 et n° 49 http://www.abes.fr/abes/page,386,arabesques.html Calames, le blog http://calames.wordpress.com/ Nous écrire [email_address]
  • 52.
    Crédits photos http://flickr.com/photos/54945394@N00/1338967778/ http://flickr.com/photos/drlopezfranco/1447712697/ http://flickr.com/photos/patrlynch/450129440/