Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
Parcours Thèses : Theses. fr et le Sudoc : concurrence ou complémentarité ?
1. theses.fr et le Sudoc :
concurrence ou
complémentarité ?
Parcours Thèses, Isabelle Mauger Perez, Journées ABES, 15 mai 2013
2. Préambule
• Le chargement des données du Sudoc dans theses.fr
est imminent.
– Ne concerne que les thèses soutenues depuis 1985
– Les thèses antérieures feront l’objet d’un traitement dans
le hub de métadonnées pour permettre leur chargement.
• Certaines notices Sudoc ne seront pas chargées en
raison de leur qualité insuffisante. Des corrections
devront être apportées
– soit par l’ABES
– soit par le réseau
• Plus de détails sur le blog Punktokomo.
1
5. tous types de documents les thèses de doctorat
françaises
4
6. un outil de production
unique
des outils de production
distincts
5
7. un outil de production
partagé
des outils de production
étanches
6
8. des manifestations des œuvres
7
• Un support = une notice • L’œuvre avant même sa
finalisation : les thèses en
préparation
• L’œuvre sous toutes ses
formes : les thèses
soutenues
9. Dans theses.fr, l’œuvre
dans tous ses états
• Avant sa réalisation : la description de la thèse en
préparation (données STEP)
• Une fois réalisée
– la thèse dans sa version de soutenance : selon le mode de
dépôt de l’établissement, données STAR ou données Sudoc
– Les reproductions de la version de soutenance : la
microfiche ou la thèse déposée en archive ouverte ou en
archive institutionnelle (données Sudoc)
– Les « dérivés » : les versions remaniées publiées par un
éditeur (données Sudoc)
=> une seule page : www.theses.fr/NNT
8
10. Dans theses.fr, estampillage de la
version de soutenance
• Le tampon « validé par le jury » indique quelle
version de la thèse est la version originelle.
9
Il existe une version électronique estampillée par
le jury : la thèse a été déposée sous forme
électronique. Elle provient de STAR
Il existe une version papier estampillée par le jury :
la thèse a été déposée sous forme papier. Elle
provient du Sudoc
11. un vocabulaire générique
mais fermé
un vocabulaire spécifique
mais ouvert
10
• Unimarc • Le format TEF et des dérivés
12. un prestataire des développements ABES
11
• OCLC
• Format interne propriétaire
Spécificité des technologies
• Des technologies JAVA
• Un moteur de recherche
SolR
• Des API
=> Généricité des technologies
14. Principes : côté Sudoc
• Un programme scanne toutes les notices
bibliographiques et un algorithme :
– repère les notices décrivant des thèses de doctorat
françaises
– contrôle la qualité de la notice décrivant la version de
soutenance
– suit les liens vers d’autres versions de la thèse
– déduit des liens
• Le résultat : pour chaque notice de thèse originelle,
– les erreurs éventuelles
– les notices liées
– un marqueur : OK (prête à être chargée) / KO (doit être
modifiée pour être chargée dans theses.fr) 13
15. Principes : côté theses.fr
• Un programme charge chaque notice marquée OK et
toutes les notices liées dans un paquet MarcXML
• Un XSL transforme chaque paquet en un fichier basé
sur TEF
• Un programme vérifie :
– la présence d’une notice STAR. Si oui, le fichier TEF est
conservé et on lui ajoute les informations en provenance
du Sudoc
– la présence d’une notice STEP. Si oui, le fichier en
provenance du Sudoc remplace la notice STEP. Une
redirection d’url est mise en place.
14
18. 17
Bouton d’action
concernant la version
complète de la thèse
Bouton d’action
concernant une autre
version de la thèse : la
version ayant fait
l’objet d’une
publication
26. Commander une édition imprimée
par l’ANRT
• Commander une édition imprimée par l’ANRT
dans le cadre du catalogue « thèses à la
carte »
• « print on demand » payant (coût de
fabrication du livre)
• 7000 références
25