Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Jabes 2011 - Sessions parallèles : Portail des thèses - "Les trois applications du projet Portail des thèses"

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Chargement dans…3
×

Consultez-les par la suite

1 sur 72 Publicité

Jabes 2011 - Sessions parallèles : Portail des thèses - "Les trois applications du projet Portail des thèses"

Télécharger pour lire hors ligne

Jabes 2011 - Sessions parallèles "Les trois applications du projet Portail des thèses", Isabelle Mauger, Séverine Dabernat, Aurélien Charot, Abes, dans le cadre des Journées Abes 2011

Jabes 2011 - Sessions parallèles "Les trois applications du projet Portail des thèses", Isabelle Mauger, Séverine Dabernat, Aurélien Charot, Abes, dans le cadre des Journées Abes 2011

Publicité
Publicité

Plus De Contenu Connexe

Similaire à Jabes 2011 - Sessions parallèles : Portail des thèses - "Les trois applications du projet Portail des thèses" (20)

Plus par ABES (20)

Publicité

Plus récents (20)

Jabes 2011 - Sessions parallèles : Portail des thèses - "Les trois applications du projet Portail des thèses"

  1. 1. Les trois applications du projet portail des thèses Equipe Portail des thèses - ABES Journées ABES - 17 mai 2011
  2. 2. Le projet Portail des thèses • Rapport du comité Information Scientifique et Technique présidé par Jean Salençon (mai 2008) • Rapport final du groupe de travail FutuRIS Entreprise et recherche publique : développer les synergies, « Adéquation public - privé », Avril 2008 présidé par Germain Sanz (avril 2008) • L’accès aux thèses françaises, en cours et soutenues, est très difficile. L’absence de guichet unique nuit : – au monde académique – et au monde économique • Fin 2008, commande du Ministère (MISTRD) à l’ABES Journées ABES - 17 mai 2011
  3. 3. Les principes directeurs • Exhaustivité : toutes les thèses françaises de doctorat • Validation : des données validées par l’établissement de soutenance • Actualité : des données à jour • Utilité : des services autour des données • Réutilisation : des données ouvertes • Ubiquité : des données pour le web 3Journées ABES - 17 mai 2011
  4. 4. La structure du projet • Un comité de pilotage qui réunit des acteurs des thèses en France – administration centrale ( MISTRD, DGESIP, DGRI) – Conférence des Présidents d’Université et Conférence des Grandes Ecoles – représentants des formations doctorales dans les établissements habilités – représentants de la recherche privée et du monde économique – opérateurs documentaires nationaux des thèses (CNRS-INIST, Atelier national de reproduction des thèses, CINES) – des représentants d’associations : Intelli’agence (ex-Association Bernard Gregory), ADBU, AURA. Toutes les décisions du comité de pilotage ont fait l’objet de compte- rendus sur le blog de l’ABES : Fil ABES, thème Portail des thèses 4Journées ABES - 17 mai 2011
  5. 5. Le périmètre du projet • Toutes les thèses de doctorat (mais uniquement les thèses de doctorat) – En préparation en France – Soutenues en France • Quel que soit le type de dépôt • Quel que soit le support matériel • Toutes les personnes et tous les organismes liés à ces thèses Journées ABES - 17 mai 2011
  6. 6. Calendrier du projet • 2010 : • Hébergement du Fichier central des thèses • Refonte de STAR • 2011 : • Une application professionnelle pour les thèses en préparation • Un moteur de recherche pour les thèses de STAR • Le chargement des données de Thésa • Un moteur de recherche pour les thèses en préparation • « FRBrisation » et moteur de recherche pour les thèses du Sudoc • 2012 : • Amélioration du moteur de recherche • Lien vers les thèses en ligne externes : TEL et archives institutionnelles • Lien vers les données des partenaires : Intelli’Agence, ANRT..
  7. 7. Les applications relatives aux thèses et gérées par l’ABES de 2000 à 2006 Gestion professionnelle de tous les documents possédés par les bibliothèques dont les thèses Interface de consultation P U B L I C P R O F E S I O N N E L
  8. 8. Les applications relatives aux thèses et gérées par l’ABES fin 2006 Gestion professionnelle des thèses soutenues sur support électronique Gestion professionnelle de tous les documents possédés par les bibliothèques dont les thèses Interface de consultation P U B L I C P R O F E S I O N N E L
  9. 9. Les applications relatives aux thèses et gérées par l’ABES en 2010 Gestion professionnelle des thèses soutenues sur support électronique Gestion professionnelle des thèses en préparation Interface de consultation des thèses en préparation Gestion professionnelle de tous les documents possédés par les bibliothèques dont les thèses Interface de consultation P U B L I C P R O F E S I O N N E L
  10. 10. Les applications relatives aux thèses et gérées par l’ABES courant 2011 Gestion professionnelle des thèses soutenues sur support électronique Gestion professionnelle des thèses en préparation Gestion professionnelle de tous les documents possédés par les bibliothèques dont les thèses Interface de consultation P U B L I C P R O F E S I O N N E L Moteur de recherche pour toutes les thèses françaises
  11. 11. Gestion professionnelle des thèses soutenues sur support électronique Gestion professionnelle des thèses en préparation Moteur de recherche pour toutes les thèses françaises Les trois applications du projet Portail des thèses
  12. 12. I. Les thèses en préparation Journées ABES - 17 mai 2011
  13. 13. Plan 1. Le FCT aujourd’hui 2. Les remplaçants du FCT : STEP et theses.fr 3. Le workflow de STEP 4. Les flux des données de STEP 5. La structure et la migration des données du FCT vers STEP 6. Le calendrier Journées ABES - 17 mai 2011
  14. 14. 1. Deux fichiers nationaux de thèses en cours • Le Fichier Central des Thèses (FCT) géré par l’ABES depuis le 1er janvier 2010 – Constitué selon un axe disciplinaire, il concerne les thèses de lettres, de sciences humaines et sociales • Thésa, le portail des Thèses de doctorat en cours dans les Grandes Ecoles de la CGE, géré par l’INIST et la CGE – Fédère les thèses des établissements d’un type particulier : les Grandes Ecoles Journées ABES - 17 mai 2011
  15. 15. 1. Le réseau FCT • En 2010, 92 établissements sont des partenaires actifs du FCT • 165 personnes, travaillant au sein des services de scolarité et les écoles doctorales, saisissent et mettent à jour les données relatives aux thèses en cours de leur établissement Journées ABES - 17 mai 2011
  16. 16. 1. Les statistiques en 2010 • En 2010, 8671 sujets de thèses en cours ont été signalés et 11498 mis à jour • Aujourd’hui, environ 73 000 thèses sont signalées comme en cours dans le Fichier Central des Thèses (2001-2011) Journées ABES - 17 mai 2011 0 100 200 300 400 500 600 700 800 900 1000 Activité de saisie Activité de mise à jour
  17. 17. 2. Deux nouvelles applications pour le signalement des thèses en cours • L’interface actuelle du Fichier Central des Thèses va disparaître. • Une application professionnelle va le remplacer -> STEP (signalement des thèses en préparation) – Le périmètre va être étendu à toutes les disciplines • Une interface publique va permettre la visualisation des thèses en préparation issues de STEP -> theses.fr (périmètre des thèses en préparation) – Les données de Thésa y seront accessibles Journées ABES - 17 mai 2011
  18. 18. 2. Zoom sur STEP STEP signalement des thèses en préparation http://step.theses.fr Une application jumelle de STAR pour : • Saisir les métadonnées de description des thèses en préparation • Importer ces métadonnées depuis les applications locales de gestion des doctorants • Exporter ces métadonnées Journées ABES - 17 mai 2011
  19. 19. Etablissement de soutenance Doit saisir : •l’identité du doctorant •la date d’inscription dans l’établissement Initialisation du workflow par l’établissement 3. Le workflow dans l’éditeur de métadonnées de STEP
  20. 20. Etablissement de soutenance Doctorant Doit saisir : •le directeur de thèse •le titre du projet •l’école doctorale Peut saisir plus Peut saisir : •la description du projet •les mots-clés Visible dans Thèses en préparation Visibilité selon la complétude des métadonnées
  21. 21. Etablissement de soutenance Peut saisir un indicateur d’invisibilité Visible dans Thèses en préparation Rendre invisible
  22. 22. Etablissement de soutenance Doit saisir : La date de soutenance Visible dans Toutes les thèses Fin du workflow : la soutenance
  23. 23. Etablissement de soutenance Doctorant Doit saisir : •La date d’abandon Peut saisir : •La date d’abandon Fin du workflow : l’abandon
  24. 24. Processus de création dans STEP 4. STEP : les flux de données en amont • En amont, STEP pourra être alimenté par les établissements par export des données présentes dans leur logiciel de gestion administrative des doctorants. • Le cas APOGEE : partenariat avec l’AMUE pour que le module Thèses d’APOGEE (2012) soit nativement interconnecté avec STEP.
  25. 25. 4. STEP : les flux de données en aval • Les données de STEP seront visibles dans le périmètre « thèses en préparation » de theses.fr • STEP sera connecté à STAR • STEP interrogera régulièrement le Sudoc pour vérifier qu’une thèse en préparation n’est pas soutenue Journées ABES - 17 mai 2011
  26. 26. Si l’établissement est en production dans STAR, Lorsque la date de soutenance est saisie dans STEP : - push vers STAR en cycle dépôt national statut « à traiter », - statut soutenu dans STEP. Processus d’alimentation de STAR Périmètre « thèses en préparation »
  27. 27. Lorsque la thèse soutenue est traitée dans STAR - alerte de STAR : statut thèse dans STEP - visibilité dans les thèses de theses.fr. Processus de mise à jour de STEP par interrogation de STAR et d’alimentation de theses.fr par STAR Puis périmètre « toutes les thèses » Périmètre « thèses en préparation »
  28. 28. Puis périmètre « toutes les thèses » Périmètre « thèses en préparation » Si l’établissement n’est pas en production dans STAR, lorsque la date de soutenance est saisie dans STEP , requête régulière du Sudoc pour savoir si la thèse soutenue existe dans le Sudoc. Si oui, - visibilité dans les thèses de theses.fr - et statut thèse dans STEP. Processus de mise à jour de STEP par interrogation du Sudoc
  29. 29. 5. Transformer et enrichir les données du FCT • Les données du FCT sont aujourd’hui stockées dans une base relationnelle traditionnelle. • Chaque thèse sera convertie en un fichier XML fortement inspiré du modèle de données TEF. • Les données issues du FCT vont être enrichies avant la migration dans STEP : – Lien entre les directeurs de thèses en préparation et les autorités personnes physiques (PPN) via le WS d'IdRef – Lien entre les établissement du FCT et les autorités collectivités (PPN) – Attribution à chaque thèse en préparation d’un code de domaine basé sur la classification Dewey (« oaiset », déjà utilisé dans STAR) Journées ABES - 17 mai 2011
  30. 30. 5. Migration des données • Seules les thèses en préparation depuis moins de 10 ans seront migrées dans STEP (décision du comité de pilotage du Portail des Thèses) – A l’avenir, les thèses en préparation depuis plus de 10 ans seront automatiquement supprimées de STEP • Pour les 70 000 thèses en préparation (2001-2011) à migrer, la qualité des données a été expertisée et est en cours d’amélioration : – Traitement des doublons en collaboration avec les établissements – Comparaison entre les thèses en préparation du FCT et les thèses soutenues signalées dans le SUDOC – Subsiste le problème des thèses abandonnées pour lesquelles seul l’établissement possède l’information Journées ABES - 17 mai 2011
  31. 31. 6. Calendrier du sous-projet • Septembre 2011 : – arrêt de l’interface professionnelle du FCT – Migration des données dans STEP et dans theses.fr – Arrêt de l’interface publique du FCT – Ouverture du périmètre « thèses en préparation » dans theses.fr • Fin septembre 2011 : ouverture de STEP Journées ABES - 17 mai 2011
  32. 32. II. Un moteur de recherche pour les thèses françaises Journées ABES - 17 mai 2011
  33. 33. Plan 1. Présentation de l’application et démonstration 2. Point technique 1. L’application 2. Les données 3. L’indexation et la recherche 4. Les principaux problèmes rencontrés 5. La plateforme de production 3. Les données disponibles à l’ouverture de theses.fr Journées ABES - 17 mai 2011
  34. 34. 1. Les quatre périmètres • Toutes les thèses : une page par thèse – Les thèses soutenues et les thèses en préparation – Deux restrictions possibles : • uniquement les thèses soutenues • uniquement les thèses soutenues accessibles en ligne • Thèses en préparation : une page par thèse en préparation • Personnes : docteurs, directeurs de thèse, membres du jury • Organismes : établissement de soutenance, de co-tutelle, écoles doctorales, partenaires de recherche Journées ABES - 17 mai 2011
  35. 35. 1. Au choix de l’utilisateur • Consultation par l’encart de recherche • Consultation par l’encart de recherche puis raffinement par utilisation des facettes • Consultation par navigation pure via les facettes Journées ABES - 17 mai 2011
  36. 36. 1. L’encart de recherche • Moteur de recherche présent sur toutes les pages – Périmètre toutes les thèses : métadonnées et texte intégral. • Affichage d’un extrait du texte intégral contenant le mot recherché (highlight = surlignage) – Autres périmètres : métadonnées • Autocomplétion de deux types : personne ou sujet
  37. 37. 1. La recherche par facettes • Sept facettes disponibles pour le périmètre Toutes les thèses • Multisélection possible au sein d’une facette (OU) et croisement entre facettes (ET). • Deux affichages possibles des facettes : – liste courte – ou surimpression
  38. 38. 1. La page de la thèse • Une page par thèse: – www.theses.fr/NNT pour les thèses soutenues – www.theses.fr/sXXX pour les thèses en préparation saisies dans STEP – www.theses.fr/tXXX pour les thèses en préparation saisies dans Thésa • Eventuellement, accès au texte intégral Journées ABES - 17 mai 2011
  39. 39. 1. La page d’une personne • Docteurs, directeurs de thèse, président du jury, rapporteurs, autres membres du jury • Une page par personne : www.theses.fr/PPN sous réserve que les personnes soient identifiées par leur notice d’autorité dans le Sudoc • Rôle de la personne et affichage d’un extrait des thèses liées • Nuage de mots construit à partir de l’indexation de toutes les thèses liées Journées ABES - 17 mai 2011
  40. 40. 1. La page d’un organisme • Etablissement de soutenance, de cotutelle, écoles doctorales, partenaires de recherche (laboratoire, entreprise…) • Une page par organisme : www.theses.fr/PPN sous réserve que les organismes soient identifiés par leur notice d’autorité dans le Sudoc • Affichage d’un extrait des thèses liées • Nuage de mots construit à partir de l’indexation de toutes les thèses liées Journées ABES - 17 mai 2011
  41. 41. 1. Les services proposés par l’interface • Panier de requêtes ou panier de notices • Exporter les résultats ou une notice : format bureautique (CSV, text) mais aussi format des logiciels de références bibliographiques • S’abonner par fil RSS ou par courriel à tout changement dans une requête ou dans une page • Partager (delicious..) Journées ABES - 17 mai 2011
  42. 42. 1. L’authentification sur theses.fr • Disposer d’un compte sur theses.fr permettra de bénéficier de certains services précités. • Deux modalités techniques : – création ex nihilo d’un compte – utilisation d’un compte existant (Gmail, twitter, facebook…) reconnu via janrain • Si une personne est reconnue comme étant l’auteur d’une thèse, elle disposera de droits supplémentaires sur la page de sa thèse : – Accès aux statistiques de consultation de la page de sa thèse – autorisation d’être contacté par d’autres utilisateurs de theses.fr – … Journées ABES - 17 mai 2011
  43. 43. Page d’accueil : www.theses.fr
  44. 44. Page de résultats obtenue après utilisation de l’encart de recherche
  45. 45. Page de résultats obtenue après raffinement par la facette Etablissement
  46. 46. Page de la thèse obtenue en cliquant sur le titre
  47. 47. Page d’une personne obtenue en cliquant sur le nom de la personne
  48. 48. Page d’un organisme obtenue en cliquant sur le nom de l’organisme
  49. 49. 2.1. L’application • Application web développée en Java : – Réécriture d’URL : Apache – Conteneur de servlet : Tomcat – Langage Java : JSP / Servlet – Librairies utilisées : Saxon / JDOM / SolrJ / JSON … • Application web, donc : – HTML – CSS (charte graphique réalisée par Oxynel) – Javascript : JQuery • Pour les widgets : autocompleter / slider / checkers … Journées ABES - 17 mai 2011
  50. 50. 2.1. D’autres moyens d’accès aux données • Pas seulement une interface HTML • Les servlets peuvent aussi délivrer le contenu sous d’autres formats : – Fils RSS – Alertes mail – API REST XML qui peut être utilisée par d’autres sites : pour la recherche/résultat et le détail – TEF, RDF, Marc XML, Dublin Core, etc. Journées ABES – 17 mai 2011
  51. 51. 2.2. Les données • Base de données Oracle : – La base de données de la nouvelle plateforme de production de l’ABES (IdRef, Star, SelfSudoc, …) – Une table contenant les métadonnées des sujets (STEP et THESA) et des thèses (Sudoc et STAR) • Métadonnées sous format TEF étendu • Clé unique : n°de sujet ou n° national de thèse, accessible à l’adresse : www.theses.fr/n° – Des tables pour gérer les comptes utilisateurs, etc. Journées ABES - 17 mai 2011
  52. 52. 2.3. L’indexation et la recherche • C’est le point le plus important / critique de l’application • A terme, on aura : – les métadonnées des thèses en préparation – les métadonnées (et si possible le plein texte du document) de toutes les thèses soutenues au moins depuis 1985 • Soit : – 70 000 thèses en préparation du FCT à migrer – 450 000 (?) notices de thèses soutenues dans le Sudoc à « FRBriser » puis à migrer – accroissement annuel : • 11 000 thèses soutenues • 8 000 thèses en préparation en lettres, sciences humaines et sociales • Choix d’Apache Solr Journées ABES - 17 mai 2011
  53. 53. Apache Solr • Apache Solr : plateforme de recherche opensource, basée sur le projet Apache Lucene • Fonctions principales : – Recherche plein texte – Highlighting (surlignage) – Facettes – Support de différent type de document (word, pdf…) – Recherche distribuée – Réplication d’index automatique Journées ABES – 17 mai 2011
  54. 54. Apache Solr • Se lance comme un serveur indépendant de recherche (dans un conteneur de servlet, comme Apache Tomcat). • Ecrit en Java, utilise Lucene comme moteur de recherche. • APIs (interfaces) de type REST XML et JSON, ce qui le rend facile à utiliser avec n’importe quel langage de programmation. • Est utilisé à l’ABES par les applications et projets : • IdRef, Star et API Sudoc (« Solr total », SudocAD), Step, Portail des thèses. • Dans le monde des bibliothèques, est de plus en plus utilisé par les catalogues de nouvelle génération : Blacklight, VuFind, etc. Journées ABES – 17 mai 2011
  55. 55. 2.4. Les problèmes rencontrés : la recherche par personne • Nous avons indexé des métadonnées de thèses • Ces métadonnées décrivent la thèse ainsi : – Titre, sujets, auteur, directeurs de thèses, etc. • Nous avons 1 description de thèse = 1 document solr • Solr indexe des documents « à plat » (pas de liens possibles entre différents documents) • Problème : on veut effectuer des recherches, par personne (auteur, directeur, …), et non pas uniquement par thèse. C’est à dire, être capable de trouver une personne qui aurait participé à des thèses qui correspondent à un ou plusieurs critères de recherche Journées ABES - 17 et 18 mai 2011
  56. 56. Exemple de document indexé TEF Document Solr correspondant Journées ABES - 17 et 18 mai 2011
  57. 57. Comment faire ? • Créer un solr « personne » dédié, donnant une vue par personne, et non plus, par thèse • A chaque ajout / modification / suppression de métadonnées d’une thèse, pour chaque personne concernée, on recalcule intégralement sa fiche à partir des métadonnées de toutes les thèses Journées ABES – 17 mai 2011
  58. 58. Exemple TEF Document solr personneDocument solr personne
  59. 59. Une fiche personne
  60. 60. 2.4. Les problèmes rencontrés : le surlignage du plein texte • Solr a des problèmes de performance sur le surlignage de mot quand le texte est important (plein texte d’une thèse) : • C’est d’autant plus lent que le texte est long • Car solr effectue une recherche par expression régulière sur la totalité du texte Journées ABES - 17 mai 2011
  61. 61. Idée / solution • Découper ce plein texte en « page », lors de l’indexation : A chaque plein texte extrait d’un document de thèse, on découpe ce texte tous les x milliers de mots, afin d’obtenir des pages • Ces pages sont placées dans un solr dédié • La recherche sur ce plein texte s’effectue sur le solr principal, et le surlignage est fait, pour chaque document trouvé sur le solr dédié Journées ABES - 17 mai 2011
  62. 62. A l’indexation : découpage du texte Extraction du texte (Apache Tika) Découpage en pages Document de thèse Plein texte extrait Journées ABES - 17 mai 2011
  63. 63. Ajout du surlignage aux résultats 1) Recherche sur les métadonnées et le plein texte 3) Surlignage sur critères de recherche + identifiant 2) Liste de résultat (identifiants) 4) Extrait surligné Solr des métadonnées Solr dédié au surlignage Journées ABES - 17 mai 2011 Pour chaque résultat :
  64. 64. 2.5. La plateforme de production • Serveurs Red Hat Enterprise (linux) : – 2 boîtiers de répartition de charge – 2 serveurs frontaux (Apache + Tomcat) – 1 serveur de fichiers (NAS) – 2 serveurs de recherche (Tomcat + Solr) – 2 serveurs de base de données (Oracle en SAN) Journées ABES - 17 mai 2011
  65. 65. 2.5. La plateforme de production Internet Boîtiers de répartition de charge Serveurs frontaux Serveur de fichiers Serveurs de recherche Serveurs de base de données FrontendBackend
  66. 66. 3. Les données disponibles à l’ouverture de theses.fr • Toutes les thèses validées dans STAR (4 765 le 1er mai 2011) • L’utilisateur lambda peut signaler un problème relatif aux données Journées ABES - 17 mai 2011
  67. 67. 3. La complétude des données saisies dans STAR • Saisir les écoles doctorales
  68. 68. 3. La qualité des données • Attention aux textes libres !
  69. 69. 3. L’exploitation des autorités • Saisir le lien aux autorités dans STAR pour permettre son exploitation dans une page de personne ou une page d’organisme.
  70. 70. Conclusion Journées ABES - 17 mai 2011
  71. 71. Suite du projet • 2010 : • Hébergement du Fichier central des thèses • Refonte de STAR • 2011 : • Une application professionnelle pour les thèses en préparation • Un moteur de recherche pour les thèses de STAR • Le chargement des données de Thésa • Un moteur de recherche pour les thèses en préparation • « FRBrisation » et moteur de recherche pour les thèses du Sudoc • 2012 : • Amélioration du moteur de recherche • Lien vers les thèses en ligne externes : TEL et archives institutionnelles • Lien vers les données des partenaires : Intelli’Agence, ANRT..
  72. 72. Contacts • L’équipe projet portail des thèses : pth@abes.fr • Avec le soutien actif du Département Etudes Projets : dep@abes.fr • Les sites : http://www.theses.fr http://step.theses.fr http://star.theses.fr • Crédits icônes : – gakuseiSean , Jack Cai, Mayosoft, YellowIcon, Oxygen Team, silvestre herrera

×