Présentation Isidore 2013 - Huma-num

1 038 vues

Publié le

Présentation générale d'Isidore 2013 - public doc/bib/archi

Publié dans : Formation
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 038
Sur SlideShare
0
Issues des intégrations
0
Intégrations
7
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Présentation Isidore 2013 - Huma-num

  1. 1. « signaler, enrichir et valoriser les documents, données, informations numériques de la recherche en sciences humaines » Stéphane Pouyllau, ingénieur de recherche CNRS Directeur technique Huma-Num stephane.pouyllau@huma-num.fr Twitter @spouyllau
  2. 2. Huma-Num • Huma-Num : très grande infrastructure de recherche (TGIR) pour les SHS / humanités numériques • Fusion de la TGIR Corpus-IR et du TGE Adonis • www.huma-num.fr • Twitter @huma_num
  3. 3. Huma-Num • Consortiums scientifiques • Grille de services numériques (web, archiva ges) • Isidore • Projets .EU
  4. 4. Isidore ?  Plate-forme de collecte, d'enrichissem ent, de diffusion et de valorisation des documents, données et informations de la recherche en SHS  rechercheisidore.fr
  5. 5. Isidore ?  Enjeux :  Faciliter le signalement, l'accès et la recherche dans les documents numériques (pub., notices, données) des SHS  Proposer un espace de navigation reliant les documents numériques  Proposer plusieurs canaux de diffusion  Proposer un service d’identification numérique pérenne pour les documents  Enrichir les documents à l’aide de référentiels scientifiques
  6. 6. Pffff ! Y'a Google, non ?  Isidore se distingue des moteurs de recherche classiques :  Moissonnage ciblé de métadonnées et de documents  Mise en valeur des producteurs moissonnées  Indexation des informations structurées et moy. structurées  Normalisation des métadonnées  Décloisonnement les données et des notices  Enrichissement sémantique des métadonnées  Mise à disposition des métadonnées enrichies selon les principes du linked data dans le web de données
  7. 7. Isidore ? • 3 modes d’accès – Pour les humains : rechercheisidore.fr – Pour les applications web : une API – Pour les app. du web sémantique : un « triple store » (une bdd contenant des données RDF)
  8. 8. Rechercheisidore.fr
  9. 9. Rechercheisidore.fr
  10. 10. Rechercheisidore.fr
  11. 11. API
  12. 12. API
  13. 13. API
  14. 14. API… modules…
  15. 15. 3 store / sparql end point
  16. 16. Isidore : le projet  Le partenaire (maitrise d’œuvre)  Centre pour la communication scientifique directe (CNRS)  Consortium : Antidot, Sword, Mondéca,  « Producteurs de données » (éditeurs, bibliothèques, agrégateurs des SHS).  Durée de réalisation du cœur : 1 an  Cahier des charges : juillet 2009  Ouverture de la version béta : décembre 2010  Version 1 : mars 2011  Version 2 : février 2012
  17. 17. Isidore : les chiffres  2,4 millions de ressources  + de 2000 sources de données organisées en collections (éditeurs, bibliothèques…)  60000 visiteurs / mois (moyenne)  700000 à 1M de requêtes / mois  Top 5 des pays (2012) :  France, USA, Canada, Belgique, Suisse
  18. 18. Mécanismes 1/3  Collecte  Moissonnage Notices et métadonnées : OAI-PMH (+dc, +dcterms) Flux d'actualités : rss, atom Sites web, etc. : sitemap + structure RDFa + N. vocabulaires documentaires  Vocabulaires documentaires « compris » par Isidore Dublin Core Metadata Element Set (simple) DC Terms Foaf, sioc Mods, EAD, TEI RSS, Atom
  19. 19. Mécanismes 2/3  Traitements : vers l'enrichissement  Normalisation Date, Auteurs, Langues, etc.  Catégorisation disciplinaire (base d’entrainement sémantique)  Classification automatique Class. HAL, Calenda, etc. Alignement des types de doc. et dates s/ thésaurus. Extraction des termes s/ les thésaurus scientifiques  Calcul des facettes
  20. 20. Mécanismes 3/3  Accès  Indexation par un moteur de recherche pour le web et l’API  Transformation RDF finale et stockage dans une base de données RDF Interrogeables via un point d'accès web : le Sparql endpoint Réutilisations des données
  21. 21. Données Collecte (crawl) Traitements Accès (API et facettes) Gestion, Monitoring, Statistiques Référentiels Normalisés (RDF/SKOS) SPARQL endpoint pour les producteurs de données Isidore : schéma général rechercheisidore.fr Données Données Données OAI-PMH RDFa RSS Enrichissement des des métadonnées et données (format pivot RDF) Référentiels Référentiels API pour les machines
  22. 22. Isidore et les documents  Isidore : enjeux de l'accès à l'information scientifique  Contenu d’Isidore ?  Métadonnées sans document joint  Métadonnées > Documents joints (au sens de fichiers pdf, epub, html, rtf, etc.)  Métadonnées > Documents joints structurés (XML TEI, EAD, etc)  Métadonnées > Documents > informations structurées  Toujours des métadonnées structurées
  23. 23. Notices enrichies ? • Métadonnées d’origine • Métadonnées complémentaires « Isidore » • … à votre disposition
  24. 24. Relier des documents
  25. 25. Facettes 1/3
  26. 26. Facettes 2/3
  27. 27. Facettes 3/3
  28. 28. « Rebondir » 1 2 3
  29. 29. Texte intégral
  30. 30. Isidore et le web de données  Dépasser la logique du web des documents  Sortir de la logique des silos documentaires  Décloisonner les documents  Passer d'un web des documents à un web des données et des informations  Remplir le web d'informations scientifiques structurées  S'appuyer dessus afin de construire des publications plus riches et reliées aux données (administration de la preuve scientifique)
  31. 31. Isidore et le web de données  Avec le web de données, il ne s'agit pas :  De web « ifier » les bases de données (… 90's)  De déployer, comme avec OAI, des protocoles spécifiques à un métier, une activité, qui limite l'utilisation des données et documents  Il s'agit :  D'utiliser le web comme un espace ouvert pour publier, diffuser, organiser et relier des informations et des documents  Rendre visible le « web invisible »
  32. 32. Et alors ?  Isidore utilise les principes du web de données  Identifiants pour les notices = URI (URL)  Collecte des information structurées selon RDFa  Utilise le RDF pour ré-exposer les métadonnées enrichies  Utilise des référentiels qui sont dans le web de données : Thésaurus Pactols (CNRS) et Rameau (BNF) Vocabulaires et listes d'autorité : HAL personnes (auteurs de HAL), Thésaurus W (SIAF), Géonames, Lexvo, IdRef…  Isidore et le premier projet de cette ampleur à utiliser ces méthodes en France (2010) dans le monde de la recherche
  33. 33. Isidore fournisseur d’id. pérennes ?  Isidore affecte un identifiant unique à chacun des éléments collectés  Enjeux : relier les documents entre eux  Offrir (gratuitement) des identifiants (citations)  N° Handle Géré par un organisme public (Corporation for National Research Initiatives) Affectés par Isidore Négociation de contenu  http://www.rechercheisidore.fr/search/resource/?uri=1067 0.1/k71iuv  http://hdl.handle.net/10670.1/k71iuv  Pointe vers la ressource d’origine !
  34. 34. Les + d’ISIDORE
  35. 35. Les + d'ISIDORE  Valorisation des producteurs de données : l'annuaire
  36. 36. Les + d'ISIDORE  Sélection des sources, partenariat avec les producteurs de données  Les producteurs « poussent » vers ISIDORE  Favoriser l’open access et l’accès au texte intégral  Favoriser la relation publications / « données »  Un « enrichissement » avec des référentiels scientifiques produits par la communauté des chercheurs, des documentalistes et des bibliothécaires
  37. 37. Isidore dans les SHS • Appropriation par les communautés SHS – Le moteur en lui-même – Les enrichissements et les notices structurées selon RDF – Les possibilités des plugins • Contributions des communautés…
  38. 38. Intégrations portails
  39. 39. Plugins, opensearch
  40. 40. Opensearch pour tts les collections
  41. 41. Veille… syndication sur requêtes
  42. 42. Des apps de visualisation
  43. 43. Des apps reliant publications/données/référentiels
  44. 44. Des apps reliant publications/données/référentiels
  45. 45. Des apps reliant publications/données/référentiels
  46. 46. Conclusion • Décloisonner et enrichir les données, les notices, les bases de données • Proposer un espace numérique de documents, données, inform ations reliés • Rendre accessible et pérenne l’accès et le signalement Isidore • rechercheisidore.fr • isidore@huma-num.fr • @rech_isidore • www.tge-adonis.fr et www.huma-num.fr • En + – http://www.insolit.org – http://terrferme.hypotheses.org / – http://francart.fr – http://blog.stephanepouyllau.or g

×