Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
Valérie MAHUT
Claude NIEDERLENDER
Nicolas THOUVENIN
1
24B2086460F9BD8A775126FA493E804E80BA0F1F/fulltext/pdf
2
Mon document est perdu au milieu d’un disque dur
24B2086460F9BD8A775126FA493E804E80BA0F1F/fulltext/pdf
4
XML valide
PDF texte nbre XML
nbre PDF
DTD
format
abstract
nbre fi...
5Fichiers consultables et
exploitables
6
Editeurs
S’assurer que mon document est cohérent par
rapport aux autres
Constat :
➢ Modèles de documents DTD et schémas
multiples
➢ Respect aléatoire des standards de la part des
éditeurs
➢ Form...
9
Langue
Date de
publication.
Type de
document
Code pays
autres ...
Feuille de
transformation
XSL
Normalisation des corpus...
Pour rendre mon document compatible avec
différents standards
Metadonnées :
● titles
● abstracts
● identifiers
● authors / affiliations
● keywords
● bibliographic references
● etc.
11
...
Metadonnées dans <teiHeader> :
● titles
● abstracts
● identifiers
● authors / affiliations
● keywords
● bibliographic refe...
Pour permettre à mon document d’être
“recherchable” & “analysable” par des outils TDM
14PDF non exploitable pb d’encodage
re-océrisation
nécessaire !
15PDF non exploitable, absence de
texte recherchable (image)
texte extrait
OCR Tesseract
Pour permettre à des outils de traiter ou de
chercher dans différentes parties du texte de mon
document
17
9,5M de documents
traités par l’outil
Grobid
9 types d'entités :
● Personnes,
● Lieux,
● Organisations,
● Projets financés,
● Organisme financeur,
● Hébergeur de resso...
Pour ranger mon document parmi les autres
20
Comment ranger des millions de
textes ?
Classer automatiquement mon
document dans 3 classifications :
• Science Metrix ...
21
13,5M de documents classé par
appariement
7,4M de documents catégorisés
automatiquement
■ Natural sciences
● Biology
• ...
Mettre à disposition mon document et toutes les
informations associées
7 types d’enrichissement :
• Entités nommées
• Références bibliographiques
• Termes extraits
• Catégories / Domaines
• Ind...
exemple pour l’indexation ABES:
exemple pour les entités nommées :
24
Une API pour permettre à mon document d’être
consulté
26
Un Web Service permettant d'accéder à mon document
grâce à des fonctionnalités de :
• Recherche avancée
• Tri
• Paginat...
27
https://api.istex.fr/document/?q=relativit*
AND author.name:(Einstein OR "Max Planck"^2)
AND publicationDate:[1910 TO
1...
28
Après intégration, recherche et accès au plein-texte :
• Widgets
• Portails universitaires / ENT
• Outils de découverte...
Permettre à mon document d’être trouvé via
plusieurs moteurs compatibles OpenURL
● L'API ISTEX dispose de son propre résolveur dédié
aux ressources ISTEX
● Respect de la Norme OpenURL z39_88_2004
(versio...
● Possibilité d'intégrer le résolveur dans les outils
compatibles avec la norme
○ Exemple : Zotero
31
1
2
3
Permettre à mon document d’être trouvé
via les outils de découverte
Intégration aux outils commerciaux (Ex : EDS d'EBSCO)
via résolveur OpenURL
33
2
1
3
Permettre à mon document d’être trouvé
via le moteur spécialisé Google Scholar
● Déclaration des "bouquets ISTEX" via KBart Bacon
● Utilisation de la fonction "Library Links"
35
2
1
3
4
36
● Ajout d'un lien [PDF ISTEX] si ressource détectée
● Ce lien de type OpenURL
○ Utilise le résolveur ISTEX
○ Amène au p...
Détecter automatiquement mon document sur
n'importe quelle page Web
• Détection automatique des documents ISTEX
à partir des identifiants documentaires (DOI, PMID, PII…)
• Vérification de la...
• Installation simplifiée (https://addons.istex.fr)
• Activation automatique de la bibliothèque ISTEX GScholar
39
OU
41
USAGES
DOCUMENTAIRES
Bibliothèques universitaires
Centres de documentation…
Recherches bibliographiques
Etats de l'art....
42
● 18,5 millions de documents
● 19 éditeurs
● 7 500 titres
● 13 000 Ebook
● une couverture allant 1406 à 2015
43
rd-users@listes.istex.fr
api-users@listes.istex.fr
data-users@listes.istex.fr
@Projet_ISTEX
@istexdev
http://www.istex....
questions ?
44
JABES 2017 - L'histoire d'un document dans la plate-forme ISTEX
Prochain SlideShare
Chargement dans…5
×

JABES 2017 - L'histoire d'un document dans la plate-forme ISTEX

79 vues

Publié le

L'histoire d'un document dans la plate-forme ISTEX
Valérie Mahut, Claude Niederlander, Nicolas Thouvenin (INIST-CNRS)
Journées ABES 2017

Publié dans : Formation
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

JABES 2017 - L'histoire d'un document dans la plate-forme ISTEX

  1. 1. Valérie MAHUT Claude NIEDERLENDER Nicolas THOUVENIN 1
  2. 2. 24B2086460F9BD8A775126FA493E804E80BA0F1F/fulltext/pdf 2
  3. 3. Mon document est perdu au milieu d’un disque dur
  4. 4. 24B2086460F9BD8A775126FA493E804E80BA0F1F/fulltext/pdf 4 XML valide PDF texte nbre XML nbre PDF DTD format abstract nbre fichiers structure Qualité Journals Books Book series quantitative qualitative
  5. 5. 5Fichiers consultables et exploitables
  6. 6. 6 Editeurs
  7. 7. S’assurer que mon document est cohérent par rapport aux autres
  8. 8. Constat : ➢ Modèles de documents DTD et schémas multiples ➢ Respect aléatoire des standards de la part des éditeurs ➢ Formes et éléments de contenu très variés, contenu inexact ou absent ➢ Spécificité d’un corpus en XML (arborescence avec respect aléatoire de la DTD, noms des éléments différents, espaces de noms non déclarés ...) 8 La standardisation des données a pour objectif d’assurer une interopérabilité optimale des données en vue de leur réutilisation. Standardisation : ➢ Formats standards : ● MODS, TEI … ➢ Données (valeurs)
  9. 9. 9 Langue Date de publication. Type de document Code pays autres ... Feuille de transformation XSL Normalisation des corpus et amélioration de la qualité
  10. 10. Pour rendre mon document compatible avec différents standards
  11. 11. Metadonnées : ● titles ● abstracts ● identifiers ● authors / affiliations ● keywords ● bibliographic references ● etc. 11 MODS (Metadata Object Description Schema) : En tant que format d’échanges et de partage, il permet une articulation entre des données bibliographiques construites selon des modèles différents (books + journals) Format pivot
  12. 12. Metadonnées dans <teiHeader> : ● titles ● abstracts ● identifiers ● authors / affiliations ● keywords ● bibliographic references ● etc. + balisage du texte dans <text><body> 12 TEI (Text Encoding Initiative) : Effort international pour unifier les pratiques d’encodage de texte dans le domaine académique. - Plein texte dans XML - généré à partir du PDF
  13. 13. Pour permettre à mon document d’être “recherchable” & “analysable” par des outils TDM
  14. 14. 14PDF non exploitable pb d’encodage re-océrisation nécessaire !
  15. 15. 15PDF non exploitable, absence de texte recherchable (image) texte extrait OCR Tesseract
  16. 16. Pour permettre à des outils de traiter ou de chercher dans différentes parties du texte de mon document
  17. 17. 17 9,5M de documents traités par l’outil Grobid
  18. 18. 9 types d'entités : ● Personnes, ● Lieux, ● Organisations, ● Projets financés, ● Organisme financeur, ● Hébergeur de ressources, ● URL, ● Dates, ● Citations 18 15M de documents traités par Unitex/CasSys
  19. 19. Pour ranger mon document parmi les autres
  20. 20. 20 Comment ranger des millions de textes ? Classer automatiquement mon document dans 3 classifications : • Science Metrix : (228 cat.) • WoS : (198 cat.) • Plan Inist : (117 cat.)
  21. 21. 21 13,5M de documents classé par appariement 7,4M de documents catégorisés automatiquement ■ Natural sciences ● Biology • Plant biology & botany ■ Sciences ● Plant sciences ■ Sciences appliquées, technologies et médecines ● Sciences biologiques et médicales • Sciences biologiques fondamentales et appliquées • Agronomie, Sciences du sol et productions végétales
  22. 22. Mettre à disposition mon document et toutes les informations associées
  23. 23. 7 types d’enrichissement : • Entités nommées • Références bibliographiques • Termes extraits • Catégories / Domaines • Indexation sujet (ABES) • Auteurs (ABES) • Texte ré-océrisé 23 ...
  24. 24. exemple pour l’indexation ABES: exemple pour les entités nommées : 24
  25. 25. Une API pour permettre à mon document d’être consulté
  26. 26. 26 Un Web Service permettant d'accéder à mon document grâce à des fonctionnalités de : • Recherche avancée • Tri • Pagination • Facettes • Téléchargement
  27. 27. 27 https://api.istex.fr/document/?q=relativit* AND author.name:(Einstein OR "Max Planck"^2) AND publicationDate:[1910 TO 1920]&facet=language&rankBy=qualityOverRelevance&sortBy=publicationDate[desc]&output=t itle,author,refbibs,host,metadata&stats ???
  28. 28. 28 Après intégration, recherche et accès au plein-texte : • Widgets • Portails universitaires / ENT • Outils de découverte • Google Scholar • Démonstrateur • Extension Firefox & Google Chrome • ...
  29. 29. Permettre à mon document d’être trouvé via plusieurs moteurs compatibles OpenURL
  30. 30. ● L'API ISTEX dispose de son propre résolveur dédié aux ressources ISTEX ● Respect de la Norme OpenURL z39_88_2004 (versions 0.1 et 1.0) ● Résolution à partir ○ d'identifiants forts (DOI, PMID…) ○ de métadonnées, si suffisamment exhaustives ● Exemples ○ https://api.istex.fr/document/openurl?rft_id= info:doi/10.1007/978-3-642-13792-1_17 ○ https://api.istex.fr/document/openurl? &rft.issn=0302-9743 &rft.au=Alma M. Gómez-Rodríguez&rft.date=2010 30
  31. 31. ● Possibilité d'intégrer le résolveur dans les outils compatibles avec la norme ○ Exemple : Zotero 31 1 2 3
  32. 32. Permettre à mon document d’être trouvé via les outils de découverte
  33. 33. Intégration aux outils commerciaux (Ex : EDS d'EBSCO) via résolveur OpenURL 33 2 1 3
  34. 34. Permettre à mon document d’être trouvé via le moteur spécialisé Google Scholar
  35. 35. ● Déclaration des "bouquets ISTEX" via KBart Bacon ● Utilisation de la fonction "Library Links" 35 2 1 3 4
  36. 36. 36 ● Ajout d'un lien [PDF ISTEX] si ressource détectée ● Ce lien de type OpenURL ○ Utilise le résolveur ISTEX ○ Amène au plein-texte sur la plateforme ISTEX
  37. 37. Détecter automatiquement mon document sur n'importe quelle page Web
  38. 38. • Détection automatique des documents ISTEX à partir des identifiants documentaires (DOI, PMID, PII…) • Vérification de la présence dans l'API ISTEX via requête OpenURL • Affichage d'un bouton reliant au plein-texte 38
  39. 39. • Installation simplifiée (https://addons.istex.fr) • Activation automatique de la bibliothèque ISTEX GScholar 39 OU
  40. 40. 41 USAGES DOCUMENTAIRES Bibliothèques universitaires Centres de documentation… Recherches bibliographiques Etats de l'art... IRRIGATION DE LA RECHERCHE
  41. 41. 42 ● 18,5 millions de documents ● 19 éditeurs ● 7 500 titres ● 13 000 Ebook ● une couverture allant 1406 à 2015
  42. 42. 43 rd-users@listes.istex.fr api-users@listes.istex.fr data-users@listes.istex.fr @Projet_ISTEX @istexdev http://www.istex.fr https://api.istex.fr/documentation http://blog.istex.fr http://lodex.inist.fr
  43. 43. questions ? 44

×