SlideShare une entreprise Scribd logo
1  sur  2
Télécharger pour lire hors ligne
SCHEMA DE CHAÎNE DE TRAITEMENT PERSÉE
Création d’outils
pour l'interrogation
de référentiels et
l'établissement de liens
InVisu
(USR 3103
CNRS/INHA)
Persée
(UMS 3602/
Université de Lyon/
CNRS/ENS Lyon)
IFAO
(Institut Français
d’Archéologie Orientale,
Le Caire, Egypte)
PARTENARIAT
CORPUS EXHAUSTIF
- Travaux du Comité (annuel) : 1882-1953, 41 volumes
- Index général (1914)
- Documents iconographiques : 683 planches
OBJECTIFS
Numérisation
des minutes et travaux
du Comité de
Conservation des
monuments de
l'art arabe
Indexation
des noms de sites,
personnes,
alignements sur des
référentiels existants
(Geonames,etc. )
Enrichissements
du texte grâce à la création
de lien avec des
référentiels externes
Récolement du corpus
DOCUMENTS NON MASSICOTABLES DOCUMENTS MASSICOTABLES
Numérisation
- Scanners de livres
- Résolution : 400 dpi
- Profondeur : 256 niveaux de gris
et couleurs
- Format : tiff non compressé
- Contrôle qualité
Numérisation
- Scanners de livres
- Résolution : 400 dpi
- Profondeur : 256 niveaux de gris
et couleurs
- Format : tiff non compressé
- Images bitmap G4
- Contrôle qualité
Intégration chaîne Persée
Renommage, binarisation (TiffG4)
Post traitements
- Reconnaissance optique de caractère (OCR)
- Redressement des images et pose des marges
- Conversion de formats
- Nettoyage des images et amélioration de leur qualité
- Versement des données sur des serveurs d’objets (Aldo)
- Versement sur un espace de sauvegarde
Documentation et indexation
- Création de métadonnées bibliographiques et de structure
- Balisage du texte intégral (niveaux de titres, références
bibliographiques, illustrations, tableaux)
- Indexation à partir des éléments d’un référentiel toponymique
Export XML : génération
des données de diffusion,
propagation et archivage
- Format des images diffusées : JPEG
- container METS
- md bibliographiques : DC, MODS, marcXML
- texte intégral : TEI
Diffusion:
www.persee.fr
Propagation
OAI-PMH, Z3950,
indexation Isidore,
moteurs de recherche
web, etc.
Archivage
Données archivables
sur plateforme
PAC (CINES)
Préparation matérielle et modélisation du corpus
- Identification de chaque document et organisation du corpus
- Description physique de chaque document
- Constitution des lots de numérisation pour le prestataire
PRESTATAIRE PERSEE
PERSEE
INSTITUT FRANÇAIS
D’ARCHÉOLOGIE ORIENTALE
Titre de niveau 2
Titre de niveau 2
Note biographique
Entrée nommée
Le projet Athar. Les monuments du Caire.
Indexation topographique multilingue des monuments
de l’art copte et islamique
Aurélie MONTEIL
Persée - UMS 3602, Université de Lyon,
École Normale Supérieure de Lyon, CNRS
Emmanuelle PERRIN
InVisu- USR 3103, CNRS/INHA
Le projet « Athar. Les monuments du Caire » a pour ambition la numérisation et la diffusion des Travaux du
Comité de Conservation des monuments de l'art arabe. Cette publication annuelle identifie, recense et décrit
les monuments anciens de l'art copte et islamique.
Pour les historiens et les historiens de l'art qui étudient l'historiographie de l'art copte et islamique ainsi que
l'histoire de la préservation du patrimoine égyptien, ce corpus constitue une source d'informations unique.
Sa valeur est principalement fondée sur le nombre de monuments décrits, sur la somme d'informations tech-
niques issues des chantiers de restauration, sur la prosopographie des acteurs impliqués ainsi que sur les
nombreuses archives photographiques.
Par son grand intérêt scientifique mais également à cause de la dégradation progressive des anciens monu-
ments (aujourd'hui sur les 800 monuments identifiés depuis 1880, 300 ont déjà disparu), il est important
d'oeuvrer pour la conservation des archives des monuments du Caire.
Le projet Athar, porté par le Laboratoire InVisu (USR 3103 CNRS/INHA), l’UMS Persée et l’IFAO, a pour ambi-
tion la diffusion en open access de la collection des Travaux du Comité de Conservation des Monuments de
l'art arabe, ainsi qu'une indexation TEI du texte intégral. Pour ce faire, l'équipe InVisu a développé un référen-
tiel sur les monuments du Caire permettant de regrouper autour d’une même forme de référence, ses diffé-
rentes variantes orthographiques et typographiques ; l’UMS Persée a adapté son module d'encodage TEI afin
de pouvoir exploiter ce référentiel. Le projet permettra, via le portail Persée, l'exploitation du référentiel
pour le parcours de la collection et la recherche de monuments, la diffusion des documents, et l'interopéra-
bilité avec d'autres systèmes d'informations (data.bnf.fr, geonames, etc...)
LE PROJET ATHAR
Le laboratoire InVisu en partenariat avec l’IFAO fournit l’ensemble de la collection à l’UMS Persée. Cette der-
nière prend en charge une partie de la numérisation du fond, la création des métadonnées et leur diffusion.
Le travail documentaire est entièrement réalisé par le laboratoire InVisu.
Ce travail documentaire est une procédure de mise en valeur de la structure éditoriale des documents et
constitue une forte plus-value à la simple diffusion des images de pages numérisées. Le corpus est composé
de quatre types documentaires distincts : les procès-verbaux, les rapports, les index et listes de monuments.
Cette première description éditoriale est ensuite complétée par une phase de documentation permettant de
mettre en lumière la composition de chaque section. La documentation met en évidence la structure interne
de ces unités documentaires (titres de niveau, bibliographie, tableaux, illustrations). C'est au cours de cette
étape que les liens sont réalisés vers le référentiel (SKOS) via l'application développée par Persée, JGalith.(cf
« L'indexation toponymique : le module TEI »).
LA DIFFUSION DES DONNÉES
Le lien entre l’index et les documents est réalisé à partir de «JGalith», l’outil développé par l’UMS Persée et permettant la création de métadonnées.
L'index créé par le laboratoire InVisu est exploité dès la phase de numérisation :
- il constitue un dictionnaire des formes de référence et des formes associées utilisé pour améliorer les résultats de l'OCR
- il est exploité pour localiser les différentes formes de nom de chaque monument et les associer avec la forme de référence correspondante.
Lors de la production des données destinées à la diffusion, les liens sont établis entre le texte encodé en TEI et l'index toponymique produit par le la-
boratoire InVisu. A l’issu du travail documentaire, l’index multilingue obtenu offre une synthèse des différentes formes typographiques existantes
pour le nom.
L’UMS Persée propose la diffusion de l’ensemble de la collection des Travaux du Comité de Conservation des monuments de l'art arabe numérisée
et de ses metadonnées. Le portail se caractérise par une politique active de mise à disposition des données en open access et open data permettant
un échange et une réutilisation des données. Cela se manifeste concrètement par un accès libre, gratuit et illimité aux données, la possibilité de ré-
cupérer les metadonnées produites, assurer l’alimentation et permettre le moissonnage d’autres plateformes. Une base de données triplestore est
mise en place afin de permettre les requêtes via le langage SPARQL.
L’interopérabilité assure une propagation rapide des données, elle est promue par la mise à disposition d'un large éventail de documents XML res-
pectant les normes et standards en vigueur dans chaque communauté (TEI, MARC, METS, etc.) ainsi que les outils permettant leur indexation. Au
terme du travail effectué sur cette collection, les différentes métadonnées produites alimenteront d’autres portails : le Sudoc et les catalogues de bi-
bliothèques (MarcXML), d'autres plateformes de diffusion open access en sciences humaines et sociales telle qu’Isidore (Dublin Core, TEI).
Enfin, ce référentiel sera intégré au web sémantique fondé sur les principes du linked data. Ce projet prévoit le versement des référentiels dans la
base IdRef (format MADS) afin d'enrichir les notices d’autorités toponymiques du Sudoc. Cette démarche vient compléter la collaboration déjà en-
gagée entre la BnF et le laboratoire InVisu autour de l'indexation du fond Beniminio Facchinelli (photographe actif au Caire de 1876 et 1895). L’index
des toponymes a également servi à alimenter le géocorpus Geonames et propose une géolocalisation des sites.
Colloque Humanités numériques et antiquités. 2-4 septembre 2015, MSH-Alpes, Grenoble
Exemple du travail documentaire
réalisé sur une page
L’INDEXATION TOPONYMIQUE: LE MODULE TEI
LE TRAITEMENT DOCUMENTAIRE DU CORPUS
Exemple de liens créés vers le réferentiel
SKOS sur une page numérisée
Illustration: Bab El Vizir, entre 1873 et 1895. Beniminio Facchinelli. Fond BNF Gallica, Recueil. Photographies positives. Oeuvre de Beniami-
no Facchinelli. [http://gallica.bnf.fr/ark:/12148/btv1b10508622s]
Concrètement, au cours de la phase de documentation, des zones de texte sont localisées dans l'image de
page, leur contenu extrait par OCR peut-être corrigé. Par comparaison à l'index, des liens sont proposés vers
les entrées les plus proches. La sélection d'une des propositions permet d'établir un lien entre la forme ren-
contrée dans le texte, son équivalent corrigé présent dans l'index et la forme de référence correspondante.
Une fois le lien vers l'index établi, il donnera lieu à la génération, dans le document TEI final, à la description
d'une entité nommée sous la forme :
<name ref="http://cairogazetteer.fr/invisu/re-
source/ark:/67717/4c36b1ef9438cdf9209bed0b6c4cf184">Mosquée Sultan Aboul-Ela</name>
Ici, la référence à l’URI du concept SKOS se rajoute au terme recherché « Mosquée Sultan Aboul-Ela ». Cette
forme normalisée permet une exploitation riche par le portail Persée mais également par d'autres outils.
Sur le portail Persée, le regroupement de plusieurs variantes orthographiques autour d'une seule forme de
référence permettra l'affichage de celle-ci sous la forme d'un nuage de mots et proposera un accès direct à
toutes les occurrences dans l'ensemble de la collection.
Le projet Athar.
Indexation multilingue des monuments du Caire.
Emmanuelle Perrin
InVisu, USR 3103, CNRS, INHA
Aurélie Monteil
Persée - UMS 3602
Université de Lyon, École Normale Supérieure de Lyon, CNRS
Résumé :
Le projet « Athar. Les monuments du Caire » a pour ambition la numérisation et la diffusion des Travaux du
Comité de Conservation des monuments de l'art arabe. Cette publication annuelle identifie, recense et décrit les
monuments anciens de l'art copte et islamique.
Pour les historiens et les historiens de l'art qui étudient l'historiographie de l'art copte et islamique ainsi que
l'histoire de la préservation du patrimoine égyptien, ce corpus constitue une source d'informations unique.
Sa valeur est principalement fondée sur le nombre de monuments décrits, sur la somme d'informations techniques
issues des chantiers de restauration, sur la prosopographie des acteurs impliqués ainsi que sur les nombreuses archives
photographiques.
Par son grand intérêt scientifique mais également à cause de la dégradation progressive des anciens monuments
(aujourd'hui sur les 800 monuments identifiés depuis 1880, 300 ont déjà disparu), il est important d'oeuvrer pour la
conservation des archives des monuments du Caire.
Le projet Athar, porté par le Laboratoire InVisu (USR 3103 CNRS/INHA), l’UMS Persée et l’IFAO, a pour ambition la
diffusion en open access de la collection des Travaux du Comité de Conservation des Monuments de l'art arabe, ainsi
qu'une indexation TEI du texte intégral. Pour ce faire, l'équipe InVisu a développé un référentiel sur les monuments du
Caire permettant de regrouper autour d’une même forme de référence, ses différentes variantes orthographiques et
typographiques ; l’UMS Persée a adapté son module d'encodage TEI afin de pouvoir exploiter ce référentiel. Le projet
permettra, via le portail Persée, l'exploitation du référentiel pour le parcours de la collection et la recherche de
monuments, la diffusion des documents, et l'interopérabilité avec d'autres systèmes d'informations (data.bnf.fr,
geonames, etc...)
Le projet « Athar. Les monuments du Caire » a pour ambition la numérisation et la diffusion des Travaux du
Comité de Conservation des monuments de l'art arabe. Cette publication annuelle identifie, recense et décrit les
monuments anciens de l'art copte et islamique.
Pour les historiens et les historiens de l'art qui étudient l'historiographie de l'art copte et islamique ainsi que
l'histoire de la préservation du patrimoine égyptien, ce corpus constitue une source d'informations unique.
Sa valeur est principalement fondée sur le nombre de monuments décrits, sur la somme d'informations techniques
issues des chantiers de restauration, sur la prosopographie des acteurs impliqués ainsi que sur les nombreuses archives
photographiques.
Par son grand intérêt scientifique mais également à cause de la dégradation progressive des anciens monuments
(aujourd'hui sur les 800 monuments identifiés depuis 1880, 300 ont déjà disparu), il est important d'oeuvrer pour la
conservation des archives des monuments du Caire.
Le projet Athar, porté par le Laboratoire InVisu (USR 3103 CNRS/INHA), l’UMS Persée et l’IFAO, a pour ambition la
diffusion en open access de la collection des Travaux du Comité de Conservation des Monuments de l'art arabe, ainsi
qu'une indexation TEI du texte intégral. Pour ce faire, l'équipe InVisu a développé un référentiel sur les monuments du
Caire permettant de regrouper autour d’une même forme de référence, ses différentes variantes orthographiques et
typographiques ; l’UMS Persée a adapté son module d'encodage TEI afin de pouvoir exploiter ce référentiel. Le projet
permettra, via le portail Persée, l'exploitation du référentiel pour le parcours de la collection et la recherche de
monuments, la diffusion des documents, et l'interopérabilité avec d'autres systèmes d'informations (data.bnf.fr,
geonames, etc...)
Mots-clés : SKOS, XML TEI, interopérabilité, indexation multilingue, MarcXML

Contenu connexe

Tendances

Les protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialitésLes protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialitésEquipex Biblissima
 
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...Aurélia Rostaing
 
L'Observatoire Biblissima : état des lieux et perspectives
L'Observatoire Biblissima : état des lieux et perspectivesL'Observatoire Biblissima : état des lieux et perspectives
L'Observatoire Biblissima : état des lieux et perspectivesEquipex Biblissima
 
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...Aurélia Rostaing
 
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...Aurélia Rostaing
 

Tendances (6)

Les protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialitésLes protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialités
 
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...
 
L'Observatoire Biblissima : état des lieux et perspectives
L'Observatoire Biblissima : état des lieux et perspectivesL'Observatoire Biblissima : état des lieux et perspectives
L'Observatoire Biblissima : état des lieux et perspectives
 
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
 
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
 
Ppt msh def.
Ppt msh def.Ppt msh def.
Ppt msh def.
 

Similaire à Persee Projet Athar_Indexation multilingue des monuments du Caire

Biblissima: Federating Research on the Written Heritage of the Middle Ages an...
Biblissima: Federating Research on the Written Heritage of the Middle Ages an...Biblissima: Federating Research on the Written Heritage of the Middle Ages an...
Biblissima: Federating Research on the Written Heritage of the Middle Ages an...Equipex Biblissima
 
La Science vue du Web of Science
La Science vue du Web of ScienceLa Science vue du Web of Science
La Science vue du Web of ScienceMarc Guichard
 
EDWoS (Explorateur de Données du Web of Science)
EDWoS (Explorateur de Données du Web of Science)EDWoS (Explorateur de Données du Web of Science)
EDWoS (Explorateur de Données du Web of Science)L'Atelier de Cartographie
 
Jabes 2007 - Restitution atelier 6
Jabes 2007 - Restitution atelier 6Jabes 2007 - Restitution atelier 6
Jabes 2007 - Restitution atelier 6ABES
 
Plaquette de présentation InVisu 2013
Plaquette de présentation InVisu 2013Plaquette de présentation InVisu 2013
Plaquette de présentation InVisu 2013Lesticetlart Invisu
 
Application Web sémantique sur des manuscrits médiévaux - Retour d'expérience
Application Web sémantique sur des manuscrits médiévaux - Retour d'expérienceApplication Web sémantique sur des manuscrits médiévaux - Retour d'expérience
Application Web sémantique sur des manuscrits médiévaux - Retour d'expérienceEquipex Biblissima
 
les outils d'annotation et l'édition scientifique de corpus textuels - mémoire
les outils d'annotation et l'édition scientifique de corpus textuels - mémoire les outils d'annotation et l'édition scientifique de corpus textuels - mémoire
les outils d'annotation et l'édition scientifique de corpus textuels - mémoire Johanna Daniel
 
Epigraphie et numérique - EfA 19 mars 2018
Epigraphie et numérique - EfA 19 mars 2018Epigraphie et numérique - EfA 19 mars 2018
Epigraphie et numérique - EfA 19 mars 2018Programme IG Louvre
 
Nouveaux catalogues de bibliothèques
Nouveaux catalogues de bibliothèquesNouveaux catalogues de bibliothèques
Nouveaux catalogues de bibliothèquesFleury Christine
 
Archives ouvertes - Perspectives Europeennes
Archives ouvertes - Perspectives EuropeennesArchives ouvertes - Perspectives Europeennes
Archives ouvertes - Perspectives Europeenneschessmu
 
Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...
Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...
Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...Peter Stockinger
 
Spire : l'archive ouverte de Sciences Po
Spire : l'archive ouverte de Sciences PoSpire : l'archive ouverte de Sciences Po
Spire : l'archive ouverte de Sciences PoJean-François Lutz
 
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...Equipex Biblissima
 
Biblissima (Rencontre Ménestrel 2013)
Biblissima (Rencontre Ménestrel 2013)Biblissima (Rencontre Ménestrel 2013)
Biblissima (Rencontre Ménestrel 2013)Equipex Biblissima
 
Anne-Violaine Szabados : L’expérience LIMC & CLAROS : pour l’élévation des do...
Anne-Violaine Szabados : L’expérience LIMC & CLAROS : pour l’élévation des do...Anne-Violaine Szabados : L’expérience LIMC & CLAROS : pour l’élévation des do...
Anne-Violaine Szabados : L’expérience LIMC & CLAROS : pour l’élévation des do...Lesticetlart Invisu
 

Similaire à Persee Projet Athar_Indexation multilingue des monuments du Caire (20)

Plaquette InVisu 2016
Plaquette InVisu 2016Plaquette InVisu 2016
Plaquette InVisu 2016
 
Biblissima: Federating Research on the Written Heritage of the Middle Ages an...
Biblissima: Federating Research on the Written Heritage of the Middle Ages an...Biblissima: Federating Research on the Written Heritage of the Middle Ages an...
Biblissima: Federating Research on the Written Heritage of the Middle Ages an...
 
La Science vue du Web of Science
La Science vue du Web of ScienceLa Science vue du Web of Science
La Science vue du Web of Science
 
EDWoS (Explorateur de Données du Web of Science)
EDWoS (Explorateur de Données du Web of Science)EDWoS (Explorateur de Données du Web of Science)
EDWoS (Explorateur de Données du Web of Science)
 
Invisu plaquette 2017
Invisu plaquette 2017Invisu plaquette 2017
Invisu plaquette 2017
 
Jabes 2007 - Restitution atelier 6
Jabes 2007 - Restitution atelier 6Jabes 2007 - Restitution atelier 6
Jabes 2007 - Restitution atelier 6
 
atlasmuseum
atlasmuseumatlasmuseum
atlasmuseum
 
Plaquette de présentation InVisu 2013
Plaquette de présentation InVisu 2013Plaquette de présentation InVisu 2013
Plaquette de présentation InVisu 2013
 
Application Web sémantique sur des manuscrits médiévaux - Retour d'expérience
Application Web sémantique sur des manuscrits médiévaux - Retour d'expérienceApplication Web sémantique sur des manuscrits médiévaux - Retour d'expérience
Application Web sémantique sur des manuscrits médiévaux - Retour d'expérience
 
les outils d'annotation et l'édition scientifique de corpus textuels - mémoire
les outils d'annotation et l'édition scientifique de corpus textuels - mémoire les outils d'annotation et l'édition scientifique de corpus textuels - mémoire
les outils d'annotation et l'édition scientifique de corpus textuels - mémoire
 
Epigraphie et numérique - EfA 19 mars 2018
Epigraphie et numérique - EfA 19 mars 2018Epigraphie et numérique - EfA 19 mars 2018
Epigraphie et numérique - EfA 19 mars 2018
 
Nouveaux catalogues de bibliothèques
Nouveaux catalogues de bibliothèquesNouveaux catalogues de bibliothèques
Nouveaux catalogues de bibliothèques
 
Archives ouvertes - Perspectives Europeennes
Archives ouvertes - Perspectives EuropeennesArchives ouvertes - Perspectives Europeennes
Archives ouvertes - Perspectives Europeennes
 
Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...
Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...
Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...
 
Plaquette InVisu 2015
Plaquette InVisu 2015Plaquette InVisu 2015
Plaquette InVisu 2015
 
Invisu USR3103
Invisu USR3103Invisu USR3103
Invisu USR3103
 
Spire : l'archive ouverte de Sciences Po
Spire : l'archive ouverte de Sciences PoSpire : l'archive ouverte de Sciences Po
Spire : l'archive ouverte de Sciences Po
 
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...
 
Biblissima (Rencontre Ménestrel 2013)
Biblissima (Rencontre Ménestrel 2013)Biblissima (Rencontre Ménestrel 2013)
Biblissima (Rencontre Ménestrel 2013)
 
Anne-Violaine Szabados : L’expérience LIMC & CLAROS : pour l’élévation des do...
Anne-Violaine Szabados : L’expérience LIMC & CLAROS : pour l’élévation des do...Anne-Violaine Szabados : L’expérience LIMC & CLAROS : pour l’élévation des do...
Anne-Violaine Szabados : L’expérience LIMC & CLAROS : pour l’élévation des do...
 

Persee Projet Athar_Indexation multilingue des monuments du Caire

  • 1. SCHEMA DE CHAÎNE DE TRAITEMENT PERSÉE Création d’outils pour l'interrogation de référentiels et l'établissement de liens InVisu (USR 3103 CNRS/INHA) Persée (UMS 3602/ Université de Lyon/ CNRS/ENS Lyon) IFAO (Institut Français d’Archéologie Orientale, Le Caire, Egypte) PARTENARIAT CORPUS EXHAUSTIF - Travaux du Comité (annuel) : 1882-1953, 41 volumes - Index général (1914) - Documents iconographiques : 683 planches OBJECTIFS Numérisation des minutes et travaux du Comité de Conservation des monuments de l'art arabe Indexation des noms de sites, personnes, alignements sur des référentiels existants (Geonames,etc. ) Enrichissements du texte grâce à la création de lien avec des référentiels externes Récolement du corpus DOCUMENTS NON MASSICOTABLES DOCUMENTS MASSICOTABLES Numérisation - Scanners de livres - Résolution : 400 dpi - Profondeur : 256 niveaux de gris et couleurs - Format : tiff non compressé - Contrôle qualité Numérisation - Scanners de livres - Résolution : 400 dpi - Profondeur : 256 niveaux de gris et couleurs - Format : tiff non compressé - Images bitmap G4 - Contrôle qualité Intégration chaîne Persée Renommage, binarisation (TiffG4) Post traitements - Reconnaissance optique de caractère (OCR) - Redressement des images et pose des marges - Conversion de formats - Nettoyage des images et amélioration de leur qualité - Versement des données sur des serveurs d’objets (Aldo) - Versement sur un espace de sauvegarde Documentation et indexation - Création de métadonnées bibliographiques et de structure - Balisage du texte intégral (niveaux de titres, références bibliographiques, illustrations, tableaux) - Indexation à partir des éléments d’un référentiel toponymique Export XML : génération des données de diffusion, propagation et archivage - Format des images diffusées : JPEG - container METS - md bibliographiques : DC, MODS, marcXML - texte intégral : TEI Diffusion: www.persee.fr Propagation OAI-PMH, Z3950, indexation Isidore, moteurs de recherche web, etc. Archivage Données archivables sur plateforme PAC (CINES) Préparation matérielle et modélisation du corpus - Identification de chaque document et organisation du corpus - Description physique de chaque document - Constitution des lots de numérisation pour le prestataire PRESTATAIRE PERSEE PERSEE INSTITUT FRANÇAIS D’ARCHÉOLOGIE ORIENTALE Titre de niveau 2 Titre de niveau 2 Note biographique Entrée nommée Le projet Athar. Les monuments du Caire. Indexation topographique multilingue des monuments de l’art copte et islamique Aurélie MONTEIL Persée - UMS 3602, Université de Lyon, École Normale Supérieure de Lyon, CNRS Emmanuelle PERRIN InVisu- USR 3103, CNRS/INHA Le projet « Athar. Les monuments du Caire » a pour ambition la numérisation et la diffusion des Travaux du Comité de Conservation des monuments de l'art arabe. Cette publication annuelle identifie, recense et décrit les monuments anciens de l'art copte et islamique. Pour les historiens et les historiens de l'art qui étudient l'historiographie de l'art copte et islamique ainsi que l'histoire de la préservation du patrimoine égyptien, ce corpus constitue une source d'informations unique. Sa valeur est principalement fondée sur le nombre de monuments décrits, sur la somme d'informations tech- niques issues des chantiers de restauration, sur la prosopographie des acteurs impliqués ainsi que sur les nombreuses archives photographiques. Par son grand intérêt scientifique mais également à cause de la dégradation progressive des anciens monu- ments (aujourd'hui sur les 800 monuments identifiés depuis 1880, 300 ont déjà disparu), il est important d'oeuvrer pour la conservation des archives des monuments du Caire. Le projet Athar, porté par le Laboratoire InVisu (USR 3103 CNRS/INHA), l’UMS Persée et l’IFAO, a pour ambi- tion la diffusion en open access de la collection des Travaux du Comité de Conservation des Monuments de l'art arabe, ainsi qu'une indexation TEI du texte intégral. Pour ce faire, l'équipe InVisu a développé un référen- tiel sur les monuments du Caire permettant de regrouper autour d’une même forme de référence, ses diffé- rentes variantes orthographiques et typographiques ; l’UMS Persée a adapté son module d'encodage TEI afin de pouvoir exploiter ce référentiel. Le projet permettra, via le portail Persée, l'exploitation du référentiel pour le parcours de la collection et la recherche de monuments, la diffusion des documents, et l'interopéra- bilité avec d'autres systèmes d'informations (data.bnf.fr, geonames, etc...) LE PROJET ATHAR Le laboratoire InVisu en partenariat avec l’IFAO fournit l’ensemble de la collection à l’UMS Persée. Cette der- nière prend en charge une partie de la numérisation du fond, la création des métadonnées et leur diffusion. Le travail documentaire est entièrement réalisé par le laboratoire InVisu. Ce travail documentaire est une procédure de mise en valeur de la structure éditoriale des documents et constitue une forte plus-value à la simple diffusion des images de pages numérisées. Le corpus est composé de quatre types documentaires distincts : les procès-verbaux, les rapports, les index et listes de monuments. Cette première description éditoriale est ensuite complétée par une phase de documentation permettant de mettre en lumière la composition de chaque section. La documentation met en évidence la structure interne de ces unités documentaires (titres de niveau, bibliographie, tableaux, illustrations). C'est au cours de cette étape que les liens sont réalisés vers le référentiel (SKOS) via l'application développée par Persée, JGalith.(cf « L'indexation toponymique : le module TEI »). LA DIFFUSION DES DONNÉES Le lien entre l’index et les documents est réalisé à partir de «JGalith», l’outil développé par l’UMS Persée et permettant la création de métadonnées. L'index créé par le laboratoire InVisu est exploité dès la phase de numérisation : - il constitue un dictionnaire des formes de référence et des formes associées utilisé pour améliorer les résultats de l'OCR - il est exploité pour localiser les différentes formes de nom de chaque monument et les associer avec la forme de référence correspondante. Lors de la production des données destinées à la diffusion, les liens sont établis entre le texte encodé en TEI et l'index toponymique produit par le la- boratoire InVisu. A l’issu du travail documentaire, l’index multilingue obtenu offre une synthèse des différentes formes typographiques existantes pour le nom. L’UMS Persée propose la diffusion de l’ensemble de la collection des Travaux du Comité de Conservation des monuments de l'art arabe numérisée et de ses metadonnées. Le portail se caractérise par une politique active de mise à disposition des données en open access et open data permettant un échange et une réutilisation des données. Cela se manifeste concrètement par un accès libre, gratuit et illimité aux données, la possibilité de ré- cupérer les metadonnées produites, assurer l’alimentation et permettre le moissonnage d’autres plateformes. Une base de données triplestore est mise en place afin de permettre les requêtes via le langage SPARQL. L’interopérabilité assure une propagation rapide des données, elle est promue par la mise à disposition d'un large éventail de documents XML res- pectant les normes et standards en vigueur dans chaque communauté (TEI, MARC, METS, etc.) ainsi que les outils permettant leur indexation. Au terme du travail effectué sur cette collection, les différentes métadonnées produites alimenteront d’autres portails : le Sudoc et les catalogues de bi- bliothèques (MarcXML), d'autres plateformes de diffusion open access en sciences humaines et sociales telle qu’Isidore (Dublin Core, TEI). Enfin, ce référentiel sera intégré au web sémantique fondé sur les principes du linked data. Ce projet prévoit le versement des référentiels dans la base IdRef (format MADS) afin d'enrichir les notices d’autorités toponymiques du Sudoc. Cette démarche vient compléter la collaboration déjà en- gagée entre la BnF et le laboratoire InVisu autour de l'indexation du fond Beniminio Facchinelli (photographe actif au Caire de 1876 et 1895). L’index des toponymes a également servi à alimenter le géocorpus Geonames et propose une géolocalisation des sites. Colloque Humanités numériques et antiquités. 2-4 septembre 2015, MSH-Alpes, Grenoble Exemple du travail documentaire réalisé sur une page L’INDEXATION TOPONYMIQUE: LE MODULE TEI LE TRAITEMENT DOCUMENTAIRE DU CORPUS Exemple de liens créés vers le réferentiel SKOS sur une page numérisée Illustration: Bab El Vizir, entre 1873 et 1895. Beniminio Facchinelli. Fond BNF Gallica, Recueil. Photographies positives. Oeuvre de Beniami- no Facchinelli. [http://gallica.bnf.fr/ark:/12148/btv1b10508622s] Concrètement, au cours de la phase de documentation, des zones de texte sont localisées dans l'image de page, leur contenu extrait par OCR peut-être corrigé. Par comparaison à l'index, des liens sont proposés vers les entrées les plus proches. La sélection d'une des propositions permet d'établir un lien entre la forme ren- contrée dans le texte, son équivalent corrigé présent dans l'index et la forme de référence correspondante. Une fois le lien vers l'index établi, il donnera lieu à la génération, dans le document TEI final, à la description d'une entité nommée sous la forme : <name ref="http://cairogazetteer.fr/invisu/re- source/ark:/67717/4c36b1ef9438cdf9209bed0b6c4cf184">Mosquée Sultan Aboul-Ela</name> Ici, la référence à l’URI du concept SKOS se rajoute au terme recherché « Mosquée Sultan Aboul-Ela ». Cette forme normalisée permet une exploitation riche par le portail Persée mais également par d'autres outils. Sur le portail Persée, le regroupement de plusieurs variantes orthographiques autour d'une seule forme de référence permettra l'affichage de celle-ci sous la forme d'un nuage de mots et proposera un accès direct à toutes les occurrences dans l'ensemble de la collection.
  • 2. Le projet Athar. Indexation multilingue des monuments du Caire. Emmanuelle Perrin InVisu, USR 3103, CNRS, INHA Aurélie Monteil Persée - UMS 3602 Université de Lyon, École Normale Supérieure de Lyon, CNRS Résumé : Le projet « Athar. Les monuments du Caire » a pour ambition la numérisation et la diffusion des Travaux du Comité de Conservation des monuments de l'art arabe. Cette publication annuelle identifie, recense et décrit les monuments anciens de l'art copte et islamique. Pour les historiens et les historiens de l'art qui étudient l'historiographie de l'art copte et islamique ainsi que l'histoire de la préservation du patrimoine égyptien, ce corpus constitue une source d'informations unique. Sa valeur est principalement fondée sur le nombre de monuments décrits, sur la somme d'informations techniques issues des chantiers de restauration, sur la prosopographie des acteurs impliqués ainsi que sur les nombreuses archives photographiques. Par son grand intérêt scientifique mais également à cause de la dégradation progressive des anciens monuments (aujourd'hui sur les 800 monuments identifiés depuis 1880, 300 ont déjà disparu), il est important d'oeuvrer pour la conservation des archives des monuments du Caire. Le projet Athar, porté par le Laboratoire InVisu (USR 3103 CNRS/INHA), l’UMS Persée et l’IFAO, a pour ambition la diffusion en open access de la collection des Travaux du Comité de Conservation des Monuments de l'art arabe, ainsi qu'une indexation TEI du texte intégral. Pour ce faire, l'équipe InVisu a développé un référentiel sur les monuments du Caire permettant de regrouper autour d’une même forme de référence, ses différentes variantes orthographiques et typographiques ; l’UMS Persée a adapté son module d'encodage TEI afin de pouvoir exploiter ce référentiel. Le projet permettra, via le portail Persée, l'exploitation du référentiel pour le parcours de la collection et la recherche de monuments, la diffusion des documents, et l'interopérabilité avec d'autres systèmes d'informations (data.bnf.fr, geonames, etc...) Le projet « Athar. Les monuments du Caire » a pour ambition la numérisation et la diffusion des Travaux du Comité de Conservation des monuments de l'art arabe. Cette publication annuelle identifie, recense et décrit les monuments anciens de l'art copte et islamique. Pour les historiens et les historiens de l'art qui étudient l'historiographie de l'art copte et islamique ainsi que l'histoire de la préservation du patrimoine égyptien, ce corpus constitue une source d'informations unique. Sa valeur est principalement fondée sur le nombre de monuments décrits, sur la somme d'informations techniques issues des chantiers de restauration, sur la prosopographie des acteurs impliqués ainsi que sur les nombreuses archives photographiques. Par son grand intérêt scientifique mais également à cause de la dégradation progressive des anciens monuments (aujourd'hui sur les 800 monuments identifiés depuis 1880, 300 ont déjà disparu), il est important d'oeuvrer pour la conservation des archives des monuments du Caire. Le projet Athar, porté par le Laboratoire InVisu (USR 3103 CNRS/INHA), l’UMS Persée et l’IFAO, a pour ambition la diffusion en open access de la collection des Travaux du Comité de Conservation des Monuments de l'art arabe, ainsi qu'une indexation TEI du texte intégral. Pour ce faire, l'équipe InVisu a développé un référentiel sur les monuments du Caire permettant de regrouper autour d’une même forme de référence, ses différentes variantes orthographiques et typographiques ; l’UMS Persée a adapté son module d'encodage TEI afin de pouvoir exploiter ce référentiel. Le projet permettra, via le portail Persée, l'exploitation du référentiel pour le parcours de la collection et la recherche de monuments, la diffusion des documents, et l'interopérabilité avec d'autres systèmes d'informations (data.bnf.fr, geonames, etc...) Mots-clés : SKOS, XML TEI, interopérabilité, indexation multilingue, MarcXML