2. Car Europeana Newspapers nous permet…
• L’agrégation de journaux européens libres de droits issus
des grands titres de la presse européenne.
• La visibilité et l’accessibilité sur le portail Europeana et
sur le portail des bibliothèques partenaires.
• L’amélioration des fonctionnalités de recherche pour ce
contenu grâce à l’enrichissement sémantique des
données et des métadonnées relatives aux corpus traités.
Journée d’information
27 novembre 2014
3. Car Europeana nous propose un point centralisé pour
explorer la diversité européenne…
• Garantir un meilleur accès aux collections numérisées de
presse existantes.
• Donner accès en ligne à 18 millions de pages via
Europeana et TEL.
• Optimiser les processus de numérisation, dont l’OCR, ainsi
que les dispositifs de reconnaissance des articles de presse
(OLR).
Journée d’information
27 novembre 2014
5. Contenus de la BnF
La Bibliothèque nationale de France participe avec
environ 3 millions de pages
(environ 2,4 M traitées en OCR/OLR)
Journée d’information
27 novembre 2014
6. Traitements et fonctionnalités avancées dédiées
à l’amélioration de la consultation
Reconnaissance optique de caractères (OCR) –
Université d’Innsbruck, Autriche
Recherche plein-texte sur corpus BnF sans OCR ou avec
OCR non HQ (1,4 M pages)
7. Traitements et fonctionnalités avancées dédiées
à l’amélioration de la consultation
Reconnaissance optique de la structuration et de la
segmentation des articles (OLR) – CCS, Allemagne.
Consultation en mode Articles (1 M pages)
8. OLR :
Traitements et fonctionnalités avancées dédiées
à l’amélioration de la consultation
• Identification/reconnaissance des colonnes
• Segmentation au niveau d’article (titres,
sous-titres...)
• Reconnaissance de classes de page/contenu
(publicités, petites annonces, tableaux, illustrations,
légendes)
• Outils d’assurance qualité et de correction des résultats
14. Traitements et fonctionnalités avancées dédiées
à l’amélioration de la consultation
Reconnaissance des entités nommées (REN)
• Sous-tâche de l’activité d’extraction d’information dans des corpus
documentaires :
• Rechercher et identifier un certain nombre d’objets textuels
(un mot ou un groupe de mots) présents dans des corpus
documentaires.
• Catégorisables dans des classes telles
que noms de personnes, noms
d'organisations (institutions,
entreprises, sociétés…) et noms
de lieux (pays, ville, site…).
• Eventuellement alignés sur des
référentiels d’autorités.
Partenaires scientifiques et techniques :
• KB (GE, NE)
• UPMC/LIP6 pour le français
15. REN et Europeana Newspapers
REN appliquée sur 100-500 K pages)
• Concevoir, développer et appliquer un modèle pour la REN
en français.
• Réfléchir aux cas d’usage pour l’amélioration des
fonctionnalités de consultation et de présentation à
l’intention des usagers d’Europeana et des bibliothèques
nationales :
• Moteur de recherche sémantique
• Web sémantique
• Alignement avec des référentiels internationaux
pour la recherche d’information multilingue
16. •16
Entités nommées : comment les décrire ?
• Format externe (BIO, bases
de données)
• TEI
• METS
• ALTO
• Europeana Newspapers a
choisi d’utiliser le mécanisme
d’étiquetage disponible dans
ALTO v2.1.
17. Le format METS/ALTO nous offre…
• Données descriptives et techniques.
• Informations sur le contenu et la disposition
physique de la page (segmentation).
ALTO
METS
• Description de la publication globale : MD
bibliographiques, techniques, administratives.
• Informations/description de la structure
logique du fascicule (TDM).
• Liens logiques entre TDM et blocs ALTO
de texte/articles
18. Europeana Newspapers : un profil METS/ALTO
dédié à la numérisation de la presse (ENMAP)
• Articulation autour de trois concepts : section, élément de contenu
(« article »), élément de structure.
• Modèle adapté aux contenus presse.
• Classification des types de contenu
(information, opinion, divertissement,
publicité, métadonnée).
Alimenter la réflexion sur la problématique
structuration minimale (article = titre + texte) vs. structuration riche
19. Europeana Newspapers : un profil METS/ALTO
dédié à la numérisation de la presse (ENMAP)
Outillé par :
• la documentation du modèle,
• une application de structuration
(UIBK) :
• test et validation d’un modèle
de structuration (lancement
de projets de numérisation),
• visualisation de contenus (QA)
• conversion entre formats
• production pour projets
de petite taille
Publication finale du format en fin de projet (janvier 2015)
20. Europeana Newspapers : valorisation
Améliorer la recherche et l’accès au contenu
• Profiter de la structuration en articles individuels, avec table de
navigation
• Utiliser le typage des contenus pour affiner la recherche (filtres)
• Valoriser les entités nommées via des outils sémantiques (data.bnf.fr,
Exalead) ou d’autres services spécialisés
Enjeux autour du format et valorisation des contenus
• Le profil METS/ALTO ENMAP fournit un modèle viable pour le partage et
l’échange de contenus de presse.
• La structuration avancée qu’il autorise facilite la réexploitation des
contenus pour d’autres usages ou vers d’autres formats.
22. Les bénéfices pour la BnF…
• Améliorer l’OCR et utiliser des outils d’évaluation/correction :
définition de nouvelles recommandations (futurs marchés).
• Contribuer aux travaux de convergence vers l’utilisation
du profil ENMAP METS/ALTO.
• Enrichir les fonctionnalités de recherche et de consultation en
mode texte/article pour les journaux sur Gallica.
• Attirer plus de visiteurs sur Gallica avec des contenus enrichis et liés
à d’autres corpus.
• Alimenter d’autres vecteurs de diffusion avec ces contenus enrichis :
data.bnf.fr