Pourquoi Europeana 
Newspapers ? 
L’apport de la BnF dans le projet
Car Europeana Newspapers nous permet… 
• L’agrégation de journaux européens libres de droits issus 
des grands titres de l...
Car Europeana nous propose un point centralisé pour 
explorer la diversité européenne… 
• Garantir un meilleur accès aux c...
Partenaires 
Journée d’information 
27 novembre 2014
Contenus de la BnF 
La Bibliothèque nationale de France participe avec 
environ 3 millions de pages 
(environ 2,4 M traité...
Traitements et fonctionnalités avancées dédiées 
à l’amélioration de la consultation 
Reconnaissance optique de caractères...
Traitements et fonctionnalités avancées dédiées 
à l’amélioration de la consultation 
Reconnaissance optique de la structu...
OLR : 
Traitements et fonctionnalités avancées dédiées 
à l’amélioration de la consultation 
• Identification/reconnaissan...
OLR
OLR
OLR
OLR
OLR
Traitements et fonctionnalités avancées dédiées 
à l’amélioration de la consultation 
Reconnaissance des entités nommées (...
REN et Europeana Newspapers 
REN appliquée sur 100-500 K pages) 
• Concevoir, développer et appliquer un modèle pour la RE...
•16 
Entités nommées : comment les décrire ? 
• Format externe (BIO, bases 
de données) 
• TEI 
• METS 
• ALTO 
• European...
Le format METS/ALTO nous offre… 
• Données descriptives et techniques. 
• Informations sur le contenu et la disposition 
p...
Europeana Newspapers : un profil METS/ALTO 
dédié à la numérisation de la presse (ENMAP) 
• Articulation autour de trois c...
Europeana Newspapers : un profil METS/ALTO 
dédié à la numérisation de la presse (ENMAP) 
Outillé par : 
• la documentatio...
Europeana Newspapers : valorisation 
Améliorer la recherche et l’accès au contenu 
• Profiter de la structuration en artic...
Europeana Newspapers : valorisation 
www.theeuropeanlibrary.org/tel4/newspapers
Les bénéfices pour la BnF… 
• Améliorer l’OCR et utiliser des outils d’évaluation/correction : 
définition de nouvelles re...
merci de votre attention!
Prochain SlideShare
Chargement dans…5
×

Presentation of Ioannis Anagnostopoulos at BnF Information Day

610 vues

Publié le

The presentation of Ioannis Anagnostopoulos at the BnF Europeana Newspapers Information Day in Paris (November 2014).

Publié dans : Formation
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
610
Sur SlideShare
0
Issues des intégrations
0
Intégrations
6
Actions
Partages
0
Téléchargements
3
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Presentation of Ioannis Anagnostopoulos at BnF Information Day

  1. 1. Pourquoi Europeana Newspapers ? L’apport de la BnF dans le projet
  2. 2. Car Europeana Newspapers nous permet… • L’agrégation de journaux européens libres de droits issus des grands titres de la presse européenne. • La visibilité et l’accessibilité sur le portail Europeana et sur le portail des bibliothèques partenaires. • L’amélioration des fonctionnalités de recherche pour ce contenu grâce à l’enrichissement sémantique des données et des métadonnées relatives aux corpus traités. Journée d’information 27 novembre 2014
  3. 3. Car Europeana nous propose un point centralisé pour explorer la diversité européenne… • Garantir un meilleur accès aux collections numérisées de presse existantes. • Donner accès en ligne à 18 millions de pages via Europeana et TEL. • Optimiser les processus de numérisation, dont l’OCR, ainsi que les dispositifs de reconnaissance des articles de presse (OLR). Journée d’information 27 novembre 2014
  4. 4. Partenaires Journée d’information 27 novembre 2014
  5. 5. Contenus de la BnF La Bibliothèque nationale de France participe avec environ 3 millions de pages (environ 2,4 M traitées en OCR/OLR) Journée d’information 27 novembre 2014
  6. 6. Traitements et fonctionnalités avancées dédiées à l’amélioration de la consultation Reconnaissance optique de caractères (OCR) – Université d’Innsbruck, Autriche Recherche plein-texte sur corpus BnF sans OCR ou avec OCR non HQ (1,4 M pages)
  7. 7. Traitements et fonctionnalités avancées dédiées à l’amélioration de la consultation Reconnaissance optique de la structuration et de la segmentation des articles (OLR) – CCS, Allemagne. Consultation en mode Articles (1 M pages)
  8. 8. OLR : Traitements et fonctionnalités avancées dédiées à l’amélioration de la consultation • Identification/reconnaissance des colonnes • Segmentation au niveau d’article (titres, sous-titres...) • Reconnaissance de classes de page/contenu (publicités, petites annonces, tableaux, illustrations, légendes) • Outils d’assurance qualité et de correction des résultats
  9. 9. OLR
  10. 10. OLR
  11. 11. OLR
  12. 12. OLR
  13. 13. OLR
  14. 14. Traitements et fonctionnalités avancées dédiées à l’amélioration de la consultation Reconnaissance des entités nommées (REN) • Sous-tâche de l’activité d’extraction d’information dans des corpus documentaires : • Rechercher et identifier un certain nombre d’objets textuels (un mot ou un groupe de mots) présents dans des corpus documentaires. • Catégorisables dans des classes telles que noms de personnes, noms d'organisations (institutions, entreprises, sociétés…) et noms de lieux (pays, ville, site…). • Eventuellement alignés sur des référentiels d’autorités. Partenaires scientifiques et techniques : • KB (GE, NE) • UPMC/LIP6 pour le français
  15. 15. REN et Europeana Newspapers REN appliquée sur 100-500 K pages) • Concevoir, développer et appliquer un modèle pour la REN en français. • Réfléchir aux cas d’usage pour l’amélioration des fonctionnalités de consultation et de présentation à l’intention des usagers d’Europeana et des bibliothèques nationales : • Moteur de recherche sémantique • Web sémantique • Alignement avec des référentiels internationaux pour la recherche d’information multilingue
  16. 16. •16 Entités nommées : comment les décrire ? • Format externe (BIO, bases de données) • TEI • METS • ALTO • Europeana Newspapers a choisi d’utiliser le mécanisme d’étiquetage disponible dans ALTO v2.1.
  17. 17. Le format METS/ALTO nous offre… • Données descriptives et techniques. • Informations sur le contenu et la disposition physique de la page (segmentation). ALTO METS • Description de la publication globale : MD bibliographiques, techniques, administratives. • Informations/description de la structure logique du fascicule (TDM). • Liens logiques entre TDM et blocs ALTO de texte/articles
  18. 18. Europeana Newspapers : un profil METS/ALTO dédié à la numérisation de la presse (ENMAP) • Articulation autour de trois concepts : section, élément de contenu (« article »), élément de structure. • Modèle adapté aux contenus presse. • Classification des types de contenu (information, opinion, divertissement, publicité, métadonnée). Alimenter la réflexion sur la problématique structuration minimale (article = titre + texte) vs. structuration riche
  19. 19. Europeana Newspapers : un profil METS/ALTO dédié à la numérisation de la presse (ENMAP) Outillé par : • la documentation du modèle, • une application de structuration (UIBK) : • test et validation d’un modèle de structuration (lancement de projets de numérisation), • visualisation de contenus (QA) • conversion entre formats • production pour projets de petite taille Publication finale du format en fin de projet (janvier 2015)
  20. 20. Europeana Newspapers : valorisation Améliorer la recherche et l’accès au contenu • Profiter de la structuration en articles individuels, avec table de navigation • Utiliser le typage des contenus pour affiner la recherche (filtres) • Valoriser les entités nommées via des outils sémantiques (data.bnf.fr, Exalead) ou d’autres services spécialisés Enjeux autour du format et valorisation des contenus • Le profil METS/ALTO ENMAP fournit un modèle viable pour le partage et l’échange de contenus de presse. • La structuration avancée qu’il autorise facilite la réexploitation des contenus pour d’autres usages ou vers d’autres formats.
  21. 21. Europeana Newspapers : valorisation www.theeuropeanlibrary.org/tel4/newspapers
  22. 22. Les bénéfices pour la BnF… • Améliorer l’OCR et utiliser des outils d’évaluation/correction : définition de nouvelles recommandations (futurs marchés). • Contribuer aux travaux de convergence vers l’utilisation du profil ENMAP METS/ALTO. • Enrichir les fonctionnalités de recherche et de consultation en mode texte/article pour les journaux sur Gallica. • Attirer plus de visiteurs sur Gallica avec des contenus enrichis et liés à d’autres corpus. • Alimenter d’autres vecteurs de diffusion avec ces contenus enrichis : data.bnf.fr
  23. 23. merci de votre attention!

×