1
Les collections numérisées de journaux de la BnF
Limites et reussites
Journée d’information Europeana Newspapers
BnF
27 ...
Contexte de départ
- Une des plus importantes
hémérothèques d’Europe, la plus
importante en langue française.
- Un accès a...
Choix documentaire
- Des documents rentrés dans le
domaine publics (soit publiés
soixante dix auparavant, et plus)
- Des t...
Du côté des publics
- Attente d’une mode texte enrichi.
- Meilleur identification des images
et de leurs légendes
- Fiabil...
Objectifs de recherche
- Enrichissement de l’OCR
- Segmentation des articles et
reconnaissance des blocs textes
- Identifi...
Et maintenant ?
- Une visibilité augmentée depuis
TEL ?
- Intégration et utilisation des
résultats ?
- Quelles poursuites ...
Prochain SlideShare
Chargement dans…5
×

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris

705 vues

Publié le

The presentation of Philippe Mezzasalma at the BnF Information Day in Paris for the Europeana Newspapers project (November 2014).

Publié dans : Formation
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
705
Sur SlideShare
0
Issues des intégrations
0
Intégrations
15
Actions
Partages
0
Téléchargements
2
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris

  1. 1. 1 Les collections numérisées de journaux de la BnF Limites et reussites Journée d’information Europeana Newspapers BnF 27 novembre 2014
  2. 2. Contexte de départ - Une des plus importantes hémérothèques d’Europe, la plus importante en langue française. - Un accès aux titres par Gallica, avec un début de rubriquage par grande thématique. - Un accès aux contenus au numéro ou à la page. - Un grand nombre de titres en mode image. - Un OCR de qualité inégale - Une navigation limitée dans les contenus textuels - Des difficultés d’interrogation sur les noms propres - Une instabilité des résultats de recherche 2
  3. 3. Choix documentaire - Des documents rentrés dans le domaine publics (soit publiés soixante dix auparavant, et plus) - Des titres morts ou vivants, publiés du XIXème au XXème siècle - Des quotidiens d’information générale et politique nationaux, avec leurs suppléments hebdomadaires (avec exception pour Ouest Eclair). - Un panel représentant l’ensemble des sensibilités politiques et culturelles du pays au moment de l’édition. - Des journaux offrant une riche rubrique « relations internationales », avec focus sur l’Europe en particulier - Des titres typiques de production éditoriale française de l’apoque 3
  4. 4. Du côté des publics - Attente d’une mode texte enrichi. - Meilleur identification des images et de leurs légendes - Fiabilité des résultats des recherches plein texte - Possibilité de réduire « le bruit » - Recherche par article, et titre d’article - Accès direct à l’article - Lecture du journal reprenant le rubriquage d’origine - Navigation facilitée à l’intérieur des contenus textuels 4
  5. 5. Objectifs de recherche - Enrichissement de l’OCR - Segmentation des articles et reconnaissance des blocs textes - Identification des structures éditoriales : rubriques, titres, sous- titres, intertitres … - Repérage et extraction des noms propres et des noms de lieux - Établissement de modèles communs de presse pour l’ensemble des partenaires - Etablissement de critères communs de reconnaissances éditoriales. - Publication de standards descriptifs pour l’édition de presse contemporaine. 5
  6. 6. Et maintenant ? - Une visibilité augmentée depuis TEL ? - Intégration et utilisation des résultats ? - Quelles poursuites ? - Comment traiter les entités nommées ? 6

×