Bibliothèque nationale de France 
Jean-Philippe Moreux, Ourdia Djaout
Bibliothèque nationale de France 
•1368 : premier inventaire de la bibliothèque royale 
•1537 : institution du dépôt légal...
Cas d’usage : contrôle qualité OCR 
Principe : comparer le document à évaluer à son document étalon (« vérité terrain ») a...
Cas d’usage : contrôle qualité OCR 
Usage : marchés de numérisation (phases de test, audits), R&D Principe : comparer le d...
Aletheia (université de Salford) 
•Binarisation et moteur OCR intégré 
•Outils de segmentation semi-auto et automatique, d...
Cas d’usage : contrôle qualité OCR 
Usage : marchés de numérisation (phases de test, audits), R&D Principe : comparer le d...
ocrevalUAtion (université d’Alicante) 
•Evaluation de fichier ou de document (x fichiers) 
•Formats ALTO, PAGE, FineReader...
LayoutEvaluation (université de Salford) 
? 
•Profils d’évaluation par type d’usage 
•Erreurs classées par types (omissio...
Résultats d’évaluation 
Evaluation 
•Outils opérationnels, efficaces. Demandes d’évolution transmises aux développeurs. 
•...
Prochain SlideShare
Chargement dans…5
×

Bibliothèque nationale de France - Jean-Philippe Moreux

633 vues

Publié le

Bibliothèque nationale de France presentation at "Succeed in Digitisation. Spreading Excellence" Conference. Validation and take-up of text digitisation tools.

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
633
Sur SlideShare
0
Issues des intégrations
0
Intégrations
111
Actions
Partages
0
Téléchargements
2
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Bibliothèque nationale de France - Jean-Philippe Moreux

  1. 1. Bibliothèque nationale de France Jean-Philippe Moreux, Ourdia Djaout
  2. 2. Bibliothèque nationale de France •1368 : premier inventaire de la bibliothèque royale •1537 : institution du dépôt légal par François 1er •1666 : installation de la bibliothèque à Richelieu •1994 : création de la Bibliothèque nationale de France •1995 : inauguration du bâtiment François-Mitterrand 1996-1998 ouverture au public du nouveau site •Cinq sites ouverts au public •Livres, périodiques, manuscrits, estampes, photographies, affiches, cartes et plans, audiovisuel, et aussi monnaies, médailles, maquettes, partitions, décors et costumes de théâtre •3660 places dans les salles de lecture, 840 000 lecteurs en 2013
  3. 3. Cas d’usage : contrôle qualité OCR Principe : comparer le document à évaluer à son document étalon (« vérité terrain ») afin de quantifier ses défauts. Usage : marchés de numérisation (phases de test, audits), R&D Outils : •Aletheia : création de vérité terrain •ocrevalUAtion : évaluation de la qualité OCR (transcription du texte) •Layout Evaluation : évaluation de la qualité OCR (segmentation) Corpus : VT BnF (monographies) et VT Europeana Newspapers (presse) x % d’erreurs de reconnaissance y % d’erreurs de segmentation z % de mots omis … ? VT
  4. 4. Cas d’usage : contrôle qualité OCR Usage : marchés de numérisation (phases de test, audits), R&D Principe : comparer le document à évaluer à son document étalon (VT) afin de quantifier les défauts Outils : •Aletheia : création de vérité terrain •ocrevalUAtion : évaluation de la qualité OCR (transcription du texte) •Layout Evaluation : évaluation de la qualité OCR (segmentation) Corpus : VT BnF (monographies) et VT Europeana Newspapers (presse) x % d’erreurs de reconnaissance y % d’erreurs de segmentation z % de mots omis … 1 ?
  5. 5. Aletheia (université de Salford) •Binarisation et moteur OCR intégré •Outils de segmentation semi-auto et automatique, de typage des contenus… •Outils de correction (segmentation, texte, etc.) •Granularité : bloc, ligne, mot, caractère Format PAGE (et export .txt)
  6. 6. Cas d’usage : contrôle qualité OCR Usage : marchés de numérisation (phases de test, audits), R&D Principe : comparer le document à évaluer à son document étalon (VT) afin de quantifier les défauts Outils : •Aletheia : création de vérité terrain •ocrevalUAtion : évaluation de la qualité OCR (transcription du texte) •Layout Evaluation : évaluation de la qualité OCR (segmentation) Corpus : VT BnF (monographies) et VT Europeana Newspapers (presse) ?  x % d’erreurs de reconnaissance y % d’erreurs de segmentation z % de mots omis … 2
  7. 7. ocrevalUAtion (université d’Alicante) •Evaluation de fichier ou de document (x fichiers) •Formats ALTO, PAGE, FineReader, texte •Options de périmètre : mots vides, casse, ponctuation, accents, équivalences, zones, ? 4,3 % d’erreurs sur les caractères 11,45 % d’erreurs sur les mots
  8. 8. LayoutEvaluation (université de Salford) ? •Profils d’évaluation par type d’usage •Erreurs classées par types (omission, fausse détection, fusion, scission, classement erroné) et par niveaux (bloc, ligne, mot) 0,3 % de mots omis 1,1 % de mots surdétectés 0,3 % de mots fusionnés 0,2 % de mots scindés …
  9. 9. Résultats d’évaluation Evaluation •Outils opérationnels, efficaces. Demandes d’évolution transmises aux développeurs. •Le contrôle qualité OCR avec VT est une activité chronophage ! Application •Intégration des outils dans la boîte à outils Numérisation. •Utilisation d’Alethia dans la phase de test du nouveau marché Imprimés 2014. •Rédaction d’un guide pratique en français pour les bibliothèques partenaires.

×