Scribo
Extraction automatique de connaissances `a partir d’images
Guillaume Lazzara
Z@lrde.epita.fr
Thierry G´eraud
Yann J...
Outline
1 Introduction
2 Cas d’application
3 Les outils
4 D´emo
5 Conclusion
Guillaume Lazzara Scribo 2 / 15
Introduction (1/2)
Constat :
Gros volumes de donn´ees :
au format papier (documents d’entreprises, d’institutions...),
ou ...
Introduction (2/2)
But de notre participation dans Scribo :
d´emat´erialiser des documents papiers,
fournir une solution l...
Cas d’application
2 chaˆınes de traitement principales :
Extraction et reconstruction d’un document complexe.
D´etection d...
Exemples de documents
Guillaume Lazzara Scribo 6 / 15
Olena
Scribo s’appuie sur la plateforme Olena :
d´edi´ee au traitement d’images,
collection d’outils g´en´eraux (structure...
Fonctionnalit´es de Scribo (1/3)
Nettoyage de l’image.
suppression de bruit,
s´eparation objets/fond,
= +
Binarisation.
→
...
Fonctionnalit´es de Scribo (2/3)
Extraction de primitives :
lignes,
motifs (tableaux),
images.
Groupement d’objets :
passa...
Fonctionnalit´es de Scribo (3/3)
Extraction de tableaux :
reconstruction `a partir des
lignes verticales et
horizontales,
...
Chaˆıne de d´emat´erialisation
Guillaume Lazzara Scribo 11 / 15
D´emo
<< LiveDemo >>
Guillaume Lazzara Scribo 12 / 15
D´emo
Guillaume Lazzara Scribo 13 / 15
Conclusion (1/2)
Diss´eminations logicielles :
d´eveloppement ouvert sur d´epˆot Git,
sortie d’Olena Version 1.1 bientˆot,...
Conclusion (2/2)
En cours de packaging pour Mandriva Linux,
D´ej`a utilis´e par :
KDE (Nepomuk),
XWiki,
Nuxeo.
Plus d’info...
Prochain SlideShare
Chargement dans…5
×

Scribo - Extraction automatique de connaissances à partir d'images

1 598 vues

Publié le

Présentation donnée lors du CO-Lab Scribo du 23 novembre 2010

Publié dans : Technologie, Business
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 598
Sur SlideShare
0
Issues des intégrations
0
Intégrations
5
Actions
Partages
0
Téléchargements
1 021
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Scribo - Extraction automatique de connaissances à partir d'images

  1. 1. Scribo Extraction automatique de connaissances `a partir d’images Guillaume Lazzara Z@lrde.epita.fr Thierry G´eraud Yann Jacquelet Arthur Cr´epin-Leblond Roland Levillain Julien Marquegnies EPITA Research and Development Laboratory http://www.lrde.epita.fr Guillaume Lazzara Scribo 1 / 15
  2. 2. Outline 1 Introduction 2 Cas d’application 3 Les outils 4 D´emo 5 Conclusion Guillaume Lazzara Scribo 2 / 15
  3. 3. Introduction (1/2) Constat : Gros volumes de donn´ees : au format papier (documents d’entreprises, d’institutions...), ou d´eja num´eris´es (sous forme d’images). Pr´esence de texte : non manipulable (au format image, pas texte ! ), `a exploiter (nombreuses applications). Id´ee : `a partir d’une image de document : pr´eserver la structure du document, conserver les informations de style. Identifier les objets non texte (traits, cadres, cartouches, images (!)...) Guillaume Lazzara Scribo 3 / 15
  4. 4. Introduction (2/2) But de notre participation dans Scribo : d´emat´erialiser des documents papiers, fournir une solution libre et gratuite, enrichir notre biblioth`eque de traitement d’images (Licence GNU GPLv2). Guillaume Lazzara Scribo 4 / 15
  5. 5. Cas d’application 2 chaˆınes de traitement principales : Extraction et reconstruction d’un document complexe. D´etection de texte dans les photos. Des cas d’application : Nepomuk KDE : recherche de mots cl´es dans les images. AFP : extraction de texte dans les photos de presse pour indexation. Nuxeo/XWiki : extraction de texte dans les images pour enrichir les m´eta-donn´ees. Guillaume Lazzara Scribo 5 / 15
  6. 6. Exemples de documents Guillaume Lazzara Scribo 6 / 15
  7. 7. Olena Scribo s’appuie sur la plateforme Olena : d´edi´ee au traitement d’images, collection d’outils g´en´eraux (structures et algorithmes) 10 ans d’ˆage, version 1.0 sortie en juillet 2009, Module Scribo pour la d´emat´erialisation outils sp´ecifiques, disponible sur Internet http://olena.lrde.epita.fr Guillaume Lazzara Scribo 7 / 15
  8. 8. Fonctionnalit´es de Scribo (1/3) Nettoyage de l’image. suppression de bruit, s´eparation objets/fond, = + Binarisation. → Guillaume Lazzara Scribo 8 / 15
  9. 9. Fonctionnalit´es de Scribo (2/3) Extraction de primitives : lignes, motifs (tableaux), images. Groupement d’objets : passage de composantes `a un graphe, plusieurs strat´egies disponibles, identification de lignes de texte. Guillaume Lazzara Scribo 9 / 15
  10. 10. Fonctionnalit´es de Scribo (3/3) Extraction de tableaux : reconstruction `a partir des lignes verticales et horizontales, d´ecoupage en cellules, obtention de la structure. Reconnaissance de caract`eres : am´elioration de la qualit´e des zones de texte, int´egration du logiciel OCR Tesseract. → Guillaume Lazzara Scribo 10 / 15
  11. 11. Chaˆıne de d´emat´erialisation Guillaume Lazzara Scribo 11 / 15
  12. 12. D´emo << LiveDemo >> Guillaume Lazzara Scribo 12 / 15
  13. 13. D´emo Guillaume Lazzara Scribo 13 / 15
  14. 14. Conclusion (1/2) Diss´eminations logicielles : d´eveloppement ouvert sur d´epˆot Git, sortie d’Olena Version 1.1 bientˆot, nouvelle version du module Scribo. Diss´eminations scientifiques : publications (ISMM 2009, ICIP 2010, WADGMM 2010), 2 publications en cours, 2 concours (HSC 2009, H-DIBCO 2009). Guillaume Lazzara Scribo 14 / 15
  15. 15. Conclusion (2/2) En cours de packaging pour Mandriva Linux, D´ej`a utilis´e par : KDE (Nepomuk), XWiki, Nuxeo. Plus d’informations et d´emos en ligne sur : http://olena.lrde.epita.fr/ Guillaume Lazzara Scribo 15 / 15

×