K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture




Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
                             Université de La Rochelle
                            Département d’Informatique
           LABORATOIRE L3I – INFORMATIQUE IMAGE INTERACTION




                            Mémoire de fin d’Etudes
                       En vue de l’obtention du Diplôme de

                                   Master 2 – Recherche
  Spécialité : Informatique & Mathématiques et leurs Applications à l’Economie
                                              (IMAE)
                              Option : « Image & Calculs »



                                              Intitulé


Segmentation d’Images de Documents Anciens par
              Approche Texture

                - APPLICATION du filtre de Gabor -



                           Réalisation de : Kamel MOUATS

   Sous la direction de : Prof. Rémy MULLOT / Nicholas JOURNET




                                          Juillet 2006

Laboratoire L3i – Université de La Rochelle                                  Page 1
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture



Sommaire
                          Liste des tableaux
                          Liste des figures
                          Introduction Générale                                               7
                          Problématique / Contexte                                            9
  I                       Au cœur des documents anciens                                      10
         I.1.             Introduction                                                       10
         I.2.             Traitement des images et documents anciens                         10
                 I.2.1.   Binarisatioon                                                      11
                 I.2.2.   Segmentation Texte/Graphique                                       12

 II                       Analyse Texturale des Documents                                    15
        II.1.             Introduction                                                       15
        II.2.             Définition de la texture                                           15
        II.3.             Application de la texture à la segmentation                        15
        II.4.             Méthodes d’analyse de texture                                      16
        II.5.             Utilisation de la texture sur les images de documents anciens      17
        II.6.             Segmentation des images de documents anciens                       17
        II.7.             Segmentation d’images de documents par analyse des                 18
                          projections horizontales / verticales

III                       Théorie du Filtre de Gabor                                         20
        III.1.            Paramétrisation / Calcul efficace des paramètres de Gabor          24
        III.2.            Les fréquences du filtre de Gabor                                  25
        III.3.            Les orientations du filtre de Gabor                                26
        III.4.            Séparabilité des filtres de Gabor                                  27
        III.5.            Exploitation de la symétrie du filtre                              27
        III.6.            Implémentation du filtrage                                         28

 IV                      Implantation                                                        34
       IV.1.             Analyse des résultats de filtrage                                   38
                 IV.1.a. Influence de l’orientation sur le résultat de filtrage              38
                 IV.1.b. Influence de la fréquence sur le résultat de filtrage               38
                 IV.1.c. Importance entre l’orientation et la fréquence                      38
       IV.2.             Discussion                                                          41
       IV.3.             Définition du banc de filtres pour le filtrage des images de        41
                         documents anciens
       IV.4.             Réalisation                                                         42

 V                        Classification floue d’image                                       44
        V.1.              Introduction                                                       44
        V.2.              Degré d’appartenance                                               44
        V.3.              L’algorithme des C-Moyennes Floues (CMF)                           45

 VI                       Classification des résultats de filtrage dans chaque Sous –        47
                          Banc de Filtres
       VI.1.              Matrice de confiance associée à la classification floue            50
       VI.2.              Analyse du seuillage                                               50
       VI.3.              Comment fusionner les données                                      52


Laboratoire L3i – Université de La Rochelle                                               Page 2
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


VII                       Validation                                            53
                          Discussion                                            60

VIII                      Conclusion / Perspectives                             63

                          Références Bibliographiques                           59

                          Annexe




Laboratoire L3i – Université de La Rochelle                                  Page 3
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Liste des tableaux
I.1.Liste des défauts et prétraitements appropriés des images de documents …………….5
     anciens d’après L. Likfoman-Suelem

III Paramètres du filtre de Gabor…………………………………………………………27

IV.1.Résultat du seuillage des résultats de filtrage par le filtre de Gabor pour ………….30
     différentes valeurs de fréquence et d’orientation (exemple 1)

IV.2.Résultat du seuillage des résultats de filtrage par le filtre de Gabor pour ………….31
     différentes valeurs de fréquence et d’orientation (exemple 2)




Laboratoire L3i – Université de La Rochelle                                          Page 4
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Liste des figures
I.1.Exemples d’images de documents anciens et leurs images binaires…………………….6

I.2.Familles des méthodes de segmentation Texte/Dessin des images de documents………8

II.1.Verrous empêchant l’application de la méthode des projections pour ………………...12
     l’analyse d’images de documents

II.2.Résultats de projection horizontale d’une image de document…………………………13

II.3.Les différentes zones d’un document peuvent être simulées à un ……………………...13
    agencement de textures.

III.1. La fonction de Gabor dans le domaine fréquentiel……………………………………15

III.2.La fonction de Gabor dans le domaine spatial…………………………………………15

III.3.Ensemble de filtres de Gabor dans le domaine fréquentiel…………………………….15

III.4.
     a)Filtres de Gabor dans une fenêtre 30x30, représentés dans le domaine ………………15
     fréquentiel f=1/8 et θ=0° ;
     b)Filtres de Gabor dans une fenêtre 30x30, représentés dans le domaine ………………15
     fréquentiel f=1/8 et θ=45°.

III.5.Partie réelle des 4x4 fonction de Gabor dans le domaine spatial………………………16

III.6.Couverture du domaine de Fourier par les canaux fréquentiels des ………………….. 16
      fonctions de Gabor.

III.7.Exemples de banc de filtres dans le domaine fréquentiel……………………………….21

III.8.a) Résultat de filtrage dans le domaine spatial sur une image de synthèse…..…………22

III.8.b) Résultat de filtrage dans le domaine spatial sur une image de synthèse…..…………23
         avec du texte à différentes tailles de police

III.8.c) Résultat de filtrage dans le domaine appliqué sur une image de document …………24
         ancien

III.9.a) Filtrage dans le domaine fréquentiel appliqué sur une image de synthèse ..…………25

III.9.b) Filtrage dans le domaine fréquentiel appliqué sur une image de document..……. ….26
        ancien

IV.1.Schéma du processus de segmentation d’image utilisant un banc de …………………..37
     filtres de Gabor.



Laboratoire L3i – Université de La Rochelle                                         Page 5
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


VI.1.Phase de calcul des degrés d’appartenance et affectation des pixels ………….……. ....41
     aux classes correspondantes dans chaque sous – banc de filtres

VI.2.Processus d’assignation des vecteurs caractéristiques dans …………………..………...43
     une classification floue

VI.3.Processus de fusion des résultats de classification floue des............................................46
     deux sous banc de filtres

VI.4.L’analyse multirésolution pour la détection des éléments …………………….………..54
     d’une image de document




Laboratoire L3i – Université de La Rochelle                                                             Page 6
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Introduction Générale
       Traditionnellement, le papier était la source principale pour la publication de journaux,
rapports, livres etc. Cependant, la disponibilité et l'économie des ordinateurs puissants
fournissent de nouveaux supports et moyens pour le stockage, la récupération et la recherche
de documents électroniques stockés. Un article situé à un endroit, peut être extrait d'un autre
coin de ce monde en quelques secondes. De plus, si le texte des documents est rangé d'une
manière adéquate, il sera possible de balayer le contenu de différents documents en quelques
secondes. Cependant, il n'est pas évident de donner une version numérique d'un document
automatiquement.

       L’approche ‘Straight –forward’ (Expédition Directe), consiste à numériser l’ensemble
du document et le stocker sous une représentation bitmap; cependant, cette approche
nécessite une capacité de stockage importante (même en utilisant les techniques de
compression d’images les plus récentes) et ne permet pas de retrouver du texte dans ces
documents.

       Une méthode de représentation plus efficace des documents est de séparer le texte du
graphique, et sauvegarder le texte en texte ASCII et les images en bitmaps. De ce fait,
plusieurs approches pour la segmentation texte/images ont été développées et proposées.

       L'analyse de document, précisément 'l'analyse de l'image de document', est le
processus qui fournit une interprétation globale des images de documents. Ce processus est la
réponse à la question : « Comment est combiné l'ensemble du langage, le formatage du
document, le traitement d'image et la reconnaissance de caractères afin de se donner à une
application particulière ? ».

        De ce fait, l'analyse de document est concernée par les issues globales impliquées dans
la reconnaissance de l'écriture sur les images. Elle rajoute aux OCRs une super-structure qui
permet l'organisation du document et se base sur des connaissances, ou non, pour son
interprétation.

         Le processus de la détermination de la structure du document peut être vu comme un
processus guidé par un modèle, explicite ou implicite, de la classe des documents en cours. Le
modèle décrit l'apparence physique et les relations qui existent entre les entités composant le
document. Généralement un OCR est à l'étage finale de ce processus, c'est à dire, il fournit un
codage final des symboles contenus dans des entités logiques telles que des paragraphes ou
tables,...une fois ces derniers sont définis et isolés par une autre phase du processus.
Cependant, il est important de voir qu'un OCR peut participer à la détermination de la
disposition du document (Layout). Par exemple, comme une partie du processus d'extraction
d'articles de journaux, le système peut être ramené à reconnaître des chaînes de caractères, des
signatures ou annotations en bas de l'image de la page, dans le but de localiser le texte intégral
(intégration de la sémantiques aux composants extraits).

       En pratique, un système d'analyse de documents (images de documents) réalise les
tâches de base d'une segmentation d'image, compréhension de la disposition textuelle, la
reconnaissance symbolique et l'application de règles contextuelles d'une manière intégrante.

        Les méthodes de segmentation ‘Texte/Dessin’ les plus connues peuvent être classées
soit en approches ascendantes (Top Down), ou en approches descendantes (Bottom Up).

Laboratoire L3i – Université de La Rochelle                                                Page 7
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture




        Les méthodes descendantes sont basées essentiellement sur la technique « Run Length
Smoothing : Lissage direct en longueur » (connue aussi sous le nom de : Constrained run
length method) et la méthode des Projetions de Profiles. Le principal inconvénient des
méthodes descendantes est leur restriction sur des blocs rectangulaires donc elles ne sont pas
adéquates pour des documents contenant du texte ayant une mise en forme non régulière
(aléatoires / inclinaisons).

        Les méthodes ascendantes sont des variantes typiques de la méthode des Composantes
Connexes. Les inconvénients de cette dernière se résument dans le fait qu’elle est dépendante
de la taille des caractères, elle est sensible à l’interligne et les espaces inter-caractères ainsi
qu’à sa sensibilité à la résolution. Cependant, elles ne sont pas restreintes aux blocs
rectangulaires comme les approches descendantes.

        Une nouvelle méthode, différente des approches précédentes et palliant à leurs
limitations, n’ayant aucun besoin de connaissances à priori sur le document à traiter, a été
présentée par Jain et Bhattacharjee [3]. L’idée de base de cette approche est que les zones de
texte d’une image de document peuvent être considérées approximativement comme une
texture uniforme et les images forment une autre texture. Le document peut être alors
segmenté par un schéma de Segmentation de Texture.

       La segmentation de texture reste toujours un sujet de base et important en traitement
d'images. Elle consiste à segmenter une image texturée en plusieurs régions ayant les mêmes
caractéristiques de texture; elle est bien et belle appliquée à l'analyse des images aériennes,
images biomédicales et des images sismiques, et récemment sur les images de documents
mais nécessitant une bonne définition et paramétrisation.

        Tous comme les autres problèmes de segmentation, la segmentation de texture
nécessite l'identification des caractéristiques spécifiques propres à la texture avec un bon
pouvoir discriminant. Généralement, les méthodes d'extraction des caractéristiques peuvent
être classées en trois catégories de base : Statistique, Structurale et Spectrale.

        Dans les approches statistiques, les statistiques des textures à base des moments de
l'histogramme des niveaux de gris ou à base de la matrice de co-occurrence, sont calculées
pour la discrimination entre les différentes textures. Pour les approches structurelles, 'une
primitive de texture', qui est l'élément de base de texture, est utilisée pour former un modèle de
texture plus complexe à l'aide de règles grammaticales qui spécifient et guident la génération
du modèle de texture en cours. Et enfin, les approches spectrales, l'image texturée est
transformée en domaine fréquentiel. Ensuite, l'extraction des caractéristiques de texture peut
être réalisée en analysant le pouvoir spectral.

        Le schéma de segmentation de texture utilisé par Jain et Bhattacharjee [3] est
principalement le même que celui proposé par Jain et Farrokhnia ; une approche multicanaux
utilisant un banc de filtres de Gabor pré-sélectionnés en fréquences et orientations pour filtrer
une image d'entrée. Les caractéristiques extraites à partir des réponses des images filtrées, et
en se servant d'une fonction d'énergie locale et un découpage (Clustering) par un classifieur
non-supervisé, sont utilisées pour la segmentation et la classification de texture. Le filtre de
Gabor est le filtre le plus utilisé, par excellence, pour la segmentation de texture vu son
pouvoir discriminant paramétrable, cependant, l’inconvénient majeur de l’approche
gaborienne est sa complexité de calcul [2].

Laboratoire L3i – Université de La Rochelle                                                 Page 8
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Problématique / Contexte
       La segmentation d’images de documents anciens en vue de les indexer est un sujet de
recherche.
       Les documents anciens possèdent de nombreuses particularités qui ne permettent pas
d’appliquer les techniques classiques d’analyse de documents composites et d’OCR (Optical
Character Recognition) sur ces ouvrages. Ils sont dégradés, reposent sur les anciennes
techniques d’imprimerie et respectent donc des règles particulières de typographie et de mise
en forme [32].
        Les différents problèmes posés par l’analyse des documents anciens en vue de leur
indexation sont assez proches de ceux que l’on trouve en analyse et interprétation d’images.
La chaîne de traitement comporte généralement un ensemble d’étapes visant à construire des
informations structurées à partir des informations numériques élémentaires (pixels de l'image)
et d’informations contextuelles liées à la nature du document analysé. Les objectifs sont donc
:
1) De séparer les différents composants situés sur les pages des ouvrages (texte, illustration,
lettrine,…)
2) L'objectif très ambitieux de recomposer le document, de comprendre son organisation et
même d'interpréter son contenu.
        L'objet de cette étude consiste principalement à réaliser une étape primordiale dans
l'analyse de la structure physique des images de documents anciens à savoir leur
segmentation afin d'extraire les zones informatives (texte, Dessin, fond).
3) D’identifier les différents styles d’écriture (gras, italique, taille, manuscrit/imprimé…) pour
simplifier la tâche des systèmes d’OCR en créant des bases de modèles pour chacune des
familles détectées. On peut alors parler de reconnaissance adaptative.
       Dans le présent travail, nous allons adopter l’outil Gabor pour définir un système de
segmentation d’images de documents anciens, qui soit alors une première tentative et un
premier pas dans la littérature des méthodes de segmentation d’images de documents anciens.


       Ce mémoire se présentera comme suit :
    En premier lieu, nous présenterons les propriétés des documents anciens, les méthodes
d’analyses qui existent dans la littérature et particulièrement l’analyse documentaire par
approche texture, ensuite nous donnerons une partie théorique complète du filtre de Gabor et
de son utilisation, pour finir cette partie par un descriptif de la méthode de classification non-
supervisée floue utilisée.
    Ensuite, nous décrivons au détail près la conception et le fonctionnement de notre système
de segmentation d’images de documents anciens proposé que nous l’avons testé sur notre base
documentaire (contemporains et anciens), vous trouverez ainsi des résultats de nos tests.
    Et enfin, nous clorons par une évaluation de notre système, et des résultats de
comparaison avec un outil de classification supervisée existant, des résultats seront présentés
et commentés ainsi que des perspectives et ouvertures de notre conception.




Laboratoire L3i – Université de La Rochelle                                                Page 9
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


I. Au cœur des documents anciens
I.1. Introduction
        Les documents anciens sont des documents d’archives rédigés à une autre époque et
obéissant donc à des règles typographiques et de composition différentes de celles appliquées
sur les documents modernes.

        En effet, l’image d’un document ancien numérisée est souvent très tonale, à niveaux
de gris ou en couleur. Elle peut comprendre des annotations dans les marges, des illustrations,
des lettrines, voire même des écritures manuscrites [28].
        Ces documents se caractérisent par des présentations et des écritures très variées,
variations dues à la multiplicité des styles et des techniques d’impression qui ont évolué au
cours du temps. L’usure du temps a de plus produit des altérations au document original et
l’image numérisée qui en découle contient alors des imperfections (taches, écritures
fragmentées) qui n’existent pas dans les documents plus modernes. Les documents anciens
imprimés, bien que présentant moins de variabilité, partagent un grand nombre des
caractéristiques des documents manuscrits [27].
        Les techniques de traitement (ou analyse) des images de documents anciens, se situent
à différents niveaux : prétraitements, analyse et reconnaissance. Ces niveaux de traitements
utilisent ou produisent des structures de données à des niveaux de granularité de plus en plus
élevés : de l’image jusqu’à son interprétation. Si l’objectif ultime est celui de la
reconnaissance de tous les composants du document (graphiques et textuels), d’autres
objectifs concernent la visualisation de l’image pour en améliorer le déchiffrement, la
recherche de structures intermédiaires : blocs, lignes ou mots, et la séparation des couches
graphiques et symboliques. L’automatisation de la recherche des lignes de texte est
notamment une aide certaine à la création de liens texte/image dans les images de documents
anciens [27].

I.2. Traitement des images et documents anciens
       La numérisation des documents anciens est un enjeu important pour les services
d’archives, les bibliothèques, les historiens et les chercheurs en sciences littéraires pour les
possibilités de manipulation, de visualisation et de recherche d’information qui en découlent.
La numérisation physique : scannérisation (ou digitalisation), consiste à créer une image du
document (un tableau de pixels), à l’aide d’une caméra numérique ou d’un scanneur. Une
haute résolution est souvent nécessaire (de300à 600dpi2) pour restituer les éléments les plus
fins de l’écriture et des graphismes. L’image obtenue est en couleur, en niveaux de gris ou
bitonale suivant les possibilités du capteur et les choix de numérisation. La question du format
de sauvegarde (ou stockage), dépend de l’application visée et de la taille du support de
conservation.

Quels sont les apports du traitement des images à la numérisation des documents anciens ?
Ils permettent de rechercher des informations directement dans les images, d’en dégager la
structure, d’en améliorer la qualité visuelle, et cela dans un mode automatique ou semi-
automatique.

Prétraitement
       Les documents anciens posent en préambule un problème d’acquisition certain dû
d’une part à leur positionnement sur le scanner, créant des inclinaisons, des bombages et des

Laboratoire L3i – Université de La Rochelle                                            Page 10
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


pliures du papier, et d’autre part à leur contenu hétérogène (texte imprimé, manuscrit…). Le
processus de vieillissement fait apparaître des taches d’humidité, la transparence de l’encre
sur les rectos, la fragmentation des contours fins, etc. Voici une liste de traitements usuels en
fonction des types de problèmes rencontrés (voir tableau 1).

                      Défaut                                       Prétraitement
Faible ou forte luminosité                                 Modification d’histogramme

*/Présence de taches                                            */Filtrage passe haut
                                                               **/Filtrage passe-bas

**/Points parasites                                        **/Filtrages morphologiques
                                                          Calcul de l’angle par projection
Rotation légère de l’image
                                                       Redressement par re-échantillonnage
*/Courbure de l’écriture sur un bord de                    */Calcul de la courbure locale
l’image                                                        */Re-échantillonnage
                                                        **/Filtrages (passe haut, passe-bas,
**/Ecriture fragmentée                                           morphologiques)
Contours de l’écriture flous                        Filtrage passe haut, filtrage morphologique
Ecriture du verseau apparaissant sur le recto         Combinaison des images recto et verso


TableauI.1. Liste des défauts et prétraitements appropriés, d’après L.Likfoman-Suelem[27].


I.2.1. Binarisation
        L’opération de binarisation est parfois primordiale pour séparer le fond du texte si
l’image originale est en niveau de gris ou en couleur. Elle consiste à produire une image à
deux tons : clair pour le fond, et noir pour le texte. Il est nécessaire de conserver à la fois tous
les caractères et toutes les gravures sans toutefois récupérer trop de bruit [29]. Il existe
plusieurs algorithmes de binarisation (seuillage adaptatif, multi-résolution, morphologique,
classification des pixels,…). Ils apportent tous des avantages et des inconvénients en terme de
vitesse de calcul, de qualité de conservation des traits des caractères et de traits de gravures.
La plupart des méthodes conservent efficacement les caractères mais peuvent abîmer les
gravures ou inversement. Ces méthodes restent tributaires d’un ou de plusieurs seuils à
déterminer. Dans le cas des documents anciens, en général très hétérogènes, ces seuils restent
très difficiles à déterminer sans l’aide d’un expert.




Laboratoire L3i – Université de La Rochelle                                                 Page 11
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture




     Figure I.1. Exemples d’images de documents anciens et leurs images binaires


I.2.2. Segmentation Texte/Graphique
       Une fois l’image binarisée, et le texte séparé du fond, il faut procéder à l’extraction des
médias pour des traitements appropriés. Contrairement aux techniques de prétraitement
précédentes, celles-ci se placent aux niveaux des entités et non au niveau des pixels. Il s’agit
dans le cas des images de documents de regrouper d’abord les formes en entités similaires,
puis de procéder ensuite à leur classification en texte ou en graphique. Les éléments
graphiques peuvent être suivant le document, des lettrines, des illustrations, mais aussi des
paraphes, des ratures, des signes de renvoi, des grands traits, etc.

Laboratoire L3i – Université de La Rochelle                                              Page 12
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Etant réguliers et ayant une texture de caractères très homogène, le texte offre une norme pour
la classification. On utilise en général la largeur, la régularité et l’abondance des composantes
connexes pour la classification. Ainsi, dans un texte, les composantes connexes sont peu
larges, très régulières et très abondantes. Dans un graphique, les composantes connexes sont
très larges, pas régulières et peuvent être abondantes [28].

        Il existe deux approches générales de segmentation :
°/La première suppose que les blocs sont homogènes (un seul média). Dans ce cas, chaque
bloc est classé dans le média le plus proche en fonction des caractéristiques textuelles
extraites de l’image du bloc.
°/ Dans la seconde approche, on suppose qu’un bloc contient un mélange texte/non texte
(mélange de graphiques et de texte). Dans ce cas, une analyse morphologique fine des
composantes connexes, aidées de connaissances a priori sur la position des éléments peut
aussi aider à localiser les différentes zones homogènes du document.

Les lignes de texte dans les documents anciens présentent très peu de régularité exploitable.
En effet, les lignes sont de différentes longueurs, contenant un enchevêtrement de
composantes connexes. La littérature fait état de trois méthodes principales pour l’extraction
de lignes dans les images binaires : les méthodes de projection ou groupement de
composantes ou de pixels le long d’une direction, les approches multi-résolution ou filtrage
différentiel, et les méthodes de groupement de points caractéristiques.

         Quelque soit la méthode utilisée, trois problèmes viendront toujours restreindre les
performances de la segmentation Texte/Dessin des images de documents anciens :
     Le problème de l’échelle : Comment définir une zone de texte sans définir comme
paramètre la taille minimale et maximale des blocs ? Comment considérer une lettrine ou des
titres imprimés en grande taille comme des zones de texte ?
     Le problème de la quantité d’information : A partir de quel seuil de densité de traits faut-
il décider de la présence d’un bloc de texte ? C’est la raison pour laquelle il est difficile de
segmenter un seul caractère isolé car il n’y a pas assez d’information statistique par rapport à
la zone englobante. Par conséquent, de nombreux travaux utilisent au minimum la notion de
ligne, car la ligne de texte est la plus petite région élémentaire suffisamment grande dans
laquelle on peut trouver cette accumulation.
     Problème de l’orientation présumée du texte : On est obligé de faire des hypothèses sur
l’orientation horizontale du texte et beaucoup de méthodes sont sensibles à l’inclinaison du
document (« skew angle).

       En conclusion, il existe bien des approches pour séparer les zones graphiques des
zones textuelles. Une seule approche n’est pas toujours suffisante, et une combinaison de
méthodes est souvent nécessaire dans les cas difficiles. La segmentation Texte/Dessin a de
nombreuses applications et reste la première étape incontournable pour l’interprétation et
l’indexation des images de documents.




Laboratoire L3i – Université de La Rochelle                                             Page 13
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture




                        Méthodes de Segmentation d’Images de documents




        Filtrage Morphologique                                     Filtrage Différentiel

     Points forts :                                           Points forts :
     °/Efficace : Eroder / Dilater                            °/Efficace pour la localisation
     °/Puissant : Isoler/Fusionner                            de texte à partir de seule
     des formes éloignées.                                    l’orientation des caractères.
                                                              °/Robuste et Simple à mettre
     Points faibles :                                         en œuvre.
     °/Nécessite beaucoup de
     paramètres externes (nombre                              Points faibles :
     d’érosions,…..)                                          °/Besoin de connaissances a
     °/Extrêmement coûteux en                                 priori.
     temps de calcul pour de                                  °/Coûteux à cause de la notion
     grandes images.                                          de voisinage.



    Filtrage fréquentiel directionnel                        Analyse de la Texture Binaire

   Points forts :                                           Points forts :
   °/Sélectivité du filtre                                  °/ Facile à Réaliser (RLSA).
   (en fréquence et orientation)
   °/Trop efficace pour la détection                        Points faibles :
   de texte.                                                °/nécessite des informations et
   °/Adaptatif au niveau ligne de                           opérations complémentaires pour
   texte (filtrage à des fenêtres                           donner un parfait résultat de
   glissantes).                                             segmentation.
   Points faibles :
   °/Un long temps de calcul.
   °/Difficile à implémenter.
   °/Difficile à paramétrer.




     Figure I.2. Familles des méthodes de segmentation Texte/Dessin des images de documents




Laboratoire L3i – Université de La Rochelle                                            Page 14
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


II. Analyse texturale des documents
II.1. Introduction
    Les images de document peuvent être vues comme des images texturées dans lesquelles
chaque typographie correspond à une texture différente. De ce fait, la notion de texture se
présente selon deux approches :
    • Une approche Analyse et Reconnaissance du Document (ARD), qui examine l’image
au niveau pixel à condition qu’elle soit déjà segmentée.
    • Une approche traitement des images qui considère l’image dans sa globalité comme un
mélange de signaux de fréquences et d’orientations différentes.
Ces deux approches sont utilisées pour obtenir des mesures de texture caractéristiques et
robustes [18].

II.2. Définition de la texture
         Il n’existe pas de définition universelle de ce que les chercheurs s’emploient à
caractériser comme texture. Chacun propose sa propre explication de ce qui apparaît
visuellement comme une évidence en termes de granularité, régularité… en fonction de
l’utilisation qu’il en fait (certains s’attachent à l’aspect perceptif, alors que d’autres la
définissent par le domaine d’application)
D’un point de vue formel, on admet généralement que la texture est une fonction des
variations d’intensité observées dans l’image. Une définition générale de la texture [14] la
considère comme : Une mesure de la variation de l'intensité d'une surface, mesurant des
propriétés telles que la douceur, la grossièreté et la régularité. Elle est employée souvent
comme un {descripteur de région} dans le domaine de l’analyse d’image et de la vision par
ordinateur.
         Les trois principales approches employées pour décrire la texture sont statistiques,
structurales et spectrales. Les techniques statistiques caractérisent la texture par les
propriétés statistiques des niveaux de gris des points comportant/composant une surface.
Typiquement, ces propriétés sont calculées à partir de l’histogramme des niveaux de gris ou
de la matrice de cooccurrence de la surface. Les techniques structurales caractérisent la
texture comme une surface composée de primitifs simples appelés les «texels» (des éléments
de texture), ils sont régulièrement arrangés sur une surface selon quelques règles. Ces règles
sont formellement définies par {une ou plusieurs grammaires} de divers types. Les
techniques spectrales sont basées sur des propriétés du spectre de Fourier et décrivent la
périodicité globale des niveaux de gris d'une surface en identifiant des crêtes d'énergie élevée
dans le spectre.

II.3. Application de la texture à la segmentation
        La texture sert généralement à la segmentation des images et sous-entend la
reconnaissance de zones homogènes au sens d’une texture donnée.
La distinction aisément faite par l’œil humain entre plusieurs textures est une tâche difficile à
réaliser en vision par ordinateur, dans la mesure où il existe un nombre infini de textures et où
chacune possède ses propres caractéristiques de luminance, orientation, fréquence….[18]
Dans ces conditions, il n’existe pas de méthode capable de caractériser complètement chaque
texture ; l’objectif de la majeure partie d’entre elles est d’analyser l’image de manière à
décrire au mieux les impressions visuelles. Pour cela, on attribue à la texture les propriétés
suivantes [14]:
        La texture est une propriété de région qui ne peut pas être définie en un point, ceci fait

Laboratoire L3i – Université de La Rochelle                                              Page 15
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


        donc intervenir la notion de voisinage.
        La texture est une répartition spatiale de niveaux de gris.
        La texture peut être appréhendée à différents niveaux ou différentes résolutions.
        Une région est considérée comme texturée lorsqu’elle présente un grand nombre de
        petits objets ou un motif élémentaire répétitif.

II.4. Méthodes d’analyse de texture
a) Méthode structurelle
        La texture est définie comme une organisation spatiale de niveaux de gris, c’est-à-dire
qu’elle laisse apparaître des arrangements spatiaux de motifs de base déterminés, ce qui ne
s’applique a priori que dans le cas de structures très régulières.
La plupart des méthodes d’analyse de ces textures se décomposent en deux phases : la
première sert à déterminer les éléments de base composant la texture, tandis que la deuxième
vise à en déterminer l’arrangement spatial.
Les méthodes structurelles sont généralement peu intéressantes, dans la mesure où elles
imposent de travailler sur des textures extrêmement régulières, ce qui n’est pas notre cas (les
images de documents anciens possèdent un grand nombre de paramètres) [18].

b) Méthode statistique
        Ces méthodes définissent la texture en termes de distribution de niveaux de gris ; ce
sont les premières à avoir été utilisées en vision artificielle.
La méthode des matrices de co-occurrence en niveaux de gris est la plus connue et la plus
utilisée des méthodes statistiques. Le principe de cette technique est de parcourir l’image dans
quatre directions privilégiées (0,π/4,π/2,3π/4) et de repérer combien de fois des pixels de
luminosités différant de ∆z sont séparés d’une distance donnée D.
Il s’agit d’un problème à la fois facile à mettre en œuvre (même si le choix des paramètres et
la sélection des résultats les plus pertinents restent difficiles) mais largement coûteux en
termes de temps de calcul et de ressources mémoire nécessaires.
On peut aussi utiliser la fonction d’auto-corrélation, qui permet d’évaluer aussi bien le degré
de régularité de l’image, que la finesse ou la grosseur de la texture dans l’image.
D’après sa formulation mathématique, pour une image I à M lignes et N colonnes :


                                                                      (II.1)




Si le tracé de la fonction d’auto-corrélation chute lentement, alors la texture est plutôt fine
(l’image est très similaire d’un pixel d’observation à son voisin), et à l’inverse si elle chute
rapidement, cela signifie que la texture est plus grossière (deux voisinages proches présentent
peu de similarités) [18] [19]




Laboratoire L3i – Université de La Rochelle                                            Page 16
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture




               Variabilité de la disposition de textures dans une même image


c) Méthodes issues du traitement de signal
        Le but de ces méthodes est de décrire la texture comme un mélange de signaux de
fréquences, d’amplitudes et de directions différentes. Celles-ci sont particulièrement efficaces
en général dans la mesure où elles cherchent à imiter le processus de vision humaine qui
opère une décomposition fréquentielle systématique des images qui parviennent sur la rétine.
Dans le domaine spatial, l’idée est de caractériser la texture par le nombre de transitions (ou
contours) qu’elle affiche par unité de surface, plutôt que d’utiliser les fréquences ; Haralick
parle aussi de « textural edgeness ». On peut, pour cela, utiliser des techniques de détection
de contours classiques. Parmi les plus simples, l’opérateur Laplacien ou l’opérateur de
Robert [18].
Dans le domaine fréquentiel, le principe consiste à repérer les fréquences et les orientations
qui composent les textures contenues dans l’image. Ces méthodes sont particulièrement
adaptées aux cas des images contenant des textures régulières. Le principe est d’appliquer à
l’image originale la transformation de Fourier qui permet de mettre en évidence les régularités
en passant dans le domaine fréquentiel. Le problème posé par cette opération, qui agit
globalement sur l’image, est qu’elle perd une information précieuse de localisation spatiale
i.e. on connaît les caractéristiques (en fréquence et en orientation) des textures qui composent
l’image mais on ne peut pas les situer dans l’image originale [14].
La solution à cela est d’utiliser une transformation alternative appelée transformation de
Fourier à fenêtre glissante, où le principe est d’appliquer la transformation de Fourier dans
une fenêtre d’observation que l’on déplace dans l’image ; la formulation en 1 dimension de
cette opération est :

                                                                         (II.2)


Où f désigne la fonction à laquelle on applique la transformée de Fourier, et w l’amplitude de
la fenêtre d’observation. Lorsque cette dernière est gaussienne, on parle de transformée de
Gabor.

II.5. Utilisation de la texture sur les images de documents anciens
        L’analyse d’images de document, telle que nous l’entendons, consiste en un
découpage (ou segmentation) de l’image en régions homogènes au sens de leur fonction.
Classiquement, on considère que dans les images de documents il existe principalement trois
classes particulières à discriminer : le Texte, le Dessin et le Fond.


Laboratoire L3i – Université de La Rochelle                                            Page 17
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Dans la plupart des cas, la notion de texture est utilisée pour la segmentation d’images de
documents imprimés où on cherche à classer les zones d’intérêt en deux ou trois catégories,
c'est-à-dire Texte/non-Texte, Texte/Dessin ou Texte/Dessin/Fond.

II.6. Segmentation des images de documents anciens
        Quel que soit le type d’image, la séparation des zones textuelles des zones graphiques
s’effectue en localisant les lignes de texte. En effet, de nombreux travaux dans différents
domaines démontrent que la ligne de texte, grâce à sa texture régulière et son alignement,
reste l’élément le moins difficile à localiser quelque soit le support. On peut définir une zone
de texte comme « une région de l’image présentant une très forte densité de traits qui forment
des alignements à une échelle donnée ». Dans une image naturelle, une telle configuration est
très rare [18].
        Les méthodes utilisées sont principalement celles basées sur des opérations
morphologiques par filtrage différentiels ou fréquentiels directionnels. Il s’agit d’approches
dites ascendantes (data-driven) où l’on cherche une interprétation sans connaissances a priori
à partir seulement des seules informations sur les pixels de l’image. Les approches
descendantes (model-driven) nécessitent des connaissances a priori sur la forme de la
localisation des zones de texte ce qui est difficile à obtenir sur des documents anciens [29].
Les images de documents anciens soulèvent trois types de difficultés. La première difficulté
vient de la mise en page de ces documents qui peuvent être complexes et présenter plusieurs
colonnes de taille de corps et d’interlignes différents. Le second problème concerne
l’inévitable courbure des lignes de texte produite par la reliure des livres. Enfin la dernière
difficulté provient des faibles espaces entre les lignes qui entraîne de nombreux contacts entre
les caractères appartenant à de lignes différentes [29].




Cas1 : mise en page complexe              Cas2 : Courbure          Cas3 : connexions entre caractères


         Figure II.1. Verrous empêchant l’application de la méthode des projections pour
                                    l’analyse d’image [29]




Laboratoire L3i – Université de La Rochelle                                                Page 18
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


II.7. Segmentation d’image de documents anciens par analyse des projections
horizontales/ verticales
        Cette méthode consiste à projeter les valeurs des pixels ou l’épaisseur du rectangle
circonscrit des caractères, dans les directions horizontales et verticales de façon à obtenir deux
histogrammes. L’histogramme des projections horizontales possède des maxima qui
représentent les centres des lignes et des minima qui délimitent les bords inférieurs et
supérieurs des lignes. L’histogramme des projections verticales donne les bords extérieurs
gauches et droits des colonnes. Cette méthode ne marche pas pour les documents multi-
colonnes (cas1) et supposent que les lignes soient correctement alignées horizontalement
(cas2). Cette approche nécessite une correction préalable de la courbure et de l’inclinaison et
ne peut traiter que des documents de structure simple. De plus, il faut binariser correctement
l’image de façon à séparer correctement les lignes. Cette méthode n’est donc pas utilisable sur
toutes les images de documents anciens. Cependant, la méthode de projection peut être
appliquées sur des morceaux de lignes de façon à réduire la sensibilité à l’inclinaison et éviter
l’imbrication multiple avec des zones graphiques [29].
Les méthodes de projection permettent toutefois d’extraire la ligne de base (« base-line »), le
corps du texte (« x_line – base-line ») qui délimitent les caractères sans hampes ni jambage.
Ces informations importantes peuvent être extraites par projection de chaque mot du texte
[18].




                                                                                                  Motif Régulier




                                                                                                  Motif Irrégulier




                                                                                                  Motif Régulier




                   Figure II.2. Résultat de projection horizontale d’une image de document [31]




Voici un résumé de quelques travaux, portant sur la segmentation d’images de documents,
utilisant de nombreuses approches intéressantes :
     Jain et Bhattacharjee [3] proposent une méthode directe de segmentation texte/dessin en
utilisant un banc de filtres de Gabor, la méthode ainsi définie ne permet que de marquer les
zones de texte des images de documents traitées.
     Trygve et al. [2] reposent sur les travaux de Jain et Bhattacharjee pour mettre au point un
système de segmentation supervisé, mais plus avancé, capable de définir le texte, le dessin et
le fond des images de documents fortement bruités.
     Mausumi et Malay [4] développe une méthode de segmentation d’images de documents à
l’aide du filtre de Gabor utilisé dans un environnement à base d’ondelette. Le travail ainsi
défini opte seulement pour le marquage des zones de texte présentes dans le document.



Laboratoire L3i – Université de La Rochelle                                                                 Page 19
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Notre travail représente une première tentative dans l’établissement d’un système de
segmentation Texte / Dessin d’images de documents anciens par approche texture utilisant un
banc de filtres de Gabor.

    Il était une fois une   Ä °àt|à âÇx yÉ|á âÇx Űv{tÇàx
    méchante sorcière si    áÉÜv|¢Üx á| }tÄÉâáx wx Ät uxtâà° wx
    jalouse de la beauté    át uxÄÄx Ñxà|àx y|ÄÄx UÄtÇv{xAâÇ
    de sa belle petite      }ÉâÜ xà Ät }xààt wtÇá âÇ
    fille Blanche.un jour   Üâ|ááxtâA fxÑàá Ñxà|àá Çt|Çá
                            Il était une fois une
                            méchante sorcière si
                            jalouse de la beauté
                            de sa belle petite
                            fille Blanche.un jour


    Figure II.3. Les différentes zones d’un document peuvent être simulées à un agencement de textures




III. Théorie du filtre de Gabor
        Un filtre de Gabor est une fonction sinusoïdale à laquelle on a rajouté une enveloppe
gaussienne. Dans le plan fréquentiel, cette fonction se transforme en gaussienne. La fonction
sinusoïdale est caractérisée par sa fréquence et par son orientation. Ainsi appliqué sur une
image, un filtre de Gabor peut être vu comme un détecteur de segments d'orientation
particulière, puisqu'il réagira aux arêtes perpendiculaires à la direction de propagation du
sinus. La fréquence du sinus, indique à quelles fréquences le filtre sera sensible et réagira. Il a
de plus été montré que les fonctions de Gabor forment un set complet, c'est à dire que
n'importe quelle fonction peut être exprimée en une somme (infinie) de fonctions de Gabor,
pour autant que le produit des densités fréquentielle et spatiale du set soit supérieur à 1[4].
        Les techniques de filtrage multi-canal permettent l'extraction des caractéristiques de
texture localement, en fréquence et orientation, en d'autres termes, les calculs des
caractéristiques de texture (en fréquence et orientation) peuvent être effectués pour tout pixel
dans une région d'intérêt. Cette méthode est particulièrement intéressante vue qu'elle est
inspirée du système de vision humain qui décompose l'image projetée sur la rétine en un
nombre important d'images filtrées, chacune contenant des variations d'intensité fines de
fréquences et d'orientations.
L'idée de l'approche gaborienne est alors de concevoir un filtrage particulièrement sélectif en
fréquence et orientation dans le but de caractériser au détail près les textures. Chaque filtre est
alors appliqué à l'image d'origine, et une analyse éventuelle permettra de créer un simple
vecteur de caractéristiques (à base de calculs statistiques).
        Les fonctions de Gabor présentent les avantages suivants :
•   Localisation maximale dans les espaces spatial et fréquentiel;
•   Flexibilité: les fonctions de Gabor peuvent être positionnées librement et continuellement
    dans l'espace, des fréquences et des orientations choisies arbitrairement sans contraintes;




Laboratoire L3i – Université de La Rochelle                                               Page 20
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


    Une fonction de Gabor 2D « h » est une onde plane sinusoïdale modulée par une enveloppe
    gaussienne et orientée avec un angle θ à partir de l'axe X. La formulation mathématique, dans
    le domaine spatial pour une fréquence fondamentale u0 tout au long de l'axe X (c.à.d. θ = 0°),
    est :
                                                           1           x2                  y2
                                             h(x,y)= exp[- 2                   2                                 2              ] cos (2πu0x)         (III.1)
                                                                           x                     y


    où σx (respectivement σy) est la variance de la gaussienne selon l'axe X (respectivement Y).
    Les filtres à orientation θ (θ≠0) sont obtenus en effectuant une rotation de l'équation
    précédente.
    La sélectivité du banc de filtre en orientation et fréquence est claire dans le domaine
    fréquentiel, c'est pour cette raison qu'on applique la transformée de Fourier à l'équation (1), et
    on obtient :
                                                                       2               2                                                                      2       2
                               1                         u u0                      v                                                            1   u u0          v
    H(u,v)=TF(h(x,y))=A.{exp[- 2                                   2                       2               ]+exp[-                              2         2               2   ]}
                                                               u                   v                                                                  u               v

    (III.2)

    avec σu = 1 / 2πσx , σv = 1 / 2πσy et A = 2πσxσy .
    De ce fait, dans le domaine fréquentiel, le signal est représenté par deux gaussiennes le long
    de l'axe X, centrées en +u0 et -u0 comme montré sur la figureIII.1.


            Impossible d’afficher l’image.




                                                                                               Impossible d’afficher l’image.




Figure III.1. La fonction de Gabor dans le domaine fréquentiel                                           Figure III.2. La fonction de Gabor dans le domaine Spatial


Dans le domaine fréquentiel, la fonction de Gabor                                                      Dans le domaine spatial, la fonction de Gabor
est représentée par deux piques gaussiennes.                                                           est une fonction sinusoïdale modulée par une
                                                                                                       gaussienne




    Laboratoire L3i – Université de La Rochelle                                                                                                                   Page 21
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture




                                                                     Impossible d’afficher l’image.




Impossible d’afficher l’image.




                                              Figure III.3. Ensemble de filtres de Gabor dans le domaine fréquentiel (le multi-canaux)


                        Le filtre de Gabor est un filtre directionnel et modulable.
                        Chaque filtre décrit par une orientation et une fréquence spécifiques définit un Canal de
                   filtrage.
                        L’association et l’agencement d’un ensemble de filtres de Gabor permet de couvrir tout
                   l’espace fréquentiel, on parle alors de filtrage multi-canaux.




             Impossible d’afficher l’image.




                                                                                                                        Figure III.4.
                                                                                                        (a) Filtres de Gabor dans une fenêtre 30 x 30,
                                                                                                      représentés dans le domaine spatial et fréquentiel
                                                                                                                     pour u0 = 1/8 et θ=0°
                                                                                                        (b) Filtres de Gabor dans une fenêtre 30 x 30,
                                                                                                      représentés dans le domaine spatial et fréquentiel
                                                                                                                     pour u0 = 1/8 et θ=45°




                 Laboratoire L3i – Université de La Rochelle                                                                                     Page 22
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture
Impossible d’afficher l’image.




                                                                                                          Figure III.5. Partie réelle des 4 x 4 fonctions de Gabor dans le
                                                                                                                                 domaine spatial




                                                                 L’aspect du filtre dépend de la fréquence, de son orientation et de ses écarts types;
                                                                 L’orientation du filtre définit la direction du filtre ;
                                                                 La fréquence définit la sensibilité du filtre ;
                                                                 Les écarts types définissent la réceptivité (largeur) du filtre.



                            Impossible d’afficher l’image.




                                                                                                       Figure III.6. Couverture du domaine de Fourier par les
                                                                                                            canaux fréquentiels des fonctions de Gabor




                                                                 Le filtrage multi-canaux est simplement et efficacement réalisé par le filtre de Gabor
                                                             qui permet de couvrir tout le domaine fréquentiel et dans de multiples orientations.
                                                                 Chaque canal permet d’extraire les composantes de l’image dont les valeurs
                                                             correspondent aux paramètres du filtre (fréquence et orientation).




                                              Laboratoire L3i – Université de La Rochelle                                                                   Page 23
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


D'une manière pratique plus détaillée, un filtre symétrique impair de Gabor possède la forme
générale suivante dans le domaine spatial :


                              2                2
                    1   x              y
h(x,y,θ,f) = exp {- 2 [       2                2   ]}cos(2π f xθ)     (III.3)
                          x                y




avec xθ = x cosθ + y sinθ , et yθ = -x sinθ + y cosθ .
Ce filtre consiste en une enveloppe gaussienne (de paramètres σx et σy) modulée par une
sinusoïde de fréquence f le long de la direction de l'axe xθ . L'angle θ permet la rotation de la
direction de la réponse. La fréquence f peut être vue comme l'inverse de la moyenne des
distances inter-directions.
La valeur de θ est donnée par : θk = π(k – 1)/m, k =1...m, où m représente le nombre de
d'orientations.
Pour chaque bloc d' image (fenêtre) de taille W x W, centré au point (X,Y), avec W impair, on
calcule la grandeur de la caractéristique de Gabor comme suit, pour k = 1....m :
g(X,Y,θk,f,σx,σy) =               I(X+x0,Y+y0)h(x0,y0,θk,f,σx,σy)        (III.4)


où I(x,y) est la valeur du niveau de gris du pixel (x,y).
Comme résultat, on obtient m caractéristiques gaboriennes pour chaque bloc de W x W de
l'image.
Dans des blocs contenant un motif aigu, les valeurs d'une ou de plusieurs valeurs
caractéristiques gaboriennes sera (seront) plus importante(s) que les autres valeurs (ces
valeurs correspondent à l'angle de rotation du filtre qui coïncide avec l'angle directionnel du
motif ou traits du bloc en cours). D'un raisonnement similaire, pour un bruit non-orienté
(aléatoire)des blocs de fond, les m valeurs caractéristiques seront similaires. De ce fait, la
variance G des m valeurs caractéristiques permet de segmenter ou de séparer le fond (arrière
plan) de l'avant-plan (domaine d'intérêt).
Si G est inférieure à un certain seuil donné, le bloc est étiqueté comme un bloc de fond
(background), sinon le bloc est étiqueté comme un bloc d'intérêt (foreground).


       Cependant, cette méthode n'est pas précise sur les bords des régions d'intérêt ou des
blocs ayant un faible contraste (résolution), comme on peut perdre de l'information
miniaturisée en arrière plan si les paramètres ne sont pas bien ajustés.


       Les filtres de Gabor bidimensionnels permettent l’extraction directe de caractéristiques
de textures localisées en fréquence et en orientation, c'est-à-dire que pour chaque pixel, ils
permettent le calcul de caractéristiques dans un voisinage l’englobant. Cette technique,
précisément inspirée du mécanisme de la vision humaine qui opère une décomposition
fréquentielle systématique des images qui parviennent sur la rétine, se révèle particulièrement

Laboratoire L3i – Université de La Rochelle                                             Page 24
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


efficace.
       Le principe des filtres de Gabor est donc de bâtir un banc de filtres très sélectifs en
fréquence et en orientation, et de filtrer l’image à analyser avec chacun d’eux ; le calcul a
posteriori de paramètres sur les images résultats, permet de caractériser les textures
contenues dans l’image à analyser.
        Il est à noter que lorsque la fréquence fondamentale u0 augmente, la bande passante du
filtre en fréquence augmente elle aussi : le filtre devient moins sélectif ; ce phénomène
apparaît clairement sur la représentation d’un banc de filtres de Gabor à 6 fréquences (u0=1√2,
2√2, 3√2, …) et 4 orientations (θ=0°, 45°, 90° et 135°). Par ailleurs, le banc de filtres de
Gabor permet de couvrir la quasi-totalité de l’espace des fréquences et, dans la mesure où il
n’y a que peu de recouvrement entre eux, la décomposition d’une texture dans ce plan est
unique et caractéristique.


III.1. Paramétrisation / Calcul efficace des paramètres de Gabor

        Dans ce qui suit, on présentera les méthodes de sélection et de calcul des paramètres
du filtre de Gabor.
Un filtre de Gabor 2-D est un produit d’une gaussienne elliptique dans toute rotation et un
exponentiel complexe représentant une onde plane sinusoïdale.
La sensibilité du filtre est commandée principalement par ses écarts types, associés au grand
et petit axes σx et σy respectivement. Deux autres paramètres décrivent un filtre de Gabor qui
sont f0 (fréquence centrale) et θ (angle d’orientation).


L’allongement de la gaussienne est donné par : λ = σx / σy.
Une caractéristique gaborienne consiste en le calcul de la réponse des différents filtres pour
des valeurs différentes d’orientations et de fréquences : réponse du banc de filtres.
Un banc de filtres est composé de plusieurs filtres et utilisé dans le processus de
reconnaissance d’objets à base de la relation existante entre les différentes réponses des
filtres.


a) La répartition angulaire

Dans la littérature, la sélection d’angles d’orientation θl a été démontrée [3][21] ; un résultat
clé annonce l’espacement uniforme des différentes orientations.
                        θl = 2πl/n    ,   l={0,1,2,….,n-1}           (III.5)

où θl est la lème orientation et « n » et le nombre total d’orientations envisagées.
Le calcul peut être réduit à moitié vu que les réponses aux angles [π,2π] sont des complexes
conjugués aux réponses sur [0, π] dans le cas des valeurs d’entrée réelles.




Laboratoire L3i – Université de La Rochelle                                             Page 25
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


b) La répartition fréquentielle

Pour les valeurs de la fréquence, elles vérifient l’expression suivante :
                        fl = k-1fmax   ,      l={0,1,,2,…..m-1}     (III.6)
k =2 pour une octave d’espacement ou bien k=√2 pour un espacement d’un demi d’octave.
c) Les Vecteurs caractéristiques

En utilisant ces schémas de sélection pour couvrir les fréquences d’intérêt f0,….,fm-1 et les
orientations pour la discrimination angulaire désirée, on construit un ensemble de
caractéristiques pour tout pixel (x0,y0) de notre image, soit G cette matrice. G peut s’écrire
sous la forme suivante :



                         r(x0,y0 ;f0,θ0)………………. r(x0,y0 ;f0,θn-1)
                         r(x0,y0 ;f1,θ1)………………. r(x0,y0 ;f1,θn-1)
                         .       .        .  .  .        .        .
            G=           .       .        .  .  .        .        .
                         .       .        .  .  .        .        .
                         .       .        .  .  .        .        .
                         r(x0,y0 ;fm-1,θ0)………………. r(x0,y0 ;fm-1,θn-1)


Cette matrice caractéristique peut être utilisée comme un vecteur d’entrée dans un processus
de classification.
Seule la détermination des valeurs de f, θ et σ n’est pas suffisante pour travailler efficacement
avec le filtrage gaborien, il faudrait trouver leurs valeurs optimales. Il existe plusieurs
méthodes d’optimisation, cependant, le caractère d’interdépendance des paramètres gaboriens
et l’hétérogénéité de leurs domaines de définition compliquent cette tâche et la rendent des
fois impraticable.


III.2. Les fréquences du filtre de Gabor

        Dans la littérature [3][4][21], il existe une multitude d’approches pour la détermination
des valeurs des fréquences utilisées pour le filtrage. Principalement, l’adoption d’une
approche spécifique est commandée par le domaine d’application et la nature des images
utilisées.
Les fréquences des filtres dans un banc de filtres sont : f0=fmax, f1=fmax/k, f2=fmax/k2 , ……
fn=fmax/km-1. Les valeurs sélectionnées de k et σx sont interdépendantes. Elles doivent être
choisies de telle sorte que le banc de filtres capture toutes les fréquences utiles et descriptives
pour l’application envisagée.




Laboratoire L3i – Université de La Rochelle                                               Page 26
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Premier résultat important : Les valeurs de σx et f sont mutuellement dépendants.
Sans trop s’attarder sur des démonstrations, on admet les conclusions suivantes :

                                             1  k + 1
                                   σx =               − ln p1
                                             π  k −1                                        III.7



« p1 » correspond au point de passage entre les filtres dans des fréquences adjacentes.

                                                           k −1 2
                                                   − (σπ        )
                                      p1 = e               k +1                               III.8

Pour trouver la valeur de k, étant donné f0=fmax, fm-1=fmin et m est :


                                                                        ln f min − ln f max
                                      1                             −
                        f min =       m −1
                                              f max ⇒ k = e                    m −1           III.9
                                  k

Une valeur indicative de « m » sachant fmax, fmin et k peut être calculée comme suit :

                                             ln f min − ln f max
                                  m=−                            +1                           III.10
                                                     ln k

La valeur retournée de « m » n’est pas directement utilisable, car m doit être un entier.



III.3. Les orientations du filtre de Gabor

       La valeur de σy est étroitement liée aux nombres d’orientations choisies.
En définissant un autre point « p2 » qui correspond au point de passage entre les filtres dans
des orientations adjacentes, la valeur de σy se calcule comme suit, avec n le
nombre d’orientation du filtre:


                                              f0    − ln p 2
                                  σy =                                                        III.11
                                              π       ub


                                         π 
                                u b = tan  f 0                                              III.12
                                          2n 

Laboratoire L3i – Université de La Rochelle                                                            Page 27
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture




                                                                 πf 0
Si n<4 , la valeur de ub peut être rapprochée à :         ub =
                                                                 2n
Alors :

                                  1    − ln p2         1    − ln p2
                           σy =                   =                                 III.13
                                  π      π          π          π
                                      tan 
                                          2n                   2n

La valeur de p2 peut être calculée par l’équation suivante :

                                                      σ yπ 2
                                                 −(            )2
                                      p2 = e           2n                           III.14




                           (a)                                          (b)

     Figure III.7. Exemples de banc de filtres dans le domaine fréquentiel, avec
        m=5, n=4, p=0.2, k=√2 , (a) σx = σy = 2.35 , (b) σx = 2.35 et σy = 1.03


III.4. Séparabilité des filtres de Gabor

         Si un filtre G peut être exprimé comme une multiplication de deux vecteurs Gcol*Grow,
le filtre G est dit alors Séparable. Pour les filtres séparables, la convolution peut être réalisée
séparément avec des filtres 1-D Gcol et Grow. Ceci réduit la complexité totale de calcul de
O(M2N2) à O(2MN2), où N est la Largeur/Taille de l’image et M pour le filtre. Comme
comparé au filtrage FFT, O(N2 Log N), il peut être noté que la convolution dans le domaine
spatial avec des filtres séparables est bénéfique lorsque M<Log N.


       Les filtres de Gabor, qui sont des filtres parallèles (horizontal et vertical) aux axes de
l’image sont séparables, θ=nπ/2, n=0,1,2,…. . Un filtre est une fonction sinusoïdale avec une
enveloppe gaussienne associé à d’autres enveloppes gaussiennes.




Laboratoire L3i – Université de La Rochelle                                                  Page 28
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


         L’utilisation de filtres à des orientations arbitraires implique l’utilisation des rotations
de l’image afin d’exploiter la propriété de séparabilité, ce qui entraîne une augmentation de la
complexité des calculs. Cependant, les filtres de Gabor séparables peuvent être étendus aux
filtres à angle de 45°, θ=π/4 + nπ/2, n=0,1,2,…, ce qui permet de balayer l’image selon la
diagonale, au lieu de rester attaché aux axes principaux.
III.5. Exploitation de la symétrie du filtre

        Les caractéristiques de symétrie et d’anti-symétrie des filtres de Gabor 2-D sont
utilisées pour accélérer les calculs dans le domaine spatial. Les filtres de Gabor sont des filtres
symétriques : les mêmes valeurs du filtre seront reprises dans plusieurs locations. Ces
propriétés peuvent être utilisées automatiquement pour réduire le nombre de multiplications
dans la phase de calcul des réponses des filtres.
III.6. Implémentation du filtrage

Nous allons présenter des exemples de filtrage utilisant le filtre de Gabor. Les images que
nous allons utiliser sont variées :
♦ Images de synthèse contenant des traits/lignes simples à supports multiples (horizontales,
verticales ou obliques) reflétant ainsi les différentes orientations qui peuvent exister dans une
image de document ; ces mêmes lignes ont des épaisseurs différentes simulant les différentes
tailles que peut avoir une ligne de texte. Ce type d’images va nous permettre d’étudier
l’influence de l’orientation et de la fréquence dans l’opération de filtrage ;
♦ Images de synthèse contenant des lignes de texte avec des tailles de polices différentes. Ce
type d’images va nous permettre d’analyser l’effet de la fréquence dans l’opération de
filtrage ;
♦ et des Images de documents anciens sur lesquels on va essayer d’analyser et étudier les
mêmes effets de la fréquence et de l’orientation étudiés sur les images de synthèse.
a) Filtrage dans le domaine spatial

                                      Filtres de Gabor

                                                       f=16√2
         Image                                         θ = 0°

                           Convolution

                                *                      f=16√2
                                                       θ = 30°




                                                         f=16√2
                                                         θ = 90°




Laboratoire L3i – Université de La Rochelledans le domaine spatial sur une image de synthèse
      Figure III.8.a) Résultat de filtrage                                                 Page 29
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Discussion

Le filtre de Gabor permet de détecter les segments et discontinuités (lignes) qui correspondent
à son support d’orientation, et principalement pour 0° et 90°.

Dans le cas de traits trop épais, Gabor permet de détecter le contour de ces traits, ceci étant
logique vu que la propriété de discontinuité s’applique ici, et l’épaisseur du trait représente
une zone homogène (absence de transitions de niveaux de gris) et il n’est pas dans sa portée la
détection de telles régions (zones de basses fréquences).



                                              Filtres de Gabor


                                                                 f=2√2
                                                                 θ = 0°
                                Convolution




                                                                 f=8√2
                                              *                  θ = 0°




                                                                  f=32√2
                                                                  θ = 0°




Figure III.8.b) Résultat de filtrage dans le domaine spatial sur une image de synthèse avec du texte
                                     à différentes tailles de police.

       Nous remarquons que pour une basse fréquence, seul (presque) le texte de plus grande
taille était le résultat de filtrage. Ceci s’explique par le fait que ce texte contient des zones
(fragments de textes) homogènes. En augmentant la valeur de la fréquence, d’autres éléments
apparaissent ; il s’agit essentiellement des lignes de textes de petites tailles, et tant qu’on
augmente la fréquence, des structures plus fines se tracent et apparaissent pour le petit texte,
contrairement au gros textes qui perdent de leur précision au fur et à mesure.


Laboratoire L3i – Université de La Rochelle                                                Page 30
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


En appliquant un simple seuillage pour délimiter les zones qui ont répondu le plus, dans
l’ordre cité ci-dessus, nous obtenons ce qui suit :




           Effet de la fréquence croissante sur le résultat de filtrage (apparition de détails)
Ces derniers résultats vérifient ce qu’on venait d’expliquer auparavant.




                                Filtres de Gabor


                                                   f=16√2
                                                   θ = 0°

                      Convolution

                            *                      f=16√2
                                                   θ = 30°




                                                    f=16√2
                                                    θ = 90°




   Figure III.8.c) Filtrage dans le domaine spatial appliqué sur une image de document ancien




Laboratoire L3i – Université de La Rochelle                                                       Page 31
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture




            0°                                     30°                             90°
    Lignes horizontales                       Lignes obliques                Lignes verticales


               Effet de l’orientation sur une région d’une image de document ancien




Sur ces dernières images, on remarque que pour une fréquence donnée, l’orientation du filtre
permet de détecter les composantes (traits) ayant un support qui coïncide avec cette
orientation. Il est à remarquer que quelque soit l’orientation choisie, il existe toujours des
éléments de nos images de documents anciens qui répondant à ce filtre. De plus, la présence
d’un grand nombre de traits d’orientation correspondante à celle du filtre fait que la réponse
de ce dernier soit plus importante comparée à celles des autres orientations.


Un diagramme de filtrage dans le domaine spatial est présenté dans la figure III.8. a, b et c.

La complexité de la convolution dépend directement de la taille du Masque de convolution,
qui est dans ce cas le filtre de Gabor. La complexité pour calculer la réponse du filtre pour un
pixel est O(M2), où M est la largeur /taille du masque. Si le filtrage est appliqué sur toute
l’image, la complexité est O(M2N2) où N désigne la longueur et la largeur de l’image.
Il est important, pour accélérer le calcul, que la taille du filtre M soit la plus petite que
possible.




Laboratoire L3i – Université de La Rochelle                                                Page 32
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


b) Filtrage dans le domaine fréquentiel

Un diagramme de filtrage dans le domaine fréquentiel est présenté dans la figure III.9-a et b.


                                                                         Filtres


                                                                                   f=16√2




                                       Multiplication avec les filtres
     Image            Après FFT                                                    θ = 0°




                                                                                             Transformée de Fourier Inverse
                                                                                   f=16√2
                                                                                   θ = 30°




                                                                                   f=16√2
                                                                                   θ = 90°




     Figure III.9. a) Filtrage dans le domaine fréquentiel appliqué sur une image de synthèse



En premier, l’image est convertie au domaine fréquentiel avec FFT, l’image résultante de la
transformée de Fourier est multipliée par le filtre de Gabor et les réponses subissent une
conversion inverse au domaine spatial en utilisant la FFT inverse.
La complexité de FFT 2-D et IFFT est O(N2 Log N), à un facteur multiplicatif près. Ce
facteur dépend des dimensions de l’image et de l’implémentation de la transformée de
Fourier.




Laboratoire L3i – Université de La Rochelle                                                                                   Page 33
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture




                                                                         Filtres


                                                                                   f=16√2




                                       Multiplication avec les filtres
  Image               Après FFT                                                    θ = 0°




                                                                                             Transformée de Fourier Inverse
                                                                                   f=16√2
                                                                                   θ = 30°




                                                                                   f=16√2
                                                                                   θ = 90°




 Figure III.9. b) Filtrage dans le domaine fréquentiel appliqué sur une image de document ancien


Remarque

Une propriété très importante à tenir en compte est celle qui est donnée par la proportionnalité
inverse de la largeur du filtre de Gabor dans les deux domaines. Cette propriété est à la racine
de la physique et c’est le principe d’incertitude. Il faudra en toute application faire le choix
entre avoir une haute résolution en fréquence ou avoir une haute résolution en espace mais il
ne sera jamais possible d’avoir les deux au même temps.
On peut déduire aussi la relation d’orthogonalité entre la direction de représentation d’une
ligne dans le domaine spatial et dans le domaine fréquentiel. Sur cette base, on peut voir
d’une façon intuitive que les lignes des contours qui seront trouvées avec le filtrage auront
une orientation de 90° en relation avec l’orientation correspondante dans le domaine
fréquentiel.




Laboratoire L3i – Université de La Rochelle                                                                                   Page 34
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Tableau récapitulatif des paramètres du filtre de Gabor

Paramètre          Description

                   Point d’intersection entre filtres pour des fréquences adjacentes
P1
                   (espacement fréquentiel).

                   Point d’intersection entre filtres pour des orientations adjacentes
P2
                   (espacement angulaire).

K                  Facteur d’échelle pour les fréquences du filtre.

σx                 Longueur d’étendue du filtre (selon l’axe X)

m                  Nombre de filtres pour chaque fréquence.

fmin               Valeur minimale de la fréquence de réponse du filtre.

fmax               Valeur maximale de la fréquence de réponse du filtre.

σy                 Largeur d’étendue du filtre (selon l’axe Y).

n                  Nombre de filtres pour chaque orientation.




Laboratoire L3i – Université de La Rochelle                                              Page 35
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


IV. Implantation
        Suite aux résultats encourageants de la segmentation de textures et celle du
texte/dessin, utilisant le filtre de Gabor [2] [6], nous avons implémenté ce filtre et nous
l’avons testé sur les images de notre base de documents anciens (contenant 80 images).
Le but est d’appliquer ce filtre sur les images de documents anciens et définir ainsi un outil de
segmentation par approche texture pour ce type d’images.

       L’idée qui soutient cette approche, est que les zones de texte peuvent être considérées
comme des textures spécifiques. Il en est de même pour les zones graphiques qui sont
considérées comme des textures mais avec des propriétés différentes de celles des zones de
texte.

       Les zones de texte sont des zones riches en transitions, de ce fait, elles sont riches en
hautes fréquences, contrairement aux zones graphiques, qui sont des zones relativement
homogènes, et par conséquent caractérisées par des basses fréquences.

        En se basant sur ce constat, le filtre de Gabor est trop "sensible" (réponse importante
du filtre) aux zones de texte pour les hautes fréquences, et il est relativement plus sensible aux
zones graphiques pour des fréquences basses ; notez que si les zones graphiques comportent
des zones riches en transitions, le choix de la fréquence adéquate pour le filtrage demeure une
tache relativement complexe et non évidente.

        Nous constatons, d’après les tableaux IV.1 et IV.2 que le filtre de Gabor est sensible
aux valeurs d’entrée de ses paramètres, et le résultat de filtrage dépend étroitement de celles-
ci. Les résultats sont obtenus après un seuillage des images résultantes après le filtrage. Le but
de ce seuillage est principalement pour des fins de visualisation, afin de montrer la variation
des réponses des différents pixels pour un seul filtre. L’opération de seuillage est appliquée
comme suit :
                     ♦ Si Ndg [p(i,j)] > Seuil p(i,j) ε Classe Active (réponse
                     importante du filtre de Gabor)

                     ♦ Si Ndg [p(i,j)] < Seuil p(i,j) ε Classe Passive (réponse
                     négligeable du filtre de Gabor)


        Nous avons constaté aussi que la sensibilité du filtre de Gabor, pour la détection de
segments et de discontinuités, l’empêche d’être très efficace pour la segmentation texte/dessin
à cause de la présence d’éléments fins détectables, par le filtre de Gabor, dans les zones
graphiques, et cela pour des basses fréquences. La même constatation pour des hautes
fréquences, dans le traitement des zones de texte contenant des zones homogènes et uniformes
(gros textes), le filtre de Gabor est alors incapable de détecter de tels composants.

       Pour remédier à cette insuffisance du filtre de Gabor, on définit des Banc de filtres
dont le but consiste à définir une combinaison de plusieurs fréquences et orientations qui
servent à extraire les différentes composantes de l’image ; chaque instance de fréquence et
d’orientation définit un Canal, qui sert à conduire, filtrer et ressortir les éléments de l’image
dont les caractéristiques correspondent à ces valeurs. On parle alors dans ce cas de Filtrage
Multicanaux.


Laboratoire L3i – Université de La Rochelle                                              Page 36
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


        Avant de définir un système de Banc de Filtres pour la segmentation Texte/Dessin
d’images de documents anciens, nous allons montrer l’existence d’un ou de plusieurs points
de rupture fréquentielle, qui permet (tent) de distinguer la réponse du filtre de Gabor pour des
composantes de basses et hautes fréquences (distinction d’éléments de l’image répondants à
de hautes (basses) fréquences). Pour cela, on se sert de l’histogramme des niveaux de gris de
l’image filtrée, pour une fréquence donnée, sur lequel on applique un seuillage ; le choix du
seuil doit permettre de partitionner les pixels de l’image filtrée en deux classes :

   Une première classe englobant les pixels présentant une réponse importante au filtre en
question ;
   Une deuxième classe englobant les pixels qui n’ont pas réagit au filtre en question.

        Il est à noter que le paramétrage effectué jusqu’à présent est purement manuel, et le
choix de la fréquence et de l’orientation a été décidé, après une série de jeux d’essais, afin
d’analyser le comportement fréquentiel et angulaire du filtre et donner un aspect plus concret
à l’opération de filtrage et de la segmentation Texte/Dessin.




Laboratoire L3i – Université de La Rochelle                                            Page 37
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Et après seuillage, on a obtenu les résultats suivants :




                    f(Hz)
                                1√2                  8√2                    16√2                    64√2




     θ (rad)



       0°




       π/6




       π/3




       π/2




Tableau IV.1 : Résultat du seuillage des résultats de filtrage par le filtre de Gabor pour différentes valeurs de
                                   fréquence et d’orientation (exemple1)

Laboratoire L3i – Université de La Rochelle                                                             Page 38
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture




                  f(Hz)      1√2                   8√2                     16√2                    64√2




   θ (rad)


      0°




      π/6




      π/3




      π/2




Tableau IV.2 : Résultat du seuillage des résultats de filtrage par le filtre de Gabor pour différentes valeurs de
                                   fréquence et d’orientation (exemple 2)



Laboratoire L3i – Université de La Rochelle                                                             Page 39
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


IV.1. Analyse des résultats de filtrage
       Selon les résultats des tableaux IV.1 et IV.2, on peut constater que :

    Le résultat de filtrage diffère selon la valeur de f et θ et chaque couple (f,θ) donne lieu à
un résultat de filtrage spécifique.
    Pour chaque orientation, on peut définir deux familles de fréquences : la première où
seules des zones homogènes (ou presque) répondent au filtre en question, et la deuxième
correspond aux zones fortement texturées et qui répondent seules au filtre en question.
    Les fréquences de réponse des zones homogènes sont relativement basses comparées aux
fréquences de réponse des zones texturées (hautes fréquences).
    On constate facilement que les zones répondant aux basses fréquences représentent les
zones graphiques de l’image d’entrée, cependant, les zones qui répondent en hautes
fréquences, sont principalement des zones de texte.
    Il est à noter aussi qu’en augmentant la valeur de la fréquence, des détails apparaissent de
plus en plus, et les zones de plus en plus homogènes disparaissent.
    Pour une fréquence spécifique, le résultat du filtrage n’est pas toujours le même pour de
différentes valeurs de θ.
    On constate que pour une fréquence donnée, des détails apparaissent ou disparaissent, tout
en conservant généralement la nature de l’élément en question : Texte ou Dessin. Ceci est
expliqué par le fait que les images de documents anciens sont des images de traits à
orientations multiples, ce qui implique la présence d’éléments (traits) qui répondent au filtre
en question quelque soit l’orientation choisie. L’abondance de traits pour une orientation
spécifique fait que la réponse du filtre soit plus importante pour cette direction.

IV.1.a) Influence de l’orientation sur le résultat de filtrage
         L’orientation du filtre de Gabor permet de détecter les éléments primitifs de l’image
(traits) dont leur support correspond à cette orientation.

IV.1.b) Influence de la fréquence sur le résultat de filtrage
        La fréquence du filtre de Gabor permet de déceler les éléments dont leur fréquence
coïncide à celle du filtre.
Une image de document peut être vu comme une composition multi-fréquentielles (plusieurs
textures dont chacune est décrite par une fréquence spécifique), et le filtrage permet de
sélectionner seuls les composants de l’image dont leur fréquence correspond à celle du filtre.

IV.1.c) Importance entre l’orientation et la fréquence
        Des résultats précédents, on peut confirmer l’importance et la complétude des deux
principaux paramètres d’un filtre de Gabor : la fréquence et l’orientation. Cependant, dans
notre cas, des images de documents anciens, on favorise l’importance de la fréquence, vu que
les images de traits sont riches en éléments dans les différentes orientations ; de ce fait,
quelque soit l’orientation choisie, on est certain d’avoir cibler des éléments de l’image en
question, et seule la fréquence décide sur la qualité de la réponse du filtre et la précision des
résultats obtenus.




Laboratoire L3i – Université de La Rochelle                                             Page 40
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Le seuillage de l’histogramme des niveaux de gris est une astuce pour visualiser les
composantes de l’image répondant positivement au filtre en question, pour des paramètres
spécifiques:




Résultat du Seuillage pour des hautes fréquences :




Pour des basses fréquences, on a obtenu les résultats suivants :




Laboratoire L3i – Université de La Rochelle                                     Page 41
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


              A partir de ces résultats préliminaires, nous avons bien confirmé qu’il est possible de
      discriminer les zones de texte dans des gammes de hautes fréquences, contrairement aux
      zones graphiques qui le sont pour des basses fréquences.
      Il est à noter également que l’opération de seuillage jouait un rôle complémentaire pour
      déceler les zones graphiques (basses fréquences) des zones textuelles (hautes fréquences).
      Cependant, même avec un seuillage précis, il existe des composants textuels qu’on n’a pas pu
      être étiquetés en tant que zones de texte (idem pour des parties graphiques).

              De ce fait, seule l’opération de seuillage des résultats de filtrage n’est pas suffisante
      pour fournir une segmentation efficace des images de documents anciens.
      La détermination d’un seuil adéquat se fait d’une manière heuristique, à partir de
      l’histogramme des niveaux de gris, en essayent de détecter un point de passage entre les
      pixels ayant une très bonne réponse pour le filtre en question, des pixels ayant une réponse
      moins bonne ou nulle pour le même filtre.

      Pour l’image qui suit, on va utiliser un filtre de Gabor avec f=16√2 et θ=π/2




Pixels graphiques
étiquetés en tant
que pixels de texte.




      Laboratoire L3i – Université de La Rochelle                                             Page 42
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Et pour les basses fréquences :


                              Pixels de texte
                              étiquetés en tant que
                              pixels graphiques.




IV.2. Discussion

        Il est à noter, dans tous les cas de figure, qu’il existe des éléments appartenant soit à
une zone graphique et que même avec un seuillage on n’arrive pas à les étiqueter ainsi, ou
qu’ils soient des éléments de texte, et que suite au filtrage et au seuillage, on les retrouve
faisant partie de la zone graphique.

        L’apport de l’orientation est moins important, comparé à celui de la fréquence, et ceci
à cause de la richesse des images de traits en composants orientés dans de multitudes
directions, ce qui fait que pour tout pixel de l’image à filtrer, ce même pixel peut appartenir en
même moment à une composante texturée orientée horizontalement, verticalement, ou
oblique. On en déduit que le résultat du filtrage gaborien dépend essentiellement de la valeur
de la fréquence du filtre, qui représente sa sensibilité, et de son écart type qui reflète la
réceptivité de celui-ci.

       Pour capturer les différentes composantes d’une image, dans le but d’une
segmentation Texte/Dessin, il nous convient de définir plusieurs fréquences de filtrage, et
plusieurs orientations (plusieurs canaux) ; l’ensemble des filtres ainsi définis fournissement ce
qu’on appelle dans la littérature du filtrage par un « Banc de Filtres ».

IV.3. Définition du Banc de Filtres pour le filtrage des images de documents anciens
       Même si on dispose de quelques outils formels pour la définition d’un banc de filtres
de Gabor, on s’est servi principalement des travaux de Jain & Bhattacharjee [3] et Trygve &
Husϕy [2] pour le paramétrage de notre Banc de filtres.
On utilise 12 orientations pour couvrir tout le plan, avec un point d’espacement angulaire de
p2=30 : 0°,30°,60°,90°,120°,150°,180°,210°,240°,270°,300° et330° (voir l’équation : 2.5). Vu
la propriété de symétrie du filtre de Gabor, on ne garde, de ce fait, que les orientations
appartenant à l’intervalle [0, 180°] : 0°,30°,60°,90°,120°,150° et 180°. On élimine la direction
180° vu que son support correspond à celui de 0°.


Laboratoire L3i – Université de La Rochelle                                              Page 43
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


        Selon [21] et [3], pour avoir un bon résultat de filtrage, le nombre d’orientations ne
doit pas être inférieur à 4, et vu l’importance des directions du premier quart du plan et afin de
ne pas encombrer les calculs, on va préserver les 5 orientations suivantes :
{0°,30°,60°,90°,120°}.
En appliquant la formule (2.13), on trouve σy ≅ 1.35.
On a choisi k=√2.

        D’une manière analogue, fmin=1, fmax = 512 pour une image 800x600 (plus grande
valeur 2n < largeur de l’image).
Pour trouver le nombre de fréquences utilisées, on applique la formule (2.10), on trouve
alors : m=19. Les fréquences d’intérêt sont alors, en appliquant la formule (2.6) : 512, 512/√2,
256,256/√2,128, 128/√2,64, 64/√2, 32, 32/√2,16, 16/√2, 8, 8/√2, 4, 4/√2, 2, 2/√2 et 1.

De ce fait, p1=1/√2=0.7071 et appliquant (2.7), on trouve σx≅1.1.

On peut conserver les deux valeurs différentes de σx et σy, et donc avoir des filtres elliptiques ;
une méthode pour avoir des filtres circulaires [1][4]consiste à calculer la moyenne des deux
écarts types : σ = (σx+σy)/2 ≅ 1.23.

        La méthode formelle qui a servi à calculer les différents paramètres de nos filtres est
parmi d’autres méthodes heuristiques qui existent dans la littérature [1] [2] [3] [4], et font
toutes preuve d’efficacité mais pour des classes d’images spécifiques.

Parmi toutes les valeurs des fréquences définies (fréquences d’intérêts), on ne va conserver
que quelques unes, soient 6 fréquences : 3 basses (1,2√2 et 4) et 3 hautes (32√2, 64√2 et
128√2) (la largeur des images utilisées ≅ 600pixels     la plus grande fréquence en puissance
de 2 est égale à 512 = 2 . Donc la plus grande fréquence utilisée = 29-2√2 =128√2Hz, et
                             9

évidemment, la plus petite fréquence est égale à 1Hz. Le choix du nombre de fréquences
utilisées a été jugé suite aux jeux de tests réalisés).

De ce fait, on aura 5x6 = 30 filtres qui composent notre Banc de Filtres.

On filtre nos images de documents anciens à l’aide des filtres, précédemment définis, et on
applique un processus de classification, suite auquel on obtient le résultat de segmentation de
nos images à l’aide du filtre de Gabor.

IV.4. Réalisation
       On définit 2 Sous-Banc de filtres, le premier est destiné à localiser les pixels
appartenants aux zones graphiques et cela on manipulant des basses fréquences (les zones
graphiques sont des zones presque homogènes détectables pour des basses fréquences), et le
deuxième est destiné, à localiser les pixels appartenants aux zones textes et ceci en manipulant
des hautes fréquences (les zones de texte sont des zones riches en transitions et par
conséquent en hautes fréquences).

       Par conséquent, chacun des Sous - Banc de Filtres est composé de 3x5=15 filtres, et
pour chaque pixel de toute image filtrée, on définit un Vecteur Caractéristique VC de 15
composantes, et dont chacune représente la réponse du filtre sur l’image en question pour une
fréquence f et une orientation θ données. VC peut s’écrire sous la forme suivante :
VC = {r(fi,θj),i=1..3,j=1..5}

Laboratoire L3i – Université de La Rochelle                                               Page 44
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


           Une fois les VC(i,j) définis, on applique une classification afin de décider sur la classe
    d’appartenance de tout pixel et cela pour chaque Sous - Banc à part ; une fois les pixels dans
    les 2 Sous - Banc de Filtres classés, on applique une méthode de fusion de données : elle
    consiste à regrouper et unir les résultats de filtrage afin de fournir le résultat final de
    segmentation de notre image de document en question.

           La définition de notre Banc de filtres peut être schématisée comme suit (figure VI.1),
    avec GH : un filtre de Gabor manipulant une haute fréquence (F : une haute fréquence) et
    GB : un filtre de Gabor manipulant une basse fréquence (F’ : une faible fréquence).

                                              Image d’Entrée



                                                   Filtrage


         Sous – Banc de Filtres de Gabor 1                           Sous – Banc de Filtres de Gabor 2
                (Hautes Fréquence)                                         (Basses Fréquences)


  GH1            GH2           GHi           GH1              GB1           GB1          GBj             GB1
  F1θ1           F1θ2          Fkθl           5               F’1θ          F’1θ         F’kθl             5
                                             Fθ                                                          F’ θ



                                      Extraction de Caractéristiques


15 caractéristiques textuelles par pixel                       15 caractéristiques graphiques par pixel



                                               Classification



            Image de Texte                                                   Image de Dessin


                                            Fusion des résultats




                                               Image résultante
                                                 Segmentée

    Laboratoire L3i –Schéma du de La Rochelle
       Figure IV.1. Université processus de segmentation d’image utilisant un banc de Filtres Page 45
                                                                                              de Gabor
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


V. Classification floue d’image
V.1. Introduction
        La segmentation a pour but de déterminer les régions d’une image cohérentes à la fois
spatialement et du point de vue de leur contenu. Une catégorie de méthodes de segmentation
d’images s’appuie sur une classification : les points de l’image sont des individus que l’on
souhaite regrouper en classes.

        Très tôt après l’introduction par Zedah [33] du concept d’ensemble flou, on s’est
aperçu que la notion de classe utilisée en reconnaissance des formes trouvait là son cadre
d’expression tout naturel. En effet, on peut définir une classe comme un groupe d’individus
présentant des similitudes communes. Ces similitudes peuvent être plus ou moins fortes entre
les individus d’une même classe, et d’autre part, un même individu peut présenter des
similitudes avec des individus d’autres classes, si bien que son appartenance n’est pas
localisée à une classe déterminée mais se trouve distribuée sur plusieurs classes, sans qu’il
soit toujours possible de trancher d’une façon nette à quelle (unique) classe appartient
l’individu en question. Mais nous avons là le concept même d’ensemble flou qui est défini,
car dans ce formalisme, un élément peut appartenir plus ou moins fortement à plusieurs
ensembles flous [20].

        Pour remédier à ce type de problème, de nouvelles approches de classification ont été
proposées, parmi lesquelles, on peut noter l’approche par la logique floue, avec l’introduction
du concept de degré d’appartenance qui détermine la « force » avec laquelle un individu
(pixel d’image dans notre cas) appartient aux différentes classes. Cela repose sur le fait que le
concept de la logique floue ne cherche pas un point de rupture x qui décide de l’appartenance
d’un individu à une classe, mais qu’elle raisonne plutôt sur la base d’un intervalle de valeurs.
Comme évoqué ci-dessus, l’idée qui soutient l’approche par la logique floue est la possibilité
d’appartenance à la fois à plusieurs classes (texte, dessin, fond) pour un pixel donné.

       Toutes les méthodes de classification « dure » (parmi lesquelles, la méthode C-
moyennes) contraignant les pixels à être membre d’une, et une seule classe, se trouvent ainsi
exclues.

       Bien que la probabilité d’appartenance des objets à plusieurs classes ne soit pas une
exclusivité des techniques floues, nous avons choisi de retenir ces dernières car elles
fournissent une matrice des degrés d’appartenance de chaque pixel à chaque classe.
L’approche par la logique floue en segmentation d’image, se justifie donc grâce à sa capacité
d’engendrer une matrice des degrés d’appartenance [15].

V.2. Degré d’appartenance
«Très souvent, les classes d’objets rencontrées dans le monde physique ne possèdent pas de
critères d’appartenance bien définies ». Ce constat montre le fossé qui sépare les
représentations mentales de la réalité et les modèles mathématiques usuels à base de variables
booléennes vrai/faux. En effet, il est difficile de proposer un seuil en deçà (#au-delà) duquel
l’observation sera affectée entièrement à telle ou telle classe.

        Nous avons adopté l’idée de J.C. Bezdek pour réaliser une classification floue des
pixels résultants de l’opération de filtrage. Le résultat de cette classification floue sera utilisé
pour calculer les probabilités a posteriori. L’idée était qu’au lieu de chercher à tout prix un

Laboratoire L3i – Université de La Rochelle                                                Page 46
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


seuil unique S décidant l’appartenance à un ensemble dans un contexte donné, il semble plus
réaliste de considérer deux seuils S1<S2, avec une fonction d’appartenance donnant à chaque
pixel un degré d’appartenance (compris entre 0 et 1) selon lequel le pixel en question
appartient à une classe donnée. En deçà de S1, le pixel appartient complètement à une classe
(degré d’appartenance maximal égal à 1) ; au-delà de S2, il n’appartient plus à cette classe
(degré d’appartenance minimal, par convention égal à 0). Entre S1 et S2, les degrés
d’appartenance seront intermédiaires (entre 0 et 1). (Voir plus loin la formalisation floue)

        Le concept de sous-ensemble flou et le degré d’appartenance ont été introduits pour
éviter les passages brusques d’une classe à une autre et autoriser les éléments à n’appartenir
complètement ni à l’une ni à l’autre ou encore appartenir partiellement à chacune. Ces notions
permettent de traiter : des catégories aux limites mal définies, des situations intermédiaires
entre le « tout » et le « rien », le passage progressif d’une propriété à une autre, ou encore des
valeurs approximatives exprimées en langage naturel [9][10].

        Parmi les techniques de la logique floue en classification, l’algorithme C-Moyennes
Floues (CMF) a été choisi pour son autonomie due à l’usage d’un classificateur non
supervisé. Les autres méthodes, comme les k-plus proches voisins flous ou celle fondée sur
les relations floues sont tous des algorithmes de classification supervisée réclamant un
échantillon d’apprentissage.

       On va présenter dans ce qui suit le principe de cet algorithme de classification très
populaire, basé sur la logique floue, connu pour son efficacité et sa robustesse.

V.3. L’algorithme des C-Moyennes Floues (CMF)
        L’algorithme des C-Moyennes (CM) est l’une des méthodes les plus connues parmi les
techniques de classification non supervisée et qui est fréquemment utilisée pour la
quantification vectorielle. La version C-Moyennes Floues est une extension directe de cet
algorithme, où l’on introduit la notion d’ensemble flou dans la définition des classes. Comme
leurs homologues « Durs », cet algorithme utilise un critère de minimisation des distances
intra-classes et de maximisation des distances inter-classes, mais en tenant compte des degrés
d’appartenance des pixels [10].

        L’algorithme CMF est un algorithme de classification floue fondé sur l’optimisation
d’un critère quadratique de classification où chaque classe est représentée par son centre de
gravité [10]. L’algorithme nécessite de connaître le nombre de classes au préalable et génère
les classes par un processus itératif en minimisant une fonction objectif. Ainsi, il permet
d’obtenir une partition floue de l’image en donnant à chaque pixel un degré d’appartenance à
une région donnée.

         Les principales étapes de l’algorithme des c-moyennes floues sont [9]:
/°1. La fixation arbitraire d’une matrice d’appartenance [Uij-k] où uij-k est le degré
d’appartenance du pixel (i,j) à la classe k.
/2°. Le calcul des centroïdes des classes.
/3°. Le réajustement de la matrice d’appartenance suivant la position des centroïdes.
/4°. Le calcul du critère d’évaluation de la qualité de la solution, la non convergence de ce
critère impliquant le retour à l’étape 2.



Laboratoire L3i – Université de La Rochelle                                              Page 47
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


        Contrairement aux méthodes de classification dure, la valeur d’appartenance d’un
pixel à une classe ne prend pas simplement la valeur 0 ou 1, mais toutes les valeurs possibles
dans l’intervalle [0,1].

        Pour avoir une bonne partition, on impose aux éléments de la matrice [Uij-k], les
contraintes suivantes qui doivent être vérifiées :
/° uij-k ε [0,1]
/°     ∑ k u ij − k = 1; ceci∀(i, j )
  L’algorithme du CMF fait évoluer la partition (Matrice U) en minimisant la fonction objectif
suivante :
                      N ,M C                                      2

     J m (U , C ) =   ∑∑ (u
                      i , j =1 k =1
                                      ij − k   ) U ij − k − C k
                                                m




Où :
       •   m>1 est un paramètre contrôlant le degré de flou (généralement m=2) ;
       •   Ck : le centre de la classe k et c le nombre de classes;
                                                                                     −1
                           c
                                      (                                     
                                                                               )
                                                                         1

       ●      U ij −k    = ∑ d 2 ((i, j ), C k ) / d 2 ((i, j ), C n ) m−1 
                            n=1                                            

Algorithme CMF
°1/ Choisir le nombre de classes : C // information a priori, algorithme supervisé.
°2/ Initialiser la matrice de partition U, ainsi que les centres Ck.
°3/Faire évoluer la matrice de partition et les centres suivant les deux équations :

E1 :                                                          // Mise à jour des degrés d’appartenance où :




E2 :                                                          // Mise à jour des centres



E3- Test d’arrêt : |Jt+1 – Jt| < seuil avec
m : degré de flou, généralement m=2.



       Le résultat direct fourni par l’algorithme CMF est la matrice des degrés
d’appartenance de chaque pixel à chaque classe. Cette matrice donne une image graduée de
l’appartenance des pixels aux classes définies.

Laboratoire L3i – Université de La Rochelle                                                                   Page 48
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


VI. Classification des résultats de filtrage dans chaque Sous - Banc de Filtres
        Seules les réponses brutes du filtre de Gabor ne sont pas efficaces pour fournir un
résultat final parfait d’une image segmentée. Un post-traitement est nécessaire et se résume
dans un processus de Classification des données résultantes des différents filtres.

         Le principal verrou se résume dans le choix d’un seuil pour séparer les réponses des
pixels textes et dessins dans les différentes images filtrées. L’intensité à classer (après
normalisation) de chaque pixel représente la réponse de ce dernier pour un filtre particulier
défini par une fréquence et une orientation déterminées. De ce fait, et selon la réponse du
filtre, l’intensité d’un pixel le qualifie en tant qu’un pixel d’une zone de texte si sa réponse
dépasse un certain seuil, cependant, si cette intensité est inférieure à une certaine borne, ce
pixel ne peut être qu’un pixel d’une zone graphique.



                                                                Images caractéristiques : Ik
                                                                 (résultat de filtrage par un
                                                                   Banc filtres spécifique)
                                                                        (NxM pixels)




                                          Normalisation        uij-k=[255-Ikk(i,j)]/255


                                           0<=uij-k<=1
                                 (Pseudos Degrés d’Appartenance)
                                         i=1...N, j=1…M
                                 k=1..15 par Sous Banc de filtres



                                                           VC(i,j)={Uij-k,k=1..15}

                                                                            1 D
                                                               deg(i, j ) =   ∑ u ij −l , D = 15
                                                                            D I(i,j)εClasse1
                                                                               l =1
                                                          °/ Si deg(i,j)<S1

                                                          °/ Si deg(i,j)>S2   I(i,j)εClasse1

                                                          °/ Si S1<=deg(i,j)<=S2 lancer une
 Figure VI.1. Phase de Calcul des degrés                  procédure de post-traitement pour le
 d’appartenance et affectation des pixels                 calcul de nouvelles valeurs des degij-k.
 aux classes correspondantes dans chaque
 sous – banc de filtres
°/ Pour le Sous Banc de Filtres 1 (hautes fréquence) :
Classe1 = Texte
Classe1 = Dessin/fond
°/ Pour le Sous Banc de Filtres 2 (basses fréquences) :
Classe1 = Dessin
Laboratoire L3i – Université de La Rochelle
Classe1 = Texte/fond                                                                           Page 49
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


        Des exemples précédents, on a pu constater qu’on ne peut en aucun cas trouver un seul
seuil pour toutes les classes de documents anciens en notre possession, de plus on est jamais
certain du choix du seuil utilisé ; il est alors plus adéquat de définir deux seuils S1 et S2
suffisamment séparés pour définir les valeurs d’intensités correspondantes aux zones de texte
et de dessin sans risque d’affectation. Les pixels ayant des valeurs d’intensités comprises
entre S1 et S2 subiront à leur tour des traitements pour définir la classe la plus appropriée à
leur appartenance.

        Cette conception du module de classification et d’affectation correspond à une
Classification Floue. De ce fait, sur les vecteurs caractéristiques, définis sur l’ensemble des
pixels, on applique une classification de type floue non supervisée dont le principe consiste à
trouver une partition de l’image, caractérisée par un vecteur des degrés d’appartenance d’un
pixel (i,j) à une classe Cl, résultats du filtrage dans chaque Sous – Banc de filtres.

        Notez que pour chaque Sous – Banc de filtres, on définit 2 classes : pour les basses
fréquences, Classe1 : pixels des zones graphiques et Classe2 : le complément de Classe1
(pixels textes ou de fond), et pour les hautes fréquences, 2 autres classes, Classe1 : pixels des
zones de texte, et Classe2 : complément de Classe1 (pixels graphiques ou de fond). La
classification est appliquée sur le résultat de chaque Sous – Banc de Filtres.

        L’idée qui soutient l’approche par la logique floue est l’impossibilité de décider sur
l’appartenance d’un pixel ou une région donnée de l’image suite au choix difficile d’un seuil
pour différencier le texte et le dessin et la présence de situation d’homogénéité des réponses
des zones de texte de celles des zones de dessin pour le filtre de Gabor. Pour remédier à ce
problème, on définit deux bornes (seuils) S1 et S2 tels que, en dehors de l’intervalle [S1,S2],
on est certain de la classe d’appartenance des pixels, et dans le cas contraire, on doit procéder
à un traitement qui permet de modifier les degrés d’appartenance, en analysant le contexte des
pixels et leurs réponses, afin de leur attribuer, si c’est possible, la classe la plus convenable.

       Les degrés d’appartenance de chaque pixel se calculent par normalisation des résultats
de réponse de chaque filtre.




Laboratoire L3i – Université de La Rochelle                                              Page 50
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture




                 Classe 1                     Classe ?                     Classe 1




                                 S1                             S2
      C1                                                                                C2
                                              À affecter




                 Classe 1                     Classe ?                     Classe 1




                                 S1                             S2
      C1                                                                                C2
                                              À affecter



                 Classe 1                     Classe ?                     Classe 1




                                 S1                             S2
      C1                                                                                C2
                                              À affecter



                 Classe 1                     Classe ?                     Classe 1




                                 S1                             S2
      C1                                                                                C2
                                              À affecter

    Figure VI.2. Processus d’assignation des vecteurs caractéristiques dans une classification floue




Laboratoire L3i – Université de La Rochelle                                                  Page 51
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


        Le processus de classification continue à s’exécuter jusqu’à stabilité de la solution
(résultat inchangé, ou presque, entre deux itérations successives)

VI.1. Matrice de confiance associée à la classification floue
      La robustesse d’un algorithme de classification floue doit être accompagnée d’une
mesure de confiance.

        Dans notre cas et pour chaque Sous – Banc de Filtres, on définit un Vecteur de
Confiance pour chaque pixel dont chacune de ses valeurs correspond à un pseudo degré
d’appartenance de ce même pixel résultant d’une opération de filtrage par un filtre de Gabor
spécifique du banc.

        Le kème pseudo degré d’appartenance d’un pixel (i,j) est la valeur normalisée du
résultat du filtrage par le kème filtre de Gabor pour ce même pixel.

       Pour chaque pseudo degré d’appartenance, la mesure de confiance est considérée dans
un voisinage de 9x9 (décidé d’une manière heuristique).
Pour tout pixel (i,j) VC =[v1,v2,v3,v4,v5,v6,v7,v8,v9,v10,v11,v12,v13,v14,v15]
   Conf = [conf1, conf2,      conf3,……, conf15] // vecteur de Confiance.

       La mesure de confiance, pour tout pixel d’une image filtrée par un filtre spécifique, se
calcule comme suit :
                                              - confk(i,j) : kème degré de confiance associé au kème pseudo
                                                             degré d’appartenance du pixel (i,j).
                                              - N : nombre de voisins du pixel (i,j)

         Cette quantité est une variance, elle permet de quantifier l’homogénéité et la
correspondance du pixel en question avec ses voisins. Si confk(i,j) est faible, alors le pixel (i,j)
est homogène avec ses voisin, sinon, si confk(i,j) est importante, ceci implique que le pixel
(i,j) diffère de ses voisins et cette conclusion influencera la prise de décision concernant la
classe d’appartenance de ce pixel : Cette mesure de confiance intervient durant le processus
de classification, et précisément dans la phase d’initialisation des classes et la mise à jour des
degrés d’appartenance, sous hypothèse d’homogénéisation des pixels du voisinage.

Le degré d’appartenance pour tout pixel (i,j) se calcule comme suit :
                                                  M : nombre de filtres de Gabor utilisés.




VI.2. Analyse du seuillage
        La détermination de seuils est une étape primordiale pour notre processus de
classification floue adoptée. Un seuil doit vérifier la généralité et l’efficacité de calcul.

Du point de vue implantation, nous avons exploré deux méthodes sur trois pour fixer les
seuils utilisés.


Laboratoire L3i – Université de La Rochelle                                                          Page 52
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


L’approche que nous avons omit est celle principalement basée sur un apprentissage. Les
raisons pour lesquelles nous ne l’avons pas adopté sont :
        La variabilité des classes des documents anciens ce qui implique la difficulté voire
        l’impossibilité de définir des seuils uniques pour toutes les classes ;
        Le besoin de définir des échantillons représentatifs des classes des documents anciens
        ce qui semble être impossible vu la diversité et la richesse des formats et modèles des
        documents anciens.
    Comme solution immédiate à cette première approche, on a défini deux seuils, suite à un
jeu d’essais, suffisamment éloignés afin d’assurer une discrimination nette entre les classes
d’affectation et éviter ainsi les conflits d’assignation.

Cependant, et même si les résultats sont satisfaisants, le temps de calcul nécessaire pour
l’accomplissement d’une segmentation est extrêmement important. Ceci s’explique par le fait
que l’éloignement entre les deux seuils accroît le nombre de pixels candidats à l’opération de
calcul et mise à jours des degrés d’appartenance.

Pour palier à toutes les contraintes citées ci-dessus, on a voulu déterminer un seuil spécifique
pour chaque pixel et dont sa valeur se détermine par une analyse de voisinage. De ce fait, S1
et S2 coïncident, c'est-à-dire, au lieu de définir deux seuils distincts éloignés, on se ramène à
définir un seul seuil S (S1 et S2 se rapprochent jusqu’à superposition).

Le seuillage ainsi adopté est trop simple à mettre en œuvre et se situe dans la phase de
défuzzyfication du processus de classification.

Il s’agit d’un seuillage local et adaptatif pour tout pixel dans un voisinage de 3x3.

Pour chaque sous-banc de filtres, le seuillage peut être formalisé comme suit :


     ► Calculer   l’écart type (ρ) sur les degrés d’appartenance de la matrice de voisinage (valeur en %)

     ► Si   ρ < 50% alors (1) sinon (2)

     (1) S = Moy(deg(k,l))            i-2<=k<=i+2, j-2<=l<=j+2, Moy : moyenne

         Si deg(i,j) >= S      Alors pixel (i,j) ε Classe1    Sinon pixel (i,j) ε Classe 1

     (2) °/Calculer le nombre d’éléments avec un degré d’appartenance supérieur à deg(i,j) (nb1)

            et le nombre d’éléments avec un degré d’appartenance inféieur à deg(i,j) (nb2 = S);

        °/ Si nb1>=S alors pixel (i,j) ε Classe1     Sinon pixel (i,j) ε Classe 1




Suite à cette opération, chaque pixel sera attribuer une classe, ‘Texte’ ou ‘Non’ pour le
premier sous-banc de filtres ou ‘Dessin’ ou ‘Non’ pour le second.




Laboratoire L3i – Université de La Rochelle                                                       Page 53
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Une fois les pixels affectés à leurs classes, on procède à une fusion des résultats d’affectation
pour ne garder qu’une seule classe par pixel et fournir ainsi le résultat final de notre système
de segmentation d’images de documents anciens.


VI.3. Comment fusionner les données ?

        Le résultat de chaque Sous – Banc de Filtres est une décision portée sur chaque pixel.
Pour le premier, il s’agit de décider sur le caractère textuel des pixels, et pour le second sur
leur caractère graphique.

        Un résultat idéal de classification est de pouvoir trouver, pour chaque pixel, une et une
seule affectation (soit c’est un pixel d’une zone de texte ou un pixel d’une zone graphique).
Vu la sensibilité du filtre de Gabor, la richesse des graphiques des images de documents
anciens en textures et composants similaires aux textes, ainsi que la sensibilité de la
classification floue, une situation de conflit d’affectation aura toujours lieu (un pixel sera
étiqueté en tant que pixel textuel par le premier sous – banc de filtres, et étiqueté, en même
temps, en tant que pixel graphique par le second sous – banc de filtres).

         Pour remédier à ce problème, on définit une règle heuristique de priorité textuelle, on
utilise l’opérateur XOR entre les deux résultats de classification (image de texte et image de
dessin) pour éviter le conflit d’affectation ; le résultat de fusion contient en premier lieu les
composants textuels (qui sont plus sûrs), en les excluant du résultat de classification de dessin,
et ensuite on affecte le résultat des pixels dessins restants. Les pixels sans étiquettes forment
le fond de l’image.



           Résultat de FCM – 2                                  Résultat de FCM - 1
          Sous – Banc de Filtres 2                             Sous - Banc de Filtres1
           (Détection des zones                                (Détection des zones de
                graphiques)                                            textes)

              Priorité Min                                            Priorité Max
                                                       XOR



                                       Image de document
                                       ancien segmentée :
                                      Texte / Dessin / Fond



Figure VI.3. Processus de fusion des résultats de classification floue des 2 Sous Banc de Filtres




Laboratoire L3i – Université de La Rochelle                                                  Page 54
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


VII. Validation
       Nous avons implémenté notre système flou de segmentation d’images de documents
anciens conçu à base d’un banc de filtres de Gabor et nous l’avons testé sur 80 images de
documents anciens de notre base d’image du 15ème siècle d’André Vésale (1514-1564).
Avant de montrer les résultats obtenus, nous avons testé notre outil sur 120 images de
documents contemporains et nous avons calculé le taux de pixels bien classés.




                    (Im1)                                   97.24% de pixels bien classés
                                                            2.65% de pixel mal classés
                                                            0.11% de pixels non classés




                                                        93.73% de pixels bien classés
                    (Im2)                               6.23% de pixel mal classés
                                                        0.04% de pixels non classés
Laboratoire L3i – Université de La Rochelle                                             Page 55
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture




                    (Im3)                                   97.18% de pixels bien classés
                                                            2.72% de pixel mal classés
                                                            0.10% de pixels non classés




                      (Im4)                                 98.96% de pixels bien classés
                                                            0.88% de pixel mal classés
                                                            0.16% de pixels non classés



        Zones de texte                        Zones graphiques               Fond

Laboratoire L3i – Université de La Rochelle                                           Page 56
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Sur les précédentes images, nous avons évalué notre outil pour la détection du texte et du
dessin. Nous avons essayé d’être le plus précis que possible et les résultats fournis sont à base
d’un simple comptage des pixels.

Texte      Bonne détection       Fausse détection    Oubli
Im1             94 %                   6%              0%
Im2             95 %                   5%              0%
Im3             94 %                   6%              0%
Im4             97 %                   3%              0%

Nous constatons que notre système fournit de très bons résultats pour la détection des zones
de texte. Les fausses détections concernent principalement les gros textes que notre système
les qualifie en tant que zones de dessin, ou à cause de texte situé sur des régions avec un fond
différent de celui de l’image.


Dessin     Bonne détection       Fausse détection    Oubli
Im1             92 %                   2%              6%
Im2             97 %                   1%              2%
Im3             96 %                   3%              1%
Im4             85 %                  12 %             3%

Les résultats de détection des zones de dessin sont de même excellents mais moins bons
comparés à ceux calculés sur du texte. Les fausses détections sont principalement dues aux
gros textes que le système les considère comme du dessin et la présence de traits ou petits
textes, sur des zones graphiques, conserve leur caractère textuel et le système ne les fusionne
pas avec les pixels graphiques décelés, ce qui fait que notre système est précis et à forte
discrimination. L’oubli est principalement causé par la présence de régions homogènes dans
les zones graphiques trop proches au fond de l’image ; notre système affecte ainsi ces régions
au fond de l’image.




Laboratoire L3i – Université de La Rochelle                                             Page 57
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Sur les vecteurs caractéristiques, nous avons appliqué une classification supervisée utilisant le
logiciel R-Clara. R est un système pour le calcul statistique et les graphiques. Le noyau de R
est un langage de programmation interprété. Il se compose d'un langage plus un
environnement d'exécution avec des graphiques, un programme de mise au point et d'accès à
certaines fonctions systèmes. R contient un grand nombre de procédures statistiques : modèles
linéaires et généralisés, modèles non-linéaires de régression, analyse de série chronologique,
essais paramétriques et non paramétriques classiques, classification et lissage,...etc. Il y a
également un grand nombre de fonctions qui fournissent un environnement graphique flexible
pour créer de divers genres de représentations de données.
Les résultats de classification des vecteurs caractéristiques pour chaque classe (Texte /
Dessin) sont proches, cependant, les vecteurs caractéristiques issus du sous-banc de filtres
destiné pour le texte fournissent des résultats de classification plus précis. De ce fait, on va se
contenter des seuls résultats fournis par ce 2ème sous-banc de filtres.
Voici les résultats obtenus :




        92.17% de pixels bien classés                          89.97% de pixels bien classés
        07.83% de pixels mal classés                           10.03% de pixels mal classés




        95.34% de pixels bien classés                          94.36% de pixels bien classés
        04.76% de pixels mal classés                           05.64% de pixels mal classés


Laboratoire L3i – Université de La Rochelle                                               Page 58
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Avec le système R, le détail des résultats obtenus sur les images précédentes est présenté dans
les deux tableaux suivants :

Texte      Bonne détection       Fausse détection   Oubli
Im1             89 %                  11 %            0%
Im2             91 %                   9%             0%
Im3             72 %                  28 %            0%
Im4             85 %                  15 %            0%



Dessin     Bonne détection       Fausse détection   Oubli
Im1             83 %                  12 %             5%
Im2             74 %                  19 %             7%
Im3             79 %                  14 %             7%
Im4             71 %                  17 %            12 %


Nous avons calculé les paramètres de détection sur les images de notre base et nous avons
obtenus :
► Une moyenne de 87% de pixels bien classés par R.
► Une moyenne de 96% fournie par notre système de segmentations floue ; alors notre
système donne des résultats meilleurs.




Laboratoire L3i – Université de La Rochelle                                            Page 59
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Les résultats obtenus sur des images de documents contemporains sont très encourageants
avec un résultat de segmentation parfait à 96%.
Nous avons appliqué ce même système sur la base d’images de documents anciens qu’on
possède, et voici un échantillon des résultats de segmentation obtenus :




                                                      98.76% de pixels bien classés
                                                      01.34% de pixels mal classés
                                                      0% de pixels non classés




                                                      94.96% de pixels bien classés
                                                      4.48% de pixels mal classés
                                                      0.56% de pixels non classés


Laboratoire L3i – Université de La Rochelle                                           Page 60
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture




                                                       98.75% de pixels bien classés
                                                       01.21% de pixels mal classés
                                                       0.04% de pixels non classés




                                                        93.08% de pixels bien classés
                                                        6.02% de pixels mal classés
                                                        0.90% de pixels non classés
Laboratoire L3i – Université de La Rochelle                                             Page 61
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Discussion
    Les résultats obtenus sont encourageants, cependant, les taux calculés sur les exemples
précédents ne sont pas de la même qualité pour d’autres types d’images de documents anciens
(images de documents avec bordures texturées, des images avec de grands portraits finement
texturées, images avec des zones ombrées,…), qui deviennent alors peu satisfaisants.

    Les résultats de la segmentation sont de mieux en mieux que les zones graphiques soient
de plus en plus homogènes, cependant, si les zones graphiques contiennent des textures fines
(similaires à des lignes, hachurées), alors le système décident du comportent textuel de ces
zones.

    La structure des ombres, qui est principalement linéaire, fait que ces zones seront classées
en tant que zones de texte.

    La taille de la police peut basculer la décision du système sur l’appartenance des pixels de
ces zones, c-à-d que tant que la taille grandisse, le système change sa classe d’appartenance de
texte en dessin, ceci étant logique vu qu’un caractère de grande taille est qualifié en zone
homogène et se localise en basse fréquence.
L’analyse multirésolution semble être l’approche idéale pour palier à cet handicape. On utilise
une transformée en ondelette (la transformée de Haar par exemple) pour extraire les
informations à chaque échelle sur les alignements horizontaux, verticaux et obliques. La
détection des lignes de texte par rapport aux zones graphiques peut être réalisée avec une
complexité de calcul très faible. La transformé de Haar divise récursivement l’image en trois
parties par changement de résolution et applique des filtres différentiels directionnels (le filtre
de Gabor) (horizontal, vertical et oblique) du premier ordre dans chacune des parties. Il existe
donc une échelle pour laquelle les lignes apparaissent puis les blocs de lignes ainsi que les
zones graphiques [29].




  Image originale                 transformée de Haar             Orientations et résolutions
Figures VI.4. L’analyse multirésolution pour la détection des éléments d’une image de document [29]



Laboratoire L3i – Université de La Rochelle                                               Page 62
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


        On en déduit que malgré les bons résultats obtenus, un système de segmentation
seulement basé sur le filtre de Gabor est loin d’être parfait ou meilleur. De ce fait, d’autres
connaissances, autres que les réponses des filtres de Gabor sont indispensables pour améliorer
les résultats et corriger les imperfections.




                                                            97.71% de pixels bien classés
                                                            1.5% de pixels mal classés
                                                            0.79% de pixels non classés




Laboratoire L3i – Université de La Rochelle                                            Page 63
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Avec le système R, on a obtenus les résultats suivants :




 87.4% de pixels bien classés                          93.04% de pixels bien classés
 12.6% de pixels mal classés                           06.96% de pixels mal classés




 86.74% de pixels bien classés                         89.06% de pixels bien classés
 13.26% de pixels mal classés                          10.94% de pixels mal classés



Avec R, nous avions une moyenne de 89.06% de bon résultat, largement inférieure à la
moyenne obtenu par notre système qui est de 95.83%.

Remarque
       Les résultats obtenus par notre système ne sont pas parfaits pour toutes les catégories
des images de documents anciens, la présence d’ombres, de gros textes, des zones de dessin
fortement texturées altèrent le résultat et la qualité de la classification.


Laboratoire L3i – Université de La Rochelle                                            Page 64
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Ceci implique que la signature adoptée, qui est principalement basée sur la réponse du banc
de filtres, n’est pas suffisante pour décrire une image ou une partie d’elle (Texte/Dessin).
Pour remédier à cette insuffisance, on rajoute à la signature, précédemment définie, des
mesures de texture de Tamura. Ce choix se justifie par le fait que ces mesures sont à
l’origine de la décomposition des propriétés de la texture tout comme le système de vision
humaine (similaire au filtre de Gabor), ce qui nous permet d’avoir une signature homogène.


VIII. Conclusion / Perspectives
        L'une des principales sources de motivation pour s'engager dans l'analyse d'images de
documents anciens est l'accroissement du besoin gouvernemental et commercial à de tels
systèmes.
Ces systèmes permettent un stockage rapide, un rappel et une distribution de documents dans
un système d'information coopératif et interactif. L'analyse de document, à l'aide de
l'indexation, peut contribuer au stockage et à la réutilisation de documents anciens, en se
basant sur un partitionnement de l'image en régions d'intérêts pour d'éventuels accès
convenables et prévisibles par les utilisateurs.

         Nous avons exploité les propriétés du filtre de Gabor pour développer un système de
segmentation floue d’images de documents anciens.
A chaque pixel, nous avons associé une signature composée de deux parties : l’une textuelle
et l’autre graphique et dont chacune est définie par les réponses de filtrage.
L’approche floue adoptée se justifie par le caractère incertain de définition de seuil ou de
borne séparant les réponses des pixels graphiques et des pixels des zones de texte.
Les résultats obtenus sont très encourageants, cependant, la généralisation de l’ensemble des
paramètres du banc de filtres semble une tache difficile, voir même impraticable, de ce fait,
pour chaque classe d’images de documents anciens (images avec bordure, sans bordure et
avec lettrine seule, gros dessin, gros texte,….), un banc de filtres spécifique est nécessaire à
définir.
Les imperfections présentes dans quelques décisions de notre système peuvent être corrigées
en incluant des mesures de texture dans la signature définie précédemment.

        Dans le futur proche, de telles capacités seront étendues à la création de bibliothèques
électroniques qui pourront de même bénéficier de l'indexation automatique et les utilitaires de
formatage. Plus loin, les efforts seront penchés, de plus, sur l'interprétation et la représentation
des informations dans les images de documents anciens stockées afin de fournir plus de
flexibilité et facilités à leur récupération et manipulation.

        Comment l'analyse de documents pourra répondre aux besoins futurs? Il y a un grand
besoin d'intégrer le contexte, particulièrement le contexte linguistique dans les modèles de
base des systèmes d'analyse d'images de documents anciens. Les connaissances contextuelles
doivent être utilisées pour minimiser l'erreur et rejeter les documents difficilement
interprétables et exploitables. L'important est de définir les différentes contraintes d'une
manière générique afin de pouvoir les redéfinir facilement pour les différentes applications.
Au-delà de ça, comment ces règles se convertissent et s'intègrent aux processus de
reconnaissance afin d'améliorer ses performances?

      Afin de faciliter le progrès dans l'analyse d'images de documents anciens, on a besoin
d'un nombre important de bases de données d'images de documents anciens, chacune


Laboratoire L3i – Université de La Rochelle                                                Page 65
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


représentant une classe particulière afin d'arriver à mettre en oeuvre un Système Générale
d'Analyse d’Images de Documents Anciens.

Les applications à prévoir comme complément de notre travail peuvent être résumées dans ce
qui suit :

► Intégration des mesures de texture de Tamura dans notre système et le valider sur une base
d’images de documents anciens ;
        Tamura et al. [36] définissent six caractéristiques texturales {Coarseness, Contraste,
Direction, Similariré-ligne, Régularité et Rugosité}. Les trois premières caractéristiques sont
trop efficaces et fréquemment utilisées pour la description de la texture.
La Coarseness possède une relation directe avec l’échelle et le taux de répétition. Tamura et
al. la considèrent comme la propriété de texture la plus importante. Une image contient des
textures à différentes échelles et la Coarseness permet d’identifier la taille de la plus grande
texture existante.
Le Contraste vise à capturer la gamme dynamique des niveaux de gris dans une image avec la
polarisation de la distribution du noir et blanc.
La Direction est une propriété globale d’une région. Cette caractéristique texturale ne calcule
pas la différence entre les orientations et les motifs, mais elle mesure le degré total de la
direction.

        La notion d’une Image de Tamura correspond au calcul d’une valeur de chacun des
paramètres précédents pour tout pixel d’une image ; on obtient alors une sorte de distribution
spatiale des caractéristiques texturales de l’image.

         Le choix de cette solution pour l’intégrer à la signature définie par les sorties du Banc
de filtres de Gabor semble logique et bénéfique.
         La Coarseness permet de donner un indice sur le type de la texture (Texte (fines) et
Dessin (Grosse)) ; le Contraste avec la polarisation du niveau de gris permet de décrire la
distribution de la zone/texture en question : une zone homogène pour une zone de texte et
aléatoire pour une zone de dessin. Et enfin, la Direction permet de spécifier l’orientation de la
texture en question : « direction définie » pour une zone de texte ou « pas de direction /
direction aléatoire » pour une zone graphique.

       On en déduit que en plus des paramètres quantitatifs produits par le filtre de Gabor, les
indices de Tamura permettent de quantifier les propriétés qualitatives de nos images de
documents anciens, ce qui permet alors de définir un système complet (descripteurs multiples)
de segmentation d’images de documents anciens.

       Les mesures de Tamura permettent de corriger ou de renforcer toute décision
d’affectation de pixel d’une image par notre système de segmentation utilisant le filtre de
Gabor.

► Détermination des propriétés typographiques des documents (types du texte / tailles des
fonte,…) ;

► Définir des primitives optimales et efficaces pour la quantification et la classification
(segments, régions,...) / afin d’éviter le parcours exhaustif et répétitif de tous les pixels ;
► Utiliser l'outil Gabor pour l'indexation et la consultation des bases de données d'Images de
Documents Anciens.

Laboratoire L3i – Université de La Rochelle                                              Page 66
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Références bibliographiques
[1]S. Raju S, P. Basa Pati, and A G Ramakrishnan, "Gabor Filter Based Block Energy for Text
Extraction from Digital Document Images", Proc. First International Workshop on Document Image
Analysis for Libraries (DIAL’04) – 2004 IEEE
[2]T. Randen, J. Håkon Husǿy, ''Segmentation of Text/Image Documents Using Texture Approaches''
Proc. Norway, Juin 1994.
[3]A. K. Jain and S. Bhattacharjee, ''Text Segmentation Using Gabor Filters for Automatic Document
Processing'', Machine Vision and Applications (1992) 5 : 169-184.
[4]M. Acharyya and M. K. Kundu, ''Document Image Segmentation Using Wavelet Scale-Space
Features'', IEEE Transactions on Circuits and Systems for Video Technology, Vol. 12, n° 12,
December 2002.
[5]N. Journet, R. Mullot, J.Y. Ramel, V. Eglin, "Ancient Printed Documents indexation :a new
approach", International Conference on Advances in Pattern Recognition, August 2005.
[6]K. Hammouda, ''Texture Segmentation Using Gabor Filters'', SYDE 775, Image Processing,
Department of Systems Design Engineering, University of Waterloo, Canada, December 2000.
[7]B. Allier, H. Emptoz, ''Font Type Extraction and Character Prototyping Using Gabor Filters'',
Proceeding of the Seventh International Conference on Document Analysis and Recognition (ICDAR
2003) - IEEE 2003.
[8]F. Alonso-Fernandez, J. Fierrez-Aguilar, J. Ortega-Garcia, ''An Enhanced Gabor Filter-Based
Segmentation Algorithm for Fingerprint Recognition Systems'', Proceedings of the 4th International
Symposium on Image and Signal Processing and Analysis «Proc. ISPA05» - 2005.
[9]Y. Smara, N. Ouarab, "Techniques de fusion et de classification floue d’images satellitaires
multisources pour la caractérisation et le suivi de l’extension du tissu urbain de la région d’Alger
(Algérie)", 2nd FIG Regional Conference – Marrakech, Morocco, December 2-5, 2003.
[10]L. Lazli et M.T. Laskri, "Nouvelle méthode de fusion de données pour l’apprentissage des
systèmes hybrides MMC/RNA", Revue ARIMA – CARI’04, Novembre 2005.
[11]A. Martin, "Fusion de classifieurs pour la classification d’images sonar", Revue des Nouvelles
Technologies de l’Information RNTI-1, 2004
[12]H. Ma and D. Doerman, "Font Identification Using Grating Cell Texture Operator",
[13]Y. Zhu, T. Tan and Y. Wang, "Font Recognition Based on Global Texture Analysis", IEEE
Transactions on Pattern Analysis and Machine Intelligence, Vol.23, N°10, October 2001.
[14]A.K. Jain, R.W. Durin, and J. Mao, "Statistical Pattern Recognition: A Review", IEEE
Transactions on Pattern Analysis and Machine Intelligence, Vol.22, N°1, January 2000.
[15]H. Hetzheim, "Separation of Different Textures in Images using Fuzzy Measures and Fuzzy
Functions and their Fusion by Fuzzy Integrals",
[16]N. Papamarkos, "A Technique for Fuzzy Document Binarization", DocEng’OI, November 9-10,
2001, Atlanta, Georgia, USA.

Laboratoire L3i – Université de La Rochelle                                                Page 67
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


[17]G. Rellier, X. Descombes, F. Falzon, J. Zerubia, "Analyse de Texture Hyperspectrale par
Modélisation Markovienne", Projet ARIANA (projet commun I3S/INRIA), rapport de recherche
I3S/RR-2002-47-FR, Septembre 2002
[18]B. Allier, "Contribution à la Numérisation des Collections : Apports des Contours Actifs", Thèse
en Informatique, Institut National Des Sciences Appliquées de Lyon, 2003.
[19]B.S. Manjunath and W.Y. Ma, "Texture Features for Browsing and Retrieval of Image Data",
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.18, N°8, August 1996.
[20]M. Grabisch and M. Nicolas, "Classification by Fuzzy Integrals – Performance and tests", Fuzzy
Sets & Systems, Special Issue on Pattern Recognition, 65: 255-271, 1994.
[21]J. Ilonen, J.K. Kämäräinen and H. Kälviäinen, "Efficient Computation of Gabor Features",
Department of Information Technology, BP 20, Finland, rapport de recherché, 2005.
[22]H. Ma and D. Doerman, "Gabor Filter Based Multi-Class Classifier for Scanned Document
Images", Proceedings of the Seventh International Conference on Document Analysis and
Recognition, 2003.
[23]T.P. Weldon, W.E. Higgins, "Design of Multiple Gabor Filters for Texture Segmentation",
Proceedings of ICASSP- May 7-10, Atlanta, Georgia, USA, 1996.
[24]V. Levesque, "Texture Segmentation using Gabor Filters", Centre for Intelligent Machines,
McGill University, December 6, 2000.
[25]P. Kruizinga, N. Petkov and S.E. Grigorescu, "Comparison of Textures Based on Gabor
Filters", Proceedings of the 10th International Conference on Image Analysis and Processing,
Venice, Italy, September 27-29, 1999, pp. 142-147.
[26]C.H. Wei, C.T. Li, and R. Wilson, "A General Framework for Content-Based Medical
Image Retrieval with its Application to Mammograms",
[27]L. Likforman-Sulem, "Apport du traitement des images à la numérisation des documents
manuscrits anciens", 2003
[28]A. Belaïd, H. Emptoz, G. Vignaux, "Document et contenu : création, indexation,
navigation", CNRS, Février 2004
[29]F. Le Bourgeois, H. Emptoz, E. Trinh, F. Muge, C. Pinto et I. Granado, "Wp4.3-4
Numérisation, Traitement et Interprétation des Images de Documents Anciens ", Project
DEBORA Telematics Applications Programme n° 5608 -
[30]I. Quidu, J.P. Malkasse, P. Vilbe, G. Burel, "Fusion Multi-Attribut d’Images Sonar",
GRETSI - Toulouse, 10-13 Septembre 2001.
[31]S. Khedekar, V. Ramanaprasad, S. Setlur, "Text-Image Separation in Devanagari
Documents", Proceedings of the Seventh International Conference on Document Analysis and
Recognition (ICDAR 2003).

Laboratoire L3i – Université de La Rochelle                                                 Page 68
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


[32]”Sauvegarde du Patrimoine Culturel de Civilisation Ancienne”, Projet SAPCCA –
Laboratoire LRI – Université Badji Mokhtar – Annaba – Algérie.
[33] J.C.Bezdek, "Pattern Recognition with Fuzzy Objective Function Algorithms", Plenum
Press, New York, 1981.
[34]W. Pedrycz, "Knowledge-Based Clustering: Clustering and Fuzzy Clustering", ISBN 0-
471-46966-1 Cpyright © 2005 John Wiley & Sons, Inc.
[35]T. Gadi, R. Bnslimane, "Segmentation hiérarchique floue", Traitement du Signal 2000,
Volume 17-n°1.
[36]P. Howarth, S. Rüger, "Robust Texture Features for Still-Image Retrieval", IEE Proc.Vis.
Image Signal Process, Vol. 152, n° 6, December 2005




Laboratoire L3i – Université de La Rochelle                                         Page 69
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


Annexe
Nous avons appliqué notre système de segmentation d’images de documents sur les images de
quelques travaux scientifiques marquants pour évaluer ainsi l’efficacité de notre méthode.

Les images situées à gauche des pages sont les images d’origine, celles du milieu représentent
les résultats des travaux consultés, et enfin les images de droite sont les nôtres, résultant de
notre système de segmentation floue d’images de documents.

1 Les travaux de K. Etemad, D.S. Doermann et R. Chellappa




      Texte

      Dessin

      Fond



Laboratoire L3i – Université de La Rochelle                                            Page 70
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture


2 Les travaux de M. Acharyya et M.K. Kundu




Laboratoire L3i – Université de La Rochelle                                  Page 71
K.MOUATS - Segmentation d’Images de Documents Anciens par Approche Texture




Laboratoire L3i – Université de La Rochelle                                  Page 72

Segmentation d images de documents anciens par approche texture - Mo…

  • 1.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université de La Rochelle Département d’Informatique LABORATOIRE L3I – INFORMATIQUE IMAGE INTERACTION Mémoire de fin d’Etudes En vue de l’obtention du Diplôme de Master 2 – Recherche Spécialité : Informatique & Mathématiques et leurs Applications à l’Economie (IMAE) Option : « Image & Calculs » Intitulé Segmentation d’Images de Documents Anciens par Approche Texture - APPLICATION du filtre de Gabor - Réalisation de : Kamel MOUATS Sous la direction de : Prof. Rémy MULLOT / Nicholas JOURNET Juillet 2006 Laboratoire L3i – Université de La Rochelle Page 1
  • 2.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Sommaire Liste des tableaux Liste des figures Introduction Générale 7 Problématique / Contexte 9 I Au cœur des documents anciens 10 I.1. Introduction 10 I.2. Traitement des images et documents anciens 10 I.2.1. Binarisatioon 11 I.2.2. Segmentation Texte/Graphique 12 II Analyse Texturale des Documents 15 II.1. Introduction 15 II.2. Définition de la texture 15 II.3. Application de la texture à la segmentation 15 II.4. Méthodes d’analyse de texture 16 II.5. Utilisation de la texture sur les images de documents anciens 17 II.6. Segmentation des images de documents anciens 17 II.7. Segmentation d’images de documents par analyse des 18 projections horizontales / verticales III Théorie du Filtre de Gabor 20 III.1. Paramétrisation / Calcul efficace des paramètres de Gabor 24 III.2. Les fréquences du filtre de Gabor 25 III.3. Les orientations du filtre de Gabor 26 III.4. Séparabilité des filtres de Gabor 27 III.5. Exploitation de la symétrie du filtre 27 III.6. Implémentation du filtrage 28 IV Implantation 34 IV.1. Analyse des résultats de filtrage 38 IV.1.a. Influence de l’orientation sur le résultat de filtrage 38 IV.1.b. Influence de la fréquence sur le résultat de filtrage 38 IV.1.c. Importance entre l’orientation et la fréquence 38 IV.2. Discussion 41 IV.3. Définition du banc de filtres pour le filtrage des images de 41 documents anciens IV.4. Réalisation 42 V Classification floue d’image 44 V.1. Introduction 44 V.2. Degré d’appartenance 44 V.3. L’algorithme des C-Moyennes Floues (CMF) 45 VI Classification des résultats de filtrage dans chaque Sous – 47 Banc de Filtres VI.1. Matrice de confiance associée à la classification floue 50 VI.2. Analyse du seuillage 50 VI.3. Comment fusionner les données 52 Laboratoire L3i – Université de La Rochelle Page 2
  • 3.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture VII Validation 53 Discussion 60 VIII Conclusion / Perspectives 63 Références Bibliographiques 59 Annexe Laboratoire L3i – Université de La Rochelle Page 3
  • 4.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Liste des tableaux I.1.Liste des défauts et prétraitements appropriés des images de documents …………….5 anciens d’après L. Likfoman-Suelem III Paramètres du filtre de Gabor…………………………………………………………27 IV.1.Résultat du seuillage des résultats de filtrage par le filtre de Gabor pour ………….30 différentes valeurs de fréquence et d’orientation (exemple 1) IV.2.Résultat du seuillage des résultats de filtrage par le filtre de Gabor pour ………….31 différentes valeurs de fréquence et d’orientation (exemple 2) Laboratoire L3i – Université de La Rochelle Page 4
  • 5.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Liste des figures I.1.Exemples d’images de documents anciens et leurs images binaires…………………….6 I.2.Familles des méthodes de segmentation Texte/Dessin des images de documents………8 II.1.Verrous empêchant l’application de la méthode des projections pour ………………...12 l’analyse d’images de documents II.2.Résultats de projection horizontale d’une image de document…………………………13 II.3.Les différentes zones d’un document peuvent être simulées à un ……………………...13 agencement de textures. III.1. La fonction de Gabor dans le domaine fréquentiel……………………………………15 III.2.La fonction de Gabor dans le domaine spatial…………………………………………15 III.3.Ensemble de filtres de Gabor dans le domaine fréquentiel…………………………….15 III.4. a)Filtres de Gabor dans une fenêtre 30x30, représentés dans le domaine ………………15 fréquentiel f=1/8 et θ=0° ; b)Filtres de Gabor dans une fenêtre 30x30, représentés dans le domaine ………………15 fréquentiel f=1/8 et θ=45°. III.5.Partie réelle des 4x4 fonction de Gabor dans le domaine spatial………………………16 III.6.Couverture du domaine de Fourier par les canaux fréquentiels des ………………….. 16 fonctions de Gabor. III.7.Exemples de banc de filtres dans le domaine fréquentiel……………………………….21 III.8.a) Résultat de filtrage dans le domaine spatial sur une image de synthèse…..…………22 III.8.b) Résultat de filtrage dans le domaine spatial sur une image de synthèse…..…………23 avec du texte à différentes tailles de police III.8.c) Résultat de filtrage dans le domaine appliqué sur une image de document …………24 ancien III.9.a) Filtrage dans le domaine fréquentiel appliqué sur une image de synthèse ..…………25 III.9.b) Filtrage dans le domaine fréquentiel appliqué sur une image de document..……. ….26 ancien IV.1.Schéma du processus de segmentation d’image utilisant un banc de …………………..37 filtres de Gabor. Laboratoire L3i – Université de La Rochelle Page 5
  • 6.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture VI.1.Phase de calcul des degrés d’appartenance et affectation des pixels ………….……. ....41 aux classes correspondantes dans chaque sous – banc de filtres VI.2.Processus d’assignation des vecteurs caractéristiques dans …………………..………...43 une classification floue VI.3.Processus de fusion des résultats de classification floue des............................................46 deux sous banc de filtres VI.4.L’analyse multirésolution pour la détection des éléments …………………….………..54 d’une image de document Laboratoire L3i – Université de La Rochelle Page 6
  • 7.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Introduction Générale Traditionnellement, le papier était la source principale pour la publication de journaux, rapports, livres etc. Cependant, la disponibilité et l'économie des ordinateurs puissants fournissent de nouveaux supports et moyens pour le stockage, la récupération et la recherche de documents électroniques stockés. Un article situé à un endroit, peut être extrait d'un autre coin de ce monde en quelques secondes. De plus, si le texte des documents est rangé d'une manière adéquate, il sera possible de balayer le contenu de différents documents en quelques secondes. Cependant, il n'est pas évident de donner une version numérique d'un document automatiquement. L’approche ‘Straight –forward’ (Expédition Directe), consiste à numériser l’ensemble du document et le stocker sous une représentation bitmap; cependant, cette approche nécessite une capacité de stockage importante (même en utilisant les techniques de compression d’images les plus récentes) et ne permet pas de retrouver du texte dans ces documents. Une méthode de représentation plus efficace des documents est de séparer le texte du graphique, et sauvegarder le texte en texte ASCII et les images en bitmaps. De ce fait, plusieurs approches pour la segmentation texte/images ont été développées et proposées. L'analyse de document, précisément 'l'analyse de l'image de document', est le processus qui fournit une interprétation globale des images de documents. Ce processus est la réponse à la question : « Comment est combiné l'ensemble du langage, le formatage du document, le traitement d'image et la reconnaissance de caractères afin de se donner à une application particulière ? ». De ce fait, l'analyse de document est concernée par les issues globales impliquées dans la reconnaissance de l'écriture sur les images. Elle rajoute aux OCRs une super-structure qui permet l'organisation du document et se base sur des connaissances, ou non, pour son interprétation. Le processus de la détermination de la structure du document peut être vu comme un processus guidé par un modèle, explicite ou implicite, de la classe des documents en cours. Le modèle décrit l'apparence physique et les relations qui existent entre les entités composant le document. Généralement un OCR est à l'étage finale de ce processus, c'est à dire, il fournit un codage final des symboles contenus dans des entités logiques telles que des paragraphes ou tables,...une fois ces derniers sont définis et isolés par une autre phase du processus. Cependant, il est important de voir qu'un OCR peut participer à la détermination de la disposition du document (Layout). Par exemple, comme une partie du processus d'extraction d'articles de journaux, le système peut être ramené à reconnaître des chaînes de caractères, des signatures ou annotations en bas de l'image de la page, dans le but de localiser le texte intégral (intégration de la sémantiques aux composants extraits). En pratique, un système d'analyse de documents (images de documents) réalise les tâches de base d'une segmentation d'image, compréhension de la disposition textuelle, la reconnaissance symbolique et l'application de règles contextuelles d'une manière intégrante. Les méthodes de segmentation ‘Texte/Dessin’ les plus connues peuvent être classées soit en approches ascendantes (Top Down), ou en approches descendantes (Bottom Up). Laboratoire L3i – Université de La Rochelle Page 7
  • 8.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Les méthodes descendantes sont basées essentiellement sur la technique « Run Length Smoothing : Lissage direct en longueur » (connue aussi sous le nom de : Constrained run length method) et la méthode des Projetions de Profiles. Le principal inconvénient des méthodes descendantes est leur restriction sur des blocs rectangulaires donc elles ne sont pas adéquates pour des documents contenant du texte ayant une mise en forme non régulière (aléatoires / inclinaisons). Les méthodes ascendantes sont des variantes typiques de la méthode des Composantes Connexes. Les inconvénients de cette dernière se résument dans le fait qu’elle est dépendante de la taille des caractères, elle est sensible à l’interligne et les espaces inter-caractères ainsi qu’à sa sensibilité à la résolution. Cependant, elles ne sont pas restreintes aux blocs rectangulaires comme les approches descendantes. Une nouvelle méthode, différente des approches précédentes et palliant à leurs limitations, n’ayant aucun besoin de connaissances à priori sur le document à traiter, a été présentée par Jain et Bhattacharjee [3]. L’idée de base de cette approche est que les zones de texte d’une image de document peuvent être considérées approximativement comme une texture uniforme et les images forment une autre texture. Le document peut être alors segmenté par un schéma de Segmentation de Texture. La segmentation de texture reste toujours un sujet de base et important en traitement d'images. Elle consiste à segmenter une image texturée en plusieurs régions ayant les mêmes caractéristiques de texture; elle est bien et belle appliquée à l'analyse des images aériennes, images biomédicales et des images sismiques, et récemment sur les images de documents mais nécessitant une bonne définition et paramétrisation. Tous comme les autres problèmes de segmentation, la segmentation de texture nécessite l'identification des caractéristiques spécifiques propres à la texture avec un bon pouvoir discriminant. Généralement, les méthodes d'extraction des caractéristiques peuvent être classées en trois catégories de base : Statistique, Structurale et Spectrale. Dans les approches statistiques, les statistiques des textures à base des moments de l'histogramme des niveaux de gris ou à base de la matrice de co-occurrence, sont calculées pour la discrimination entre les différentes textures. Pour les approches structurelles, 'une primitive de texture', qui est l'élément de base de texture, est utilisée pour former un modèle de texture plus complexe à l'aide de règles grammaticales qui spécifient et guident la génération du modèle de texture en cours. Et enfin, les approches spectrales, l'image texturée est transformée en domaine fréquentiel. Ensuite, l'extraction des caractéristiques de texture peut être réalisée en analysant le pouvoir spectral. Le schéma de segmentation de texture utilisé par Jain et Bhattacharjee [3] est principalement le même que celui proposé par Jain et Farrokhnia ; une approche multicanaux utilisant un banc de filtres de Gabor pré-sélectionnés en fréquences et orientations pour filtrer une image d'entrée. Les caractéristiques extraites à partir des réponses des images filtrées, et en se servant d'une fonction d'énergie locale et un découpage (Clustering) par un classifieur non-supervisé, sont utilisées pour la segmentation et la classification de texture. Le filtre de Gabor est le filtre le plus utilisé, par excellence, pour la segmentation de texture vu son pouvoir discriminant paramétrable, cependant, l’inconvénient majeur de l’approche gaborienne est sa complexité de calcul [2]. Laboratoire L3i – Université de La Rochelle Page 8
  • 9.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Problématique / Contexte La segmentation d’images de documents anciens en vue de les indexer est un sujet de recherche. Les documents anciens possèdent de nombreuses particularités qui ne permettent pas d’appliquer les techniques classiques d’analyse de documents composites et d’OCR (Optical Character Recognition) sur ces ouvrages. Ils sont dégradés, reposent sur les anciennes techniques d’imprimerie et respectent donc des règles particulières de typographie et de mise en forme [32]. Les différents problèmes posés par l’analyse des documents anciens en vue de leur indexation sont assez proches de ceux que l’on trouve en analyse et interprétation d’images. La chaîne de traitement comporte généralement un ensemble d’étapes visant à construire des informations structurées à partir des informations numériques élémentaires (pixels de l'image) et d’informations contextuelles liées à la nature du document analysé. Les objectifs sont donc : 1) De séparer les différents composants situés sur les pages des ouvrages (texte, illustration, lettrine,…) 2) L'objectif très ambitieux de recomposer le document, de comprendre son organisation et même d'interpréter son contenu. L'objet de cette étude consiste principalement à réaliser une étape primordiale dans l'analyse de la structure physique des images de documents anciens à savoir leur segmentation afin d'extraire les zones informatives (texte, Dessin, fond). 3) D’identifier les différents styles d’écriture (gras, italique, taille, manuscrit/imprimé…) pour simplifier la tâche des systèmes d’OCR en créant des bases de modèles pour chacune des familles détectées. On peut alors parler de reconnaissance adaptative. Dans le présent travail, nous allons adopter l’outil Gabor pour définir un système de segmentation d’images de documents anciens, qui soit alors une première tentative et un premier pas dans la littérature des méthodes de segmentation d’images de documents anciens. Ce mémoire se présentera comme suit : En premier lieu, nous présenterons les propriétés des documents anciens, les méthodes d’analyses qui existent dans la littérature et particulièrement l’analyse documentaire par approche texture, ensuite nous donnerons une partie théorique complète du filtre de Gabor et de son utilisation, pour finir cette partie par un descriptif de la méthode de classification non- supervisée floue utilisée. Ensuite, nous décrivons au détail près la conception et le fonctionnement de notre système de segmentation d’images de documents anciens proposé que nous l’avons testé sur notre base documentaire (contemporains et anciens), vous trouverez ainsi des résultats de nos tests. Et enfin, nous clorons par une évaluation de notre système, et des résultats de comparaison avec un outil de classification supervisée existant, des résultats seront présentés et commentés ainsi que des perspectives et ouvertures de notre conception. Laboratoire L3i – Université de La Rochelle Page 9
  • 10.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture I. Au cœur des documents anciens I.1. Introduction Les documents anciens sont des documents d’archives rédigés à une autre époque et obéissant donc à des règles typographiques et de composition différentes de celles appliquées sur les documents modernes. En effet, l’image d’un document ancien numérisée est souvent très tonale, à niveaux de gris ou en couleur. Elle peut comprendre des annotations dans les marges, des illustrations, des lettrines, voire même des écritures manuscrites [28]. Ces documents se caractérisent par des présentations et des écritures très variées, variations dues à la multiplicité des styles et des techniques d’impression qui ont évolué au cours du temps. L’usure du temps a de plus produit des altérations au document original et l’image numérisée qui en découle contient alors des imperfections (taches, écritures fragmentées) qui n’existent pas dans les documents plus modernes. Les documents anciens imprimés, bien que présentant moins de variabilité, partagent un grand nombre des caractéristiques des documents manuscrits [27]. Les techniques de traitement (ou analyse) des images de documents anciens, se situent à différents niveaux : prétraitements, analyse et reconnaissance. Ces niveaux de traitements utilisent ou produisent des structures de données à des niveaux de granularité de plus en plus élevés : de l’image jusqu’à son interprétation. Si l’objectif ultime est celui de la reconnaissance de tous les composants du document (graphiques et textuels), d’autres objectifs concernent la visualisation de l’image pour en améliorer le déchiffrement, la recherche de structures intermédiaires : blocs, lignes ou mots, et la séparation des couches graphiques et symboliques. L’automatisation de la recherche des lignes de texte est notamment une aide certaine à la création de liens texte/image dans les images de documents anciens [27]. I.2. Traitement des images et documents anciens La numérisation des documents anciens est un enjeu important pour les services d’archives, les bibliothèques, les historiens et les chercheurs en sciences littéraires pour les possibilités de manipulation, de visualisation et de recherche d’information qui en découlent. La numérisation physique : scannérisation (ou digitalisation), consiste à créer une image du document (un tableau de pixels), à l’aide d’une caméra numérique ou d’un scanneur. Une haute résolution est souvent nécessaire (de300à 600dpi2) pour restituer les éléments les plus fins de l’écriture et des graphismes. L’image obtenue est en couleur, en niveaux de gris ou bitonale suivant les possibilités du capteur et les choix de numérisation. La question du format de sauvegarde (ou stockage), dépend de l’application visée et de la taille du support de conservation. Quels sont les apports du traitement des images à la numérisation des documents anciens ? Ils permettent de rechercher des informations directement dans les images, d’en dégager la structure, d’en améliorer la qualité visuelle, et cela dans un mode automatique ou semi- automatique. Prétraitement Les documents anciens posent en préambule un problème d’acquisition certain dû d’une part à leur positionnement sur le scanner, créant des inclinaisons, des bombages et des Laboratoire L3i – Université de La Rochelle Page 10
  • 11.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture pliures du papier, et d’autre part à leur contenu hétérogène (texte imprimé, manuscrit…). Le processus de vieillissement fait apparaître des taches d’humidité, la transparence de l’encre sur les rectos, la fragmentation des contours fins, etc. Voici une liste de traitements usuels en fonction des types de problèmes rencontrés (voir tableau 1). Défaut Prétraitement Faible ou forte luminosité Modification d’histogramme */Présence de taches */Filtrage passe haut **/Filtrage passe-bas **/Points parasites **/Filtrages morphologiques Calcul de l’angle par projection Rotation légère de l’image Redressement par re-échantillonnage */Courbure de l’écriture sur un bord de */Calcul de la courbure locale l’image */Re-échantillonnage **/Filtrages (passe haut, passe-bas, **/Ecriture fragmentée morphologiques) Contours de l’écriture flous Filtrage passe haut, filtrage morphologique Ecriture du verseau apparaissant sur le recto Combinaison des images recto et verso TableauI.1. Liste des défauts et prétraitements appropriés, d’après L.Likfoman-Suelem[27]. I.2.1. Binarisation L’opération de binarisation est parfois primordiale pour séparer le fond du texte si l’image originale est en niveau de gris ou en couleur. Elle consiste à produire une image à deux tons : clair pour le fond, et noir pour le texte. Il est nécessaire de conserver à la fois tous les caractères et toutes les gravures sans toutefois récupérer trop de bruit [29]. Il existe plusieurs algorithmes de binarisation (seuillage adaptatif, multi-résolution, morphologique, classification des pixels,…). Ils apportent tous des avantages et des inconvénients en terme de vitesse de calcul, de qualité de conservation des traits des caractères et de traits de gravures. La plupart des méthodes conservent efficacement les caractères mais peuvent abîmer les gravures ou inversement. Ces méthodes restent tributaires d’un ou de plusieurs seuils à déterminer. Dans le cas des documents anciens, en général très hétérogènes, ces seuils restent très difficiles à déterminer sans l’aide d’un expert. Laboratoire L3i – Université de La Rochelle Page 11
  • 12.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Figure I.1. Exemples d’images de documents anciens et leurs images binaires I.2.2. Segmentation Texte/Graphique Une fois l’image binarisée, et le texte séparé du fond, il faut procéder à l’extraction des médias pour des traitements appropriés. Contrairement aux techniques de prétraitement précédentes, celles-ci se placent aux niveaux des entités et non au niveau des pixels. Il s’agit dans le cas des images de documents de regrouper d’abord les formes en entités similaires, puis de procéder ensuite à leur classification en texte ou en graphique. Les éléments graphiques peuvent être suivant le document, des lettrines, des illustrations, mais aussi des paraphes, des ratures, des signes de renvoi, des grands traits, etc. Laboratoire L3i – Université de La Rochelle Page 12
  • 13.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Etant réguliers et ayant une texture de caractères très homogène, le texte offre une norme pour la classification. On utilise en général la largeur, la régularité et l’abondance des composantes connexes pour la classification. Ainsi, dans un texte, les composantes connexes sont peu larges, très régulières et très abondantes. Dans un graphique, les composantes connexes sont très larges, pas régulières et peuvent être abondantes [28]. Il existe deux approches générales de segmentation : °/La première suppose que les blocs sont homogènes (un seul média). Dans ce cas, chaque bloc est classé dans le média le plus proche en fonction des caractéristiques textuelles extraites de l’image du bloc. °/ Dans la seconde approche, on suppose qu’un bloc contient un mélange texte/non texte (mélange de graphiques et de texte). Dans ce cas, une analyse morphologique fine des composantes connexes, aidées de connaissances a priori sur la position des éléments peut aussi aider à localiser les différentes zones homogènes du document. Les lignes de texte dans les documents anciens présentent très peu de régularité exploitable. En effet, les lignes sont de différentes longueurs, contenant un enchevêtrement de composantes connexes. La littérature fait état de trois méthodes principales pour l’extraction de lignes dans les images binaires : les méthodes de projection ou groupement de composantes ou de pixels le long d’une direction, les approches multi-résolution ou filtrage différentiel, et les méthodes de groupement de points caractéristiques. Quelque soit la méthode utilisée, trois problèmes viendront toujours restreindre les performances de la segmentation Texte/Dessin des images de documents anciens : Le problème de l’échelle : Comment définir une zone de texte sans définir comme paramètre la taille minimale et maximale des blocs ? Comment considérer une lettrine ou des titres imprimés en grande taille comme des zones de texte ? Le problème de la quantité d’information : A partir de quel seuil de densité de traits faut- il décider de la présence d’un bloc de texte ? C’est la raison pour laquelle il est difficile de segmenter un seul caractère isolé car il n’y a pas assez d’information statistique par rapport à la zone englobante. Par conséquent, de nombreux travaux utilisent au minimum la notion de ligne, car la ligne de texte est la plus petite région élémentaire suffisamment grande dans laquelle on peut trouver cette accumulation. Problème de l’orientation présumée du texte : On est obligé de faire des hypothèses sur l’orientation horizontale du texte et beaucoup de méthodes sont sensibles à l’inclinaison du document (« skew angle). En conclusion, il existe bien des approches pour séparer les zones graphiques des zones textuelles. Une seule approche n’est pas toujours suffisante, et une combinaison de méthodes est souvent nécessaire dans les cas difficiles. La segmentation Texte/Dessin a de nombreuses applications et reste la première étape incontournable pour l’interprétation et l’indexation des images de documents. Laboratoire L3i – Université de La Rochelle Page 13
  • 14.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Méthodes de Segmentation d’Images de documents Filtrage Morphologique Filtrage Différentiel Points forts : Points forts : °/Efficace : Eroder / Dilater °/Efficace pour la localisation °/Puissant : Isoler/Fusionner de texte à partir de seule des formes éloignées. l’orientation des caractères. °/Robuste et Simple à mettre Points faibles : en œuvre. °/Nécessite beaucoup de paramètres externes (nombre Points faibles : d’érosions,…..) °/Besoin de connaissances a °/Extrêmement coûteux en priori. temps de calcul pour de °/Coûteux à cause de la notion grandes images. de voisinage. Filtrage fréquentiel directionnel Analyse de la Texture Binaire Points forts : Points forts : °/Sélectivité du filtre °/ Facile à Réaliser (RLSA). (en fréquence et orientation) °/Trop efficace pour la détection Points faibles : de texte. °/nécessite des informations et °/Adaptatif au niveau ligne de opérations complémentaires pour texte (filtrage à des fenêtres donner un parfait résultat de glissantes). segmentation. Points faibles : °/Un long temps de calcul. °/Difficile à implémenter. °/Difficile à paramétrer. Figure I.2. Familles des méthodes de segmentation Texte/Dessin des images de documents Laboratoire L3i – Université de La Rochelle Page 14
  • 15.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture II. Analyse texturale des documents II.1. Introduction Les images de document peuvent être vues comme des images texturées dans lesquelles chaque typographie correspond à une texture différente. De ce fait, la notion de texture se présente selon deux approches : • Une approche Analyse et Reconnaissance du Document (ARD), qui examine l’image au niveau pixel à condition qu’elle soit déjà segmentée. • Une approche traitement des images qui considère l’image dans sa globalité comme un mélange de signaux de fréquences et d’orientations différentes. Ces deux approches sont utilisées pour obtenir des mesures de texture caractéristiques et robustes [18]. II.2. Définition de la texture Il n’existe pas de définition universelle de ce que les chercheurs s’emploient à caractériser comme texture. Chacun propose sa propre explication de ce qui apparaît visuellement comme une évidence en termes de granularité, régularité… en fonction de l’utilisation qu’il en fait (certains s’attachent à l’aspect perceptif, alors que d’autres la définissent par le domaine d’application) D’un point de vue formel, on admet généralement que la texture est une fonction des variations d’intensité observées dans l’image. Une définition générale de la texture [14] la considère comme : Une mesure de la variation de l'intensité d'une surface, mesurant des propriétés telles que la douceur, la grossièreté et la régularité. Elle est employée souvent comme un {descripteur de région} dans le domaine de l’analyse d’image et de la vision par ordinateur. Les trois principales approches employées pour décrire la texture sont statistiques, structurales et spectrales. Les techniques statistiques caractérisent la texture par les propriétés statistiques des niveaux de gris des points comportant/composant une surface. Typiquement, ces propriétés sont calculées à partir de l’histogramme des niveaux de gris ou de la matrice de cooccurrence de la surface. Les techniques structurales caractérisent la texture comme une surface composée de primitifs simples appelés les «texels» (des éléments de texture), ils sont régulièrement arrangés sur une surface selon quelques règles. Ces règles sont formellement définies par {une ou plusieurs grammaires} de divers types. Les techniques spectrales sont basées sur des propriétés du spectre de Fourier et décrivent la périodicité globale des niveaux de gris d'une surface en identifiant des crêtes d'énergie élevée dans le spectre. II.3. Application de la texture à la segmentation La texture sert généralement à la segmentation des images et sous-entend la reconnaissance de zones homogènes au sens d’une texture donnée. La distinction aisément faite par l’œil humain entre plusieurs textures est une tâche difficile à réaliser en vision par ordinateur, dans la mesure où il existe un nombre infini de textures et où chacune possède ses propres caractéristiques de luminance, orientation, fréquence….[18] Dans ces conditions, il n’existe pas de méthode capable de caractériser complètement chaque texture ; l’objectif de la majeure partie d’entre elles est d’analyser l’image de manière à décrire au mieux les impressions visuelles. Pour cela, on attribue à la texture les propriétés suivantes [14]: La texture est une propriété de région qui ne peut pas être définie en un point, ceci fait Laboratoire L3i – Université de La Rochelle Page 15
  • 16.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture donc intervenir la notion de voisinage. La texture est une répartition spatiale de niveaux de gris. La texture peut être appréhendée à différents niveaux ou différentes résolutions. Une région est considérée comme texturée lorsqu’elle présente un grand nombre de petits objets ou un motif élémentaire répétitif. II.4. Méthodes d’analyse de texture a) Méthode structurelle La texture est définie comme une organisation spatiale de niveaux de gris, c’est-à-dire qu’elle laisse apparaître des arrangements spatiaux de motifs de base déterminés, ce qui ne s’applique a priori que dans le cas de structures très régulières. La plupart des méthodes d’analyse de ces textures se décomposent en deux phases : la première sert à déterminer les éléments de base composant la texture, tandis que la deuxième vise à en déterminer l’arrangement spatial. Les méthodes structurelles sont généralement peu intéressantes, dans la mesure où elles imposent de travailler sur des textures extrêmement régulières, ce qui n’est pas notre cas (les images de documents anciens possèdent un grand nombre de paramètres) [18]. b) Méthode statistique Ces méthodes définissent la texture en termes de distribution de niveaux de gris ; ce sont les premières à avoir été utilisées en vision artificielle. La méthode des matrices de co-occurrence en niveaux de gris est la plus connue et la plus utilisée des méthodes statistiques. Le principe de cette technique est de parcourir l’image dans quatre directions privilégiées (0,π/4,π/2,3π/4) et de repérer combien de fois des pixels de luminosités différant de ∆z sont séparés d’une distance donnée D. Il s’agit d’un problème à la fois facile à mettre en œuvre (même si le choix des paramètres et la sélection des résultats les plus pertinents restent difficiles) mais largement coûteux en termes de temps de calcul et de ressources mémoire nécessaires. On peut aussi utiliser la fonction d’auto-corrélation, qui permet d’évaluer aussi bien le degré de régularité de l’image, que la finesse ou la grosseur de la texture dans l’image. D’après sa formulation mathématique, pour une image I à M lignes et N colonnes : (II.1) Si le tracé de la fonction d’auto-corrélation chute lentement, alors la texture est plutôt fine (l’image est très similaire d’un pixel d’observation à son voisin), et à l’inverse si elle chute rapidement, cela signifie que la texture est plus grossière (deux voisinages proches présentent peu de similarités) [18] [19] Laboratoire L3i – Université de La Rochelle Page 16
  • 17.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Variabilité de la disposition de textures dans une même image c) Méthodes issues du traitement de signal Le but de ces méthodes est de décrire la texture comme un mélange de signaux de fréquences, d’amplitudes et de directions différentes. Celles-ci sont particulièrement efficaces en général dans la mesure où elles cherchent à imiter le processus de vision humaine qui opère une décomposition fréquentielle systématique des images qui parviennent sur la rétine. Dans le domaine spatial, l’idée est de caractériser la texture par le nombre de transitions (ou contours) qu’elle affiche par unité de surface, plutôt que d’utiliser les fréquences ; Haralick parle aussi de « textural edgeness ». On peut, pour cela, utiliser des techniques de détection de contours classiques. Parmi les plus simples, l’opérateur Laplacien ou l’opérateur de Robert [18]. Dans le domaine fréquentiel, le principe consiste à repérer les fréquences et les orientations qui composent les textures contenues dans l’image. Ces méthodes sont particulièrement adaptées aux cas des images contenant des textures régulières. Le principe est d’appliquer à l’image originale la transformation de Fourier qui permet de mettre en évidence les régularités en passant dans le domaine fréquentiel. Le problème posé par cette opération, qui agit globalement sur l’image, est qu’elle perd une information précieuse de localisation spatiale i.e. on connaît les caractéristiques (en fréquence et en orientation) des textures qui composent l’image mais on ne peut pas les situer dans l’image originale [14]. La solution à cela est d’utiliser une transformation alternative appelée transformation de Fourier à fenêtre glissante, où le principe est d’appliquer la transformation de Fourier dans une fenêtre d’observation que l’on déplace dans l’image ; la formulation en 1 dimension de cette opération est : (II.2) Où f désigne la fonction à laquelle on applique la transformée de Fourier, et w l’amplitude de la fenêtre d’observation. Lorsque cette dernière est gaussienne, on parle de transformée de Gabor. II.5. Utilisation de la texture sur les images de documents anciens L’analyse d’images de document, telle que nous l’entendons, consiste en un découpage (ou segmentation) de l’image en régions homogènes au sens de leur fonction. Classiquement, on considère que dans les images de documents il existe principalement trois classes particulières à discriminer : le Texte, le Dessin et le Fond. Laboratoire L3i – Université de La Rochelle Page 17
  • 18.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Dans la plupart des cas, la notion de texture est utilisée pour la segmentation d’images de documents imprimés où on cherche à classer les zones d’intérêt en deux ou trois catégories, c'est-à-dire Texte/non-Texte, Texte/Dessin ou Texte/Dessin/Fond. II.6. Segmentation des images de documents anciens Quel que soit le type d’image, la séparation des zones textuelles des zones graphiques s’effectue en localisant les lignes de texte. En effet, de nombreux travaux dans différents domaines démontrent que la ligne de texte, grâce à sa texture régulière et son alignement, reste l’élément le moins difficile à localiser quelque soit le support. On peut définir une zone de texte comme « une région de l’image présentant une très forte densité de traits qui forment des alignements à une échelle donnée ». Dans une image naturelle, une telle configuration est très rare [18]. Les méthodes utilisées sont principalement celles basées sur des opérations morphologiques par filtrage différentiels ou fréquentiels directionnels. Il s’agit d’approches dites ascendantes (data-driven) où l’on cherche une interprétation sans connaissances a priori à partir seulement des seules informations sur les pixels de l’image. Les approches descendantes (model-driven) nécessitent des connaissances a priori sur la forme de la localisation des zones de texte ce qui est difficile à obtenir sur des documents anciens [29]. Les images de documents anciens soulèvent trois types de difficultés. La première difficulté vient de la mise en page de ces documents qui peuvent être complexes et présenter plusieurs colonnes de taille de corps et d’interlignes différents. Le second problème concerne l’inévitable courbure des lignes de texte produite par la reliure des livres. Enfin la dernière difficulté provient des faibles espaces entre les lignes qui entraîne de nombreux contacts entre les caractères appartenant à de lignes différentes [29]. Cas1 : mise en page complexe Cas2 : Courbure Cas3 : connexions entre caractères Figure II.1. Verrous empêchant l’application de la méthode des projections pour l’analyse d’image [29] Laboratoire L3i – Université de La Rochelle Page 18
  • 19.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture II.7. Segmentation d’image de documents anciens par analyse des projections horizontales/ verticales Cette méthode consiste à projeter les valeurs des pixels ou l’épaisseur du rectangle circonscrit des caractères, dans les directions horizontales et verticales de façon à obtenir deux histogrammes. L’histogramme des projections horizontales possède des maxima qui représentent les centres des lignes et des minima qui délimitent les bords inférieurs et supérieurs des lignes. L’histogramme des projections verticales donne les bords extérieurs gauches et droits des colonnes. Cette méthode ne marche pas pour les documents multi- colonnes (cas1) et supposent que les lignes soient correctement alignées horizontalement (cas2). Cette approche nécessite une correction préalable de la courbure et de l’inclinaison et ne peut traiter que des documents de structure simple. De plus, il faut binariser correctement l’image de façon à séparer correctement les lignes. Cette méthode n’est donc pas utilisable sur toutes les images de documents anciens. Cependant, la méthode de projection peut être appliquées sur des morceaux de lignes de façon à réduire la sensibilité à l’inclinaison et éviter l’imbrication multiple avec des zones graphiques [29]. Les méthodes de projection permettent toutefois d’extraire la ligne de base (« base-line »), le corps du texte (« x_line – base-line ») qui délimitent les caractères sans hampes ni jambage. Ces informations importantes peuvent être extraites par projection de chaque mot du texte [18]. Motif Régulier Motif Irrégulier Motif Régulier Figure II.2. Résultat de projection horizontale d’une image de document [31] Voici un résumé de quelques travaux, portant sur la segmentation d’images de documents, utilisant de nombreuses approches intéressantes : Jain et Bhattacharjee [3] proposent une méthode directe de segmentation texte/dessin en utilisant un banc de filtres de Gabor, la méthode ainsi définie ne permet que de marquer les zones de texte des images de documents traitées. Trygve et al. [2] reposent sur les travaux de Jain et Bhattacharjee pour mettre au point un système de segmentation supervisé, mais plus avancé, capable de définir le texte, le dessin et le fond des images de documents fortement bruités. Mausumi et Malay [4] développe une méthode de segmentation d’images de documents à l’aide du filtre de Gabor utilisé dans un environnement à base d’ondelette. Le travail ainsi défini opte seulement pour le marquage des zones de texte présentes dans le document. Laboratoire L3i – Université de La Rochelle Page 19
  • 20.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Notre travail représente une première tentative dans l’établissement d’un système de segmentation Texte / Dessin d’images de documents anciens par approche texture utilisant un banc de filtres de Gabor. Il était une fois une Ä °àt|à âÇx yÉ|á âÇx Űv{tÇàx méchante sorcière si áÉÜv|¢Üx á| }tÄÉâáx wx Ät uxtâà° wx jalouse de la beauté át uxÄÄx Ñxà|àx y|ÄÄx UÄtÇv{xAâÇ de sa belle petite }ÉâÜ xà Ät }xààt wtÇá âÇ fille Blanche.un jour Üâ|ááxtâA fxÑàá Ñxà|àá Çt|Çá Il était une fois une méchante sorcière si jalouse de la beauté de sa belle petite fille Blanche.un jour Figure II.3. Les différentes zones d’un document peuvent être simulées à un agencement de textures III. Théorie du filtre de Gabor Un filtre de Gabor est une fonction sinusoïdale à laquelle on a rajouté une enveloppe gaussienne. Dans le plan fréquentiel, cette fonction se transforme en gaussienne. La fonction sinusoïdale est caractérisée par sa fréquence et par son orientation. Ainsi appliqué sur une image, un filtre de Gabor peut être vu comme un détecteur de segments d'orientation particulière, puisqu'il réagira aux arêtes perpendiculaires à la direction de propagation du sinus. La fréquence du sinus, indique à quelles fréquences le filtre sera sensible et réagira. Il a de plus été montré que les fonctions de Gabor forment un set complet, c'est à dire que n'importe quelle fonction peut être exprimée en une somme (infinie) de fonctions de Gabor, pour autant que le produit des densités fréquentielle et spatiale du set soit supérieur à 1[4]. Les techniques de filtrage multi-canal permettent l'extraction des caractéristiques de texture localement, en fréquence et orientation, en d'autres termes, les calculs des caractéristiques de texture (en fréquence et orientation) peuvent être effectués pour tout pixel dans une région d'intérêt. Cette méthode est particulièrement intéressante vue qu'elle est inspirée du système de vision humain qui décompose l'image projetée sur la rétine en un nombre important d'images filtrées, chacune contenant des variations d'intensité fines de fréquences et d'orientations. L'idée de l'approche gaborienne est alors de concevoir un filtrage particulièrement sélectif en fréquence et orientation dans le but de caractériser au détail près les textures. Chaque filtre est alors appliqué à l'image d'origine, et une analyse éventuelle permettra de créer un simple vecteur de caractéristiques (à base de calculs statistiques). Les fonctions de Gabor présentent les avantages suivants : • Localisation maximale dans les espaces spatial et fréquentiel; • Flexibilité: les fonctions de Gabor peuvent être positionnées librement et continuellement dans l'espace, des fréquences et des orientations choisies arbitrairement sans contraintes; Laboratoire L3i – Université de La Rochelle Page 20
  • 21.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Une fonction de Gabor 2D « h » est une onde plane sinusoïdale modulée par une enveloppe gaussienne et orientée avec un angle θ à partir de l'axe X. La formulation mathématique, dans le domaine spatial pour une fréquence fondamentale u0 tout au long de l'axe X (c.à.d. θ = 0°), est : 1 x2 y2 h(x,y)= exp[- 2 2 2 ] cos (2πu0x) (III.1) x y où σx (respectivement σy) est la variance de la gaussienne selon l'axe X (respectivement Y). Les filtres à orientation θ (θ≠0) sont obtenus en effectuant une rotation de l'équation précédente. La sélectivité du banc de filtre en orientation et fréquence est claire dans le domaine fréquentiel, c'est pour cette raison qu'on applique la transformée de Fourier à l'équation (1), et on obtient : 2 2 2 2 1 u u0 v 1 u u0 v H(u,v)=TF(h(x,y))=A.{exp[- 2 2 2 ]+exp[- 2 2 2 ]} u v u v (III.2) avec σu = 1 / 2πσx , σv = 1 / 2πσy et A = 2πσxσy . De ce fait, dans le domaine fréquentiel, le signal est représenté par deux gaussiennes le long de l'axe X, centrées en +u0 et -u0 comme montré sur la figureIII.1. Impossible d’afficher l’image. Impossible d’afficher l’image. Figure III.1. La fonction de Gabor dans le domaine fréquentiel Figure III.2. La fonction de Gabor dans le domaine Spatial Dans le domaine fréquentiel, la fonction de Gabor Dans le domaine spatial, la fonction de Gabor est représentée par deux piques gaussiennes. est une fonction sinusoïdale modulée par une gaussienne Laboratoire L3i – Université de La Rochelle Page 21
  • 22.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Impossible d’afficher l’image. Impossible d’afficher l’image. Figure III.3. Ensemble de filtres de Gabor dans le domaine fréquentiel (le multi-canaux) Le filtre de Gabor est un filtre directionnel et modulable. Chaque filtre décrit par une orientation et une fréquence spécifiques définit un Canal de filtrage. L’association et l’agencement d’un ensemble de filtres de Gabor permet de couvrir tout l’espace fréquentiel, on parle alors de filtrage multi-canaux. Impossible d’afficher l’image. Figure III.4. (a) Filtres de Gabor dans une fenêtre 30 x 30, représentés dans le domaine spatial et fréquentiel pour u0 = 1/8 et θ=0° (b) Filtres de Gabor dans une fenêtre 30 x 30, représentés dans le domaine spatial et fréquentiel pour u0 = 1/8 et θ=45° Laboratoire L3i – Université de La Rochelle Page 22
  • 23.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Impossible d’afficher l’image. Figure III.5. Partie réelle des 4 x 4 fonctions de Gabor dans le domaine spatial L’aspect du filtre dépend de la fréquence, de son orientation et de ses écarts types; L’orientation du filtre définit la direction du filtre ; La fréquence définit la sensibilité du filtre ; Les écarts types définissent la réceptivité (largeur) du filtre. Impossible d’afficher l’image. Figure III.6. Couverture du domaine de Fourier par les canaux fréquentiels des fonctions de Gabor Le filtrage multi-canaux est simplement et efficacement réalisé par le filtre de Gabor qui permet de couvrir tout le domaine fréquentiel et dans de multiples orientations. Chaque canal permet d’extraire les composantes de l’image dont les valeurs correspondent aux paramètres du filtre (fréquence et orientation). Laboratoire L3i – Université de La Rochelle Page 23
  • 24.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture D'une manière pratique plus détaillée, un filtre symétrique impair de Gabor possède la forme générale suivante dans le domaine spatial : 2 2 1 x y h(x,y,θ,f) = exp {- 2 [ 2 2 ]}cos(2π f xθ) (III.3) x y avec xθ = x cosθ + y sinθ , et yθ = -x sinθ + y cosθ . Ce filtre consiste en une enveloppe gaussienne (de paramètres σx et σy) modulée par une sinusoïde de fréquence f le long de la direction de l'axe xθ . L'angle θ permet la rotation de la direction de la réponse. La fréquence f peut être vue comme l'inverse de la moyenne des distances inter-directions. La valeur de θ est donnée par : θk = π(k – 1)/m, k =1...m, où m représente le nombre de d'orientations. Pour chaque bloc d' image (fenêtre) de taille W x W, centré au point (X,Y), avec W impair, on calcule la grandeur de la caractéristique de Gabor comme suit, pour k = 1....m : g(X,Y,θk,f,σx,σy) = I(X+x0,Y+y0)h(x0,y0,θk,f,σx,σy) (III.4) où I(x,y) est la valeur du niveau de gris du pixel (x,y). Comme résultat, on obtient m caractéristiques gaboriennes pour chaque bloc de W x W de l'image. Dans des blocs contenant un motif aigu, les valeurs d'une ou de plusieurs valeurs caractéristiques gaboriennes sera (seront) plus importante(s) que les autres valeurs (ces valeurs correspondent à l'angle de rotation du filtre qui coïncide avec l'angle directionnel du motif ou traits du bloc en cours). D'un raisonnement similaire, pour un bruit non-orienté (aléatoire)des blocs de fond, les m valeurs caractéristiques seront similaires. De ce fait, la variance G des m valeurs caractéristiques permet de segmenter ou de séparer le fond (arrière plan) de l'avant-plan (domaine d'intérêt). Si G est inférieure à un certain seuil donné, le bloc est étiqueté comme un bloc de fond (background), sinon le bloc est étiqueté comme un bloc d'intérêt (foreground). Cependant, cette méthode n'est pas précise sur les bords des régions d'intérêt ou des blocs ayant un faible contraste (résolution), comme on peut perdre de l'information miniaturisée en arrière plan si les paramètres ne sont pas bien ajustés. Les filtres de Gabor bidimensionnels permettent l’extraction directe de caractéristiques de textures localisées en fréquence et en orientation, c'est-à-dire que pour chaque pixel, ils permettent le calcul de caractéristiques dans un voisinage l’englobant. Cette technique, précisément inspirée du mécanisme de la vision humaine qui opère une décomposition fréquentielle systématique des images qui parviennent sur la rétine, se révèle particulièrement Laboratoire L3i – Université de La Rochelle Page 24
  • 25.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture efficace. Le principe des filtres de Gabor est donc de bâtir un banc de filtres très sélectifs en fréquence et en orientation, et de filtrer l’image à analyser avec chacun d’eux ; le calcul a posteriori de paramètres sur les images résultats, permet de caractériser les textures contenues dans l’image à analyser. Il est à noter que lorsque la fréquence fondamentale u0 augmente, la bande passante du filtre en fréquence augmente elle aussi : le filtre devient moins sélectif ; ce phénomène apparaît clairement sur la représentation d’un banc de filtres de Gabor à 6 fréquences (u0=1√2, 2√2, 3√2, …) et 4 orientations (θ=0°, 45°, 90° et 135°). Par ailleurs, le banc de filtres de Gabor permet de couvrir la quasi-totalité de l’espace des fréquences et, dans la mesure où il n’y a que peu de recouvrement entre eux, la décomposition d’une texture dans ce plan est unique et caractéristique. III.1. Paramétrisation / Calcul efficace des paramètres de Gabor Dans ce qui suit, on présentera les méthodes de sélection et de calcul des paramètres du filtre de Gabor. Un filtre de Gabor 2-D est un produit d’une gaussienne elliptique dans toute rotation et un exponentiel complexe représentant une onde plane sinusoïdale. La sensibilité du filtre est commandée principalement par ses écarts types, associés au grand et petit axes σx et σy respectivement. Deux autres paramètres décrivent un filtre de Gabor qui sont f0 (fréquence centrale) et θ (angle d’orientation). L’allongement de la gaussienne est donné par : λ = σx / σy. Une caractéristique gaborienne consiste en le calcul de la réponse des différents filtres pour des valeurs différentes d’orientations et de fréquences : réponse du banc de filtres. Un banc de filtres est composé de plusieurs filtres et utilisé dans le processus de reconnaissance d’objets à base de la relation existante entre les différentes réponses des filtres. a) La répartition angulaire Dans la littérature, la sélection d’angles d’orientation θl a été démontrée [3][21] ; un résultat clé annonce l’espacement uniforme des différentes orientations. θl = 2πl/n , l={0,1,2,….,n-1} (III.5) où θl est la lème orientation et « n » et le nombre total d’orientations envisagées. Le calcul peut être réduit à moitié vu que les réponses aux angles [π,2π] sont des complexes conjugués aux réponses sur [0, π] dans le cas des valeurs d’entrée réelles. Laboratoire L3i – Université de La Rochelle Page 25
  • 26.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture b) La répartition fréquentielle Pour les valeurs de la fréquence, elles vérifient l’expression suivante : fl = k-1fmax , l={0,1,,2,…..m-1} (III.6) k =2 pour une octave d’espacement ou bien k=√2 pour un espacement d’un demi d’octave. c) Les Vecteurs caractéristiques En utilisant ces schémas de sélection pour couvrir les fréquences d’intérêt f0,….,fm-1 et les orientations pour la discrimination angulaire désirée, on construit un ensemble de caractéristiques pour tout pixel (x0,y0) de notre image, soit G cette matrice. G peut s’écrire sous la forme suivante : r(x0,y0 ;f0,θ0)………………. r(x0,y0 ;f0,θn-1) r(x0,y0 ;f1,θ1)………………. r(x0,y0 ;f1,θn-1) . . . . . . . G= . . . . . . . . . . . . . . . . . . . . . r(x0,y0 ;fm-1,θ0)………………. r(x0,y0 ;fm-1,θn-1) Cette matrice caractéristique peut être utilisée comme un vecteur d’entrée dans un processus de classification. Seule la détermination des valeurs de f, θ et σ n’est pas suffisante pour travailler efficacement avec le filtrage gaborien, il faudrait trouver leurs valeurs optimales. Il existe plusieurs méthodes d’optimisation, cependant, le caractère d’interdépendance des paramètres gaboriens et l’hétérogénéité de leurs domaines de définition compliquent cette tâche et la rendent des fois impraticable. III.2. Les fréquences du filtre de Gabor Dans la littérature [3][4][21], il existe une multitude d’approches pour la détermination des valeurs des fréquences utilisées pour le filtrage. Principalement, l’adoption d’une approche spécifique est commandée par le domaine d’application et la nature des images utilisées. Les fréquences des filtres dans un banc de filtres sont : f0=fmax, f1=fmax/k, f2=fmax/k2 , …… fn=fmax/km-1. Les valeurs sélectionnées de k et σx sont interdépendantes. Elles doivent être choisies de telle sorte que le banc de filtres capture toutes les fréquences utiles et descriptives pour l’application envisagée. Laboratoire L3i – Université de La Rochelle Page 26
  • 27.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Premier résultat important : Les valeurs de σx et f sont mutuellement dépendants. Sans trop s’attarder sur des démonstrations, on admet les conclusions suivantes : 1  k + 1 σx =   − ln p1 π  k −1 III.7 « p1 » correspond au point de passage entre les filtres dans des fréquences adjacentes. k −1 2 − (σπ ) p1 = e k +1 III.8 Pour trouver la valeur de k, étant donné f0=fmax, fm-1=fmin et m est : ln f min − ln f max 1 − f min = m −1 f max ⇒ k = e m −1 III.9 k Une valeur indicative de « m » sachant fmax, fmin et k peut être calculée comme suit : ln f min − ln f max m=− +1 III.10 ln k La valeur retournée de « m » n’est pas directement utilisable, car m doit être un entier. III.3. Les orientations du filtre de Gabor La valeur de σy est étroitement liée aux nombres d’orientations choisies. En définissant un autre point « p2 » qui correspond au point de passage entre les filtres dans des orientations adjacentes, la valeur de σy se calcule comme suit, avec n le nombre d’orientation du filtre: f0 − ln p 2 σy = III.11 π ub π  u b = tan  f 0 III.12  2n  Laboratoire L3i – Université de La Rochelle Page 27
  • 28.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture πf 0 Si n<4 , la valeur de ub peut être rapprochée à : ub = 2n Alors : 1 − ln p2 1 − ln p2 σy = = III.13 π π  π π tan   2n  2n La valeur de p2 peut être calculée par l’équation suivante : σ yπ 2 −( )2 p2 = e 2n III.14 (a) (b) Figure III.7. Exemples de banc de filtres dans le domaine fréquentiel, avec m=5, n=4, p=0.2, k=√2 , (a) σx = σy = 2.35 , (b) σx = 2.35 et σy = 1.03 III.4. Séparabilité des filtres de Gabor Si un filtre G peut être exprimé comme une multiplication de deux vecteurs Gcol*Grow, le filtre G est dit alors Séparable. Pour les filtres séparables, la convolution peut être réalisée séparément avec des filtres 1-D Gcol et Grow. Ceci réduit la complexité totale de calcul de O(M2N2) à O(2MN2), où N est la Largeur/Taille de l’image et M pour le filtre. Comme comparé au filtrage FFT, O(N2 Log N), il peut être noté que la convolution dans le domaine spatial avec des filtres séparables est bénéfique lorsque M<Log N. Les filtres de Gabor, qui sont des filtres parallèles (horizontal et vertical) aux axes de l’image sont séparables, θ=nπ/2, n=0,1,2,…. . Un filtre est une fonction sinusoïdale avec une enveloppe gaussienne associé à d’autres enveloppes gaussiennes. Laboratoire L3i – Université de La Rochelle Page 28
  • 29.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture L’utilisation de filtres à des orientations arbitraires implique l’utilisation des rotations de l’image afin d’exploiter la propriété de séparabilité, ce qui entraîne une augmentation de la complexité des calculs. Cependant, les filtres de Gabor séparables peuvent être étendus aux filtres à angle de 45°, θ=π/4 + nπ/2, n=0,1,2,…, ce qui permet de balayer l’image selon la diagonale, au lieu de rester attaché aux axes principaux. III.5. Exploitation de la symétrie du filtre Les caractéristiques de symétrie et d’anti-symétrie des filtres de Gabor 2-D sont utilisées pour accélérer les calculs dans le domaine spatial. Les filtres de Gabor sont des filtres symétriques : les mêmes valeurs du filtre seront reprises dans plusieurs locations. Ces propriétés peuvent être utilisées automatiquement pour réduire le nombre de multiplications dans la phase de calcul des réponses des filtres. III.6. Implémentation du filtrage Nous allons présenter des exemples de filtrage utilisant le filtre de Gabor. Les images que nous allons utiliser sont variées : ♦ Images de synthèse contenant des traits/lignes simples à supports multiples (horizontales, verticales ou obliques) reflétant ainsi les différentes orientations qui peuvent exister dans une image de document ; ces mêmes lignes ont des épaisseurs différentes simulant les différentes tailles que peut avoir une ligne de texte. Ce type d’images va nous permettre d’étudier l’influence de l’orientation et de la fréquence dans l’opération de filtrage ; ♦ Images de synthèse contenant des lignes de texte avec des tailles de polices différentes. Ce type d’images va nous permettre d’analyser l’effet de la fréquence dans l’opération de filtrage ; ♦ et des Images de documents anciens sur lesquels on va essayer d’analyser et étudier les mêmes effets de la fréquence et de l’orientation étudiés sur les images de synthèse. a) Filtrage dans le domaine spatial Filtres de Gabor f=16√2 Image θ = 0° Convolution * f=16√2 θ = 30° f=16√2 θ = 90° Laboratoire L3i – Université de La Rochelledans le domaine spatial sur une image de synthèse Figure III.8.a) Résultat de filtrage Page 29
  • 30.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Discussion Le filtre de Gabor permet de détecter les segments et discontinuités (lignes) qui correspondent à son support d’orientation, et principalement pour 0° et 90°. Dans le cas de traits trop épais, Gabor permet de détecter le contour de ces traits, ceci étant logique vu que la propriété de discontinuité s’applique ici, et l’épaisseur du trait représente une zone homogène (absence de transitions de niveaux de gris) et il n’est pas dans sa portée la détection de telles régions (zones de basses fréquences). Filtres de Gabor f=2√2 θ = 0° Convolution f=8√2 * θ = 0° f=32√2 θ = 0° Figure III.8.b) Résultat de filtrage dans le domaine spatial sur une image de synthèse avec du texte à différentes tailles de police. Nous remarquons que pour une basse fréquence, seul (presque) le texte de plus grande taille était le résultat de filtrage. Ceci s’explique par le fait que ce texte contient des zones (fragments de textes) homogènes. En augmentant la valeur de la fréquence, d’autres éléments apparaissent ; il s’agit essentiellement des lignes de textes de petites tailles, et tant qu’on augmente la fréquence, des structures plus fines se tracent et apparaissent pour le petit texte, contrairement au gros textes qui perdent de leur précision au fur et à mesure. Laboratoire L3i – Université de La Rochelle Page 30
  • 31.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture En appliquant un simple seuillage pour délimiter les zones qui ont répondu le plus, dans l’ordre cité ci-dessus, nous obtenons ce qui suit : Effet de la fréquence croissante sur le résultat de filtrage (apparition de détails) Ces derniers résultats vérifient ce qu’on venait d’expliquer auparavant. Filtres de Gabor f=16√2 θ = 0° Convolution * f=16√2 θ = 30° f=16√2 θ = 90° Figure III.8.c) Filtrage dans le domaine spatial appliqué sur une image de document ancien Laboratoire L3i – Université de La Rochelle Page 31
  • 32.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture 0° 30° 90° Lignes horizontales Lignes obliques Lignes verticales Effet de l’orientation sur une région d’une image de document ancien Sur ces dernières images, on remarque que pour une fréquence donnée, l’orientation du filtre permet de détecter les composantes (traits) ayant un support qui coïncide avec cette orientation. Il est à remarquer que quelque soit l’orientation choisie, il existe toujours des éléments de nos images de documents anciens qui répondant à ce filtre. De plus, la présence d’un grand nombre de traits d’orientation correspondante à celle du filtre fait que la réponse de ce dernier soit plus importante comparée à celles des autres orientations. Un diagramme de filtrage dans le domaine spatial est présenté dans la figure III.8. a, b et c. La complexité de la convolution dépend directement de la taille du Masque de convolution, qui est dans ce cas le filtre de Gabor. La complexité pour calculer la réponse du filtre pour un pixel est O(M2), où M est la largeur /taille du masque. Si le filtrage est appliqué sur toute l’image, la complexité est O(M2N2) où N désigne la longueur et la largeur de l’image. Il est important, pour accélérer le calcul, que la taille du filtre M soit la plus petite que possible. Laboratoire L3i – Université de La Rochelle Page 32
  • 33.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture b) Filtrage dans le domaine fréquentiel Un diagramme de filtrage dans le domaine fréquentiel est présenté dans la figure III.9-a et b. Filtres f=16√2 Multiplication avec les filtres Image Après FFT θ = 0° Transformée de Fourier Inverse f=16√2 θ = 30° f=16√2 θ = 90° Figure III.9. a) Filtrage dans le domaine fréquentiel appliqué sur une image de synthèse En premier, l’image est convertie au domaine fréquentiel avec FFT, l’image résultante de la transformée de Fourier est multipliée par le filtre de Gabor et les réponses subissent une conversion inverse au domaine spatial en utilisant la FFT inverse. La complexité de FFT 2-D et IFFT est O(N2 Log N), à un facteur multiplicatif près. Ce facteur dépend des dimensions de l’image et de l’implémentation de la transformée de Fourier. Laboratoire L3i – Université de La Rochelle Page 33
  • 34.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Filtres f=16√2 Multiplication avec les filtres Image Après FFT θ = 0° Transformée de Fourier Inverse f=16√2 θ = 30° f=16√2 θ = 90° Figure III.9. b) Filtrage dans le domaine fréquentiel appliqué sur une image de document ancien Remarque Une propriété très importante à tenir en compte est celle qui est donnée par la proportionnalité inverse de la largeur du filtre de Gabor dans les deux domaines. Cette propriété est à la racine de la physique et c’est le principe d’incertitude. Il faudra en toute application faire le choix entre avoir une haute résolution en fréquence ou avoir une haute résolution en espace mais il ne sera jamais possible d’avoir les deux au même temps. On peut déduire aussi la relation d’orthogonalité entre la direction de représentation d’une ligne dans le domaine spatial et dans le domaine fréquentiel. Sur cette base, on peut voir d’une façon intuitive que les lignes des contours qui seront trouvées avec le filtrage auront une orientation de 90° en relation avec l’orientation correspondante dans le domaine fréquentiel. Laboratoire L3i – Université de La Rochelle Page 34
  • 35.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Tableau récapitulatif des paramètres du filtre de Gabor Paramètre Description Point d’intersection entre filtres pour des fréquences adjacentes P1 (espacement fréquentiel). Point d’intersection entre filtres pour des orientations adjacentes P2 (espacement angulaire). K Facteur d’échelle pour les fréquences du filtre. σx Longueur d’étendue du filtre (selon l’axe X) m Nombre de filtres pour chaque fréquence. fmin Valeur minimale de la fréquence de réponse du filtre. fmax Valeur maximale de la fréquence de réponse du filtre. σy Largeur d’étendue du filtre (selon l’axe Y). n Nombre de filtres pour chaque orientation. Laboratoire L3i – Université de La Rochelle Page 35
  • 36.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture IV. Implantation Suite aux résultats encourageants de la segmentation de textures et celle du texte/dessin, utilisant le filtre de Gabor [2] [6], nous avons implémenté ce filtre et nous l’avons testé sur les images de notre base de documents anciens (contenant 80 images). Le but est d’appliquer ce filtre sur les images de documents anciens et définir ainsi un outil de segmentation par approche texture pour ce type d’images. L’idée qui soutient cette approche, est que les zones de texte peuvent être considérées comme des textures spécifiques. Il en est de même pour les zones graphiques qui sont considérées comme des textures mais avec des propriétés différentes de celles des zones de texte. Les zones de texte sont des zones riches en transitions, de ce fait, elles sont riches en hautes fréquences, contrairement aux zones graphiques, qui sont des zones relativement homogènes, et par conséquent caractérisées par des basses fréquences. En se basant sur ce constat, le filtre de Gabor est trop "sensible" (réponse importante du filtre) aux zones de texte pour les hautes fréquences, et il est relativement plus sensible aux zones graphiques pour des fréquences basses ; notez que si les zones graphiques comportent des zones riches en transitions, le choix de la fréquence adéquate pour le filtrage demeure une tache relativement complexe et non évidente. Nous constatons, d’après les tableaux IV.1 et IV.2 que le filtre de Gabor est sensible aux valeurs d’entrée de ses paramètres, et le résultat de filtrage dépend étroitement de celles- ci. Les résultats sont obtenus après un seuillage des images résultantes après le filtrage. Le but de ce seuillage est principalement pour des fins de visualisation, afin de montrer la variation des réponses des différents pixels pour un seul filtre. L’opération de seuillage est appliquée comme suit : ♦ Si Ndg [p(i,j)] > Seuil p(i,j) ε Classe Active (réponse importante du filtre de Gabor) ♦ Si Ndg [p(i,j)] < Seuil p(i,j) ε Classe Passive (réponse négligeable du filtre de Gabor) Nous avons constaté aussi que la sensibilité du filtre de Gabor, pour la détection de segments et de discontinuités, l’empêche d’être très efficace pour la segmentation texte/dessin à cause de la présence d’éléments fins détectables, par le filtre de Gabor, dans les zones graphiques, et cela pour des basses fréquences. La même constatation pour des hautes fréquences, dans le traitement des zones de texte contenant des zones homogènes et uniformes (gros textes), le filtre de Gabor est alors incapable de détecter de tels composants. Pour remédier à cette insuffisance du filtre de Gabor, on définit des Banc de filtres dont le but consiste à définir une combinaison de plusieurs fréquences et orientations qui servent à extraire les différentes composantes de l’image ; chaque instance de fréquence et d’orientation définit un Canal, qui sert à conduire, filtrer et ressortir les éléments de l’image dont les caractéristiques correspondent à ces valeurs. On parle alors dans ce cas de Filtrage Multicanaux. Laboratoire L3i – Université de La Rochelle Page 36
  • 37.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Avant de définir un système de Banc de Filtres pour la segmentation Texte/Dessin d’images de documents anciens, nous allons montrer l’existence d’un ou de plusieurs points de rupture fréquentielle, qui permet (tent) de distinguer la réponse du filtre de Gabor pour des composantes de basses et hautes fréquences (distinction d’éléments de l’image répondants à de hautes (basses) fréquences). Pour cela, on se sert de l’histogramme des niveaux de gris de l’image filtrée, pour une fréquence donnée, sur lequel on applique un seuillage ; le choix du seuil doit permettre de partitionner les pixels de l’image filtrée en deux classes : Une première classe englobant les pixels présentant une réponse importante au filtre en question ; Une deuxième classe englobant les pixels qui n’ont pas réagit au filtre en question. Il est à noter que le paramétrage effectué jusqu’à présent est purement manuel, et le choix de la fréquence et de l’orientation a été décidé, après une série de jeux d’essais, afin d’analyser le comportement fréquentiel et angulaire du filtre et donner un aspect plus concret à l’opération de filtrage et de la segmentation Texte/Dessin. Laboratoire L3i – Université de La Rochelle Page 37
  • 38.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Et après seuillage, on a obtenu les résultats suivants : f(Hz) 1√2 8√2 16√2 64√2 θ (rad) 0° π/6 π/3 π/2 Tableau IV.1 : Résultat du seuillage des résultats de filtrage par le filtre de Gabor pour différentes valeurs de fréquence et d’orientation (exemple1) Laboratoire L3i – Université de La Rochelle Page 38
  • 39.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture f(Hz) 1√2 8√2 16√2 64√2 θ (rad) 0° π/6 π/3 π/2 Tableau IV.2 : Résultat du seuillage des résultats de filtrage par le filtre de Gabor pour différentes valeurs de fréquence et d’orientation (exemple 2) Laboratoire L3i – Université de La Rochelle Page 39
  • 40.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture IV.1. Analyse des résultats de filtrage Selon les résultats des tableaux IV.1 et IV.2, on peut constater que : Le résultat de filtrage diffère selon la valeur de f et θ et chaque couple (f,θ) donne lieu à un résultat de filtrage spécifique. Pour chaque orientation, on peut définir deux familles de fréquences : la première où seules des zones homogènes (ou presque) répondent au filtre en question, et la deuxième correspond aux zones fortement texturées et qui répondent seules au filtre en question. Les fréquences de réponse des zones homogènes sont relativement basses comparées aux fréquences de réponse des zones texturées (hautes fréquences). On constate facilement que les zones répondant aux basses fréquences représentent les zones graphiques de l’image d’entrée, cependant, les zones qui répondent en hautes fréquences, sont principalement des zones de texte. Il est à noter aussi qu’en augmentant la valeur de la fréquence, des détails apparaissent de plus en plus, et les zones de plus en plus homogènes disparaissent. Pour une fréquence spécifique, le résultat du filtrage n’est pas toujours le même pour de différentes valeurs de θ. On constate que pour une fréquence donnée, des détails apparaissent ou disparaissent, tout en conservant généralement la nature de l’élément en question : Texte ou Dessin. Ceci est expliqué par le fait que les images de documents anciens sont des images de traits à orientations multiples, ce qui implique la présence d’éléments (traits) qui répondent au filtre en question quelque soit l’orientation choisie. L’abondance de traits pour une orientation spécifique fait que la réponse du filtre soit plus importante pour cette direction. IV.1.a) Influence de l’orientation sur le résultat de filtrage L’orientation du filtre de Gabor permet de détecter les éléments primitifs de l’image (traits) dont leur support correspond à cette orientation. IV.1.b) Influence de la fréquence sur le résultat de filtrage La fréquence du filtre de Gabor permet de déceler les éléments dont leur fréquence coïncide à celle du filtre. Une image de document peut être vu comme une composition multi-fréquentielles (plusieurs textures dont chacune est décrite par une fréquence spécifique), et le filtrage permet de sélectionner seuls les composants de l’image dont leur fréquence correspond à celle du filtre. IV.1.c) Importance entre l’orientation et la fréquence Des résultats précédents, on peut confirmer l’importance et la complétude des deux principaux paramètres d’un filtre de Gabor : la fréquence et l’orientation. Cependant, dans notre cas, des images de documents anciens, on favorise l’importance de la fréquence, vu que les images de traits sont riches en éléments dans les différentes orientations ; de ce fait, quelque soit l’orientation choisie, on est certain d’avoir cibler des éléments de l’image en question, et seule la fréquence décide sur la qualité de la réponse du filtre et la précision des résultats obtenus. Laboratoire L3i – Université de La Rochelle Page 40
  • 41.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Le seuillage de l’histogramme des niveaux de gris est une astuce pour visualiser les composantes de l’image répondant positivement au filtre en question, pour des paramètres spécifiques: Résultat du Seuillage pour des hautes fréquences : Pour des basses fréquences, on a obtenu les résultats suivants : Laboratoire L3i – Université de La Rochelle Page 41
  • 42.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture A partir de ces résultats préliminaires, nous avons bien confirmé qu’il est possible de discriminer les zones de texte dans des gammes de hautes fréquences, contrairement aux zones graphiques qui le sont pour des basses fréquences. Il est à noter également que l’opération de seuillage jouait un rôle complémentaire pour déceler les zones graphiques (basses fréquences) des zones textuelles (hautes fréquences). Cependant, même avec un seuillage précis, il existe des composants textuels qu’on n’a pas pu être étiquetés en tant que zones de texte (idem pour des parties graphiques). De ce fait, seule l’opération de seuillage des résultats de filtrage n’est pas suffisante pour fournir une segmentation efficace des images de documents anciens. La détermination d’un seuil adéquat se fait d’une manière heuristique, à partir de l’histogramme des niveaux de gris, en essayent de détecter un point de passage entre les pixels ayant une très bonne réponse pour le filtre en question, des pixels ayant une réponse moins bonne ou nulle pour le même filtre. Pour l’image qui suit, on va utiliser un filtre de Gabor avec f=16√2 et θ=π/2 Pixels graphiques étiquetés en tant que pixels de texte. Laboratoire L3i – Université de La Rochelle Page 42
  • 43.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Et pour les basses fréquences : Pixels de texte étiquetés en tant que pixels graphiques. IV.2. Discussion Il est à noter, dans tous les cas de figure, qu’il existe des éléments appartenant soit à une zone graphique et que même avec un seuillage on n’arrive pas à les étiqueter ainsi, ou qu’ils soient des éléments de texte, et que suite au filtrage et au seuillage, on les retrouve faisant partie de la zone graphique. L’apport de l’orientation est moins important, comparé à celui de la fréquence, et ceci à cause de la richesse des images de traits en composants orientés dans de multitudes directions, ce qui fait que pour tout pixel de l’image à filtrer, ce même pixel peut appartenir en même moment à une composante texturée orientée horizontalement, verticalement, ou oblique. On en déduit que le résultat du filtrage gaborien dépend essentiellement de la valeur de la fréquence du filtre, qui représente sa sensibilité, et de son écart type qui reflète la réceptivité de celui-ci. Pour capturer les différentes composantes d’une image, dans le but d’une segmentation Texte/Dessin, il nous convient de définir plusieurs fréquences de filtrage, et plusieurs orientations (plusieurs canaux) ; l’ensemble des filtres ainsi définis fournissement ce qu’on appelle dans la littérature du filtrage par un « Banc de Filtres ». IV.3. Définition du Banc de Filtres pour le filtrage des images de documents anciens Même si on dispose de quelques outils formels pour la définition d’un banc de filtres de Gabor, on s’est servi principalement des travaux de Jain & Bhattacharjee [3] et Trygve & Husϕy [2] pour le paramétrage de notre Banc de filtres. On utilise 12 orientations pour couvrir tout le plan, avec un point d’espacement angulaire de p2=30 : 0°,30°,60°,90°,120°,150°,180°,210°,240°,270°,300° et330° (voir l’équation : 2.5). Vu la propriété de symétrie du filtre de Gabor, on ne garde, de ce fait, que les orientations appartenant à l’intervalle [0, 180°] : 0°,30°,60°,90°,120°,150° et 180°. On élimine la direction 180° vu que son support correspond à celui de 0°. Laboratoire L3i – Université de La Rochelle Page 43
  • 44.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Selon [21] et [3], pour avoir un bon résultat de filtrage, le nombre d’orientations ne doit pas être inférieur à 4, et vu l’importance des directions du premier quart du plan et afin de ne pas encombrer les calculs, on va préserver les 5 orientations suivantes : {0°,30°,60°,90°,120°}. En appliquant la formule (2.13), on trouve σy ≅ 1.35. On a choisi k=√2. D’une manière analogue, fmin=1, fmax = 512 pour une image 800x600 (plus grande valeur 2n < largeur de l’image). Pour trouver le nombre de fréquences utilisées, on applique la formule (2.10), on trouve alors : m=19. Les fréquences d’intérêt sont alors, en appliquant la formule (2.6) : 512, 512/√2, 256,256/√2,128, 128/√2,64, 64/√2, 32, 32/√2,16, 16/√2, 8, 8/√2, 4, 4/√2, 2, 2/√2 et 1. De ce fait, p1=1/√2=0.7071 et appliquant (2.7), on trouve σx≅1.1. On peut conserver les deux valeurs différentes de σx et σy, et donc avoir des filtres elliptiques ; une méthode pour avoir des filtres circulaires [1][4]consiste à calculer la moyenne des deux écarts types : σ = (σx+σy)/2 ≅ 1.23. La méthode formelle qui a servi à calculer les différents paramètres de nos filtres est parmi d’autres méthodes heuristiques qui existent dans la littérature [1] [2] [3] [4], et font toutes preuve d’efficacité mais pour des classes d’images spécifiques. Parmi toutes les valeurs des fréquences définies (fréquences d’intérêts), on ne va conserver que quelques unes, soient 6 fréquences : 3 basses (1,2√2 et 4) et 3 hautes (32√2, 64√2 et 128√2) (la largeur des images utilisées ≅ 600pixels la plus grande fréquence en puissance de 2 est égale à 512 = 2 . Donc la plus grande fréquence utilisée = 29-2√2 =128√2Hz, et 9 évidemment, la plus petite fréquence est égale à 1Hz. Le choix du nombre de fréquences utilisées a été jugé suite aux jeux de tests réalisés). De ce fait, on aura 5x6 = 30 filtres qui composent notre Banc de Filtres. On filtre nos images de documents anciens à l’aide des filtres, précédemment définis, et on applique un processus de classification, suite auquel on obtient le résultat de segmentation de nos images à l’aide du filtre de Gabor. IV.4. Réalisation On définit 2 Sous-Banc de filtres, le premier est destiné à localiser les pixels appartenants aux zones graphiques et cela on manipulant des basses fréquences (les zones graphiques sont des zones presque homogènes détectables pour des basses fréquences), et le deuxième est destiné, à localiser les pixels appartenants aux zones textes et ceci en manipulant des hautes fréquences (les zones de texte sont des zones riches en transitions et par conséquent en hautes fréquences). Par conséquent, chacun des Sous - Banc de Filtres est composé de 3x5=15 filtres, et pour chaque pixel de toute image filtrée, on définit un Vecteur Caractéristique VC de 15 composantes, et dont chacune représente la réponse du filtre sur l’image en question pour une fréquence f et une orientation θ données. VC peut s’écrire sous la forme suivante : VC = {r(fi,θj),i=1..3,j=1..5} Laboratoire L3i – Université de La Rochelle Page 44
  • 45.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Une fois les VC(i,j) définis, on applique une classification afin de décider sur la classe d’appartenance de tout pixel et cela pour chaque Sous - Banc à part ; une fois les pixels dans les 2 Sous - Banc de Filtres classés, on applique une méthode de fusion de données : elle consiste à regrouper et unir les résultats de filtrage afin de fournir le résultat final de segmentation de notre image de document en question. La définition de notre Banc de filtres peut être schématisée comme suit (figure VI.1), avec GH : un filtre de Gabor manipulant une haute fréquence (F : une haute fréquence) et GB : un filtre de Gabor manipulant une basse fréquence (F’ : une faible fréquence). Image d’Entrée Filtrage Sous – Banc de Filtres de Gabor 1 Sous – Banc de Filtres de Gabor 2 (Hautes Fréquence) (Basses Fréquences) GH1 GH2 GHi GH1 GB1 GB1 GBj GB1 F1θ1 F1θ2 Fkθl 5 F’1θ F’1θ F’kθl 5 Fθ F’ θ Extraction de Caractéristiques 15 caractéristiques textuelles par pixel 15 caractéristiques graphiques par pixel Classification Image de Texte Image de Dessin Fusion des résultats Image résultante Segmentée Laboratoire L3i –Schéma du de La Rochelle Figure IV.1. Université processus de segmentation d’image utilisant un banc de Filtres Page 45 de Gabor
  • 46.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture V. Classification floue d’image V.1. Introduction La segmentation a pour but de déterminer les régions d’une image cohérentes à la fois spatialement et du point de vue de leur contenu. Une catégorie de méthodes de segmentation d’images s’appuie sur une classification : les points de l’image sont des individus que l’on souhaite regrouper en classes. Très tôt après l’introduction par Zedah [33] du concept d’ensemble flou, on s’est aperçu que la notion de classe utilisée en reconnaissance des formes trouvait là son cadre d’expression tout naturel. En effet, on peut définir une classe comme un groupe d’individus présentant des similitudes communes. Ces similitudes peuvent être plus ou moins fortes entre les individus d’une même classe, et d’autre part, un même individu peut présenter des similitudes avec des individus d’autres classes, si bien que son appartenance n’est pas localisée à une classe déterminée mais se trouve distribuée sur plusieurs classes, sans qu’il soit toujours possible de trancher d’une façon nette à quelle (unique) classe appartient l’individu en question. Mais nous avons là le concept même d’ensemble flou qui est défini, car dans ce formalisme, un élément peut appartenir plus ou moins fortement à plusieurs ensembles flous [20]. Pour remédier à ce type de problème, de nouvelles approches de classification ont été proposées, parmi lesquelles, on peut noter l’approche par la logique floue, avec l’introduction du concept de degré d’appartenance qui détermine la « force » avec laquelle un individu (pixel d’image dans notre cas) appartient aux différentes classes. Cela repose sur le fait que le concept de la logique floue ne cherche pas un point de rupture x qui décide de l’appartenance d’un individu à une classe, mais qu’elle raisonne plutôt sur la base d’un intervalle de valeurs. Comme évoqué ci-dessus, l’idée qui soutient l’approche par la logique floue est la possibilité d’appartenance à la fois à plusieurs classes (texte, dessin, fond) pour un pixel donné. Toutes les méthodes de classification « dure » (parmi lesquelles, la méthode C- moyennes) contraignant les pixels à être membre d’une, et une seule classe, se trouvent ainsi exclues. Bien que la probabilité d’appartenance des objets à plusieurs classes ne soit pas une exclusivité des techniques floues, nous avons choisi de retenir ces dernières car elles fournissent une matrice des degrés d’appartenance de chaque pixel à chaque classe. L’approche par la logique floue en segmentation d’image, se justifie donc grâce à sa capacité d’engendrer une matrice des degrés d’appartenance [15]. V.2. Degré d’appartenance «Très souvent, les classes d’objets rencontrées dans le monde physique ne possèdent pas de critères d’appartenance bien définies ». Ce constat montre le fossé qui sépare les représentations mentales de la réalité et les modèles mathématiques usuels à base de variables booléennes vrai/faux. En effet, il est difficile de proposer un seuil en deçà (#au-delà) duquel l’observation sera affectée entièrement à telle ou telle classe. Nous avons adopté l’idée de J.C. Bezdek pour réaliser une classification floue des pixels résultants de l’opération de filtrage. Le résultat de cette classification floue sera utilisé pour calculer les probabilités a posteriori. L’idée était qu’au lieu de chercher à tout prix un Laboratoire L3i – Université de La Rochelle Page 46
  • 47.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture seuil unique S décidant l’appartenance à un ensemble dans un contexte donné, il semble plus réaliste de considérer deux seuils S1<S2, avec une fonction d’appartenance donnant à chaque pixel un degré d’appartenance (compris entre 0 et 1) selon lequel le pixel en question appartient à une classe donnée. En deçà de S1, le pixel appartient complètement à une classe (degré d’appartenance maximal égal à 1) ; au-delà de S2, il n’appartient plus à cette classe (degré d’appartenance minimal, par convention égal à 0). Entre S1 et S2, les degrés d’appartenance seront intermédiaires (entre 0 et 1). (Voir plus loin la formalisation floue) Le concept de sous-ensemble flou et le degré d’appartenance ont été introduits pour éviter les passages brusques d’une classe à une autre et autoriser les éléments à n’appartenir complètement ni à l’une ni à l’autre ou encore appartenir partiellement à chacune. Ces notions permettent de traiter : des catégories aux limites mal définies, des situations intermédiaires entre le « tout » et le « rien », le passage progressif d’une propriété à une autre, ou encore des valeurs approximatives exprimées en langage naturel [9][10]. Parmi les techniques de la logique floue en classification, l’algorithme C-Moyennes Floues (CMF) a été choisi pour son autonomie due à l’usage d’un classificateur non supervisé. Les autres méthodes, comme les k-plus proches voisins flous ou celle fondée sur les relations floues sont tous des algorithmes de classification supervisée réclamant un échantillon d’apprentissage. On va présenter dans ce qui suit le principe de cet algorithme de classification très populaire, basé sur la logique floue, connu pour son efficacité et sa robustesse. V.3. L’algorithme des C-Moyennes Floues (CMF) L’algorithme des C-Moyennes (CM) est l’une des méthodes les plus connues parmi les techniques de classification non supervisée et qui est fréquemment utilisée pour la quantification vectorielle. La version C-Moyennes Floues est une extension directe de cet algorithme, où l’on introduit la notion d’ensemble flou dans la définition des classes. Comme leurs homologues « Durs », cet algorithme utilise un critère de minimisation des distances intra-classes et de maximisation des distances inter-classes, mais en tenant compte des degrés d’appartenance des pixels [10]. L’algorithme CMF est un algorithme de classification floue fondé sur l’optimisation d’un critère quadratique de classification où chaque classe est représentée par son centre de gravité [10]. L’algorithme nécessite de connaître le nombre de classes au préalable et génère les classes par un processus itératif en minimisant une fonction objectif. Ainsi, il permet d’obtenir une partition floue de l’image en donnant à chaque pixel un degré d’appartenance à une région donnée. Les principales étapes de l’algorithme des c-moyennes floues sont [9]: /°1. La fixation arbitraire d’une matrice d’appartenance [Uij-k] où uij-k est le degré d’appartenance du pixel (i,j) à la classe k. /2°. Le calcul des centroïdes des classes. /3°. Le réajustement de la matrice d’appartenance suivant la position des centroïdes. /4°. Le calcul du critère d’évaluation de la qualité de la solution, la non convergence de ce critère impliquant le retour à l’étape 2. Laboratoire L3i – Université de La Rochelle Page 47
  • 48.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Contrairement aux méthodes de classification dure, la valeur d’appartenance d’un pixel à une classe ne prend pas simplement la valeur 0 ou 1, mais toutes les valeurs possibles dans l’intervalle [0,1]. Pour avoir une bonne partition, on impose aux éléments de la matrice [Uij-k], les contraintes suivantes qui doivent être vérifiées : /° uij-k ε [0,1] /° ∑ k u ij − k = 1; ceci∀(i, j ) L’algorithme du CMF fait évoluer la partition (Matrice U) en minimisant la fonction objectif suivante : N ,M C 2 J m (U , C ) = ∑∑ (u i , j =1 k =1 ij − k ) U ij − k − C k m Où : • m>1 est un paramètre contrôlant le degré de flou (généralement m=2) ; • Ck : le centre de la classe k et c le nombre de classes; −1 c (  ) 1 ● U ij −k = ∑ d 2 ((i, j ), C k ) / d 2 ((i, j ), C n ) m−1   n=1  Algorithme CMF °1/ Choisir le nombre de classes : C // information a priori, algorithme supervisé. °2/ Initialiser la matrice de partition U, ainsi que les centres Ck. °3/Faire évoluer la matrice de partition et les centres suivant les deux équations : E1 : // Mise à jour des degrés d’appartenance où : E2 : // Mise à jour des centres E3- Test d’arrêt : |Jt+1 – Jt| < seuil avec m : degré de flou, généralement m=2. Le résultat direct fourni par l’algorithme CMF est la matrice des degrés d’appartenance de chaque pixel à chaque classe. Cette matrice donne une image graduée de l’appartenance des pixels aux classes définies. Laboratoire L3i – Université de La Rochelle Page 48
  • 49.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture VI. Classification des résultats de filtrage dans chaque Sous - Banc de Filtres Seules les réponses brutes du filtre de Gabor ne sont pas efficaces pour fournir un résultat final parfait d’une image segmentée. Un post-traitement est nécessaire et se résume dans un processus de Classification des données résultantes des différents filtres. Le principal verrou se résume dans le choix d’un seuil pour séparer les réponses des pixels textes et dessins dans les différentes images filtrées. L’intensité à classer (après normalisation) de chaque pixel représente la réponse de ce dernier pour un filtre particulier défini par une fréquence et une orientation déterminées. De ce fait, et selon la réponse du filtre, l’intensité d’un pixel le qualifie en tant qu’un pixel d’une zone de texte si sa réponse dépasse un certain seuil, cependant, si cette intensité est inférieure à une certaine borne, ce pixel ne peut être qu’un pixel d’une zone graphique. Images caractéristiques : Ik (résultat de filtrage par un Banc filtres spécifique) (NxM pixels) Normalisation uij-k=[255-Ikk(i,j)]/255 0<=uij-k<=1 (Pseudos Degrés d’Appartenance) i=1...N, j=1…M k=1..15 par Sous Banc de filtres VC(i,j)={Uij-k,k=1..15} 1 D deg(i, j ) = ∑ u ij −l , D = 15 D I(i,j)εClasse1 l =1 °/ Si deg(i,j)<S1 °/ Si deg(i,j)>S2 I(i,j)εClasse1 °/ Si S1<=deg(i,j)<=S2 lancer une Figure VI.1. Phase de Calcul des degrés procédure de post-traitement pour le d’appartenance et affectation des pixels calcul de nouvelles valeurs des degij-k. aux classes correspondantes dans chaque sous – banc de filtres °/ Pour le Sous Banc de Filtres 1 (hautes fréquence) : Classe1 = Texte Classe1 = Dessin/fond °/ Pour le Sous Banc de Filtres 2 (basses fréquences) : Classe1 = Dessin Laboratoire L3i – Université de La Rochelle Classe1 = Texte/fond Page 49
  • 50.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Des exemples précédents, on a pu constater qu’on ne peut en aucun cas trouver un seul seuil pour toutes les classes de documents anciens en notre possession, de plus on est jamais certain du choix du seuil utilisé ; il est alors plus adéquat de définir deux seuils S1 et S2 suffisamment séparés pour définir les valeurs d’intensités correspondantes aux zones de texte et de dessin sans risque d’affectation. Les pixels ayant des valeurs d’intensités comprises entre S1 et S2 subiront à leur tour des traitements pour définir la classe la plus appropriée à leur appartenance. Cette conception du module de classification et d’affectation correspond à une Classification Floue. De ce fait, sur les vecteurs caractéristiques, définis sur l’ensemble des pixels, on applique une classification de type floue non supervisée dont le principe consiste à trouver une partition de l’image, caractérisée par un vecteur des degrés d’appartenance d’un pixel (i,j) à une classe Cl, résultats du filtrage dans chaque Sous – Banc de filtres. Notez que pour chaque Sous – Banc de filtres, on définit 2 classes : pour les basses fréquences, Classe1 : pixels des zones graphiques et Classe2 : le complément de Classe1 (pixels textes ou de fond), et pour les hautes fréquences, 2 autres classes, Classe1 : pixels des zones de texte, et Classe2 : complément de Classe1 (pixels graphiques ou de fond). La classification est appliquée sur le résultat de chaque Sous – Banc de Filtres. L’idée qui soutient l’approche par la logique floue est l’impossibilité de décider sur l’appartenance d’un pixel ou une région donnée de l’image suite au choix difficile d’un seuil pour différencier le texte et le dessin et la présence de situation d’homogénéité des réponses des zones de texte de celles des zones de dessin pour le filtre de Gabor. Pour remédier à ce problème, on définit deux bornes (seuils) S1 et S2 tels que, en dehors de l’intervalle [S1,S2], on est certain de la classe d’appartenance des pixels, et dans le cas contraire, on doit procéder à un traitement qui permet de modifier les degrés d’appartenance, en analysant le contexte des pixels et leurs réponses, afin de leur attribuer, si c’est possible, la classe la plus convenable. Les degrés d’appartenance de chaque pixel se calculent par normalisation des résultats de réponse de chaque filtre. Laboratoire L3i – Université de La Rochelle Page 50
  • 51.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Classe 1 Classe ? Classe 1 S1 S2 C1 C2 À affecter Classe 1 Classe ? Classe 1 S1 S2 C1 C2 À affecter Classe 1 Classe ? Classe 1 S1 S2 C1 C2 À affecter Classe 1 Classe ? Classe 1 S1 S2 C1 C2 À affecter Figure VI.2. Processus d’assignation des vecteurs caractéristiques dans une classification floue Laboratoire L3i – Université de La Rochelle Page 51
  • 52.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Le processus de classification continue à s’exécuter jusqu’à stabilité de la solution (résultat inchangé, ou presque, entre deux itérations successives) VI.1. Matrice de confiance associée à la classification floue La robustesse d’un algorithme de classification floue doit être accompagnée d’une mesure de confiance. Dans notre cas et pour chaque Sous – Banc de Filtres, on définit un Vecteur de Confiance pour chaque pixel dont chacune de ses valeurs correspond à un pseudo degré d’appartenance de ce même pixel résultant d’une opération de filtrage par un filtre de Gabor spécifique du banc. Le kème pseudo degré d’appartenance d’un pixel (i,j) est la valeur normalisée du résultat du filtrage par le kème filtre de Gabor pour ce même pixel. Pour chaque pseudo degré d’appartenance, la mesure de confiance est considérée dans un voisinage de 9x9 (décidé d’une manière heuristique). Pour tout pixel (i,j) VC =[v1,v2,v3,v4,v5,v6,v7,v8,v9,v10,v11,v12,v13,v14,v15] Conf = [conf1, conf2, conf3,……, conf15] // vecteur de Confiance. La mesure de confiance, pour tout pixel d’une image filtrée par un filtre spécifique, se calcule comme suit : - confk(i,j) : kème degré de confiance associé au kème pseudo degré d’appartenance du pixel (i,j). - N : nombre de voisins du pixel (i,j) Cette quantité est une variance, elle permet de quantifier l’homogénéité et la correspondance du pixel en question avec ses voisins. Si confk(i,j) est faible, alors le pixel (i,j) est homogène avec ses voisin, sinon, si confk(i,j) est importante, ceci implique que le pixel (i,j) diffère de ses voisins et cette conclusion influencera la prise de décision concernant la classe d’appartenance de ce pixel : Cette mesure de confiance intervient durant le processus de classification, et précisément dans la phase d’initialisation des classes et la mise à jour des degrés d’appartenance, sous hypothèse d’homogénéisation des pixels du voisinage. Le degré d’appartenance pour tout pixel (i,j) se calcule comme suit : M : nombre de filtres de Gabor utilisés. VI.2. Analyse du seuillage La détermination de seuils est une étape primordiale pour notre processus de classification floue adoptée. Un seuil doit vérifier la généralité et l’efficacité de calcul. Du point de vue implantation, nous avons exploré deux méthodes sur trois pour fixer les seuils utilisés. Laboratoire L3i – Université de La Rochelle Page 52
  • 53.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture L’approche que nous avons omit est celle principalement basée sur un apprentissage. Les raisons pour lesquelles nous ne l’avons pas adopté sont : La variabilité des classes des documents anciens ce qui implique la difficulté voire l’impossibilité de définir des seuils uniques pour toutes les classes ; Le besoin de définir des échantillons représentatifs des classes des documents anciens ce qui semble être impossible vu la diversité et la richesse des formats et modèles des documents anciens. Comme solution immédiate à cette première approche, on a défini deux seuils, suite à un jeu d’essais, suffisamment éloignés afin d’assurer une discrimination nette entre les classes d’affectation et éviter ainsi les conflits d’assignation. Cependant, et même si les résultats sont satisfaisants, le temps de calcul nécessaire pour l’accomplissement d’une segmentation est extrêmement important. Ceci s’explique par le fait que l’éloignement entre les deux seuils accroît le nombre de pixels candidats à l’opération de calcul et mise à jours des degrés d’appartenance. Pour palier à toutes les contraintes citées ci-dessus, on a voulu déterminer un seuil spécifique pour chaque pixel et dont sa valeur se détermine par une analyse de voisinage. De ce fait, S1 et S2 coïncident, c'est-à-dire, au lieu de définir deux seuils distincts éloignés, on se ramène à définir un seul seuil S (S1 et S2 se rapprochent jusqu’à superposition). Le seuillage ainsi adopté est trop simple à mettre en œuvre et se situe dans la phase de défuzzyfication du processus de classification. Il s’agit d’un seuillage local et adaptatif pour tout pixel dans un voisinage de 3x3. Pour chaque sous-banc de filtres, le seuillage peut être formalisé comme suit : ► Calculer l’écart type (ρ) sur les degrés d’appartenance de la matrice de voisinage (valeur en %) ► Si ρ < 50% alors (1) sinon (2) (1) S = Moy(deg(k,l)) i-2<=k<=i+2, j-2<=l<=j+2, Moy : moyenne Si deg(i,j) >= S Alors pixel (i,j) ε Classe1 Sinon pixel (i,j) ε Classe 1 (2) °/Calculer le nombre d’éléments avec un degré d’appartenance supérieur à deg(i,j) (nb1) et le nombre d’éléments avec un degré d’appartenance inféieur à deg(i,j) (nb2 = S); °/ Si nb1>=S alors pixel (i,j) ε Classe1 Sinon pixel (i,j) ε Classe 1 Suite à cette opération, chaque pixel sera attribuer une classe, ‘Texte’ ou ‘Non’ pour le premier sous-banc de filtres ou ‘Dessin’ ou ‘Non’ pour le second. Laboratoire L3i – Université de La Rochelle Page 53
  • 54.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Une fois les pixels affectés à leurs classes, on procède à une fusion des résultats d’affectation pour ne garder qu’une seule classe par pixel et fournir ainsi le résultat final de notre système de segmentation d’images de documents anciens. VI.3. Comment fusionner les données ? Le résultat de chaque Sous – Banc de Filtres est une décision portée sur chaque pixel. Pour le premier, il s’agit de décider sur le caractère textuel des pixels, et pour le second sur leur caractère graphique. Un résultat idéal de classification est de pouvoir trouver, pour chaque pixel, une et une seule affectation (soit c’est un pixel d’une zone de texte ou un pixel d’une zone graphique). Vu la sensibilité du filtre de Gabor, la richesse des graphiques des images de documents anciens en textures et composants similaires aux textes, ainsi que la sensibilité de la classification floue, une situation de conflit d’affectation aura toujours lieu (un pixel sera étiqueté en tant que pixel textuel par le premier sous – banc de filtres, et étiqueté, en même temps, en tant que pixel graphique par le second sous – banc de filtres). Pour remédier à ce problème, on définit une règle heuristique de priorité textuelle, on utilise l’opérateur XOR entre les deux résultats de classification (image de texte et image de dessin) pour éviter le conflit d’affectation ; le résultat de fusion contient en premier lieu les composants textuels (qui sont plus sûrs), en les excluant du résultat de classification de dessin, et ensuite on affecte le résultat des pixels dessins restants. Les pixels sans étiquettes forment le fond de l’image. Résultat de FCM – 2 Résultat de FCM - 1 Sous – Banc de Filtres 2 Sous - Banc de Filtres1 (Détection des zones (Détection des zones de graphiques) textes) Priorité Min Priorité Max XOR Image de document ancien segmentée : Texte / Dessin / Fond Figure VI.3. Processus de fusion des résultats de classification floue des 2 Sous Banc de Filtres Laboratoire L3i – Université de La Rochelle Page 54
  • 55.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture VII. Validation Nous avons implémenté notre système flou de segmentation d’images de documents anciens conçu à base d’un banc de filtres de Gabor et nous l’avons testé sur 80 images de documents anciens de notre base d’image du 15ème siècle d’André Vésale (1514-1564). Avant de montrer les résultats obtenus, nous avons testé notre outil sur 120 images de documents contemporains et nous avons calculé le taux de pixels bien classés. (Im1) 97.24% de pixels bien classés 2.65% de pixel mal classés 0.11% de pixels non classés 93.73% de pixels bien classés (Im2) 6.23% de pixel mal classés 0.04% de pixels non classés Laboratoire L3i – Université de La Rochelle Page 55
  • 56.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture (Im3) 97.18% de pixels bien classés 2.72% de pixel mal classés 0.10% de pixels non classés (Im4) 98.96% de pixels bien classés 0.88% de pixel mal classés 0.16% de pixels non classés Zones de texte Zones graphiques Fond Laboratoire L3i – Université de La Rochelle Page 56
  • 57.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Sur les précédentes images, nous avons évalué notre outil pour la détection du texte et du dessin. Nous avons essayé d’être le plus précis que possible et les résultats fournis sont à base d’un simple comptage des pixels. Texte Bonne détection Fausse détection Oubli Im1 94 % 6% 0% Im2 95 % 5% 0% Im3 94 % 6% 0% Im4 97 % 3% 0% Nous constatons que notre système fournit de très bons résultats pour la détection des zones de texte. Les fausses détections concernent principalement les gros textes que notre système les qualifie en tant que zones de dessin, ou à cause de texte situé sur des régions avec un fond différent de celui de l’image. Dessin Bonne détection Fausse détection Oubli Im1 92 % 2% 6% Im2 97 % 1% 2% Im3 96 % 3% 1% Im4 85 % 12 % 3% Les résultats de détection des zones de dessin sont de même excellents mais moins bons comparés à ceux calculés sur du texte. Les fausses détections sont principalement dues aux gros textes que le système les considère comme du dessin et la présence de traits ou petits textes, sur des zones graphiques, conserve leur caractère textuel et le système ne les fusionne pas avec les pixels graphiques décelés, ce qui fait que notre système est précis et à forte discrimination. L’oubli est principalement causé par la présence de régions homogènes dans les zones graphiques trop proches au fond de l’image ; notre système affecte ainsi ces régions au fond de l’image. Laboratoire L3i – Université de La Rochelle Page 57
  • 58.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Sur les vecteurs caractéristiques, nous avons appliqué une classification supervisée utilisant le logiciel R-Clara. R est un système pour le calcul statistique et les graphiques. Le noyau de R est un langage de programmation interprété. Il se compose d'un langage plus un environnement d'exécution avec des graphiques, un programme de mise au point et d'accès à certaines fonctions systèmes. R contient un grand nombre de procédures statistiques : modèles linéaires et généralisés, modèles non-linéaires de régression, analyse de série chronologique, essais paramétriques et non paramétriques classiques, classification et lissage,...etc. Il y a également un grand nombre de fonctions qui fournissent un environnement graphique flexible pour créer de divers genres de représentations de données. Les résultats de classification des vecteurs caractéristiques pour chaque classe (Texte / Dessin) sont proches, cependant, les vecteurs caractéristiques issus du sous-banc de filtres destiné pour le texte fournissent des résultats de classification plus précis. De ce fait, on va se contenter des seuls résultats fournis par ce 2ème sous-banc de filtres. Voici les résultats obtenus : 92.17% de pixels bien classés 89.97% de pixels bien classés 07.83% de pixels mal classés 10.03% de pixels mal classés 95.34% de pixels bien classés 94.36% de pixels bien classés 04.76% de pixels mal classés 05.64% de pixels mal classés Laboratoire L3i – Université de La Rochelle Page 58
  • 59.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Avec le système R, le détail des résultats obtenus sur les images précédentes est présenté dans les deux tableaux suivants : Texte Bonne détection Fausse détection Oubli Im1 89 % 11 % 0% Im2 91 % 9% 0% Im3 72 % 28 % 0% Im4 85 % 15 % 0% Dessin Bonne détection Fausse détection Oubli Im1 83 % 12 % 5% Im2 74 % 19 % 7% Im3 79 % 14 % 7% Im4 71 % 17 % 12 % Nous avons calculé les paramètres de détection sur les images de notre base et nous avons obtenus : ► Une moyenne de 87% de pixels bien classés par R. ► Une moyenne de 96% fournie par notre système de segmentations floue ; alors notre système donne des résultats meilleurs. Laboratoire L3i – Université de La Rochelle Page 59
  • 60.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Les résultats obtenus sur des images de documents contemporains sont très encourageants avec un résultat de segmentation parfait à 96%. Nous avons appliqué ce même système sur la base d’images de documents anciens qu’on possède, et voici un échantillon des résultats de segmentation obtenus : 98.76% de pixels bien classés 01.34% de pixels mal classés 0% de pixels non classés 94.96% de pixels bien classés 4.48% de pixels mal classés 0.56% de pixels non classés Laboratoire L3i – Université de La Rochelle Page 60
  • 61.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture 98.75% de pixels bien classés 01.21% de pixels mal classés 0.04% de pixels non classés 93.08% de pixels bien classés 6.02% de pixels mal classés 0.90% de pixels non classés Laboratoire L3i – Université de La Rochelle Page 61
  • 62.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Discussion Les résultats obtenus sont encourageants, cependant, les taux calculés sur les exemples précédents ne sont pas de la même qualité pour d’autres types d’images de documents anciens (images de documents avec bordures texturées, des images avec de grands portraits finement texturées, images avec des zones ombrées,…), qui deviennent alors peu satisfaisants. Les résultats de la segmentation sont de mieux en mieux que les zones graphiques soient de plus en plus homogènes, cependant, si les zones graphiques contiennent des textures fines (similaires à des lignes, hachurées), alors le système décident du comportent textuel de ces zones. La structure des ombres, qui est principalement linéaire, fait que ces zones seront classées en tant que zones de texte. La taille de la police peut basculer la décision du système sur l’appartenance des pixels de ces zones, c-à-d que tant que la taille grandisse, le système change sa classe d’appartenance de texte en dessin, ceci étant logique vu qu’un caractère de grande taille est qualifié en zone homogène et se localise en basse fréquence. L’analyse multirésolution semble être l’approche idéale pour palier à cet handicape. On utilise une transformée en ondelette (la transformée de Haar par exemple) pour extraire les informations à chaque échelle sur les alignements horizontaux, verticaux et obliques. La détection des lignes de texte par rapport aux zones graphiques peut être réalisée avec une complexité de calcul très faible. La transformé de Haar divise récursivement l’image en trois parties par changement de résolution et applique des filtres différentiels directionnels (le filtre de Gabor) (horizontal, vertical et oblique) du premier ordre dans chacune des parties. Il existe donc une échelle pour laquelle les lignes apparaissent puis les blocs de lignes ainsi que les zones graphiques [29]. Image originale transformée de Haar Orientations et résolutions Figures VI.4. L’analyse multirésolution pour la détection des éléments d’une image de document [29] Laboratoire L3i – Université de La Rochelle Page 62
  • 63.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture On en déduit que malgré les bons résultats obtenus, un système de segmentation seulement basé sur le filtre de Gabor est loin d’être parfait ou meilleur. De ce fait, d’autres connaissances, autres que les réponses des filtres de Gabor sont indispensables pour améliorer les résultats et corriger les imperfections. 97.71% de pixels bien classés 1.5% de pixels mal classés 0.79% de pixels non classés Laboratoire L3i – Université de La Rochelle Page 63
  • 64.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Avec le système R, on a obtenus les résultats suivants : 87.4% de pixels bien classés 93.04% de pixels bien classés 12.6% de pixels mal classés 06.96% de pixels mal classés 86.74% de pixels bien classés 89.06% de pixels bien classés 13.26% de pixels mal classés 10.94% de pixels mal classés Avec R, nous avions une moyenne de 89.06% de bon résultat, largement inférieure à la moyenne obtenu par notre système qui est de 95.83%. Remarque Les résultats obtenus par notre système ne sont pas parfaits pour toutes les catégories des images de documents anciens, la présence d’ombres, de gros textes, des zones de dessin fortement texturées altèrent le résultat et la qualité de la classification. Laboratoire L3i – Université de La Rochelle Page 64
  • 65.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Ceci implique que la signature adoptée, qui est principalement basée sur la réponse du banc de filtres, n’est pas suffisante pour décrire une image ou une partie d’elle (Texte/Dessin). Pour remédier à cette insuffisance, on rajoute à la signature, précédemment définie, des mesures de texture de Tamura. Ce choix se justifie par le fait que ces mesures sont à l’origine de la décomposition des propriétés de la texture tout comme le système de vision humaine (similaire au filtre de Gabor), ce qui nous permet d’avoir une signature homogène. VIII. Conclusion / Perspectives L'une des principales sources de motivation pour s'engager dans l'analyse d'images de documents anciens est l'accroissement du besoin gouvernemental et commercial à de tels systèmes. Ces systèmes permettent un stockage rapide, un rappel et une distribution de documents dans un système d'information coopératif et interactif. L'analyse de document, à l'aide de l'indexation, peut contribuer au stockage et à la réutilisation de documents anciens, en se basant sur un partitionnement de l'image en régions d'intérêts pour d'éventuels accès convenables et prévisibles par les utilisateurs. Nous avons exploité les propriétés du filtre de Gabor pour développer un système de segmentation floue d’images de documents anciens. A chaque pixel, nous avons associé une signature composée de deux parties : l’une textuelle et l’autre graphique et dont chacune est définie par les réponses de filtrage. L’approche floue adoptée se justifie par le caractère incertain de définition de seuil ou de borne séparant les réponses des pixels graphiques et des pixels des zones de texte. Les résultats obtenus sont très encourageants, cependant, la généralisation de l’ensemble des paramètres du banc de filtres semble une tache difficile, voir même impraticable, de ce fait, pour chaque classe d’images de documents anciens (images avec bordure, sans bordure et avec lettrine seule, gros dessin, gros texte,….), un banc de filtres spécifique est nécessaire à définir. Les imperfections présentes dans quelques décisions de notre système peuvent être corrigées en incluant des mesures de texture dans la signature définie précédemment. Dans le futur proche, de telles capacités seront étendues à la création de bibliothèques électroniques qui pourront de même bénéficier de l'indexation automatique et les utilitaires de formatage. Plus loin, les efforts seront penchés, de plus, sur l'interprétation et la représentation des informations dans les images de documents anciens stockées afin de fournir plus de flexibilité et facilités à leur récupération et manipulation. Comment l'analyse de documents pourra répondre aux besoins futurs? Il y a un grand besoin d'intégrer le contexte, particulièrement le contexte linguistique dans les modèles de base des systèmes d'analyse d'images de documents anciens. Les connaissances contextuelles doivent être utilisées pour minimiser l'erreur et rejeter les documents difficilement interprétables et exploitables. L'important est de définir les différentes contraintes d'une manière générique afin de pouvoir les redéfinir facilement pour les différentes applications. Au-delà de ça, comment ces règles se convertissent et s'intègrent aux processus de reconnaissance afin d'améliorer ses performances? Afin de faciliter le progrès dans l'analyse d'images de documents anciens, on a besoin d'un nombre important de bases de données d'images de documents anciens, chacune Laboratoire L3i – Université de La Rochelle Page 65
  • 66.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture représentant une classe particulière afin d'arriver à mettre en oeuvre un Système Générale d'Analyse d’Images de Documents Anciens. Les applications à prévoir comme complément de notre travail peuvent être résumées dans ce qui suit : ► Intégration des mesures de texture de Tamura dans notre système et le valider sur une base d’images de documents anciens ; Tamura et al. [36] définissent six caractéristiques texturales {Coarseness, Contraste, Direction, Similariré-ligne, Régularité et Rugosité}. Les trois premières caractéristiques sont trop efficaces et fréquemment utilisées pour la description de la texture. La Coarseness possède une relation directe avec l’échelle et le taux de répétition. Tamura et al. la considèrent comme la propriété de texture la plus importante. Une image contient des textures à différentes échelles et la Coarseness permet d’identifier la taille de la plus grande texture existante. Le Contraste vise à capturer la gamme dynamique des niveaux de gris dans une image avec la polarisation de la distribution du noir et blanc. La Direction est une propriété globale d’une région. Cette caractéristique texturale ne calcule pas la différence entre les orientations et les motifs, mais elle mesure le degré total de la direction. La notion d’une Image de Tamura correspond au calcul d’une valeur de chacun des paramètres précédents pour tout pixel d’une image ; on obtient alors une sorte de distribution spatiale des caractéristiques texturales de l’image. Le choix de cette solution pour l’intégrer à la signature définie par les sorties du Banc de filtres de Gabor semble logique et bénéfique. La Coarseness permet de donner un indice sur le type de la texture (Texte (fines) et Dessin (Grosse)) ; le Contraste avec la polarisation du niveau de gris permet de décrire la distribution de la zone/texture en question : une zone homogène pour une zone de texte et aléatoire pour une zone de dessin. Et enfin, la Direction permet de spécifier l’orientation de la texture en question : « direction définie » pour une zone de texte ou « pas de direction / direction aléatoire » pour une zone graphique. On en déduit que en plus des paramètres quantitatifs produits par le filtre de Gabor, les indices de Tamura permettent de quantifier les propriétés qualitatives de nos images de documents anciens, ce qui permet alors de définir un système complet (descripteurs multiples) de segmentation d’images de documents anciens. Les mesures de Tamura permettent de corriger ou de renforcer toute décision d’affectation de pixel d’une image par notre système de segmentation utilisant le filtre de Gabor. ► Détermination des propriétés typographiques des documents (types du texte / tailles des fonte,…) ; ► Définir des primitives optimales et efficaces pour la quantification et la classification (segments, régions,...) / afin d’éviter le parcours exhaustif et répétitif de tous les pixels ; ► Utiliser l'outil Gabor pour l'indexation et la consultation des bases de données d'Images de Documents Anciens. Laboratoire L3i – Université de La Rochelle Page 66
  • 67.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Références bibliographiques [1]S. Raju S, P. Basa Pati, and A G Ramakrishnan, "Gabor Filter Based Block Energy for Text Extraction from Digital Document Images", Proc. First International Workshop on Document Image Analysis for Libraries (DIAL’04) – 2004 IEEE [2]T. Randen, J. Håkon Husǿy, ''Segmentation of Text/Image Documents Using Texture Approaches'' Proc. Norway, Juin 1994. [3]A. K. Jain and S. Bhattacharjee, ''Text Segmentation Using Gabor Filters for Automatic Document Processing'', Machine Vision and Applications (1992) 5 : 169-184. [4]M. Acharyya and M. K. Kundu, ''Document Image Segmentation Using Wavelet Scale-Space Features'', IEEE Transactions on Circuits and Systems for Video Technology, Vol. 12, n° 12, December 2002. [5]N. Journet, R. Mullot, J.Y. Ramel, V. Eglin, "Ancient Printed Documents indexation :a new approach", International Conference on Advances in Pattern Recognition, August 2005. [6]K. Hammouda, ''Texture Segmentation Using Gabor Filters'', SYDE 775, Image Processing, Department of Systems Design Engineering, University of Waterloo, Canada, December 2000. [7]B. Allier, H. Emptoz, ''Font Type Extraction and Character Prototyping Using Gabor Filters'', Proceeding of the Seventh International Conference on Document Analysis and Recognition (ICDAR 2003) - IEEE 2003. [8]F. Alonso-Fernandez, J. Fierrez-Aguilar, J. Ortega-Garcia, ''An Enhanced Gabor Filter-Based Segmentation Algorithm for Fingerprint Recognition Systems'', Proceedings of the 4th International Symposium on Image and Signal Processing and Analysis «Proc. ISPA05» - 2005. [9]Y. Smara, N. Ouarab, "Techniques de fusion et de classification floue d’images satellitaires multisources pour la caractérisation et le suivi de l’extension du tissu urbain de la région d’Alger (Algérie)", 2nd FIG Regional Conference – Marrakech, Morocco, December 2-5, 2003. [10]L. Lazli et M.T. Laskri, "Nouvelle méthode de fusion de données pour l’apprentissage des systèmes hybrides MMC/RNA", Revue ARIMA – CARI’04, Novembre 2005. [11]A. Martin, "Fusion de classifieurs pour la classification d’images sonar", Revue des Nouvelles Technologies de l’Information RNTI-1, 2004 [12]H. Ma and D. Doerman, "Font Identification Using Grating Cell Texture Operator", [13]Y. Zhu, T. Tan and Y. Wang, "Font Recognition Based on Global Texture Analysis", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.23, N°10, October 2001. [14]A.K. Jain, R.W. Durin, and J. Mao, "Statistical Pattern Recognition: A Review", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.22, N°1, January 2000. [15]H. Hetzheim, "Separation of Different Textures in Images using Fuzzy Measures and Fuzzy Functions and their Fusion by Fuzzy Integrals", [16]N. Papamarkos, "A Technique for Fuzzy Document Binarization", DocEng’OI, November 9-10, 2001, Atlanta, Georgia, USA. Laboratoire L3i – Université de La Rochelle Page 67
  • 68.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture [17]G. Rellier, X. Descombes, F. Falzon, J. Zerubia, "Analyse de Texture Hyperspectrale par Modélisation Markovienne", Projet ARIANA (projet commun I3S/INRIA), rapport de recherche I3S/RR-2002-47-FR, Septembre 2002 [18]B. Allier, "Contribution à la Numérisation des Collections : Apports des Contours Actifs", Thèse en Informatique, Institut National Des Sciences Appliquées de Lyon, 2003. [19]B.S. Manjunath and W.Y. Ma, "Texture Features for Browsing and Retrieval of Image Data", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.18, N°8, August 1996. [20]M. Grabisch and M. Nicolas, "Classification by Fuzzy Integrals – Performance and tests", Fuzzy Sets & Systems, Special Issue on Pattern Recognition, 65: 255-271, 1994. [21]J. Ilonen, J.K. Kämäräinen and H. Kälviäinen, "Efficient Computation of Gabor Features", Department of Information Technology, BP 20, Finland, rapport de recherché, 2005. [22]H. Ma and D. Doerman, "Gabor Filter Based Multi-Class Classifier for Scanned Document Images", Proceedings of the Seventh International Conference on Document Analysis and Recognition, 2003. [23]T.P. Weldon, W.E. Higgins, "Design of Multiple Gabor Filters for Texture Segmentation", Proceedings of ICASSP- May 7-10, Atlanta, Georgia, USA, 1996. [24]V. Levesque, "Texture Segmentation using Gabor Filters", Centre for Intelligent Machines, McGill University, December 6, 2000. [25]P. Kruizinga, N. Petkov and S.E. Grigorescu, "Comparison of Textures Based on Gabor Filters", Proceedings of the 10th International Conference on Image Analysis and Processing, Venice, Italy, September 27-29, 1999, pp. 142-147. [26]C.H. Wei, C.T. Li, and R. Wilson, "A General Framework for Content-Based Medical Image Retrieval with its Application to Mammograms", [27]L. Likforman-Sulem, "Apport du traitement des images à la numérisation des documents manuscrits anciens", 2003 [28]A. Belaïd, H. Emptoz, G. Vignaux, "Document et contenu : création, indexation, navigation", CNRS, Février 2004 [29]F. Le Bourgeois, H. Emptoz, E. Trinh, F. Muge, C. Pinto et I. Granado, "Wp4.3-4 Numérisation, Traitement et Interprétation des Images de Documents Anciens ", Project DEBORA Telematics Applications Programme n° 5608 - [30]I. Quidu, J.P. Malkasse, P. Vilbe, G. Burel, "Fusion Multi-Attribut d’Images Sonar", GRETSI - Toulouse, 10-13 Septembre 2001. [31]S. Khedekar, V. Ramanaprasad, S. Setlur, "Text-Image Separation in Devanagari Documents", Proceedings of the Seventh International Conference on Document Analysis and Recognition (ICDAR 2003). Laboratoire L3i – Université de La Rochelle Page 68
  • 69.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture [32]”Sauvegarde du Patrimoine Culturel de Civilisation Ancienne”, Projet SAPCCA – Laboratoire LRI – Université Badji Mokhtar – Annaba – Algérie. [33] J.C.Bezdek, "Pattern Recognition with Fuzzy Objective Function Algorithms", Plenum Press, New York, 1981. [34]W. Pedrycz, "Knowledge-Based Clustering: Clustering and Fuzzy Clustering", ISBN 0- 471-46966-1 Cpyright © 2005 John Wiley & Sons, Inc. [35]T. Gadi, R. Bnslimane, "Segmentation hiérarchique floue", Traitement du Signal 2000, Volume 17-n°1. [36]P. Howarth, S. Rüger, "Robust Texture Features for Still-Image Retrieval", IEE Proc.Vis. Image Signal Process, Vol. 152, n° 6, December 2005 Laboratoire L3i – Université de La Rochelle Page 69
  • 70.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Annexe Nous avons appliqué notre système de segmentation d’images de documents sur les images de quelques travaux scientifiques marquants pour évaluer ainsi l’efficacité de notre méthode. Les images situées à gauche des pages sont les images d’origine, celles du milieu représentent les résultats des travaux consultés, et enfin les images de droite sont les nôtres, résultant de notre système de segmentation floue d’images de documents. 1 Les travaux de K. Etemad, D.S. Doermann et R. Chellappa Texte Dessin Fond Laboratoire L3i – Université de La Rochelle Page 70
  • 71.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture 2 Les travaux de M. Acharyya et M.K. Kundu Laboratoire L3i – Université de La Rochelle Page 71
  • 72.
    K.MOUATS - Segmentationd’Images de Documents Anciens par Approche Texture Laboratoire L3i – Université de La Rochelle Page 72