Pendant la dernière décennie, plusieurs systèmes d’indexation et de recherche d’images par le contenu visuel ont émergé afin de combler les limites de l’indexation textuelle des images. Dans ce travail, nous proposons une approche d’indexation et de recherche d’images pulmonaires tomodensitométriques (TDM) par le contenu visuel. Dans cette approche, nous modélisons le contenu visuel des images pulmonaires par un graphe (arbre) attribué. Ce dernier nous permet de bien représenter les différents aspects de similarité sur lesquels peut porter les requêtes des utilisateurs. En outre, nous nous intéressons à l'adaptation des descripteurs de texture aux images pulmonaires. En plus, nous utilisons une technique de réduction de la dimension des vecteurs de descripteurs dans le but d’accélérer la phase de la recherche.
Une Approche d’Indexation et de Recherche d’Images Pulmonaires TDM par le Contenu Visuel
1. UNIVERSITE DE MONASTIR
FACULTE DES SCIENCES DE MONASTIR
Département des sciences de l’informatique
Unité de recherche PRINCE
Mémoire pour l'obtention du
MASTER EN INFORMATIQUE
Une Approche d’Indexation et de Recherche
d’Images Pulmonaires TDM par le Contenu Visuel
Présenté par
Mohamed Belhassen
Soutenu le 14/01/2008 devant le jury composé de :
Président : Habib Youssef , Professeur à l'ISITcom
Membre : Mohamed Nazih Omri, Maitre Assistant à la FSM
Co-encadreur : Béchir El Ayeb, Professeur à la FSM
Co-encadreur : Karim Kalti, Maitre Assistant à la FSM
2. Mon père,
Tu m’as offert, le long de ta vie, le modèle idéal que je désirais
atteindre.
Ma mère,
C’est grâce à ta sagesse que j’ai pu tracer mon chemin dans cette vie.
Mes sœurs et mon frère,
Merci pour vos encouragements et votre aide incontournable.
Ma fiancée,
Merci pour le soutient moral que tu m'as fourni.
Mes meilleurs amis,
Merci pour les harmonieuses conditions de travail que vous m’avez
prodigués.
C’est le moment où je devrais vous offrir le fruit de mon travail,
signe d’amour et de respect.
Mohamed
3. Remerciements
Je remercie sincèrement Monsieur Habib Youssef, Professeur à l'Institut Supérieur
d'Informatique et des Technologies de Communication de Sousse, d'avoir accepté d'être le
président de jury.
Je remercie également Monsieur Mohamed Nazih Omri, Maitre Assistant à la Faculté des
Sciences de Monastir, d'avoir accepté d'être un membre de jury.
Je tiens à remercier spécialement Monsieur Béchir El Ayeb, Professeur à la Faculté des
Sciences de Monastir, d'avoir accepté d'être mon co-encadreur de mémoire ainsi que pour
ses conseils et les discussions scientifiques qui ont amélioré la qualité de ce travail.
Je suis tout particulièrement reconnaissant à mon co-encadreur de mémoire Monsieur
Karim Kalti, Maître Assistant à la Faculté des Sciences de Monastir, pour toute l’aide
précieuse et les nombreux conseils qu’il m’a prodigués tout au long de ce travail. Je
voudrais également mentionner son encouragement lors des moments les plus difficiles…
Je remercie pareillement tous les enseignants qui ont participé à ma formation scientifique
durant mes études à la Faculté des Sciences de Monastir. Je cite particulièrement Monsieur
Mohamed Nazih Omri et Monsieur Lotfi Ben Romdhane avec lesquels j'ai eu l'occasion de
discuter quelques points de mon travail.
4. Résumé :
Pendant la dernière décennie, plusieurs systèmes d’indexation et de recherche
d’images par le contenu visuel ont émergé afin de combler les limites de
l’indexation textuelle des images. Dans ce travail, nous proposons une approche
d’indexation et de recherche d’images pulmonaires tomodensitométriques (TDM)
par le contenu visuel. Dans cette approche, nous modélisons le contenu visuel des
images pulmonaires par un graphe (arbre) attribué. Ce dernier nous permet de
bien représenter les différents aspects de similarité sur lesquels peut porter les
requêtes des utilisateurs. En outre, nous nous intéressons à l'adaptation des
descripteurs de texture aux images pulmonaires. En plus, nous utilisons une
technique de réduction de la dimension des vecteurs de descripteurs dans le but
d’accélérer la phase de la recherche.
Mots-clés :
Indexation d'images, segmentation d'images, graphe attribué, appariement de
graphes, descripteurs physiques, évaluation des descripteurs de texture, analyse
en composantes principales, courbes de « Précision et Rappel », images
pulmonaires tomodensitométriques.
Abstract :
During the last decade, several content-based image retrieval systems (CBIR) have
emerged to fill the limits of the textual image retrieval. In this work, we propose a
CBIR approach specific to lung computed tomography images. In this approach,
we model the visual content of pulmonary images by an attributed graph (tree).
This latter enable us to well represent the different kind of similarity view on
which the user query can be about. Besides, we are interested in the adaptation of
texture descriptors to pulmonary CT images. In addition, we use a dimension
reduction technique of features vectors in order to accelerate the speed of retrieval
phase.
Keywords :
Content based image retrieval, image segmentation, attributed graph, graph
matching, visual features, assessment of texture descriptors, principal component
analysis, Precision Recall graph, lung computed tomography images.
5. Table des matières
Introduction Générale .................................................................................... 1
CHAPITRE 1 : État de l’art .............................................................................. 4
1.1. Introduction ......................................................................................................... 4
1.2. Descripteurs physiques du contenu visuel d’images ........................................... 5
1.2.1. Descripteurs de texture .................................................................................................... 6
1.2.2. Descripteurs de forme .................................................................................................... 20
1.3. Classification des systèmes de recherche d’images ........................................... 23
1.3.1. Les différents paradigmes de représentation d’images .................................................... 23
1.3.2. Exemples de systèmes de recherche d’images ................................................................. 25
1.3.3. Les systèmes de recherche d’images en médecine ........................................................... 29
1.4. Conclusion .......................................................................................................... 33
CHAPITRE 2 : Proposition d’un modèle d’indexation et d'une approche de
recherche d’images pulmonaires TDM ................................. 34
2.1. Introduction ....................................................................................................... 34
2.2. Proposition d’une approche d’indexation spécifique aux images pulmonaires
TDM................................................................................................................... 35
2.2.1. Proposition d’une approche de segmentation des images pulmonaires TDM ................... 35
2.2.2. Modélisation des images pulmonaires TDM par un graphe ............................................. 46
2.3. Modélisation de la recherche d’images pulmonaires TDM ................................ 48
2.3.1. Proposition d’une approche d’appariement de graphes d’images pulmonaires ............... 48
2.3.2. Illustration de l’approche proposée d’appariement de graphes d’images pulmonaires TDM
...................................................................................................................................... 51
2.3.3. Proposition d’une définition de similarité entre les images pulmonaires TDM ................. 54
2.4. Conclusion .......................................................................................................... 60
i
6. CHAPITRE 3 : Adaptation des descripteurs aux images pulmonaires et
réduction de leur dimension ................................................. 62
3.1. Introduction ....................................................................................................... 62
3.2. Evaluation de performances des descripteurs de texture ................................. 63
3.2.1. « Pertinence Système » contre «Pertinence Utilisateur » ................................................. 63
3.2.2. Approche d’évaluation des descripteurs .......................................................................... 64
3.3. Présentation de la base d’images de Test de descripteurs ................................ 67
3.4. Mesure de performance des descripteurs ......................................................... 68
3.4.1. Résultats expérimentaux d’évaluation de performance des descripteurs ......................... 70
3.4.2. Synthèse des résultats de l’évaluation des performances des descripteurs ...................... 80
3.5. Réduction de la dimension des descripteurs ..................................................... 82
3.5.1. Nécessité de la réduction de dimensions ......................................................................... 82
3.5.2. Stratégie de réduction de dimensions ............................................................................. 82
3.5.3 L’analyse en composantes principales (ACP).................................................................... 83
3.6 Conclusion........................................................................................................... 96
CHAPITRE 4 : Implémentation de l’approche d’indexation et de recherche
d’images pulmonaires TDM par le contenu visuel et évaluation
des résultats........................................................................... 98
4.1 Introduction ........................................................................................................ 98
4.2. Architecture générale du système de recherche d’images pulmonaires par le
contenu ............................................................................................................. 99
4.2.1. Module d’extraction des régions d’intérêt ..................................................................... 102
4.2.2. Module de gestion des régions d’intérêt ........................................................................ 102
4.2.3. Module de recherche d’images similaires ...................................................................... 104
4.3. Environnement matériel et logiciel ................................................................. 106
4.4. Evaluation des performances du SRIPCV ......................................................... 107
4.5. Conclusion ........................................................................................................ 122
Conclusion et Perspectives ......................................................................... 123
ii
7. Liste des figures
Figure 1: Deux images différentes ayant le même histogramme .............................................. 8
Figure 2: Exemples des filtres de Gabor ...............................................................................16
Figure 3: Exemple de convolution des filtres de Gabor sur une image .....................................17
Figure 4: Rectangle minimal englobant ...............................................................................21
Figure 5: Image TDM pulmonaire .......................................................................................37
Figure 6: Modèle général d'images pulmonaires ..................................................................37
Figure 7: Diagramme de l'approche de segmentation d'images pulmonaires TDM...................38
Figure 8 : Histogramme d'une image TDM de poumons, (a): image TDM, (b) : histogramme
correspondant..................................................................................................................39
Figure 9: (a) histogramme original, (b) histogramme après l'élimination des pixels noirs...........40
Figure 10: Le seuil optimal obtenue en utilisant la méthode du seuillage itératif ......................40
Figure 11: l'image binarisée résultante de l'opération du seuillage .........................................40
Figure 12: image binaire ....................................................................................................41
Figure 13: changement de valeur de l’étiquette à chaque transition "extérieur-intérieur".........41
Figure 16: identification de chaque poumon avec une couleur différente................................42
Figure 14: Détermination des couleurs voisines : (1,4), (2,5), (3,6), (4,7), (6,8), (7,9) ................41
Figure 15: Affectation d'une étiquette unique à chaque composante connexe.........................41
Figure 17: Elimination des petites régions noires .................................................................43
Figure 18: Elimination des petites régions blanches ..............................................................43
Figure 19: Elimination des régions noires touchant le bord de l'image ....................................43
Figure 20: Approximation d'un polygone par une courbe B-Spline ..........................................45
Figure 21: les bords du poumon avant le lissage par B-spline .................................................44
Figure 22: Les bords du poumon après le lissage par B-Spline ................................................45
Figure 23: Modélisation d'images TDM pulmonaires par un graphe attribué : (a) image TDM
pulmonaire, (b) image segmentée, (c) modèle de poumons, (d) régions de l’image pulmonaire
correspondant aux nœuds du graphe ..................................................................................48
Figure 24: les régions d'intérêt des deux images pulmonaires à apparier ................................52
Figure 25: (a) appariement des RI du poumon droit de la BDD aux RI du poumon droit de la
requête, (b) appariement de la RI du poumon gauche de la requête aux RI du poumon droit de la
base ................................................................................................................................52
Figure 26: Arbres d'appariements possibles des RP de l'image requête avec les RP de l'image de
la BDD : (a) arbre d’appariement des deux poumons droits, (b) arbre d’appariements des deux
poumons gauches .............................................................................................................53
Figure 27: Intérêt de la distribution spatiale des RP dans la mesure de la similarité visuelle, (a) :
Poumon droit (PD) de l’image requête, (b) et (c) : PD de deux images de la BDD ......................55
Figure 28: Translation du repère vers les centres de gravité respectifs de chaque poumon .......56
Figure 29: Différence de la taille des régions pulmonaires, L1≠ L2 ..........................................56
Figure 30: Importance de la forme dans la mesure de la similarité visuelle .............................57
Figure 31: Illustration de la nécessité de prise en compte de la distribution spatiale et la texture
des régions d’intérêt non appariées ....................................................................................59
iii
8. Figure 32: Réduction importante des dimensions des descripteurs après l'utilisation de l'ACP ...94
Figure 33: Amélioration de la performance des descripteurs (selon la mesure de DTC) après la
réduction des dimensions des descripteurs en utilisant l'ACP .................................................95
Figure 34: Distribution des différentes classes de texture selon les deux premières composantes
principales retenues du vecteur de descripteurs total de texture ...........................................95
Figure 35 : Répartition des modules du SRIPCV entre les deux phases d'indexation et de
recherche ........................................................................................................................99
Figure 36: Architecture générale du système de recherche d'images pulmonaires TDM ..........100
Figure 37: Schéma général du premier module du SRIPCV ...................................................102
Figure 38: Schéma général du deuxième module du SRIPCV ................................................103
Figure 39: Interface de formulation de la requête du système SRIPC ....................................105
Figure 40: La distribution des RI de la BDD selon les deux premières CP de vecteur de
descripteurs global .........................................................................................................107
Figure 41: Illustration des critères de Précision et de Rappel................................................108
Figure 42: Les courbes de « Précision » en fonction du « Rappel » des différentes méthodes
d'appariement : (A) global/local, (B) local et (C) global ........................................................109
Figure 43: Performance des différentes méthodes d'appariement .......................................112
Figure 44: Image requête.................................................................................................113
Figure 45: Le résultat de la recherche lorsqu’on utilise la méthode d'appariement global et les
descripteurs de texture de longueur de plages ...................................................................115
Figure 46: Le résultat de la recherche lorsque nous utilisons la méthode d'appariement local et
les descripteurs de cooccurrence ......................................................................................116
Figure 47: Le résultat de la recherche en utilisant la méthode d'appariement global/local et le
vecteur de descripteurs global .........................................................................................117
Figure 48: Le résultat de la recherche lorsqu’on utilise la méthode d'appariement global/local et
le vecteur de descripteurs global avec prise en compte de la forme des RI ............................118
Figure 49: Le résultat de la recherche lorsqu'on utilise la méthode d'appariement global/local et
le vecteur de descripteurs global avec prise en compte de la texture et la distribution spatiale des
RP non appariées ............................................................................................................119
Figure 50: Le résultat de la recherche lorsque nous utilisons la méthode d'appariement
global/local et le vecteur de descripteur global avec prise en compte de la distribution spatiale
des RP appariées ............................................................................................................120
Figure 51: Le résultat de la recherche lorsqu'on utilise la méthode d'appariement global/local et
le vecteur de descripteurs global avec autorisation de faire des appariements croisés ............121
iv
9. Liste des tableaux
Tableau 1: Les classes de texture de la BDD de test ..............................................................69
Tableau 2: Evaluation de performance de l’histogramme dans le cas d’utilisation de la distance
euclidienne ......................................................................................................................74
Tableau 3: Evaluation de performance de l’histogramme dans le cas d’utilisation de la mesure de
similarité par intersection d’histogrammes ..........................................................................74
Tableau 4: Evaluation de performance des descripteurs de texture de premier ordre ..............74
Tableau 5: Evaluation de performance de « Color autocorrelogram » dans le cas d’utilisation de
la distance euclidienne ......................................................................................................75
Tableau 6: Evaluation de performance de « Color autocorrelogram » dans le cas d’utilisation de
la mesure de similarité par intersection d’histogrammes .......................................................76
Tableau 7: Evaluation de performance des descripteurs de cooccurrence ...............................77
Tableau 8: Evaluation de performance des descripteurs de longueurs de plages ......................78
Tableau 9: Evaluation de performance des descripteurs de Gabor .........................................78
Tableau 10: Evaluation de performance des descripteurs de différence de niveaux de gris .......79
Tableau 11: Evaluation des performances de tous les descripteurs de texture utilisés ensemble
.......................................................................................................................................79
Tableau 12: Les meilleures performances des différents descripteurs de texture .....................81
Tableau 13: Les meilleures performances du descripteur d’histogramme après la projection sur
les CP ..............................................................................................................................87
Tableau 14: Détails d’évaluation de performance du descripteur d’histogramme calculé pour 32
niveaux de gris .................................................................................................................87
Tableau 15: Détails d’évaluation de la performance des descripteurs de premier ordre ............87
Tableau 16: Les meilleures performances du descripteur du « color autocorrelogram » après la
projection sur les CP .........................................................................................................88
Tableau 17: Détails d’évaluation de performances des descripteurs du « color autocorrelogram »
calculé pour NNG=32 et DL1=5 ...........................................................................................89
Tableau 18: Les meilleures performances des descripteurs de cooccurrence après la projection
sur les CP .........................................................................................................................89
Tableau 19: Détails de l’évaluation de la performance des descripteurs de cooccurrence calculés
pour un déplacement=1 et un angle=0 ................................................................................90
Tableau 20: Les meilleures performances des descripteurs de longueurs de plages après la
projection sur les CP .........................................................................................................90
Tableau 21: Détails de l’évaluation de la performance des descripteurs de longueurs de plages
calculés pour NNG=128 avec considération des deux directions (horizontale et verticale) .........90
Tableau 22: Les meilleures performances des descripteurs de différence de niveaux de gris après
la projection sur les CP ......................................................................................................91
Tableau 23: Détails d’évaluation de la performance des descripteurs de différence de niveaux de
gris calculés pour dx=2 et dy=3 ..........................................................................................91
Tableau 24: Détails de l’évaluation des performances des descripteurs de Gabor ....................92
Tableau 25: Détails d’évaluation de la performance de tous les descripteurs...........................93
v
10. Tableau 26: Les meilleures performances des différents descripteurs de texture après la
réduction de dimensions en utilisant l’ACP ..........................................................................94
Tableau 27: Illustration des résultats de l’évaluation de la performance des descripteurs de
forme ..............................................................................................................................96
Tableau 28: Les temps moyens des différentes étapes de la recherche ................................113
vi
11. Liste des abréviations
ACP: analyse en composantes principales
BDD: base de données
CA: coût d'appariement
CAD: « computer-aided diagnosis »
CBIR: « content-Based Image Retrieval »
CC: condensation de classes
CDSRIA: coût de la distribution spatiale des régions d’intérêt appariées
CDSRPNA: coût de la distribution spatiale des régions d’intérêt non appariées
CFRIA: coût de la forme des régions d’intérêt appariées
CIA: coût initial d'appariement
CP: composante principale
CTRPNA: coût de texture des régions pathologiques non appariées
CT: « computed-tomography »
CTA: coût total d’appariement
DC: détachement de classes
DTC: détachement total des classes
EPPC: élément plus proche du centre
HNG: histogramme de niveaux de gris
HRCT: « high-resolution computed tomography »
IDF: « inverse document frequency »
IQG: indicateur de qualité global
NG: niveau de gris
QBE: « query by exemple »
RI : région d'intérêt
RP: région pathologique
PACS: « picture archiving and communication systems »
PNA: l’ensemble des paires des nœuds appariés
SFS: « selection forward search »
SRIm: système de recherche d'images
SRIPCV: système de recherche d'images pulmonaires TDM par le contenu visuel
TDM: tomodensitométrie ou tomographie axiale calculée
URL: « Uniform Resource Locator »
vii
12. Introduction Générale
Pendant la dernière décennie, nous avons vécu un accroissement
exponentiel de documents multimédia. Ceci est dû, essentiellement, à la
convivialité de ces derniers par rapport aux documents textuels. Particulièrement,
l’image a envahi tous les supports d’informations grâce à son pouvoir expressif et
la facilité de son transfert via les réseaux informatiques. Il en résulte une
expansion continue des bases de données (BDD) d’images. De ce fait, l’accès aux
informations inhérentes à ces dernières devient de plus en plus difficile et
coûteux.
Les premières solutions adoptées pour la recherche d’images sont inspirées
des méthodes de recherche dans les documents textuels. En fait, un progrès
acceptable a été réalisé dans la recherche de ce type de documents et les
chercheurs ont essayé d’adapter ces mêmes méthodes aux documents visuels.
Dans ces systèmes de recherche d’image, l’image est indexée par un ensemble
d’annotations textuelles qui vont décrire son contenu visuel. De là, il suffit
d’utiliser un moteur de recherche textuel pour retrouver les documents
demandés. Cette solution se heurte à plusieurs problèmes comme la subjectivité
d’interprétation du contenu visuel, les coûts élevés d’annotation manuelle, etc.
Une autre solution au problème de recherche d’images consiste à effectuer une
1
13. Introduction générale
navigation libre (« free browsing ») dans la BDD jusqu’à ce qu’on trouve l’image
candidate. Cette solution ne peut être appliquée que pour une recherche
occasionnelle et pour des BDD de petite taille. En plus, elle n’est pas adéquate
pour des applications professionnelles.
Pour combler l’inefficacité et les limites des méthodes traditionnelles de la
recherche d’images, les chercheurs ont orienté leurs travaux vers l’exploration
des voies possibles de l’utilisation d’une description inhérente au contenu visuel
de l’image. Cette approche de description d’images en utilisant son contenu
visuel est connue sous le nom de la recherche d’images par le contenu « Content-
Based Image Retrieval ou CBIR ». Dans ce paradigme, l’image est décrite par un
ensemble de descripteurs numériques qui essayent de caractériser des aspects
différents du contenu visuel comme la texture, la forme et les propriétés
géométriques des objets constituant l’image. L’utilisation de ces descripteurs a
pour but de réduire la quantité énorme d’informations, portée par le contenu
visuel, à une signature numérique de petite taille. En effet, les systèmes de
recherche d’images actuels ne peuvent pas effectuer la recherche en exploitant
directement le contenu brut des images. Donc la recherche d’images similaires se
réduit à une simple recherche d’images présentant des descripteurs « similaires ».
La recherche d’images par le contenu concerne tous les domaines où l’image
constitue un support essentiel d’informations et plus particulièrement, la
radiologie. En fait, dans les hôpitaux sont produites, quotidiennement, des
milliers d’images qui sont sauvegardées dans leurs archives. L’exploitation de ces
données sera fonction des techniques, d’archivages et de recherche, mises en
place.
Dans ce travail nous nous intéressons à développer un Système de
Recherche d’Images Pulmonaires par le Contenu Visuel (SRIPCV) qui permet aux
utilisateurs débutants et spécialistes de rechercher rapidement des images
pulmonaires tomodensitométriques (TDM) similaires à une éventuelle image
requête. Donc, notre système va cibler le type d’interrogations par l’exemple
« Query By Example ».
Le présent mémoire est organisé comme suit :
Dans le premier chapitre, nous faisons un tour d’horizon du domaine de la
recherche d’images tout en détaillant les différentes notions rencontrées dans la
littérature. Ensuite, nous explorons quelques systèmes qui représentent des cas
types des différentes approches de recherche d’images. En dernier lieu, nous
montrons l’utilité de l’approche orientée contenu dans le domaine de l’imagerie
médicale, tout en expliquant le fonctionnement de ce type de systèmes en prenant
des exemples de la littérature.
2
14. Introduction générale
Le deuxième chapitre est consacré, en premier lieu, à la présentation de notre
approche de segmentation d’images pulmonaires ainsi que notre modélisation
d’images pulmonaires sous forme de graphe attribué. En second lieu, nous
passons à l’explication de l’approche d’appariement de graphes que nous
proposons. Enfin, nous montrons la stratégie de calcul de similarité que nous
avons conçu spécialement pour les images pulmonaires.
Notre système étant un système dédié aux images pulmonaires, nous
consacrons un grand effort pour adapter les différents descripteurs de texture
utilisés aux images indexées. Dans le quatrième chapitre, nous présentons la
méthode d’évaluation des descripteurs de texture avant et après la réduction des
dimensions de vecteurs de descripteurs en utilisant l’analyse en composantes
principales. Cette méthode d’évaluation est inspirée du travail de J.F Rodigues
[1].
Dans le dernier chapitre, nous détaillons la phase d’implémentation et
d’intégration des différents modules de notre SRIPC tout en évaluant ses
performances et sa capacité à satisfaire la demande d’utilisateurs.
Dans un ultime volet, nous récapitulons les résultats de ce travail et nous
proposons quelques perspectives potentielles.
3
15. Chapitre 1
État de l’art
Dans ce chapitre, nous présentons les différentes
notions rencontrées dans la littérature d'indexation et de
recherche d’images. Ensuite, nous illustrons chaque type
d'approche de recherche d’images par un système type. En
dernier lieu, nous montrons l’importance de la recherche
d’images par le contenu visuel dans les bases de données
d’images médicales.
1.1. Introduction :
L'indexation et la recherche d’images, dans une BDD, est un concept,
relativement, nouveau. Les premières stratégies adoptées tirent profit des
techniques efficaces développées pour la recherche des données textuelles.
Malheureusement, ces techniques ont montré leur incapacité de satisfaire le
besoin d’informations portant sur le contenu effectif des images. Pour cette
raison, d’autres techniques d'indexation ont été développées. Ces techniques
extraient, directement, l’information décrivant l’image à partir de son contenu
visuel. D’autres techniques, plus développées, essayent de joindre à ces données
brutes une certaine sémantique qui sera utile pour répondre aux requêtes de haut
niveau.
4
16. Chapitre 1 Etat de l’art
Dans cet état de l’art, nous nous occupons, en premier lieu, des descripteurs
physiques du contenu visuel d’images. En second lieu, nous présentons les
différents types de systèmes d'indexation et de recherche d’images que nous
classifions selon le paradigme de représentation d’images adopté. A la dernière
partie de ce chapitre, nous montrons l’importance de la recherche d’images par le
contenu visuel, dans le domaine médical, plus précisément, dans la recherche
d’images similaires à une image requête, dans une base d’images
tomodensitométriques pulmonaires.
1.2. Descripteurs physiques du contenu visuel d’images :
Le contenu de l’image désigne à la fois son contenu sémantique et son
contenu visuel [2]. Le contenu sémantique est souvent associé à l’image
manuellement ou automatiquement, grâce aux techniques de reconnaissance de
formes. De nos jours, l’utilisation du contenu sémantique dans la description
d’images rencontre plusieurs problèmes. D’une part, la méthode manuelle est
limitée par la subjectivité inhérente de l’interprétation de l’image. En fait, la
même image peut être interprétée différemment par deux individus différents. En
plus, l’annotation manuelle augmentera le coût du système et dans plusieurs
contextes, comme celui de l’Internet, cette méthode est inconcevable. D’autre
part, la précision des méthodes automatiques sera fonction de la précision des
méthodes de reconnaissance de formes et les techniques d’apprentissage
adoptées dont les performances ne sont pas garanties. De là, on peut affirmer que
l’utilisation du contenu visuel pour la description de l’image donne une
représentation plus objective. Cependant, on perdra le coté sémantique qui est
nécessaire pour répondre aux requêtes textuelles. Ce problème est connu par le
fossé sémantique « semantic gap ».
Le contenu visuel de l’image est très riche en informations qui permettent
de bien caractériser l’objet photographié. Etant donné le nombre important de ces
informations, les systèmes informatiques ne peuvent pas utiliser directement le
contenu brut de l’image pour décrire, comparer ou identifier les objets qu’elle
contient. Donc, il est nécessaire d’extraire une représentation compacte et
discriminante qui permet de décrire les principaux aspects représentés par
l’image. Il s’agit d’un ensemble de descripteurs de forme, de couleurs et de
texture qui seront sauvegardés dans une BDD. Les recherches ultérieures, seront
faites selon cette représentation compacte et non pas selon le contenu brut des
images [3].
Un bon descripteur doit être invariant aux diverses variations des
conditions d’acquisition d’images (variation de la luminance de la scène, ombre,
etc.) et même aux bruits introduits par le système d’acquisition. Cependant, un
descripteur visuel présentant un grand degré d’invariance peut perdre son
pouvoir discriminant.
5
17. Chapitre 1 Etat de l’art
Un descripteur visuel peut être soit local, soit global. Un descripteur global
utilise les caractéristiques visuelles de toute l’image, tandis qu’un descripteur
local utilise les caractéristiques des régions ou des objets pour décrire le contenu
de l’image. Comme il a été mentionné dans [4], la caractérisation globale des
images n’offre pas toujours des résultats satisfaisants, en particulier, dans le
domaine médical, où les caractéristiques locales sont importantes.
Pour obtenir les caractéristiques visuelles locales, on divise l’image en
plusieurs parties. La méthode la plus simple, est la subdivision de l’image en
plusieurs blocs identiques en forme et en taille. Par exemple, on utilise une
représentation hiérarchique par des arbres quaternaires [5]. Cette méthode ne
permet pas d’avoir des régions significatives, mais elle permet de représenter les
caractéristiques globales dans une résolution plus fine. Une autre méthode, plus
performante, consiste à diviser l’image en plusieurs régions, selon un certain
critère, par un algorithme de segmentation. Une approche encore plus
performante, consiste à diviser l’image en un ensemble d’objets sémantiquement
significatifs. Cette dernière approche se trouve limitée par les difficultés actuelles
rencontrées par la segmentation automatique d’images.
Dans le cas de bases d’images pulmonaires, les pathologies qui affectent les
poumons peuvent être identifiées par le changement de la texture des régions
infectées [6]. Pour cette raison, nous nous concentrons, essentiellement, sur les
différents descripteurs de textures rencontrés dans la littérature pour caractériser
au mieux les régions pathologiques. Nous étendons notre étude aux descripteurs
de forme pour permettre à notre système la prise en compte des paramètres de
forme, pendant la recherche.
1.2.1. Descripteurs de texture :
Malgré qu’il n’existe pas une définition formelle de la texture [7], nous
définissons, ici, la texture comme étant une surface qui contient des variations de
l’intensité de l’image qui forment des primitives répétitives. Ces primitives
peuvent être vues comme résultat des propriétés physiques de la surface, comme
la rugosité et/ou des différences de réflexion de la lumière. Cependant, en
imagerie médicale et plus précisément dans le cas d’images TDM sujettes de
notre étude, la texture résulte du changement des propriétés des rayons-X lors de
leur pénétration dans le corps humain et selon les caractéristiques du milieu
qu’ils traversent [8]. Cette différence d’absorption se manifeste par une texture
particulière pour chaque région ayant une distribution de densité déterminée.
D’après Alexandre Barré [9], les principales informations dans
l'interprétation du message visuel pour un observateur humain sont les contours
et/ou les textures. En effet, les contours permettent de déterminer la forme des
régions sans tenir compte de leur contenu colorimétrique qui peut apporter des
informations supplémentaires nécessaires à l’identification et la caractérisation de
6
18. Chapitre 1 Etat de l’art
la région étudiée. Par contre, la texture est utilisée pour caractériser un aspect
homogène de la surface d'un objet. L’aspect de la texture peut être décrit
qualitativement à l'aide des adjectifs comme: grossière, fine, lisse, tachetée,
granuleuse, marbrée, régulière ou irrégulière. Cette description informelle de
texture est inexploitable dans le domaine de la vision par ordinateur. Ceci nous
mène à décrire la texture en utilisant des descripteurs texturaux issus
essentiellement des méthodes suivantes de représentation de la texture:
Les méthodes structurelles : La texture est décrite en identifiant les primitives
structurelles appelées «texels » et leurs règles de placement. Ces méthodes
ont montré leur efficacité lorsqu’elles sont appliquées à des textures
régulières [2], généralement de synthèse.
Les méthodes statistiques : Ces méthodes caractérisent la texture par la
distribution statistique de l’intensité des pixels de l’image. Elles incluent
les statistiques de premier ordre qui peuvent être calculées à partir de
l’histogramme (moyenne, variance, écart-type, etc.) et les statistiques de
second ordre (matrice de cooccurrence, corrélogramme de couleurs,
méthode de différences de niveaux de gris, etc.). L’ordre détermine le
nombre de pixels mis en jeu lors de la caractérisation de la distribution
statistique des primitives de la texture [7]. En plus, des méthodes de
premier et second ordre, nous pouvons citer les attributs issus de la
méthode de longueurs de plages (« Run Lungth Encoding ») et les
descripteurs basés sur les filtres de Gabor [10]. Il est nécessaire de noter
que la méthode Gaborienne n’est pas en réalité une méthode statistique
puisqu’il s’agit d’une méthode de filtrage de l’image en utilisant un filtre
construit en utilisant une fonction sinusoïdale à support gaussien. Mais, le
fait que nous allons extraire des attributs statistiques à partir de l’image
filtrée nous permet de classer cette méthode fréquentielle dans la classe des
méthodes statistiques. Ces dernières ont montré leur efficacité de bien
représenter les textures aléatoires. C’est le cas des images médicales où
l'analyse des textures est utilisée pour la caractérisation tissulaire.
Dans notre étude bibliographique, nous nous limitons à présenter les
méthodes appréciées par les concepteurs de systèmes d'indexation et de
recherche d’images par le contenu afin de déterminer les descripteurs pertinents
pour notre application. Néanmoins, nous devons signaler qu’il existe une vaste
diversité de méthodes de description de texture (champs aléatoires de Markov,
dimension fractale, etc.) [7].
Dans ce qui suit, nous présentons les principales méthodes statistiques de
description des textures aléatoires.
7
19. Chapitre 1 Etat de l’art
1.2.1.1. Descripteurs de premier ordre :
Nous rappelons que ces descripteurs sont dits de premier ordre, car ils sont
extraits à partir des pixels de l’image qui sont considérés d’une manière
individuelle. Malgré la faiblesse de leur pouvoir discriminant, les descripteurs de
premier ordre sont largement utilisés dans les systèmes de recherche d’images
par le contenu comme un premier filtre permettant d’éliminer le plutôt que
possible les « faux candidats ». Dans ce qui suit, nous décrivons les principaux
descripteurs de premier ordre.
L’histogramme de niveaux de gris :
L’histogramme de niveaux de gris (HNG) montre les taux d’apparition des
différentes intensités dans une image dont la dynamique est représentée sur un
ensemble de niveaux de gris. L’HNG est robuste aux translations et aux rotations
autour de l’axe de vision. Mais, il varie un peu avec l’agrandissement et l’angle
de vue. La valeur de chaque composante (« Bin »), de cet histogramme, qui
correspond à un ensemble de niveaux de gris, indique le pourcentage que
représente cet ensemble de niveaux de gris par rapport à la totalité des niveaux
de gris de l’image. Autant qu’il a de composantes, autant qu’il a une force
discriminante. Toutefois, un histogramme avec un grand nombre de composantes
n’augmente pas seulement le coût de calcul mais il sera aussi inapproprié pour
construire un index efficace pour la BDD. En fait, pour construire un
histogramme exploitable, on essaye de réduire la taille de l’histogramme. On
utilise l’une des méthodes de regroupement (« clustering methods ») pour
déterminer les K meilleures couleurs dans l’espace de couleurs et l’ensemble
d’images données. Une telle réduction ne dégrade pas la performance de
comparaison des histogrammes, elle peut même l’accroître, puisqu’un grand
nombre de composantes comme nous avons précisé précédemment, sera sensible
aux bruits. Lorsque la BDD contient un grand nombre d’images, l’histogramme
perd son pouvoir discriminant. En plus, l’histogramme ne prend pas en
considération la disposition spatiale des pixels. En effet, deux images totalement
différentes peuvent avoir des histogrammes identiques comme le montre la Figure
1. Plusieurs améliorations ont été proposées pour incorporer les informations
spatiales. La plus simple consiste à diviser l’image en plusieurs régions. Par la
suite, on calcule l’histogramme pour toutes les régions.
Image 1 Histogramme Image 2
Figure 1: Deux images différentes ayant le même histogramme
8
20. Chapitre 1 Etat de l’art
Malgré l’utilisation de l’histogramme comme méthode de caractérisation de
la texture dans plusieurs systèmes de recherche d’images comme dans QBIC [11]
et dans [12]. Cette utilisation reste limitée par le coût élevé en temps de calcul de
similarité, comme celle d’intersection d’histogrammes. Pour faire face à ces
problèmes, d’autres approches essayent de décrire l’information portée par
l’histogramme par un nombre réduit de paramètres qui sont les moments de
niveaux de gris.
Les moments de niveaux de gris :
Les moments de niveaux de gris sont utilisés, dans plusieurs systèmes de
recherche d’images comme QBIC [11]. Dans ce qui suit, nous citons les plus
importants :
o La moyenne :
Il s’agit de calculer la valeur moyenne (Moy) des niveaux de gris de
tous les pixels de l’image. Ce paramètre représente l’emplacement de
l’histogramme sur l’échelle des niveaux de gris.
1
Moy
N
I (i, j)
( i , j )R
(1.1)
avec :
I(i,j) représente le niveau de gris du pixel de coordonnées (i,j ).
R représente l’image ou la région d’intérêt (RI) étudiée.
N est un facteur de normalisation correspondant au nombre total des
pixels de R.
o La variance :
La variance (Var) permet de mesurer la répartition des niveaux de gris
autour de la valeur moyenne. Plus la variance est élevée, plus l’écart entre les
différents niveaux de gris et leur valeur moyenne est grand.
1
Var
N
( I (i, j) Moy)
( i , j )R
2
(1.2)
o L’écart Type :
C’est une mesure similaire à la variance. Ainsi, l’écart-type (������) est une
mesure de la dispersion d’un ensemble de données. D’un point de vue
qualitatif, l’écart-type caractérise la largeur d’une distribution de données en
mesurant la dispersion autour de la moyenne.
1
Var
N
( I (i, j ) Moy)
( i , j )R
2
(1.3)
9
21. Chapitre 1 Etat de l’art
o La Dissymétrie « Skewness » :
Le « skewness » (������������������������) correspond au moment d’ordre trois. Il mesure la
déviation de la distribution des niveaux de gris par rapport à une distribution
symétrique.
m(i, j ) Moy
3
1
Skew I
N (i , j )
(1.4)
Pour une déviation par les valeurs élevées, le « skewness » est positif,
alors que pour une déviation vers les valeurs basses, il est négatif.
L’utilisation du « skewness» améliore, généralement, la performance de
la recherche par rapport à l’utilisation des moments de premier et de
deuxième ordre (moyenne, variance, etc.), alors que l’utilisation du
« skewness » rend la représentation des caractéristiques plus sensible aux
changements de la scène. Ceci peut abaisser les performances du système de
recherche d’images.
o Le « Kurtosis » :
Il correspond au moment de quatrième ordre et caractérise la forme du
sommet de l’histogramme : plus le kurtosis (������������������������) est faible, plus le sommet de
l'histogramme est arrondi.
m(i, j ) Moy
4
1
Kurt I
N (i , j )
(1.5)
Les moments de niveaux de gris forment une représentation compacte
du contenu de l’image. En fait, ils ont un pouvoir discriminant plus ou moins
faible. Habituellement, on les utilise pour effectuer un premier filtrage de
l’espace de recherche. Par la suite, on applique d’autres caractéristiques de
couleurs plus sophistiquées.
1.2.1.2. Descripteurs de second ordre :
Dans les méthodes de premier ordre d’analyse de la texture, qui se limitent à
une simple description de l’histogramme de niveaux de gris, on n’a pas
d’informations sur la disposition spatiale des pixels les uns par rapport aux
autres. Pour tenir compte de ces relations de localisation entre les pixels,
l’utilisation des descripteurs d’ordre supérieurs est nécessaire. On rappelle que
l’ordre d’un descripteur est donné par le nombre de pixels mis en jeu dans
l’extraction des primitives de texture. Dans ce qui suit figure une description des
descripteurs les plus importants.
Le « Color correlogram » :
Le « color correlogram » [2] a été proposé pour caractériser non seulement la
distribution des couleurs de pixels, mais aussi la corrélation spatiale entre les
10
22. Chapitre 1 Etat de l’art
paires de couleurs. La première et la deuxième dimension de cet histogramme
tridimensionnel représentent la couleur de toutes les paires de pixels. La
troisième dimension représente leur distance spatiale. Le « color correlogram » est
une table indexée par les paires de couleurs, dans laquelle, la kième entrée spécifie
la probabilité de trouver un pixel de couleur j à une distance K d’un pixel de
couleur i dans l’image.
Soit P l’ensemble de pixels de l’image entière, Pc(i) représente l’ensemble de
(������)
pixels ayant la couleur c(i). Le « color correlogram » (������������,������ ) est défini comme suit :
i(,kj ) Pr
p1P ( i ) , p2P
c
p
2 P ( j)
c p1 p2 k (1.6)
avec :
������������ 1, 2, … , ������������ et ������������ 1, 2, … , ������������ tel que ������������ représente le nombre de couleurs
représentant la dynamique de l’image.
������������ 1,2, … , ������ tel que d représente la distance maximale à considérer.
p1 p2 représente la distance entre les pixels p1 et p2.
Si on considère toutes les combinaisons de paires de couleurs, la taille du
« color correlogram » sera très grande (O (N2d)). Pourtant, une version plus simple
a été proposée. C’est le « color autocorrelogram » dans lequel on calcule la
corrélation spatiale entre les couleurs identiques. Ce qui permettra de réduire la
dimension à (O(N d)).
Le « color autocorrelogram » permet d’avoir des résultats de recherche plus
pertinents que ceux de l’histogramme. Mais, il reste limité par son coût élevé de
calcul et de comparaison.
La matrice de cooccurrence (MC):
La matrice de cooccurrence de niveaux de gris est la méthode d’analyse de
texture la plus connue. Elle est introduite initialement par Haralick [13]. A nos
jours, elle reste la méthode la plus populaire d’extraction de paramètres
texturaux. Ainsi, elle est utilisée par la majorité de systèmes de recherche
d’images [14] [15] et [16]. Elle permet d’estimer les propriétés liées aux
statistiques de second ordre de l’image. Chaque entrée de la matrice correspond à
la fréquence d'apparition d'un "motif" formé par deux pixels (de couleurs
respectifs i et j) séparés par une certaine distance d dans une direction
particulière par rapport à l'axe horizontal.
Elle est définie par:
������, ������ , ������, ������ ������������2 × ������2 , tel que
������������������ ������, ������ = ������������������������ ������, ������ = ������ + ������������ , ������ + ������������ , (1.7)
������ ������, ������ = ������ ������������ ������ ������, ������ = ������
11
23. Chapitre 1 Etat de l’art
avec :
������ = (������������, ������������) le vecteur de déplacement séparant le couple de points de
coordonnées respectifs (a,b) et (c,d).
I(x,y) est l’intensité du point de coordonnées (x,y).
������2 l’ensemble des points du plan.
La matrice de cooccurrence a montré sa capacité de bien caractériser les
textures aléatoires car elle se base sur des calculs statistiques et non pas sur
l’extraction des primitives qui sont, en général, caractéristiques d’une texture
artificielle. Les MC ne sont pas convenables pour les textures à primitives larges
[17]. En plus, elles sont utilisées dans la tâche de classification de texture et non
pas dans la segmentation [7].
Avant l’extraction des paramètres de la MC, on effectue une normalisation
des éléments de la matrice. C'est-à-dire, on divise chaque élément de la matrice
par le nombre total des couples de couleurs, séparés par la distance ������ = ������ dans
la direction , de l’image.
Dans tout ce qui suit, nous désignons par ������������ (������, ������) la nouvelle matrice
normalisée correspondant à la matrice ������������������ (������, ������) et par ������������������ le nombre de niveaux
de gris sur lequel on représente la dynamique de l’image.
A partir de la matrice ������������ (������, ������), on peut extraire plusieurs paramètres qui
contiennent des informations qualitatives sur la finesse, la directionnalité et la
granularité de la texture :
o Contraste :
L’indice de contraste exprime le passage fréquent d’un pixel clair à un
pixel foncé ou inversement. Si l’image contient peu de régions homogènes, le
contraste sera élevé. Ce paramètre permet aussi de caractériser la dispersion
des valeurs de la matrice par rapport à sa diagonale principale.
������������������ ������������������
2
������������������������������������������������������ = ������ − ������ ������������ ������, ������ (1.8)
������=1 ������ =1
o Energie :
Ce paramètre mesure l'homogénéité de l'image. L'énergie a une valeur
d'autant plus faible qu'il y a peu de zones homogènes : dans ce cas, il existe
beaucoup de transitions de niveaux de gris.
������������������ ������������������
2
������������������������������������������ = ������������ ������, ������ (1.9)
������=1 ������ =1
12
24. Chapitre 1 Etat de l’art
o Corrélation :
������������������ ������������������
������������������������é������������������������������������ = ������ − ������������ ������ − ������������ ������������ ������, ������ (1.10)
������=1 ������ =1
où ������������ et ������������ représentent les moyennes respectivement aux lignes et aux
colonnes de la matrice.
o La corrélation normalisée :
Ce paramètre permet de déterminer si certaines colonnes de la matrice
sont égales. Plus les valeurs sont uniformément distribuées dans la matrice,
plus la corrélation est importante.
������������������ ������������������
������ ������ ������������ ������, ������ − ������������ ������������
���������������������������������������������������������������������������������������������������������������� = (1.11)
������������ ������������
������=1 ������ =1
avec ������������ et ������������ représentent les écarts types respectivement aux lignes et aux
colonnes de la matrice.
o Entropie :
L’indice d’entropie exprime le degré de désordre dans la texture. Il est
d’autant plus faible qu’on a souvent le même couple de niveaux de gris. Mais,
lorsque les valeurs de la matrice sont presque toutes égales, l'entropie est
élevée. Ceci permet de caractériser le degré de granulation de l'image. Plus
l'entropie est élevée, plus la granulation est grossière.
������������������ ������������������
������������������������������������������������ = − ������������ ������, ������ ln ������������ ������, ������ ������������ ������,������ (1.12)
������
������=1 ������ =1
1 si ������������ ������, ������ ≠ 0
avec ������������ ������,������ =
������ 0 sinon
o Directivité :
La directivité exprime la présence éventuelle d’une certaine orientation.
Elle est d’autant plus grande qu’il y a des pixels de même niveau de gris
séparés par une translation t.
������������������
������������������������������������������������������������é = ������������ ������, ������ (1.13)
������=1
13
25. Chapitre 1 Etat de l’art
o Moment différentiel inverse ou homogénéité locale :
L’indice d’homogénéité est d’autant plus élevé qu’on retrouve souvent le
même couple de pixels. Ce qui exprime soit l’uniformité de la texture, soit la
périodicité dans la direction du vecteur de translation t.
Ce paramètre a un comportement inverse au contraste. Plus la texture
possède de régions homogènes, plus le paramètre est élevé.
������������������ ������������������
������������ ������, ������
������������������������������é������é������������é = 2
(1.14)
1 + ������ − ������
������=1 ������ =1
Malgré leurs succès dans la tâche de classification des textures, l’utilisation
des matrices de cooccurrence est limitée par quelques difficultés. Ainsi, on n’a
pas une méthode consistante de sélection de la valeur du vecteur de
déplacement d et le calcul des matrices de cooccurrence pour les différentes
valeurs de d n’est pas pratique. Aussi, un nombre important d’attributs peut
être calculé à partir de cette matrice. Ce qui nécessite l’utilisation d’une
méthode de sélection d’attributs pour sélectionner les attributs les plus
pertinents.
La méthode de différence de niveaux de gris :
Pour éviter le taux de calcul élevé requis pour calculer les matrices de
cooccurrence, surtout si on utilise plusieurs valeurs de ������ (vecteur de
déplacement), on utilise la méthode des différences de niveaux de gris. On
commence par calculer une image de différence entre l’image initiale et une
image translatée par le vecteur de déplacement ������ (������������, ������������). Par la suite, on calcule
le nombre d’apparition des différentes différences de niveaux de gris.
Soit ������1 l'image digitalisée initiale et ������ (������������, ������������) le déplacement. Avec ������������ et ������������
des entiers. L'image de différence ������������ est définie suivant l’équation 1.16 :
������������ ������, ������ = ������1 ������, ������ − ������1 ������ + ������������, ������ + ������������ (1.15)
avec ������������ ������, ������ représente un pixel, de l’image ������������ (������������ ������, 1 ) ayant la dimension
������ × ������, de coordonnés (������, ������) tel que ������ = 1, … , ������ et ������ = 1, … , ������
Soit une fonction ������ ������ ������ définissant la densité de probabilité associée aux
valeurs possibles de ������������ . On a alors :
������ ������ ������ = ������ ������������ ������, ������ = ������ (1.16)
On peut calculer les paramètres suivants pour caractériser la texture :
o Moyenne :
������
������������������������������������������ = ������=1 ������ ������ ������ ������ (1.17)
avec, M le nombre de différences de niveaux de gris
14
26. Chapitre 1 Etat de l’art
o Contraste :
������
������������������������������������������������������ = ������ 2 ������ ������ ������ (1.18)
������=1
o Moment angulaire d’ordre deux ou uniformité :
������
2 (1.19)
������������������������������������������������������é = ������ ������ ������
������=1
o Entropie :
������
������������������������������������������������ = − ������ ������ ������ ln ������ ������ ������ (1.20)
������=1
o Moment de différence inverse "Inverse Difference Moment" :
������
������ ������ ������ (1.21)
������������������ =
������ 2 + 1
������=1
1.2.1.3. Filtre de Gabor :
Un filtre de Gabor est une fonction sinusoïdale à laquelle on a rajouté une
enveloppe gaussienne et orientée avec un angle à partir de l’axe horizontal.
Dans le domaine spatial, le filtre de Gabor est défini comme suit:
(1.22)
avec :
������������ = ������ cos ������ + ������ sin ������
������������ = −������ sin ������ + ������ cos ������
������������ (respectivement ������������ ) est l’écart type de la gaussienne selon l’axe
horizontal (respectivement vertical).
������ est la fréquence de la sinusoïde le long de la direction de l’axe ������������ .
Turner [10] est le premier qui a utilisé un banc1 de filtres de Gabor pour
analyser des textures. Par la suite, les filtres de Gabor ont été utilisés dans
plusieurs applications comme la segmentation de la texture [18], la détection de
1
Un banc de filtres de Gabor est un ensemble de filtres qui ont des différentes fréquences et orientations
15
27. Chapitre 1 Etat de l’art
défauts [19], la reconnaissance de visages, le suivi de mouvement [20] et la
recherche d’images [21] [16].
Dans la littérature, les filtres de Gabor sont utilisés pour modéliser la
réponse du système visuel humain. En effet, ce dernier décompose les images
texturées en un nombre important d’images filtrées dont chacune contient les
variations d’intensité à travers une bande de fréquence et une orientation bien
déterminées [22]. De la même façon, l’idée de l’approche Gaborienne est de
concevoir un filtrage particulièrement sélectif en fréquence et en orientation dans
le but de caractériser, aux détails près, les textures [23]. Le banc de filtres de
Gabor est un ensemble de filtres construits à partir de la fonction h( x, y, , f ) tout
en prenant un ensemble de valeur d’angle et de fréquence ������.Concernant le
choix des angles de banc du filtre, Ilonen [24] démontre la nécessité de choisir un
ensemble d’angles i uniformément réparties :
2������������
������������ = , ������ = {0, 1, 2, … , ������ − 1} (1.23)
������
avec ������������ est la i ème orientation et ������ le nombre d’orientations.
Le calcul peut être réduit au moitié vu que les réponses aux angles [ ,2 ]
sont des complexes conjugués aux réponses sur [0, ] dans le cas des valeurs
d’entrée réelles [23].
Pour les valeurs de la fréquence, elles vérifient l’expression suivante :
f i K i f max , i 0,1,2,..., m 1 (1.24)
avec f i est la i ème fréquence et m le nombre de fréquences.
Généralement, on choisit K 2 ou K 2 .
La Figure 2 montre des exemples du filtre de Gabor dans le domaine spatial.
La taille du filtre :101x101 La taille du filtre :101x101
0 , f 1/ 30, x y 20 45 , f 1/ 20, x y 20
Figure 2: Exemples des filtres de Gabor
La taille du filtre :101x101
0 , f 1/ 30, x y 20 La taille du filtre :101x101 16
45 , f 1/ 20, x y 20
28. Chapitre 1 Etat de l’art
Ainsi appliqué à une image, un filtre de Gabor peut être vu comme un
détecteur de segments d’orientation particulière comme le montre la Figure 3.
=
0
f 1/ 2
=
90
f 1/ 2
Figure 3: Exemple de convolution des filtres de Gabor sur une image
Après la convolution du filtre avec l’image, on calcule la moyenne et la
variance de l’image filtrée [25]. Ces deux paramètres vont caractériser la réponse
de l’image au filtre utilisé. Par la suite, la signature de texture de l’image est
formée par l’ensemble des attributs statistiques calculés à partir des images
filtrées.
1.2.1.1. Longueurs de plages:
Malgré le succès des matrices de cooccurrence pour la discrimination de la
texture, elles sont incapables de capturer l’aspect de forme des primitives
texturaux [26]. Pour mettre en valeur la forme de ces primitives et pour compléter
la description de la texture des maladies touchant le parenchyme des poumons
(« Obstructive Lung Deseases »), Chabat [26] utilise les paramètres statistiques
dérivés de la matrice de longueurs de plages (« acquisition length parameters »).
Une plage de niveaux de gris (ou un isosegment) est un ensemble de pixels
consécutifs, dans une direction donnée, ayant le même niveau de gris [27]. La
longueur d’une plage est le nombre de pixels dans cet ensemble. A chaque
direction, on peut associer une matrice de longueurs de plages P ( p (i, j )).
L’élément p (i, j ) de cette matrice représente le nombre de plages de longueur j,
dans la direction , constituées de pixels de niveau de gris i. La taille de la
matrice est ������ × ������������ : n est la valeur maximale de l’intensité de niveaux de gris des
pixels de l’image et ������������ correspond à la longueur de la plus longue plage de
niveaux de gris de l’image ou de la région d’intérêt.
17
29. Chapitre 1 Etat de l’art
Les longueurs de plages sont utilisées, aussi, dans la compression des
données en utilisant le codage RLE « Run Length Encoding ». Les formats de
fichiers utilisant cette méthode de compression sont : PackBits, PCX, ILBM, etc.
[8]. Dans la méthode RLE, le support d’informations est changé en utilisant une
extension d’ordre 2 [28]. En fait, au lieu de décrire l’image pixel par pixel, on
forme, en lisant l’image ligne par ligne, des couples (longueur de plage, intensité),
où la longueur de plage est le nombre de pixels consécutifs ayant la même valeur
d’intensité. Cette méthode est efficace pour les images « simples », mais elle
devient inadéquate lorsque les images sont complexes (scènes naturelles par
exemple). Pour décrire efficacement la texture des images naturelles ou
médicales, plusieurs auteurs procèdent par réduire le nombre de couleurs de
l’image. Par exemple dans [26], on utilise 16 niveaux de gris afin d’avoir des
longueurs de plages significatives permettant une bonne approximation de la
grossièreté de la texture des images TDM des poumons. Pourtant, dans [29] les
auteurs proposent de quantifier les couleurs des images TDM de l’abdomen en 32
niveaux de gris. Ils étendent la méthode de longueurs de plages pour analyser
l’aspect tridimensionnel des textures des organes de l’abdomen.
Ce descripteur peut être calculé d’une manière locale « à partir d’une région
d’intérêt donnée » ou globale « à partir de l’image entière ».
Après le calcul de cette matrice pour la région d’intérêt, on peut extraire les
attributs suivants pour caractériser le motif de texture de la région étudiée :
o Nombre de Longueurs de Plages (NLP) :
n 1 L
NLP p (i, j ) (1.25)
i 0 j 1
avec :
n est la valeur maximale de l’intensité de niveaux de gris des pixels
de la RI.
������������ correspond à la longueur de la plus longue plage de niveaux de
gris de la RI dans la direction ������.
Cet attribut correspond au nombre total des primitives de niveaux de gris
dans la RI de niveau de gris i et de longueur de plage j.
o Pourcentage de Plages (PP) :
NLP
PP (1.26)
N
avec N le nombre total des pixels de la région d’intérêt.
o Accentuation de Courtes Plages (ACP) :
1 n 1 L p (i, j )
ACP
NLP i 0 j 1 j 2
(1.27)
18
30. Chapitre 1 Etat de l’art
Cet attribut met en valeur la prédominance des courtes primitives de
niveaux de gris dans une direction donnée du motif de texture étudié. Il atteint
sa valeur maximale pour les textures fines.
o Accentuation de Longues Plages (ALP) :
1 n 1 L 2
ALP j p (i, j)
NLP i 0 j 1
(1.28)
Cet attribut met en valeur la prédominance des longues primitives de
niveaux de gris dans une direction donnée du motif de texture étudié. Il atteint
sa valeur maximale pour les textures grossières.
o Non-Uniformité des Niveaux de Gris (NUNG) :
2
1 n 1 L
NUNG p (i, j )
NLP i 0 j 1 (1.29)
Cet attribut permet de mesurer la dispersion des plages entre les niveaux de
gris. Une grande valeur de cet attribut indique que le motif de texture est formé
par un nombre réduit de niveaux de gris.
o Non-Uniformité de Longueurs de Plages (NULP) :
2
1 L n 1
NULP p (i, j )
NLP j 1 i 0
(1.30)
Cet attribut permet de mesurer la dispersion des plages entre les différentes
longueurs. Une grande valeur de cet attribut indique que le motif de texture est
formé par des primitives de niveaux de gris ayant un nombre réduit de longueur
de plages.
o Accentuation des Plages à Niveaux de Gris bas (APNGB) :
1 n 1 L p (i, j )
APNGB
NLP i 0 j 1 i 2
(1.31)
Cet attribut mesure la distribution des plages à niveau de gris bas. Il est
d’autant plus grand pour les images à plusieurs plages à niveau de gris bas.
o Accentuation des Plages à Niveaux de Gris haut (APNGH) :
1 n 1 L
APNGH p (i, j) i 2
NLP i 0 j 1
(1.32)
Cet attribut mesure la distribution des plages à haut niveau de gris. Il est
d’autant plus grand pour les images à plusieurs plages à haut niveau de gris.
19
31. Chapitre 1 Etat de l’art
o Accentuation des Courtes Plages à Niveaux de Gris Bas (ACPNGB) :
1 n 1 L p (i, j )
ACPNGB
NLP i 0 j 1 i 2 j 2
(1.33)
Cet attribut mesure la distribution conjointe des courtes plages ayant un
niveau de gris bas. Il atteint de grandes valeurs pour les images à plusieurs
courtes plages à niveaux de gris bas.
o Accentuation des Courtes Plages à Niveaux de Gris Hauts (ACPNGH) :
1 n 1 L p (i, j ) i 2
ACPNGH j 2
NLP i 0 j 1
(1.34)
Cet attribut mesure la distribution conjointe des courtes plages ayant un
niveau de gris haut. Il atteint de grandes valeurs pour les images à plusieurs
plages courtes à niveaux de gris hauts.
o Accentuation des Longues Plages à Niveaux de Gris Bas (ALPNGB) :
1 n 1 L p (i, j ) j 2
ALPNGB i 2
NLP i 0 j 1
(1.35)
Cet attribut mesure la distribution conjointe des longues plages ayant un
niveau de gris bas. Il atteint de grandes valeurs pour les images à plusieurs
longues plages à niveaux de gris bas.
o Accentuation des Longues Plages à Niveaux de Gris Hauts (ALPNGH) :
1 n 1 L
ALPNGH p (i, j) i 2 j 2
NLP i 0 j 1
(1.36)
Cet attribut mesure la distribution conjointe des longues plages ayant un
niveau de gris haut. Il atteint de grandes valeurs pour les images à plusieurs
longues plages à niveaux de gris hauts.
1.2.2. Descripteurs de forme :
Afin de compléter la description de l’image, on utilise un ensemble de
descripteurs de forme qui vont caractériser les propriétés géométriques des
différentes régions constituant l’image. Contrairement aux descripteurs de
texture et de couleur, qui peuvent être utilisés pour décrire globalement l’image,
les descripteurs de forme décrivent des propriétés locales aux régions composant
l’image. Donc, leur robustesse sera fonction de l’exactitude de la préalable
segmentation et elle est, généralement, mesurée par le degré d’invariance à la
translation, rotation et au facteur d’échelle. Parmi ces descripteurs de forme, nous
citons :
20
32. Chapitre 1 Etat de l’art
Le périmètre : c’est le nombre des points de contours de l’objet.
La surface : c’est le nombre de points constituant l’objet.
La circularité : Elle est donnée par l’équation 1.37 :
4������������
∝= , ∝ ϵ[0,1] (1.37)
������ 2
avec ������ représente la surface de l’objet et ������ son périmètre. Lorsque l’objet a
une forme aplatie, la valeur de tend vers 0. Cependant, si l’objet est
arrondi, se rapproche de 1.
« edginess » :
����������������������� �����������������
������������������������������������������������ = (1.38)
������������������������������������������
La rectangularité : c’est le rapport de la surface de l’objet par la surface du
rectangle minimal englobant cet objet comme le montre la Figure 4.
surface de l’objet
������������������������������������������������������������������������������é = surface (1.39)
du rectangle minimal englobant
Figure 4 : Rectangle minimal englobant
Moments invariants :
Les moments invariants sont des descripteurs de forme qui se basent sur la
totalité des pixels de l’objet [30]. Donc, ils ont la possibilité de décrire même les
formes complexes d’objets présentant des trous ou des objets disjoints. En outre,
ils sont robustes aux petites déformations du contour.
Le moment centré d’ordre p+q d’un objet ������ est définie par :
p ,q (x x )
( x , y )R
c
p
( y yc ) q (1.40)
avec (xc,yc) les coordonnées du centre de l’objet.
Ce moment central peut être normalisé pour qu’il soit invariant à
l’agrandissement. Le moment central normalisé d’ordre p+q se calcule comme
������������
suit :
p ,q pq2
pq
avec (1.41)
0, 0 2
En se basant sur ces moments, un ensemble de moments invariants à la
translation, à la rotation et aux changements d’échelle peuvent être définis :
21
33. Chapitre 1 Etat de l’art
1 2,0 0, 2 (1.42)
2 ( 2,0 0, 2 ) 2 412,1 (1.43)
3 (3,0 31, 2 ) 2 (0,3 32,1 ) 2 (1.44)
4 (3,0 1, 2 ) 2 (0,3 2,1 ) 2 (1.45)
5 ( 3,0 31, 2 )(3,0 1, 2 )(3,0 1, 2 ) 2 3( 0,3 2,1 ) 2 (1.46)
( 0,3 3 2,1 )( 0,3 2,1 ) ( 0,3 2,1 ) 2 3( 3,0 1, 2 ) 2
6 (2,0 0, 2 )(3,0 1, 2 ) 2 (0,3 2,1 ) 2 41,1 (3,0 1, 2 )(0,3 2,1 ) (1.47)
7 (3 2,1 0,3 )(3,0 1,2 )(3,0 1,2 ) 2 3(0,3 2,1 ) 2 (1.48)
Descripteur de Fourier :
Le descripteur de Fourier est un descripteur de forme qui se calcule à partir
des points du contour de l’objet qui sont représentés dans le plan complexe. A
chaque point ������������ (������������ , ������������ ) du contour, on associe un nombre complexe ������������ = ������������ + ������������������ .
On appelle alors descripteur de Fourier, les coefficients de la transformée de
Fourier (TF) Z de z [31] :
N 2ijk
Z k z j exp
( )
N (1.49)
j 1
avec N le nombre de pixels du contour, k l'ordre du descripteur
Les coefficients Zk pour k N / 2 1, N / 2 jouissent de plusieurs propriétés
intéressantes :
- Pour k=0, Z0 est le centre de gravité de la forme. Si on l'omet, la description
est invariante par translation.
- Si tous les Zk sont nuls sauf pour K=1 la forme est un cercle de rayon Z1 ou
un polygone régulier à N côtés. Donc Z1 joue le rôle de facteur d'échelle. En
effet, la normalisation par Z1 rend la forme invariante par homothétie.
- la rotation n'affecte pas le module des descripteurs de Fourier mais elle
affecte leur phase. C'est-à-dire, si on omet la phase, le descripteur sera
invariant par rotation.
Donc, pour avoir un descripteur de Fourier invariant à la translation, à la
rotation et au facteur d’échelle, il suffit de considérer l’ensemble des descripteurs
ayant la forme : ������������ ������1 , ������ ������ {2,3, … , ������/2}. Les premiers coefficients caractérisent la
forme générale de l’objet, alors que les derniers coefficients représentent les
détails de la forme.
22
34. Chapitre 1 Etat de l’art
1.3. Classification des systèmes de recherche d’images :
Les systèmes de recherche d’images (SRIm) sont communément classés
selon le paradigme de représentation d’images utilisé. Ce modèle influe
directement sur les différents composants du SRIm (module d’indexation,
d’interrogation et fonction de correspondance). Le choix du paradigme de
représentation d’images est une tâche très délicate, dans laquelle, on doit mettre
en question :
Le contexte d’exécution du système (milieu professionnel, Internet, usage
personnel) :
Ceci permet de prévoir la quantité des informations à traiter. En fait, le
système doit adopter des choix compatibles avec le contexte du système. Par
exemple, si on est dans le cadre d’un SRIm sur Internet, on ne peut pas choisir
des méthodes d’indexation supervisées. Pourtant, dans des applications
industrielles ou médicales, dans lesquelles la précision est primordiale, on peut
adopter des modules nécessitant l’intervention humaine.
Le besoin et le type d’utilisateurs concernés :
Le module de requête doit s’adapter, d’une part, aux besoins des utilisateurs
en adoptant les composants nécessaires à la formulation de leurs requêtes.
D’autre part, il doit prendre en compte les compétences de ses utilisateurs à
exprimer leur besoin. En fait, les systèmes visant un public d’utilisateurs non
spécialistes (comme AMORE [33], Altavista Photofinder [34] présentent une
interface intuitive et simple. Pourtant, d’autres systèmes à usage professionnel
(comme KMED [35] pour la médecine) nécessitent une préalable formation.
1.3.1. Les différents paradigmes de représentation d’images :
Nous distinguons, principalement, les trois types de SRIm classés selon le
paradigme de représentation d’images utilisé :
Le paradigme orienté-contexte :
La première génération des SRIm s’est basée essentiellement sur le
paradigme orienté-contexte (le contexte est extrait à partir des données textuelles
jointes à l’image). L’image est identifiée essentiellement par son contexte qui se
limite à un ensemble de mots supposés pertinents avec le contenu des images. Le
problème d’indexation d’images se transforme en un problème d’indexation de
son contexte. Ceci a été déjà exploré et développé pour les BDD textuelles. Ce
paradigme présente la limite de la faiblesse d’expression du langage de requêtes
utilisé qui ne permet pas de répondre aux besoins, de plus en plus complexes, des
utilisateurs. En plus, il est inapproprié dans le cas d’absence de contexte.
23
35. Chapitre 1 Etat de l’art
Dans ce type de systèmes, le contenu effectif de l’image n’est pas pris en
considération. On essaye, généralement, soit de joindre les informations factuelles
de l’image (auteur, date/lieu de prise, etc.), soit d’analyser automatiquement le
contexte de l’image pour en associer des mots clés. Il existe plusieurs méthodes
d’indexation de contexte. Parmi lesquelles nous citons :
- L’indexation plein texte : Le texte décrivant l’image est assigné à
l’image sans lui appliquer aucun traitement.
- La signature : Elle vise à construire des filtres permettant d’éliminer
rapidement les données non pertinentes avec la requête de
l’utilisateur. La codification superposée « Superimposed Coding »
[36] est l’une des méthodes de création de signature les plus
utilisées.
Le paradigme orienté-contenu :
La génération suivante de SRIm, adopte le paradigme orienté-contenu
(contenu visuel de l’image). Dans cette approche, on cesse de considérer l’image
comme une boite noire. C'est-à-dire, la description de l’image est devenue plus
objective. La tâche la plus difficile c’est la traduction des besoins des utilisateurs
qui sont souvent de haut niveau à des attributs visuels de bas niveau qui sont
dépourvus de toute sémantique. Malgré le développement des techniques de
reconnaissance de formes, leur utilisation reste limitée par leur coût de calcul
élevé.
L’image est décrite par ses caractéristiques physiques. Ce paradigme est
utilisé dans les domaines où la quantité et l’hétérogénéité des images sont
importantes. La similarité entre les images est calculée en se basant sur une
fonction de similarité entre les descripteurs choisis.
Le paradigme orienté-sémantique :
Le paradigme orienté-sémantique adopté par plusieurs SRIm actuels, essaye
de tirer profit des avantages des deux paradigmes précédents tout en réduisant le
fossé entre le modèle d’image compréhensible par l’utilisateur et celui du
système. L’inconvénient principal de cette approche concerne la subjectivité
incontournable de la description de l’image. Une solution proposée consiste à
utiliser un thésaurus qui correspond à la mise en place d’un dictionnaire qui
regroupe d’une part les concepts de base (mots clés) et d’autre part un ensemble
de relations sémantiques (équivalence, association, hiérarchie, etc.). Ceci permet
d’atténuer le problème issu de la diversité de choix de termes. Pourtant, la
subjectivité d’interprétation du contenu sémantique demeure un obstacle, car
cette interprétation est fortement liée au besoin d’information exprimé par
l’utilisateur, sa compétence à formuler sa demande et le point de vue à partir
duquel il interprète l’image. En plus, l’abstraction de l’image par un ensemble fini
de descripteurs provoque une forte perte d’informations non prises en compte
24
36. Chapitre 1 Etat de l’art
pendant l’indexation. L’interprétation de la sémantique de l’image est manuelle
dans la plupart des systèmes. Ce qui augmente le coût financier de ces systèmes.
On essaye d’interpréter le contenu de l’image tel qu’il est perçu par l’être
humain afin de faciliter sa recherche. Les informations qui décrivent l’image sont
définies soit manuellement par l’utilisateur en associant quelques annotations
reflétant sa propre interprétation à propos de l’image, soit en adoptant une
stratégie d’apprentissage.
Conclusion :
Avant de choisir le paradigme de représentation d’image d’un SRIm, on
doit se concentrer sur le besoin des utilisateurs, leurs compétences d’interaction
avec le système et la faisabilité du modèle choisi.
1.3.2. Exemples de systèmes de recherche d’images :
Dans ce qui suit, nous décrivons le fonctionnement de quelques systèmes
qui présentent une illustration des paradigmes de représentation d’images
précédemment décrits:
AMORE « Advanced Multimedia Oriented Retrieval Engine » :
C’est l’un des moteurs de recherche d’images sur le web. Il adopte le
paradigme orienté contexte et le paradigme orienté contenu. Il permet de
rechercher les images par mots-clés, par thème et par comparaison d’images [33].
Dans ce qui suit, nous décrivons, essentiellement, la méthodologie utilisée dans
AMORE pour attribuer des mots clés aux images.
L’apport essentiel du système AMORE, c’est l’approche utilisée pour
associer la sémantique aux images à partir de son contexte. Pour faire face à la
difficulté du choix des mots clés pertinents avec la sémantique de l’image,
AMORE associe un ensemble de mots clés à l’image. Les mots clés sont collectés,
principalement, à partir du texte entourant l’image.
Afin de s’adapter à la taille de l’Internet, l’association des mots clés doit être
faite automatiquement. AMORE utilise les informations textuelles suivantes
comme source de collection des mots clés :
o Le URL de l’image : Les mots clés de l’URL « Uniform Resource Locator »
sont souvent pertinents avec le contexte de l’image.
o Le lien hypertexte « Anchor » de l’image : Lorsque l’image est utilisée
comme lien à un autre document, le nom de ce dernier porte une
information sur le contexte de l’image.
o Le texte alternatif « ALT » : C’est l’annotation textuelle associée à l’image.
Elle apparaît dans le cas d’échec de chargement de l’image ou lorsqu’on
survole le curseur de la souris sur l’image.
25