Arbelaez these

666 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
666
Sur SlideShare
0
Issues des intégrations
0
Intégrations
3
Actions
Partages
0
Téléchargements
20
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Arbelaez these

  1. 1. U NIVERSITÉ PARIS DAUPHINE U.F.R. M ATHÉMATIQUES DE LA D ÉCISION Nouveau doctorat en sciences (arrêté du 25 avril 2002) No. attribué par la bibliothèque | | | | | | | | | | Pablo Andrés ARBELÁEZ ESCALANTE Une approche métrique pour la segmentation d’images Thèse pour l’obtention du titre de D OCTEUR EN S CIENCES Spécialité : M ATHÉMATIQUES A PPLIQUÉES Le 24 novembre 2005 JURYDirecteur : M. Laurent COHEN Directeur de Recherche CNRSPrésident : M. Jean-Michel MOREL Professeur ENS CachanRapporteurs : M. Henri MAITRE Professeur ENST M. Jean SERRA Directeur de Recherche ENSMPExaminateurs : Mme. Françoise DIBOS Professeur Paris-Nord M. Laurent NAJMAN Professeur Associé ESIEE
  2. 2. Para Roxana e Irene
  3. 3. L’université n’entend donner aucune approbation ni improbation aux opinions émisesdans les thèses : ces opinions doivent être considérées comme propres à leurs auteurs.
  4. 4. Remerciements L’étude exposée dans ce mémoire a été réalisée dans le cadre de ma thèse docto-rale au sein du Centre de Recherche en Mathématiques de la Décision (CEREMADE),à l’Université Paris-Dauphine. Elle n’aurait jamais pu aboutir sans le concours d’ungrand nombre de personnes auxquelles je voudrais exprimer ma profonde reconnais-sance.Je tiens à remercier en premier lieu L AURENT C OHEN, mon directeur de thèse, pourson encadrement, ses conseils et pour la confiance dont il m’a fait preuve en me laissantune liberté totale dans le choix du sujet et l’orientation de ma recherche. Je voudrais exprimer ma sincère gratitude aux membres de mon Jury de thèse.J EAN -M ICHEL M OREL, pour l’honneur qu’il me fait de le présider ; ses qualités hu-maines et scientifiques sont pour moi une source constante d’inspiration. J EAN S ERRAet H ENRI M AÎTRE, pour l’intérêt qu’ils ont manifesté à mon travail en acceptant d’enêtre rapporteurs ; leur regard et leurs commentaires m’ont permis de l’améliorer gran-dement. F RANÇOISE D IBOS, dont le cours de DEA m’a initié au monde des images,pour avoir accepté de faire partie du Jury. L AURENT NAJMAN, pour avoir bien vouluexaminer cette étude, dont ses recherches sur la LPE ont constitué un point de départ. Je remercie également les membres du CEREMADE, les thésards du groupe Imageset, plus particulièrement, O LIVIA S ANCHEZ, C LAIRE J ONCHERY, F LORENT R AN -CHIN et S YLVAIN P ELLETIER ; sans eux, je me serais senti étranger au labo. Merciaussi à M ICHEL VANBREUGEL pour sa patience, sa disponibilité et son aide avec lesmanips et à J OSETTE L ÉVY pour son assistance lors des missions. D’autre part, je voudrais remercier toutes les personnes avec qui j’ai eu la chanced’avoir d’enrichissants échanges scientifiques. En particulier, C ORINNE VACHIER,pour l’introduction à la segmentation morphologique qu’elle m’a faite en début dethèse et qui a grandement influencé la suite des travaux. PASCAL M ONASSE pour lesdiscussions sur la FLST et pour avoir eu la générosité de me prêter sa copie de l’articlede Kronrod, ainsi que sa précieuse traduction à l’anglais. M ICHEL C OUPRIE pour lamise à disposition du logiciel PINK.
  5. 5. Je remercie affectueusement mes parents, ma famille et mes amis pour leur sou-tien permanent et inconditionnel. Parmi eux, une pensée spéciale pour E MMANUELLEP ORCHER, qui a accepté le fardeau de corriger la version préliminaire de ce manuscrit.Je ne saurais lui exprimer ma reconnaissance pour sa solidarité et son amitié en cesquelques lignes. Quiero agradecer finalmente a C AMILO, H EDDA, M ARIA J OSÉ y M ARIA PATRI -CIA , los hermanos que la vida me ha dado y que me acompañan siempre y a ROXANAe I RENE, quienes dan sentido a mi existencia.
  6. 6. Table des matièresIntroduction 1I Cadre de travail 111 Distances et partitions 13 1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2 Espaces pseudo-métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.2.2 Espace quotient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.2.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.2.4 Chemins et convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.3 Partitions métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.3.1 Partitions par seuillage . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.3.2 Partitions de Voronoï . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.3.3 Cadre variationnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.3.4 Partitions de Voronoï centrées . . . . . . . . . . . . . . . . . . . . . . . 302 Images et segmentations 33 2.1 Images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2 Composantes connexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.3 Segmentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.3.2 Représentation des contours . . . . . . . . . . . . . . . . . . . . . . . . 37 i
  7. 7. ii 2.3.3 Images mosaïques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.4 Graphes et arbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.4.2 Graphes d’adjacence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.4.3 Arbres d’inclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.4.4 Distances sur un graphe . . . . . . . . . . . . . . . . . . . . . . . . . . 44II Métriques de chemin 473 Distances pondérées 49 3.1 Définition des métriques de chemin . . . . . . . . . . . . . . . . . . . . . . . . 50 3.2 Optique géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.3 Propagation des fronts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.4 Implantation par Fast Marching . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.5 Segmentation par distances pondérées . . . . . . . . . . . . . . . . . . . . . . . 60 3.5.1 Partitions par seuillage . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.5.2 Partitions de Voronoï . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.5.3 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 674 Variation de chemin 69 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 4.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.2.1 Variation totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.2.2 Variation de chemin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 4.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 4.3.1 Variation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 4.3.2 Cadre régulier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 4.4 Domaine discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.4.1 Construction par connexité . . . . . . . . . . . . . . . . . . . . . . . . . 78 4.4.2 Construction par inclusion . . . . . . . . . . . . . . . . . . . . . . . . . 79 4.5 Segmentation par variation de chemin . . . . . . . . . . . . . . . . . . . . . . . 82 4.5.1 Partitions par seuillage . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
  8. 8. iii 4.5.2 Partitions de Voronoï . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.6 Mosaïque des extrema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.6.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.6.2 Comparaison avec la ligne de partage des eaux . . . . . . . . . . . . . . 92 4.6.3 Choix des sites par diffusion non linéaire . . . . . . . . . . . . . . . . . 99III Ultramétriques 1035 Classification hiérarchique 105 5.1 Ordres et arbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.2 Hiérarchie de parties d’un ensemble . . . . . . . . . . . . . . . . . . . . . . . . 107 5.3 Ultramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 5.4 Ultramétriques et hiérarchies indicées . . . . . . . . . . . . . . . . . . . . . . . 110 5.5 Coupes et partitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 5.6 Ultramétrique sous-dominante . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 5.7 Classification ascendante hiérarchique . . . . . . . . . . . . . . . . . . . . . . . 118 5.7.1 Construction de la hiérarchie . . . . . . . . . . . . . . . . . . . . . . . . 118 5.7.2 Définition de l’ultramétrique . . . . . . . . . . . . . . . . . . . . . . . . 1206 Cartes de contours ultramétriques 123 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 6.2 Segmentation hiérarchique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.3 Définition des contours ultramétriques . . . . . . . . . . . . . . . . . . . . . . . 128 6.4 Construction ascendante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 6.4.1 Fusion de régions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 6.4.2 Dissemblances ultramétriques . . . . . . . . . . . . . . . . . . . . . . . 131 6.5 Mesures de contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 6.5.1 Sous-dominante de la variation de chemin . . . . . . . . . . . . . . . . . 134 6.5.2 Ultramétrique de contraste moyen . . . . . . . . . . . . . . . . . . . . . 139 6.6 Enrichissement du contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 6.7 Information interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 6.8 Ultramétrique des marqueurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
  9. 9. iv 6.8.1 Propagation de marqueurs . . . . . . . . . . . . . . . . . . . . . . . . . 155 6.8.2 Ultramétrique des marqueurs . . . . . . . . . . . . . . . . . . . . . . . . 157 6.9 Positionnement de l’approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 6.9.1 Cadre morphologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 6.9.2 Cadre variationnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163IV Évaluation des résultats 1677 Méthodologie d’évaluation 169 7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 7.2 Vérité terrain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 7.3 Comparaison de segmentations . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 7.3.1 Signal et référence binaires . . . . . . . . . . . . . . . . . . . . . . . . . 175 7.3.2 Descripteurs de qualité . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 7.3.3 Multiples segmentations humaines . . . . . . . . . . . . . . . . . . . . . 180 7.3.4 Carte de contours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 7.4 Cohérence de la segmentation humaine . . . . . . . . . . . . . . . . . . . . . . 183 7.5 Correspondance de courbes et de pixels . . . . . . . . . . . . . . . . . . . . . . 1888 Résultats 191 8.1 Optimisation du système . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 8.1.1 Pré-segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 8.1.2 Enrichissement du contraste . . . . . . . . . . . . . . . . . . . . . . . . 196 8.1.3 Couleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 8.1.4 Information interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 8.1.5 Autres éléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 8.2 Comparaison avec d’autres méthodes . . . . . . . . . . . . . . . . . . . . . . . . 199 8.2.1 Détecteurs de contours locaux . . . . . . . . . . . . . . . . . . . . . . . 199 8.2.2 Approche morphologique . . . . . . . . . . . . . . . . . . . . . . . . . 201 8.2.3 Approche variationnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 205 8.3 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 8.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
  10. 10. v9 Conclusions et perspectives 215 9.1 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 9.2 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 9.3 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 9.4 Liste des communications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225Bibliographie 227
  11. 11. IntroductionMotivationsPerception visuelle The Unicorn looked dreamily at Alice, and said : "Talk, child." Alice could not help her lips curling up into a smile as she began : "Do you know, I always thought Unicorns were fabulous monsters, too ? I never saw one alive before !" "Well, now that we have seen each other," said the Unicorn, "if you’ll believe in me, I’ll believe in you. Is that a bargain ?" Lewis Carroll. Through the Looking-Glass.Vision artificielle La vision artificielle, ou vision par ordinateur, est la discipline qui cherche à reproduire lesprocessus visuels au moyen de machines. La vue nous permet de réaliser une large diversitéde tâches dès le plus jeune âge ; avant même l’acquisition du langage, un enfant de dix-huitmois peut reconnaître sans difficulté les personnes de son entourage sur une photo, éviter unobstacle sur son chemin ou identifier un objet étranger à son environnement familier. La visionsemblerait donc faire partie des processus cognitifs les plus élémentaires et son étude pourraitreprésenter un raccourci pour comprendre les mécanismes de l’intelligence humaine. Si tel estle cas, nous sommes encore loin de dévoiler tous les mystères du cerveau. En 1968, l’ordinateurdu film 2001 : L’Odyssée de l’Espace, de Stanley Kubrick, reconnaissait des humains à partird’esquisses. Une telle prouesse relève aujourd’hui encore du domaine de la science fiction. 1
  12. 12. 2Images naturelles De quel type d’information notre cerveau dispose-t-il pour voir ? La structure anatomique denotre appareil visuel est d’une complexité considérable, mais les stades premiers de l’acquisitiondes stimuli visuels sont schématiquement simples. Suite à une transformation optique réaliséedans la partie antérieure du globule oculaire, le flot lumineux est projeté sur la rétine, où uneimage rétinienne se forme. La membrane rétinienne est tapissée de millions de cellules, appeléesphotorécepteurs, qui réagissent aux différentes longueurs d’onde de la lumière. Elles transmettentle signal au nerf optique, qui l’achemine vers le cortex visuel. L’image numérique est un modèle naturel des données d’entrée de notre système visuel. Uneimage numérique représentant une scène du monde réel, ou image naturelle, est un tableau oùchaque case, ou pixel1 , codifie une teinte de gris ou une couleur. Une image est donc consti-tuée d’un grand volume de données locales et non structurées, dont l’analyse est le propos dessystèmes de vision artificielle.Segmentation Lorsqu’un être humain observe une image naturelle, il voit généralement des objets phy-siques ou leurs parties. Il peut donc diviser l’image en régions, ou segments, les représentant.Nous allons étudier dans ce mémoire comment une machine peut reproduire cette tâche de seg-mentation. La segmentation est un processus de synthèse, visant à extraire les caractéristiques géomé-triques des images en faisant abstraction des nuances de couleur, des reflets, des transparences,des ombres, des textures et autres éléments qui constituent l’incroyable richesse de l’informationvisuelle. Comment aborder un tel problème ? Sur l’image de la Figure 1.a, on voit un dalmatien surune pelouse. On peut donc représenter cette information sémantique par la segmentation de la 1 pixel : de l’anglais pic-ture el-ement
  13. 13. 3 (a) (b) F IG . 1 – Exemple de segmentation d’une image naturelle.partie (b), où la forme du chien se détache du fond. Comment passer de l’un à l’autre ? Commentextraire ces régions d’un tableau de plusieurs millions de pixels, chacun d’entre eux teint d’unecouleur, parmi des millions ? Est-ce uniquement parce qu’un être humain reconnaît le chien qu’ilest capable de tracer ses contours ? Les travaux de psychologues qui ont étudié la vision humaine au XXe siècle, et notammentl’école du Gestalt et Juletz, suggèrent que notre perception visuelle agit plutôt dans la directioninverse (voir [Gor97, Pal99] pour une synthèse récente du sujet). Ces chercheurs ont postulé l’hy-pothèse d’un traitement de bas niveau agissant lors des stades initiaux de l’acquisition des stimulivisuels, indépendant de l’information sémantique, et dont le rôle principal serait de structurer leflot de données brutes perçues par la rétine. L’extraction des caractéristiques géométriques del’image rétinienne permettrait dans un second temps la réalisation de tâches de haut niveau,comme la reconnaissance et la catégorisation, où une signification sémantique est attribuée àl’information visuelle. La démarche méthodologique que nous suivons pour aborder le problème de la segmentation[Mar82, MS95] s’inspire de ces idées. Nous chercherons donc à effectuer le traitement de basniveau en segmentant l’image uniquement à partir de ses données physiques, sans connaîtrepréalablement son contenu.
  14. 14. 4 F IG . 2 – Segmentation et information préalable.Information sémantique La segmentation de bas niveau est souvent considérée comme la clef de voûte de la visionartificielle. Si on était en mesure de représenter automatiquement chaque objet de l’image parune région, alors la compréhension de son contenu sémantique serait amplement facilitée. Onpourrait par exemple identifier le chien de la Figure 1 en utilisant des attributs de la région tellesla forme, la couleur, la taille, la texture, etc. Remarquons néanmoins qu’une approche fondée uniquement sur les données de l’image nepeut expliquer que partiellement le fonctionnement de la vision humaine. Les interactions entreinformation physique et sémantique dans notre cerveau sont certainement beaucoup plus subtileset complexes que notre modèle d’étude ne le laisse entendre. Observons par exemple la Figure2, photographie attribuée à Ronald C. James [Mar82]. Bien qu’on puisse décrire cette imageet la Figure 1 avec les mêmes mots, il est difficile de s’en apercevoir au premier coup d’oeil.En revanche, une fois qu’on l’a identifié, on voit clairement le chien se détacher du fond etl’organisation perceptuelle de la scène ne présente plus d’ambiguïtés. On pourrait même essayerde tracer ses contours, mais quelle proportion de ces contours se trouve réellement dans l’image ?Peut-on réaliser cette tâche si on n’a jamais vu un dalmatien ? Cet exemple est-il un cas limite outypique du fonctionnement de notre appareil visuel ?
  15. 15. 5 La question de fond qui se pose est de savoir s’il est possible de quantifier le rôle de l’in-formation sémantique dans la segmentation d’images naturelles. Notre façon d’y répondre serade créer un système de segmentation de bas niveau et de comparer sa performance à celle desHumains sur une large base d’images naturelles.Segmentation hiérarchique Pour segmenter une image naturelle, un Humain identifie des objets physiques et démarqueleurs contours jusqu’à un certain niveau de détail, donné par l’attention qu’il leur accorde. Si onsuppose que tous les sujets d’un groupe d’Humains perçoivent les mêmes objets dans une image,alors la superposition des contours (ou l’intersection des segments) de leurs segmentations four-nit le plus fin niveau de détail considéré (voir la Figure 7.2, p. 174), aux erreurs de localisationprès. Les détails peuvent alors se regrouper en objets et puis en ensembles d’objets, etc. L’or-ganisation perceptuelle de l’image peut donc se représenter par un arbre de régions, ordonnéselon l’inclusion, comme celui de la Figure 3. La racine de l’arbre perceptuel est la scène entière,les feuilles sont les plus fins détails et chaque région représente un objet à une certaine échelled’observation. Si on demandait à chaque sujet de construire un arbre perceptuel, on obtiendrait sans doute,comme pour les segmentations, des résultats différents. Notre hypothèse de travail sera qu’onpeut reconstruire à partir des segmentations humaines un arbre qui explique le contenu séman-tique de l’image. Les différentes segmentations peuvent alors s’interpréter comme un élagage del’arbre par l’attention de chaque sujet. Dans l’expérience de la Figure 3, les instructions données aux sujets spécifiaient que toutesles régions devaient avoir la même importance [Mar02], les encourageant ainsi à segmenter àéchelle constante. Le résultat montre que la notion d’échelle est subjective et varie d’un sujet àun autre. Il s’agit en outre d’une information de haut niveau, déterminée par le contenu séman-tique. Si on devait par exemple diviser en deux régions un portrait, probablement tous les sujets
  16. 16. 6 Image originale Segmentations humaines Arbre perceptuel Segmentation 1 Segmentation 1 Coupe 1 Segmentation 2 Segmentation 2 Coupe 2 Segmentation 3 Segmentation 3 Coupe 3F IG . 3 – Organisation hiérarchique de la perception visuelle humaine. Haut : Image originale,segmentations humaines superposées et arbre perceptuel possible. Lignes 2 à 4 : Trois segmen-tations humaines et coupes correspondantes dans l’arbre.
  17. 17. 7sépareraient la figure humaine du fond, se souciant peu des données physiques de l’image. L’importance de l’information préalable dans l’organisation perceptuelle rend vaine la re-construction d’un arbre perceptuel au moyen d’une approche de bas niveau comme la nôtre. Lastructure hiérarchique de la perception humaine suggère néanmoins qu’une stratégie à plusieursniveaux d’observation, ou multi-échelles, est souhaitable pour l’étude de la segmentation.Présentation de l’approche Les observations des pages précédentes avaient pour objectif de sensibiliser le lecteur à l’in-térêt de l’étude de la segmentation et à ses difficultés intrinsèques. La vision artificielle est unediscipline jeune dont les principaux problèmes restent encore à élucider. Dans le cas de la seg-mentation, le niveau de performance des techniques actuelles est encore loin de celui atteint parles Humains. Le présent mémoire expose les travaux réalisés au cours de notre thèse doctoralepour étudier la segmentation d’images naturelles. L’approche proposée, délibérément naïve, estconstruite à partir des notions qui nous semblent centrales au problème.Cadre de travail La segmentation peut se concevoir comme un processus de regroupement perceptuel. Unefaçon naturelle de regrouper ou de séparer des données est de les comparer au moyen d’unedistance. Ceci nous a conduit à formuler le problème dans le cadre métrique et à étudier lespartitions de l’espace induites par une distance. Deux types de partitions métriques, illustrés dansla Figure 1.1, sont initialement considérées. Les premières, appelées partitions par seuillage,sont obtenues en séparant des autres points de l’espace ceux dont la distance à un ensembleest inférieure à un certain seuil. Les secondes, nommées partitions de Voronoï, décomposentl’espace par rapport à une famille de points, ou sites, en assignant chaque point au site le plusproche. Le Chapitre 1 du mémoire présente les fondements du formalisme métrique. Cette première
  18. 18. 8partie est complétée par le Chapitre 2, qui traite des images ainsi que des structures pour lesreprésenter et les manipuler. L’application de la théorie métrique nécessite la définition de distances appropriées pourtraiter un problème spécifique. Dans le cas de la segmentation, les distances se construisent àpartir des données de l’image. Les deuxième et troisième parties du mémoire présentent deuxvoies pour atteindre ce but.Métriques de chemin La deuxième partie s’intéresse aux métriques de chemin, définies en mesurant le minimum dela longueur des chemins entre points de l’espace. À chaque notion de longueur correspond unedistance différente. Nous présentons dans le Chapitre 3 l’exemple le plus classique, les distancespondérées, ainsi que leurs applications principales à la segmentation. Dans le Chapitre 4, nousproposons l’étude de la distance appelée variation de chemin, obtenue en considérant commelongueur la variation totale de l’image sur le chemin.Ultramétriques La caractéristique principale de la perception visuelle humaine est son organisation hiérar-chique. Cette constatation suggère d’approcher la segmentation comme un problème de classifi-cation hiérarchique des données, voie que nous explorons dans la troisième partie du mémoire.Le Chapitre 5 rappèle les éléments de base de cette théorie, issue historiquement du domaine dela taxinomie numérique. Dans cette perspective, il semble plus approprié d’étudier la segmenta-tion au moyen d’une famille de partitions emboîtées, plutôt qu’une partition unique. Ajoutée à lanotion d’échelle, cette idée conduit à la structure de hiérarchie indicée. Dans le cadre métrique, les hiérarchies indicées correspondent à un type de distances appeléesultramétriques. Ces distances induisent un nouveau type de partitions métriques, les partitionsultramétriques, qui sont à la fois des partitions par seuillage et de Voronoï. Nous abordons dans
  19. 19. 9le Chapitre 6 le problème de la construction d’ultramétriques significatives pour la segmentation.Dans ce but, nous remarquons que l’information géométrique des objets est en grande partieexprimée dans leurs contours. Ainsi, nous proposons des ultramétriques spécifiques pour l’ex-traction des contours des images naturelles. Ces distances sont déterminées principalement parl’information de frontière des régions, qui est ensuite complétée par leurs attributs internes.Évaluation des résultats La démarche méthodologique suivie consiste à utiliser uniquement l’information de bas ni-veau, retardant le plus possible l’utilisation de la connaissance sémantique dans le processus desegmentation. Ainsi, nous exprimons systématiquement les degrés de liberté de notre systèmesous forme de paramètres et interprétons leur ajustement comme l’introduction d’information deplus haut niveau sur la structure géométrique des objets. La dernière partie du mémoire s’inté-resse à l’inclusion de ce type d’information dans notre système de segmentation. Nous présentonsdans le Chapitre 7 une méthodologie générale pour mesurer la qualité d’une segmentation parrapport à une référence. Cette vérité terrain contient l’information préalable, qui est dans notrecas composée de segmentations humaines d’images naturelles. Ce cadre nous permet finalementdans le Chapitre 8 d’optimiser les paramètres du système, d’évaluer quantitativement la perti-nence de notre approche, et de la comparer à d’autres méthodes de segmentation.
  20. 20. 10
  21. 21. Première partieCadre de travail 11
  22. 22. 12
  23. 23. Chapitre 1Distances et partitions1.1 Introduction La notion de distance est intimement liée à notre façon d’appréhender le monde. Qu’ils’agisse d’objets physiques ou de concepts, il nous semble naturel de comparer deux élémentsd’un ensemble en disant qu’ils sont "proches" ou "éloignés". La formalisation mathématique laplus répandue de cette idée intuitive est celle d’espace métrique, où les éléments de l’ensemblesont appelés points et la distance est mesurée avec des nombres réels positifs. Les distances sont en particulier utilisées pour décomposer des ensembles. Dans cette op-tique, deux stratégies semblent naturelles. La première consiste à considérer un point ou unensemble initial S et à diviser les points de l’espace selon que leur distance à S est inférieureou supérieure à un seuil. Nous appelons cette approche partition par seuillage de la distance.La Figure 1.1.a présente un exemple où S est un point isolé. Dans ce cas, l’ensemble de niveauinférieur de la distance est la boule centrée en S. La deuxième stratégie consiste à se donner une famille de points ou de sous-ensembles, ap-pelés sites, et à assigner chaque point de l’espace au site le plus proche. Cette construction estconnue sous le nom de partition de Voronoï et les régions qu’elle définit sont souvent nom-mées régions de Voronoï. La Figure 1.1.b présente une partition de Voronoï classique. Dans cetexemple, un rectangle du plan est divisé en mesurant la distance euclidienne entre chaque point 13
  24. 24. 14 (a) (b)F IG . 1.1 – Exemple de partitions de l’espace induites par la distance euclidienne. a : partitionpar seuillage. b : partition de Voronoï.et quatre sites. Les régions de Voronoï sont ici des polygones convexes. De nombreux objets naturels, comme ceux des Figures 1.2.a et 1.2.b, présentent une structuresimilaire aux partitions de Voronoï. Il n’est donc guère surprenant que cette notion soit de longuedate familière au monde scientifique. En 1644, Descartes utilisait déjà des constructions prochesdes partitions de Voronoï dans ses Principia Philosophiae [Des44]. La Figure 1.2.c reproduitpar exemple une illustration employée par l’auteur pour décrire la distribution de la matière auxalentours du système solaire. Les premières formalisations du concept sont attribuées à Dirichlet [Dir50] et à Voronoï[Vor07, Vor08, Vor09] dans le cadre de leurs études sur les formes quadratiques. Cependant,grâce à la nature hautement intuitive de sa définition, la partition de Voronoï fut redécouverteindépendamment dans des domaines très divers. Ainsi, les régions de Voronoï sont fréquemmentappelées pleisohedra en cristallographie, polygones de Thiessen en météorologie, régions deWigner-Seitz en chimie, ou encore zones d’influence en morphologie mathématique. Depuis son introduction, la partition de Voronoï a trouvé son application dans un très largespectre de disciplines et a fait l’objet de nombreuses généralisations. Le livre de Okabe et al.[OBSC02] et la monographie de Aurenhammer et Klein [AK00] sont deux ouvrages de référencesur le sujet. Parmi les applications des Partitions de Voronoï à l’analyse d’images, on peut citer
  25. 25. 15 (a) (b) (c)F IG . 1.2 – a et b : Structures naturelles semblables à une partition de Voronoï. c : Représentationdes alentours du système solaire par Descartes : S désigne le soleil, F une étoile proche et lacourbe qui passe par les points E et V décrit la trajectoire d’un comète.la compression [AAS85], la représentation des formes [MR96] ou la classification des textures[TJ90]. Voronoï fut aussi le premier à remarquer qu’une partition duale de l’espace peut être définieen joignant par un segment de droite tous les sites dont les régions sont adjacentes. Cette autrestructure, connue aujourd’hui sous le nom de triangulation de Delaunay, est aussi largementutilisée. Son étude dépasse cependant le cadre du présent travail. Le lecteur intéressé trouveradans [OBSC02] un traitement exhaustif du sujet. Ce premier chapitre présente le cadre mathématique de notre étude ; les principales notionssont définies et les notations employées tout au long du mémoire sont introduites. Nous commen-çons par rappeler les bases du formalisme métrique pour nous intéresser ensuite aux partitionsde l’espace induites par une distance.
  26. 26. 161.2 Espaces pseudo-métriques1.2.1 DéfinitionsDéfinition 1.2.1. Une pseudo-métrique [Kel75] sur un ensemble Ω est une application ψ :Ω × Ω → R qui satisfait les axiomes suivants : Réflexivité : ψ(x, x) = 0, ∀x ∈ Ω. (1.2.1) Inégalité Triangulaire : ψ(x, y) ≤ ψ(z, x) + ψ(z, y), ∀x, y, z ∈ Ω. (1.2.2)Le couple (Ω, ψ) est appelé un espace pseudo-métrique et le nombre ψ(x, y) est la distanceentre les points x et y. Les pseudo-métriques sont parfois aussi appelées écarts finis [Kur66]. Les deux propriétés suivantes sont conséquence immédiate de la Définition 1.2.1 :Proposition 1.2.1. Si (Ω, ψ) est un espace pseudo-métrique, alors : Symétrie : ψ(x, y) = ψ(y, x), ∀x, y ∈ Ω. (1.2.3) Positivité : 0 ≤ ψ(z, y), ∀z, y ∈ Ω. (1.2.4)Démonstration. Pour prouver la Symétrie, considérons l’Inégalité Triangulaire en remplaçant zpar y : ψ(x, y) ≤ ψ(y, x) + ψ(y, y).Or, d’après la Réflexivité, ψ(y, y) = 0, donc : ψ(x, y) ≤ ψ(y, x).
  27. 27. 17En inversant les rôles de x et y on obtient l’inégalité inverse ψ(y, x) ≤ ψ(x, y), d’où le résultat. Prouvons la Positivité. D’après l’Inégalité Triangulaire avec x = y, on a : ψ(y, y) ≤ ψ(z, y) + ψ(z, y)et donc, d’après la Réflexivité, 0 ≤ ψ(z, y). Souvent, la structure métrique est utilisée pour organiser les points de l’espace par rapport àun point ou un ensemble fixé. La distance à un point s ∈ Ω est l’application d’une seule variable ψs : Ω → R+ donnéepar : ψs (x) = ψ(x, s), ∀ x ∈ Ω.La distance à un ensemble S ⊂ Ω est définie comme le minimum de la distance aux points deS: ψS (x) = inf ψs (x), ∀ x ∈ Ω. (1.2.5) s∈S La boule (ouverte) centrée en un point s ∈ Ω et de rayon r > 0 est définie comme dans unespace métrique : Bs (r) = {x ∈ Ω | ψ(s, x) < r}On prouve que la famille de boules B = {Bs (r) | s ∈ Ω, r > 0}est une base pour une topologie, nommée topologie pseudo-métrique de Ω induite par ψ.1.2.2 Espace quotient Remarquons que la seule différence entre la Définition 1.2.1 et celle d’un espace métriqueest la Réflexivité, qui remplace l’axiome de Séparation habituel :
  28. 28. 18 ψ(x, y) = 0 ⇔ x = y. Par conséquent, deux points distincts peuvent se trouver à distance nulle dans un espacepseudo-métrique. Cependant, la relation ∼ψ , définie dans Ω × Ω par la formule x ∼ψ y ⇔ ψ(x, y) = 0satisfait clairement les trois propriétés suivantes : x ∼ψ x, ∀x ∈ Ω. x ∼ψ y ⇔ y ∼ψ x. Si x ∼ψ y et y ∼ψ z, alors x ∼ψ z. La relation ∼ψ est donc une relation d’équivalence et on peut considérer la classe d’équiva-lence d’un point x, formée par tous les points qui sont à distance nulle de x : x(ψ) = { y ∈ Ω | ψ(x, y) = 0}. ˆAinsi, x(ψ) est la fermeture de x pour la topologie pseudo-métrique. Les classes d’équivalence ˆindiquent le niveau de résolution de l’espace, en dessous duquel la distance est aveugle. L’ensemble des classes d’équivalence est noté par : Ω(ψ) = {ˆ(ψ)| x ∈ Ω}. x Une topologie pour Ω(ψ) est alors définie en considérant le système de voisinages suivant : Soit U une partie ouverte de Ω pour la topologie pseudo-métrique qui contient la classex(ψ). Un voisinage de x(ψ) dans Ω(ψ) est défini comme l’union de tous les y (ψ) ∈ Ω(ψ) telsˆ ˆ ˆque y (ψ) ⊂ U dans Ω. ˆ
  29. 29. 19 L’ensemble Ω(ψ) muni de cette topologie est appelé l’espace quotient de Ω sous ∼ψ . Ainsi,la projection naturelle πψ : Ω → Ω donnée par la formule πψ (x) = x(ψ), ∀ x ∈ Ω est une ˆfonction continue. ˆ ˆx ˆ Par conséquent, l’application ψ : Ω(ψ) × Ω(ψ) → R définie par ψ(ˆ, y ) = ψ(x, y) est unemétrique pour l’espace quotient. Remarquons que, dans le cas où ψ est déjà une métrique, alorsl’espace quotient Ω(ψ) est homéomorphe à Ω.1.2.3 Exemples Illustrons à présent les définitions avec trois exemples élémentaires de pseudo-métriques dansle plan : la distance euclidienne et deux projections.Exemple 1 L’espace métrique canonique est l’espace euclidien (Rn , ), où la distance entre deux pointsx = (x1 , ..., xn ) et y = (y1 , ..., yn ) est donnée par la formule de Pythagore : n 1/2 2 (x, y) = (xi − yi ) . i=1Puisque est une métrique, l’espace quotient Rn ( ) coïncide avec Rn et s( ), la classe d’équiva- ˆlence du point s, est réduite au singleton {s}. La Figure 1.3 montre deux exemples de distance euclidienne à un ensemble S ⊂ R2 . Enhaut, S est réduit à un point isolé et le graphe de S est un cône. Dans l’exemple d’en bas, S estune courbe. Cette figure illustre aussi deux façons de présenter la distance à un sous-ensembledu plan. La première est l’image des intensités (au centre), où le niveau de gris de chaque pixelest proportionnel à sa distance à S, et la seconde est le graphe (à droite), comme sous-ensemblede R3 : {(x, ψS (x)) | x ∈ R2 }.
  30. 30. 20 S s s (a) (b) (c)F IG . 1.3 – a : Ensemble de référence S : un point isolé (haut) et une courbe (bas). b : Imagesdes intensités de la distance euclidienne à S. c : Graphes de S .Exemple 2 Soit l’application ψ 1 : R2 × R2 → R définie, pour tout couple de points x = (x1 , x2 ), y =(y1 , y2 ) ∈ R2 , par la formule : ψ 1 (x, y) = |x2 − y2 | = (x2 , y2 ).Remarquons que, puisque (R, ) est un espace métrique, ψ 1 satisfait les deux axiomes de laDéfinition 1.2.1 : ψ 1 (x, x) = |x2 − x2 | = 0, ∀x ∈ Ω. ψ 1 (x, y) = |x2 − y2 | ≤ |z2 − x2 | + |z2 − y2 | = ψ 1 (z, x) + ψ 1 (z, y), ∀x, y, z ∈ Ω. Ainsi, (R2 , ψ 1 ) est un espace pseudo-métrique. Cet espace n’est cependant pas métrique, carla classe d’équivalence d’un point s = (s1 , s2 ) correspond à la droite horizontale qui passe pars: s(ψ 1 ) = { y ∈ R2 | ψ 1 (s, y) = 0} = { (y1 , y2 ) ∈ R2 | y2 = s2 }. ˆ
  31. 31. 21 s(ψ 1 ) ˆ 1 ψs 1 ψs s(ψ 2 ) ˆ 2 ψs 2 ψs (a) (b) (c)F IG . 1.4 – a : Classes d’équivalence d’un point. b : Images des intensités de la distance au point.c : Graphes de la distance au point.L’espace quotient R2 (ψ 1 ) est donc homéomorphe à la droite des réels (R, ). Enfin, la projectionπψ1 est ici la projection du plan cartésien sur l’axe des ordonnées : πψ1 (x1 , x2 ) = x2 , et la ˆmétrique quotient ψ 1 coïncide avec la distance euclidienne dans R.Exemple 3 Exprimons enfin les points du plan en coordonnées polaires et considérons l’application ψ 2définie, pour tout couple de points x = (r1 , θ1 ), y = (r2 , θ2 ) ∈ R+ × [0, 2π[ , par la formule : ψ 2 (x, y) = |r1 − r2 | = (r1 , r2 ).La vérification que ψ 2 est une pseudo-métrique est identique à l’Exemple 2. Par ailleurs, puisqueψ 2 mesure la différence absolue des modules des points, la classe d’équivalence d’un point s =(r0 , θ0 ) est le cercle centré en l’origine O et de rayon r0 : s(ψ 2 ) = { (r, θ) ∈ R+ × [0, 2π[ | r = r0 }. ˆ
  32. 32. 22L’espace quotient de R+ × [0, 2π[ sous ψ 2 est une semi-droite munie de la distance euclidienne. La Figure 1.4 illustre les définitions avec les pseudo-métriques ψ 1 et ψ 2 , dans le cas où S estun point isolé. Notons enfin que, pour ces exemples simples de pseudo-métriques, l’application ψs mesurela distance euclidienne à l’ensemble s(ψ). ˆ1.2.4 Chemins et convexité La notion usuelle de convexité dans Rn repose sur la distance euclidienne. On dit qu’unensemble Ω ⊂ Rn est convexe si, pour tout couple de points, le segment de droite les joignantest entièrement contenu dans Ω. L’étude des partitions d’un espace pseudo-métrique requiertl’extension de ce concept. Un chemin γ entre deux points x, y ∈ Ω est une application continue d’un segment de (R, )dans l’espace (Ω, ψ) : γ : [a, b] → Ω tel que γ(a) = x et γ(b) = y. L’image d’un chemin est appelée une courbe de Ω et notée aussi γ : γ = {x ∈ Ω | ∃t ∈ [a, b] : x = γ(t)} L’ensemble des chemins entre x et y est noté Γxy et l’ensemble des chemins entre points deΩ est noté ΓΩ . Un ensemble Ω est connexe par arcs s’il existe un chemin reliant entre eux tout couple depoints. Un chemin γ ∈ Γxy est ψ−droit s’il satisfait la condition suivante : ∀ t ∈ [a, b], ψ(x, y) = ψ(x, γ(t)) + ψ(γ(t), y)Les chemins ψ−droits sont donc l’équivalent des segments de droite pour une distance arbitraire.Ce sont les chemins pour lesquels l’Inégalité Triangulaire devient une égalité. Notons cependant
  33. 33. 23que, à la différence de l’espace euclidien, un chemin ψ−droit entre deux points d’un espacepseudo-métrique peut ne pas être unique. Ainsi, la notion de convexité dans notre cadre de travail est la suivante :Définition 1.2.2. Un espace pseudo-métrique (Ω, ψ) est convexe si et seulement si, pour toutcouple de points, il existe un chemin ψ−droit les joignant. On dira aussi que l’ensemble Ω est convexe pour ψ. Notons enfin que tout espace convexeest connexe par arcs.1.3 Partitions métriques Cette section s’intéresse aux partitions induites par une distance. Nous commençons par pré-ciser la notion de décomposition de l’espace considérée.Définition 1.3.1. Soit (Ω, ψ) un espace pseudo-métrique. Une partition de Ω est une famillefinie {Ω1 , ..., Ωn } de sous-ensembles de Ω, qui satisfait les conditions suivantes : Ωi est fermé, ∀i ∈ {1, ..., n}. (1.3.1) [Ωi ∂Ωi ] [Ωj ∂Ωj ] = ∅, ∀ i = j. (1.3.2) n Ωi = Ω. (1.3.3) i=1 Une partition est donc un recouvrement de Ω en régions fermées qui se superposent unique-ment sur leurs frontières.
  34. 34. 241.3.1 Partitions par seuillage Un premier type de partitions métriques repose sur la notion d’ensemble de niveau d’unefonction scalaire.Définition 1.3.2. L’isoensemble de niveau k d’une fonction F : Ω → R est défini par : [F = k] = F −1 (k).L’ensemble de niveau inférieur (au niveau k) d’une fonction F : Ω → R est donné par : [F ≤ k] = {x ∈ Ω | F (x) ≤ k}.De même, on définit l’ensemble de niveau supérieur (au niveau k) de F : [F ≥ k] = {x ∈ Ω | F (x) ≥ k}. Si on se donne un ensemble de référence S ⊂ Ω, une première façon de décomposer unespace pseudo-métrique (Ω, ψ) est de considérer les ensembles de niveau de la fonction scalaireψS . Ainsi, on peut partager les points de l’espace entre ceux qui se trouvent à une distance de Sinférieure ou égale à un seuil k : [ψS ≤ k] = {x ∈ Ω | ψS (x) ≤ k}et ceux dont la distance à S est supérieure ou égale à k : [ψS ≥ k] = {x ∈ Ω | ψS (x) ≥ k}.Remarquons que, si S est connexe, alors l’ensemble de niveau inférieur de ψS l’est aussi. Enrevanche, l’ensemble de niveau supérieur de la distance à S, [ψS ≥ k], peut posséder plusieurscomposantes connexes, notées [ψS ≥ k]1 , ..., [ψS ≥ k]q .
  35. 35. 25 Π( , {s}, k) Π(ψ 1 , {s}, k) Π(ψ 2 , {s}, k) F IG . 1.5 – Exemples de partitions par seuillage de la distance à un point. Nous appelons partition par seuillage de la distance l’ensemble : Π(ψ, S, k) = {[ψS ≤ k], [ψS ≥ k]1 , ..., [ψS ≥ k]q }En termes morphologiques, la construction de Π(ψ, S, k) est équivalente à la dilatation de Slorsque l’élément structurant est une boule de rayon k pour la distance ψ. La Figure 1.5 montre trois exemples de ce type de partitions. L’ensemble initial est le points de la Figure 1.4 et les pseudo-métriques sont celles de la Section 1.2.3. Dans chaque cas, leniveau k à été fixé à 3/10 du maximum de la distance sur l’ensemble.1.3.2 Partitions de Voronoï Une deuxième façon de décomposer l’espace à partir de sa structure métrique est de consi-dérer les "régions d’attraction" d’un ensemble de points fixés appelés, selon le contexte, sites,sources ou générateurs.Définition 1.3.3. Soit (Ω, ψ) un espace pseudo-métrique fermé et S = {s1 , ..., sn } ⊆ Ω unensemble fini de sites. La région de Voronoï, ou V-région, du site si ∈ S est définie par : Vi = {x ∈ Ω| ψsi (x) ≤ ψsj (x), ∀j ∈ {1, ..., n}, j = i}. La partition de Voronoï, ou V-partition, de Ω associée à ψ et à S est l’ensemble des régions
  36. 36. 26de Voronoï : Π(ψ, S) = {V1 , ..., Vn }. Le diagramme de Voronoï, ou V-diagramme, de Ω associé à ψ et à S est l’union des fron-tières des régions de Voronoï : n ∆(ψ, S) = ∂Vi . i=1 En morphologie mathématique, les V-régions s’appellent aussi les zones d’influence des siteset le V-diagramme, le squelette par zones d’influence [Lan78]. Notons que la famille finie Π(ψ, S) est bien une partition de Ω, dans le sens de la Définition1.3.1. Dans le cas des espaces convexes, les régions de Voronoï sont de surcroît des ensemblesconnexes, comme le montre le résultat suivant.Proposition 1.3.1. Soit Π(ψ, S) une V-partition dans un espace pseudo-métrique convexe etfermé (Ω, ψ). Alors, tout chemin ψ−droit entre un site si et un point x ∈ Vi est complètementinclus dans Vi .Démonstration. Puisque (Ω, ψ) est convexe, il existe un chemin ψ−droit reliant entre eux toutcouple de points de Ω. Notons γ un chemin ψ−droit entre un site si et un point x de sa région deVoronoï. Supposons que γ n’est pas complètement inclus dans Vi . Il existe alors un point y dansla courbe γ tel que y ∈ Vi . Donc, puisque les régions de Voronoï recouvrent Ω, il existe un autre /site sj = si tel que ψsj (y) < ψsi (y). Mais, étant donné que γ est un chemin ψ−droit, l’InégalitéTriangulaire donne : ψsj (x) = ψ(x, sj ) ≤ ψ(y, x) + ψ(y, sj ) < ψ(y, x) + ψ(y, si ) = ψ(x, si ) = ψsi (x).Ainsi ψsj (x) < ψsi (x). On en déduit que x ∈ Vi , ce qui est en contradiction avec les hypothèses. /
  37. 37. 27 (a) (b) (c)F IG . 1.6 – a : Ensemble de sites S et univers Ω. b et c : Partitions de Voronoï Π(ψ 1 , S) etΠ(ψ 2 , S). Toute région de Voronoï d’un espace pseudo-métrique convexe est donc un sous-ensembleconnexe de Ω. Notons par ailleurs que le résultat précédent fournit une description géométriqueplus précise des V-régions : celles-ci ont la forme d’une étoile à partir du site. Dans le cas despartitions de Voronoï induites par la métrique euclidienne, les V-régions sont des polygonesconvexes, comme le montre la Figure 1.1.a. La convexité n’est cependant pas forcément préser-vée pour une distance arbitraire [AK00]. Remarquons que tout élément d’une partition de Voronoï est une union d’éléments de l’es-pace quotient. De plus, notons que ψs = ψy , ∀y ∈ s(ψ). Un site peut donc être remplacé par ˆun autre point de sa classe d’équivalence sans affecter la V-partition. Par suite, la notion de sitedésignera indistinctement le point s ou sa classe d’équivalence s(ψ). ˆ Considérons par exemple l’ensemble de sites S = {s1 , s2 , s3 , s4 } dans l’univers rectangulaireΩ de la Figure 1.6.a et les pseudo-métriques ψ 1 et ψ 2 de la Section 1.2.2. Puisque s1 et s4ont même ordonnée, leurs classes d’équivalence sous ψ 1 coïncident et correspondent à la droitehorizontale tracée en noir. De même, si l’origine est choisie en s2 , alors on a s1 (ψ 2 ) = s4 (ψ 2 ) ˆ ˆet cette classe d’équivalence unique correspond au cercle noir. Par conséquent, dans toute V-partition induite par ψ 1 ou ψ 2 les deux points appartiendront à la même V-région. En outre, pources deux pseudo-métriques, les ensembles de sites {s1 , s2 , s3 , s4 }, {ˆ1 , s2 , s3 } et {ˆ2 , s3 , s4 } sont s ˆ ˆ s ˆ ˆéquivalents. Les Figures 1.6.b et 1.6.c montrent les partitions de Voronoï obtenues avec l’ensemble de
  38. 38. 28sites de la Figure 1.6.a et les pseudo-métriques ψ 1 et ψ 2 respectivement. Dans le premier cas,les régions de Voronoï sont des bandes horizontales, tandis que pour ψ 2 ce sont des couronnescentrées en l’origine. Remarquons toutefois que l’espace pseudo-métrique (Ω, ψ 2 ) n’est pas convexe. Ceci peuts’observer aussi dans la Figure 1.6.a : tout chemin ψ 2 -droit joignant s1 et s4 est par définitioncontenu dans s1 (ψ 2 ), le cercle noir, or celui-ci n’est pas entièrement contenu dans le rectangle ˆΩ. Par conséquent, les V-régions sous ψ 2 dans cet univers peuvent ne pas être connexes.1.3.3 Cadre variationnel Nous complétons ce chapitre par une formulation variationnelle de l’approche métrique. Ceparagraphe présente les V-partitions en tant que minimisatrices d’une énergie et le paragraphesuivant contient un résultat analogue pour les V-partitions centrées. On se place ici dans Rn et onsuppose que (Ω, ψ) est un espace métrique.Lemme 1.3.2. Soit S = {s1 , ..., sn } un ensemble de sites et Π = {Ω1 , ..., Ωn } une partition deΩ ⊂ Rn telle que si ∈ Ωi , ∀i ∈ [1, ..., n]. Alors, Π est une partition de Voronoï si et seulement si ψsi (x) = ψS (x), ∀ x ∈ Ω. (1.3.4)Démonstration. Supposons que Π = {V1 , ..., Vn } est la partition de Voronoï associée à S. Soientx ∈ Ω et Vi ∈ Π tels que x ∈ Vi . Alors, par définition de V-région, on a ψsi (x) ≤ ψsj (x), ∀j ∈ {1, ..., n}, j = iDonc, d’après la définition de distance à un ensemble (1.2.5), ψsi (x) = ψS (x).
  39. 39. 29Réciproquement, si Π n’est pas une partition de Voronoï, alors au moins une de ses régions n’estpas une V-région : ∃i : Ωi = Vi . Considérons un point x ∈ Ωi Vi . Il existe alors une V-régionVj = Vi telle que x ∈ Vj . On a donc ψS (x) = ψsj (x) < ψsi (x).Théorème 1.3.3. Soit S = {s1 , ..., sn } un ensemble de sites et Π = {Ω1 , ..., Ωn } une partitionde Ω telle que si ∈ Ωi , ∀i ∈ [1, ..., n]. Alors, Π minimise l’énergie : n E(Ω1 , ..., Ωn ) = ψsi (x)dx (1.3.5) i=1 Ωisi et seulement si Π est une partition de Voronoï.Démonstration. Par définition de ψS , on a l’inégalité : n n E(Ω1 , ..., Ωn ) = ψsi (x)dx ≥ ψS (x)dx = ψS (x)dx = E(V1 , ..., Vn ). (1.3.6) i=1 Ωi i=1 Ωi Ω Pour une partition de Voronoï, l’énergie est donc minimale. Réciproquement, si (1.3.6) est une égalité, alors pour tout i, on a Ωi {ψsi (x)−ψS (x)}dx = 0. Mais, par définition, ψsi (x) ≥ ψS (x) et on a : U {ψsi (x) − ψS (x)}dx = 0, pour tout U ⊆ Ωi . Ainsi, puisque ψsi et ψS sont des fonctions continues, l’égalité est vraie sur Int(Ωi ) = Ωi . On a donc prouvé que : ∀x ∈ Ωi , ψsi (x) = ψS (x), ce qui est équivalent à dire que {Ω1 , ...Ωn }est une partition de Voronoï d’après le Lemme 1.3.2. Un avantage de cette formulation variationnelle est qu’elle permet d’introduire de l’informa-tion préalable dans la V-partition. On peut par exemple contrôler la régularité des V-régions enajoutant un terme de longueur de bord à l’énergie (1.3.6). Dans le contexte de la segmentation,cette idée a été employée pour régulariser les contours obtenus par ligne de partage des eaux[NWvdB03]. Cependant, puisque nous ne voulons pas inclure de connaissance à priori sur lecontenu de l’image dans notre système, cette approche ne sera pas développée dans la suite.
  40. 40. 30 (a) (b) (c) F IG . 1.7 – a : V-Partition non centrée. b et c : Partitions de Voronoï centrées.1.3.4 Partitions de Voronoï centrées Une partition de Voronoï centrée est une V-partition où chaque site est le barycentre desa V-région. Notons que cette condition n’est généralement pas satisfaite dans une V-partitionarbitraire, comme le montre la Figure 1.7.a. Le barycentre ou centre de masse z ∗ d’un ensemble V est défini au moyen d’une fonction dedensité ρ : xρ(x)dx z∗ = V V ρ(x)dx Alternativement, on peut définir le barycentre de V par la minimisation d’une énergie : z ∗ = inf ρ(x)ψ(x, z)dx z∈V V Enfin, on peut prouver le résultat suivant [DFG] :Théorème 1.3.4. Soit S = {s1 , ..., sn } un ensemble de sites et Π = {Ω1 , ..., Ωn } une partitionde Ω telle que si ∈ Ωi , ∀i ∈ [1, ..., n]. Si Π minimise l’énergie : n 2 F(Ω1 , ..., Ωn , s1 , ..., sn ) = ρ(x)ψsi (x)dx (1.3.7) i=1 Ωialors Π est une partition de Voronoï centrée.
  41. 41. 31 TAB . 1.1 – Algorithme de Lloyd• Initialisation ◦ Partition de Voronoï initiale Π(ψ, S), où S = {s1 , ..., sn }.• Boucle : Itérer jusqu’à convergence : ◦ Calculer les barycentres des V-régions : S ∗ = {s∗ , ..., s∗ }. 1 n ◦ Construire la Partition de Voronoï Π(ψ, S ∗ ) Notons que la fonctionnelle (1.3.7) dépend aussi bien des régions que des sites, contrairementà celle définie par l’équation (1.3.5). Ce problème de minimisation admet une solution, mais ellen’est généralement pas unique, comme le montrent les Figures 1.7.b et 1.7.c. Il existe un certain nombre d’approches probabilistes et déterministes pour construire despartitions de Voronoï centrées. Une des plus célèbres est l’algorithme de Lloyd [Llo82], présentédans le Tableau 1.1. Cette méthode, un cas particulier des nuées dynamiques de Diday [DLPT82],repose sur l’alternance du calcul des barycentres et de la construction des V-partitions. (a) (b)F IG . 1.8 – Construction d’une Partition de Voronoï centrée par l’algorithme de Lloyd. a : V-partition initiale. b : Résultat après 50 itérations. La Figure 1.8 présente un exemple d’application de cet algorithme. Un ensemble initial de40 sites a été choisi aléatoirement. La fonction de densité est dans ce cas constante, de sorte quez ∗ soit le barycentre usuel, et la distance considérée est la distance euclidienne. On peut observerque les sites tendent à se distribuer uniformément sur l’ensemble.
  42. 42. 32
  43. 43. Chapitre 2Images et segmentations Nous nous intéressons dans ce chapitre au passage du monde continu au monde discret ainsiqu’aux structures mathématiques et algorithmiques qui nous permettront de représenter et mani-puler les images et leurs segmentations.2.1 Images Afin d’appliquer les notions introduites dans le chapitre précédent à la segmentation, l’en-semble Ω désignera dorénavant le domaine d’une image. Plus précisément, une image est une fonction u : Ω → (X, d), où le domaine de définitionΩ est, soit un sous ensemble de Rn dans le cadre continu, soit son intersection par une grillerégulière dans le cadre discret. Le domaine d’une image 2D est usuellement un rectangle fermé du plan dans le cas continuet une partie bornée de Z2 dans le cas discret. Pour les images monochromatiques, l’espace pseudo-métrique d’arrivée (X, d) est (R, ),l’ensemble des réels muni de la distance usuelle. Le cas des images couleur requiert en revancheune étude plus détaillée de l’espace des couleurs. La représentation de la couleur est le sujet de la colorimétrie ; le lecteur intéressé dans ce do-maine trouvera en [WS82] un ouvrage de référence. Le fondement de cette discipline sont les lois 33
  44. 44. 34expérimentales d’égalisation des couleurs, résumées dans le principe de généralisation trichro-matique. Selon ce principe, la plupart des stimuli couleur perceptibles par l’œil humain peuvents’obtenir par le mélange pondéré de trois stimuli primaires. Les couleurs sont par conséquentusuellement représentées par des vecteurs dans un espace de dimension trois, d’où X = R3 . L’espace le plus souvent utilisé est le système RVB, où la couleur d’un pixel est représentéepar le mélange additif des trois canaux chromatiques primaires Rouge, Vert et Bleu. D’une grandeutilité pratique pour le codage, cet espace présente néanmoins deux désavantages majeurs pournotre application : il ne possède pas de métrique naturelle et il est mal adapté à la perceptionhumaine. Outre l’existence d’une distance entre les couleurs, il serait souhaitable que la représentationsépare l’information de luminosité de celle de chrominance, pour pouvoir inclure les imagesmonochromatiques comme un cas particulier du même modèle. Les considérations précédentes nous ont conduit à adopter les standards L∗ ab et L∗ uv de laCommission Internationale de l’Éclairage (CIE). Ces représentations sont des approximationsde l’espace des couleurs perceptuellement uniforme, où la couleur d’un pixel est décomposéeen une composante de luminosité L∗ et deux composantes chromatiques c1 et c2 ((a, b) et (u, v)respectivement). La métrique Riemannienne de l’espace des couleurs est généralement approchée dans lessystèmes L∗ ab et L∗ uv par la distance euclidienne. Cependant, sous certaines conditions d’obser-vation, le poids relatif de la luminosité et de la chrominance perçues de deux stimuli de couleurspeut varier [WS82]. Pour prendre en compte ces variations dans notre système, nous utilisons laformule de distance suivante entre deux couleurs k = (l, c1 , c2 ) et k = (l , c1 , c2 ) de ces espaces : δ ∗ (k, k ) = (l − l )2 + ξ(c1 − c1 )2 + ξ(c2 − c2 )2 . (2.1.1) Dans la suite, l’espace pseudo-métrique d’arrivée des images sera (X, d) = (L∗ c1 c2 , δ ∗ ).Ainsi, lorsque ξ = 0, la seule information prise en compte est la luminosité et on retrouve le cas
  45. 45. 35des images monochromatiques. Par ailleurs, le poids ξ = 1 correspond aux espaces (L∗ ab, ) et(L∗ uv, ) usuels.2.2 Composantes connexes L’objectif de notre travail est la segmentation de bas niveau, c’est-à-dire sans connaissancepréalable du contenu de l’image. Nous supposons donc que l’information des contours des ob-jets est présente dans l’image originale et considérons comme contours possibles uniquementses discontinuités. Ce choix méthodologique, souvent adopté en segmentation morphologique[Mey01b, Ser04], conduit à des contours parfois moins réguliers que ceux des approches diffé-rentielles. En revanche, il n’oblige pas à interpréter l’image comme une fonction régulière. Nous voulons donc construire des partitions métriques du domaine qui ne fragmentent pasles zones constantes de l’image. Cette propriété est satisfaite lorsque la classe d’équivalence d’unpoint x ∈ Ω coïncide avec la composante connexe de u qui contient x, notée Cx (u) et définiepar : Cx (u) = {y ∈ Ω | ∃γ ∈ Γxy : u(x) = u(y) = u(γ(t)), ∀t ∈ [a, b]} . (2.2.1)Alternativement, on peut définir Cx (u) comme le plus grand ensemble connexe qui contient x etoù u est constante. On notera C(u) l’ensemble des composantes connexes de u : C(u) = {Cx (u) | x ∈ Ω}. Nous définirons dans la suite des espaces pseudo-métriques tels que x(ψ) = Cx (u). L’es-pace quotient (Ω(ψ), ψ) est dans ce cas homéomorphe à l’espace des composantes de l’image(C(u), δ ∗ ) et les régions des partitions métriques considérées sont réunion de composantes connexesde u. Remarquons enfin que la non convexité du domaine n’est pas une limitation pour les distances
  46. 46. 36étudiées dans ce travail. En effet, ces distances sont déterminées par les données de l’image, dontla définition peut être étendue hors du domaine de sorte qu’il contienne les chemins ψ-droits.2.3 Segmentations Nous avons jusqu’à présent considéré les segmentations comme des partitions de l’espace ;cette section présente le formalisme de Morel et Solimini [MS95] pour leur définition en termesde contours.2.3.1 Définitions Soit γ : [a, b] → Ω un chemin. Considérons σ = {t0 , ..., tn } une subdivision finie de [a, b]telle que a = t0 < t1 < ... < tn = b et notons Φ l’ensemble de ces subdivisions. La longueureuclidienne de la courbe γ est définie par : n L(γ) = sup (γ(ti ), γ(ti−1 )). (2.3.1) σ∈Φ i=1 Une courbe rectifiable est une courbe de longueur euclidienne finie. Dans ce cas, on peutreparamétrer la courbe par son abscisse curviligne, que nous notons l. Une segmentation K est l’union d’un ensemble fini de courbes rectifiables. La longueur d’une segmentation, notée L(K), est définie comme l’infimum des longueursde tous les ensembles dénombrables de courbes rectifiables dont l’union est K. Si K est l’uniond’un ensemble de courbes rectifiables se rencontrant uniquement en un ensemble dénombrablede points, alors L(K) est la somme des longueurs des courbes. Les régions d’une segmentation sont les composantes connexes de ΩK. Elles seront notées(Ωi )i . La mesure de Lebesgue bidimentionnelle de Ωi est notée |Ωi |. La frontière commune de deux régions Ωi et Ωj est contenue dans K et notée ∂(Ωi , Ωj ) ou,en l’absence d’ambiguïté, ∂ij . La frontière de Ωi est notée ∂Ωi .
  47. 47. 37 Une courbe de Jordan est une courbe continue telle que ∀s, s ∈]0, 1[, s = s , on a γ(s) =γ(s ). Si γ(0) = γ(1), la courbe de Jordan est fermée. Si γ(0) et γ(1) diffèrent, ils sont appelésles extrémités de la courbe. Les autres points sont appelés points intérieurs de la courbe. Une segmentation est normale1 si elle est l’union d’un ensemble fini de courbes de Jordanrectifiables, qui se rencontrent entre elles et rencontrent ∂Ω uniquement en leurs extrémités. Deplus, chaque courbe de Jordan sépare deux régions différentes et chaque extrémité est communeà au moins trois courbes de Jordan. Les contours d’une segmentation normale sont les courbes de Jordan qui la composent. Lespoints de rencontre de la segmentation sont leurs extrémités. Les contours peuvent être définisde façon équivalente comme les composantes connexes des frontières communes ∂(Ωi , Ωj ). Les segmentations normales ont les propriétés suivantes : Une segmentation normale avec α régions peut se décomposer en l’union de α − 1 courbesde Jordan se rencontrant uniquement sur un ensemble fini de points. Soit une segmentation normale avec α régions, β contours et η points de rencontre. Alors : η ≤ 2(α − 1) et β ≤ 3(α − 1) − 2.2.3.2 Représentation des contours Une partition a été définie (Définition 1.3.1) comme un recouvrement du domaine en régionsfermées qui se superposent uniquement sur leurs frontières. Dans le cas de l’espace euclidien,les V-partitions sont effectivement des segmentations normales et l’ensemble des contours Kcoïncide avec le V-diagramme. Cependant, en général, l’ensemble des frontières d’une partitionpseudo-métrique peut avoir une aire non nulle. En outre, sur un domaine discret, cet ensemblepeut être fragmenté comme conséquence du processus de discrétisation. Ces considérations nousont conduit aux choix méthodologiques que nous décrivons dans ce paragraphe. 1 appelée 1-normale dans [MS95]
  48. 48. 38 (a) (b) F IG . 2.1 – Représentation des contours. a : pixels. b : edgels. Un premier problème pratique qui se pose est la représentation de la frontière entre deuxrégions. Pour les images numériques définies sur une grille carrée, on représente usuellementles frontières par un ensemble de pixels ou par les éléments d’une grille duale d’espaces inter-pixellaires appelés edgels2 , comme le montre la Figure 2.1. Si on considère le processus d’acquisition de l’image comme l’échantillonnage d’un phéno-mène continu, le modèle pixellaire semble le plus approprié géométriquement. En effet, puisquela mesure obtenue dans les pixels frontière est un mélange des mesures des pixels voisins, il estpossible de déduire une estimation sous-pixellaire de la frontière réelle si on maîtrise les condi-tions d’acquisition de l’image. Ce ne sera généralement pas notre cas. Le modèle pixellaire surune grille carrée présente par ailleurs des problèmes en topologie discrète, comme la non validitédu théorème de Jordan ou la nécessité de choisir deux connexités différentes pour une région etsa frontière (voir par exemple [SM94]). Nous avons par conséquent adopté le modèle inter-pixellaire qui, du point de vue de la seg-mentation, est plus naturel et facile à gérer. Nous allons donc considérer en pratique des partitionsqui sont un recouvrement du domaine discret en régions disjointes. 2 edgel : acronyme formé des mots anglais edg-e et el-ement.
  49. 49. 39Définition 2.3.1. Une partition du domaine de définition Ω d’une image numérique est unefamille finie {Ω1 , ..., Ωn } de sous-ensembles de Ω, qui satisfait les conditions suivantes : 1. Ωi Ωj = ∅, ∀ i = j. n 2. Ωi = Ω. i=1 Nous supposerons dans la suite que les points centraux des edgels d’une partition discrètesont un échantillonnage des contours d’une segmentation normale. Pour construire une partition discrète, nous assignons les pixels des frontières pseudo-métriquesà l’une des deux régions qu’ils séparent. Nous verrons dans la quatrième partie que, pour les dis-tances étudiées, ce choix est secondaire pour la qualité globale de la segmentation.2.3.3 Images mosaïques A partir d’une segmentation, on peut construire une approximation régulière par morceaux del’image originale en choisissant un modèle, par exemple un spline d’ordre fixé, pour représenterchaque région. Notre approche se fondant sur l’information de l’image originale, nous utiliseronsl’approximation surtout pour présenter les résultats. Le modèle des régions sera donc constant,par exemple, la valeur de l’image sur le site, la médiane ou la moyenne sur la région. On obtientainsi une reconstruction de l’image constante par morceaux qui sera appelée dans la suite uneimage mosaïque ou simplement mosaïque.2.4 Graphes et arbres2.4.1 Définitions Graphes et arbres servent à modéliser les images à différents niveaux d’analyse. Nous rappe-lons dans ce paragraphe les définitions de ces structures et précisons les notations. Pour plus dedétails, le lecteur peut consulter par exemple [CP95].
  50. 50. 40 Un graphe orienté est un couple G = (X, A) où X est un ensemble fini et A est un sous-ensemble de X 2 définissant une relation binaire sur X. Les éléments de X sont les sommets du graphe et ceux de A sont les arcs. On considère l’application V : X → P(X) définie par V (x) = {y ∈ X | (x, y) ∈ A}.L’ensemble V (x) est appelé un voisinage du sommet x ∈ X. Si y ∈ V (x), on dit que x et y sontadjacents. Un élément a ∈ A de la forme a = (x, x) pour x ∈ X est appelé une boucle. Si les propriétés de G ne dépendent pas du sens des arcs, on dit que G est un graphe nonorienté. On considère dans ce cas les couples non ordonnés a = (x, y), qu’on appelle arêtes. Un graphe est simple s’il est sans boucles et s’il n’y a jamais plus d’une arête entre deuxsommets donnés. Un graphe est planaire s’il est possible de le représenter dans un plan sans que deux arcs nese croisent. Un chemin, ou chaîne, entre deux sommets x0 , xn ∈ X est une séquence π = {x0 , x1 , ..., xn }telle que xi+1 ∈ V (xi ) pour tout i = 0, ..., n − 1. L’ensemble des chemins entre x et y est noté,comme dans le cas continu, Γxy . Un cycle est une chemin dont les extrémités coïncident et qui n’utilise pas deux fois le mêmearc. Un graphe est connexe si, pour tout couple de sommets, il existe un chemin les joignant. Un arbre est un graphe non orienté simple, connexe et sans cycle. La structure de graphe peut être enrichie en considérant une application à valeurs réelles wdéfinie sur X ou sur A. Dans le premier cas, on parle d’attribut d’un sommet et, dans le second,de poids d’une arête. G est appelé dans les deux cas un graphe valué.
  51. 51. 41 Image Zones plates Graphe de composantes F IG . 2.2 – Exemple de graphe de composantes d’une image.2.4.2 Graphes d’adjacenceGraphe de pixels Une image peut toujours être traitée comme un graphe de pixels, où les sommets sont lespixels et les arêtes relient des pixels voisins pour une connexité discrète (usuellement 4, 6 ou 8connexité). Dans ce cas, on peut assigner comme attribut à chaque sommet la valeur de l’imagedans le pixel. Le poids des arêtes sert à exprimer des relations entre pixels voisins. Ce graphe estutilisé dans le Chapitre 3 pour implanter les distances pondérées.Graphe de composantes Dans le cadre de notre approche, les éléments de base ne sont pas les pixels mais les com-posantes connexes de l’image. Une première façon d’interpréter les composantes dans le cadrediscret est de considérer des chemins sur le graphe de pixels dans leur définition (2.2.1). Lacomposante d’un point est ainsi définie comme sa zone plate, l’ensemble des points qu’on peutatteindre en suivant un chemin discret où l’image est constante. Ainsi, nous utilisons souvent un graphe de composantes à la place du graphe de pixels. Dansce graphe, les sommets représentent les zones plates de l’image et leur attribut est la valeur ducanal de luminosité L∗ . Les arêtes sont pondérées par la distance couleur δ ∗ entre deux compo-santes voisines. Sur cette structure repose une des constructions de la distance étudiée dans le
  52. 52. 42Chapitre 4.Graphe de régions Une segmentation est une partition du domaine de l’image et, à toute partition discrète, onpeut associer un graphe appelé graphe d’adjacence de régions (RAG3 ). Les sommets du graphesont les parties connexes des régions qui composent la partition. Deux sommets sont reliés parune arête si les deux régions sont adjacentes, c’est-à-dire s’il existe au moins deux pixels voisinsappartenant chacun à l’une des deux régions. De même que le graphe de composantes, le RAGdépend du type de connexité entre les pixels. Il est planaire pour la 4-connexité mais pas pour la8-connexité. Dans le cas du RAG, nous allons considérer une liste d’attributs pour décrire les caractéris-tiques internes de chaque région. Le poids des arêtes sera pour sa part une mesure de dissem-blance entre deux régions adjacentes. Un avantage du RAG est d’élever le niveau de représentation de l’image en passant des pixels(ou des composantes connexes) aux régions. Ces graphes se trouvent à la base des représentationshiérarchiques des images qui seront construites dans la troisième partie du mémoire. Le graphede pixels et le graphe de composantes en sont des cas particuliers.2.4.3 Arbres d’inclusion La représentation de l’image par un graphe d’adjacence privilégie la relation de connexité.La relation d’inclusion est pour sa part codifiée naturellement par une structure d’arbre.Arbre de formes Le graphe de composantes est construit en représentant, dans le cadre discret, les compo-santes connexes par des zones plates. Pour les images monochromatiques, une alternative est de 3 RAG : de l’anglais Region Adjacency Graph.
  53. 53. 43 [u ≥ 0] [u ≥ 1] [u ≥ 2] Arbre de maxima [u ≤ 2] [u ≤ 1] [u ≤ 0] Arbre de minima F IG . 2.3 – Exemple d’arbres de minima et de maxima avec l’image de la Figure 2.2.considérer les ensembles de niveau (voir la Définition 1.3.2). Les composantes connexes des ensembles de niveau sont ordonnées par l’inclusion (voirla Figure 2.3). Les ensembles de niveau supérieurs définissent donc un arbre, appelé arbre demaxima (max-tree), dont les feuilles sont les maxima régionaux de l’image et la racine est le plusbas niveau [SOG98]. La même construction, réalisée avec les ensembles de niveau inférieurs,définit un arbre de minima (min-tree). Une implantation efficiente de ces structures est proposéedans [CNB05]. Les arbres de minima et de maxima sont des structures complémentaires mais redondantes.Une façon de combiner leurs informations en une structure unique a été proposée par Monasse[Mon00]. Dans ce travail, les éléments de base sont les "formes", les composantes connexes desensembles de niveau (inférieurs et supérieurs) dont on remplit les "trous". Un arbre de formes,dont les feuilles sont les extrema de l’image sans trous, est alors construit. Cet arbre est une re-présentation de l’image sans redondance et invariante par changements de contraste. Un exempled’arbre de formes est présenté dans la Figure 2.4, où on peut observer que l’information desformes est codée une seule fois. Ainsi, nous considérons une deuxième définition discrète de composante. Soit u une imagescalaire et Px la plus petite forme de l’arbre de formes de u qui contient le point x. La composante
  54. 54. 44 Image u Arbre de formes F IG . 2.4 – Exemple d’arbre de formes d’une image.connexe de u contenant x est donnée par : Cx (u) = {y ∈ Ω |Py = Px } (2.4.1)L’arbre de formes est utilisé comme alternative au graphe de composantes dans le Chapitre 4.Arbre de régions Un graphe de régions sert à représenter une partition du domaine d’une image. Dans le Cha-pitre 6, nous nous intéressons à des méthodes de segmentation où les régions d’une partition ini-tiale sont fusionnées de façon itérative. Un tel algorithme peut s’implanter au moyen d’un RAG,où la fusion de deux régions connexes se réalise en réunissant les deux sommets correspondantset en supprimant l’arête qui les joint. Le processus de fusion en entier peut se représenter par unarbre de régions ordonné selon l’inclusion, comme dans l’exemple de la Figure 2.5.2.4.4 Distances sur un graphe Rappelons enfin quatre distances classiques qu’on peut construire à partir des chemins d’ungraphe. Somme des poids : d1 (x, y) = min w(a). π∈Γxy a∈π
  55. 55. 45F IG . 2.5 – Exemple d’arbre de régions. La fusion de deux régions connexes correspond à lacréation d’un sommet de l’arbre. Les arêtes codifient la relation d’inclusion. Poids maximum : d2 (x, y) = min max w(a). π∈Γxy a∈π Somme des attributs : d3 (x, y) = min w(xi ). π∈Γxy xi ∈π Attribut maximum : d4 (x, y) = min max w(xi ). π∈Γxy xi ∈π Ces distances peuvent s’interpréter en assimilant le graphe à un réseau routier, où les sommetsreprésentent des villes, l’attribut le péage pour passer par une ville, les arêtes les routes reliantles villes et leur poids la distance les séparant. Ainsi, d1 mesure la longueur du plus court cheminentre deux villes et d3 la somme à payer pour emprunter le chemin le moins cher. De même,d4 mesure le plus petit péage maximum sur les chemins entre deux villes, et d2 la plus petitedistance maximum entre deux villes consécutives des chemins. Les distances précédentes peuvent se calculer à l’aide d’un algorithme de chemins minimauxclassique comme celui de Dijkstra [Dij59, KR99]. Dans la troisième partie du mémoire, nous construirons un autre type de distances, les ultra-métriques, sur un graphe de régions.
  56. 56. 46
  57. 57. Deuxième partieMétriques de chemin 47
  58. 58. 48
  59. 59. Chapitre 3Distances pondérées L’application du cadre métrique requiert la définition de distances spécifiques pour traiterun problème particulier. Dans le cas de la segmentation, la distance doit se construire à partirdes données de l’image, afin d’être représentative de son information géométrique. Par exemple,segmenter une image au moyen d’une V-partition euclidienne est inapproprié, car le choix d’unensemble de sites et d’un domaine détermine les V-régions, indépendamment de l’informationde l’image. La question qui se pose est donc comment construire de telles distances. La réponse proposéedans cette partie du mémoire repose sur l’étude des chemins entre points du domaine de l’image.Dans ce but, une quantité, interprétée comme une notion d’énergie ou de longueur généralisée,est mesurée le long des chemins. La distance est alors donnée par le minimum de l’énergie surtous les chemins entre deux points. Dans ce chapitre, nous commençons par préciser la définition des métriques de chemin dansla Section 3.1, pour ensuite nous intéresser à l’exemple le plus classique de ce type de pseudo-métriques, les distances pondérées. 49
  60. 60. 503.1 Définition des métriques de cheminDéfinition 3.1.1. Une structure de longueur pour l’ensemble Ω [Gro99] est une applicatione : ΓΩ → R+ qui satisfait les conditions suivantes : 1. e(γ) = 0 si et seulement si γ est constant. 2. Si γ est la concaténation de γ1 et γ2 , alors e(γ) = e(γ1 ) + e(γ2 ). 3. Si γ : [a, b] → Ω est un chemin et f : [c, d] → [a, b] est un homéomorphisme, alors γ ◦ f est un chemin et e(γ ◦ f ) = e(γ). Les deux premières conditions sont la traduction en termes de chemins de la définition depseudo-métrique, comme nous le verrons par la suite. La troisième, pour sa part, indique quee est invariante par changements de paramètre et donc que la longueur est une notion qui agitdirectement sur la courbe image du chemin. Notons par ailleurs que la longueur euclidiennedéfinie en (2.3.1) satisfait la définition précédente. À partir d’une structure de longueur, on peut définir une distance en considérant sa valeurminimale sur tous les chemins qui relient deux points de l’ensemble Ω :Définition 3.1.2. La métrique de chemin ψ induite par la structure de longueur e est définiepar : ψ(x, y) = inf e(γ), ∀ x, y ∈ Ω. γ∈Γxy Vérifions qu’une métrique de chemin est effectivement une pseudo-métrique. Pour la Réflexi-vité de la Définition 1.2.1, considérons un point x ∈ Ω et le chemin constant γ0 ∈ Γxx définipar : γ0 (t) = x, ∀t ∈ [a, b]. Puisque γ0 est constant, d’après la Définition 3.1.1, e(γ0 ) = 0 et doncψ(x, x) ≤ 0. Le résultat découle de l’hypothèse ψ(x, x) ≥ 0. Pour prouver l’Inégalité Triangulaire, considérons trois points x, y, z ∈ Ω et notons par Γxˆy zl’ensemble des chemins entre x et y obtenus par la concaténation d’un chemin entre x et z et
  61. 61. 51 (a) (b) F IG . 3.1 – Principe de Fermatd’un chemin entre z et y. On a alors Γxˆy ⊂ Γxy , car l’ensemble des chemins qui passent par z zest un sous ensemble de tous les chemins entre x et y. Donc, d’après l’Axiome 2 de la Définition3.1.1, on obtient : ψ(x, y) = inf e(γ) ≤ inf e(γ) = inf e(γ1 ) + inf e(γ2 ) = ψ(z, x) + ψ(z, y), γ∈Γxy γ∈Γxˆy z γ1 ∈Γzx γ2 ∈Γzyoù γ est la concaténation de γ1 et γ2 .3.2 Optique géométrique La notion de chemin minimal trouve son fondement physique dans le domaine de l’optiquegéométrique. Nous rappelons dans cette section certains résultats classiques de cette disciplinepour situer les distances pondérées dans notre cadre de travail. Le lecteur trouvera une expositiondétaillée du sujet dans des ouvrages de référence tels [BW80, Sea49, ST91]. Un milieu optique où la vitesse de la lumière est constante est appelé milieu homogène. Untel milieu est caractérisé par le nombre n ≥ 1, nommé indice de réfraction et défini par le rapportentre la vitesse de la lumière dans le vide c0 et sa vitesse c dans le milieu. Les différentes définitions seront illustrées à l’aide de la Figure 3.1.a, où le point s représenteune source ponctuelle de lumière monochromatique. La ligne horizontale médiane correspond

×