Object detection and recognition in digital images

Table des matières
1 Détection et Reconnaissance d’Objets 8
1.1 Vision par ordinateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Un peu d’histoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Représentation d’images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5.1 Méthodes de représentation globales . . . . . . . . . . . . . . . . . . 13
1.5.2 Méthodes de représentation locales . . . . . . . . . . . . . . . . . . . 13
1.6 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.1 k plus proches voisins . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.2 Arbres de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.3 Machines à vecteurs de support . . . . . . . . . . . . . . . . . . . . . 15
1.6.4 Modèles graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6.5 Les modèles à variables latentes d’aspect . . . . . . . . . . . . . . . . 16
1.6.6 Réseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.7 Boosting : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 Conception 26
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Approche 1 : 1-Chebychev . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.1 La segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.2 Représentation de l’image . . . . . . . . . . . . . . . . . . . . . . . . 40
2.2.3 Reconnaissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.3 Approche Couleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.3.1 Représentation des objets . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.2 Construction du modèle . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.3.3 Appariement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.4 Localisation des objets . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.5 Localisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3.6 Avantages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
1

3 Implémentation 55
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2 Environnement de travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.1 Environnement logiciel . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.2 Environnement matériel . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3 Présentation de la base d’apprentissage . . . . . . . . . . . . . . . . . . . . 57
3.3.1 Base de données COIL-100 . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3.2 Base de données ETH-80 . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.3 Acquisition des deux bases . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4 Présentation de l’interface graphique . . . . . . . . . . . . . . . . . . . . . . 59
3.4.1 Première Approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4.2 Deuxième approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.4.3 Troisième approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.5 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.1 Choix de la fonction du noyau . . . . . . . . . . . . . . . . . . . . . . 68
3.5.2 Principe de l’apprentissage . . . . . . . . . . . . . . . . . . . . . . . . 70
3.6 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.6.1 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.6.2 Fonction d’efficacité du récepteur ROC . . . . . . . . . . . . . . . . . 74
3.6.3 Taux de la reconnaissance des deux bases . . . . . . . . . . . . . . . . 75
3.6.4 Rappel et précision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Bibliographie 87
2

Table des figures
1.1 Exemple d’Objets spécifiques. Gauche : Carl Gauss. Droite : le Taj Mahal. . 9
1.2 Exemple de catégories d’objets. . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Gauche :Exemple de variabilité intra-classe de la catégorie chaise. Droite : Cet
objet à l’apparence étrange est une chaise de par sa fonction. . . . . . . . . . 11
1.4 Gauche : Exemple d’occlusion. Droite : Exemple de changement de point de
vue et rotation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Reconnaissance basé modèles . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6 A gauche la classification, est simple quel que soit le nombre de voisins.A
droite, revanche tout dépend du nombre de voisin l’affectation à une classe est
pondérée par la distance, plus un voisin est éloigné, plus son influence est faible. 14
1.7 Exemple de classification avec arbre de décision. . . . . . . . . . . . . . . . . 15
1.8 Exemple de classification avec AdaBoost. . . . . . . . . . . . . . . . . . . . . 18
1.9 a) L.G.Roberts. b) Scène de blocks. c) Frontières extraites à l’aide du gradient.
d) Description polyhedral de la scène. e) Scène 3D avec changement de point
de vue. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.10 Représentation des objets par les cylindres généralisés. a) Thomas Binford.
b)Image de la gamme d’une poupée. c) Cylindres généralisés obtenues. . . . 20
1.11 Graphe d’aspects. Deux vues d’un objet, les différentes projections forment un
graphe d’adjacence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.12 Représentation des objets à l’aide des geons. . . . . . . . . . . . . . . . . . . 21
1.13 Modèle utilisé par Fischler et Elschlager pour modéliser le visage Figure pro-
venant de [1]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1 Système de reconnaissance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Résultat de segmentation avec DBscan globale. Gauche : Image originale.
Droite : Image segmentée labellisée. . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Résultat de segmentation avec DBscan locale en utilisant les niveaux de gris.
Gauche : Image en niveau de gris. Droite : Image labellisée, nous obtenons une
sur-segmentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4 Gauche : Image convertit dans l’éespace HSV. Droite :Résultat de segmenta-
tion avec DBscan locale en utilisant la Teinte. . . . . . . . . . . . . . . . . . 32
2.5 Gauche : Rsultat de segmentation avec DBscan locale en utilisant le Teinte.
Droite : Localisation des objets. . . . . . . . . . . . . . . . . . . . . . . . . . 32
3

2.6 Gauche : Image convertit dans l’espace HSV. Milieu :Résultat de segmentation
avec DBscan locale en utilisant la Teinte. Droite :Résultat de segmentation
l’objet n’est pas détecté. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7 Organigramme de la méthode. . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.8 Représentation des minimums et maximums locaux sur l’histogramme. . . . 34
2.9 Bas : Extraction des minimums et maximums locaux à partir de l’histogramme. 35
2.10 Gauche : Image binarisée. Droite :Histogramme des niveaux de gris ainsi que
les seuils min et max en rouge. . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.11 Image binarisée après érosion. . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.12 Image binarisée après dilatation puis inversion. . . . . . . . . . . . . . . . . . 37
2.13 Superposition des deux images précédentes. . . . . . . . . . . . . . . . . . . 38
2.14 Étapes de segmentation d’objets : les régions marqués en blanc s’étendent
jusqu’aux frontières des objets. . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.15 Résultats de la segmentation. -Gauche : frontières des objets. -Milieu :Segmen-
tation des objets. Droite : résultat final, extraction des objets. . . . . . . . . 40
2.16 Reconstruction à différents ordres avec notre calcul des moments ainsi qu’avec
le calcul classique de ceux ci. . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.17 L’effet de la rotation sur les descripteurs à différents ordres. . . . . . . . . . 44
2.18 Influence de l’ordre et la rotation sur le calcul des moments. . . . . . . . . . 46
2.19 Résultat de segmentation dans une scène réelle. Gauche : Image de la scène.
Droite : Image segmentée, même si nous arrivons à extraire les objets du fond,
nous ne pouvons les distinguer. . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.20 Système de Reconnaissance de la seconde méthode. . . . . . . . . . . . . . . 48
2.21 Représentation d’un objet en prenant en compte l’information spatiales de
points définis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.22 calcul des points candidats. . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.23 2 Superposition des deux axes sur les différents centres possibles, une seule
superposition est correcte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.1 Objets de la base de données Columbia Object Image Library. . . . . . . . . 57
3.2 Objets de la base de données ETH-80. . . . . . . . . . . . . . . . . . . . . . 58
3.3 Acquisition de la base COIL-100. . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4 Interface d’accueil l’application. . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.5 Choix d’une base de données. . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6 Choix de l’image de la scène. . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.7 Affichage de l’image de la scène . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.8 Segmentation de l’image. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.9 Reconnaissance d’objets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.10 Interface d’accueil de la deuxième approche . . . . . . . . . . . . . . . . . . . 64
3.11 Apprentissage d’un objet avec la deuxième méthode . . . . . . . . . . . . . . 64
3.12 Reconnaissance des objets avec la deuxième méthode . . . . . . . . . . . . . 65
3.13 l’interface d’accueil de la troisième approche. . . . . . . . . . . . . . . . . . . 66
3.14 Le choix entre les deux méthodes de SURF . . . . . . . . . . . . . . . . . . . 66
3.15 choix de l’image de la scène et de l’objet à trouver. . . . . . . . . . . . . . . 67
3.16 Résultat de la détection hors ligne. . . . . . . . . . . . . . . . . . . . . . . . 67
4

3.17 Résultat de la détection en ligne. . . . . . . . . . . . . . . . . . . . . . . . . 68
3.18 Comparaison entre les fonctions de noyau. . . . . . . . . . . . . . . . . . . . 69
3.19 Comparaison des méthodes : (a) l’image original en RGB ; (b) l’image original
appliqué avec Canny ; (c) l’image reconstruite par la méthode classique ;(d)
l’image reconstruite par notre méthode. . . . . . . . . . . . . . . . . . . . . 71
3.20 Etude comparative sur les temps d’exécution et l’apprentissage. . . . . . . . 72
3.21 Etude comparative sur la précision de la reconnaissance avec et sans couleur. 73
3.22 Courbe ROC obtenu pour les dix objets. . . . . . . . . . . . . . . . . . . . . 74
3.23 Etude comparative sur la précision de la reconnaissance avec les différentes
méthodes de calcul. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.24 Image de scène réelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.25 étude comparative sur la précision, le rappel et F-Mesure entre la deuxième et
la troisième méthode. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.26 étude comparative sur le temps de calcule entre la deuxième et la troisième
méthode. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5

Liste des Algorithmes
1 Algorithme de la première méthode. . . . . . . . . . . . . . . . . . . . . . . . 29
2 Procédure de Clusterisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3 Algorithme de la deuxième méthode. . . . . . . . . . . . . . . . . . . . . . . . 31
4 Algorithme de Binarisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5 Algorithme d’extraction de seuils pour la Binarisation. . . . . . . . . . . . . . 36
6 Algorithme de Segmentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
7 Algorithme de la rotation 1-Chebychev. . . . . . . . . . . . . . . . . . . . . . 45
8 Algorithme de la première méthode. . . . . . . . . . . . . . . . . . . . . . . . 49
9 Algorithme de Matching. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6

Introduction
La vision par ordinateur est une branche de l’intelligence artificielle qui se concentre sur
l’extraction d’information utile contenue dans une image. Durant les dernières décennies,
un grand nombre d’approches innovants ont été développés dans ce but. Ces recherches
ont permis d’atteindre des taux de reconnaissance appréciables sur de nombreuses bases
de données de test. Ces méthodes extraient une représentation de l’image sous forme de
descripteurs. Elles utilisent ensuite l’apprentissage automatique (Machine Learning) pour
traiter ces descripteurs et obtenir le résultat recherché comme, par exemple, la reconnaissance
des objets présents dans l’image.
Nous proposons dans ce mémoire une étude sur le thème de la détection d’obstacles, il
comportera trois chapitres :
Chapitre 1 : Détection et reconnaissance d’objets : Ce mémoire aborde tout d’abord de
manière générale les thèmes de la vision par ordinateur et de ses domaines d’application. Il
dresse une synthèse de l’état de l’art des systèmes de détection et reconnaissance d’objets
les différents descripteurs d’objets ainsi que diverses méthodes de classification. Avant de
s’intéresser plus en détail à la méthode développée au cours de ce travail de fin d’études.
Chapitre 2 : Conception :Dans la deuxième partie de ce document nous avons décrit
les différentes étapes de la mise en œuvre de nos approches développées, en commen¸cant
par les méthodes de segmentation d’objets, nous détaillerons par la suite la procédure de
la construction des descripteurs basé moments de Chebyshev comme première approche, et
basé distribution des couleurs dans l’espace RBGa comme deuxième approche.
Chapitre 3 : Implémentation : Nous commen¸cons dans ce dernier chapitre par décrire
l’environnement de travail qui nous a permis d’implémenter nos approches. Nous entamons
par la suite la description des différentes interfaces de l’application, puis nous avons exposé les
résultats obtenus par les différentes approches de détection, en termes de temps d’exécution
et de taux de reconnaissance , pour donner une idée comparative de l’aspect pratique de nos
méthodes.
7

Chapitre 1
Détection et Reconnaissance d’Objets
Sommaire
1.1 Vision par ordinateur . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Un peu d’histoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Représentation d’images . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5.1 Méthodes de représentation globales . . . . . . . . . . . . . . . . . 13
1.5.2 Méthodes de représentation locales . . . . . . . . . . . . . . . . . . 13
1.6 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.1 k plus proches voisins . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.2 Arbres de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.3 Machines à vecteurs de support . . . . . . . . . . . . . . . . . . . . 15
1.6.4 Modèles graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6.5 Les modèles à variables latentes d’aspect . . . . . . . . . . . . . . . 16
1.6.6 Réseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.7 Boosting : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.1 Vision par ordinateur
La discipline qui vise à automatiser la compréhension des images est la Vision par Or-
dinateur. D’autres appellations existent notamment Vison artificielle ou Vision cognitive,
cette branche de l’intelligente artificielle à pour objectif de permettre aux machines de com-
prendre le contenu des images (ce que la machine voit !). Cette discipline se divise en plusieurs
domaines et application : Reconstruction 3D, Segmentation, Analyse du mouvement, recon-
naissance de formes, traitement d’images. On comprend que les applications sont nombreuses,
8

celles-ci citées le sont à titre d’exemple, elles ne constituent pas une liste exhaustive mais
donnent une idée des objectifs de ce domaine.
1.2 Un peu d’histoire
En 1966 Marvin Minsky chercheur au MIT assigne pour projet, à un étudiant de premier
cycle la tâche de raccorder une camera à un ordinateur et que la machine devait ”décrire ce
qu’elle voit”. [2] Très vite l’on s’aper¸coit de la difficulté du problème.
Près de cinquante ans après et en dépit des progrès réalisés les machines ne sont toujours
pas capables d’interpréter les images, l’Homme prouve largement sa supériorité.
Dans ce Chapitre nous nous intéressons au problème de l’interprétation en particuliers au
sous problème de la détection et reconnaissance d’objets.
La plus part des tâches liés à la vision repose sur la capacité à reconnaitre les objets
et leurs catégories. Une variété d’application fait appel à la reconnaissance et ce dans de
nombreux domaines d’intelligence artificielle, par exemple la recherche basé sur le contenu
d’images, vidéo mining, détection d’objets, assistance à la conduite.
1.3 Définition
Un système de reconnaissance d’objets est un système qui permet de retrouver des objets
du monde réel à partir d’une image du monde,à l’aide des modelés d’objets qui sont connues
a priori.
La communauté de Vision considère qu’il y a deux types de reconnaissances d’objets : une
reconnaissance spécifique et une reconnaissance générale. Dans la reconnaissance spécifique
nous cherchons à identifier des objets particulier dans une image exemple le portrait de Gauss,
le Taj Mahal, une certaine couverture de revue.
Figure 1.1 – Exemple d’Objets spécifiques. Gauche : Carl Gauss. Droite : le Taj Mahal.
9

En revanche dans la cas de la reconnaissance générale nous cherchons à reconnaitre
différentes instances de catégorie d’objets, appartenant à la même classe conceptuelle, exemple
( bâtiments, automobiles, personnes... etc).
Figure 1.2 – Exemple de catégories d’objets.
Nous nous intéressons dans ce travail au deuxième type. En particuliers au problème de
Détection d’objets. La Détection d’objets est une tâche très similaire à la reconnaissance
d’objets, en effet on pourrait voir le problème de la détection comme un problème de re-
connaissance dans le sens ou nous cherchons à distinguer ce qui est objet de ce qui ne l’est
pas (le fond) donc il faut reconnaitre ce qu’est un objet,ses caractéristiques. On pourrait
définir la Détection d’objets comme suit : La tâche de déceler dans une image la présence
d’une ou plusieurs catégories d’objets. Généralement la tâche de la DO permet la localisa-
tion approximative sous forme de boite englobante. D’un point de vu segmentation la DO
permettrait de délimiter les frontières des objets, de déterminer les pixels appartenant à un
objet et ceux appartenant au fond.
1.4 Problématique
Apprendre à reconnaitre une unique instance d’objet n’est pas suffisant pour bon nombre
de problèmes, nous nous intéressons ici à la reconnaissance à l’échelle de la catégorie. Cepen-
dant envisager la reconnaissance de catégories présente plusieurs difficultés. La première et
celle de la définition et de l’organisation de ces catégories. Cette question a re¸cu une atten-
tion considérable dans des travaux notamment dans le domaine de la psychologie cognitive
(Brown 1958) [3]. La question du bon découpage des catégories est difficile à aborder on peut
10

trouver des objets ayant une apparence similaire ou une fonction similaire mais appartenant
à des classes différentes, et vice versa. Nous supposerons dans notre travail que les catégories
sont définies par l’exemple, au moyen de bases d’images.
plusieurs autres facteurs liés aux variations des objets dans les images contribuent aux
difficultés.
La plupart des classes d’objets naturels ont des grandes variations au sein de la même
catégorie, et l’apparence de deux objets appartenant à la même classe peuvent être différents.
Souvent les catégories sont définies de fa¸con fonctionnelle et non visuels, par exemple un objet
sera classé comme chaise du moment ou il a pour fonction de permettre de s’assoir disposera
d’un dossier mais il n’a pas forcement quartes pieds ( voir figure 1.3) on parle alors de varia-
tion intra-classe.
Figure 1.3 – Gauche :Exemple de variabilité intra-classe de la catégorie chaise. Droite : Cet
objet à l’apparence étrange est une chaise de par sa fonction.
Le processus de formation de l’image supprime l’information 3D ce qui a pour conséquence
tout petit changement dans la position ou la rotation ou du point de vue (view point) de l’ob-
jet par rapport au centre de la camera peut changer l’apparence de l’objet considérablement.
Une question connexe à laquelle il faut faire face et le changement d’échelle (scaling) une
bonne détection devrait être robuste à de tels changements.
Souvent les objets peuvent être partiellement masqués et apparaissent généralement sur
des fonds complexes et variés. Un autre problème est le changement d’illumination en ef-
fet l’éclairage générale affecte l’apparence d’un objet par exemple un objet en plein soleil ou
dans la nuit n’aura pas la même apparence.
Ainsi un détecteur d’objet robuste doit pallier aux problèmes liés à ces changements d’ap-
parence, et fournir une invariance à la détection.
11

Figure 1.4 – Gauche : Exemple d’occlusion. Droite : Exemple de changement de point de
vue et rotation.
La difficulté de la détection ne réside pas seulement dans ces problèmes à surmonter,
mais aussi dans la difficulté d’exploiter certaines informations liés au contexte à priori utile,
l’apparence d’un objet peut être ambigus il semble intéressant de modifier la classe d’un objet
en relation avec le contexte de la scène.
En plus des difficultés évoqués relative à la robustesse des algorithmes de reconnaissance
rencontre des défis notables dans la complexité de calcul. Le fait que la moitié du cortex
cérébral chez les primates est consacré au traitement visuel donne une indication de la charge
de calcul investit dans cette tâche complexe [4]. Des algorithmes efficaces sont donc nécessaire
pour utiliser de riches représentations d’images de grandes dimensions, d’exploiter de grandes
bases de données d’images, ou étendre la reconnaissance à des milliers de catégories d’objets.
Nous présentons un schéma récapitulatif d’un système de reconnaissance voir Figure 1.4.
La modélisation est constituée de deux phases : [5]
La première est hors ligne (off line) qui consiste à représenter les images de la base qui
puissent exister dans la scène et construire ainsi une base de modèles.
La deuxième est une étape en ligne qui est l’étape de la reconnaissance elle consiste
à effectuer des transformations spatiales, à déterminer la position d’un objet dans la
scène et surtout à réaliser une mise en correspondance entre les objets de la scène et
les modèles de la base d’images construites lors de l’étape hors ligne.
12

Figure 1.5 – Reconnaissance basé modèles
1.5 Représentation d’images
La question de la représentation des objets est cruciale il est évidement peu judicieux
d’utiliser directement les valeurs des pixels de l’image, qui peuvent être très différents pour
des images presque identiques, sinon comparer les images pixel à pixel, lorsque l’objet est
légèrement translaté, la représentation devient complètement différente. Et même si la mise
en correspondance est parfaite, il suffit de remplacer l’objet presque identique pour que la
valeur des pixels soit entièrement modifiée. La représentation a fait l’objet de beaucoup de
contributions ces dernières années. En effet, plus la représentation est adaptée, plus les règles
de décision dans cet espace sont faciles à définir.
Nous distinguons deux types d’approches.Les méthodes globales et les méthodes locales.
1.5.1 Méthodes de représentation globales
Historiquement les méthodes globales ont été proposés en premier, elle calcule une signa-
ture de l’image dans sa globalité, à l’aide de différents descripteurs de surface, périmètre,
descripteur de Fourier, et les moments. En fonction du descripteur ces méthodes peuvent
être robustes aux variations que subit l’objet comme l’illumination, la rotation, le change-
ment d’échelle mais ne sont pas adaptées aux occultations et la présence de fond complexes.
C’est pour pallier à ces limitations très contraignantes que les méthodes locales ont été pro-
posées.
1.5.2 Méthodes de représentation locales
Ces méthodes considèrent les images comme étant des régions d’intérêts locales, généralement
de taille assez faibles par rapport à la taille de l’image. Elles sont appelés ”patch” seuls les
régions considérées comme importantes sont utilisées ce qui permet de limiter la quantité
d’information à manipuler par leurs nature locale et leur capacité à permettre aisément les
appariements entre images. Ces méthodes conduisent à des algorithmes robustes aux trans-
lations, aux changements d’échelles, aux occultations, et à la présence d’un fond difficile qui
sont les caractéristiques classiques des images en conditions réelles.
13

1.6 Classification
Les méthodes de classification ont pour but d’identifier les classes auxquelles appar-
tiennent des objets à partir de certains traits descriptifs. La procédure de classification est
extraite automatiquement à partir d’un ensemble d’exemples. Un exemple consiste en la des-
cription d’un cas avec la classification correspondante. Un système d’apprentissage doit alors,
a partir de cet ensemble d’exemples extraire un modèle, il s’agit en effet d’extraire une règle
générale à partir des données observées. La procédure générée devra classifier correctement
les exemples de l’échantillon et avoir un bon pouvoir prédictif pour classifier correctement
de nouvelles descriptions. Nous introduisons dans les sections suivantes, les concepts de la
classification supervisée ainsi que les méthodes usuelles utilisées en vision par ordinateur.
1.6.1 k plus proches voisins
La méthode des K plus proches voisins (Knn K nearest neighbor en anglais) [6] se base sur
une comparaison directe entre le vecteur caractéristique représentant l’entité à classer (ici un
objet) et les vecteurs caractéristiques représentant des entités de référence. La comparaison
consiste en un calcul de distances entre ces entités. L’entité à classer est assigné à la classe
majoritaire parmi les classes des k entités les plus proches au sens de la distance utilisée.
Les principaux inconvénients de cette méthode sont le nombre d’opérations pour classer
une entité dans le cas d’une grande base ainsi que sa sensibilité au bruit présent dans les
données d’apprentissage.
Figure 1.6 – A gauche la classification, est simple quel que soit le nombre de voisins.A
droite, revanche tout dépend du nombre de voisin l’affectation à une classe est pondérée par
la distance, plus un voisin est éloigné, plus son influence est faible.
1.6.2 Arbres de décision
Le formalisme des arbres de décision permet de classifier un nouvel objet en testant ses
caractéristiques les unes à la suite des autres. La classification se fait à travers une séquence
de questions dans laquelle chaque question dépend de la réponse à la question précédente.
Cette séquence de questions est représentée par un arbre de décision dont les feuilles ter-
minales représentent les classes. Deux types de valeurs sont possibles discrètes et continues,
14

selon qu’il s’agisse d’un arbre de classification ou un arbre de régression.
La figure 1.6.2 illustre un exemple de classification sur des données continues à deux dimen-
sions en utilisant les arbres de décision.
Dans la phase de construction de ce classificateur, les exemples de l’ensemble de l’appren-
tissage sont divisés récursivement par des tests définis sur des caractéristiques pour obtenir
des sous-ensembles d’exemples ne contenant que des exemples appartenant tous à une même
classe. Les algorithmes existant ( CART ( [7]), ID3 ( [8]), C4.5 ( [9])...) différent essentielle-
ment par leur fa¸con de choisir, à une ”tape donnée et parmi les caractéristiques disponibles,
la caractéristique de segmentation et par le critère d’arrêt.
Figure 1.7 – Exemple de classification avec arbre de décision.
1.6.3 Machines à vecteurs de support
Les machines à vecteurs de support, ou Support Vector Machine (SVM) sont des fonc-
tions discriminatives. Intuitivement, les SVM sont basés sur deux principes. Le premier est
de maximiser la marge du classifieur, c’est-à-dire la distance entre la frontière de décision et
les échantillons les plus proches. Le deuxième est l’utilisation d’une fonction noyau (kernel
trick) pour travailler dans un espace de représentation où les données dont linéairement
séparables. Les détails mathématiques peuvent être trouvés par exemple dans [10], Les SVM
présentent de bonnes propriétés de généralisation, en effet, ils sont capables de construire des
modèles sans sur apprentissage, même dans le contexte de peu d’exemples d’apprentissage
représentés par des vecteurs de grande dimension.
1.6.4 Modèles graphiques
Les modèles graphiques utilisent avantageusement des représentations des distributions
de probabilité par des diagrammes. Cela permet de visualiser de fa¸con simple et agréable les
structures du modèles probabiliste. Cette modélisation permet aussi d’avoir un aper¸cu des
15

propriétés du modèle à partir du graphe, notamment les propriétés d’indépendance condi-
tionnelles [10]. Un graphe est constitué de nœuds, qui représentent les variables aléatoires,
et d’arcs qui connectent ces nœuds entre eux. Ce sont des relations probabilistes entre va-
riables. Le graphe capture de fa¸con dont nœuds dépendent seulement d’un sous ensemble de
variables. Plusieurs types de modèles graphiques sont généralement distingués :
Les réseau bayésiens ou modèles graphiques directs sont tels que le lien ente les nœuds a
une directions particulière, indiquée par des flèches et permet de modéliser une relations
causale.
Une deuxième classe très populaire est celle des champs de Markov (MRF) ou modèle
graphique indirect. Les liens n’ont pas de direction, et modélisent des contraintes spa-
tiale entre les labels d’éléments voisins dans le graphe. Ils s’intéressent à la probabilité
conjointe des observations et des labels. Ils servent en général à régulariser un champs
de labels à l’échelle d’une image.
1.6.5 Les modèles à variables latentes d’aspect
Sont des modèles à variables latentes d’un intérêt tout particulier. Les deux plus utilisés
en vision sont les modèles pLSA et LDA. Introduits initialement pour la classification de
textes, ces modèles sont basés sur une représentation en mots visuels. Le modèle pLSA [11]
ou Probabilistic Latent Semantic Analysis, introduit par Hofmann suppose que les images
sont décrites par des distributions sur des variables d’aspect, les topics, et que chaque to-
pic possède une probabilité de générer chacun des mots. Les deux étant modélisés par des
distributions multinationales. Le modèle LDA ou Latent Dirichlet Allocation, introduit par
Blei, Ng et Jordan [?], suppose quant à lui que ces probabilités multinationales sont obtenues
à l’aide d’un a priori de Dirichlet. Les modèles des chapitres 3 et 5 sont des extensions du
modèle LDA.
1.6.6 Réseaux de neurones
Les réseaux de neurones sont inspirés de la structure neurophysiologique du cerveau.
Un neurone formel est l’unité élémentaire d’un système modélisé par un réseau de neurones
artificiels. A la réception de signaux provenant d’autres neurones du réseau, un neurone formel
réagit en produisant un signal de sortie qui sera transmis à d’autres neurones du réseau. Le
signal re¸cu est une somme pondérée des signaux provenant de différents neurones. Le signal
de sortie est une fonction de cette somme pondérée :
yj = f(
n
i=1
wijxi)
avec yj la sortie du neurone formel j en question, xi; (i = 1 ::: N) les signaux re¸cus
par le neurone j de la part des neurones i, et wij les poids des interconnexions entre les
neurones i et j. Selon l’application, la fonction f, appelée fonction d’activation, est le plus
souvent une fonction identité, sigmo¨ıde, tangente hyperbolique ou une fonction linéaire par
morceaux. L’apprentissage du classificateur consiste à faire évoluer les poids wij par des
16

méthodes d’optimisation non linéaires pour minimiser une fonction de coût qui constitue une
mesure de l’écart entre les réponses réelles du réseau et les réponses désirées.
1.6.7 Boosting :
Le Boosting (Schapire [12]) désigne un principe général d’apprentissage permettant
d’améliorer la précision d’un algorithme d’apprentissage donné. Le principe général est de
combiner linéairement des résultats de classificateurs dits ”faibles” affin de construire un
classificateur ”fort” d’apprentissage à partir de l’ensemble original et une méthode de com-
binaison de classificateurs construits à partir de chaque nouvel ensemble.
Pour définir sa nouvelle technique de ”Boosting”, Shapire se base sur l’idée que tout classifi-
cateur faible capable d’apprendre avec une certaine confiance et une erreur de classification
inférieure à (0.5), peut être transformé en un classificateur plus confiant et avec une erreur
de classification aussi petite que désirée. En d’autres termes, un classificateur faible don-
nant de meilleurs résultats qu’un simple pile ou face (50% de risque) peut être la base pour
construire un ensemble de classificateurs. A chaque itération, l’algorithme cherche à trouver
un classificateur faible qui peut corriger au mieux les erreurs des classificateurs obtenus aux
itérations précédentes. Dans le principe de ”Boosting”, cet objectif est réalisé à l’aide d’une
pondération des données d’apprentissage. Le premier algorithme dérivé de ce concept est
”AdaBoost”. Dans la section suivante, nous décrivons l’algorithme ”AdaBoost”.
Adaboost :
L’algorithme ”AdaBoost” (Adaptive Boosting), développé par Freund et Schapire (Freund
et Schapire [13]), est un algorithme qui crée impérativement une combinaison linéaire de
classificateurs de la forme :
H(x) = Signe(
T
t=1
αtht(x))
Où ht représente un classificateur faible et αt son poids.
”AdaBoost” est un algorithme qui prend en entrée, en plus d’un ensemble d’apprentissage,
un second algorithme de classification. A chaque itération, ”AdaBoost” appelle le second
algorithme afin d’apprendre un nouveau classificateur qui corrige les erreurs de prédiction de
la combinaison linéaire courante. Une fois ce nouveau classificateur appris, il est ajouté dans
la combinaison linéaire avec un poids associé qui maximise la performance de la nouvelle
combinaison.
La figure 1.6.7 illustre un exemple d’AdaBoost appliqué sur des données en deux dimensions.
17

Figure 1.8 – Exemple de classiﬁcation avec AdaBoost.
18

1.7 État de l’art
La reconnaissance d’objets a suscité l’intérêt de la communauté scientifique dés les pre-
miers pas de la vision par ordinateur. les premiers travaux en reconnaissance à la fin des
années 60 étaient basés sur la géométrie nous pouvons cités quelques travaux fondateurs :
Roberts [14] propose une approche ou l’objet est modélisé en blocks ”block world” en an-
glais,défini comme suit : ”Nous supposerons que les objets vus pourraient être construits avec
des parties avec lesquelles nous sommes familiers. Nous voyons l’objet comme une transfor-
mation en un modèle précon¸cu , ou un ensemble de parties précon¸cu ... La seule exigence est
que nous ayant une description complète de la structure tridimensionnelle de chaque modèle.”
Ce modèle géométrique en théorie fonctionne mais il est bien loin de la pratique de nom-
breuses difficultés ne peuvent être abordés dans ce modèle comme pour les objets articulés
ou en mouvement, les surfaces curvilignes, les occlusions et les formes inconnues, texture
complexe tel que le feuillage, surfaces transparentes ou translucides.
Figure 1.9 – a) L.G.Roberts. b) Scène de blocks. c) Frontières extraites à l’aide du gradient.
d) Description polyhedral de la scène. e) Scène 3D avec changement de point de vue.
Thomas Binford [14] représente les objets par des cylindres généralisés, la méthode consiste
en un balayage de l’objet, celui ci est donc représenté comme une ossature par des cylindres
le long d’un axe.
Le principale avantage de cette méthode est la capacité à représenter des objets ayant une
forme curviligne, un exemple de description d’ un objet en utilisant les cylindres généralisés,
est montré dans la figure suivante.
19

Figure 1.10 – Représentation des objets par les cylindres généralisés. a) Thomas Binford.
b)Image de la gamme d’une poupée. c) Cylindres généralisés obtenues.
Stephen Underwood and Clarence [14] propose une approche basé sur les graphes d’aspects
dans lesquels les aspects 2D d’un objet 3D sont collectés dans des groupes appelés aspects
sous forme d’un graphe ou chaque nœud représente une vue (aspect) et les arcs représentent
les relations entre les aspects et le passage d’une vue à une l’autre.
la représentation par graphe d’aspects eu beaucoup de succès dans la communauté scienti-
fique en effet la notion humaine est basé sur l’apparence (view centred representation) plutôt
qu’une vision basée sur l’objet.
Intuitivement cette représentation semble adéquate, mais la modélisation sous formes de
graphes d’aspects demeure complexe.
Figure 1.11 – Graphe d’aspects. Deux vues d’un objet, les différentes projections forment
un graphe d’adjacence.
20

Biederman [15] introduit cylindres généralisées déformables appelés geons qui a démontré
que la reconnaissance d’objets peut être caractérisé par l’absence ou la présence de geons
(cônes) dans la scène 3D. De ce fait le réalisme na¨ıf qui émerge dans descriptions d’objets
peut refléter les mécanismes d’un système par lequel les objets sont identifiés.
Néanmoins le modèle affronte des limitations pour concrétiser des entités (objets) réelles.
Figure 1.12 – Représentation des objets à l’aide des geons.
Dans les travaux précédents les chercheurs ont mis l’accent sur la définition des éléments
primitifs pour modéliser les objets. D’autres travaux se sont d’avantage intéressé sur la notion
de structure géométrique des objets (relations géométrique).
Fischler et Elschlager [1] ont tenté de formaliser la connaissance d’un objet en le subdi-
visant en plusieurs parties puis en représentant ces parties par un modèle en constellation
intégrant la relation entre les différentes parties et la flexibilité qu’elles peuvent avoir.
21

Figure 1.13 – Modèle utilisé par Fischler et Elschlager pour modéliser le visage Figure
provenant de [1].
Or la tâche s’est avéré rapidement difficile et les efforts se sont tournés vers des images
plus simples ou encore des environnement contrôlés. Ainsi durant les années 80 et le début
des années 90, les travaux se sont portés sur des objets bien centrés, généralement avec des
fonds uniformes, tels que les caractères et visages [16].
Le problème de ces méthodes est que les objets étaient souvent représentés par des images
elles mêmes (représentation explicite au moyen d’exemple). les modèles n’étaient donc pas
résistants aux transformations et variations que peut subir l’image telles que les variations
d’apparence et de point de vue. ou encore sur des fonds complexes. Les méthodes par ap-
prentissage ont apportés des réponses à ces problèmes, elles permettaient de produire de
classifieurs automatiquement à partir d’exemples d’apprentissage.
D’autres part, les techniques de descriptions d’images ont progressé. La description d’une
image ayant fait l’objet d’un travail considérable ont permit l’émergence de méthodes au-
jourd’hui classiques.
Agrawal et al [17] : développe un système de détection de véhicule en se basant sur la les
modèles de recherche d’informations ceci en construisant un vocabulaire visuel à partir de
patchs, Ces patchs sont ensuite regroupés selon une fonction de similarité. Les descripteur
de l’image est construit en faisant une corrélation entre le dictionnaire visuel et un vecteur
binaire celui ci détermine si un mot visuel est présent ou absent dans une image. étant
donnée un ensemble de données d’apprentissage marqué comme positifs ou négatifs chacune
de ces données est convertit en la représentation décrite ci dessus. Un classfieur SNow (
Sparce Network of Winnows) est utilisé pour l’apprentissage. Pour la phase de la détection
(localisation) les auteurs utilisent la méthodes des fenêtres glissantes ( sliding window) qui
parcourt l’image à la recherche potentiel d’objets d’intérêts.
22

Vijayanarasilhan et Grauman [17] propose une approche originale pour la détection d’objet
en effet il propose une méthode qui permet d’éviter l’utilisation des fenêtres glissantes sachant
que celles ci sont couteuse en temps d’exécution. Étant donné un ensemble de donnés d’ap-
prentissage (images) ou chacune d’elle est segmenté au niveau du pixel (man segmentation)
ils entrainent un classifieur pour distinguer les catégories d’objets. Pour la détection ayant
une nouvelle image il effectuent une sur-segmentation en sous régions, puis pour chacune de
ces sous régions on extrait les caractéristiques associé et finalement le classifieur renvoie un
score pour chacune des sous régions. Un graphe est construit le problème de détection est
réduit au problème MWCS (trouver un sous graphe fortement connexe en maximisant un
certain score).
Martin et al [18] proposent une méthode pour la détection et la localisation des frontières
dans les images naturelles en utilisant une combinaisons de caractéristiques locales aux pixels.
Un classifeiur est utilisé pour faire l’apprentissage sur des images ground truth, la sorti
du classifeur donne la probabilité de la présence d’une frontière à chaque localisation et
orientation dans l’image. Les auteurs utilisent les discontinuités au niveau de la luminance (
oriented energy and gradient), les gradients couleurs, ainsi que les gradient au niveau de la
texture en utilisant la transformées d’Hilbert avec un filtre gaussien.
Gao et Fen [19] ont comparés trois différentes approches pour la détection des objets
saillants. La première méthode est basée sur la segmentation en utilisant l’algorithme Jseg
cette algorithme est intéressant car il ne permet pas seulement de trouver une homogénéité
dans les couleurs mais aussi il cherche l’homogénéité de la texture dans une image. Mais cette
approche rencontre des limites car elle produit biens souvent une sur-segmentation des régions
d’un objet la seconde méthode (grid based method) basé grille permet d’éviter les erreurs
du au processus de segmentation le principe est de partitionner l’image en grille superposé
(overlapping grid). Les caractéristiques Sift sont calculées pour chaque grille, L’avantage
d’une telle méthode et contrairement aux méthodes basé sur le template matching est de ne
pas prendre en considération les portions non significatives des grilles et ce en se concentrant
uniquement sur la forme globale d’un objet. Malgré cela cette méthode devient inadéquate
lorsque la grille ne couvre pas les objets saillants d’une image. La troisième méthode peut
pallier à ce problème (part based method) basée sur les régions ou des parties d’une image.
L’idée est construire un dictionnaire de patchs extraits d’une image. Pour une image test
donnée il suffit de calculer ces caractéristiques est de faire un matching avec le modèle. Enfin
les auteurs proposent une méthode hybride en faisant la combinaison des 3 méthodes décrites.
Maaoui et al [20] présentent une approche de reconnaissance d’objets basée sur l’utilisation
des moments de Zernike appliqués à des images couleur, la détection est effectué en utilisant
une segmentation couleur et l’étiquetage des composantes connexes et une méthode basée
sur les Svm est utilisée à l’étape de l’apprentissage.
23

Lee et al [21] détectent les objet saillants d’une image naturels , il calcule une carte de
saillance en appliquant la méthode PCA ( principale component analysis) à la couleur dans les
espaces RGB et CIE-Lab une clusterisation des distributions des couleur est ils obtiennent
une carte de saillance. la classification objet/fond est obtenue en appliquant une analyse
discriminative linéaire ( LDA) pour chaque pixel de l’image test.
Wang et al [22] présentent une nouvelle approche pour la détection de catégories d’ob-
jets en combinant des descripteurs d’apparence locales et des contraintes contextuelles. Ils
construisent une foret de Hough de patchs afin de déterminer les emplacements possibles de
différents objets, enfin il considèrent des contraintes d’emplacement spatiales entre les objets
dans un espace de vote de Hough afin d’améliorer la précision de la détection.
Juang et Chen [23] proposent un système flou pour la détection d’objets en temps réel
à l’aide d’un svm (TFS-SVMPC). Le système de détection consiste en deux étapes : La
première utilise un histogramme globale de couleur de l’objet comme caractéristique discri-
minative, ici en particuliers les auteurs proposent une méthode pour calculer l’histogramme
afin de permette l’implémentation en temps réel. La seconde étape utilise une caractéristique
géométriques de dépendances locales des couleurs des objets comme descripteur pour le même
classifieur.
Fulkerson et al [24] proposent une méthode pour la localisation d’objets, en utilisant les
superpixels plutôt que les pixels. De la ils construisent un histogramme de caractéristiques
locales pour chaque superpixel. les CRF (Conditional Random Field) sont utilisés pour la
phase de reconnaissance.
La plupart des méthodes de détection d’objets utilisent pour la localisation des objets sur
la technique des fenêtres glissantes, cette technique consiste en une recherche exhaustive sur
toute l’image, cette méthode est particulièrement couteuses en temps de calcul. Beaucoup
d’avancées dans les méthodes sont apparues, en ce sens nous pouvons citer quelques travaux
marquants.
Le détecteur de visages de Viola et Jones [25] qui a inspiré les détecteurs de utilisés dans
les appareils photo numériques. Cette méthode se base sur une cascade de classifieurs où
un descripteur de fenêtre est évalué par une série de classifeurs qui peuvent choisir de le
rejeter ou de continuer les traitements. La cascade permet d’accélérer la classification. Une
autre technique intéressante proposé par Viola et Jones est celle des images intégrales cette
technique permet d’accélérer considérablement le calcul des caractéristiques.
Lampert et al [26] ont traité le problème sous un angle différent en se basant sur l’algorithme
de Séparation et Évaluation (Branch and Bound). La méthode proposé permet de trouver le
maximum global de la fonction de score tout en examinant un nombre restreint de fenêtres,
mais cette méthode ne permet pas l’utilisation des classifieurs les plus performants, ceci à
cause des contraintes sur les fonctions de score qui influe sur le choix du classifieur à utiliser.
24

D’autres travaux se sont intéressés à la représentations des objets, notons les travaux
de Dalal et Triggs [27] ont proposé un descripteur à base des histogrammes d’orientations
des gradients (HOG) pour la détection de personnes, inspiré de SIFT. le descripteur est
calculé dans une fenêtre 64*128 la taille du descripteur (histogramme) est de 3870. La phase
d’apprentissage est fait à l’aide d’un classifieur SVM. La détection quant à elle est effectué
via une fenêtre glissante, chaque fenêtre calcul le descripteur HOG puis le classifieur retourne
avec quelle confiance cette fenêtre contient l’objet d’intérêt.
D’autres travaux se sont intéressées à la modélisation des objets.
Leibe et al [28] proposent une méthode des modèles implicites de forme (Implicit shape mo-
del) qui permet de d’apprendre la relation entre les mots visuels et le masque de segmentation
des objets, et sera capable de retrouver dans une nouvelle image.
25

Chapitre 2
Conception
Sommaire
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Approche 1 : 1-Chebychev . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.1 La segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.2 Représentation de l’image . . . . . . . . . . . . . . . . . . . . . . . 40
2.2.3 Reconnaissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.3 Approche Couleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.3.1 Représentation des objets . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.2 Construction du modèle . . . . . . . . . . . . . . . . . . . . . . . . 49
2.3.3 Appariement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.4 Localisation des objets . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.5 Localisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3.6 Avantages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.1 Introduction
Comme précisé dans le chapitre précédent, la détection d’objets reste l’un des principaux
sujets de recherche en vision par ordinateur, de part, la complexité de la tâche mais surtout
la capacité à s’adapter à tout types d’environnement.
L’objectif de notre travail est de permettre à un ordinateur de détecter et de reconnaitre
des objets présents dans une image. Après quelques recherches et après voir passé en revue
différentes techniques et méthodes existantes pour la détection d’objets, nous présentons dans
ce qui suit notre contribution dans cette tâche.
26

La détection d’objets présente beaucoup de difficultés à différents niveaux, nous pouvons
les résumer dans ce qui suit :
La représentation de l’objet : il est nécessaire de représenter de manière discriminative
les objets. Nous devons donc concevoir un descripteur robuste aux changements et
diverses variations des objets.
Il est important de bien définir les classes d’objets, cherchons-nous des catégories d’ob-
jets ou bien des instances ?
La manière de faire la correspondance entre un objet (susceptible d’en être un) et le
modèle connu à priori. (Apprentissage automatique, Template matching,...).
La localisation des objets dans une image : ou se trouvent ils ? Comment les extraire ?
(Segmentation, parcours exhaustive,...).
La complexité des algorithmes existants : comment parvenir à une reconnaissance en
temps réel ?
Toutes ces questions représentent des difficultés que nous devons surmonter. L’objet de la
suite de ce chapitre est de fournir des réponses à ces questions, nous présentons en détails
nos différents algorithmes.
Nous avons con¸cu deux approches différentes pour la détection d’objets, nous détaillerons
une à une dans la suite de chapitre.
2.2 Approche 1 : 1-Chebychev
Dans cette approche nous proposons une méthode de reconnaissance basée sur l’utilisation
des moments de Tchebychev comme descripteur d’objet. Dans ce qui suit, nous donnerons
plus de détails sur le système con¸cu.
Figure 2.1 – Système de reconnaissance.
27

2.2.1 La segmentation
La segmentation d’une image est une étape cruciale dans la tâche de la détection d’objets.
Nous proposons dans cette section différentes méthodes que nous avons con¸cu pour segmenter
les objets et les extraire du fond.
Méthode 1 : DBscan globale
DBscan est un algorithme de clusterisation de données basées densité (denisity based). La
tâche de clusterisation consiste au regroupement des données selon un critère de similarité.
DBscan permet de regrouper des points ( Des données) denses en un seul cluster. Les clusters
obtenues forment des hyper-sphères.
DBscan utilise deux paramètres, la distance (epsilon) et MinPts. la distance représente
le rayon ou peut s’étendre le cluster, MinPts lui représente le nombre de points minimum
pour qu’un ensemble de points soit considéré comme cluster.
L’un des avantages quant à l’utilisation de cette méthode est le fait de ne pas connaitre à
priori le nombre de clusters, contrairement à d’autres méthodes de clusterisation.
Dans le cas des images, il s’agit de regrouper les pixels proches et ayant une certaine
similarité en un cluster, ici nous appliquons DBscan d’une manière différente. Le rayon de
recherche est étendu à toute l’image, nous calculons donc la similarité d’un point avec tous les
autres points de l’image. c’est une exploration globale de l’image, ceci permet de regrouper
des points plus ou moins éloignés portant les mêmes caractéristiques.
28

Données : I image. S : seuil de comparaison. MinPts : nombre de pixel minimum
dans un cluster.
Résultat : Image labellisée
Debut
Label=0
pour tout pixel P dans L’image faire
si P est non visité alors
marqué P comme visité
ListePixels< −− genererSimilaire(P, seuil)
si || ListePixels|| < Minpts alors
marquer P comme bruit ;
fin
sinon
/* incrementer le label */
Label< −− Label +1
clusterisation(P, Label,ListePixels)
fin
fin
fin
Fin
Algorithme 1: Algorithme de la première méthode.
La fonction générer Similaire retourne la liste des points portant les mêmes caractéristiques
que celui re¸cu en argument. la fonction clusterisation permet d’étendre le cluster et de labeliser
chaque élément du cluster.
Données : I : P pixel .ListePixels : contient les éléments similaires au pixel P.
Résultat : cluster labelisé
Debut
pour chaque élément e dans ListePixels faire
/* générer sa liste de points similaire */
ListeSim< −−générerSimilaire(e,seuil)
si || ListeSim|| > Minpts alors
fusionner(ListeSim,ListePixels)
fin
fin
Fin
Algorithme 2: Procédure de Clusterisation.
29

Cette approche s’est avérée efficace en terme de clusterisation, de plus elle est résistante
aux changement de gradients et de luminance présents dans l’image, la méthode est robuste
aux variations locales de l’image.
Figure 2.2 – Résultat de segmentation avec DBscan globale. Gauche : Image originale.
Droite : Image segmentée labellisée.
Malgré ces avantages la méthode est couteuse en temps de calcul car chaque pixel est
comparé avec l’ensemble des pixels de l’image. Pour pallier à cette déficience nous proposons
une amélioration à l’algorithme 1.
Méthode 2 : DBscan locale
Dans cette méthode nous explorons l’image de manière locale et non pas globale. Cette fois
ci les pixels sont comparés avec leurs voisinages immédiats, de manière analogue à la méthode
des composantes connexes. Nous comparons chaque pixel aux pixels adjacents, le rayon de
recherche est fixé à 1, contrairement à la première, cette méthode est rendue sensible aux
changements de gradients, couleurs, et autres variations locales. La méthode pourrait mener
à une sur-segmentation, ceci est dû principalement au fait de comparer les niveaux de gris
des pixels.
30

Données : I image. S : seuil de comparaison. MinPts : nombre de pixel minimum
dans un cluster.
Résultat : Image labellisée
Debut
Label=0
pour tout pixel P dans L’image faire
si P est non visité alors
marqué P comme visité
ListePixels< −− genererSimilaire(P, seuil)
si || ListePixels|| < Minpts alors
marquer P comme bruit ;
fin
sinon
/* incrementer le label */
Label< −− Label +1
clusterisation(P, Label,ListePixels)
fin
fin
fin
Fin
Algorithme 3: Algorithme de la deuxième méthode.
La fonction générer voisins Similaires retourne cette fois ci la liste des points adjacents (8
connexité) portant les mêmes caractéristiques que celui re¸cu en argument.
Figure 2.3 – Résultat de segmentation avec DBscan locale en utilisant les niveaux de
gris. Gauche : Image en niveau de gris. Droite : Image labellisée, nous obtenons une sur-
segmentation.
31

Pour pallier à ce problème Nous avons donc alors opté pour un changement dans l’espace
des couleurs, nous avons exploité l’espace HSV au lieu de travailler avec les niveaux de gris.
Nous avons choisi l’espace HSV car cette représentation des couleurs est plus proche de la
perception humaine. En utilisant cette fois que la composante Hue (Teinte).
Figure 2.4 – Gauche : Image convertit dans l’éespace HSV. Droite :Résultat de segmentation
avec DBscan locale en utilisant la Teinte.
Le temps d’exécution de cette méthode, contrairement à la première, est nettement plus
réduit, le temps de réponse est instantané, ceci est dû au fait d’explorer l’image localement,
chaque pixel avec son voisinage. les résultats de cette segmentation sont proches de la notion
d’objets car les objets ont plus ou moins les mêmes caractéristiques.
Figure 2.5 – Gauche : Rsultat de segmentation avec DBscan locale en utilisant le Teinte.
Droite : Localisation des objets.
Néanmoins pour des images ayant des objets et des fonds fortement texturé, la méthode
trouve ses limites. voir Figure 2.2.1
32

Figure 2.6 – Gauche : Image convertit dans l’espace HSV. Milieu :Résultat de segmentation
avec DBscan locale en utilisant la Teinte. Droite :Résultat de segmentation l’objet n’est pas
détecté.
Nous avons donc par la suite con¸cu une autre méthode pour la segmentation.
Méthode 3
Afin d’apporter une solution aux limitations des algorithmes précédents, nous proposons
ici une toute autre approche.
La figure suivante illustre le principe de notre méthode. Schéma récapitulatif de notre méthode :
Figure 2.7 – Organigramme de la méthode.
33

Binarisation
L’étape de la binarisation est une étape clé dans notre algorithme, le but de cette étape
est de permettre l’extraction des objets de leurs fond, il nous faut distinguer les pixels ap-
partenant certainement aux objets et le pixels appartenant au fond.
Le problème qui se pose est celui du choix d’un seuil pour la binarisation, en effet chaque
image à une distribution de niveau de gris qui lui est propre, comment choisir alors un seuil
et surtout savoir l’adapter à chaque image ?
Le seuillage n’est pas nécessairement une opération qui s’effectue manuellement, la valeur
d’un seuil peut être obtenue de manière automatique.
Notre démarche pour faire cela est d’estimer deux seuils à partir de l’histogramme des
niveaux de gris associé à l’image. Le but est de trouver les meilleurs seuils permettant de
séparer deux populations, l’une serait le fond et l’autre les objets.
Le principe est de parcourir l’histogramme des nivaux de gris, en récupérant les mini-
mums et les maximums locaux significatifs ( une grande variation dans l’histogramme c.à.d.
un changement brusque dans les fréquences des valeurs). Enfin parmi eux choisir les meilleurs
seuils qui encadrent la distribution de tel sorte a englober les valeurs qui se répètent le plus.
Figure 2.8 – Représentation des minimums et maximums locaux sur l’histogramme.
34

Figure 2.9 – Bas : Extraction des minimums et maximums locaux à partir de l’histogramme.
Données : I Image I. seuil1, seuil2
Résultat : Image binarisée B.
Debut
pour tout pixel P dans Image faire
si P<seuil1 ou P > seuil2 alors
P< −−255 /* pixel en blanc */
fin
sinon
P< −−0 /* pixel en noir */
fin
fin
Fin
Algorithme 4: Algorithme de Binarisation.
Nous pouvons illustrer par l’exemple suivant voir figure Figure 2.10
Figure 2.10 – Gauche : Image binarisée. Droite :Histogramme des niveaux de gris ainsi que
les seuils min et max en rouge.
35

Données : I Image I.
Résultat : Seuil seuil1, Seuil seuil2.
Debut
HistoBin : /* vecteur accumulateur de 256 éléments */
ListeMin, ListeMax /* listes contenant respectivement les minimums locaux
(les maximums locaux), initialement vides. */
DiffMin, DiffMax /* listes contenant respectivement les changements de
fréquences des min locaux (max locaux) */
Vc, Vp /* valeur courante, valeur précédente. */
Bool change= faux /* variable utilisée pour le changement de signe */
pour toute Vc de HistoBin faire
si Vc−Vp> s1 alors
si change=faux alors
ajouter Vp à ListeMin
ajouter à DiffMin (Vc−Vp)
fin
change=vrai
fin
si Vc−Vp < s1 et Vc−Vp >= 0 alors
change= vrai
fin
si Vc−Vp < s2 alors
si change=vrai alors
ajouter Vp à ListeMax
ajouter à DiffMax (Vc−Vp)
fin
change=faux
fin
si Vc−Vp <= 0 et Vc−Vp > s2 alors
change=faux
fin
fin
/* extraction des seuils */
/* 1.Parcourir ListeMax extraire la valeur Max celle ci représente la
valeur la plus fréquente dans l’histogramme. */
/* 2. fractionner ListeMin en deux selon Max L1 et L2 tel que toutes les
valeurs de L1 sont inférieur à Max et inversement toutes les valeurs
de L2 sont supérieur à Max. */
3.pour chaque élément x de L1 faire
/* eliminer x s’il existe un element y dans ListeMax tel que x > y */
fin
4.seuil1< −− Minimum de L1. 5.pour chaque élément x de L2 faire
/* eliminer x s’il existe un element y dans ListeMax tel que x < y */
fin
6.seuil2< −− Maximum de L2.
Fin
Algorithme 5: Algorithme d’extraction de seuils pour la Binarisation.
36

Le choix du seuil permet de distinguer les objets du fond mais le résultat n’est pas tou-
jours pertinent. L’image binaire obtenue comporte beaucoup de pixels marqués en blanc
appartenant aux différentes régions de l’image (le fond étant inclus).
Érosion
Pour éliminer cela nous allons procéder à une érosion de l’image afin de retenir les pixels
appartenant uniquement aux objets. Nous allons donc procéder à l’érosion de l’image binaire
plusieurs fois.
Figure 2.11 – Image binarisée après érosion.
Dilatation
Il reste encore quelques pixels n’appartenant pas aux objets d’intérêts mais nous ne pou-
vons en éliminer d’avantage avec l’érosion, nous avons alors vu le problème autrement, au
lieu d’isoler les objets nous cherchons à retrouver le fond, en effet en partant du principe que
ce qui n’appartient pas aux objets appartient forcement au fond.
Pour cela nous appliquons une dilatation sur l’image binarisée suivie d’une inversion, la Fi-
gure 1.10 représente cette étape.
Le fond dans cette image est marqué en gris.
Figure 2.12 – Image binarisée après dilatation puis inversion.
37

Nous avons deux images, l’une étant l’érosion de l’image binaire et l’autre la dilatation,
nous procédons à une superposition des deux images à l’aide d’une simple somme logique,
nous obtenons ainsi une image à trois niveaux de gris blanc noir et gis moyen comme l’illustre
la Figure 1.12
Figure 2.13 – Superposition des deux images précédentes.
A cette étape, nous avons une image combinée, ce dont nous sommes certains est de la
nature des point marqués en gris moyen et blanc , en effet nous sommes savons que les points
en blanc appartiennent aux objets et que les points marqués en gris moyen appartiennent au
fond. les régions marqués en noir sont quant à elle ”incertaines” celles ci peuvent appartenir
au fond comme aux objets. Il nous faut donc déterminer si ces régions appartienne bien aux
objets ou bien si elles font partie du fond. Il s’agit donc de trouver les frontières des objets
dans ces régions.
La Segmentation
L’idée de base de notre algorithme est d’attribuer aux régions ”incertaines” un label de
fond ou bien celui d’objet.
Le principe est le suivant, si une région incertaine est entourée complètement par une région
marqué comme fond (gris moyen) et qu’elle ne contient pas de blanc alors certainement cette
région appartient au fond. Par contre si cette région entoure une région marquée comme
objet (blanc) alors une partie de cette région incertaine fait partie de l’objet. De là, nous
déterminons les frontières des objets car cette région contient forcement les frontières des
objets.
La figure 2.14 illustre le principe de la segmentation.
38

Figure 2.14 – Étapes de segmentation d’objets : les régions marqués en blanc s’étendent
jusqu’aux frontières des objets.
Données : I Image I fusion.
Résultat : Image S segmentée.
Debut
Mat : matrice booléenne de la taille de l’image I.
pour tout p de l’image. faire
si P est marqué Noir alors
P< −−gris /* marquer en gris. */
marquer Mat[p]=vrai
fin
fin
pour tout pixel p de l’image fusion faire
si P est marqué en Blanc alors
/* Étendre le blanc jusqu’aux frontières. */
1. Étendre le voisinage de chaque pixel ( 8 pixels voisins). 2.Lors de l’extension,
les frontières représentent les pixels avec les plus hauts gradients dans cette
région.
fin
fin
Fin
Algorithme 6: Algorithme de Segmentation.
La Figure 2.15 illustre les résultats de la segmentation.
39

Figure 2.15 – Résultats de la segmentation. -Gauche : frontières des objets. -Milieu :Seg-
mentation des objets. Droite : résultat final, extraction des objets.
2.2.2 Représentation de l’image
Les moments jouent un rôle très important dans la reconnaissance d’objets. Ce sont des
quantités scalaires utilisées pour représenter une fonction de manière significative.
Habituellement utilisées en statistiques, nous introduisons les moments de Tchebychev comme
descripteur d’objets.
Les moments de Tchebychev ont été introduit par R Mukundan en 2001 [29] ,les moments
de Tchebychev permettent de décrire une fonction (une distribution de points) de manière
précise . D’un point de vue mathématique, il s’agit des différentes projections dans un espace
orthonormé, en vision, cela permet de décrire la forme d’une image d’un objet dans le cas de
la reconnaissance.
Les moments de Tchebychev d’ordre p+q , associé à une image de taille N ∗N est donnée
par :
40

L’utilisation des moments de Tchebychev présente beaucoup d’avantages comparé à l’uti-
lisation d’autres moments. Ceux ci peuvent être énumérés comme suit :
Les moments de Tchebychev sont orthogonaux : la condition d’orthogonalité est vérifiée
(voir chapitre précédent) cette propriété permet d’éliminer la redondance d’information,
car la base polynomiale est orthogonale, cela veut dire que pour un moment donné r
une projection représente une partie de l’image.
Les moments de Tchebychev sont discrets ce qui permet d’exploiter directement les
points de l’image (coordonnés), cela permet d’éliminer les approximations numériques.
Les moments de Tchebychev sont résistants aux variations d’échelle et de translation.
L’utilisation des moments de Tchebychev convient aux images symétriques et asymétriques
contrairement aux moments de Legendre avec des images symétriques.
Les moments de Tchebychev permettent la reconstruction de l’image originale.
Malgré ces avantages, en pratique, le calcul des moments de Tchebychev s’avère couteux
en terme de temps. Il est indispensable dans notre problème de se rapprocher le plus de la
notion de temps réel sans perdre pour autant de la robustesse et la précision qu’apporte cette
représentation.
Dans cette optique nous avons proposé une variante quant à l’utilisation classique. Plu-
sieurs modifications ont été apportées dans le sens de cette démarche.
41

Dans la littérature les moments sont calculés jusqu’à un ordre donné c’est à dire que pour
calculer les moments d’ordre n il faut aussi calculer les ordres précédents (0, 1, 2, , , , n − 1)
cela est important pour capturer tous les détails d’une image à l’aide des différentes projec-
tions. Mais est il nécessaire de calculer tous les ordres précédents ? est il nécessaire d’avoir
des détails sur toutes les projections à différents ordres ? Pour la reconstruction de l’image
il est évidement important d’avoir toutes les projection afin de retrouver le plus fidèlement
l’image originale.
Cependant la complexité du calcul numérique des moments est un réel obstacle. Nous propo-
sons alors de calculer les moments à un ordre donné sans tenir compte des ordres précédents.
ceci revient à utiliser l’une des projections pour décrire un objet. Nous pourrions nous deman-
der si c’est est bien suffisant ? nous pouvons démontrer cela en procédant à une reconstruction
de l’image avec notre méthode, à différents ordres ainsi qu’avec la méthode de calcul classique.
Figure 2.16 – Reconstruction à différents ordres avec notre calcul des moments ainsi qu’avec
le calcul classique de ceux ci.
42

Nous remarquons la chose suivante : plus l’ordre est élevé (jusqu’à un certain ordre) plus
la reconstruction est précise.
Il est évidement logique que la reconstruction ne permet pas de retrouver l’image originale
dans son intégralité. Cependant, la forme globale reste la même. Nous obtenons donc une
représentation globale de l’image dans notre cas de l’objet, cela permet donc de représenter
de manière globale la forme de l’objet, cela s’adapte parfaitement à notre problème. Nous
n’avons pas besoin d’autant de détails aussi fins car nous cherchons à retrouver des catégories
d’objets.
De plus, l’avantage notable est la réduction de la complexité algorithmique, le temps de
calcul des moments est remarquablement plus réduit comparé au calcul classique pour le
même ordre.
Les moments de Tchebychev sont habituellement utilisés sur des images en niveau de
gris ou encore sur des image binaire, notre but est de modifier le descripteur afin que nous
puissions intégrer l’information couleur, ceci permet de distinguer des objets ayant des formes
identiques mais pourtant différents, nous obtenons un niveau plus élevé de précision. Il s’agit
de rajouter dans le descripteur de nouveaux éléments choisis comme étant les paramètres
dans l’espace Rgb.
Une autre modification et amélioration consiste en l’application des moments de Tcheby-
chev sur des images contours,comme propose Dahmani dans les travaux précédents [30] en
introduisant les contours internes pour le calcul des moments. Pour cela nous appliquons le
filtre Canny sur nos images, ceci permet de réduire considérablement le temps de calcul des
moments, de plus les contours donnent une assez bonne représentation d’un objet, en effet
la forme de l’objet est préservée, nous ne perdons pas l’information sur la forme globale de
celui ci.
Comme mentionné auparavant les moments de Tchebychev sont robustes aux changement
d’échelles, ainsi qu’aux multiples prises de vues, par contre un des majeur problème de ces
moments, est que ces derniers sont sensibles à la rotation.
En examinant les résultats obtenus en appliquant les moments de Tchebychev sur différents
angles de rotation (quatre axes principaux) pour le même objet, nous avons remarqué une
certaine relation dans les nombres (moments) obtenues.
43

Figure 2.17 – L’effet de la rotation sur les descripteurs à différents ordres.
Nous avons observé les points suivants :
Nous avons un objet, nous lui appliquons les moments de Tchebychev, ce qui a pour
résultat de nous donner un vecteur avec un certain nombre de valeurs, lorsque l’objet
connait une rotation de 180 degrés, nous avons remarqué que les valeurs du vecteur cité
sont multipliées par −1,
Nous avons un objet, nous lui appliquons les moments de Tchebychev, nous obtenons
alors un vecteur avec un certain nombre de valeurs, lorsque l’objet connait une rotation
de 90 degrés et que l’on applique de nouveau les moments de Tchebychev, nous obte-
nons un vecteur de valeurs. En apparence ces valeurs semble aléatoires mais en fait elles
ne le sont pas. Nous avons réussit à trouver une règle générale, un algorithme capable
de déterminer le signe de chaque valeur du descripteur.
Nous avons remarquer la chose suivante :
L’ordre P intervient dans le changement du signe du vecteur, si P est paire, les valeurs
du vecteur sont les mêmes, par contre si P est impaire, il y a changement de signe du
vecteur, ce dernier est multiplié par -1, de plus l’image miroir du vecteur est crée.
Nous avons élaborer une formule qui permet de définir cette relation mathématique.
cette formule est la suivante :
44

La formule (1)
devient alors :
Données : I image.
Résultat : d1, d2 ,d3, d4 : Descripteurs des quatre axes de rotation respectivement 0,
90, 180,270 degrés
Debut
/* Calcul des moments ainsi que les moments avec rotation de 90 degrés
*/
/* Ordre P+Q */
si P est paire alors
/* même signe de la valeur */
d2[i]= d1[i]
fin
sinon
/* changer le signe */
d2[i]= (-1) * d1[i]
fin
d2= image miroir de d2
/* calcul des descripteurs aux rotations 180 et 270 degrés
respectivement. */
d3= (-1)* d1
d4= (-1)* d2
Fin
Algorithme 7: Algorithme de la rotation 1-Chebychev.
45

Cette nouvelle formule permet d’obtenir les descripteurs d’un objet lorsque celui ci est
soumis à une rotation β avec β appartenant à (90, 180, 270) degrés.
De cette manière l’utilisation d’un seul quadrant dans le cercle trigonométrique nous
suffira pour trouver le descripteur de l’objet pour tous les angles. Puisque l’on peut obtenir
les descripteurs des rotations sur les quatre axes principaux et ce pour n’importe quel angle.
Figure 2.18 – Influence de l’ordre et la rotation sur le calcul des moments.
2.2.3 Reconnaissance
Les moments de Tchebychev calculés précédemment ainsi que la classe de chaque objet
forment un ensemble d’apprentissage (xi, yi) i = 1..M ou chaque yi appartient à 1..N si nous
avons N classes différentes. Notre objectif est de construire une fonction f(x) qui estime
les dépendances entre les exemples xi et les classes yi et qui minimise le risque d’erreur de
classification pour un point x donné n’appartenant pas à la base d’apprentissage.
A l’origine, les SVM ont été con¸cus essentiellement pour les problèmes à 2 classes, où la
sortie ne peut avoir que deux valeurs 0 ou 1.
Cette approche a été modifié pour gérer les tâches multi-classes adaptés à notre problème
de reconnaissance d’objets. Plusieurs approches permettant d’étendre cet algorithme aux cas
à N classes ont été proposées. La méthode que nous utilisons dans cette approche, est une
méthode dite ”un contre tous” (réf).
L’idée est donc de construire une fonction qui, en ayant de nouvelles données, prédira
correctement la classe à laquelle la nouvelle entrée appartient. Cela peut être réalisé en
décomposant le problème de classification multi-classes en de multiples problèmes de classi-
fication binaires, et puis d’utiliser le principe de vote majoritaire pour prédire l’étiquette (la
sortie).
Le processus est de résoudre K différents problèmes binaires : classifier la ”classe k” contre
46

”le reste des classes” pour k = 1, . . . , K. Tel que K est le nombre d’objets présents dans notre
classe, ainsi chaque classifieur binaire probabiliste noté Ci permet de donner une probabilité
d’appartenance de l’objet de test à la classe i.
Puis d’attribuer un échantillon de test pour la classe qui donne la plus grande valeur
fk(x), ou fk(x) est la solution du k ème problème.
Critiques Notre méthode malgré les avantages qu’elle présente et sa robustesse aux va-
riations des objets ( rotation, occlusion, échelle), notre méthode trouve ses limites avec des
images de scènes réelles. cela est du aux résultats de la segmentation en effet la segmenta-
tions peut être difficiles dans des scènes réelles car il est difficile d’extraire et de distinguer
les objets dans ces images.
La figure suivante montre un exemple de segmentation d’une scène réelle.
Figure 2.19 – Résultat de segmentation dans une scène réelle. Gauche : Image de la scène.
Droite : Image segmentée, même si nous arrivons à extraire les objets du fond, nous ne
pouvons les distinguer.
2.3 Approche Couleur
Dans l’approche précédente la localisation était basé sur la segmentation. Hélas les méthodes
de segmentations les plus élaborées ne permettent pas de segmenter des scènes complexes.
Nous proposons une autre approche pour la détection et la reconnaissance d’objets. Celle ci
est différente de la première, elle est basée sur la description des objets à l’aide de l’informa-
tion couleur. Nous détaillons dans la suite de ce chapitre le système de reconnaissance con¸cu,
la figure suivante illustre le système de reconnaissance.
47

Figure 2.20 – Système de Reconnaissance de la seconde méthode.
2.3.1 Représentation des objets
La représentation d’objets est basée sur l’utilisation de la distributions des couleurs de
l’objet, les couleur associés à un objet spécifique sont uniques. Un fruit, un arbre, un panneaux
routier, une chaise ... etc. Chacun de ces objets à une certaine distribution des couleurs qui
lui est associé. L’opacité des objets peut être aussi une caractéristique discriminative pour
une instance donnée d’un objet. Nous avons décrit un objet à l’aide des composantes RGBα,
ou alpha est l’information d’opacité. le processus du calcul du descripteur est décrit comme
suit :
Normalisation
La normalisation est une étape essentielle, les couleurs peuvent varier, le moindre chan-
gement de couleur change donc la définition du descripteur. Pour cela nous proposons la
formule suivante pour normaliser les couleurs.
E(Cx/D) ∗ D + D/2
E désigne la partie entière, D représente la quantification utilisée, elle désigne la limitation
du nombre de couleurs différentes que peu prendre une couleur. cette normalisation permet
à différentes plages de valeurs d’avoir la même composante couleur. il s’agit de réduire le
nombre de couleur possible.
Signature
Une fois les couleurs extraites, nous procédons au calcul des fréquences d’apparition de
celles ci, non pas de la manière d’un histogramme car la structure d’un dictionnaire est
différentes de celle d’un histogramme et permet de définir autrement les occurrences des
48

couleurs. Le dictionnaire est stocké sous forme de table de hachage ceci permet l’accès directe
aux données (complexité o(1)).
2.3.2 Construction du modèle
Cette étape permet de construire un modèle à partie d’une base d’image nous calculons
uns signature pour chaque objet de la base de la manière suivante :
Données : Bg :Image de fond. Fg :Image de la base avec objet.
Résultat : d3 :Descripteur de l’objet.
Debut
1. Créer les signatures des deux images Fg et Bg, d1 et d2 désigne dans l’ordre les
descripteur de Fg et Bg.
pour tout entrée C dans d2 faire
si C n’existe pas dans d1 alors
Ajouter C à d3 avec freq(C)
fin
sinon
/* si la couleur existe vérifier si fréquence est supérieur à un
certain seuil. */
si freq(C) dans d2 est >= à seuil*freq(C) d1 alors
Ajouter C à d3 avec freq(C)
fin
fin
fin
Fin
Algorithme 8: Algorithme de la première méthode.
Une fois notre modèle construit, nous pouvons procéder à la reconnaissance la démarche est
différentes de la première approche ( 1-Chebychev) nous cherchons a reconnaitre les objets du
modèle de plus nous n’utilisons pas les techniques d’apprentissage automatique. Il s’agit de
reconnaitre les instances d’objets et non des catégories d’objets. Cela dit si le modèle contient
assez d’exemples d’instances nous pourrions considérer un ensemble d’instances portant le
même label (la même catégorie) comme formant un sous ensemble d’une catégorie.
Dans l’absolue ceci ne modélise pas réellement la catégorie, mais en pratique cela semble
intéressant et complémentaire. la dualité entre instances et catégories pourrait être dépassée.
En effet des méthodes d’aujourd’hui ne s’intéresse qu’à trouver une catégorie bien particulière,
exemple : voiture, piétons, visages. Et dans le cas des instances les systèmes ne reconnaissent
qu’un objet particulier à un instant donnée. Nous présentons une forme intermédiaire aux
deux aspects de la reconnaissance (instance et catégorie).
Un autre point important est que cette manière de procéder élimine le problème de la va-
riabilité intercalasse ainsi que le problème de similarité interclasse. Le fait d’être aussi précis
dans la description d’un instance d’objet élimine ces problèmes par exemple : deux objets ap-
partenant à la même catégorie pourtant différents obtiennent des descripteurs différents, mais
49

puisqu’ils porte le même label donc les objets seront retrouvés, et inversement si deux objets
n’appartiennent pas à la même catégories peuvent être similaire et avoir des descripteurs
proches nous pouvons tout de même les distingués.
2.3.3 Appariement
Une fois modèle construit nous devons faire la correspondance entre les objets d’une scène
et le modèle . Nous expliquons dans ce qui suit notre démarche quant au Matching.
Ayant une nouvelle image d’une scène nous procédons tout d’abord au calcul de sa si-
gnature de la même manière décrite précédemment. Donc nous calculons les fréquences des
couleurs normalisée de toute la scène, nous obtenons alors un dictionnaire des couleurs de la
scène.
Données : I :Image de la scène.
Résultat : L :liste d’objets présents dans la scène.
Debut
Cmp : compteur /* afin de calculer le pourcentage de valeurs existantes.
*/
1. Créer ds la signature de I. /* Charger le fichier descripteur de la base. */
pour tout descripteur d faire
pour tout entrée C dans d faire
si C existe dans ds alors
Cmp=Cmp+1 /* incrémenter */
fin
fin
si Cmp / taille d > seuil alors
L< −− Label(d)
fin
fin
Fin
Algorithme 9: Algorithme de Matching.
2.3.4 Localisation des objets
La localisation des objets est appliquée par la méthode des fenêtres glissante, cette
méthode consiste à parcourir l’image avec une fenêtre rectangulaire balayant ainsi toute
l’image. La signature de chaque fenêtre est alors calculée pour déterminer la présence des
objets reconnus.
50

Tel qu’est définit notre descripteur, la détection et reconnaissances d’objets présente les
avantages suivants :
• Il est robuste à la rotation, aux changement de point de vue, ainsi qu’aux changement
d’échelle. Notre système permet la détection d’objet partiellement occultés ceci est
rendu possible grâce au seuil utilisé pour la matching (voir section précédente).
• un autre avantage est la rapidité du calcul des descripteurs ainsi que la rapidité dans
la phase de Mathcing.
La méthode cependant rencontre les inconvénients que nous énumérons comme suit :
• Morphologie : la couleur à elle seule ne permet pas de retrouver l’objet il est possible
que les couleurs d’un objet se trouve dans la scène alors que l’objet n’y est pas présent,
il faut donc définir une relation spatiales entre les points des objets.
• La localisation des objets avec la méthodes des fenêtres glissantes est couteuse en temps
de calcul.
Nous proposons une amélioration afin de pallier à ces problèmes en intégrant l’information
spatiales de l’objet. Cette fois ci nous modifions les descripteurs en ajoutant les informations
suivantes :
Nous calculons d’abord le centre de l’image d’apprentissage, puis nous calculons certaines
caractéristiques de ce centre, ces caractéristiques sont la couleur et le gradient. Le centre de
l’image d’apprentissage ne représente pas le centre de l’objet mais un point de l’objet.
Le gradient test calculé avec le masque suivant :
De plus nous choisissons 8 points,que nous deffinissons comme suit : Nous avons choisis 4
points du contours qui co¨ıncide avec les deux axes de l’image horizontal est vertical passant
par le centre O nous les notons A, B, C, D (listée en rouge dans la figure 2.21).
51

Figure 2.21 – Représentation d’un objet en prenant en compte l’information spatiales de
points définis.
Ainsi que les points à mis distance les long des deux axes a, b, c, d , à ces points nous
calculons les distances par rapport au centre O ainsi que leurs couleurs nous calculons aussi
un histogramme des normes de gradient des points a, b, c, d le descripteur devient alors :
2.3.5 Localisation
Une fois objet reconnu (présent) dans la scène nous procédons à la localisation de la
manière suivante :
• Chercher tous les points de l’image ayant les mêmes caractéristiques (couleur, gradient)
que le centre O.
Figure 2.22 – calcul des points candidats.
52

• Pour déterminer les bonnes postions nous utilisant le points supplémentaires, ensuite
nous essayons de faire une superposition des 2 axes ( modèle de l’objet en constella-
tion ) sur chacun des points candidats extraits précédemment toujours en faisant un
appariement en comparent les caractéristiques calculées précédemment.
Figure 2.23 – 2 Superposition des deux axes sur les différents centres possibles, une seule
superposition est correcte.
Il faut néanmoins régler encore les problèmes liés à l’échelle ainsi qu’à la rotation.
L’échelle : Nous avons procédé à une normalisation du vecteur des distances, en multipliant
le vecteur distance par un facteur multiplicatif.
La rotation : Pour régler le problème de la rotation, nous avons appliqué une rotation au
vecteur des distances car la relation d’ordre entre les points est préservée lors de la rotation.
Ceci pour les quartes angles principaux.
Cette localisation est appliquée à tous les objets reconnus au préalable. Ce qui la rend
nettement plus rapide, comparée à la méthode des fenêtres glissantes.
2.3.6 Avantages
Le principale avantage de cette approche est la rapidité pour des scènes complexes et des
images à haute résolution la réponse est quasiment instantanée.
La localisation des objets est efficace et précise, ceci revient et ceci sans utiliser de segmen-
tation.
L’approche est robuste aux changement d’échelle, rotation, ainsi qu’à l’occlusion.
53

2.4 Conclusion
Dans ce Chapitre, nous avons présenté en détails nos deux approches de détection et
reconnaissance d’objets. Le troisième et dernier chapitre sera consacré à la présentation des
résultats obtenus qui seront soumis aux critères de temps d’exécution et celui de la précision
pour valider nos approches.
54

Chapitre 3
Implémentation
Sommaire
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2 Environnement de travail . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.1 Environnement logiciel . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.2 Environnement matériel . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3 Présentation de la base d’apprentissage . . . . . . . . . . . . . . 57
3.3.1 Base de données COIL-100 . . . . . . . . . . . . . . . . . . . . . . 57
3.3.2 Base de données ETH-80 . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.3 Acquisition des deux bases . . . . . . . . . . . . . . . . . . . . . . 59
3.4 Présentation de l’interface graphique . . . . . . . . . . . . . . . . 59
3.4.1 Première Approche . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4.2 Deuxième approche . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.4.3 Troisième approche . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.5 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.1 Choix de la fonction du noyau . . . . . . . . . . . . . . . . . . . . 68
3.5.2 Principe de l’apprentissage . . . . . . . . . . . . . . . . . . . . . . 70
3.6 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.6.1 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.6.2 Fonction d’efficacité du récepteur ROC . . . . . . . . . . . . . . . 74
3.6.3 Taux de la reconnaissance des deux bases . . . . . . . . . . . . . . 75
3.6.4 Rappel et précision . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
55

3.1 Introduction
Dans ce chapitre, nous allons tout d’abord décrire l’environnement matériel et logiciel de
notre application, nous enchaˆınerons par la suite avec la présentation détaillée de l’interface
développée et son fonctionnement, enfin nous terminerons par présenter les résultats obtenus
par les tests expérimentaux effectués.
3.2 Environnement de travail
La structure de l’environnement de développement de notre application est structurée
comme suit :
3.2.1 Environnement logiciel
Nous avons développé notre application à l’aide des langages de programmations .NET,
dont nous citons :
• C# : qui est un langage orienté objet de type sécurisé et élégant qui permet aux
développeurs de générer diverses applications fiables qui s’exécutent sur le .NET Fra-
mework.
• Visual basic : con¸cu par Microsoft à la fin des années 1990 [31], le Visual basic est
un des langages de programmation les très utilisés dans le monde. Les programmes
bien rédigés en Visual basic sont rapides et efficaces. Plus flexible, ce langage permet
l’utilisation d’une large gamme d’application scientifique de hautes performances.
Nous avons opté pour l’utilisation de ces deux langages car ils s’adaptent très bien au
domaine de traitement d’image.
Nous avons choisi la bibliothèque EMGU CV comme étant la bibliothèque graphique sur
laquelle nous appliquons nos différents traitements d’images. EMGU est une bibliothèque
libre spécialisé dans le domaine de l’imagerie numérique et le système de vision par ordina-
teur dans un environnement .NET.
Pour la conception de notre application et son interface graphique, nous avons utilisé Visuel
studio 2012 version étudiant, qui fournit un éditeur de code avancé, des concepteurs d’inter-
faces utilisateur pratiques, un déboguer intégré et de nombreux autres outils pour faciliter le
développement d’applications basées sur le langage.NET Framework.
3.2.2 Environnement matériel
Nous avons développé notre application sur deux machines qui ont pratiquement les
mêmes configurations suivantes :
• Microprocesseur Intel Core i7 de fréquence 2.4 de 4ème génération ;
• Mémoire vive RAM 8 Gb ;
• Microsoft Windows 7 version 64 bits.
56

3.3 Présentation de la base d’apprentissage
L’objectif de notre travail est de proposer une nouvelle approche pour la détection d’objets
dans une scène. Pour pouvoir réaliser cela, il nous a fallu récolter des bases d’images portant
sur le sujet.
Dans cette section, nous décrivons les caractéristiques des bases de données utilisées ainsi nous
allons présenter quelques expériences dans lesquelles la performance de plusieurs méthodes
sont comparées et discuter les résultats empiriques obtenus.
3.3.1 Base de données COIL-100
La base de données sur laquelle nous avons appliqué l’algorithme d’apprentissage est
Columbia Object Image Library (COIL) , [32] . Cette base contient 7200 images en couleurs
de 100 objets différents (72 images par objet), où les images des objets ont été prises à des
intervalles de pose de 5 degrés. Les images ont aussi été normalisées tel qui le plus grand des
deux dimensions de l’objet (hauteur et largeur) soit égale à 128 x 128 pixels. Les objets ont
une grande variété de géométrie complexe et de caractéristiques différents, la figure ci-dessous
montre les 100 objets de la base prises en vue frontale.
Figure 3.1 – Objets de la base de données Columbia Object Image Library.
57

3.3.2 Base de données ETH-80
La base d’images ETH-80 [33] Zurich contient un ensemble d’objets naturels et artificiels
organisés en huit catégories qui sont respectivement : Pomme, tomate, chien, cheval, vache,
voitures, poire et verre. Pour chaque catégorie d’objets, dix objets différents sont fournis, où
chaque objet est représenté par 41 images différentes qui sont prises par un multiple point
de vus différents. Cela résulte un ensemble de 3280 images.
Figure 3.2 – Objets de la base de données ETH-80.
58

3.3.3 Acquisition des deux bases
• COIL-100 : Chaque objet a été placé dans une configuration stable à peu près au centre
d’une plaque tournante, La table tournante a été tourné de 360 degrés et 72 images ont
été prises par objet (une image chaque 5 dégrées de la rotation).
• ETH-80 : De même pour cette base d’images, où chaque objet a été placé dans une
table tournante, avec l’exception de l’utilisation de plusieurs caméras chacune d’elles
prend d’autres images différentes de l’objet.
Figure 3.3 – Acquisition de la base COIL-100.
3.4 Présentation de l’interface graphique
L’application qui permet d’effectuer les différentes tâches de la détection d’objets est
con¸cue de telle manière à faciliter l’interaction avec l’utilisateur. Nous avons développé deux
approches dont l’interface et son explication sont présentées dans ce qui suit :
3.4.1 Première Approche
Détection et reconnaissance d’objets en utilisant les moments de Chebyshev.
• Interface d’accueil
59

Figure 3.4 – Interface d’accueil l’application.
L’interface principale est devisée en trois parties, de gauche à droite nous remarquons
l’ensemble des boutons permettant l’interaction avec l’application ainsi que ses différentes
fonctionnalités que nous allons expliquer ultérieurement. Ensuite, nous affichons les traces
de l’exécution pour donner plus de détails sur le processus ainsi que les différent temps de
calculs. La troisième partie permet de visualiser les résultats de la détection, la segmentation
et la reconnaissance des objets de l’image de la scène.
Avant de commencer, nous devons tout d’abord choisir l’une des bases, COIL-100 ou ETH-
80.
Figure 3.5 – Choix d’une base de données.
En cliquant sur le bouton ‘Parcourir l’image’, une fenêtre s’affiche pour choisir l’image de
la scène.
60

Figure 3.6 – Choix de l’image de la scène.
Une fois l’image est chargée, on l’affiche dans notre interface comme illustrée par la figure
ci-dessous, ainsi on peut commencer le traitement.
Figure 3.7 – Affichage de l’image de la scène
61

La tâche de la détection d’objets est basé sur trois étapes indispensable : la création du
descripteur de l’image, la segmentation, la reconnaissance.
Segmentation
Nous commen¸cons par la segmentation en utilisant notre méthode de segmentation améliorée
(voir le chapitre II pour plus d’informations), en cliquant sur le bouton Segmentation ,
le résultat de la segmentation est affiché comme suit :
Figure 3.8 – Segmentation de l’image.
Reconnaissance
La prochaine étape est la reconnaissance des objets dans la scène après sa segmentation,
Cette étape se déroule en trois parties qui sont :
• Extraction des objets de la scène ;
• Calcul des descripteurs de chaque objet à l’aide des moments de Chebyshev ;
• Introduire les descripteurs comme entrée dans la fonction de reconnaissance ;
• Phase de reconnaissance des objets qui est fait après l’apprentissage des bases (voir la
deuxième partie de ce chapitre pour plus d’informations sur le processus d’apprentis-
sage).
62

En cliquant sur le bouton Reconnaissance le processus de la reconnaissance des objets
trouvés commence, en affichant les traces de traitement portant sur le temps de calcul ainsi
que les différents objets reconnus. Chaque objet sera libellé par une étiquette portant la
catégorie et le nom de l’objet comme il est montré dans la figure suivante :
Figure 3.9 – Reconnaissance d’objets.
3.4.2 Deuxième approche
Reconnaissance et localisation d’objets basés sur le descripteur des couleurs à quatre
dimensions en introduisant l’information de la transparence RGBA :
63

Figure 3.10 – Interface d’accueil de la deuxième approche
L’interface de la deuxième approche développée comporte deux parties, la première est
Apprentissage permet de faire apprendre un ou plusieurs objets à notre application,
Cette étape peut être réalisée hors ligne une seule fois en sauvegardant tout objets
possibles. L’apprentissage est réalisé en fournissant l’image de l’objet, et l’image de fond.
Le descripteur est ensuite calculé en faisant une soustraction entre les deux signatures des
deux images, qui sera ensuite sauvegardée sous le format d’un fichier XML en cliquant sur le
boutant sauvegarder .
Figure 3.11 – Apprentissage d’un objet avec la deuxième méthode
64

La deuxième partie de l’application, concerne la localisation et la reconnaissance d’objets,
l’utilisateur doit d’abord choisir l’image de la scène, et en cliquant sur le bouton analyser
le processus de la reconnaissance commence. Aucune méthode de segmentation n’est utilisée
dans cette approche, la détection des objets se déroule en deux étapes (voir le chapitre deux
pour plus d’informations) qui sont :
• Vérifier si un objet parmi les objets sauvegardés dans la première étape est présent dans
l’image, en comparant le descripteur de chaque objet avec le descripteur de l’image de
la scène ;
• Localiser les objets qui sont jugés présent dans l’image de la scène.
Figure 3.12 – Reconnaissance des objets avec la deuxième méthode
65

Nous affichons par la suite les objets trouvées, ainsi que leurs positions dans l’image de
la scène.
3.4.3 Troisième approche
Détection et localisations d’objets basé sur l’extraction de caractéristiques visuelles des
images des descripteurs locaux basés sur des points d’intérêt de l’image (SURF).
Figure 3.13 – l’interface d’accueil de la troisième approche.
L’interface principale propose de choisir entre deux méthodes de détections, l’utilisateur
doit par la suite choisir entre les deux méthodes hors ligne, ou en ligne. Ces dernières fonc-
tionnent de la même manière concernant l’extraction des points d’intérêt :
Figure 3.14 – Le choix entre les deux méthodes de SURF
66

La méthode hors ligne
L’utilisateur doit fournir une image de la scène, et une image de l’objet à localiser.
Figure 3.15 – choix de l’image de la scène et de l’objet à trouver.
L’utilisateur peut ensuite choisir d’afficher ou pas, les points d’intérêts des deux images,
ainsi que les lignes de correspondances, et puis de lancer le processus de détection en cliquant
sur le bouton Analyser . Le résultat est affiché en cadrant l’objet trouvé dans la scène
comme suit :
Figure 3.16 – Résultat de la détection hors ligne.
La méthode en ligne
Contrairement à la première méthode, cette approche permet de localiser et traquer l’objet
à l’aide d’un capteur, dans notre cas c’est la webcam.
L’utilisateur doit rapprocher l’objet vers la caméra et puis de cliquer sur le bouton Scanner
67

pour commencer la phase d’apprentissage, commencer le processus de la détection et le
suivie de l’objet se déclenchera alors instantanément.
Figure 3.17 – Résultat de la détection en ligne.
3.5 Apprentissage
La détection d’objets de différentes classes dans les images présente plusieurs difficultés.
L’algorithme d’apprentissage doit pouvoir traiter des données avec des variations inter et
intra-classe. De plus, le temps d’exécution ne doit pas croitre de manière exponentielle avec
le nombre de classes.
Afin d’aboutir à ce but, nous avons opté pour l’utilisation des machines à vecteurs supports
SVM comme classifieurs.
Nous commencerons la description des résultats par la mesure de la précision de la méthode
de classification mise au point dans le cadre de ce travail de fin d’études. Pour effectuer cette
mesure, les Multi-SVMs sont utilisées.
3.5.1 Choix de la fonction du noyau
La fonction du noyau permet une transformation de données de l’espace d’origine vers
l’espace caractéristique de telle fa¸con que les données initiales qui sont non linéairement
séparables (on ne peut pas tracer une ligne séparatrice entre les différentes classes) deviennent
séparables linéairement.
Le choix de la fonction du noyau (kernel) est essentielle dans la phase d’apprentissage
afin d’obtenir des bons résultats. Cela dépend du problème. Seule l’expérimentation sur les
68

différentes fonctions kernel peut nous donner une idée sur la fonction à utiliser pour obtenir
les meilleurs résultats.
Dans notre projet, nous avons implémenté la méthode d’apprentissage Un Contre Tous avec
différentes fonctions de noyau. Dans ce qui suit, nous allons montrer les différents résultats
obtenus pour les trois choix des fonctions suivantes :
• La fonction linéaire : C’est l’exemple le plus simple de fonction noyau, On se ramène
donc au cas d’un classifieur linéaire, sans changement d’espace. L’approche par Kernel
trick généralise ainsi l’approche linéaire. Le noyau linéaire est parfois employé pour
évaluer la difficulté d’un problème.
La fonction de noyau est défini par :
• Le noyau polynomial : Lea fonction de noyau est défini par :
• Le noyau gaussien : Cette formulation est équivalente aux réseaux de neurones à bases
radiales avec l’avantage supplémentaire que les centres des fonctions à base radiale (qui
sont les vecteurs supports) sont optimisés :
La fonction de noyau est défini par :
Figure 3.18 – Comparaison entre les fonctions de noyau.
69

Nous remarquons que nous obtiendrons les meilleurs résultats avec la fonction de noyaux
Polynomiale, avec un taux de reconnaissance égale à 98.75% à l’ordre 8 de Chebyshev, contre
94% avec la fonction Gaussien, et 74% avec la fonction linéaire. Ces résultats peuvent être
expliqués par le fait que les instances de nos données obtenues par l’application de la fonction
de Chebyshev ne sont pas linéairement séparables. D’où nous avons opté pour l’utilisation
de la fonction polynomiale.
3.5.2 Principe de l’apprentissage
Le principe de ces expériences est d’appliquer une technique de validation croisée, avec
laquelle on estime la performance du système en la mesurant sur des exemples n’ayant pas
été utilisés en cours d’apprentissage :
On commence par deviser notre base de données d’images en trois parties, la première nommée
base d’apprentissage contient 75% de l’ensemble de données, une partie validation contient
10% et la partie des tests contient 15%.
Le processus d’apprentissage est répété pour chacune des images de la base de données, c’est-
à-dire 6000 fois pour COIL-100 et 2400 fois pour ETH80. A la fin de cette étape, on obtient
une mesure de précision correspondant au rapport entre le nombre de classifications correctes
et le nombre total de classifications (correctes et erronées).
70

3.6 Expérimentations
Les résultats de ces expériences sont d’abord présentés sous leur forme brute ci-dessous
puis ils seront discutés.
Représentation de l’objet avec les moments de Chebyshev
Dans la figure ci-dessous, nous montrons une comparaison entre l’objet réel, et l’objet
construit en utilisant la fonction de reconstruction appliqué sur la méthode de calcul classique
des moments de Chebyshev, et notre méthode de calcul améliorée des moments de Chebyshev.
Figure 3.19 – Comparaison des méthodes : (a) l’image original en RGB ; (b) l’image ori-
ginal appliqué avec Canny ; (c) l’image reconstruite par la méthode classique ;(d) l’image
reconstruite par notre méthode.
Nous remarquons que l’image reconstruite par notre méthode manque un peu de détails
qui sont difficiles à remarquer en la comparant avec l’image reconstruite par la méthode clas-
sique, mais elle permet de donner une représentation parfaite de la forme globale de l’objet
tout en réduisant le temps de calcul d’une manière remarquable.
Dans ce qui suit, nous montrons un schéma comparatif entre les temps d’exécution de la
méthode classique, notre amélioration tout en utilisant l’image en niveau de gris (NVG c’est-
à-dire toute l’image), et notre amélioration en utilisant uniquement les contours de l’objet
pour un ordre donné.
71

Figure 3.20 – Etude comparative sur les temps d’exécution et l’apprentissage.
Le principal inconvénient du descripteur Chebyshev classique est qu’il est couteux en temps
d’exécution. Un des atouts du notre descripteur Chebyshev amélioré est justement cette ca-
pacité à être calculé très rapidement grâce à l’utilisation des contours et de notre méthode
de calcul de l’ordre de moment (appliquer le calcul de Chebyshev seulement aux pixels qui
ont la valeur différente de 0 - voir le chapitre précédent) tout en gardant un bon taux d’ap-
prentissage.
Dans ce qui suit nous allons mettre en évidence l’efficacité de notre représentation d’ob-
jets en construisant un descripteur basé sur les moments de Chebyshev (première approche)
en présentant un graphe de comparaison entre la méthode de reconnaissance d’objet basé sur
Chebyshev seulement, et les deux méthodes en ajoutant comme information importante la
couleur dans les deux espaces RGB et HSV au descripteur. La fonction de noyau d’appren-
tissage utilisée est la fonction Polynomiale.
72

Figure 3.21 – Etude comparative sur la précision de la reconnaissance avec et sans couleur.
Nous remarquons que l’ajout de l’information couleur dans l’espace RGB au descripteur de
Chebyshev améliore sensiblement la performance de l’apprentissage contrairement à l’espace
HSV (Hue and Saturation Value). Nous avons donc opté pour l’utilisation de cette nouvelle
représentation.
3.6.1 Matrice de confusion
Une erreur souvent commise par les systèmes de reconnaissance est la confusion entre
classes. Pour évaluer quantitativement ces erreurs, nous utilisons les matrices de confusion.
Nous calculons la matrice de confusion qui montre le taux d’erreurs dues au confusions pour
chacune des 10 premières objets, pour un nombre aléatoire des images (193 images dans notre
cas) représentant les objets. La matrice calculée est la suivante :
73

3.6.2 Fonction d’efficacité du récepteur ROC
La courbe ROC (Receiver Operating Characteristic) est un outil d’évaluation des modèles
qui permet de savoir si le modèle est globalement significatif [34]. L’utilisation de la courbe
ROC comme un outil de mesure peut être expliqué par le fait que la courbe ROC est :
• Indépendant des matrices de coûts de mauvaise affectation. Il permet de savoir si un
modèle M1 sera toujours meilleur que M2 quelle que soit la matrice de coût
• Opérationnel même dans le cas des distributions très déséquilibrées. Sans les effets
pervers de la matrice de confusion liés à la nécessité de réaliser une affectation
• Résultats valables même si l’échantillon test n’est pas représentatif. Tirage prospectif
ou tirage rétrospectif : les indications fournies restent les mêmes.
• Un outil graphique qui permet de visualiser les performances. Un seul coup d’œil doit
permettre de voir le(s) modèle(s) susceptible(s) de nous intéresser.
En utilisant les résultats de la section précédente (Matrice des confusions), nous obtien-
drons la courbe de ROC suivante pour les dix premières objets de la base COIL-100 :
Figure 3.22 – Courbe ROC obtenu pour les dix objets.
74

Nous avons tracer la courbe pour chaque objet, puis calculer la surface. Les résultats
obtenus montrent l’efficacité et la robustesse de notre méthode de représentation d’objets
basée sur les moment de Chebyshev.
3.6.3 Taux de la reconnaissance des deux bases
Avec VC : Version Classique de Chebyshev, VA-NVG : Version améliorée en utilisant
les images en niveau de gris, VA-CT : Version amélioré en utilisant les contours, VA-CT-
HSV : Version améliorée en utilisant les contours et en rajoutant l’espace des couleurs HSV
comme information, VA-CT-RBG : Version améliorée en utilisant les contours et en rajoutant
l’espace des couleurs RGB comme information.
Les résultats que nous discuterons par la suite, sont calculés en utilisant les moments de
Chebyshev à l’ordre 8. La raison principale qui a mené à adopter les descripteurs Chebyshev
calculé à cet ordre, est que non seulement le taux d’apprentissage à atteint son maximum
à cette ordre, pour chaque ordre inferieure à l’ordre 10, mais aussi car le temps de calcul
des moments commence à augmenter à partir de l’ordre 9 d’une manière remarquable (voir
graphe 18), ce qui nous intéresse pas car nous visons la notion de temps réel.
Le graphe ci-dessous permet de bien représenter la différence entre la précision de recon-
naissance entre les différentes méthodes de calcul des moments de Chebyshev à l’ordre 8.
75

Figure 3.23 – Etude comparative sur la précision de la reconnaissance avec les différentes
méthodes de calcul.
Nous remarquons que le taux de reconnaissance sur la base ETH-80 a un peu augmenté en
le comparant à la base COIL-100 (voir tableau 1 et 2 ci-dessus), ceci peut être expliqué par
le fait que la base ETH-80 ne contient pas une diversité de catégories (8 classes seulement)
mais une variété inter-catégories (plusieurs objets par classe). Par contre, la base COIL-100
contient 100 objets de catégories différentes.
La précision de notre méthode développée sur la base du descripteur Chebyshev est com-
parable aux meilleures méthodes décrites dans l’état de l’art. Par exemple, C. MAAOUI,
H. LAURENT et B. EMILE [20] ont obtenus un score de 71 % de précision sur la base de
données de COIL-100 pour des images en niveau de gris, et 92% de précision sur les mêmes
images en couleurs dans l’espace RGB. Quant à nous, nous avons obtenu une précision égale
à 98.75% en utilisant notre implémentation améliorée de Chebyshev (VA-CT-RBG), et 91%
de précision en utilisant le calcul de Chebyshev classique (VC).
Leur méthode est basée sur un descripteur basé sur les moments de Zernike (plus coûteux à
calculer que notre méthode) et utilise également l’étiquetage des composantes connexes [20].
comparaison entre la deuxième méthode basée couleurs, et la troisième méthode
basée SURF
3.6.4 Rappel et précision
Il n’est pas facile d’estimer la qualité d’un système de détection d’objets. Une mesure
classique de l’efficacité du système est de mesurer la précision et le rappel des méthodes
implémentés. Ces mesures sont issues du domaine d’étude de la recherche d’information [35]
76

et se basent sur la notion de document pertinent par rapport à la recherche. La précision
est définie comme la proportion des documents pertinents parmi l’ensemble de ceux renvoyés
par le système.
Toutefois, dans le cas de détection et la reconnaissance d’objets, la notion de document
pertinent reste très subjective. Selon les perceptives, certains estimeront que deux objets
sont semblables lorsqu’elles appartiennent à la même catégorie d’objets. D’autres seront plus
sensibles aux instances réelles de l’objet. C’est pourquoi nous avons adopté les deux points
de vus mentionnés ci-dessus, pour ne pas se limiter à nos bases de données seulement.
Si nous notons :
• Vrais positifs (VP) : Objet présent dans la scène, détecter l’objet, et le bien reconnaitre
• Vrais négatifs (VN) : Aucun de nos objets n’est présent dans la scène , et ne rien
détecter
• Faux positifs (FP) : Objet présent dans la scène, détecter l’objet, et le mal reconnaitre
• Faux Négatifs (FN) : Objet présent dans la scène, ne rien détecter ne rien reconnaitre
Alors :
Le rappel (R)
Le rappel (R) du test est défini comme le pourcentage des objet qui sont bien détectés :
La précision (P)
La précision du test est définie comme le pourcentage de la non-présence d’objets et qui
ne sont pas détectés :
F-Mesure (F)
C’est une mesure tenant compte à la fois du rappel et de la précision et désigne la moyenne
harmonique entre les deux, définie par :
77

En plus de la détection d’objets pour un objet, nous avons voulu tester nos méthodes
sur des images constituent plusieurs objets n’appartenant à aucune de nos bases utilisées
dans la phase d’apprentissage, nous avons construit 25 images des scènes réelles de dimen-
sions égale à 500*375 pixels, dont chaque image contient un ensemble d’objets misent aux
différentes transformations géométriques (rotation, changement d’échelle, occlusion partiel...)
et à diverses perturbations (bruit, occultation, etc.).
Notre objectif est d’effectuer une série d’expérimentations afin d’évaluer les performances
en utilisant plutôt deux grandeurs appelées précision et rappel que les taux de classification.
La figure ci-dessous représente un exemple d’une scène parmi les images que nous avons
créer.
Figure 3.24 – Image de scène réelle.
Nous présentons un tableau montrant le nombre d’objets bien détectés et bien reconnus
dans 10 scènes que nous avons choisi aléatoirement, chaque scène contient exactement 4
objets différents.
78

La procédure de détection suivi pour la deuxième méthode était d’essayer de détecter
l’ensemble d’objets de notre base une par une, Les résultats ainsi sont représentés dans le
schéma ci-dessous :
Figure 3.25 – étude comparative sur la précision, le rappel et F-Mesure entre la deuxième
et la troisième méthode.
En examinant les résultats obtenus, nous remarquons que les deux méthodes sont efficaces
face au transformations géométriques et perturbations (rotation, changement d’échelle, oc-
clusion partiel...) L’efficience augmenté de la troisième méthode par rapport à la deuxième
vient avec un coût qui est le temps augmenté de calcule, la figure suivante montre la différence
entre les deux :
Figure 3.26 – étude comparative sur le temps de calcule entre la deuxième et la troisième
méthode.
79

La différence entre les temps d’exécutions peut être expliquée par le fait d’utiliser les
tables de hachage dans la deuxième méthode afin de réduire la complexité de calcule. La
troisième méthode par contre utilise l’extraction des points d’intérêt et l’estimation de la
matrice hessienne ce qui est couteux en terme de temps de calcule.
Le tableau suivant illustre les différents résultats de détection et reconnaissance sur des
images des scènes réelles avec les différentes approches implémentées.
80

Analyse des résultats
Nous avons appliqué des transformations géométriques aux objets présents dans toutes
les images de tests présentées dans le tableau ci dessus.
Nous remarquons qu’avec notre méthode 1 Chebyshev on a obtenu un très bon résultat de
détection et de reconnaissance de multiples objets dans une scène, ¸ca confirme la robustesse
de notre méthode face à la rotation, le changement d’échelle et ¸ca capacité à reconnaitre des
objets qui n’appartiennent à aucune de nos base sur les quelles nous avons appliqué l’appren-
tissage ! D’un autre coté, ces résultats restent limité à l’efficacité de la segmentation, nous
remarquons que les deux scène 1 et 2 (voir tableau ci dessous) sont difficiles à segmenter,
d’où les objets sont difficiles à détectés en utilisant la méthode 1 Chebyshev.
La deuxième méthode permet de pallier à ce problème, en utilisant le technique de Tem-
plate Matching sans avoir besoin de passer pas la phase de segmentation, nous remarquons
que pour les scènes réelles difficiles à segmenter cette deuxième méthode implémentée donne
de bons résultats de reconnaissance d’objets.
Contrairement a la méthode de Chebyshev, le temps des calcule de cette approche reste
instable et varie selon le nombre d’objets appris lors de la phase d’apprentissage. Un autre
désavantage de cette méthode est sa capacité a détecter les faux positifs, mais seulement si
deux objets dans notre base ont presque la même signature.
La troisième méthode basée sur le descripteur SURF permet d’éliminer le dernier problème
de l’approche 2. Bien que la détection en utilisant cette méthode est performante, elle n’est
pas aptes a résoudre le problème de temps de calcule, le temps de calcule de cette méthode
contrairement a la première approche 1 Chybyshev augmente selon le nombre d’objets a
détecter dans la scène.
Un autre désavantage de la troisième approche est qu’elle ne peut détecter qu’une seule
instance d’objet, donc pour des scène ayant plusieurs instances du même objet, on ne détecté
que l’instance qui a le plus de points d’intérêt en commun avec l’objet recherché.
Contrairement à la première méthode, les deuxième (Template Matching) et la troisième
méthode (SURF), ne peuvent détecter que les instances d’objets, pas des catégories d’objet
ceci est due aux descripteurs qui ne sont pas assez représentatifs en ce qui concerne la forme
globale d’objets.
Les trois approches développées sont robustes à la rotation, changement d’échelle et l’oc-
clusion partiel
82

3.7 Conclusion
Nous avons présenté dans ce chapitre d’une part, les différents outils qui nous ont permis
de mettre en œuvre notre application pour la détection d’objets, ainsi qu’une description
détaillée de nos système de détection et reconnaissance d’objets, avec l’évaluation de perfor-
mance de chaque phase de processus de reconnaissance. D’autre part, nous avons exposé les
résultats obtenus par les différentes approches de détection, en termes de temps d’exécution
et de taux de reconnaissance, pour donner une idée comparative de l’aspect pratique de nos
méthodes.
Nos systèmes ont donné des bons résultats au niveau de la reconnaissance, cela montre
l’efficacité des méthodes utilisées pour l’extraction des primitives et les stratégies utilisées
lors de la phase de la segmentation.
83

Conclusion générale
L’objectif de ce travail de fin d’études est de proposer une méthode de représentation
d’objet sous forme de descripteur afin de créer un système de détection et de reconnaissance
d’objets.
Dans ce cadre, nous avons développé un nouveau descripteur de caractéristiques ainsi
qu’une technique de segmentation d’objets, que nous avons ensuite intégré dans un système
complet de détection et reconnaissance d’objets, utilisant les SVMs.
La première étape dans cette méthode est la segmentation de l’image afin de séparer les ob-
jets dans la scène du fond, et pour cela nous avons développé trois méthodes de segmentation
ce qui nous a permis d’atteindre notre objectif en implémentant un bon algorithme.
La deuxième étape est d’extraire les caractéristiques des objets trouvés. Pour ce faire,
nous avons introduit les moments de Chebyshev comme étant un descripteur représentatif de
l’objet.Nous avons aussi apporté des améliorations qui nous ont permises d’améliorer le taux
de précision et de réduire considérablement le temps de calcul et ainsi atteindre la notion du
temps réel.
Par la suite nous avons procédé à la reconnaissance des objets en utilisant les multi-
SVMs, cette étape est faite en deux parties, la première est hors ligne qui s’appuie sur
l’apprentissage automatique sur les deux bases d’images utilisées, la deuxième est en ligne
qui est la reconnaissance des objets détectés.
Pour pallier aux problèmes de la segmentation, une nouvelle approche a été implémentée
en utilisant la dispersion des couleurs dans l’espace RGBA comme information caractérisant
l’objet. La solution ainsi développée donne de bons résultats en terme de reconnaissance
d’objets dans des scènes réelles difficiles à segmenter.
Afin d’avoir une idée sur l’efficacité de nos méthodes, nous avons implémenté une troisième
approche pour comparer entre les résultats, cette approche est basée sur l’extraction des point
d’intérêts en utilisant SURF.
Les expériences réalisées sur différentes bases de données d’images ont permis de mettre
en évidence un gain considérable en précision, ainsi qu’un grand progrès en ce qui concerne
la réduction du temps de traitement pour chacune des approches.
84

Bibliographie
[1] Elschlager R. Fischler M. The representation and matching of pictorial structures. IEEE
Transactions on Computers., 1973.
[2] An Exemplar Neural Mechanism : The Brain’s Visual Processing System., chapter Ch.
2. 2003.
[3] Brown R. How shall a thing be called. Psychological Review, 1958.
[4] Van Essen DC. Felleman DJ. Distributed hierarchical processing in the primate cerebral
cortex. Cerebral Cortex, 1991.
[5] Cours de Vision par Ordinateur, Master 2 SII, chapter 5. Aouat S, 2014.
[6] Motwani R. Indyk P. Approximate nearest neighbors : towards removing the curse of
dimensionalit.y. Published in : · Proceeding STOC ’98 Proceedings of the thirtieth annual
ACM symposium on Theory of computing Pages 604-613., 1998.
[7] L et al. Breiman. Classiﬁcation and regression trees. Belmont, Calif. : Wadsworth.,
1984.
[8] J. R. Quinlan. Induction of decision trees. Journal Machine Learning archive Volume
1, 1986.
[9] J. R. Quinlan. C4.5 : Programs for machine learning. Morgan Kaufmann Publishers,,
1993.
[10] C Bishop. Information theory, inference, and learning algorithms. Springer,, 2006.
[11] T. Hofmann. Unsupervised learning by probabilistic latent semantic analysis. Mach.
Learn., 2001.
[12] Schapire. R. E. The strength of weak learnability. Machine Learning., 1990.
[13] Schapire. Y, Freund. et R. E. A decision-theoretic generalization of on-line learning
and an application to boosting. In Proceedings of the Second European Conference on
Computational Learning Theory,, 1995.
[14] Object Recognition in the Geometric Era : a Retrospective. Joseph L. Mundy.
[15] Biederman I. Recognition by components : A theory of human image understanding.
Psychology Review, 1987.
85

[16] Pentland A. Turk M. Face recognition using eigenfaces. CVPR, IEEE computer Sco,
1991.
[17] D Roth. S Agarwal, A Awan. Learning to detect objects in images via a sparse,part-
based representation. European Conference on Computer Vision, 2004.
[18] J Malik. R Martin, C Charless. Learning to detect natural image boundaries using
local brightness, color, and texture cues. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 2004.
[19] J Fan. Y Gao. Automatic function selection for large scale salient object detection. Pro-
ceeding : MULTIMEDIA ’06 Proceedings of the 14th annual ACM international confe-
rence on Multimedia, 2006.
[20] B Emile. C Maaoui, H Laurent. Reconnaissance et d´etection robuste objects couleur.
GRETSI, Groupe d’Etudes du Traitement du Signal et des Images, 2005.
[21] Ju kim. H Lee, Ji Kim. Automatic salient object detection using pricipal component ana-
lysis. 2nd International Conference on Robot Intelligence Technology and Applications,
2014.
[22] T Lu K Chen. L Wang, Y Wu. Multiclass object detection by combining local ap-
pearances and context. Proceeding MM ’11 Proceedings of the 19th ACM international
conference on Multimedia, 2011.
[23] G Chen. C Juang. A ts fuzzy system learned through a support vector machine in prin-
cipal component space for real-time object detection. IEEE Transactions on Industrial
Electronics., 2012.
[24] S Soatto. B Fulkerson, A Vedaldi. Class segmentation and object localisation with
superpixel neighborhoods. Computer Vision, 2009 IEEE 12th International Conference.,
2009.
[25] M Jones. P Viola. Rapid object detection using a boosted cascade of simple features.
Computer Vision and Pattern Recognition, CVPR., 2001.
[26] T Hofmann. H Lampert, B Blaschko. Beyond sliding windows : Object localization by
eﬃecient subwindow search. Computer Vision and Pattern Recognition, CVPR., 2008.
[27] B Triggs N Dalal. Histogram of oriented gradients for human detection. Computer
Vision and Pattern Recognition, CVPR., 2005.
[28] B Schiele. B Leibe, A Leonardis. An implicit shape model for combined object cate-
gorization and segmentation. Workshop on Statistical Learning in Computer Vision,
ECCV., 2004.
[29] P Lee. R Mukundan, S Ong. Image analysis by tchebichev moments. IEEE Transactions
on image processing., 2001.
86

[30] D Dahmani. Elaboration d’un Syst`eme de Reconnaissance d’Epellation Digitale de la
Langue des Signes. PhD thesis, USTHB, 2014.
[31] MicroSoft. Visual basic. https ://msdn.microsoft.com/fr-fr/library/2x7h1hfk.aspx, 2012.
[32] Nayar. H, Murase et S. Visual learning and recognition of 3-d objects from appearance.
International Journal of Computer Vision., 1995.
[33] by Max Planck Institute for Informatics. Analyzing appearance and
contour based methods for object categorization. https ://www.mpi-
inf.mpg.de/departments/computer-vision-and-multimodal-computing/research/object-
recognition-and-scene-understanding/analyzing-appearance-and-contour-based-
methods-for-object-categorization/, 2014.
[34] Computer Vision and Pattern Recognition (CVPR’03), Madison, Wisconsin,, 2014.
[35] Introduction `a la recherche d’information, chapter 1. UQAM, 2009.
87

Résumé
La détection d’objets et la reconnaissance est une fonction clé pour de nombreuses appli-
cations comme la surveillance vidéo, les systèmes de transport robotiques, intelligents, etc.
Ce problème est largement traité dans la littérature en termes de ce que tente de reproduire
la vision humaine en construisant des modèles qui ont des propriétés semblables à des cap-
teurs visuels (caméras vidéo, télémètre laser, radar) et méthodologies. Dans ce contexte, nous
sommes particulièrement intéressés par la détection d’objets dans une scène.
Le travail demandé consiste à :
• Faire une étude bibliographique consacrée aux méthodes de détection d’objets dans une
scène d’interieur.
• Étudier et implémenter un algorithme de détection d’objets.
• Proposer une méthode de reconnaissance d’objets dans une scène d’intérieur.
Abstract
The detection of objects and the recognition is a key function for numerous applications as
the surveillance video, the systems of transportation roboticses, intelligent, etc. This problem
is called extensively in the literature in terms that tent to reproduce the human vision while
constructing the models that have some properties similar to visual sensors (camcorder, laser
telemeter, radar) and methodologies. In this context, we are especially interested by the
detection of objects in a scene.
• To make a bibliographic survey dedicated to the methods of detection of objects in a
interior scene.
• To study and implementation of an algorithm of objects detection .
• To propose a method of objects recognition in a interior scene.

Object detection and recognition in digital images

Contenu connexe

Tendances

Similaire à Object detection and recognition in digital images

Object detection and recognition in digital images