Mémoire.pdf

Mémoire présenté à
La Faculté des Sciences Dhar El Mahraz Fès
Master Mathématiques
Appliquées et Science des Données (MASD)
Master en double diplomation avec l’Université Sorbonne Paris Nord
Spécialité : Statistique et Science des Données
Intitulé :
Classification multi-vues pour l’apprentissage en
ensemble
Présenté par : Mohamed Ait Blal
Encadré par : Pr.Rosanna Verde
Co-encadré par : Pr.Ali Yahyaouy
Soutenu le 23/06/2023, devant le jury :
Pr. SABRI My Abdelouahed
Pr. EL FAZAZY Khalid
Pr. RIFFI Jamal
Pr. YAHYAOUY Ali
Pr. VERDE Rosanna
Président
Examinateur
Examinateur
Co-encadrant
Encadrant
Etablissement FSDM
Etablissement FSDM
Etablissement FSDM
Etablissement FSDM
Etablissement Luigi Vanvitelli,
Italie
Année Universitaire : 2022-2023

Table des matières
1 Machine à vecteurs de support 12
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Machines à vecteurs de support . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.1 Notions de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3 Linéarité et non linéarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.1 Cas linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.2 Cas non linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 Extension aux problèmes multi-classe . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4.1 Algorithme SVM : Un contre tous . . . . . . . . . . . . . . . . . . . . . . 21
1.4.2 Algorithme SVM : Un contre un . . . . . . . . . . . . . . . . . . . . . . . 22
1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2 Apprentissage ensembliste 24
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2 Notions de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.2 Notion de Bais et Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3 Méthodes ensemblistes : la sagesse des foules . . . . . . . . . . . . . . . . . . . . . 27
2.3.1 Méthodes parallèles : bagging . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.2 Méthodes séquentielles : boosting . . . . . . . . . . . . . . . . . . . . . . . 30
2.4 Méthodes de combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3 Extraction de caractéristiques et classification d’images 34
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Reconnaissance d’images par le contenu . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3 Extraction des caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.1 Vecteur descripteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.2 Types de caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 Catégories de caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4.1 Caractéristiques globaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.2 Caractéristiques locaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.3 Méthodes de classification et évaluation des performances . . . . . . . . . . 39
3.4.4 Performances de classification d’images . . . . . . . . . . . . . . . . . . . . 40
3.5 Caractéristiques utilisées pour la description d’images dans les bases hétérogènes . 42
3.5.1 Couleurs moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5.2 Matrice de co-occurrences . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5.3 Histogramme couleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
1

3.5.4 Descripteur HOG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.5.5 Moments de Hu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.5.6 Descripteur LPB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5.7 Descripteur GIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6 Base de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4 Méthode de classification multi-vues pour l’apprentissage en ensemble 51
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2 Classification multi-vues pour l’apprentissage en ensemble . . . . . . . . . . . . . 52
4.2.1 Classification multi-vues basée sur l’apprentissage en ensemble avec opti-
misation des poids. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2.2 Fonction de perte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.3 Méthode d’optimisation pour l’apprentissage . . . . . . . . . . . . . . . . . 54
4.2.4 Formulation mathématique du problème d’optimisation . . . . . . . . . . . 57
4.2.5 Avantages et inconvénients de la méthode MCELWO . . . . . . . . . . . . 60
4.2.6 Classification par vote pondéré . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2.7 Évaluation de la méthode MCELWO . . . . . . . . . . . . . . . . . . . . . 62
4.2.8 Résultats et discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

Table des figures
1.1 Hyperplan optimal, vecteurs de support et marge maximale . . . . . . . . . . . . . 13
1.2 Cas linéairement séparable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Cas linéairement non séparable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4 Cas non linéairement séparable. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5 Espace de projection des données non-linéairement séparable. . . . . . . . . . . . . 20
1.6 Exemple de classification multi-classes (C = 3). . . . . . . . . . . . . . . . . . . . 21
1.7 Nuage de points à 3 classes : l’approche un contre Tous . . . . . . . . . . . . . . . 21
1.8 Nuage de points à 3 classes : l’approche un contre un . . . . . . . . . . . . . . . . 22
2.1 Étapes d’échantillonnage aléatoire avec remplacement à partir de l’ensemble de
données original. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Modèle simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Modèle complexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4 Modèle bien adapté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5 Un exemple de méthode ensembliste de décision. . . . . . . . . . . . . . . . . . . . 27
2.6 Principe du bagging (Bootstrap Aggregation) . . . . . . . . . . . . . . . . . . . . 28
2.7 Performance sur un jeu de test d’un classifieur entraı̂né par bagging (en bas à
droite) et des 5 premiers arbres qui le composent. . . . . . . . . . . . . . . . . . . 29
2.8 Principe de la technique de Boosting . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.9 Classificateur basé sur l’empilement (stacking) général . . . . . . . . . . . . . . . . 32
3.1 Architecture d’un système de reconnaissance d’images par le contenu basé sur la
classification. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Image couleur RVB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Différents modèles de texture. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4 Différentes transformations géométriques que peut subir une image. . . . . . . . . 38
3.5 Courbe Rappel-Précision pour trois classifieurs . . . . . . . . . . . . . . . . . . . . 40
3.6 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.7 Image numérique couleur RVB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.8 Histogramme couleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.9 Étapes du Descripteur HOG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.10 Image binaire : exemple d’image d’une silhouette d’avion. . . . . . . . . . . . . . . 46
3.11 Visualisation du calcul du motif binaire local (LBP). . . . . . . . . . . . . . . . . 47
3.12 15 Chiffres écrit à la main provenant du MNIST. . . . . . . . . . . . . . . . . . . 48
3.13 10 Images aléatoires de chaque classes de CIFAR-10. . . . . . . . . . . . . . . . . 49
3.14 50 Echantillons d’images de différentes classes de la base Outdoor Scene utilisée. . 49
3.15 50 Echantillons d’images de différentes classes de la MSRC-v1. . . . . . . . . . . . 50
3

4.1 Diagramme illustrant l’architecture de méthode de classification multi-vues pour
l’apprentissage d’ensemble. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Schéma général de la méthode MCELWO/validation . . . . . . . . . . . . . . . . 62
4.3 Matrice de confusion sur l’ensemble de validation. . . . . . . . . . . . . . . . . . . 66
4.5 Matrice de confusion sur l’ensemble de validation. . . . . . . . . . . . . . . . . . . 67
4.7 Le poids de vue estimé sur la méthode proposé sur les quatre ensembles de données. 68
4.9 Variation de l’erreur d’apprentissage en fonction du nombre d’itérations. . . . . . 69
4

Liste des tableaux
4.1 Performance du ε-dragging sur les points de données dans trois classes. . . . . . . 57
4.2 Descriptions de différents ensembles de données multi-vues utilisées. . . . . . . . . 63
4.3 Les caractéristiques utilisées pour chaque ensemble de données. . . . . . . . . . . . 63
4.4 Comparaison des résultats de classification entre les différentes méthodes. . . . . . 64
4.5 Les descriptions de différents ensembles de données multi-vues. . . . . . . . . . . . 65
4.6 Les résultats de classification à vue unique. . . . . . . . . . . . . . . . . . . . . . 65
5

RÉSUME
Les méthodes de classification multi-vues sont des approches d’apprentissage automatique qui
exploitent plusieurs vues ou sources d’informations pour améliorer la performance de la classifi-
cation. Elles sont appliquées dans divers domaines et se caractérisent par leur puissance et leur
diversité de types pour exploiter la complémentarité et la corrélation entre les différentes vues
des données. Dans le domaine de l’analyse des images, les méthodes de classification multi-vues
donnent des meilleurs résultats pour la classification des images, le but de ce travail est présenter
une méthode supervisée de classification multi-vues basée sur la régression des moindres carrés
(LSR) et l’apprentissage en ensemble. Nous allons expliquer comment attribuer de manière adap-
tative un poids optimal à chaque classificateur pour chaque vue dans la base d’apprentissage.
Dans un premier temps, les échantillons de chaque vue sont classé en utilisant une machine à
vecteurs de support multi-classes (MSVM). Ensuite, pour évaluer les résultats de classification
provenant des différentes vues pour chaque échantillon, le poids optimal pour chaque résultat
de classification est estimé. Nous allons appliquer cette méthode aux bases de données d’images
pour les classifier. En combinant les prédictions de tous les classifieurs de chaque vue, nous ob-
tenons une classification plus précise et plus résistante. En résumé, l’attribution de poids dans
ce type de méthode se révèle extrêmement bénéfique dans le domaine de la classification d’images.
Mots-clés : Classification multi-vues, Régression des moindres carrés, Apprentissage ensembliste,
Vote pondéré.
8

ABSTRACT
Multi-view classification methods are machine learning approaches that exploit several views
or sources of information to improve classification performance. They are applied in a variety of
fields, and are characterized by their power and diversity of types to exploit complementarity
and correlation between different views of the data. In the field of image analysis, multi-view
classification methods give the best results for image classification. The aim of this work is to
present a supervised multi-view classification method based on least squares regression (LSR)
and ensemble learning. We will explain how to adaptively assign an optimal weight to each clas-
sifier for each view in the training set. First, the samples for each view are classified using a
multi-class support vector machine (MSVM). Then, to evaluate the classification results from
the different views for each sample, the optimal weight for each classification result is estimated.
We will apply this method to image databases for classification. By combining the predictions
of all classifiers in each view, we obtain a more accurate and robust classification. In summary,
weight assignment in this type of method is proving extremely beneficial in the field of image
classification.
Keywords : Multi-view classification, Least square regression, Ensemble learning, Weighted vo-
ting.
9

INTRODUCTION GÉNÉRALE
Grâce aux résultats obtenus au cours des dernières décennies, l’apprentissage à partir de
données multi-vues est devenu un domaine de recherche actif et prometteur dans le domaine
de l’apprentissage automatique. Les données multi-vues, représentées par différentes caractéris-
tiques, ont été largement utilisées dans de nombreuses applications d’apprentissage automatique.
Chaque représentation est considérée comme une vue distincte, et ces vues peuvent provenir de
différentes sources, telles que des capteurs différents, des types d’informations différents ou des
représentations différentes d’un même objet.
L’exploitation de la complémentarité et de la corrélation entre les vues présente un potentiel
pour améliorer les performances de différentes tâches, notamment la réduction de dimensionnalité
multi-vues, la classification et le regroupement. Pour le problème de réduction de dimensionnalité
multi-vues, au début de 2010, Hou et al ont proposé une méthode de réduction de dimensionna-
lité semi-supervisée multi-vues (MVSSDR) qui peut apprendre un motif de consensus caché dans
l’espace de basse dimension. Concernent le regroupement multi-vues, Huang et al ont proposé une
approche de regroupement partiellement alignée sur les vues (PVC) pour résoudre le problème
partiellement aligné sur les vues. Dans ce travail, nous nous concentrons principalement sur le
problème de classification multi-vues.
Les méthodes de classification multi-vues supervisées suscitent un intérêt croissant en rai-
son de la disponibilité des informations sur les étiquettes. En raison de la structure complexe
cachée dans les données, l’exploitation et la préservation efficaces des informations corrélatives
et complémentaires dans les vues multiples pour améliorer la performance de la classification est
une tâche difficile. Différentes approches ont été proposées, telles que l’apprentissage à noyaux
multiples (MKL), qui traiter les ensembles de données multi-vues dans des contextes d’apprentis-
sage supervisé depuis 2008. Pour explorer la corrélation complexe entre les caractéristiques et les
étiquettes de classe des ensembles de données multi-vues, au début de 2018, Zhang et al ont pro-
posé une méthode de classification multi-vues à plusieurs couches (ML-MVC) qui peut capturer
la complémentarité d’ordre supérieur entre différentes vues. En 2019, Yang et al ont proposé une
méthode de classification multi-vues basée sur la régression discriminante pondérée adaptative,
qui prend en compte les différences entre chaque vue dans les performances de classification, qui
peut simultanément prendre en compte les informations corrélatives et complémentaires dans le
sous-espace discriminant projeté.
En 2022, Shi et al ont proposé une méthode de classifications multi-vues supervisée basée sur
la régression des moindres carrés et l’apprentissage ensembliste, connue sous le nom de classifi-
10

cation multi-vues supervisées basée sur la régression des moindres carrés et sur l’apprentissage
en ensemble(MCELWO). Cette méthode exploite les informations complémentaires et corrélées
entre les caractéristiques des différentes vues pour améliorer les performances de classification.
De plus, elle attribue un poids approprié à chaque classifieur en fonction de ses performances.
En observant ces méthodes données, la plupart des approches de classification multi-vues sont
basées sur la fusion des caractéristiques.
Dans ce travail, nous décrirons en détail le fonctionnement intrinsèque d’une méthode de clas-
sification multi-vues supervisées basée sur la régression des moindres carrés et l’apprentissage
ensembliste[24]. Nous expliquerons comment cette méthode fonctionne et comment elle optimise
les poids attribués à chaque classifieur en fonction de leurs performances.
Ce mémoire s’articule autour de quatre chapitres :
ˆ Dans le premier chapitre, nous présentons le principe de fonctionnement général des ma-
chines à vecteurs de support (SVM). Tout en précisant leurs avantages et leurs différents
types. Enfin, nous décrierons quelques approches d’extension des SVM pour résoudre des
problèmes à plusieurs classes.
ˆ Le deuxième chapitre de ce projet se concentre sur une description des méthodes en-
semblistes. Nous explique en détail le principe de chaque méthode tout en soulignant les
différences entre elles. Enfin, les techniques de combinaison des méthodes sont présentées.
ˆ Dans le troisième chapitre, nous étudierons les éléments fondamentaux d’un système de
reconnaissance d’images par le contenu. Nous examinerons les différents types de descrip-
tions d’images utilisées pour l’extraction des caractéristiques. Enfin, nous présenterons les
bases d’images que nous utiliserons pour l’application de la méthode.
ˆ Le quatrième chapitre présente une description détaillée de la méthode supervisée MCELWO.
Cette méthode est appliquée au problème de la classification des images, où nous démon-
trons son intérêt et son impact sur l’amélioration des performances de classification. Les
résultats expérimentaux sont également présentés sous forme de tableaux et d’images.
Enfin, nous concluons ce travail par une conclusion générale.
11

CHAPITRE 1
MACHINE À VECTEURS DE SUPPORT
1.1 Introduction
Inspirée de la théorie statistique de l’apprentissage, Les machines à vecteurs de support
(SVM) sont un classifieur développé par V.Vapnik [1]. Les SVM sont une méthode d’apprentissage
automatique largement utilisée pour la classification et la régression. Elles sont particulièrement
efficaces pour résoudre des problèmes complexes de classification, où il y a plusieurs classes et
les données ne sont pas linéairement séparables[2]. Le principe des SVM repose sur la recherche
d’un hyperplan optimal qui sépare de manière optimale les différentes classes d’échantillons.
L’un des avantages clés des SVM est leur capacité à traiter des données non linéairement
séparables[1]. Pour cela, elles utilisent des fonctions de noyau qui permettent de projeter les don-
nées dans un espace de plus grande dimension appelé, espace de caractéristiques ou re-description,
afin que les données non linéairement séparables dans l’espace d’entrée deviennent linéairement
séparables dans l’espace de caractéristiques[2].
Nous présentons dans ce chapitre une description des SVM. En premier lieu, nous décrivons
de façon simple et assez complète le principe de fonctionnement général et ensuite, Dans la
dernière partie du chapitre, nous décrivons en détails l’aspect mathématique des SVM et par
la suite Extension aux problèmes multi-classes est ensuite présentée dans la section suivant.
En particulier, la section décrit deux approches différentes des classificateurs MCSVM, à savoir
l’approche ”un contre tous” et l’approche ”un contre un ”.
1.2 Machines à vecteurs de support
La performance de ces classifieurs dépasse celle des méthodes supervisées traditionnelles
dans plusieurs applications. Dans cette section, le principe de fonctionnement général des SVM
est présenté. La linéarité et la non-linéarité[2].
12

1.2.1 Notions de base
Dans la classification binaire d’images données, le but des SVM est de trouver un classifieur
linéaire qui sépare les images tout en maximisant la distance entre ces deux classes. Il s’agit d’un
hyperplan de séparation. Les images les plus proches de cet hyperplan, c’est à dire les plus
difficiles à classifier, sont appelées vecteurs supports[2]. Les SVM assurent une modélisation
discriminante qui s’appuie sur la détermination des différents vecteurs supports dans les deux
classes. Il est évident qu’il existe une multitude d’hyperplans valides mais la propriété remarquable
des SVMs est que cet hyperplan doit être optimal, L’hyperplan séparateur optimal est celui qui
maximise la marge. Formellement, cela revient à chercher un hyperplan dont la distance minimale
aux différents vecteurs supports est maximale [1, 2]. Ainsi, les SVMs sont souvent appelés des
Séparateurs à Vaste Marge. Dans le schéma qui suit, on détermine un hyperplan H qui sépare
les deux ensembles de points.
Figure 1.1 – Hyperplan optimal, vecteurs de support et marge maximale
Pourquoi maximiser la marge ?
Intuitivement, le fait d’avoir une marge plus large procure plus de sécurité lorsque l’on classi-
fie de nouvelles images en phase de généralisation. En général, la classification d’une image requête
est donnée par sa position par rapport à l’hyperplan optimal trouvé en phase d’apprentissage[2].
1.3 Linéarité et non linéarité
Il existe deux cas de modèles SVM, cas linéairement séparables et non linéairement sépa-
rables. Les premiers sont les plus simples, car ils permettent de trouver facilement le classifieur
linéaire. Dans les cas non-linéairement séparables, le classifieur de marge maximale ne peut pas
être utilisé car ceci ne fonctionne que dans les cas linéairement séparables. Un système de marges
élastiques est alors mis en place pour tolérer des erreurs de classification et donc tolérer des
vecteurs supports à l’intérieur de la marge[1]. Ce compromis entre erreurs et taille de la marge
est contrôlé par un hyper-paramètre d’apprentissage, que l’on note par C. Dans la plupart des
problèmes de classification réels, il n’y a pas de séparation linéaire possible entre les données[2].
Particulièrement, pour la reconnaissance d’images par le contenu, les images appartenant aux
différentes classes sont souvent non-linéairement séparables. Nous rappelons ici les deux cas de
séparation linéaire et non-linéaire.
13

1.3.1 Cas linéaire
Soient n le nombre d’images d’apprentissage, X = [x1, x2, . . . , xi, . . . , xn] le nuage d’obser-
vations dans l’espace d’attributs correspondant et Y = [y1, y2, . . . , yi, . . . , yn] l’ensemble de leurs
étiquettes. Notons que toutes les étiquettes yi appartiennent à l’ensemble {−1, 1} (classification
binaire) et xi ∈ Rd
. À partir de l’examination des couples d’entrée-sortie :
D = {(xi, yi) ; i = 1, 2, . . . , n} . (1.1)
étant donné l’ensemble de mesures D sont tirées suivant une distribution de probabilité inconnue
P(x,y). Le but est de trouver une fonction f : X → Y , telle que la probabilité :
P(f(X) ̸= Y ) (1.2)
soit minimale[2].
1.3.1.1 Cas linéairement séparable
Un problème de classification binaire est linéairement séparable, si les images d’apprentis-
sage appartenant aux deux classes peuvent êtres complètement séparables[2].
Fondements mathématiques :
Les données d’apprentissage sont linéairement séparables, c’est à dire qu’il existe un hyper-
plan qui sépare les données sans erreur[4]. Un hyperplan f(x) a donc la forme suivante :
f(x) = ⟨w, x⟩ + b = w⊤
x + b (1.3)
l’hyperplan séparateur (frontière de décision) a donc pour équation : ⟨w, x⟩ + b = 0, où w est
le vecteur orthogonal à l’hyperplan et b est le déplacement par rapport à l’origine[4]. ⟨·, ·⟩ est le
produit scalaire usuel en Rd
:
⟨x, y⟩ =
d
X
i=1
xiyi, ∀x, y ∈ Rd
(1.4)
Soit H : ⟨w, x⟩ + b l’hyperplan qui satisfait les conditions suivantes :
(
w · xi + b ≥ 1 si yi = 1
w · xi + b ≤ −1 si yi = −1
(1.5)
ce qui est équivalent à :
yi (w · xi + b) ≥ 1 pour i = 1, . . . , n (1.6)
• Calcul de la marge :
Si xs est un vecteur de support et H =

x | w⊤
x + b = 0 , alors la marge est donnée par :
Marge = 2d(x, H) = 2
w⊤
xs + b
∥w∥
(1.7)
14

On utilise cette quantité pour des raisons de simplicité de l’écriture des équations plus tard, mais
ceci ne change en rien le problème d’optimisation (maximiser la marge ou deux fois la marge
conduit à la même solution). On impose alors la condition de normalisation w⊤
xs + b = 1 pour
les vecteurs de support xs, ce qui conduit à :
Marge =
2
∥w∥
(1.8)
Comme nous l’avons déjà mentionné, un hyperplan optimal est l’hyperplan qui maximise la
marge (1.8) qui représente la plus petite distance entre les différentes données des deux classes
et l’hyperplan. Maximiser la marge (1.8) est équivalent à maximiser la somme des distances des
deux classes par rapport à l’hyperplan.
• Maximisation de la marge :
Trouver l’hyperplan optimal revient donc à maximiser 2
∥w∥
. Ce qui est équivalent à minimiser
∥w∥2
2
sous la contrainte (1.6). Ceci est un problème de minimisation d’une fonction objective
quadratique avec contraintes linéaires[1, 4].
Probleme primal =⇒



min
w,b
1
2
∥w∥2
s.c yi (w · xi + b) ≥ 1, i = 1, . . . , n
(1.9)
• Passage du primal vers le dual :
Un problème dual est un problème fournissant la même solution que le primal mais dont
la formulation est différente[1]. On passe du problème primal au dual en introduisant les multi-
plicateurs de Lagrange pour chaque contrainte. Le lagrangien est donné par :
L(w, b, α) =
1
2
∥w∥2
−
n
X
i=1
αi

yi wT
xi + b

− 1

(1.10)
Le lagrangien doit être optimisé par rapport à w, b et les multiplicateurs α. En annulant les
dérivées partielles du lagrangien par rapport à w et b, on obtient les relations :
∂L
∂b
L(w, b, α) = 0 =⇒
n
X
i=1
αiyi = 0
∂L
∂w
L(w, b, α) = 0 =⇒ w =
n
X
i=1
αiyixi
(1.11)
Par substitution dans l’équation du lagrangien (1.10) on obtient le problème dual :





















max
α
n
X
i=1
αi −
1
2
n
X
i,j=1
αiαjyiyjxT
i xj
telque
αi ≥ 0, i = 1, . . . , n (admissibilité duale)
n
X
i=1
αiyi = 0 (stationarité)
(1.12)
15

La solution du problème dual donne les multiplicateurs de Lagrange optimaux αi. A partir
des αi on obtient w par les relations (1.11). Le paramètre b est obtenu à partir de la relation
xT
s w + b = 1 valable pour tous les vecteurs de support xs. Nous avons à présent tous les éléments
nécessaires pour exprimer la fonction de décision de notre classificateur linéaire[3] :
f(x) =
n
X
i=1
αiyix.xi + b (1.13)
avec, x est un vecteur support et les xi sont les observations des différentes images d’apprentis-
sage. Les multiplicateurs de Lagrange αi et le biais b sont des hyper-paramètres d’apprentissage
déterminés par la résolution du Lagragien du problème d’optimisation initial[1]. La figure 1.2
illustre un exemple de classification binaire linéairement séparable.
Figure 1.2 – Cas linéairement séparable
1.3.1.2 Cas linéairement non séparable
Les données sont affectées par un bruit par exemple dans le cas d’images(bruit de capteur),
et les deux classes se retrouvent mélangées autour de l’hyperplan de séparation[4].
Fondement mathématiques :
Pour gérer ce type de problème on utilise une technique dite de marge souple, qui tolère les mau-
vais classements, on introduit des variables d’écart ξi(i = 1..N) avec ξ 0 dans les contraintes
(1.5)[6], qui deviennent : (
w · xi + b ≥ 1 − ξi si yi = +1
w · xi + b ≤ −1 + ξi si yi = −1
(1.14)
ce qui est équivalent à :
yi (w · xi + b) ≥ 1 − ξi pour i = 1, . . . , n (1.15)
Remarque 1.1. Si un point (xi, yi) vérifie la contrainte de marge yi wT
xi + b

≥ 1 alors la
variable d’écart est nulle.
16

La figure 1.4 présente un ensemble de données pour lequel il n’est pas possible de tracer une
ligne droite ou un hyperplan pour séparer les différentes classes de manière linéaire. Les données
présentent une structure complexe qui ne peut pas être linéairement séparée.
Figure 1.3 – Cas linéairement non séparable
Plus un exemple est situé loin du côté incorrect du séparateur (carré rouge), plus la variable de
relâchement ξ prend une valeur élevée[6]. Nous avons donc deux situations :
-Pas d’erreur : yi wT
xi + b

≥ 1 =⇒ ξi = 0
-Erreur : yi wT
xi + b

1 =⇒ ξi = 1 − yi wT
xi + b

0
On associe à cette définition une fonction coût appelée coût charnière :
ξi = max 0, 1 − yi wT
xi + b

(1.16)
Le problème d’optimisation dans le cas des données non-séparables est donc :























min
w,b









1
2
∥w∥2
n
X
i=1
ξi
tel que
yi (w · xi + b) ≥ 1 − ξi, i = 1, . . . , n
ξi ≥ 0, i = 1, . . . , n
(1.17)
Puisqu’il faut minimiser les deux termes simultanément, on introduit une variable d’équilibrage
C 0 qui permet d’avoir une seule fonction objectif dans le problème d’optimisation :
min
w,b
1
2
∥w∥2
+ C
n
X
i=1
ξi (1.18)
17

ce qui conduit à : 














min
w,b
1
2
∥w∥2
+ C
n
X
i=1
ξi
tel que
yi (w · xi + b) ≥ 1 − ξi, i = 1, . . . , n
ξi ≥ 0, i = 1, . . . , n
(1.19)
Remarque 1.2. Si toutes les variables d’écart ξi = 0, on retrouve le problème linéairement
séparable traité plus tôt(1.9).
Les variables ξi s’appellent aussi variables ressort (en anglais : slack variables). Par la même
procédure qu’avant, on obtient le problème dual :





















max
α
n
X
i=1
αi −
1
2
n
X
i,j=1
αiαjyiyjxT
i xj
tel que
C ≥ αi ≥ 0, i = 1, . . . , n
n
X
i=1
αiyi = 0
(1.20)
En ce qui concerne les observations faites sur le problème (1.20).
ˆ C joue le rôle d’une constante de régularisation (la régularisation est d’autant plus forte
que C est proche de 0)[6].
ˆ La différence pour le problème dual entre le cas séparable et non séparable est que les
valeurs des αi sont majorées par C.
ˆ Les points mal classés ou placés dans la marge ont un αi = C.
ˆ b est calculé de sorte que yif(xi) = 1 pour les points tels que C αi 0.
La fonction de décision permettant de classer une nouvelle observation x est toujours[6] :
f(x) =
n
X
i=1
αiyix.xi + b (1.21)
1.3.2 Cas non linéaire
Pour résoudre le problème de non-séparabilité, les SVM consistent à effectuer une transfor-
mation non-linéaire Φ de Rd
dans un espace de Hilbert H = Rs
de dimension supérieure (s d),
éventuellement infinie (Card(H) d) [2]. Cette transformation non-linéaire des vecteurs carac-
téristiques xi, i = [1, 2, . . . , n] permet une séparation linéaire des images dans un nouvel espace
appelé, espace de re-description. Plus la dimension de l’espace de re-description est importante,
plus la probabilité de pouvoir trouver un hyper-plan séparateur entre les images est élevée[2, 4].
On a donc une transformation d’un problème de séparation non-linéaire dans l’espace de repré-
sentation initial en un problème de séparation linéaire dans un espace de re-description de plus
18

grande dimension. En pratique, cette transformation est réalisée à l’aide d’une fonction noyau,
souvent appelée K et décrite comme suit[2] :
K (x, xi) = ⟨Φ(x), Φ (xi)⟩H , i = [1, 2, . . . , n] . (1.22)
avec
(
Φ : Rd
→ H
x 7→ Φ(x)
(1.23)
Exemple de classification binaire non linéairement séparable.
Figure 1.4 – Cas non linéairement séparable.
On doit donc résoudre :





















max
α
n
X
i=1
αi −
1
2
n
X
i,j=1
αiαjyiyjK (xi, xj)
tel que
C ≥ αi ≥ 0, i = 1, . . . , n (admissibilité duale)
n
X
i=1
αiyi = 0 (stationarité)
(1.24)
Finalement, Les SVM basé sur le noyau K peut maintenant être écrit comme suit :
f(x) =
n
X
i=1
αiyiK (x, xi) + b (1.25)
L’introduction de noyaux permet donc aux machines à vecteurs supports de déterminer une
surface de décision non linéaire en gardant un formalisme provenant d’une approche linéaire de
la classification[3].
19

1.3.2.1 Fonctions Noyau
Les fonctions noyaux peuvent avoir plusieurs formes. Quelques familles de fonctions noyaux
paramétrables sont connues et il revient à l’utilisateur de les tester pour déterminer celle qui
convient le mieux pour son application[2, 4]. Pour un vecteur support x et une observation x′
,
les noyaux combinant x et x′
les plus utilisés sont les suivant :
Polynômial :
K (x, x′
) = (⟨x, x′
⟩ + cte)
d
Sigmoı̂dal :
K (x, x′
) = tanh (⟨x, x′
⟩ + θ)
Laplacien :
K (x, x′
) = e−
∥x−x′
∥
σ
Gaussien :
K (x, x′
) = e−
∥x−x′
∥2
2σ2
avec, cte, u, θ et σ sont des paramètres de noyaux [1, 2].
Un exemple de classification non-linéairement séparable est illustré par la figure en-dessus.
Figure 1.5 – Espace de projection des données non-linéairement séparable.
1.4 Extension aux problèmes multi-classe
Le principe du SVM expliqué dans la partie précédente se résume dans la résolution des
problèmes de classification binaire, or les problèmes rencontrés dans la réalité, sont de type multi
classes[4]. D’où l’importance d’étendre le principe du SVM aux problèmes de plus de deux classes,
il y a eu plusieurs tentatives pour combiner des classificateurs binaires pour cerner ce problème[2].
Nous allons par suite expliquer brièvement quelques méthodes parmi les plus utilisées. Un exemple
de classification à trois classes (C = 3) est illustré par la figure 1.6 :
20

Figure 1.6 – Exemple de classification multi-classes (C = 3).
Nous présentons maintenant les deux principales méthodes permettant de décomposer un
problème de classification comportant plus de deux classes en un ensemble de sous problèmes
binaires[3], la décomposition un contre un et un contre tous.
1.4.1 Algorithme SVM : Un contre tous
L’approche la plus naturelle est d’utiliser cette méthode de discrimination binaire et d’ap-
prendre C fonctions de décision {fm} m = 1 . . . C permettant de faire la discrimination entre
chaque classe de toutes les autres (chaque classe est opposée à toutes les autres), il faut donc
poser C problèmes binaires[4]. Le k ième classificateur sépare les données de la classe k de tout
le reste des données d’apprentissage[1, 2].
Chaque classificateur renvoie 1 si la forme à reconnaitre appartient à la classe, -1 sinon.
Alors pour reconnaitre une forme il faut la soumettre à tous les autres classificateurs, pour
prendre une décision de classification, on garde la classe qui a eu la valeur maximale de toutes
les fonctions de décision[1, 7]. Donc l’affectation d’un nouveau point x à une classe Ci se fait par
la relation :
i = argmax fm(x) m = 1 . . . C (1.26)
Figure 1.7 – Nuage de points à 3 classes : l’approche un contre Tous
21

L’avantage de l’algorithme Un contre tous est qu’il peut être utilisé avec n’importe quelle
fonction de noyau, ce qui permet de traiter des problèmes de classification non linéaires[2]. Ce-
pendant, l’inconvénient est qu’il nécessite plus de temps de calcul que l’algorithme Un contre
Tous, qui ne nécessite qu’un seul classificateur binaire pour chaque classe[8].
1.4.2 Algorithme SVM : Un contre un
La technique Un contre Un, quand à elle, construit (C(C −1)/2) classifieurs SVMs binaires,
en utilisant toutes les paires de combinaisons binaires des C classes. L’apprentissage de chaque
classifieur est réalisé en considérant les images de la première classe comme des exemples positifs
et les images de la seconde classe comme des exemples négatifs. Pour combiner les différents
classifieurs, l’algorithme de vote majoritaire pour max-wins voting est adopté[8]. Cet algorithme
permet de trouver la classe résultante en choisissant la classe votée par la majorité des classifieurs
(Friedman, 1997)[2]. Le nombre d’images utilisées pour l’apprentissage de chaque classifieur est
très réduit, car seuls les images appartenant à deux classes parmi les C classes sont prises en
consideration. D’où, un temps d’apprentissage plus court[22].
Figure 1.8 – Nuage de points à 3 classes : l’approche un contre un
L’un des avantages de la technique Un contre Un est qu’elle permet un temps d’apprentis-
sage réduit car chaque classifieur est entraı̂né avec un petit sous-ensemble des données[22]. Cepen-
dant, l’inconvénient est que chaque image doit être présentée à un grand nombre de classifieurs
SVM (C(C −1)/2), ce qui peut entraı̂ner une augmentation significative du temps d’inférence[8].
1.5 Conclusion
Dans ce rapport, nous avons tenté de présenter d’une manière simple et complète le concept
de système d’apprentissage introduit par Vladimir Vapnik Les machines à vecteurs de support.
On a donné une vision générale et une vision purement mathématiques des SVM. Cette méthode
de classification est basée sur la recherche d’un hyperplan qui permet de séparer au mieux des en-
sembles de données. Nous avons exposé les cas linéairement séparable et les cas non linéairement
séparables qui nécessitent l’utilisation de fonction noyau pour changer d’espace. Cette méthode
est applicable pour des taches de classification à deux classes, mais il existe des extensions pour
22

la classification multi classes.
Les avantages que présentent les SVM sont l’utilisation de l’approche de noyau pour traiter
les cas non-linéaires, l’absence de minimum local, le nombre raisonnable de solutions et le contrôle
de capacité obtenu par optimisation de la marge.
23

CHAPITRE 2
APPRENTISSAGE ENSEMBLISTE
2.1 Introduction
L’apprentissage en ensemble, également connu sous le nom de méthodes ensembliste ou
apprentissage ensembliste est une approche qui a été initialement proposé pour les tâches de
classification à la manière de l’apprentissage supervisé(Nilsson, 1965). L’idée fondamentale de
l’apprentissage d’ensemble est de combiner ou agréger les prédictions de plusieurs modèles indivi-
duels, souvent appelés apprenants faibles(modèles qui ont une performance légèrement supérieur
à un modèle aléatoire) ou classifieurs de base, de manière à exploiter leurs forces et à réduire
leurs faiblesses individuelles[9]. Cela permet de créer un modèle plus puissant et plus robuste
qui est capable de généraliser et de mieux s’adapter aux données d’apprentissage[10]. Cette tech-
nique est largement utilisée dans différents domaines de l’apprentissage automatique tels que la
reconnaissance de formes, la classification, la prédiction et la détection d’anomalies.
Les trois techniques L’apprentissage en ensemble les plus populaires sont le bagging, le
boosting et le stacking. Chacune de ces techniques offre une approche unique pour améliorer la
précision des prédictions[10]. Chaque technique est utilisée dans un but différent, l’utilisation de
chacune d’entre elles dépendant de divers facteurs. Bien que chaque technique soit différente,
beaucoup d’entre nous ont du mal à les distinguer. Il est difficile de savoir quand ou pourquoi
nous devons utiliser chaque technique.
Dans ce chapitre, nous aborderons plusieurs clés concernant L’apprentissage en ensemble.
Tout d’abord, comment former chacun des apprenants de base, c’est-à-dire les algorithmes uti-
lisés pour L’apprentissage en ensemble. Ensuite, nous verrons comment combiner les résultats
obtenus à partir de ces multiples apprenants de base, en utilisant différentes méthodes de com-
binaison. Enfin, J’expliquerai leurs objectifs, leurs processus, ainsi que leurs avantages et leurs
inconvénients.
2.2 Notions de base
24

2.2.1 Bootstrap
Étant donné un jeu D de n observations, et un nombre N, on appelle bootstrap la procédure
qui consiste à créer N échantillons D1, D2, · · · , DN de D, obtenus chacun en tirant n exemples
de D avec remplacement. Ainsi, chaque exemple peut apparaı̂tre plusieurs fois, ou pas du tout,
dans Db [10].
Définition 2.1. (Bootstrap) est une méthode d’échantillonnage aléatoire avec remplacement uti-
lisée en apprentissage automatique et apprentissage statistique pour générer plusieurs ensembles
de données d’entraı̂nement à partir d’un ensemble de données original[10].
Figure 2.1 – Étapes d’échantillonnage aléatoire avec remplacement à partir de l’ensemble de
données original.
Remarque 2.1. Cette méthode est largement utilisée en conjonction avec la méthode de bagging
pour améliorer la performance du modèle et réduire sa variance[10, 11].
2.2.2 Notion de Bais et Variance
Le biais et la variance sont deux sources d’erreur de prédiction dans les modèles d’appren-
tissage automatique. Le biais mesure l’erreur qui se produit lorsque le modèle est trop simple
pour représenter les données d’entraı̂nement, conduisant à une sous-apprentissage des valeurs de
sortie. La variance mesure la variabilité de la prédiction des modèles appris à partir de différents
ensembles de données d’entraı̂nement[10]. Un modèle avec une variance élevée est généralement
trop complexe, ce qui peut conduire à une sur-apprentissage aux données d’entraı̂nement et à
une mauvaise performance pour les données de test ou de validation[11].
Exemple 2.1. Un modèle à biais élevé résulte d’un apprentissage insuffisant des données. Il n’est
pas lié à la distribution des données. Par conséquent, les prédictions futures ne seront pas liées
aux données et seront donc incorrectes (Figure 2.2).
Exemple 2.2. Un modèle à variance élevée résulte d’un apprentissage trop poussé des données.
Il varie avec chaque point de données. Il est donc impossible de prédire avec précision le point
suivant (Figure 2.3).
25

Figure 2.2 – Modèle simple Figure 2.3 – Modèle complexe
De cette manière, le modèle résultant sera beaucoup plus équilibré, avec un faible biais et
une faible variance. Le modèle résultant sera donc connu sous le nom d’apprenant fort. Ce modèle
sera plus généralisé que les apprenants faibles[11]. Il sera donc capable de faire des prédictions
précises.
Figure 2.4 – Modèle bien adapté
les modèles à fort biais ou à forte variance ne peuvent pas se généraliser correctement, ce
qui peut conduire à des prédictions incorrectes. Le compromis biais-variance stipule que pour
obtenir une bonne généralisation, il faut trouver un équilibre entre le biais et la variance[10]. En
général, pour une bonne performance du modèle, il est important de trouver le juste milieu entre
ces deux facteurs[9].
fonctionne L’apprentissage en ensemble ?.
L’un des problèmes de l’apprentissage automatique est que les modèles individuels ont
tendance à être peu performants. En d’autres termes, ils ont tendance à avoir une faible précision
de prédiction. Pour atténuer ce problème, nous combinons plusieurs modèles afin d’en obtenir un
plus performant[9]. L’apprentissage en ensemble visera à :
• réduire le biais si nous disposons d’un modèle faible avec un biais élevé et une faible variance.
• réduire la variance si nous disposons d’un modèle faible avec une variance élevée et un faible
biais.
26

Les modèles individuels que nous combinons sont connus sous le nom d’apprenants faibles. Nous
les appelons apprenants faibles parce qu’ils ont soit un biais élevé, soit une variance élevée[10].
En raison de leur biais ou de leur variance élevés, les apprenants faibles ne peuvent pas apprendre
efficacement et obtiennent des résultats médiocres[11].
2.3 Méthodes ensemblistes : la sagesse des foules
Les méthodes ensemblistes sont des méthodes très puissantes en pratique, qui reposent sur
l’idée que combiner de nombreux apprenants faibles permet d’obtenir une performance large-
ment supérieure aux performances individuelles de ces apprenants faibles, car leurs erreurs se
compensent les unes les autres[9, 10].
Cette idée est similaire au concept de sagesse des foules (wisdom of crowd), si je demande
à mes élèves l’année de la mort de Pompidou, il est probable que la moyenne de leurs réponses
soit assez proche de la bonne (1974), cependant, si je demande cette date à une seule personne
au hasard, je n’aurais aucun moyen de savoir a priori si cette personne connaı̂t la date ou me
répond au hasard[10].
Exemple 2.3. Pour illustrer ce concept, imaginons une tâche de classification en deux dimen-
sions, dans laquelle les deux classes sont séparées par une diagonale, mais que le seul algorithme
d’apprentissage dont nous disposions ne puisse apprendre qu’une frontière de décision en escalier,
avec un nombre limité de paliers. Combiner des dizaines voire des centaines de ces frontières de
décision en escalier peut nous donner une bien meilleure approximation de la véritable frontière
de décision[10]. Cet exemple est illustré sur la (figure 2.5).
Figure 2.5 – Un exemple de méthode ensembliste de décision.
Chacune des frontières de décision en escalier est une mauvaise approximation de la vraie
frontière qui est la diagonale en trait plein[10]. Cependant, combiner ces escalier permet une
meilleure approximation de la diagonale.
Attention :
La théorie des méthodes ensemblistes montre que lorsque les modèles que l’on combine ont
été appris par des apprenants faibles, c’est-à-dire simples à entraı̂ner et peu performants, ces
méthodes permettent d’améliorer la performance par rapport à celle du meilleur de ces modèles
individuels[9]. En pratique, si les modèles individuels sont déjà performants et robustes au bruit,
27

le modèle ensembliste ne sera pas nécessairement meilleur. On utilise le plus souvent des arbres
de décision comme modèles individuels[10].
2.3.1 Méthodes parallèles : bagging
Supposons un jeu de données D de n observations, x1, x2, . . . , xi, . . . , xn de X le nuage
d’observations dans l’espace d’attributs correspondant et y1, y2, . . . , yi, . . . , yn l’ensemble de leurs
étiquettes.
Définition 2.2. Le bagging, proposé par Leo Breiman (1996) est un acronyme de (anglais : Boots-
trap Aggregating), également connu sous le nom d’agrégation bootstrap. cette méthode consiste à
former N versions de D par échantillonnage bootstrap, ce qui signifie que les points de données
individuels peuvent être choisis plus d’une fois. Après la génération de N échantillons de données
D, ces modèles faibles sont formés indépendamment et leurs prédictions sont agrégées pour
produire une prédiction finale plus robuste. Les N prédictions sont ensuite combinées selon le
type de tâche : par vote de la majorité dans le cas d’un problème de classification. en prenant
la moyenne dans le cas d’un problème de régression.
Figure 2.6 – Principe du bagging (Bootstrap Aggregation)
Remarque 2.2. Le bagging permet de réduire la variance des estimateurs individuels. C’est ce
qui lui permet d’atteindre une plus grande stabilité et une meilleure prédiction qu’eux.
Nous expliquons cette remarque par un exemple, la figure ci-dessous illustre ce principe les 5
premiers arbres qui composent le classifieur entraı̂né par bagging séparent nettement moins bien
le jeu de données que le bagging, mais ils font des erreurs sur des régions différentes de l’espace,
qui se compensent lorsqu’on les combine[10].
28

Figure 2.7 – Performance sur un jeu de test d’un classifieur entraı̂né par bagging (en bas à
droite) et des 5 premiers arbres qui le composent.
2.3.1.1 Fonctionnement du Bagging :
1. Nous disposons d’un ensemble de données d’apprentissage initial contenant n nombres
d’instances.
2. Nous créons un nombre m de sous-ensembles de données à partir de l’ensemble de données
d’apprentissage.
3. Nous prenons un sous-ensemble de N points d’échantillonnage de l’ensemble de données
initial pour chaque sous-ensemble.
4. Pour chaque sous-ensemble de données, nous formons indépendamment les apprenants
faibles correspondants. Ces modèles sont homogènes, c’est-à-dire qu’ils sont du même type.
5. Chaque modèle fait une prédiction.
6. Les prédictions sont agrégées en une seule prédiction. Pour ce faire, on utilise soit le vote à
majorité, soit la moyenne.
2.3.1.2 Avantages et inconvénients du bagging
L’algorithme des ”forêts aléatoires” (ou Random Forest, parfois aussi traduit par forêt
d’arbres décisionnels) est l’un des algorithmes bagging les plus populaires. Le bagging offre l’avan-
tage de permettre à de nombreux apprenants faibles de combiner leurs efforts pour surpasser un
seul apprenant. Il aide également à réduire la variance, éliminant ainsi le surapprentissage des
modèles dans la procédure.
ˆ Le bagging minimise le surapprentissage des données.
ˆ Il traite efficacement les données de dimension supérieur.
ˆ Un inconvénient de bagging est qu’il introduit une perte d’interprétabilité d’un modèle.
ˆ Le modèle résultant peut subir de nombreux biais lorsque la procédure appropriée est
ignorée.
ˆ Bien que bagging soit très précis, il peut être coûteux en calcul et cela peut décourager son
utilisation dans certains cas.
29

2.3.2 Méthodes séquentielles : boosting
On parle alors de boosting, par itérations successives des apprenants faibles viennent exalter
”booster” les performances du modèle final qui les combine[10]. Les techniques de boosting les
plus courantes sont AdaBoost, Gradient Boosting et XGBoost.
Définition 2.3. Le boosting a été introduit par Schapire (1990), est une méthode ensembliste de
l’apprentissage automatique dans laquelle des apprenants faibles, sont construits séquentiellement
sur des sous-ensembles de données pondérés en fonction de leur erreur de prédiction précédente.
Chaque modèle est construit pour minimiser l’erreur résiduelle du modèle précédent et est pondéré
en fonction de sa performance. Les modèles pondérés sont ensuite combinés pour produire une
prédiction finale.
Figure 2.8 – Principe de la technique de Boosting
Remarque 2.3. le boosting est souvent utilisée avec des arbres de décision comme modèles faibles,
car ils sont simples à entraı̂ner et à interpréter.
2.3.2.1 Fonctionnement du boosting :
1. Un sous-ensemble est créé à partir de l’ensemble de données d’origine.
2. Au départ, tous les points de données reçoivent des poids égaux.
3. Un modèle de base est créé sur ce sous-ensemble.
4. Ce modèle est utilisé pour faire des prédictions sur l’ensemble des données.
5. Les erreurs sont calculées à l’aide des valeurs réelles et des valeurs prédites.
6. Les observations qui sont mal prédites reçoivent des poids plus élevés.
7. Un autre modèle est créé et des prédictions sont effectuées sur l’ensemble de données.(Ce
modèle tente de corriger les erreurs du modèle précédent)
8. De même, plusieurs modèles sont créés, chacun corrigeant les erreurs du modèle précédent.
9. Le modèle final (apprenant fort) est la moyenne pondérée de tous les modèles(apprenants
faibles).
30

2.3.2.2 AdaBoost
AdaBoost dont le nom vient de Adaptive Boosting, est un algorithme qui permet de
construire un classifieur de manière itérative, en forçant un classifieur faible à se concentrer sur
les erreurs du modèle grâce à un système de pondération des exemples d’entraı̂nement. L’estima-
teur le plus couramment utilisé avec AdaBoost est l’arbre de décision à un niveau, c’est-à-dire
l’arbre de décision à une seule division[10]. Ces arbres sont également appelés ”Decision Stumps”
(souches de décision).
Algorithme 1 AdaBoost
Entrée :
- X l’observation à prévoir
- dn = (x1, y1) , . . . , (xn, yn) l’échantillon
- Une règle faible
- T le nombre d’itérations.
Initialiser les poids wi = 1/n, i = 1, . . . , n
Pour m = 1 à T faire :
Étape.1 : Ajuster la règle faible sur l’échantillon dn pondéré par les poids w1, . . . , wn,
on note gm(X) l’estimateur issu de cet ajustement
Étape.2 : Calculer le taux d’erreur :
em =
Pn
i=1 wi1yi ̸= gm (xi).
Pn
i=1 wi
.
Étape.3 : Calculer : αm = log ((1 − em) /em)
Étape.4 : Réajuster les poids :
wi = wi exp αm1yi̸=gm(xi)

, i = 1, . . . , n
fin
Sortie :
ĝT (X) =
T
X
m=1
αmgm(X)
.
Les poids de chaque observation sont initialisés à 1/n pour l’estimation du premier modèle. Ils
sont ensuite mis à jour pour chaque itération. L’importance d’une observation wi est inchangée
si l’observation est bien classée[10], dans le cas inverse elle croit avec la qualité d’ajustement du
modèle mesurée par αm. L’agrégation finale est une combinaison des règles g1, · · · , gT pondérée
par les qualités d’ajustement de chaque modèle.
2.3.2.3 Bagging vs boosting :
la principale différence entre ces méthodes d’apprentissage est la manière dont elles sont
formées. Dans le cas du bagging, les apprenants faibles sont formés en parallèle, alors que dans
le cas du boosting, ils apprennent de manière séquentielle.
31

2.4 Méthodes de combinaison
Après la construction des classificateurs de base, il existe diverses techniques pour combiner
les résultats de chaque classificateur. Parmi les approches les plus fréquemment mentionnées
dans la littérature, on trouve la moyenne, le vote majoritaire, le vote pondéré et le stacking. Ces
méthodes permettent d’exploiter les prédictions des classificateurs individuels afin de parvenir à
une décision finale plus robuste[10].
• Le vote à majorité : La méthode de vote majoritaire est généralement utilisée pour les problèmes
de classification. Dans cette technique, plusieurs modèles sont utilisés pour faire des prédictions
pour chaque point de données. Les prédictions de chaque modèle sont considérées comme un
”vote”. La prédiction obtenue de la part de la majorité des modèles est utilisée comme prédiction
finale. L’inconvénient de cette méthode est dans le cas ou plus de la moitié des classificateurs de
base obtiennent de faux résultats.
• Le vote à majorité pondéré : C’est un vote basé sur des poids associés aux classificateurs de
base.Ces poids peuvent être diminués ou augmentés au fur et à mesure que les classificateurs
s’entraı̂nent, suivant qu’ils produisent respectivement une bonne ou une mauvaise prédiction.
• Moyenne : Dans cette méthode, la moyenne des prédictions de tous les modèles est utilisée
pour faire la prédiction finale. La moyenne peut être utilisée pour faire des prédictions dans des
problèmes de régression ou pour calculer des probabilités pour des problèmes de classification.
• Stacking : Le stacking, également connu sous le nom Stacked generalization, proposée par
Wolpert (1992), est une technique d’apprentissage d’ensemble dans laquelle plusieurs modèles
sont entraı̂nés et leurs prédictions sont combinées pour produire une prédiction finale. En général,
elle consiste à utiliser les prédictions de plusieurs modèles de base pour entraı̂ner un modèle de
méta-apprentissage qui apprend à partir de ces prédictions pour produire une prédiction finale
plus précise[11].
Figure 2.9 – Classificateur basé sur l’empilement (stacking) général
32

2.5 Conclusion
Pour l’apprentissage en ensemble, nous avons donné la définition de l’ensemble à la manière
de l’apprentissage supervisé et nous avons abordé les problèmes fondamentaux de l’apprentissage
en ensemble, comment former chacun des apprenants de base, comment combiner les résultats
obtenus à partir des différents apprenants de base et quel est le facteur critique pour déterminer le
succès de l’apprentissage en ensemble (diversité de l’ensemble). En ce qui concerne les algorithmes
d’apprentissage en ensemble, nous avons décrit les algorithmes de bagging et de boosting et
stacking qui ont été à l’origine de la proposition du modèle d’ensemble de classification multi-
vues présenté dans le dernière chapitre suivant. En ce qui concerne les méthodes de combinaison,
la moyenne, Le vote à majorité pondéré, vote majoritaire et stacking ont été décrits en détail
dans le dernière section . En outre, nous avons examiné la question de la diversité liée à la réussite
de l’apprentissage ensembliste.
33

CHAPITRE 3
EXTRACTION DE CARACTÉRISTIQUES ET CLASSIFICATION
D’IMAGES
3.1 Introduction
Les contenus visuels des images sont extraits et décrits par des vecteurs multidimensionnels
de caractéristiques, et ces vecteurs forment la base de données de descripteurs (ou signatures)
l’extraction des contenus visuels des images se concentre généralement sur les caractéristiques de
bas niveau[12]. Il y a deux approches principales de caractériser : la première est la construction
de descripteurs globaux à toute l’image et la seconde est locale et consiste à calculer des carac-
téristiques sur des portions restreintes de l’image et nous avons expliqué en détail dans ce chapitre.
A cet effet, les notions de recherche par le contenu, de classification et d’annotation des
images constituent les éléments clés de toute solution voulant répondre aux attentes des profes-
sionnels exerçant dans des domaines d’application de l’analyse des images. L’analyse des images
en général, pour des fins de détection et extraction des objets, est devenue un axe de recherche
très important[2].
La première partie de ce chapitre se concentre sur les principes fondamentaux d’un système
de reconnaissance d’images par le contenu. Dans la deuxième partie, nous décrivons en détail
l’ensemble des caractéristiques utilisées pour décrire les images. Ensuite, nous présentons les
bases d’images utilisées, en exposant leur contenu et les différentes méthodes de description
d’images. Enfin, une évaluation approfondie des performances de reconnaissance de cet ensemble
de caractéristiques est fournie à la fin du chapitre.
34

3.2 Reconnaissance d’images par le contenu
Figure 3.1 – Architecture d’un système de reconnaissance d’images par le contenu basé sur la
classification.
L’architecture type des systèmes de Reconnaissance d’images par le contenu est illustrée par la
figure 3.1. Cette architecture est composée principalement par deux étapes importantes, à savoir
l’extraction des caractéristiques visuels pour la description des images et la classification qui mène
à la reconnaissance de ces images. Un système de reconnaissance d’images est souvent conçu pour
un type bien déterminé de base d’images. Les bases d’images se classent, généralement, en deux
grandes catégories[2] :
ˆ Les bases spécialisées : sont des bases dans lesquelles nous trouvons des images d’un do-
maine particulier (images médicales, images satellitaires, images architecturales, images
biométriques telles que les images de visages ou d’empreintes, images artistiques telles que
les tableaux de musée, etc...).
ˆ Les bases hétérogènes : désignées aussi par généralistes sont des bases d’images de sujets
très variés comprenant des catégories d’images très différentes (par exemple couchers de
soleil, montagne, plage, animaux, véhicules, bâtiments, etc...).
Les images dans le cas des bases spécialisées ont le plus souvent un contenu sémantique
homogène et présentent plusieurs caractéristiques en commun. La reconnaissance d’images dans
de telles bases est en fait un problème spécifique à un domaine bien particulier. Par contre, la
deuxième catégorie de bases d’images généralistes regroupe des images appartenant à des concepts
hétérogènes. Les images sont alors de divers types et elles ont un contenu assez complexe[2]. Par
conséquent, la difficulté de reconnaissance d’images est accrue dans ce type de bases à cause des
limitations de description des images.
35

3.3 Extraction des caractéristiques
La description du contenu des images est une étape essentielle dans un système de recherche
d’image par le contenu, car la performance de système dépend en grande partie du choix des
descripteurs employés et des techniques associées à leurs extractions. Un descripteur est défini
comme la connaissance utilisée pour caractériser l’information contenue dans les images. Cette
étape permet de fournir une représentation du contenu de l’image appelé aussi signature de
l’image[2].
L’objectif principal de l’extraction de caractéristiques est de déterminer pour chaque image,
une représentation (signature) qui soit, d’une part compacte, pour être rapidement accessible
et facilement comparable, et d’autre part suffisamment complète pour bien caractériser l’image.
Ces caractéristiques décrivent les principales caractéristiques visuelles existant dans une image,
à savoir la couleur, la texture et la forme[2].
3.3.1 Vecteur descripteur
Le vecteur descripteur contient les attributs intéressants extraits de l’image. Il se présente
en général sous la forme d’un vecteur à n composantes réelles. Les attributs extraits des images
sont de différents types et sont exprimés dans des unités différentes selon qu’ils appartiennent à
la couleur, la texture, la forme. Une étape de normalisation est indispensable, elle va permettre
de réajuster les valeurs des attributs pour les rendre commensurables.
3.3.2 Types de caractéristiques
Les images sont des objets numériques très riches en terme d’informations. En plus de
l’espace mémoire gigantesque exigé, la manipulation directe de ces images dans un système de
reconnaissance d’images par le contenu ne permet pas d’obtenir des temps de réponse réalistes.
Il convient donc d’utiliser une représentation de dimension réduite pour caractériser le contenu
de ces images.
3.3.2.1 Couleur
Les caractéristiques couleurs sont les premiers utilisés dans les systèmes de reconnaissance
d’images par le contenu et ils sont toujours les plus utilisés grâce à leur simplicité d’extraction,
leur richesse de description et leur efficacité de reconnaissance. Ces caractéristiques couleurs
dépendent directement de l’espace couleur utilisé pour la représentation couleur de l’image. Dans
la littérature, plusieurs espaces couleurs sont étudiés et utilisés pour la reconnaissance d’images.
Chaque couleur est représentée par trois composantes : rouge, vert et bleu. L’espace RVB est
généralement l’espace couleur de base dans lequel sont capturées les images[12]. La figure 3.2
illustre la décomposition d’une image couleur en trois sous-images monochromes selon l’espace
couleur RVB.
36

Figure 3.2 – Image couleur RVB
Les autres espaces couleurs représentent des transformations directes de l’espace RVB. Ces
transformations ont pour objectif d’améliorer la représentativité colorimétrique de l’image et
d’assurer des mesure de distance plus linéaires[2].
• Les espaces couleurs HSI, HSV, HSB et HLS (appelés communément HSx) sont plus proches
de la perception humaine de couleur que l’espace couleur RVB, mais ils ne sont pas encore
perceptuellement uniformes.
• les espaces couleurs YUV et YIQ où la composante Y représente la luminance du pixel et
les pairs de composantes UV et IQ représentent les composantes chromatiques.
• l’espace couleur XYZ, où les composantes X et Z sont les composantes chromatiques et
la composante Y est la somme pondérée des valeurs R, V et B. Comme il n’est pas per-
ceptuellement uniforme, l’uniformisation de l’espace XYZ se fait par une transformation
projective qui débouche sur l’espace couleur LUV.
D’autres espaces couleurs existent aussi tels que HMMD, L*a*b*, LST et YCrCb...etc.
3.3.2.2 Texture
La texture est liée aux apparences de surface des images ce qui est d’une grande importance
dans tout domaine relatif à la perception visuelle. la texture est l’information générée par les
variations des niveaux de gris entre des pixels voisins au sein d’une image[2, 12]. Différents
modèles de texture sont illustrés dans la figure 3.3.
Figure 3.3 – Différents modèles de texture.
37

Les caractéristiques textures sont de plus en plus utilisés dans la description d’images car ils
atténuent certains problèmes liés à la description couleur. En effet, la description texture est très
efficace, surtout dans le cas d’une distribution couleur très proche. Les caractéristiques textures
sont divisés en deux catégories[2] :
• La première est déterministe et fait référence à une répétition spatiale d’un motif de base
dans différentes directions. Cette approche structurelle correspond à une vision macrosco-
pique des textures.
• La deuxième approche, dite microscopique, est probabiliste et cherche à caractériser l’aspect
chaotique qui ne comprend ni motif localisable, ni fréquence de répétition principale.
3.3.2.3 Forme
Les caractéristiques forme se concentrent sur la description des objets individuels présents
dans une image, Contrairement aux caractéristiques couleurs et textures qui s’intéressent à la
description du contenu général de l’image. Généralement, ce type de caractéristique indique
l’aspect général d’un objet, comme son contour, donc une segmentation sous forme de traitement
préliminaire de l’image est souvent nécessaire[2]. Deux catégories des caractéristiques formes
peuvent être extraites :
• les caractéristiques basée sur la géométrie des régions de l’image.
• les caractéristiques basée sur les statistiques des intensités de pixels des différentes régions
dans l’image.
Les images peuvent être transformées géométriquement, notamment par rotation, translation et
changement d’échelle. Afin de garantir une description robuste et efficace, les attributs de forme
couvrent généralement une large gamme d’échelles de représentation que comporte un objet[12].
De plus, ils sont souvent insensibles aux différentes variations causées par des transformations
géométriques. un exemple des transformations géométriques que peut subir une image illustrés
dans la (figure 3.4).
Figure 3.4 – Différentes transformations géométriques que peut subir une image.
3.4 Catégories de caractéristiques
Les caractéristiques visuels sont extraits à partir de l’image selon trois niveaux d’abstrac-
tions : le niveau global, le niveau régions et le niveau points d’intérêt. Le premier niveau reflète
38

une description globale des images, tandis que les deux derniers permettent d’assurer une descrip-
tion locale. Nous rappelons ici les deux deux catégories de caractéristiques : les caractéristiques
globaux et les caractéristiques locaux (Aly et al, 2009)[2].
3.4.1 Caractéristiques globaux
Cette approche globale permet la reconnaissance des images en se basant sur des similarités
visuelles mesurées sur les images entières. Une image décrite globalement est représentée par un
seul vecteur de caractéristiques, ce qui n’est pas le cas avec les caractéristiques locaux. Par
conséquent, la phase de classification et de reconnaissance devient plus rapide[2]. Généralement,
ce type de caractéristiques est robuste et peu affecté par le bruit qui peut s’ajouter au contenu
de l’image. Les histogrammes de couleur ou de niveaux de gris et les corrélogrammes sont des
exemples typiques de ce type de description.
3.4.2 Caractéristiques locaux
L’approche locale de reconnaissance d’images se base essentiellement sur la description
de parties spécifiques dans l’image, représentées souvent par des sous-régions homogènes[2]. La
description d’image est construite dans ce cas par un ensemble de vecteurs de caractéristiques.
Les caractéristiques utilisés sont, généralement, extraits pour chaque sous régions dans l’image.
Il est possible également de caractériser le contenu des images par le biais de la description des
points d’intérêt. Les approches locales basées sur des descriptions de points d’intérêt permettent
d’effectuer des recherches précises mais au prix d’un temps de calcul très élevé. les caractéristiques
locaux sont surtout utilisés dans le cas des bases d’images dites spécifiques[2, 12]. une description
locale est beaucoup moins performante dans le cas des images hétérogènes, ou les images d’une
même classe ne présentent pas forcément une majorité de sous régions ou de points d’intérêts en
commun.
3.4.3 Méthodes de classification et évaluation des performances
3.4.3.1 Classification
On distingue principalement deux types de classification, supervisée et non-supervisée, sui-
vant que l’on dispose ou non d’une expertise des images à classifier figure 3.1. Dans ce projet,
nous nous intéressons uniquement à la classification supervisée.
• classification supervisée : se base sur une phase d’apprentissage où l’on cherche à produire au-
tomatiquement des règles de décision à partir d’images déjà classifiées. Le choix de la technique
d’apprentissage à utiliser est très important dans un tel processus. La classification de nouvelles
images de test est réalisée dans une seconde phase, appelée généralisation. À partir des images
d’apprentissage, le classifieur utilisé doit bien généraliser les règles de décision apprises sur de
nouvelles images requêtes appartenant à une base dite de test. L’étape d’apprentissage est réali-
sée hors ligne, alors que celle de généralisation est effectuée en ligne[2].
• classification non-supervisée : est une approche qui vise à regrouper automatiquement les
images en fonction de leurs similarités intrinsèques, sans utiliser d’étiquettes ou de catégories
prédéfinies. Contrairement à la classification supervisée, où les étiquettes sont fournies pour gui-
der le processus d’apprentissage, la classification non supervisée cherche à découvrir des motifs
ou des structures inhérentes dans les données d’image de manière non directive.
39

3.4.4 Performances de classification d’images
L’évaluation des performances d’un modèle de reconnaissance d’images concerne à la fois sa
capacité de reconnaissance et son efficacité en terme de rapidité d’exécution. Cette dernière est
facile à évaluer, il suffit de mesurer le temps de réponse moyen du système sur plusieurs requêtes.
L’évaluation des capacités de reconnaissance est effectuée en comparant le résultat de classifica-
tion obtenu à un résultat de référence, appelé souvent vérité terrain[2]. Les critères de qualité les
plus utilisés sont des mesures de performance standard (Bimbo, 2001), il s’agit principalement
de la précision et du rappel. pour chaque classe Ci, on calcule de la manière suivante :
• Le rappel : est la proportion d’images bien classés par rapport au nombre d’images de la
classe à prédire :
Rappel =
TP
TP + FN
(3.1)
Le rappel mesure la capacité d’un modèle de classification à détecter les images correctement
classés. Un rappel fort ou faible n’est pas suffisant pour évaluer les performances d’un modèle.
Pour cela, on définit la précision.
• La précision : est la proportion d’images bien classés pour une classe donnée :
Précision =
TP
TP + FP
(3.2)
La précision mesure la capacité d’un modèle de classification à ne pas classer une image dans une
classe, un image qui ne l’est pas. Comme elle peut aussi être interprétée par la probabilité condi-
tionnelle qu’une image choisi aléatoirement dans la classe soit bien classé par le classifieur[10].
Pour une image requêter donnée, TP le taux des vrai positifs, FP le taux des faux positifs
et TP + FN le nombre total des images pertinentes dans la base. Notons que les taux TP et FP
indiquent, respectivement, le nombre d’images pertinentes et non-pertinentes retrouvées.
Figure 3.5 – Courbe Rappel-Précision pour trois classifieurs .
• le F-score est la moyenne harmonique qui prend en compte les deux métriques de précision
et de rappel.
F − score = 2 ∗
Précision * Rappel
Précision + Rappel
(3.3)
• Accuracy : est nombre d’échantillons correctement classés parmi tous les échantillons présents
dans l’ensemble de test.
Accuracy =
TP + TN
TP + TN + FP + FN
(3.4)
40

la précision et Le rappel sont souvent utilisées dans le domaine de la recherche d’information,
car elles reflètent le point de vue de l’utilisateur, si la précision est faible, l’utilisateur sera
insatisfait, car il devra perdre du temps à lire des informations qui ne l’intéressent pas. Si le rappel
est faible, l’utilisateur n’aura pas accès à une information qu’il souhaitait avoir. Un classifieur
parfait doit avoir une précision et un rappel de un (1), mais ces deux exigences sont souvent
contradictoires et une très forte précision ne peut être obtenue qu’au prix d’un rappel faible et
vice-versa[10].
3.4.4.1 Matrice de confusion
La matrice de confusion est un tableau de contingence comparant les classes obtenues (co-
lonnes) et les classes souhaitées (lignes) pour l’échantillon. Sur la diagonale principale on retrouve
donc les valeur bien classées. à l’exception de la diagonale les images sont mal classées[10].
Nous considérons ici un problème simple de classification pour lequel nous nous intéressons à
une classe unique Ci et nous voulons évaluer un système qui nous indique si une image peut être
associé ou non à cette classe Ci. Ce problème est un problème de classification à deux classes (C1
et C2). Si on peut maitriser ce problème simple, on pourra fusionner par la suite, les mesures de
performance de plusieurs systèmes bi-classes afin d’obtenir une mesure de la performance d’un
classifieur multi-classes.
Pour évaluer un système de classification de ce type, nous utilisons la matrice de confusion.
On diviser la base d’images en deux parties, une partie pour l’apprentissage (training) et une
autre partie pour le test et la validation du modèle. Cette matrice permet de visualiser facilement
le nombre de TP, TN, FP et FN.
Figure 3.6 – Matrice de confusion
Avec :
• TP : nombre de ”True Positives”. C’est le nombre d’images classées par le modèle dans la
classe C1 qui appartiennent effectivement à cette classe.
• TN : nombre de ”True Negatives”. C’est le nombre d’images classées par le modèle dans la
classe C2 qui appartiennent effectivement à cette classe.
• FP : nombre de ”False Positives”. C’est le nombre d’images qui sont classées par le modèle
dans la classe C1 alors et qu’elles appartiennent à la classe C2.
• FN : nombre de ”False Negatives”. C’est le nombre d’images qui sont classées par le modèle
dans la classe C2 alors et qu’elles appartiennent à la classe C1.
41

Cette matrice permet de déduire les paramètres la précision et le Rappel.
3.5 Caractéristiques utilisées pour la description d’images dans
les bases hétérogènes
Comme mentionné précédemment, en raison de la diversité des contenus des images hété-
rogènes, la description adoptée dans ce travail est basée sur l’extraction de caractéristiques glo-
baux. Une image décrite globalement, contrairement à l’utilisation des caractéristiques locales,
est représentée généralement par un seul vecteur de caractéristiques pour chaque caractéristique
extraite[2]. Ceci permet de rendre plus rapide la reconnaissance des images.
Soit I une image couleur quantifiée sur m couleurs {c1, c2, ..., cm}. Chaque pixel pi, i =
[1, 2, ..., N], de coordonnés (x, y) est doté d’une couleur I(pi) :
pi ∈ Icj ⇔ I(pi) = cj, ∀j ∈ {1, 2, ..., m} .
Dans l’espace couleur RVB, les trois matrices couleur (Rouge, Vert et Bleu) de I sont notées
respectivement par R, V et B. la figure ci-dessous présente une illustration de la décomposition
d’une partie d’une image en ses trois composantes de couleur Rouge, Vert et Bleu (RVB).
Figure 3.7 – Image numérique couleur RVB.
3.5.1 Couleurs moyennes
La caractéristique couleur moyenne (Faloutsos et al, 1994), sert à déterminer les différentes
distributions moyennes de couleur dans une image. Elle peut être calculée pour n’importe quel
espace couleur[12]. Le nombre de caractéristiques constituant cette caractéristique dépend alors
du nombres d’axes dans l’espace couleur utilisé pour la représentation de l’image[2]. Par exemple,
la caractéristique couleur moyenne de l’image I dans l’espace couleur RVB est formulée comme
42

suit :
x̄ = (Rmoy, Vmoy, Bmoy)t
(3.5)
Sachant que :
R̄moy =
1
N
N
X
p=1
R(p), (3.6)
V̄moy =
1
N
N
X
p=1
V(p), (3.7)
B̄moy =
1
N
N
X
p=1
B(p), (3.8)
3.5.2 Matrice de co-occurrences
La méthode de matrice de co-occurrence de niveaux de gris (GLCM en anglais : Grey Level
Co-occurrence Matrix) présente une grande simplicité de mise en œuvre et donne de bons résul-
tats sur la plupart des types d’images[10]. Une matrice de co-occurrence est une matrice de taille
n ∗ n, où n est le nombre de niveaux de gris d’une image. Pour un déplacement d (translation),
un élément (i, j) de la matrice est défini par le nombre de pixels de l’image de niveau de gris j
situés à d d’un pixel de niveau de gris i.
Il est possible de calculer sur cette matrice des attributs statistiques classiques comme la
moyenne et la variance, ainsi que d’autres attributs telles que l’entropie, l’inertie, la corrélation,
etc... Selon Haralick, treize attributs de texture peuvent être calculés (Haralick et al, 1973)[2].
ˆ Moyenne = 1
n2
Pn
i=1
Pn
j=1 Pij
ˆ V ariance =
Pn
i=1
Pn
j=1(i − Moyenne)2
Pij
ˆ Energie =
Pn
i=1
Pn
j=1 P2
ij
ˆ Entropie = −
Pn
i=1
Pn
j=1 Pij ln(Pij)
ˆ Contraste =
Pn
i=1
Pn
j=1(i − j)2
Pij
ˆ Homogeneite =
Pn
i=1
Pn
j=1
Pij
1+(i−j)2
ˆ Correlation =
Pn
i=1
Pn
j=1 Pij
[(i−µi)(j−µj)]
σiσj
Où Pij est la probabilité d’occurrence de la paire de niveaux de gris (i, j) (GLCM normalisée),
µi =
P
i iPi, est la moyenne des entrées normalisées pour le pixel de référence de valeur i,
µj =
P
j jPj, est la moyenne des entrées normalisées pour le pixel voisin de valeur j,
σ2
i =
P
i(i − µi)2
Pi, est l’écart-type des entrées normalisées pour le pixel de référence de valeur i,
σ2
j =
P
j(j − µj)2
Pj, est l’écart-type des entrées normalisées pour le pixel voisin de valeur j.
43

La signification statistique des descripteurs présentés précédemment peut être décrite comme
suit :
ˆ Énergie : exprime le caractère régulier de la texture. De manière générale, une énergie
élevée est observée lorsque l’image est très régulière, c’est-à-dire lorsque les valeurs élevées
de la GLCM sont concentrées à quelques endroits de la matrice.
ˆ Contraste : est plus élevé pour des GLCMs présentant des valeurs plus larges en dehors de
la diagonale, autrement dit pour des images affichant des changements locaux d’intensité.
ˆ Entropie : est d’autant plus élevée que la diagonale de la GLCM est étalée, le cas extrême
étant une GLCM uniforme. En ce sens, l’entropie est l’inverse de l’énergie et caractérise
l’aspect irrégulier de l’image, d’où une corrélation forte entre ces deux attributs.
ˆ Homogénéité : évolue à l’inverse du contraste et prend des valeurs élevées si les différences
entre les paires de pixels analysées sont faibles. Celle-ci est donc plus sensible aux éléments
diagonaux de la GLCM, contrairement au contraste qui dépend plus des éléments éloignés
la diagonale.
ˆ Corrélation : peut s’apparenter à une mesure de la dépendance linéaire des niveaux de gris
dans l’image.
Une fois calculés et éventuellement normalisés, l’ensemble des descripteurs sont rassemblés dans
un vecteur unique caractérisant chaque pixel ou chaque région de l’image[10, 12]. Ce vecteur
d’attributs peut ensuite être utilisé comme donnée d’entrée dans un classifieur.
3.5.3 Histogramme couleur
Un histogramme représente le mode de répartition des pixels dans une image en traçant le
nombre de pixels correspondant à chaque niveau d’intensité de la couleur. A partir d’un espace
discret de couleur défini par les axes couleurs correspondants (par exemple Rouge, Vert et Bleu),
l’histogramme couleur est déterminé par la discrétisation de l’image couleur et le calcul du nombre
d’occurrence de chaque couleur dans cette image[2]. Les histogrammes couleur dans l’espace RVB
sont calculés comme suit, ∀i ∈ {1, 2, ..., m} :
histR(ci) =
1
N
N
X
p=1
R(p) == ci, (3.9)
histV(ci) =
1
N
N
X
p=1
V(p) == ci, (3.10)
histB(ci) =
1
N
N
X
p=1
B(p) == ci. (3.11)
Il y a un histogramme pour chaque composante R, V et B comme on peut le voir dans la figure
3.8.
44

Figure 3.8 – Histogramme couleur
3.5.4 Descripteur HOG
Les histogrammes des dégradés orientés(HOG) ont été proposés par Navneet Dalal et Bill
Triggs, est un descripteur de caractéristique utilisé dans la vision par ordinateur et le traitement
d’image pour la détection d’objets. l’idée essentielle derrière HOG c’est que l’apparence locale et
la forme d’objet dans une image peut être décrite par la distribution d’intensité des gradients ou
de direction des contours. Cette méthode est similaire à celle des histogrammes d’orientation de
bord, des descripteurs de transformation d’entités invariables à l’échelle et des contextes de forme,
mais diffère en ce qu’elle est calculée sur une grille dense de cellules uniformément espacées[13].
Figure 3.9 – Étapes du Descripteur HOG.
Le descripteur HOG maintient quelques avantages clés, puisque le descripteur histogramme
de gradient orienté opère sur les cellules localisées, la méthode maintient l’invariance à des trans-
formations géométriques et photométriques, ces changements ne feront leur apparition que dans
les larges régions d’espaces[12].
3.5.5 Moments de Hu
Les moments de Hu sont des caractéristiques de forme très puissants. Un moment est une
somme pondérée de tous les pixels en fonction de leurs positions dans l’image[2].
45

Figure 3.10 – Image binaire : exemple d’image d’une silhouette d’avion.
Le moment régulier d’une forme dans une image binaire est défini par :
Mij =
X
x
X
y
xi
yj
I(x, y) (3.12)
où i et j sont des nombres entiers (par exemple 0, 1, 2 ....). Ces moments sont souvent appelés
moments bruts pour les distinguer des moments centraux mentionnés plus loin[14].
Le centroı̈de (x̄, ȳ) est calculé à l’aide de la formule suivante :
x̄ =
M10
M00
, ȳ =
M01
M00
(3.13)
Maintenant que nous avons nos centroı̈des, nous pouvons calculer les moments relatifs qui sont
centrés sur le centroı̈de :
µpq =
X
x
X
y
(x − x̄)p
(y − ȳ)q
I(x, y) (3.14)
où I(x, y) est la valeur de l’intensité du pixel à la coordonnée (x, y).
Alors les sept moments de Hu ont été proposés (Hu,1962) est[2] :
ϕ1 = µ20 + µ02
ϕ2 = (µ20 − µ02)2
+ 4µ2
11
ϕ3 = (µ30 − 3µ12)2
+ (3µ21 − µ03)2
ϕ4 = (µ30 + µ12)2
+ (µ21 + µ03)2
ϕ5 = (µ30 − 3µ12)(µ30 + µ12)[(µ30 + µ12)2
− 3(µ21 + µ03)2
]
+ (3µ21 − µ03)(µ21 + µ03)[3(µ30 + µ12)2
− (µ21 + µ03)2
]
ϕ6 = (µ20 − µ02)[(µ30 + µ12)2
− (µ21 + µ03)2
] + 4µ11(µ30 + µ12)(µ21 + µ03)
ϕ7 = (3µ21 − µ03)(µ30 + µ12)[(µ30 + µ12)2
− 3(µ21 + µ03)2
]
− (µ30 − 3µ12)(µ21 + µ03)[3(µ30 + µ12)2
− (µ21 + µ03)2
]
Les moments de Hu sont invariants aux différentes transformations géométriques[2, 14].
3.5.6 Descripteur LPB
Le motif binaire local (LBP) a été introduit pour la première fois par Ojala et al. pour la
classification des textures invariante par rotation[17]. Il est connu comme l’un des descripteurs
locaux les plus efficaces pour la reconnaissance d’images. Les LBP permettent d’extraire des
46

descripteurs de texture spatiaux pour discriminer les images de textures en niveaux de gris[15].
L’idée de cet descripteur est d’assigner à chaque pixel un code dépendant des niveaux de gris de
son voisinage[16]. L’opérateur LBP traditionnel convertit les valeurs des pixels dans le voisinage
3Ö3 de chaque pixel en un motif binaire par seuillage des différences entre la valeur du pixel
central et les valeurs des pixels voisins[18]. Nous disposons de 256 motifs binaires pour le cas
du voisinage 3 Ö 3. Le motif binaire est traité comme le code LBP. Ensuite, les occurrences du
motif binaire dans une image donnée sont accumulées dans l’histogramme et cet histogramme
est utilisé comme descripteur de texture de l’image[17].
Dans ce qui suit, la notation (P,R) sera utilisée pour les voisinages de pixels, ce qui signifie
que P points d’échantillonnage sur un cercle de rayon R. Le niveau de gris du pixel central (ic)
de coordonnées (xc, yc) est comparé à celui de ses voisins (ip) suivant l’équation suivante[17, 18] :
LBPP,R =
P−1
X
p=0
2p
· s(ip − ic), (3.15)
où s(x) est la fonction seuil donnée par :
s(x) =
(
1 si x ≥ 0,
0 sinon.
(3.16)
La figure illustre une étape de calcul du motif binaire local. Une région de l’image originale est
examinée avec des paramètres de voisinage de R = 1 et P = 8.
Figure 3.11 – Visualisation du calcul du motif binaire local (LBP).
3.5.7 Descripteur GIST
Le descripteur GIST est une caractéristique globale qui permet d’extraire des informations
sur les principales régions de couleur et de texture dans une image. Cette méthode de traitement
d’image a été développée pour imiter le système de perception humain, en identifiant rapide-
ment les zones les plus importantes d’une scène visuelle[19]. Il a été proposé initialement pour
47

développer des représentations de scènes à faible dimension (Oliva and Torralba, 2001). La re-
présentation de la structure d’une image est définie comme une enveloppe spatiale et l’image
d’entrée est prétraitée en la convertissant en une image en niveaux de gris. L’image en niveaux
de gris est divisée en une grille à différentes échelles et la sortie de chaque grille cellulaire est
calculée à l’aide d’une série de filtres de Gabor[20].
Une image d’entrée est convoluée avec trente-deux filtres de Gabor à quatre échelles et huit
orientations, ce qui donne trente-deux cartes de caractéristiques de taille équivalente à celle de
l’image d’entrée[20]. Chaque carte de caractéristiques est divisée en seize régions et les valeurs des
caractéristiques sont moyennées dans chaque région d’intérêt. Les valeurs moyennes des carac-
téristiques provenant des seize régions contenues dans les trente-deux cartes de caractéristiques
sont concaténées pour produire un descripteur GIST contenant 512 caractéristiques (16 régions
* 32 cartes de caractéristiques), comme indiqué dans la figure 3 pour les foies normaux et gras.
Ainsi, le descripteur GIST fournit des informations sur les gradients de l’image[21].
3.6 Base de données
Dans le domaine de la classification des images, il existe plusieurs base de donnée dispo-
nible. Dans ce qui suit, une description des bases d’images utilisées est fournie.
ˆ MNIST : MNIST (Mixed National Institute of Standards and Technology database)
est une base de données de chiffres manuscrits (Figure 3.13). la base de données a été
téléchargée du site de Yan LeCun et comprend un ensemble d’entraı̂nement de 60000
observations et un ensemble test de 10000 observations. Chacune des images comprises
dans le MNIST est de dimensions 28 pixels par 28 pixels et représente un chiffre écrit à la
main de 0 à 9[34].
Figure 3.12 – 15 Chiffres écrit à la main provenant du MNIST.
ˆ CIFAR-10 : La base des images de CIFAR-10 (Figure 3.14 ) est composée de 60000 images
couleur, chaque image à une taille de 32 x 32, ces images sont réparties en 10 classes, avec
6000 images par classe. Pour cette base on obtient 50000 images d’apprentissage et 10000
images de test[35].
48

Figure 3.13 – 10 Images aléatoires de chaque classes de CIFAR-10.
ˆ Outdoor Scene : Outdoor Scene est une base d’images se compose de 2688 images de
scènes extérieures. 8 catégories d’images sont sélectionnées, à savoir la côte, la montagne,
la forêt, la campagne, la rue, l’intérieur de la ville, les grands bâtiments et les autoroutes.
Pour ce travail, seules 386 images ont été utilisées, représentant 5 classes spécifiques parmi
les 8 catégories d’images disponibles[37].
Figure 3.14 – 50 Echantillons d’images de différentes classes de la base Outdoor Scene utilisée.
ˆ MSRC-V2 : MSRC-v2 est une extension de l’ensemble de données MSRC-v1 (Microsoft
Research in Cambridge). Cependant, bien que l’ensemble de données contienne 591 images
et 23 classes, seules 216 images et 7 classes sont couramment utilisées[36].
49

Figure 3.15 – 50 Echantillons d’images de différentes classes de la MSRC-v1.
3.7 Conclusion
Dans ce chapitre, nous présentons la représentation des images ainsi que l’extraction et
la description des caractéristiques nécessaires pour comprendre les approches que nous avons
utilisées dans ce mémoire. Nous avons également présenté les bases d’images utilisées. Le pro-
chain chapitre donnera les détails de la méthode de classification multi-vues pour l’apprentissage
d’ensemble, ainsi que la méthode utilisée pour la réalisation de notre application.
50

CHAPITRE 4
MÉTHODE DE CLASSIFICATION MULTI-VUES POUR
L’APPRENTISSAGE EN ENSEMBLE
Dans ce chapitre, une méthode supervisée de classification multi-vues basée sur la régression
des moindres carrés et l’apprentissage en ensemble, que l’on appelle MCELWO, est présentée.
Cette classification permet d’assurer la reconnaissance de chaque image requête selon ses diffé-
rentes caractéristiques.
4.1 Introduction
Les données multi-vues représentées par différentes caractéristiques ont été largement uti-
lisées dans de nombreuses applications d’apprentissage automatique[26]. Ces caractéristiques
offrent une perspective variée et complémentaire de la description de l’image à partir de diffé-
rentes vues. Cependant, en raison de la complexité structurelle des données, exploiter de manière
efficace les informations complémentaires et corrélées entre les caractéristiques de plusieurs vues
pour améliorer les performances de classification est un défi majeur. De plus, il est important
de pouvoir attribuer des poids appropriés à chaque classifieur en fonction de ses performances.
Pour relever ces défis, nous avons présenté une méthode de classification multi-vues supervisée
basée sur la régression des moindres carrés et l’apprentissage en ensemble (MCELWO)[24]. Cette
méthode permet de préserver simultanément les informations corrélatives et complémentaires,
qui sont ensuite améliorées afin d’être plus discriminantes pour la classification ultérieure.
La classification multi-vues est un problème essentiel en apprentissage automatique, et de
nombreuses méthodes ont été proposées pour fusionner les informations complémentaires pro-
venant de multiples vues. Cependant, ces méthodes ont souvent recours à la concaténation des
vues en de longs vecteurs, ce qui augmente la complexité du modèle[27]. La méthode MCELWO,
quant à elle, offre une approche alternative en exploitant les forces spécifiques de chaque vue
de données et en surmontant leurs faiblesses respectives. Cette approche permet d’obtenir une
classification plus précise et plus robuste des données multi-vues.
Dans ce chapitre nous décrirons le fonctionnement général de la méthode de classification
supervisée multi-vues basées sur la régression des moindres carrés, tout en expliquant leur lien
51

avec l’apprentissage en ensemble. Ensuite, nous décrivons les paramètres expérimentaux utilisés
pour comparer les différentes approches et les mesures de performance utilisées. Enfin, nous pré-
sentons les résultats expérimentaux et analysons les avantages et les inconvénients de la méthode.
4.2 Classification multi-vues pour l’apprentissage en ensemble
La classification multi-vues pour l’apprentissage en ensemble est une technique d’appren-
tissage automatique qui consiste à utiliser plusieurs sources de données ou ”vues” d’un problème
pour améliorer les performances de la classification. Chaque vue représente une perspective dif-
férente sur les mêmes données, et l’utilisation de vues multiples peut aider à capturer différents
aspects de la distribution sous-jacente des données. Grâce aux résultats obtenus au cours des
dernières décennies, les méthodes de classification multi-vues connaissent un succès croissant et
ont prouvé leur efficacité dans plusieurs domaines, tels que la vision par ordinateur, le traitement
du langage naturel, la bio-informatique, et bien d’autres encore.
Nous présentons dans cette section une description de la méthode de classification multi-
vues basée sur l’apprentissage en ensemble avec optimisation des poids[24]. En premier lieu, nous
décrivons de façon simple et assez complète le principe de fonctionnement général.
Étant donné l’ensemble de données multi-vues X = {X1, X2, . . . , XV } dans Rn×dv
, où n
est le nombre d’échantillons et dv est la dimension des caractéristiques de la v-ième vue, nous
désignons les données d’apprentissage de la v-ième vue Xv = [xv1, xv2, . . . , xvn]T
dans Rn×dv
.
Y = [y1, y2, . . . , yn]T
dans Rn×C
est la matrice des étiquettes avec yi = [yi1, yi2, . . . , yiC]T
corres-
pondant au vecteur des étiquettes du i-ième échantillon, où C est le nombre de classes. Si le
i-ième échantillon appartient à la c-ième classe, alors yic = 1, et sinon yic = 0 [24].
Supposons que F = [F1, F2, . . . , Fv] soit les résultats de la classification initiale où Fv =
[Fv
1 , Fv
2 , . . . , Fv
n ]T
dans Rn×C
avec Fv
ic = 1 si le i-ième échantillon appartient à la c-ième classe
dans la v-ième vue, et sinon Fv
ic = 0, (c = 1, 2, . . . , C) [24].
4.2.1 Classification multi-vues basée sur l’apprentissage en ensemble avec op-
timisation des poids.
La méthode de classification multi-vues basée sur l’apprentissage en ensemble avec optimi-
sation des poids est une approche de classification supervisée qui utilise plusieurs vues ou sources
de données pour améliorer la précision de la classification. La méthode consiste à combiner plu-
sieurs classificateurs, chacun entraı̂né sur une vue différente des données, et à pondérer leurs
décisions pour obtenir une classification finale[24]. Les poids de vue sont attribués de manière
adaptative sur un ensemble d’entraı̂nement.
52

Mémoire.pdf

Recommandé

Recommandé

Contenu connexe

Similaire à Mémoire.pdf

Similaire à Mémoire.pdf (20)

Mémoire.pdf