SlideShare une entreprise Scribd logo
1  sur  74
Télécharger pour lire hors ligne
Mémoire présenté à
La Faculté des Sciences Dhar El Mahraz Fès
Master Mathématiques
Appliquées et Science des Données (MASD)
Master en double diplomation avec l’Université Sorbonne Paris Nord
Spécialité : Statistique et Science des Données
Intitulé :
Classification multi-vues pour l’apprentissage en
ensemble
Présenté par : Mohamed Ait Blal
Encadré par : Pr.Rosanna Verde
Co-encadré par : Pr.Ali Yahyaouy
Soutenu le 23/06/2023, devant le jury :
Pr. SABRI My Abdelouahed
Pr. EL FAZAZY Khalid
Pr. RIFFI Jamal
Pr. YAHYAOUY Ali
Pr. VERDE Rosanna
Président
Examinateur
Examinateur
Co-encadrant
Encadrant
Etablissement FSDM
Etablissement FSDM
Etablissement FSDM
Etablissement FSDM
Etablissement Luigi Vanvitelli,
Italie
Année Universitaire : 2022-2023
Table des matières
1 Machine à vecteurs de support 12
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Machines à vecteurs de support . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.1 Notions de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3 Linéarité et non linéarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.1 Cas linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.2 Cas non linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 Extension aux problèmes multi-classe . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4.1 Algorithme SVM : Un contre tous . . . . . . . . . . . . . . . . . . . . . . 21
1.4.2 Algorithme SVM : Un contre un . . . . . . . . . . . . . . . . . . . . . . . 22
1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2 Apprentissage ensembliste 24
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2 Notions de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.2 Notion de Bais et Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3 Méthodes ensemblistes : la sagesse des foules . . . . . . . . . . . . . . . . . . . . . 27
2.3.1 Méthodes parallèles : bagging . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.2 Méthodes séquentielles : boosting . . . . . . . . . . . . . . . . . . . . . . . 30
2.4 Méthodes de combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3 Extraction de caractéristiques et classification d’images 34
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Reconnaissance d’images par le contenu . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3 Extraction des caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.1 Vecteur descripteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.2 Types de caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 Catégories de caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4.1 Caractéristiques globaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.2 Caractéristiques locaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.3 Méthodes de classification et évaluation des performances . . . . . . . . . . 39
3.4.4 Performances de classification d’images . . . . . . . . . . . . . . . . . . . . 40
3.5 Caractéristiques utilisées pour la description d’images dans les bases hétérogènes . 42
3.5.1 Couleurs moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5.2 Matrice de co-occurrences . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5.3 Histogramme couleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
1
3.5.4 Descripteur HOG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.5.5 Moments de Hu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.5.6 Descripteur LPB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5.7 Descripteur GIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6 Base de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4 Méthode de classification multi-vues pour l’apprentissage en ensemble 51
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2 Classification multi-vues pour l’apprentissage en ensemble . . . . . . . . . . . . . 52
4.2.1 Classification multi-vues basée sur l’apprentissage en ensemble avec opti-
misation des poids. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2.2 Fonction de perte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.3 Méthode d’optimisation pour l’apprentissage . . . . . . . . . . . . . . . . . 54
4.2.4 Formulation mathématique du problème d’optimisation . . . . . . . . . . . 57
4.2.5 Avantages et inconvénients de la méthode MCELWO . . . . . . . . . . . . 60
4.2.6 Classification par vote pondéré . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2.7 Évaluation de la méthode MCELWO . . . . . . . . . . . . . . . . . . . . . 62
4.2.8 Résultats et discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Table des figures
1.1 Hyperplan optimal, vecteurs de support et marge maximale . . . . . . . . . . . . . 13
1.2 Cas linéairement séparable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Cas linéairement non séparable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4 Cas non linéairement séparable. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5 Espace de projection des données non-linéairement séparable. . . . . . . . . . . . . 20
1.6 Exemple de classification multi-classes (C = 3). . . . . . . . . . . . . . . . . . . . 21
1.7 Nuage de points à 3 classes : l’approche un contre Tous . . . . . . . . . . . . . . . 21
1.8 Nuage de points à 3 classes : l’approche un contre un . . . . . . . . . . . . . . . . 22
2.1 Étapes d’échantillonnage aléatoire avec remplacement à partir de l’ensemble de
données original. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Modèle simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Modèle complexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4 Modèle bien adapté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5 Un exemple de méthode ensembliste de décision. . . . . . . . . . . . . . . . . . . . 27
2.6 Principe du bagging (Bootstrap Aggregation) . . . . . . . . . . . . . . . . . . . . 28
2.7 Performance sur un jeu de test d’un classifieur entraı̂né par bagging (en bas à
droite) et des 5 premiers arbres qui le composent. . . . . . . . . . . . . . . . . . . 29
2.8 Principe de la technique de Boosting . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.9 Classificateur basé sur l’empilement (stacking) général . . . . . . . . . . . . . . . . 32
3.1 Architecture d’un système de reconnaissance d’images par le contenu basé sur la
classification. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Image couleur RVB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Différents modèles de texture. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4 Différentes transformations géométriques que peut subir une image. . . . . . . . . 38
3.5 Courbe Rappel-Précision pour trois classifieurs . . . . . . . . . . . . . . . . . . . . 40
3.6 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.7 Image numérique couleur RVB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.8 Histogramme couleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.9 Étapes du Descripteur HOG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.10 Image binaire : exemple d’image d’une silhouette d’avion. . . . . . . . . . . . . . . 46
3.11 Visualisation du calcul du motif binaire local (LBP). . . . . . . . . . . . . . . . . 47
3.12 15 Chiffres écrit à la main provenant du MNIST. . . . . . . . . . . . . . . . . . . 48
3.13 10 Images aléatoires de chaque classes de CIFAR-10. . . . . . . . . . . . . . . . . 49
3.14 50 Echantillons d’images de différentes classes de la base Outdoor Scene utilisée. . 49
3.15 50 Echantillons d’images de différentes classes de la MSRC-v1. . . . . . . . . . . . 50
3
4.1 Diagramme illustrant l’architecture de méthode de classification multi-vues pour
l’apprentissage d’ensemble. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Schéma général de la méthode MCELWO/validation . . . . . . . . . . . . . . . . 62
4.3 Matrice de confusion sur l’ensemble de validation. . . . . . . . . . . . . . . . . . . 66
4.5 Matrice de confusion sur l’ensemble de validation. . . . . . . . . . . . . . . . . . . 67
4.7 Le poids de vue estimé sur la méthode proposé sur les quatre ensembles de données. 68
4.9 Variation de l’erreur d’apprentissage en fonction du nombre d’itérations. . . . . . 69
4
Liste des tableaux
4.1 Performance du ε-dragging sur les points de données dans trois classes. . . . . . . 57
4.2 Descriptions de différents ensembles de données multi-vues utilisées. . . . . . . . . 63
4.3 Les caractéristiques utilisées pour chaque ensemble de données. . . . . . . . . . . . 63
4.4 Comparaison des résultats de classification entre les différentes méthodes. . . . . . 64
4.5 Les descriptions de différents ensembles de données multi-vues. . . . . . . . . . . . 65
4.6 Les résultats de classification à vue unique. . . . . . . . . . . . . . . . . . . . . . 65
5
6
7
RÉSUME
Les méthodes de classification multi-vues sont des approches d’apprentissage automatique qui
exploitent plusieurs vues ou sources d’informations pour améliorer la performance de la classifi-
cation. Elles sont appliquées dans divers domaines et se caractérisent par leur puissance et leur
diversité de types pour exploiter la complémentarité et la corrélation entre les différentes vues
des données. Dans le domaine de l’analyse des images, les méthodes de classification multi-vues
donnent des meilleurs résultats pour la classification des images, le but de ce travail est présenter
une méthode supervisée de classification multi-vues basée sur la régression des moindres carrés
(LSR) et l’apprentissage en ensemble. Nous allons expliquer comment attribuer de manière adap-
tative un poids optimal à chaque classificateur pour chaque vue dans la base d’apprentissage.
Dans un premier temps, les échantillons de chaque vue sont classé en utilisant une machine à
vecteurs de support multi-classes (MSVM). Ensuite, pour évaluer les résultats de classification
provenant des différentes vues pour chaque échantillon, le poids optimal pour chaque résultat
de classification est estimé. Nous allons appliquer cette méthode aux bases de données d’images
pour les classifier. En combinant les prédictions de tous les classifieurs de chaque vue, nous ob-
tenons une classification plus précise et plus résistante. En résumé, l’attribution de poids dans
ce type de méthode se révèle extrêmement bénéfique dans le domaine de la classification d’images.
Mots-clés : Classification multi-vues, Régression des moindres carrés, Apprentissage ensembliste,
Vote pondéré.
8
ABSTRACT
Multi-view classification methods are machine learning approaches that exploit several views
or sources of information to improve classification performance. They are applied in a variety of
fields, and are characterized by their power and diversity of types to exploit complementarity
and correlation between different views of the data. In the field of image analysis, multi-view
classification methods give the best results for image classification. The aim of this work is to
present a supervised multi-view classification method based on least squares regression (LSR)
and ensemble learning. We will explain how to adaptively assign an optimal weight to each clas-
sifier for each view in the training set. First, the samples for each view are classified using a
multi-class support vector machine (MSVM). Then, to evaluate the classification results from
the different views for each sample, the optimal weight for each classification result is estimated.
We will apply this method to image databases for classification. By combining the predictions
of all classifiers in each view, we obtain a more accurate and robust classification. In summary,
weight assignment in this type of method is proving extremely beneficial in the field of image
classification.
Keywords : Multi-view classification, Least square regression, Ensemble learning, Weighted vo-
ting.
9
INTRODUCTION GÉNÉRALE
Grâce aux résultats obtenus au cours des dernières décennies, l’apprentissage à partir de
données multi-vues est devenu un domaine de recherche actif et prometteur dans le domaine
de l’apprentissage automatique. Les données multi-vues, représentées par différentes caractéris-
tiques, ont été largement utilisées dans de nombreuses applications d’apprentissage automatique.
Chaque représentation est considérée comme une vue distincte, et ces vues peuvent provenir de
différentes sources, telles que des capteurs différents, des types d’informations différents ou des
représentations différentes d’un même objet.
L’exploitation de la complémentarité et de la corrélation entre les vues présente un potentiel
pour améliorer les performances de différentes tâches, notamment la réduction de dimensionnalité
multi-vues, la classification et le regroupement. Pour le problème de réduction de dimensionnalité
multi-vues, au début de 2010, Hou et al ont proposé une méthode de réduction de dimensionna-
lité semi-supervisée multi-vues (MVSSDR) qui peut apprendre un motif de consensus caché dans
l’espace de basse dimension. Concernent le regroupement multi-vues, Huang et al ont proposé une
approche de regroupement partiellement alignée sur les vues (PVC) pour résoudre le problème
partiellement aligné sur les vues. Dans ce travail, nous nous concentrons principalement sur le
problème de classification multi-vues.
Les méthodes de classification multi-vues supervisées suscitent un intérêt croissant en rai-
son de la disponibilité des informations sur les étiquettes. En raison de la structure complexe
cachée dans les données, l’exploitation et la préservation efficaces des informations corrélatives
et complémentaires dans les vues multiples pour améliorer la performance de la classification est
une tâche difficile. Différentes approches ont été proposées, telles que l’apprentissage à noyaux
multiples (MKL), qui traiter les ensembles de données multi-vues dans des contextes d’apprentis-
sage supervisé depuis 2008. Pour explorer la corrélation complexe entre les caractéristiques et les
étiquettes de classe des ensembles de données multi-vues, au début de 2018, Zhang et al ont pro-
posé une méthode de classification multi-vues à plusieurs couches (ML-MVC) qui peut capturer
la complémentarité d’ordre supérieur entre différentes vues. En 2019, Yang et al ont proposé une
méthode de classification multi-vues basée sur la régression discriminante pondérée adaptative,
qui prend en compte les différences entre chaque vue dans les performances de classification, qui
peut simultanément prendre en compte les informations corrélatives et complémentaires dans le
sous-espace discriminant projeté.
En 2022, Shi et al ont proposé une méthode de classifications multi-vues supervisée basée sur
la régression des moindres carrés et l’apprentissage ensembliste, connue sous le nom de classifi-
10
cation multi-vues supervisées basée sur la régression des moindres carrés et sur l’apprentissage
en ensemble(MCELWO). Cette méthode exploite les informations complémentaires et corrélées
entre les caractéristiques des différentes vues pour améliorer les performances de classification.
De plus, elle attribue un poids approprié à chaque classifieur en fonction de ses performances.
En observant ces méthodes données, la plupart des approches de classification multi-vues sont
basées sur la fusion des caractéristiques.
Dans ce travail, nous décrirons en détail le fonctionnement intrinsèque d’une méthode de clas-
sification multi-vues supervisées basée sur la régression des moindres carrés et l’apprentissage
ensembliste[24]. Nous expliquerons comment cette méthode fonctionne et comment elle optimise
les poids attribués à chaque classifieur en fonction de leurs performances.
Ce mémoire s’articule autour de quatre chapitres :
ˆ Dans le premier chapitre, nous présentons le principe de fonctionnement général des ma-
chines à vecteurs de support (SVM). Tout en précisant leurs avantages et leurs différents
types. Enfin, nous décrierons quelques approches d’extension des SVM pour résoudre des
problèmes à plusieurs classes.
ˆ Le deuxième chapitre de ce projet se concentre sur une description des méthodes en-
semblistes. Nous explique en détail le principe de chaque méthode tout en soulignant les
différences entre elles. Enfin, les techniques de combinaison des méthodes sont présentées.
ˆ Dans le troisième chapitre, nous étudierons les éléments fondamentaux d’un système de
reconnaissance d’images par le contenu. Nous examinerons les différents types de descrip-
tions d’images utilisées pour l’extraction des caractéristiques. Enfin, nous présenterons les
bases d’images que nous utiliserons pour l’application de la méthode.
ˆ Le quatrième chapitre présente une description détaillée de la méthode supervisée MCELWO.
Cette méthode est appliquée au problème de la classification des images, où nous démon-
trons son intérêt et son impact sur l’amélioration des performances de classification. Les
résultats expérimentaux sont également présentés sous forme de tableaux et d’images.
Enfin, nous concluons ce travail par une conclusion générale.
11
CHAPITRE 1
MACHINE À VECTEURS DE SUPPORT
1.1 Introduction
Inspirée de la théorie statistique de l’apprentissage, Les machines à vecteurs de support
(SVM) sont un classifieur développé par V.Vapnik [1]. Les SVM sont une méthode d’apprentissage
automatique largement utilisée pour la classification et la régression. Elles sont particulièrement
efficaces pour résoudre des problèmes complexes de classification, où il y a plusieurs classes et
les données ne sont pas linéairement séparables[2]. Le principe des SVM repose sur la recherche
d’un hyperplan optimal qui sépare de manière optimale les différentes classes d’échantillons.
L’un des avantages clés des SVM est leur capacité à traiter des données non linéairement
séparables[1]. Pour cela, elles utilisent des fonctions de noyau qui permettent de projeter les don-
nées dans un espace de plus grande dimension appelé, espace de caractéristiques ou re-description,
afin que les données non linéairement séparables dans l’espace d’entrée deviennent linéairement
séparables dans l’espace de caractéristiques[2].
Nous présentons dans ce chapitre une description des SVM. En premier lieu, nous décrivons
de façon simple et assez complète le principe de fonctionnement général et ensuite, Dans la
dernière partie du chapitre, nous décrivons en détails l’aspect mathématique des SVM et par
la suite Extension aux problèmes multi-classes est ensuite présentée dans la section suivant.
En particulier, la section décrit deux approches différentes des classificateurs MCSVM, à savoir
l’approche ”un contre tous” et l’approche ”un contre un ”.
1.2 Machines à vecteurs de support
La performance de ces classifieurs dépasse celle des méthodes supervisées traditionnelles
dans plusieurs applications. Dans cette section, le principe de fonctionnement général des SVM
est présenté. La linéarité et la non-linéarité[2].
12
1.2.1 Notions de base
Dans la classification binaire d’images données, le but des SVM est de trouver un classifieur
linéaire qui sépare les images tout en maximisant la distance entre ces deux classes. Il s’agit d’un
hyperplan de séparation. Les images les plus proches de cet hyperplan, c’est à dire les plus
difficiles à classifier, sont appelées vecteurs supports[2]. Les SVM assurent une modélisation
discriminante qui s’appuie sur la détermination des différents vecteurs supports dans les deux
classes. Il est évident qu’il existe une multitude d’hyperplans valides mais la propriété remarquable
des SVMs est que cet hyperplan doit être optimal, L’hyperplan séparateur optimal est celui qui
maximise la marge. Formellement, cela revient à chercher un hyperplan dont la distance minimale
aux différents vecteurs supports est maximale [1, 2]. Ainsi, les SVMs sont souvent appelés des
Séparateurs à Vaste Marge. Dans le schéma qui suit, on détermine un hyperplan H qui sépare
les deux ensembles de points.
Figure 1.1 – Hyperplan optimal, vecteurs de support et marge maximale
Pourquoi maximiser la marge ?
Intuitivement, le fait d’avoir une marge plus large procure plus de sécurité lorsque l’on classi-
fie de nouvelles images en phase de généralisation. En général, la classification d’une image requête
est donnée par sa position par rapport à l’hyperplan optimal trouvé en phase d’apprentissage[2].
1.3 Linéarité et non linéarité
Il existe deux cas de modèles SVM, cas linéairement séparables et non linéairement sépa-
rables. Les premiers sont les plus simples, car ils permettent de trouver facilement le classifieur
linéaire. Dans les cas non-linéairement séparables, le classifieur de marge maximale ne peut pas
être utilisé car ceci ne fonctionne que dans les cas linéairement séparables. Un système de marges
élastiques est alors mis en place pour tolérer des erreurs de classification et donc tolérer des
vecteurs supports à l’intérieur de la marge[1]. Ce compromis entre erreurs et taille de la marge
est contrôlé par un hyper-paramètre d’apprentissage, que l’on note par C. Dans la plupart des
problèmes de classification réels, il n’y a pas de séparation linéaire possible entre les données[2].
Particulièrement, pour la reconnaissance d’images par le contenu, les images appartenant aux
différentes classes sont souvent non-linéairement séparables. Nous rappelons ici les deux cas de
séparation linéaire et non-linéaire.
13
1.3.1 Cas linéaire
Soient n le nombre d’images d’apprentissage, X = [x1, x2, . . . , xi, . . . , xn] le nuage d’obser-
vations dans l’espace d’attributs correspondant et Y = [y1, y2, . . . , yi, . . . , yn] l’ensemble de leurs
étiquettes. Notons que toutes les étiquettes yi appartiennent à l’ensemble {−1, 1} (classification
binaire) et xi ∈ Rd
. À partir de l’examination des couples d’entrée-sortie :
D = {(xi, yi) ; i = 1, 2, . . . , n} . (1.1)
étant donné l’ensemble de mesures D sont tirées suivant une distribution de probabilité inconnue
P(x,y). Le but est de trouver une fonction f : X → Y , telle que la probabilité :
P(f(X) ̸= Y ) (1.2)
soit minimale[2].
1.3.1.1 Cas linéairement séparable
Un problème de classification binaire est linéairement séparable, si les images d’apprentis-
sage appartenant aux deux classes peuvent êtres complètement séparables[2].
Fondements mathématiques :
Les données d’apprentissage sont linéairement séparables, c’est à dire qu’il existe un hyper-
plan qui sépare les données sans erreur[4]. Un hyperplan f(x) a donc la forme suivante :
f(x) = ⟨w, x⟩ + b = w⊤
x + b (1.3)
l’hyperplan séparateur (frontière de décision) a donc pour équation : ⟨w, x⟩ + b = 0, où w est
le vecteur orthogonal à l’hyperplan et b est le déplacement par rapport à l’origine[4]. ⟨·, ·⟩ est le
produit scalaire usuel en Rd
:
⟨x, y⟩ =
d
X
i=1
xiyi, ∀x, y ∈ Rd
(1.4)
Soit H : ⟨w, x⟩ + b l’hyperplan qui satisfait les conditions suivantes :
(
w · xi + b ≥ 1 si yi = 1
w · xi + b ≤ −1 si yi = −1
(1.5)
ce qui est équivalent à :
yi (w · xi + b) ≥ 1 pour i = 1, . . . , n (1.6)
• Calcul de la marge :
Si xs est un vecteur de support et H =

x | w⊤
x + b = 0 , alors la marge est donnée par :
Marge = 2d(x, H) = 2
w⊤
xs + b
∥w∥
(1.7)
14
On utilise cette quantité pour des raisons de simplicité de l’écriture des équations plus tard, mais
ceci ne change en rien le problème d’optimisation (maximiser la marge ou deux fois la marge
conduit à la même solution). On impose alors la condition de normalisation w⊤
xs + b = 1 pour
les vecteurs de support xs, ce qui conduit à :
Marge =
2
∥w∥
(1.8)
Comme nous l’avons déjà mentionné, un hyperplan optimal est l’hyperplan qui maximise la
marge (1.8) qui représente la plus petite distance entre les différentes données des deux classes
et l’hyperplan. Maximiser la marge (1.8) est équivalent à maximiser la somme des distances des
deux classes par rapport à l’hyperplan.
• Maximisation de la marge :
Trouver l’hyperplan optimal revient donc à maximiser 2
∥w∥
. Ce qui est équivalent à minimiser
∥w∥2
2
sous la contrainte (1.6). Ceci est un problème de minimisation d’une fonction objective
quadratique avec contraintes linéaires[1, 4].
Probleme primal =⇒



min
w,b
1
2
∥w∥2
s.c yi (w · xi + b) ≥ 1, i = 1, . . . , n
(1.9)
• Passage du primal vers le dual :
Un problème dual est un problème fournissant la même solution que le primal mais dont
la formulation est différente[1]. On passe du problème primal au dual en introduisant les multi-
plicateurs de Lagrange pour chaque contrainte. Le lagrangien est donné par :
L(w, b, α) =
1
2
∥w∥2
−
n
X
i=1
αi

yi wT
xi + b

− 1

(1.10)
Le lagrangien doit être optimisé par rapport à w, b et les multiplicateurs α. En annulant les
dérivées partielles du lagrangien par rapport à w et b, on obtient les relations :
∂L
∂b
L(w, b, α) = 0 =⇒
n
X
i=1
αiyi = 0
∂L
∂w
L(w, b, α) = 0 =⇒ w =
n
X
i=1
αiyixi
(1.11)
Par substitution dans l’équation du lagrangien (1.10) on obtient le problème dual :





















max
α
n
X
i=1
αi −
1
2
n
X
i,j=1
αiαjyiyjxT
i xj
telque
αi ≥ 0, i = 1, . . . , n (admissibilité duale)
n
X
i=1
αiyi = 0 (stationarité)
(1.12)
15
La solution du problème dual donne les multiplicateurs de Lagrange optimaux αi. A partir
des αi on obtient w par les relations (1.11). Le paramètre b est obtenu à partir de la relation
xT
s w + b = 1 valable pour tous les vecteurs de support xs. Nous avons à présent tous les éléments
nécessaires pour exprimer la fonction de décision de notre classificateur linéaire[3] :
f(x) =
n
X
i=1
αiyix.xi + b (1.13)
avec, x est un vecteur support et les xi sont les observations des différentes images d’apprentis-
sage. Les multiplicateurs de Lagrange αi et le biais b sont des hyper-paramètres d’apprentissage
déterminés par la résolution du Lagragien du problème d’optimisation initial[1]. La figure 1.2
illustre un exemple de classification binaire linéairement séparable.
Figure 1.2 – Cas linéairement séparable
1.3.1.2 Cas linéairement non séparable
Les données sont affectées par un bruit par exemple dans le cas d’images(bruit de capteur),
et les deux classes se retrouvent mélangées autour de l’hyperplan de séparation[4].
Fondement mathématiques :
Pour gérer ce type de problème on utilise une technique dite de marge souple, qui tolère les mau-
vais classements, on introduit des variables d’écart ξi(i = 1..N) avec ξ  0 dans les contraintes
(1.5)[6], qui deviennent : (
w · xi + b ≥ 1 − ξi si yi = +1
w · xi + b ≤ −1 + ξi si yi = −1
(1.14)
ce qui est équivalent à :
yi (w · xi + b) ≥ 1 − ξi pour i = 1, . . . , n (1.15)
Remarque 1.1. Si un point (xi, yi) vérifie la contrainte de marge yi wT
xi + b

≥ 1 alors la
variable d’écart est nulle.
16
La figure 1.4 présente un ensemble de données pour lequel il n’est pas possible de tracer une
ligne droite ou un hyperplan pour séparer les différentes classes de manière linéaire. Les données
présentent une structure complexe qui ne peut pas être linéairement séparée.
Figure 1.3 – Cas linéairement non séparable
Plus un exemple est situé loin du côté incorrect du séparateur (carré rouge), plus la variable de
relâchement ξ prend une valeur élevée[6]. Nous avons donc deux situations :
-Pas d’erreur : yi wT
xi + b

≥ 1 =⇒ ξi = 0
-Erreur : yi wT
xi + b

 1 =⇒ ξi = 1 − yi wT
xi + b

 0
On associe à cette définition une fonction coût appelée coût charnière :
ξi = max 0, 1 − yi wT
xi + b

(1.16)
Le problème d’optimisation dans le cas des données non-séparables est donc :























min
w,b









1
2
∥w∥2
n
X
i=1
ξi
tel que
yi (w · xi + b) ≥ 1 − ξi, i = 1, . . . , n
ξi ≥ 0, i = 1, . . . , n
(1.17)
Puisqu’il faut minimiser les deux termes simultanément, on introduit une variable d’équilibrage
C  0 qui permet d’avoir une seule fonction objectif dans le problème d’optimisation :
min
w,b
1
2
∥w∥2
+ C
n
X
i=1
ξi (1.18)
17
ce qui conduit à : 














min
w,b
1
2
∥w∥2
+ C
n
X
i=1
ξi
tel que
yi (w · xi + b) ≥ 1 − ξi, i = 1, . . . , n
ξi ≥ 0, i = 1, . . . , n
(1.19)
Remarque 1.2. Si toutes les variables d’écart ξi = 0, on retrouve le problème linéairement
séparable traité plus tôt(1.9).
Les variables ξi s’appellent aussi variables ressort (en anglais : slack variables). Par la même
procédure qu’avant, on obtient le problème dual :





















max
α
n
X
i=1
αi −
1
2
n
X
i,j=1
αiαjyiyjxT
i xj
tel que
C ≥ αi ≥ 0, i = 1, . . . , n
n
X
i=1
αiyi = 0
(1.20)
En ce qui concerne les observations faites sur le problème (1.20).
ˆ C joue le rôle d’une constante de régularisation (la régularisation est d’autant plus forte
que C est proche de 0)[6].
ˆ La différence pour le problème dual entre le cas séparable et non séparable est que les
valeurs des αi sont majorées par C.
ˆ Les points mal classés ou placés dans la marge ont un αi = C.
ˆ b est calculé de sorte que yif(xi) = 1 pour les points tels que C  αi  0.
La fonction de décision permettant de classer une nouvelle observation x est toujours[6] :
f(x) =
n
X
i=1
αiyix.xi + b (1.21)
1.3.2 Cas non linéaire
Pour résoudre le problème de non-séparabilité, les SVM consistent à effectuer une transfor-
mation non-linéaire Φ de Rd
dans un espace de Hilbert H = Rs
de dimension supérieure (s  d),
éventuellement infinie (Card(H)  d) [2]. Cette transformation non-linéaire des vecteurs carac-
téristiques xi, i = [1, 2, . . . , n] permet une séparation linéaire des images dans un nouvel espace
appelé, espace de re-description. Plus la dimension de l’espace de re-description est importante,
plus la probabilité de pouvoir trouver un hyper-plan séparateur entre les images est élevée[2, 4].
On a donc une transformation d’un problème de séparation non-linéaire dans l’espace de repré-
sentation initial en un problème de séparation linéaire dans un espace de re-description de plus
18
grande dimension. En pratique, cette transformation est réalisée à l’aide d’une fonction noyau,
souvent appelée K et décrite comme suit[2] :
K (x, xi) = ⟨Φ(x), Φ (xi)⟩H , i = [1, 2, . . . , n] . (1.22)
avec
(
Φ : Rd
→ H
x 7→ Φ(x)
(1.23)
Exemple de classification binaire non linéairement séparable.
Figure 1.4 – Cas non linéairement séparable.
On doit donc résoudre :





















max
α
n
X
i=1
αi −
1
2
n
X
i,j=1
αiαjyiyjK (xi, xj)
tel que
C ≥ αi ≥ 0, i = 1, . . . , n (admissibilité duale)
n
X
i=1
αiyi = 0 (stationarité)
(1.24)
Finalement, Les SVM basé sur le noyau K peut maintenant être écrit comme suit :
f(x) =
n
X
i=1
αiyiK (x, xi) + b (1.25)
L’introduction de noyaux permet donc aux machines à vecteurs supports de déterminer une
surface de décision non linéaire en gardant un formalisme provenant d’une approche linéaire de
la classification[3].
19
1.3.2.1 Fonctions Noyau
Les fonctions noyaux peuvent avoir plusieurs formes. Quelques familles de fonctions noyaux
paramétrables sont connues et il revient à l’utilisateur de les tester pour déterminer celle qui
convient le mieux pour son application[2, 4]. Pour un vecteur support x et une observation x′
,
les noyaux combinant x et x′
les plus utilisés sont les suivant :
Polynômial :
K (x, x′
) = (⟨x, x′
⟩ + cte)
d
Sigmoı̂dal :
K (x, x′
) = tanh (⟨x, x′
⟩ + θ)
Laplacien :
K (x, x′
) = e−
∥x−x′
∥
σ
Gaussien :
K (x, x′
) = e−
∥x−x′
∥2
2σ2
avec, cte, u, θ et σ sont des paramètres de noyaux [1, 2].
Un exemple de classification non-linéairement séparable est illustré par la figure en-dessus.
Figure 1.5 – Espace de projection des données non-linéairement séparable.
1.4 Extension aux problèmes multi-classe
Le principe du SVM expliqué dans la partie précédente se résume dans la résolution des
problèmes de classification binaire, or les problèmes rencontrés dans la réalité, sont de type multi
classes[4]. D’où l’importance d’étendre le principe du SVM aux problèmes de plus de deux classes,
il y a eu plusieurs tentatives pour combiner des classificateurs binaires pour cerner ce problème[2].
Nous allons par suite expliquer brièvement quelques méthodes parmi les plus utilisées. Un exemple
de classification à trois classes (C = 3) est illustré par la figure 1.6 :
20
Figure 1.6 – Exemple de classification multi-classes (C = 3).
Nous présentons maintenant les deux principales méthodes permettant de décomposer un
problème de classification comportant plus de deux classes en un ensemble de sous problèmes
binaires[3], la décomposition un contre un et un contre tous.
1.4.1 Algorithme SVM : Un contre tous
L’approche la plus naturelle est d’utiliser cette méthode de discrimination binaire et d’ap-
prendre C fonctions de décision {fm} m = 1 . . . C permettant de faire la discrimination entre
chaque classe de toutes les autres (chaque classe est opposée à toutes les autres), il faut donc
poser C problèmes binaires[4]. Le k ième classificateur sépare les données de la classe k de tout
le reste des données d’apprentissage[1, 2].
Chaque classificateur renvoie 1 si la forme à reconnaitre appartient à la classe, -1 sinon.
Alors pour reconnaitre une forme il faut la soumettre à tous les autres classificateurs, pour
prendre une décision de classification, on garde la classe qui a eu la valeur maximale de toutes
les fonctions de décision[1, 7]. Donc l’affectation d’un nouveau point x à une classe Ci se fait par
la relation :
i = argmax fm(x) m = 1 . . . C (1.26)
Figure 1.7 – Nuage de points à 3 classes : l’approche un contre Tous
21
L’avantage de l’algorithme Un contre tous est qu’il peut être utilisé avec n’importe quelle
fonction de noyau, ce qui permet de traiter des problèmes de classification non linéaires[2]. Ce-
pendant, l’inconvénient est qu’il nécessite plus de temps de calcul que l’algorithme Un contre
Tous, qui ne nécessite qu’un seul classificateur binaire pour chaque classe[8].
1.4.2 Algorithme SVM : Un contre un
La technique Un contre Un, quand à elle, construit (C(C −1)/2) classifieurs SVMs binaires,
en utilisant toutes les paires de combinaisons binaires des C classes. L’apprentissage de chaque
classifieur est réalisé en considérant les images de la première classe comme des exemples positifs
et les images de la seconde classe comme des exemples négatifs. Pour combiner les différents
classifieurs, l’algorithme de vote majoritaire pour max-wins voting est adopté[8]. Cet algorithme
permet de trouver la classe résultante en choisissant la classe votée par la majorité des classifieurs
(Friedman, 1997)[2]. Le nombre d’images utilisées pour l’apprentissage de chaque classifieur est
très réduit, car seuls les images appartenant à deux classes parmi les C classes sont prises en
consideration. D’où, un temps d’apprentissage plus court[22].
Figure 1.8 – Nuage de points à 3 classes : l’approche un contre un
L’un des avantages de la technique Un contre Un est qu’elle permet un temps d’apprentis-
sage réduit car chaque classifieur est entraı̂né avec un petit sous-ensemble des données[22]. Cepen-
dant, l’inconvénient est que chaque image doit être présentée à un grand nombre de classifieurs
SVM (C(C −1)/2), ce qui peut entraı̂ner une augmentation significative du temps d’inférence[8].
1.5 Conclusion
Dans ce rapport, nous avons tenté de présenter d’une manière simple et complète le concept
de système d’apprentissage introduit par Vladimir Vapnik Les machines à vecteurs de support.
On a donné une vision générale et une vision purement mathématiques des SVM. Cette méthode
de classification est basée sur la recherche d’un hyperplan qui permet de séparer au mieux des en-
sembles de données. Nous avons exposé les cas linéairement séparable et les cas non linéairement
séparables qui nécessitent l’utilisation de fonction noyau pour changer d’espace. Cette méthode
est applicable pour des taches de classification à deux classes, mais il existe des extensions pour
22
la classification multi classes.
Les avantages que présentent les SVM sont l’utilisation de l’approche de noyau pour traiter
les cas non-linéaires, l’absence de minimum local, le nombre raisonnable de solutions et le contrôle
de capacité obtenu par optimisation de la marge.
23
CHAPITRE 2
APPRENTISSAGE ENSEMBLISTE
2.1 Introduction
L’apprentissage en ensemble, également connu sous le nom de méthodes ensembliste ou
apprentissage ensembliste est une approche qui a été initialement proposé pour les tâches de
classification à la manière de l’apprentissage supervisé(Nilsson, 1965). L’idée fondamentale de
l’apprentissage d’ensemble est de combiner ou agréger les prédictions de plusieurs modèles indivi-
duels, souvent appelés apprenants faibles(modèles qui ont une performance légèrement supérieur
à un modèle aléatoire) ou classifieurs de base, de manière à exploiter leurs forces et à réduire
leurs faiblesses individuelles[9]. Cela permet de créer un modèle plus puissant et plus robuste
qui est capable de généraliser et de mieux s’adapter aux données d’apprentissage[10]. Cette tech-
nique est largement utilisée dans différents domaines de l’apprentissage automatique tels que la
reconnaissance de formes, la classification, la prédiction et la détection d’anomalies.
Les trois techniques L’apprentissage en ensemble les plus populaires sont le bagging, le
boosting et le stacking. Chacune de ces techniques offre une approche unique pour améliorer la
précision des prédictions[10]. Chaque technique est utilisée dans un but différent, l’utilisation de
chacune d’entre elles dépendant de divers facteurs. Bien que chaque technique soit différente,
beaucoup d’entre nous ont du mal à les distinguer. Il est difficile de savoir quand ou pourquoi
nous devons utiliser chaque technique.
Dans ce chapitre, nous aborderons plusieurs clés concernant L’apprentissage en ensemble.
Tout d’abord, comment former chacun des apprenants de base, c’est-à-dire les algorithmes uti-
lisés pour L’apprentissage en ensemble. Ensuite, nous verrons comment combiner les résultats
obtenus à partir de ces multiples apprenants de base, en utilisant différentes méthodes de com-
binaison. Enfin, J’expliquerai leurs objectifs, leurs processus, ainsi que leurs avantages et leurs
inconvénients.
2.2 Notions de base
24
2.2.1 Bootstrap
Étant donné un jeu D de n observations, et un nombre N, on appelle bootstrap la procédure
qui consiste à créer N échantillons D1, D2, · · · , DN de D, obtenus chacun en tirant n exemples
de D avec remplacement. Ainsi, chaque exemple peut apparaı̂tre plusieurs fois, ou pas du tout,
dans Db [10].
Définition 2.1. (Bootstrap) est une méthode d’échantillonnage aléatoire avec remplacement uti-
lisée en apprentissage automatique et apprentissage statistique pour générer plusieurs ensembles
de données d’entraı̂nement à partir d’un ensemble de données original[10].
Figure 2.1 – Étapes d’échantillonnage aléatoire avec remplacement à partir de l’ensemble de
données original.
Remarque 2.1. Cette méthode est largement utilisée en conjonction avec la méthode de bagging
pour améliorer la performance du modèle et réduire sa variance[10, 11].
2.2.2 Notion de Bais et Variance
Le biais et la variance sont deux sources d’erreur de prédiction dans les modèles d’appren-
tissage automatique. Le biais mesure l’erreur qui se produit lorsque le modèle est trop simple
pour représenter les données d’entraı̂nement, conduisant à une sous-apprentissage des valeurs de
sortie. La variance mesure la variabilité de la prédiction des modèles appris à partir de différents
ensembles de données d’entraı̂nement[10]. Un modèle avec une variance élevée est généralement
trop complexe, ce qui peut conduire à une sur-apprentissage aux données d’entraı̂nement et à
une mauvaise performance pour les données de test ou de validation[11].
Exemple 2.1. Un modèle à biais élevé résulte d’un apprentissage insuffisant des données. Il n’est
pas lié à la distribution des données. Par conséquent, les prédictions futures ne seront pas liées
aux données et seront donc incorrectes (Figure 2.2).
Exemple 2.2. Un modèle à variance élevée résulte d’un apprentissage trop poussé des données.
Il varie avec chaque point de données. Il est donc impossible de prédire avec précision le point
suivant (Figure 2.3).
25
Figure 2.2 – Modèle simple Figure 2.3 – Modèle complexe
De cette manière, le modèle résultant sera beaucoup plus équilibré, avec un faible biais et
une faible variance. Le modèle résultant sera donc connu sous le nom d’apprenant fort. Ce modèle
sera plus généralisé que les apprenants faibles[11]. Il sera donc capable de faire des prédictions
précises.
Figure 2.4 – Modèle bien adapté
les modèles à fort biais ou à forte variance ne peuvent pas se généraliser correctement, ce
qui peut conduire à des prédictions incorrectes. Le compromis biais-variance stipule que pour
obtenir une bonne généralisation, il faut trouver un équilibre entre le biais et la variance[10]. En
général, pour une bonne performance du modèle, il est important de trouver le juste milieu entre
ces deux facteurs[9].
fonctionne L’apprentissage en ensemble ?.
L’un des problèmes de l’apprentissage automatique est que les modèles individuels ont
tendance à être peu performants. En d’autres termes, ils ont tendance à avoir une faible précision
de prédiction. Pour atténuer ce problème, nous combinons plusieurs modèles afin d’en obtenir un
plus performant[9]. L’apprentissage en ensemble visera à :
• réduire le biais si nous disposons d’un modèle faible avec un biais élevé et une faible variance.
• réduire la variance si nous disposons d’un modèle faible avec une variance élevée et un faible
biais.
26
Les modèles individuels que nous combinons sont connus sous le nom d’apprenants faibles. Nous
les appelons apprenants faibles parce qu’ils ont soit un biais élevé, soit une variance élevée[10].
En raison de leur biais ou de leur variance élevés, les apprenants faibles ne peuvent pas apprendre
efficacement et obtiennent des résultats médiocres[11].
2.3 Méthodes ensemblistes : la sagesse des foules
Les méthodes ensemblistes sont des méthodes très puissantes en pratique, qui reposent sur
l’idée que combiner de nombreux apprenants faibles permet d’obtenir une performance large-
ment supérieure aux performances individuelles de ces apprenants faibles, car leurs erreurs se
compensent les unes les autres[9, 10].
Cette idée est similaire au concept de sagesse des foules (wisdom of crowd), si je demande
à mes élèves l’année de la mort de Pompidou, il est probable que la moyenne de leurs réponses
soit assez proche de la bonne (1974), cependant, si je demande cette date à une seule personne
au hasard, je n’aurais aucun moyen de savoir a priori si cette personne connaı̂t la date ou me
répond au hasard[10].
Exemple 2.3. Pour illustrer ce concept, imaginons une tâche de classification en deux dimen-
sions, dans laquelle les deux classes sont séparées par une diagonale, mais que le seul algorithme
d’apprentissage dont nous disposions ne puisse apprendre qu’une frontière de décision en escalier,
avec un nombre limité de paliers. Combiner des dizaines voire des centaines de ces frontières de
décision en escalier peut nous donner une bien meilleure approximation de la véritable frontière
de décision[10]. Cet exemple est illustré sur la (figure 2.5).
Figure 2.5 – Un exemple de méthode ensembliste de décision.
Chacune des frontières de décision en escalier est une mauvaise approximation de la vraie
frontière qui est la diagonale en trait plein[10]. Cependant, combiner ces escalier permet une
meilleure approximation de la diagonale.
Attention :
La théorie des méthodes ensemblistes montre que lorsque les modèles que l’on combine ont
été appris par des apprenants faibles, c’est-à-dire simples à entraı̂ner et peu performants, ces
méthodes permettent d’améliorer la performance par rapport à celle du meilleur de ces modèles
individuels[9]. En pratique, si les modèles individuels sont déjà performants et robustes au bruit,
27
le modèle ensembliste ne sera pas nécessairement meilleur. On utilise le plus souvent des arbres
de décision comme modèles individuels[10].
2.3.1 Méthodes parallèles : bagging
Supposons un jeu de données D de n observations, x1, x2, . . . , xi, . . . , xn de X le nuage
d’observations dans l’espace d’attributs correspondant et y1, y2, . . . , yi, . . . , yn l’ensemble de leurs
étiquettes.
Définition 2.2. Le bagging, proposé par Leo Breiman (1996) est un acronyme de (anglais : Boots-
trap Aggregating), également connu sous le nom d’agrégation bootstrap. cette méthode consiste à
former N versions de D par échantillonnage bootstrap, ce qui signifie que les points de données
individuels peuvent être choisis plus d’une fois. Après la génération de N échantillons de données
D, ces modèles faibles sont formés indépendamment et leurs prédictions sont agrégées pour
produire une prédiction finale plus robuste. Les N prédictions sont ensuite combinées selon le
type de tâche : par vote de la majorité dans le cas d’un problème de classification. en prenant
la moyenne dans le cas d’un problème de régression.
Figure 2.6 – Principe du bagging (Bootstrap Aggregation)
Remarque 2.2. Le bagging permet de réduire la variance des estimateurs individuels. C’est ce
qui lui permet d’atteindre une plus grande stabilité et une meilleure prédiction qu’eux.
Nous expliquons cette remarque par un exemple, la figure ci-dessous illustre ce principe les 5
premiers arbres qui composent le classifieur entraı̂né par bagging séparent nettement moins bien
le jeu de données que le bagging, mais ils font des erreurs sur des régions différentes de l’espace,
qui se compensent lorsqu’on les combine[10].
28
Figure 2.7 – Performance sur un jeu de test d’un classifieur entraı̂né par bagging (en bas à
droite) et des 5 premiers arbres qui le composent.
2.3.1.1 Fonctionnement du Bagging :
1. Nous disposons d’un ensemble de données d’apprentissage initial contenant n nombres
d’instances.
2. Nous créons un nombre m de sous-ensembles de données à partir de l’ensemble de données
d’apprentissage.
3. Nous prenons un sous-ensemble de N points d’échantillonnage de l’ensemble de données
initial pour chaque sous-ensemble.
4. Pour chaque sous-ensemble de données, nous formons indépendamment les apprenants
faibles correspondants. Ces modèles sont homogènes, c’est-à-dire qu’ils sont du même type.
5. Chaque modèle fait une prédiction.
6. Les prédictions sont agrégées en une seule prédiction. Pour ce faire, on utilise soit le vote à
majorité, soit la moyenne.
2.3.1.2 Avantages et inconvénients du bagging
L’algorithme des ”forêts aléatoires” (ou Random Forest, parfois aussi traduit par forêt
d’arbres décisionnels) est l’un des algorithmes bagging les plus populaires. Le bagging offre l’avan-
tage de permettre à de nombreux apprenants faibles de combiner leurs efforts pour surpasser un
seul apprenant. Il aide également à réduire la variance, éliminant ainsi le surapprentissage des
modèles dans la procédure.
ˆ Le bagging minimise le surapprentissage des données.
ˆ Il traite efficacement les données de dimension supérieur.
ˆ Un inconvénient de bagging est qu’il introduit une perte d’interprétabilité d’un modèle.
ˆ Le modèle résultant peut subir de nombreux biais lorsque la procédure appropriée est
ignorée.
ˆ Bien que bagging soit très précis, il peut être coûteux en calcul et cela peut décourager son
utilisation dans certains cas.
29
2.3.2 Méthodes séquentielles : boosting
On parle alors de boosting, par itérations successives des apprenants faibles viennent exalter
”booster” les performances du modèle final qui les combine[10]. Les techniques de boosting les
plus courantes sont AdaBoost, Gradient Boosting et XGBoost.
Définition 2.3. Le boosting a été introduit par Schapire (1990), est une méthode ensembliste de
l’apprentissage automatique dans laquelle des apprenants faibles, sont construits séquentiellement
sur des sous-ensembles de données pondérés en fonction de leur erreur de prédiction précédente.
Chaque modèle est construit pour minimiser l’erreur résiduelle du modèle précédent et est pondéré
en fonction de sa performance. Les modèles pondérés sont ensuite combinés pour produire une
prédiction finale.
Figure 2.8 – Principe de la technique de Boosting
Remarque 2.3. le boosting est souvent utilisée avec des arbres de décision comme modèles faibles,
car ils sont simples à entraı̂ner et à interpréter.
2.3.2.1 Fonctionnement du boosting :
1. Un sous-ensemble est créé à partir de l’ensemble de données d’origine.
2. Au départ, tous les points de données reçoivent des poids égaux.
3. Un modèle de base est créé sur ce sous-ensemble.
4. Ce modèle est utilisé pour faire des prédictions sur l’ensemble des données.
5. Les erreurs sont calculées à l’aide des valeurs réelles et des valeurs prédites.
6. Les observations qui sont mal prédites reçoivent des poids plus élevés.
7. Un autre modèle est créé et des prédictions sont effectuées sur l’ensemble de données.(Ce
modèle tente de corriger les erreurs du modèle précédent)
8. De même, plusieurs modèles sont créés, chacun corrigeant les erreurs du modèle précédent.
9. Le modèle final (apprenant fort) est la moyenne pondérée de tous les modèles(apprenants
faibles).
30
2.3.2.2 AdaBoost
AdaBoost dont le nom vient de Adaptive Boosting, est un algorithme qui permet de
construire un classifieur de manière itérative, en forçant un classifieur faible à se concentrer sur
les erreurs du modèle grâce à un système de pondération des exemples d’entraı̂nement. L’estima-
teur le plus couramment utilisé avec AdaBoost est l’arbre de décision à un niveau, c’est-à-dire
l’arbre de décision à une seule division[10]. Ces arbres sont également appelés ”Decision Stumps”
(souches de décision).
Algorithme 1 AdaBoost
Entrée :
- X l’observation à prévoir
- dn = (x1, y1) , . . . , (xn, yn) l’échantillon
- Une règle faible
- T le nombre d’itérations.
Initialiser les poids wi = 1/n, i = 1, . . . , n
Pour m = 1 à T faire :
Étape.1 : Ajuster la règle faible sur l’échantillon dn pondéré par les poids w1, . . . , wn,
on note gm(X) l’estimateur issu de cet ajustement
Étape.2 : Calculer le taux d’erreur :
em =
Pn
i=1 wi1yi ̸= gm (xi).
Pn
i=1 wi
.
Étape.3 : Calculer : αm = log ((1 − em) /em)
Étape.4 : Réajuster les poids :
wi = wi exp αm1yi̸=gm(xi)

, i = 1, . . . , n
fin
Sortie :
ĝT (X) =
T
X
m=1
αmgm(X)
.
Les poids de chaque observation sont initialisés à 1/n pour l’estimation du premier modèle. Ils
sont ensuite mis à jour pour chaque itération. L’importance d’une observation wi est inchangée
si l’observation est bien classée[10], dans le cas inverse elle croit avec la qualité d’ajustement du
modèle mesurée par αm. L’agrégation finale est une combinaison des règles g1, · · · , gT pondérée
par les qualités d’ajustement de chaque modèle.
2.3.2.3 Bagging vs boosting :
la principale différence entre ces méthodes d’apprentissage est la manière dont elles sont
formées. Dans le cas du bagging, les apprenants faibles sont formés en parallèle, alors que dans
le cas du boosting, ils apprennent de manière séquentielle.
31
2.4 Méthodes de combinaison
Après la construction des classificateurs de base, il existe diverses techniques pour combiner
les résultats de chaque classificateur. Parmi les approches les plus fréquemment mentionnées
dans la littérature, on trouve la moyenne, le vote majoritaire, le vote pondéré et le stacking. Ces
méthodes permettent d’exploiter les prédictions des classificateurs individuels afin de parvenir à
une décision finale plus robuste[10].
• Le vote à majorité : La méthode de vote majoritaire est généralement utilisée pour les problèmes
de classification. Dans cette technique, plusieurs modèles sont utilisés pour faire des prédictions
pour chaque point de données. Les prédictions de chaque modèle sont considérées comme un
”vote”. La prédiction obtenue de la part de la majorité des modèles est utilisée comme prédiction
finale. L’inconvénient de cette méthode est dans le cas ou plus de la moitié des classificateurs de
base obtiennent de faux résultats.
• Le vote à majorité pondéré : C’est un vote basé sur des poids associés aux classificateurs de
base.Ces poids peuvent être diminués ou augmentés au fur et à mesure que les classificateurs
s’entraı̂nent, suivant qu’ils produisent respectivement une bonne ou une mauvaise prédiction.
• Moyenne : Dans cette méthode, la moyenne des prédictions de tous les modèles est utilisée
pour faire la prédiction finale. La moyenne peut être utilisée pour faire des prédictions dans des
problèmes de régression ou pour calculer des probabilités pour des problèmes de classification.
• Stacking : Le stacking, également connu sous le nom Stacked generalization, proposée par
Wolpert (1992), est une technique d’apprentissage d’ensemble dans laquelle plusieurs modèles
sont entraı̂nés et leurs prédictions sont combinées pour produire une prédiction finale. En général,
elle consiste à utiliser les prédictions de plusieurs modèles de base pour entraı̂ner un modèle de
méta-apprentissage qui apprend à partir de ces prédictions pour produire une prédiction finale
plus précise[11].
Figure 2.9 – Classificateur basé sur l’empilement (stacking) général
32
2.5 Conclusion
Pour l’apprentissage en ensemble, nous avons donné la définition de l’ensemble à la manière
de l’apprentissage supervisé et nous avons abordé les problèmes fondamentaux de l’apprentissage
en ensemble, comment former chacun des apprenants de base, comment combiner les résultats
obtenus à partir des différents apprenants de base et quel est le facteur critique pour déterminer le
succès de l’apprentissage en ensemble (diversité de l’ensemble). En ce qui concerne les algorithmes
d’apprentissage en ensemble, nous avons décrit les algorithmes de bagging et de boosting et
stacking qui ont été à l’origine de la proposition du modèle d’ensemble de classification multi-
vues présenté dans le dernière chapitre suivant. En ce qui concerne les méthodes de combinaison,
la moyenne, Le vote à majorité pondéré, vote majoritaire et stacking ont été décrits en détail
dans le dernière section . En outre, nous avons examiné la question de la diversité liée à la réussite
de l’apprentissage ensembliste.
33
CHAPITRE 3
EXTRACTION DE CARACTÉRISTIQUES ET CLASSIFICATION
D’IMAGES
3.1 Introduction
Les contenus visuels des images sont extraits et décrits par des vecteurs multidimensionnels
de caractéristiques, et ces vecteurs forment la base de données de descripteurs (ou signatures)
l’extraction des contenus visuels des images se concentre généralement sur les caractéristiques de
bas niveau[12]. Il y a deux approches principales de caractériser : la première est la construction
de descripteurs globaux à toute l’image et la seconde est locale et consiste à calculer des carac-
téristiques sur des portions restreintes de l’image et nous avons expliqué en détail dans ce chapitre.
A cet effet, les notions de recherche par le contenu, de classification et d’annotation des
images constituent les éléments clés de toute solution voulant répondre aux attentes des profes-
sionnels exerçant dans des domaines d’application de l’analyse des images. L’analyse des images
en général, pour des fins de détection et extraction des objets, est devenue un axe de recherche
très important[2].
La première partie de ce chapitre se concentre sur les principes fondamentaux d’un système
de reconnaissance d’images par le contenu. Dans la deuxième partie, nous décrivons en détail
l’ensemble des caractéristiques utilisées pour décrire les images. Ensuite, nous présentons les
bases d’images utilisées, en exposant leur contenu et les différentes méthodes de description
d’images. Enfin, une évaluation approfondie des performances de reconnaissance de cet ensemble
de caractéristiques est fournie à la fin du chapitre.
34
3.2 Reconnaissance d’images par le contenu
Figure 3.1 – Architecture d’un système de reconnaissance d’images par le contenu basé sur la
classification.
L’architecture type des systèmes de Reconnaissance d’images par le contenu est illustrée par la
figure 3.1. Cette architecture est composée principalement par deux étapes importantes, à savoir
l’extraction des caractéristiques visuels pour la description des images et la classification qui mène
à la reconnaissance de ces images. Un système de reconnaissance d’images est souvent conçu pour
un type bien déterminé de base d’images. Les bases d’images se classent, généralement, en deux
grandes catégories[2] :
ˆ Les bases spécialisées : sont des bases dans lesquelles nous trouvons des images d’un do-
maine particulier (images médicales, images satellitaires, images architecturales, images
biométriques telles que les images de visages ou d’empreintes, images artistiques telles que
les tableaux de musée, etc...).
ˆ Les bases hétérogènes : désignées aussi par généralistes sont des bases d’images de sujets
très variés comprenant des catégories d’images très différentes (par exemple couchers de
soleil, montagne, plage, animaux, véhicules, bâtiments, etc...).
Les images dans le cas des bases spécialisées ont le plus souvent un contenu sémantique
homogène et présentent plusieurs caractéristiques en commun. La reconnaissance d’images dans
de telles bases est en fait un problème spécifique à un domaine bien particulier. Par contre, la
deuxième catégorie de bases d’images généralistes regroupe des images appartenant à des concepts
hétérogènes. Les images sont alors de divers types et elles ont un contenu assez complexe[2]. Par
conséquent, la difficulté de reconnaissance d’images est accrue dans ce type de bases à cause des
limitations de description des images.
35
3.3 Extraction des caractéristiques
La description du contenu des images est une étape essentielle dans un système de recherche
d’image par le contenu, car la performance de système dépend en grande partie du choix des
descripteurs employés et des techniques associées à leurs extractions. Un descripteur est défini
comme la connaissance utilisée pour caractériser l’information contenue dans les images. Cette
étape permet de fournir une représentation du contenu de l’image appelé aussi signature de
l’image[2].
L’objectif principal de l’extraction de caractéristiques est de déterminer pour chaque image,
une représentation (signature) qui soit, d’une part compacte, pour être rapidement accessible
et facilement comparable, et d’autre part suffisamment complète pour bien caractériser l’image.
Ces caractéristiques décrivent les principales caractéristiques visuelles existant dans une image,
à savoir la couleur, la texture et la forme[2].
3.3.1 Vecteur descripteur
Le vecteur descripteur contient les attributs intéressants extraits de l’image. Il se présente
en général sous la forme d’un vecteur à n composantes réelles. Les attributs extraits des images
sont de différents types et sont exprimés dans des unités différentes selon qu’ils appartiennent à
la couleur, la texture, la forme. Une étape de normalisation est indispensable, elle va permettre
de réajuster les valeurs des attributs pour les rendre commensurables.
3.3.2 Types de caractéristiques
Les images sont des objets numériques très riches en terme d’informations. En plus de
l’espace mémoire gigantesque exigé, la manipulation directe de ces images dans un système de
reconnaissance d’images par le contenu ne permet pas d’obtenir des temps de réponse réalistes.
Il convient donc d’utiliser une représentation de dimension réduite pour caractériser le contenu
de ces images.
3.3.2.1 Couleur
Les caractéristiques couleurs sont les premiers utilisés dans les systèmes de reconnaissance
d’images par le contenu et ils sont toujours les plus utilisés grâce à leur simplicité d’extraction,
leur richesse de description et leur efficacité de reconnaissance. Ces caractéristiques couleurs
dépendent directement de l’espace couleur utilisé pour la représentation couleur de l’image. Dans
la littérature, plusieurs espaces couleurs sont étudiés et utilisés pour la reconnaissance d’images.
Chaque couleur est représentée par trois composantes : rouge, vert et bleu. L’espace RVB est
généralement l’espace couleur de base dans lequel sont capturées les images[12]. La figure 3.2
illustre la décomposition d’une image couleur en trois sous-images monochromes selon l’espace
couleur RVB.
36
Figure 3.2 – Image couleur RVB
Les autres espaces couleurs représentent des transformations directes de l’espace RVB. Ces
transformations ont pour objectif d’améliorer la représentativité colorimétrique de l’image et
d’assurer des mesure de distance plus linéaires[2].
• Les espaces couleurs HSI, HSV, HSB et HLS (appelés communément HSx) sont plus proches
de la perception humaine de couleur que l’espace couleur RVB, mais ils ne sont pas encore
perceptuellement uniformes.
• les espaces couleurs YUV et YIQ où la composante Y représente la luminance du pixel et
les pairs de composantes UV et IQ représentent les composantes chromatiques.
• l’espace couleur XYZ, où les composantes X et Z sont les composantes chromatiques et
la composante Y est la somme pondérée des valeurs R, V et B. Comme il n’est pas per-
ceptuellement uniforme, l’uniformisation de l’espace XYZ se fait par une transformation
projective qui débouche sur l’espace couleur LUV.
D’autres espaces couleurs existent aussi tels que HMMD, L*a*b*, LST et YCrCb...etc.
3.3.2.2 Texture
La texture est liée aux apparences de surface des images ce qui est d’une grande importance
dans tout domaine relatif à la perception visuelle. la texture est l’information générée par les
variations des niveaux de gris entre des pixels voisins au sein d’une image[2, 12]. Différents
modèles de texture sont illustrés dans la figure 3.3.
Figure 3.3 – Différents modèles de texture.
37
Les caractéristiques textures sont de plus en plus utilisés dans la description d’images car ils
atténuent certains problèmes liés à la description couleur. En effet, la description texture est très
efficace, surtout dans le cas d’une distribution couleur très proche. Les caractéristiques textures
sont divisés en deux catégories[2] :
• La première est déterministe et fait référence à une répétition spatiale d’un motif de base
dans différentes directions. Cette approche structurelle correspond à une vision macrosco-
pique des textures.
• La deuxième approche, dite microscopique, est probabiliste et cherche à caractériser l’aspect
chaotique qui ne comprend ni motif localisable, ni fréquence de répétition principale.
3.3.2.3 Forme
Les caractéristiques forme se concentrent sur la description des objets individuels présents
dans une image, Contrairement aux caractéristiques couleurs et textures qui s’intéressent à la
description du contenu général de l’image. Généralement, ce type de caractéristique indique
l’aspect général d’un objet, comme son contour, donc une segmentation sous forme de traitement
préliminaire de l’image est souvent nécessaire[2]. Deux catégories des caractéristiques formes
peuvent être extraites :
• les caractéristiques basée sur la géométrie des régions de l’image.
• les caractéristiques basée sur les statistiques des intensités de pixels des différentes régions
dans l’image.
Les images peuvent être transformées géométriquement, notamment par rotation, translation et
changement d’échelle. Afin de garantir une description robuste et efficace, les attributs de forme
couvrent généralement une large gamme d’échelles de représentation que comporte un objet[12].
De plus, ils sont souvent insensibles aux différentes variations causées par des transformations
géométriques. un exemple des transformations géométriques que peut subir une image illustrés
dans la (figure 3.4).
Figure 3.4 – Différentes transformations géométriques que peut subir une image.
3.4 Catégories de caractéristiques
Les caractéristiques visuels sont extraits à partir de l’image selon trois niveaux d’abstrac-
tions : le niveau global, le niveau régions et le niveau points d’intérêt. Le premier niveau reflète
38
une description globale des images, tandis que les deux derniers permettent d’assurer une descrip-
tion locale. Nous rappelons ici les deux deux catégories de caractéristiques : les caractéristiques
globaux et les caractéristiques locaux (Aly et al, 2009)[2].
3.4.1 Caractéristiques globaux
Cette approche globale permet la reconnaissance des images en se basant sur des similarités
visuelles mesurées sur les images entières. Une image décrite globalement est représentée par un
seul vecteur de caractéristiques, ce qui n’est pas le cas avec les caractéristiques locaux. Par
conséquent, la phase de classification et de reconnaissance devient plus rapide[2]. Généralement,
ce type de caractéristiques est robuste et peu affecté par le bruit qui peut s’ajouter au contenu
de l’image. Les histogrammes de couleur ou de niveaux de gris et les corrélogrammes sont des
exemples typiques de ce type de description.
3.4.2 Caractéristiques locaux
L’approche locale de reconnaissance d’images se base essentiellement sur la description
de parties spécifiques dans l’image, représentées souvent par des sous-régions homogènes[2]. La
description d’image est construite dans ce cas par un ensemble de vecteurs de caractéristiques.
Les caractéristiques utilisés sont, généralement, extraits pour chaque sous régions dans l’image.
Il est possible également de caractériser le contenu des images par le biais de la description des
points d’intérêt. Les approches locales basées sur des descriptions de points d’intérêt permettent
d’effectuer des recherches précises mais au prix d’un temps de calcul très élevé. les caractéristiques
locaux sont surtout utilisés dans le cas des bases d’images dites spécifiques[2, 12]. une description
locale est beaucoup moins performante dans le cas des images hétérogènes, ou les images d’une
même classe ne présentent pas forcément une majorité de sous régions ou de points d’intérêts en
commun.
3.4.3 Méthodes de classification et évaluation des performances
3.4.3.1 Classification
On distingue principalement deux types de classification, supervisée et non-supervisée, sui-
vant que l’on dispose ou non d’une expertise des images à classifier figure 3.1. Dans ce projet,
nous nous intéressons uniquement à la classification supervisée.
• classification supervisée : se base sur une phase d’apprentissage où l’on cherche à produire au-
tomatiquement des règles de décision à partir d’images déjà classifiées. Le choix de la technique
d’apprentissage à utiliser est très important dans un tel processus. La classification de nouvelles
images de test est réalisée dans une seconde phase, appelée généralisation. À partir des images
d’apprentissage, le classifieur utilisé doit bien généraliser les règles de décision apprises sur de
nouvelles images requêtes appartenant à une base dite de test. L’étape d’apprentissage est réali-
sée hors ligne, alors que celle de généralisation est effectuée en ligne[2].
• classification non-supervisée : est une approche qui vise à regrouper automatiquement les
images en fonction de leurs similarités intrinsèques, sans utiliser d’étiquettes ou de catégories
prédéfinies. Contrairement à la classification supervisée, où les étiquettes sont fournies pour gui-
der le processus d’apprentissage, la classification non supervisée cherche à découvrir des motifs
ou des structures inhérentes dans les données d’image de manière non directive.
39
3.4.4 Performances de classification d’images
L’évaluation des performances d’un modèle de reconnaissance d’images concerne à la fois sa
capacité de reconnaissance et son efficacité en terme de rapidité d’exécution. Cette dernière est
facile à évaluer, il suffit de mesurer le temps de réponse moyen du système sur plusieurs requêtes.
L’évaluation des capacités de reconnaissance est effectuée en comparant le résultat de classifica-
tion obtenu à un résultat de référence, appelé souvent vérité terrain[2]. Les critères de qualité les
plus utilisés sont des mesures de performance standard (Bimbo, 2001), il s’agit principalement
de la précision et du rappel. pour chaque classe Ci, on calcule de la manière suivante :
• Le rappel : est la proportion d’images bien classés par rapport au nombre d’images de la
classe à prédire :
Rappel =
TP
TP + FN
(3.1)
Le rappel mesure la capacité d’un modèle de classification à détecter les images correctement
classés. Un rappel fort ou faible n’est pas suffisant pour évaluer les performances d’un modèle.
Pour cela, on définit la précision.
• La précision : est la proportion d’images bien classés pour une classe donnée :
Précision =
TP
TP + FP
(3.2)
La précision mesure la capacité d’un modèle de classification à ne pas classer une image dans une
classe, un image qui ne l’est pas. Comme elle peut aussi être interprétée par la probabilité condi-
tionnelle qu’une image choisi aléatoirement dans la classe soit bien classé par le classifieur[10].
Pour une image requêter donnée, TP le taux des vrai positifs, FP le taux des faux positifs
et TP + FN le nombre total des images pertinentes dans la base. Notons que les taux TP et FP
indiquent, respectivement, le nombre d’images pertinentes et non-pertinentes retrouvées.
Figure 3.5 – Courbe Rappel-Précision pour trois classifieurs .
• le F-score est la moyenne harmonique qui prend en compte les deux métriques de précision
et de rappel.
F − score = 2 ∗
Précision * Rappel
Précision + Rappel
(3.3)
• Accuracy : est nombre d’échantillons correctement classés parmi tous les échantillons présents
dans l’ensemble de test.
Accuracy =
TP + TN
TP + TN + FP + FN
(3.4)
40
la précision et Le rappel sont souvent utilisées dans le domaine de la recherche d’information,
car elles reflètent le point de vue de l’utilisateur, si la précision est faible, l’utilisateur sera
insatisfait, car il devra perdre du temps à lire des informations qui ne l’intéressent pas. Si le rappel
est faible, l’utilisateur n’aura pas accès à une information qu’il souhaitait avoir. Un classifieur
parfait doit avoir une précision et un rappel de un (1), mais ces deux exigences sont souvent
contradictoires et une très forte précision ne peut être obtenue qu’au prix d’un rappel faible et
vice-versa[10].
3.4.4.1 Matrice de confusion
La matrice de confusion est un tableau de contingence comparant les classes obtenues (co-
lonnes) et les classes souhaitées (lignes) pour l’échantillon. Sur la diagonale principale on retrouve
donc les valeur bien classées. à l’exception de la diagonale les images sont mal classées[10].
Nous considérons ici un problème simple de classification pour lequel nous nous intéressons à
une classe unique Ci et nous voulons évaluer un système qui nous indique si une image peut être
associé ou non à cette classe Ci. Ce problème est un problème de classification à deux classes (C1
et C2). Si on peut maitriser ce problème simple, on pourra fusionner par la suite, les mesures de
performance de plusieurs systèmes bi-classes afin d’obtenir une mesure de la performance d’un
classifieur multi-classes.
Pour évaluer un système de classification de ce type, nous utilisons la matrice de confusion.
On diviser la base d’images en deux parties, une partie pour l’apprentissage (training) et une
autre partie pour le test et la validation du modèle. Cette matrice permet de visualiser facilement
le nombre de TP, TN, FP et FN.
Figure 3.6 – Matrice de confusion
Avec :
• TP : nombre de ”True Positives”. C’est le nombre d’images classées par le modèle dans la
classe C1 qui appartiennent effectivement à cette classe.
• TN : nombre de ”True Negatives”. C’est le nombre d’images classées par le modèle dans la
classe C2 qui appartiennent effectivement à cette classe.
• FP : nombre de ”False Positives”. C’est le nombre d’images qui sont classées par le modèle
dans la classe C1 alors et qu’elles appartiennent à la classe C2.
• FN : nombre de ”False Negatives”. C’est le nombre d’images qui sont classées par le modèle
dans la classe C2 alors et qu’elles appartiennent à la classe C1.
41
Cette matrice permet de déduire les paramètres la précision et le Rappel.
3.5 Caractéristiques utilisées pour la description d’images dans
les bases hétérogènes
Comme mentionné précédemment, en raison de la diversité des contenus des images hété-
rogènes, la description adoptée dans ce travail est basée sur l’extraction de caractéristiques glo-
baux. Une image décrite globalement, contrairement à l’utilisation des caractéristiques locales,
est représentée généralement par un seul vecteur de caractéristiques pour chaque caractéristique
extraite[2]. Ceci permet de rendre plus rapide la reconnaissance des images.
Soit I une image couleur quantifiée sur m couleurs {c1, c2, ..., cm}. Chaque pixel pi, i =
[1, 2, ..., N], de coordonnés (x, y) est doté d’une couleur I(pi) :
pi ∈ Icj ⇔ I(pi) = cj, ∀j ∈ {1, 2, ..., m} .
Dans l’espace couleur RVB, les trois matrices couleur (Rouge, Vert et Bleu) de I sont notées
respectivement par R, V et B. la figure ci-dessous présente une illustration de la décomposition
d’une partie d’une image en ses trois composantes de couleur Rouge, Vert et Bleu (RVB).
Figure 3.7 – Image numérique couleur RVB.
3.5.1 Couleurs moyennes
La caractéristique couleur moyenne (Faloutsos et al, 1994), sert à déterminer les différentes
distributions moyennes de couleur dans une image. Elle peut être calculée pour n’importe quel
espace couleur[12]. Le nombre de caractéristiques constituant cette caractéristique dépend alors
du nombres d’axes dans l’espace couleur utilisé pour la représentation de l’image[2]. Par exemple,
la caractéristique couleur moyenne de l’image I dans l’espace couleur RVB est formulée comme
42
suit :
x̄ = (Rmoy, Vmoy, Bmoy)t
(3.5)
Sachant que :
R̄moy =
1
N
N
X
p=1
R(p), (3.6)
V̄moy =
1
N
N
X
p=1
V(p), (3.7)
B̄moy =
1
N
N
X
p=1
B(p), (3.8)
3.5.2 Matrice de co-occurrences
La méthode de matrice de co-occurrence de niveaux de gris (GLCM en anglais : Grey Level
Co-occurrence Matrix) présente une grande simplicité de mise en œuvre et donne de bons résul-
tats sur la plupart des types d’images[10]. Une matrice de co-occurrence est une matrice de taille
n ∗ n, où n est le nombre de niveaux de gris d’une image. Pour un déplacement d (translation),
un élément (i, j) de la matrice est défini par le nombre de pixels de l’image de niveau de gris j
situés à d d’un pixel de niveau de gris i.
Il est possible de calculer sur cette matrice des attributs statistiques classiques comme la
moyenne et la variance, ainsi que d’autres attributs telles que l’entropie, l’inertie, la corrélation,
etc... Selon Haralick, treize attributs de texture peuvent être calculés (Haralick et al, 1973)[2].
ˆ Moyenne = 1
n2
Pn
i=1
Pn
j=1 Pij
ˆ V ariance =
Pn
i=1
Pn
j=1(i − Moyenne)2
Pij
ˆ Energie =
Pn
i=1
Pn
j=1 P2
ij
ˆ Entropie = −
Pn
i=1
Pn
j=1 Pij ln(Pij)
ˆ Contraste =
Pn
i=1
Pn
j=1(i − j)2
Pij
ˆ Homogeneite =
Pn
i=1
Pn
j=1
Pij
1+(i−j)2
ˆ Correlation =
Pn
i=1
Pn
j=1 Pij
[(i−µi)(j−µj)]
σiσj
Où Pij est la probabilité d’occurrence de la paire de niveaux de gris (i, j) (GLCM normalisée),
µi =
P
i iPi, est la moyenne des entrées normalisées pour le pixel de référence de valeur i,
µj =
P
j jPj, est la moyenne des entrées normalisées pour le pixel voisin de valeur j,
σ2
i =
P
i(i − µi)2
Pi, est l’écart-type des entrées normalisées pour le pixel de référence de valeur i,
σ2
j =
P
j(j − µj)2
Pj, est l’écart-type des entrées normalisées pour le pixel voisin de valeur j.
43
La signification statistique des descripteurs présentés précédemment peut être décrite comme
suit :
ˆ Énergie : exprime le caractère régulier de la texture. De manière générale, une énergie
élevée est observée lorsque l’image est très régulière, c’est-à-dire lorsque les valeurs élevées
de la GLCM sont concentrées à quelques endroits de la matrice.
ˆ Contraste : est plus élevé pour des GLCMs présentant des valeurs plus larges en dehors de
la diagonale, autrement dit pour des images affichant des changements locaux d’intensité.
ˆ Entropie : est d’autant plus élevée que la diagonale de la GLCM est étalée, le cas extrême
étant une GLCM uniforme. En ce sens, l’entropie est l’inverse de l’énergie et caractérise
l’aspect irrégulier de l’image, d’où une corrélation forte entre ces deux attributs.
ˆ Homogénéité : évolue à l’inverse du contraste et prend des valeurs élevées si les différences
entre les paires de pixels analysées sont faibles. Celle-ci est donc plus sensible aux éléments
diagonaux de la GLCM, contrairement au contraste qui dépend plus des éléments éloignés
la diagonale.
ˆ Corrélation : peut s’apparenter à une mesure de la dépendance linéaire des niveaux de gris
dans l’image.
Une fois calculés et éventuellement normalisés, l’ensemble des descripteurs sont rassemblés dans
un vecteur unique caractérisant chaque pixel ou chaque région de l’image[10, 12]. Ce vecteur
d’attributs peut ensuite être utilisé comme donnée d’entrée dans un classifieur.
3.5.3 Histogramme couleur
Un histogramme représente le mode de répartition des pixels dans une image en traçant le
nombre de pixels correspondant à chaque niveau d’intensité de la couleur. A partir d’un espace
discret de couleur défini par les axes couleurs correspondants (par exemple Rouge, Vert et Bleu),
l’histogramme couleur est déterminé par la discrétisation de l’image couleur et le calcul du nombre
d’occurrence de chaque couleur dans cette image[2]. Les histogrammes couleur dans l’espace RVB
sont calculés comme suit, ∀i ∈ {1, 2, ..., m} :
histR(ci) =
1
N
N
X
p=1
R(p) == ci, (3.9)
histV(ci) =
1
N
N
X
p=1
V(p) == ci, (3.10)
histB(ci) =
1
N
N
X
p=1
B(p) == ci. (3.11)
Il y a un histogramme pour chaque composante R, V et B comme on peut le voir dans la figure
3.8.
44
Figure 3.8 – Histogramme couleur
3.5.4 Descripteur HOG
Les histogrammes des dégradés orientés(HOG) ont été proposés par Navneet Dalal et Bill
Triggs, est un descripteur de caractéristique utilisé dans la vision par ordinateur et le traitement
d’image pour la détection d’objets. l’idée essentielle derrière HOG c’est que l’apparence locale et
la forme d’objet dans une image peut être décrite par la distribution d’intensité des gradients ou
de direction des contours. Cette méthode est similaire à celle des histogrammes d’orientation de
bord, des descripteurs de transformation d’entités invariables à l’échelle et des contextes de forme,
mais diffère en ce qu’elle est calculée sur une grille dense de cellules uniformément espacées[13].
Figure 3.9 – Étapes du Descripteur HOG.
Le descripteur HOG maintient quelques avantages clés, puisque le descripteur histogramme
de gradient orienté opère sur les cellules localisées, la méthode maintient l’invariance à des trans-
formations géométriques et photométriques, ces changements ne feront leur apparition que dans
les larges régions d’espaces[12].
3.5.5 Moments de Hu
Les moments de Hu sont des caractéristiques de forme très puissants. Un moment est une
somme pondérée de tous les pixels en fonction de leurs positions dans l’image[2].
45
Figure 3.10 – Image binaire : exemple d’image d’une silhouette d’avion.
Le moment régulier d’une forme dans une image binaire est défini par :
Mij =
X
x
X
y
xi
yj
I(x, y) (3.12)
où i et j sont des nombres entiers (par exemple 0, 1, 2 ....). Ces moments sont souvent appelés
moments bruts pour les distinguer des moments centraux mentionnés plus loin[14].
Le centroı̈de (x̄, ȳ) est calculé à l’aide de la formule suivante :
x̄ =
M10
M00
, ȳ =
M01
M00
(3.13)
Maintenant que nous avons nos centroı̈des, nous pouvons calculer les moments relatifs qui sont
centrés sur le centroı̈de :
µpq =
X
x
X
y
(x − x̄)p
(y − ȳ)q
I(x, y) (3.14)
où I(x, y) est la valeur de l’intensité du pixel à la coordonnée (x, y).
Alors les sept moments de Hu ont été proposés (Hu,1962) est[2] :
ϕ1 = µ20 + µ02
ϕ2 = (µ20 − µ02)2
+ 4µ2
11
ϕ3 = (µ30 − 3µ12)2
+ (3µ21 − µ03)2
ϕ4 = (µ30 + µ12)2
+ (µ21 + µ03)2
ϕ5 = (µ30 − 3µ12)(µ30 + µ12)[(µ30 + µ12)2
− 3(µ21 + µ03)2
]
+ (3µ21 − µ03)(µ21 + µ03)[3(µ30 + µ12)2
− (µ21 + µ03)2
]
ϕ6 = (µ20 − µ02)[(µ30 + µ12)2
− (µ21 + µ03)2
] + 4µ11(µ30 + µ12)(µ21 + µ03)
ϕ7 = (3µ21 − µ03)(µ30 + µ12)[(µ30 + µ12)2
− 3(µ21 + µ03)2
]
− (µ30 − 3µ12)(µ21 + µ03)[3(µ30 + µ12)2
− (µ21 + µ03)2
]
Les moments de Hu sont invariants aux différentes transformations géométriques[2, 14].
3.5.6 Descripteur LPB
Le motif binaire local (LBP) a été introduit pour la première fois par Ojala et al. pour la
classification des textures invariante par rotation[17]. Il est connu comme l’un des descripteurs
locaux les plus efficaces pour la reconnaissance d’images. Les LBP permettent d’extraire des
46
descripteurs de texture spatiaux pour discriminer les images de textures en niveaux de gris[15].
L’idée de cet descripteur est d’assigner à chaque pixel un code dépendant des niveaux de gris de
son voisinage[16]. L’opérateur LBP traditionnel convertit les valeurs des pixels dans le voisinage
3Ö3 de chaque pixel en un motif binaire par seuillage des différences entre la valeur du pixel
central et les valeurs des pixels voisins[18]. Nous disposons de 256 motifs binaires pour le cas
du voisinage 3 Ö 3. Le motif binaire est traité comme le code LBP. Ensuite, les occurrences du
motif binaire dans une image donnée sont accumulées dans l’histogramme et cet histogramme
est utilisé comme descripteur de texture de l’image[17].
Dans ce qui suit, la notation (P,R) sera utilisée pour les voisinages de pixels, ce qui signifie
que P points d’échantillonnage sur un cercle de rayon R. Le niveau de gris du pixel central (ic)
de coordonnées (xc, yc) est comparé à celui de ses voisins (ip) suivant l’équation suivante[17, 18] :
LBPP,R =
P−1
X
p=0
2p
· s(ip − ic), (3.15)
où s(x) est la fonction seuil donnée par :
s(x) =
(
1 si x ≥ 0,
0 sinon.
(3.16)
La figure illustre une étape de calcul du motif binaire local. Une région de l’image originale est
examinée avec des paramètres de voisinage de R = 1 et P = 8.
Figure 3.11 – Visualisation du calcul du motif binaire local (LBP).
3.5.7 Descripteur GIST
Le descripteur GIST est une caractéristique globale qui permet d’extraire des informations
sur les principales régions de couleur et de texture dans une image. Cette méthode de traitement
d’image a été développée pour imiter le système de perception humain, en identifiant rapide-
ment les zones les plus importantes d’une scène visuelle[19]. Il a été proposé initialement pour
47
développer des représentations de scènes à faible dimension (Oliva and Torralba, 2001). La re-
présentation de la structure d’une image est définie comme une enveloppe spatiale et l’image
d’entrée est prétraitée en la convertissant en une image en niveaux de gris. L’image en niveaux
de gris est divisée en une grille à différentes échelles et la sortie de chaque grille cellulaire est
calculée à l’aide d’une série de filtres de Gabor[20].
Une image d’entrée est convoluée avec trente-deux filtres de Gabor à quatre échelles et huit
orientations, ce qui donne trente-deux cartes de caractéristiques de taille équivalente à celle de
l’image d’entrée[20]. Chaque carte de caractéristiques est divisée en seize régions et les valeurs des
caractéristiques sont moyennées dans chaque région d’intérêt. Les valeurs moyennes des carac-
téristiques provenant des seize régions contenues dans les trente-deux cartes de caractéristiques
sont concaténées pour produire un descripteur GIST contenant 512 caractéristiques (16 régions
* 32 cartes de caractéristiques), comme indiqué dans la figure 3 pour les foies normaux et gras.
Ainsi, le descripteur GIST fournit des informations sur les gradients de l’image[21].
3.6 Base de données
Dans le domaine de la classification des images, il existe plusieurs base de donnée dispo-
nible. Dans ce qui suit, une description des bases d’images utilisées est fournie.
ˆ MNIST : MNIST (Mixed National Institute of Standards and Technology database)
est une base de données de chiffres manuscrits (Figure 3.13). la base de données a été
téléchargée du site de Yan LeCun et comprend un ensemble d’entraı̂nement de 60000
observations et un ensemble test de 10000 observations. Chacune des images comprises
dans le MNIST est de dimensions 28 pixels par 28 pixels et représente un chiffre écrit à la
main de 0 à 9[34].
Figure 3.12 – 15 Chiffres écrit à la main provenant du MNIST.
ˆ CIFAR-10 : La base des images de CIFAR-10 (Figure 3.14 ) est composée de 60000 images
couleur, chaque image à une taille de 32 x 32, ces images sont réparties en 10 classes, avec
6000 images par classe. Pour cette base on obtient 50000 images d’apprentissage et 10000
images de test[35].
48
Figure 3.13 – 10 Images aléatoires de chaque classes de CIFAR-10.
ˆ Outdoor Scene : Outdoor Scene est une base d’images se compose de 2688 images de
scènes extérieures. 8 catégories d’images sont sélectionnées, à savoir la côte, la montagne,
la forêt, la campagne, la rue, l’intérieur de la ville, les grands bâtiments et les autoroutes.
Pour ce travail, seules 386 images ont été utilisées, représentant 5 classes spécifiques parmi
les 8 catégories d’images disponibles[37].
Figure 3.14 – 50 Echantillons d’images de différentes classes de la base Outdoor Scene utilisée.
ˆ MSRC-V2 : MSRC-v2 est une extension de l’ensemble de données MSRC-v1 (Microsoft
Research in Cambridge). Cependant, bien que l’ensemble de données contienne 591 images
et 23 classes, seules 216 images et 7 classes sont couramment utilisées[36].
49
Figure 3.15 – 50 Echantillons d’images de différentes classes de la MSRC-v1.
3.7 Conclusion
Dans ce chapitre, nous présentons la représentation des images ainsi que l’extraction et
la description des caractéristiques nécessaires pour comprendre les approches que nous avons
utilisées dans ce mémoire. Nous avons également présenté les bases d’images utilisées. Le pro-
chain chapitre donnera les détails de la méthode de classification multi-vues pour l’apprentissage
d’ensemble, ainsi que la méthode utilisée pour la réalisation de notre application.
50
CHAPITRE 4
MÉTHODE DE CLASSIFICATION MULTI-VUES POUR
L’APPRENTISSAGE EN ENSEMBLE
Dans ce chapitre, une méthode supervisée de classification multi-vues basée sur la régression
des moindres carrés et l’apprentissage en ensemble, que l’on appelle MCELWO, est présentée.
Cette classification permet d’assurer la reconnaissance de chaque image requête selon ses diffé-
rentes caractéristiques.
4.1 Introduction
Les données multi-vues représentées par différentes caractéristiques ont été largement uti-
lisées dans de nombreuses applications d’apprentissage automatique[26]. Ces caractéristiques
offrent une perspective variée et complémentaire de la description de l’image à partir de diffé-
rentes vues. Cependant, en raison de la complexité structurelle des données, exploiter de manière
efficace les informations complémentaires et corrélées entre les caractéristiques de plusieurs vues
pour améliorer les performances de classification est un défi majeur. De plus, il est important
de pouvoir attribuer des poids appropriés à chaque classifieur en fonction de ses performances.
Pour relever ces défis, nous avons présenté une méthode de classification multi-vues supervisée
basée sur la régression des moindres carrés et l’apprentissage en ensemble (MCELWO)[24]. Cette
méthode permet de préserver simultanément les informations corrélatives et complémentaires,
qui sont ensuite améliorées afin d’être plus discriminantes pour la classification ultérieure.
La classification multi-vues est un problème essentiel en apprentissage automatique, et de
nombreuses méthodes ont été proposées pour fusionner les informations complémentaires pro-
venant de multiples vues. Cependant, ces méthodes ont souvent recours à la concaténation des
vues en de longs vecteurs, ce qui augmente la complexité du modèle[27]. La méthode MCELWO,
quant à elle, offre une approche alternative en exploitant les forces spécifiques de chaque vue
de données et en surmontant leurs faiblesses respectives. Cette approche permet d’obtenir une
classification plus précise et plus robuste des données multi-vues.
Dans ce chapitre nous décrirons le fonctionnement général de la méthode de classification
supervisée multi-vues basées sur la régression des moindres carrés, tout en expliquant leur lien
51
avec l’apprentissage en ensemble. Ensuite, nous décrivons les paramètres expérimentaux utilisés
pour comparer les différentes approches et les mesures de performance utilisées. Enfin, nous pré-
sentons les résultats expérimentaux et analysons les avantages et les inconvénients de la méthode.
4.2 Classification multi-vues pour l’apprentissage en ensemble
La classification multi-vues pour l’apprentissage en ensemble est une technique d’appren-
tissage automatique qui consiste à utiliser plusieurs sources de données ou ”vues” d’un problème
pour améliorer les performances de la classification. Chaque vue représente une perspective dif-
férente sur les mêmes données, et l’utilisation de vues multiples peut aider à capturer différents
aspects de la distribution sous-jacente des données. Grâce aux résultats obtenus au cours des
dernières décennies, les méthodes de classification multi-vues connaissent un succès croissant et
ont prouvé leur efficacité dans plusieurs domaines, tels que la vision par ordinateur, le traitement
du langage naturel, la bio-informatique, et bien d’autres encore.
Nous présentons dans cette section une description de la méthode de classification multi-
vues basée sur l’apprentissage en ensemble avec optimisation des poids[24]. En premier lieu, nous
décrivons de façon simple et assez complète le principe de fonctionnement général.
Étant donné l’ensemble de données multi-vues X = {X1, X2, . . . , XV } dans Rn×dv
, où n
est le nombre d’échantillons et dv est la dimension des caractéristiques de la v-ième vue, nous
désignons les données d’apprentissage de la v-ième vue Xv = [xv1, xv2, . . . , xvn]T
dans Rn×dv
.
Y = [y1, y2, . . . , yn]T
dans Rn×C
est la matrice des étiquettes avec yi = [yi1, yi2, . . . , yiC]T
corres-
pondant au vecteur des étiquettes du i-ième échantillon, où C est le nombre de classes. Si le
i-ième échantillon appartient à la c-ième classe, alors yic = 1, et sinon yic = 0 [24].
Supposons que F = [F1, F2, . . . , Fv] soit les résultats de la classification initiale où Fv =
[Fv
1 , Fv
2 , . . . , Fv
n ]T
dans Rn×C
avec Fv
ic = 1 si le i-ième échantillon appartient à la c-ième classe
dans la v-ième vue, et sinon Fv
ic = 0, (c = 1, 2, . . . , C) [24].
4.2.1 Classification multi-vues basée sur l’apprentissage en ensemble avec op-
timisation des poids.
La méthode de classification multi-vues basée sur l’apprentissage en ensemble avec optimi-
sation des poids est une approche de classification supervisée qui utilise plusieurs vues ou sources
de données pour améliorer la précision de la classification. La méthode consiste à combiner plu-
sieurs classificateurs, chacun entraı̂né sur une vue différente des données, et à pondérer leurs
décisions pour obtenir une classification finale[24]. Les poids de vue sont attribués de manière
adaptative sur un ensemble d’entraı̂nement.
52
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf
Mémoire.pdf

Contenu connexe

Similaire à Mémoire.pdf

OpenERP - Gestion de prix de revient
OpenERP - Gestion de prix de revientOpenERP - Gestion de prix de revient
OpenERP - Gestion de prix de revientTaieb Kristou
 
Cours base données
Cours base donnéesCours base données
Cours base donnéeskerosina
 
courspython3.pdf
courspython3.pdfcourspython3.pdf
courspython3.pdfDendouga1
 
Manuel du module additionnel RF-LAMINATE pour RFEM
Manuel du module additionnel RF-LAMINATE pour RFEMManuel du module additionnel RF-LAMINATE pour RFEM
Manuel du module additionnel RF-LAMINATE pour RFEMGrégoire Dupont
 
Analyses factorielles.pdf
Analyses factorielles.pdfAnalyses factorielles.pdf
Analyses factorielles.pdfahmed92358
 
Conception et développement d'une marketplace basée sur l'architecture micros...
Conception et développement d'une marketplace basée sur l'architecture micros...Conception et développement d'une marketplace basée sur l'architecture micros...
Conception et développement d'une marketplace basée sur l'architecture micros...Adem Amen Allah Thabti
 
Projet de conception et de développement
Projet de conception et de développementProjet de conception et de développement
Projet de conception et de développementGlei Hadji
 
Rapport Projet De Fin D'étude de Conception et développement d’une applicatio...
Rapport Projet De Fin D'étude de Conception et développement d’une applicatio...Rapport Projet De Fin D'étude de Conception et développement d’une applicatio...
Rapport Projet De Fin D'étude de Conception et développement d’une applicatio...mouafekmazia
 
réaliser une plateforme d’automatisation et de génération des rapports de test
réaliser une plateforme d’automatisation et de génération des rapports de testréaliser une plateforme d’automatisation et de génération des rapports de test
réaliser une plateforme d’automatisation et de génération des rapports de testahmed oumezzine
 
Mémoire Parallélisation d'algorithmes de graphes avec MapReduce sur un cluste...
Mémoire Parallélisation d'algorithmes de graphes avec MapReduce sur un cluste...Mémoire Parallélisation d'algorithmes de graphes avec MapReduce sur un cluste...
Mémoire Parallélisation d'algorithmes de graphes avec MapReduce sur un cluste...Hadjer BENHADJ DJILALI
 
Cours statistique descriptive
Cours statistique descriptiveCours statistique descriptive
Cours statistique descriptiveAlilo Mabhoour
 
Implémentation et mise en place d’un système décisionnel pour la solution Meg...
Implémentation et mise en place d’un système décisionnel pour la solution Meg...Implémentation et mise en place d’un système décisionnel pour la solution Meg...
Implémentation et mise en place d’un système décisionnel pour la solution Meg...Houssem Eddine Jebri
 
Essaim de Particules Quantique
Essaim de Particules QuantiqueEssaim de Particules Quantique
Essaim de Particules QuantiqueBenkhaled sihem
 

Similaire à Mémoire.pdf (20)

Cours matlab
Cours matlabCours matlab
Cours matlab
 
OpenERP - Gestion de prix de revient
OpenERP - Gestion de prix de revientOpenERP - Gestion de prix de revient
OpenERP - Gestion de prix de revient
 
Cours base données
Cours base donnéesCours base données
Cours base données
 
courspython3.pdf
courspython3.pdfcourspython3.pdf
courspython3.pdf
 
Manuel du module additionnel RF-LAMINATE pour RFEM
Manuel du module additionnel RF-LAMINATE pour RFEMManuel du module additionnel RF-LAMINATE pour RFEM
Manuel du module additionnel RF-LAMINATE pour RFEM
 
Analyses factorielles.pdf
Analyses factorielles.pdfAnalyses factorielles.pdf
Analyses factorielles.pdf
 
Conception et développement d'une marketplace basée sur l'architecture micros...
Conception et développement d'une marketplace basée sur l'architecture micros...Conception et développement d'une marketplace basée sur l'architecture micros...
Conception et développement d'une marketplace basée sur l'architecture micros...
 
Tp sgbd gsi
Tp sgbd gsiTp sgbd gsi
Tp sgbd gsi
 
Projet de conception et de développement
Projet de conception et de développementProjet de conception et de développement
Projet de conception et de développement
 
PFE Master.pdf
PFE Master.pdfPFE Master.pdf
PFE Master.pdf
 
rapport_stage_TBLB.pdf
rapport_stage_TBLB.pdfrapport_stage_TBLB.pdf
rapport_stage_TBLB.pdf
 
Rapport Projet De Fin D'étude de Conception et développement d’une applicatio...
Rapport Projet De Fin D'étude de Conception et développement d’une applicatio...Rapport Projet De Fin D'étude de Conception et développement d’une applicatio...
Rapport Projet De Fin D'étude de Conception et développement d’une applicatio...
 
réaliser une plateforme d’automatisation et de génération des rapports de test
réaliser une plateforme d’automatisation et de génération des rapports de testréaliser une plateforme d’automatisation et de génération des rapports de test
réaliser une plateforme d’automatisation et de génération des rapports de test
 
Memoire_final
Memoire_finalMemoire_final
Memoire_final
 
doc
docdoc
doc
 
Mémoire Parallélisation d'algorithmes de graphes avec MapReduce sur un cluste...
Mémoire Parallélisation d'algorithmes de graphes avec MapReduce sur un cluste...Mémoire Parallélisation d'algorithmes de graphes avec MapReduce sur un cluste...
Mémoire Parallélisation d'algorithmes de graphes avec MapReduce sur un cluste...
 
graphe.pdf
graphe.pdfgraphe.pdf
graphe.pdf
 
Cours statistique descriptive
Cours statistique descriptiveCours statistique descriptive
Cours statistique descriptive
 
Implémentation et mise en place d’un système décisionnel pour la solution Meg...
Implémentation et mise en place d’un système décisionnel pour la solution Meg...Implémentation et mise en place d’un système décisionnel pour la solution Meg...
Implémentation et mise en place d’un système décisionnel pour la solution Meg...
 
Essaim de Particules Quantique
Essaim de Particules QuantiqueEssaim de Particules Quantique
Essaim de Particules Quantique
 

Mémoire.pdf

  • 1. Mémoire présenté à La Faculté des Sciences Dhar El Mahraz Fès Master Mathématiques Appliquées et Science des Données (MASD) Master en double diplomation avec l’Université Sorbonne Paris Nord Spécialité : Statistique et Science des Données Intitulé : Classification multi-vues pour l’apprentissage en ensemble Présenté par : Mohamed Ait Blal Encadré par : Pr.Rosanna Verde Co-encadré par : Pr.Ali Yahyaouy Soutenu le 23/06/2023, devant le jury : Pr. SABRI My Abdelouahed Pr. EL FAZAZY Khalid Pr. RIFFI Jamal Pr. YAHYAOUY Ali Pr. VERDE Rosanna Président Examinateur Examinateur Co-encadrant Encadrant Etablissement FSDM Etablissement FSDM Etablissement FSDM Etablissement FSDM Etablissement Luigi Vanvitelli, Italie Année Universitaire : 2022-2023
  • 2. Table des matières 1 Machine à vecteurs de support 12 1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.2 Machines à vecteurs de support . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.2.1 Notions de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.3 Linéarité et non linéarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.3.1 Cas linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.3.2 Cas non linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.4 Extension aux problèmes multi-classe . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.4.1 Algorithme SVM : Un contre tous . . . . . . . . . . . . . . . . . . . . . . 21 1.4.2 Algorithme SVM : Un contre un . . . . . . . . . . . . . . . . . . . . . . . 22 1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2 Apprentissage ensembliste 24 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.2 Notions de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.2.1 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2.2 Notion de Bais et Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.3 Méthodes ensemblistes : la sagesse des foules . . . . . . . . . . . . . . . . . . . . . 27 2.3.1 Méthodes parallèles : bagging . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3.2 Méthodes séquentielles : boosting . . . . . . . . . . . . . . . . . . . . . . . 30 2.4 Méthodes de combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3 Extraction de caractéristiques et classification d’images 34 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.2 Reconnaissance d’images par le contenu . . . . . . . . . . . . . . . . . . . . . . . . 35 3.3 Extraction des caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.3.1 Vecteur descripteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.3.2 Types de caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.4 Catégories de caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.4.1 Caractéristiques globaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.4.2 Caractéristiques locaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.4.3 Méthodes de classification et évaluation des performances . . . . . . . . . . 39 3.4.4 Performances de classification d’images . . . . . . . . . . . . . . . . . . . . 40 3.5 Caractéristiques utilisées pour la description d’images dans les bases hétérogènes . 42 3.5.1 Couleurs moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.5.2 Matrice de co-occurrences . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.5.3 Histogramme couleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 1
  • 3. 3.5.4 Descripteur HOG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.5.5 Moments de Hu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.5.6 Descripteur LPB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.5.7 Descripteur GIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.6 Base de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4 Méthode de classification multi-vues pour l’apprentissage en ensemble 51 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.2 Classification multi-vues pour l’apprentissage en ensemble . . . . . . . . . . . . . 52 4.2.1 Classification multi-vues basée sur l’apprentissage en ensemble avec opti- misation des poids. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.2.2 Fonction de perte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.2.3 Méthode d’optimisation pour l’apprentissage . . . . . . . . . . . . . . . . . 54 4.2.4 Formulation mathématique du problème d’optimisation . . . . . . . . . . . 57 4.2.5 Avantages et inconvénients de la méthode MCELWO . . . . . . . . . . . . 60 4.2.6 Classification par vote pondéré . . . . . . . . . . . . . . . . . . . . . . . . 61 4.2.7 Évaluation de la méthode MCELWO . . . . . . . . . . . . . . . . . . . . . 62 4.2.8 Résultats et discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
  • 4. Table des figures 1.1 Hyperplan optimal, vecteurs de support et marge maximale . . . . . . . . . . . . . 13 1.2 Cas linéairement séparable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.3 Cas linéairement non séparable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.4 Cas non linéairement séparable. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.5 Espace de projection des données non-linéairement séparable. . . . . . . . . . . . . 20 1.6 Exemple de classification multi-classes (C = 3). . . . . . . . . . . . . . . . . . . . 21 1.7 Nuage de points à 3 classes : l’approche un contre Tous . . . . . . . . . . . . . . . 21 1.8 Nuage de points à 3 classes : l’approche un contre un . . . . . . . . . . . . . . . . 22 2.1 Étapes d’échantillonnage aléatoire avec remplacement à partir de l’ensemble de données original. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2 Modèle simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3 Modèle complexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.4 Modèle bien adapté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.5 Un exemple de méthode ensembliste de décision. . . . . . . . . . . . . . . . . . . . 27 2.6 Principe du bagging (Bootstrap Aggregation) . . . . . . . . . . . . . . . . . . . . 28 2.7 Performance sur un jeu de test d’un classifieur entraı̂né par bagging (en bas à droite) et des 5 premiers arbres qui le composent. . . . . . . . . . . . . . . . . . . 29 2.8 Principe de la technique de Boosting . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.9 Classificateur basé sur l’empilement (stacking) général . . . . . . . . . . . . . . . . 32 3.1 Architecture d’un système de reconnaissance d’images par le contenu basé sur la classification. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2 Image couleur RVB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.3 Différents modèles de texture. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.4 Différentes transformations géométriques que peut subir une image. . . . . . . . . 38 3.5 Courbe Rappel-Précision pour trois classifieurs . . . . . . . . . . . . . . . . . . . . 40 3.6 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.7 Image numérique couleur RVB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.8 Histogramme couleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.9 Étapes du Descripteur HOG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.10 Image binaire : exemple d’image d’une silhouette d’avion. . . . . . . . . . . . . . . 46 3.11 Visualisation du calcul du motif binaire local (LBP). . . . . . . . . . . . . . . . . 47 3.12 15 Chiffres écrit à la main provenant du MNIST. . . . . . . . . . . . . . . . . . . 48 3.13 10 Images aléatoires de chaque classes de CIFAR-10. . . . . . . . . . . . . . . . . 49 3.14 50 Echantillons d’images de différentes classes de la base Outdoor Scene utilisée. . 49 3.15 50 Echantillons d’images de différentes classes de la MSRC-v1. . . . . . . . . . . . 50 3
  • 5. 4.1 Diagramme illustrant l’architecture de méthode de classification multi-vues pour l’apprentissage d’ensemble. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.2 Schéma général de la méthode MCELWO/validation . . . . . . . . . . . . . . . . 62 4.3 Matrice de confusion sur l’ensemble de validation. . . . . . . . . . . . . . . . . . . 66 4.5 Matrice de confusion sur l’ensemble de validation. . . . . . . . . . . . . . . . . . . 67 4.7 Le poids de vue estimé sur la méthode proposé sur les quatre ensembles de données. 68 4.9 Variation de l’erreur d’apprentissage en fonction du nombre d’itérations. . . . . . 69 4
  • 6. Liste des tableaux 4.1 Performance du ε-dragging sur les points de données dans trois classes. . . . . . . 57 4.2 Descriptions de différents ensembles de données multi-vues utilisées. . . . . . . . . 63 4.3 Les caractéristiques utilisées pour chaque ensemble de données. . . . . . . . . . . . 63 4.4 Comparaison des résultats de classification entre les différentes méthodes. . . . . . 64 4.5 Les descriptions de différents ensembles de données multi-vues. . . . . . . . . . . . 65 4.6 Les résultats de classification à vue unique. . . . . . . . . . . . . . . . . . . . . . 65 5
  • 7. 6
  • 8. 7
  • 9. RÉSUME Les méthodes de classification multi-vues sont des approches d’apprentissage automatique qui exploitent plusieurs vues ou sources d’informations pour améliorer la performance de la classifi- cation. Elles sont appliquées dans divers domaines et se caractérisent par leur puissance et leur diversité de types pour exploiter la complémentarité et la corrélation entre les différentes vues des données. Dans le domaine de l’analyse des images, les méthodes de classification multi-vues donnent des meilleurs résultats pour la classification des images, le but de ce travail est présenter une méthode supervisée de classification multi-vues basée sur la régression des moindres carrés (LSR) et l’apprentissage en ensemble. Nous allons expliquer comment attribuer de manière adap- tative un poids optimal à chaque classificateur pour chaque vue dans la base d’apprentissage. Dans un premier temps, les échantillons de chaque vue sont classé en utilisant une machine à vecteurs de support multi-classes (MSVM). Ensuite, pour évaluer les résultats de classification provenant des différentes vues pour chaque échantillon, le poids optimal pour chaque résultat de classification est estimé. Nous allons appliquer cette méthode aux bases de données d’images pour les classifier. En combinant les prédictions de tous les classifieurs de chaque vue, nous ob- tenons une classification plus précise et plus résistante. En résumé, l’attribution de poids dans ce type de méthode se révèle extrêmement bénéfique dans le domaine de la classification d’images. Mots-clés : Classification multi-vues, Régression des moindres carrés, Apprentissage ensembliste, Vote pondéré. 8
  • 10. ABSTRACT Multi-view classification methods are machine learning approaches that exploit several views or sources of information to improve classification performance. They are applied in a variety of fields, and are characterized by their power and diversity of types to exploit complementarity and correlation between different views of the data. In the field of image analysis, multi-view classification methods give the best results for image classification. The aim of this work is to present a supervised multi-view classification method based on least squares regression (LSR) and ensemble learning. We will explain how to adaptively assign an optimal weight to each clas- sifier for each view in the training set. First, the samples for each view are classified using a multi-class support vector machine (MSVM). Then, to evaluate the classification results from the different views for each sample, the optimal weight for each classification result is estimated. We will apply this method to image databases for classification. By combining the predictions of all classifiers in each view, we obtain a more accurate and robust classification. In summary, weight assignment in this type of method is proving extremely beneficial in the field of image classification. Keywords : Multi-view classification, Least square regression, Ensemble learning, Weighted vo- ting. 9
  • 11. INTRODUCTION GÉNÉRALE Grâce aux résultats obtenus au cours des dernières décennies, l’apprentissage à partir de données multi-vues est devenu un domaine de recherche actif et prometteur dans le domaine de l’apprentissage automatique. Les données multi-vues, représentées par différentes caractéris- tiques, ont été largement utilisées dans de nombreuses applications d’apprentissage automatique. Chaque représentation est considérée comme une vue distincte, et ces vues peuvent provenir de différentes sources, telles que des capteurs différents, des types d’informations différents ou des représentations différentes d’un même objet. L’exploitation de la complémentarité et de la corrélation entre les vues présente un potentiel pour améliorer les performances de différentes tâches, notamment la réduction de dimensionnalité multi-vues, la classification et le regroupement. Pour le problème de réduction de dimensionnalité multi-vues, au début de 2010, Hou et al ont proposé une méthode de réduction de dimensionna- lité semi-supervisée multi-vues (MVSSDR) qui peut apprendre un motif de consensus caché dans l’espace de basse dimension. Concernent le regroupement multi-vues, Huang et al ont proposé une approche de regroupement partiellement alignée sur les vues (PVC) pour résoudre le problème partiellement aligné sur les vues. Dans ce travail, nous nous concentrons principalement sur le problème de classification multi-vues. Les méthodes de classification multi-vues supervisées suscitent un intérêt croissant en rai- son de la disponibilité des informations sur les étiquettes. En raison de la structure complexe cachée dans les données, l’exploitation et la préservation efficaces des informations corrélatives et complémentaires dans les vues multiples pour améliorer la performance de la classification est une tâche difficile. Différentes approches ont été proposées, telles que l’apprentissage à noyaux multiples (MKL), qui traiter les ensembles de données multi-vues dans des contextes d’apprentis- sage supervisé depuis 2008. Pour explorer la corrélation complexe entre les caractéristiques et les étiquettes de classe des ensembles de données multi-vues, au début de 2018, Zhang et al ont pro- posé une méthode de classification multi-vues à plusieurs couches (ML-MVC) qui peut capturer la complémentarité d’ordre supérieur entre différentes vues. En 2019, Yang et al ont proposé une méthode de classification multi-vues basée sur la régression discriminante pondérée adaptative, qui prend en compte les différences entre chaque vue dans les performances de classification, qui peut simultanément prendre en compte les informations corrélatives et complémentaires dans le sous-espace discriminant projeté. En 2022, Shi et al ont proposé une méthode de classifications multi-vues supervisée basée sur la régression des moindres carrés et l’apprentissage ensembliste, connue sous le nom de classifi- 10
  • 12. cation multi-vues supervisées basée sur la régression des moindres carrés et sur l’apprentissage en ensemble(MCELWO). Cette méthode exploite les informations complémentaires et corrélées entre les caractéristiques des différentes vues pour améliorer les performances de classification. De plus, elle attribue un poids approprié à chaque classifieur en fonction de ses performances. En observant ces méthodes données, la plupart des approches de classification multi-vues sont basées sur la fusion des caractéristiques. Dans ce travail, nous décrirons en détail le fonctionnement intrinsèque d’une méthode de clas- sification multi-vues supervisées basée sur la régression des moindres carrés et l’apprentissage ensembliste[24]. Nous expliquerons comment cette méthode fonctionne et comment elle optimise les poids attribués à chaque classifieur en fonction de leurs performances. Ce mémoire s’articule autour de quatre chapitres : ˆ Dans le premier chapitre, nous présentons le principe de fonctionnement général des ma- chines à vecteurs de support (SVM). Tout en précisant leurs avantages et leurs différents types. Enfin, nous décrierons quelques approches d’extension des SVM pour résoudre des problèmes à plusieurs classes. ˆ Le deuxième chapitre de ce projet se concentre sur une description des méthodes en- semblistes. Nous explique en détail le principe de chaque méthode tout en soulignant les différences entre elles. Enfin, les techniques de combinaison des méthodes sont présentées. ˆ Dans le troisième chapitre, nous étudierons les éléments fondamentaux d’un système de reconnaissance d’images par le contenu. Nous examinerons les différents types de descrip- tions d’images utilisées pour l’extraction des caractéristiques. Enfin, nous présenterons les bases d’images que nous utiliserons pour l’application de la méthode. ˆ Le quatrième chapitre présente une description détaillée de la méthode supervisée MCELWO. Cette méthode est appliquée au problème de la classification des images, où nous démon- trons son intérêt et son impact sur l’amélioration des performances de classification. Les résultats expérimentaux sont également présentés sous forme de tableaux et d’images. Enfin, nous concluons ce travail par une conclusion générale. 11
  • 13. CHAPITRE 1 MACHINE À VECTEURS DE SUPPORT 1.1 Introduction Inspirée de la théorie statistique de l’apprentissage, Les machines à vecteurs de support (SVM) sont un classifieur développé par V.Vapnik [1]. Les SVM sont une méthode d’apprentissage automatique largement utilisée pour la classification et la régression. Elles sont particulièrement efficaces pour résoudre des problèmes complexes de classification, où il y a plusieurs classes et les données ne sont pas linéairement séparables[2]. Le principe des SVM repose sur la recherche d’un hyperplan optimal qui sépare de manière optimale les différentes classes d’échantillons. L’un des avantages clés des SVM est leur capacité à traiter des données non linéairement séparables[1]. Pour cela, elles utilisent des fonctions de noyau qui permettent de projeter les don- nées dans un espace de plus grande dimension appelé, espace de caractéristiques ou re-description, afin que les données non linéairement séparables dans l’espace d’entrée deviennent linéairement séparables dans l’espace de caractéristiques[2]. Nous présentons dans ce chapitre une description des SVM. En premier lieu, nous décrivons de façon simple et assez complète le principe de fonctionnement général et ensuite, Dans la dernière partie du chapitre, nous décrivons en détails l’aspect mathématique des SVM et par la suite Extension aux problèmes multi-classes est ensuite présentée dans la section suivant. En particulier, la section décrit deux approches différentes des classificateurs MCSVM, à savoir l’approche ”un contre tous” et l’approche ”un contre un ”. 1.2 Machines à vecteurs de support La performance de ces classifieurs dépasse celle des méthodes supervisées traditionnelles dans plusieurs applications. Dans cette section, le principe de fonctionnement général des SVM est présenté. La linéarité et la non-linéarité[2]. 12
  • 14. 1.2.1 Notions de base Dans la classification binaire d’images données, le but des SVM est de trouver un classifieur linéaire qui sépare les images tout en maximisant la distance entre ces deux classes. Il s’agit d’un hyperplan de séparation. Les images les plus proches de cet hyperplan, c’est à dire les plus difficiles à classifier, sont appelées vecteurs supports[2]. Les SVM assurent une modélisation discriminante qui s’appuie sur la détermination des différents vecteurs supports dans les deux classes. Il est évident qu’il existe une multitude d’hyperplans valides mais la propriété remarquable des SVMs est que cet hyperplan doit être optimal, L’hyperplan séparateur optimal est celui qui maximise la marge. Formellement, cela revient à chercher un hyperplan dont la distance minimale aux différents vecteurs supports est maximale [1, 2]. Ainsi, les SVMs sont souvent appelés des Séparateurs à Vaste Marge. Dans le schéma qui suit, on détermine un hyperplan H qui sépare les deux ensembles de points. Figure 1.1 – Hyperplan optimal, vecteurs de support et marge maximale Pourquoi maximiser la marge ? Intuitivement, le fait d’avoir une marge plus large procure plus de sécurité lorsque l’on classi- fie de nouvelles images en phase de généralisation. En général, la classification d’une image requête est donnée par sa position par rapport à l’hyperplan optimal trouvé en phase d’apprentissage[2]. 1.3 Linéarité et non linéarité Il existe deux cas de modèles SVM, cas linéairement séparables et non linéairement sépa- rables. Les premiers sont les plus simples, car ils permettent de trouver facilement le classifieur linéaire. Dans les cas non-linéairement séparables, le classifieur de marge maximale ne peut pas être utilisé car ceci ne fonctionne que dans les cas linéairement séparables. Un système de marges élastiques est alors mis en place pour tolérer des erreurs de classification et donc tolérer des vecteurs supports à l’intérieur de la marge[1]. Ce compromis entre erreurs et taille de la marge est contrôlé par un hyper-paramètre d’apprentissage, que l’on note par C. Dans la plupart des problèmes de classification réels, il n’y a pas de séparation linéaire possible entre les données[2]. Particulièrement, pour la reconnaissance d’images par le contenu, les images appartenant aux différentes classes sont souvent non-linéairement séparables. Nous rappelons ici les deux cas de séparation linéaire et non-linéaire. 13
  • 15. 1.3.1 Cas linéaire Soient n le nombre d’images d’apprentissage, X = [x1, x2, . . . , xi, . . . , xn] le nuage d’obser- vations dans l’espace d’attributs correspondant et Y = [y1, y2, . . . , yi, . . . , yn] l’ensemble de leurs étiquettes. Notons que toutes les étiquettes yi appartiennent à l’ensemble {−1, 1} (classification binaire) et xi ∈ Rd . À partir de l’examination des couples d’entrée-sortie : D = {(xi, yi) ; i = 1, 2, . . . , n} . (1.1) étant donné l’ensemble de mesures D sont tirées suivant une distribution de probabilité inconnue P(x,y). Le but est de trouver une fonction f : X → Y , telle que la probabilité : P(f(X) ̸= Y ) (1.2) soit minimale[2]. 1.3.1.1 Cas linéairement séparable Un problème de classification binaire est linéairement séparable, si les images d’apprentis- sage appartenant aux deux classes peuvent êtres complètement séparables[2]. Fondements mathématiques : Les données d’apprentissage sont linéairement séparables, c’est à dire qu’il existe un hyper- plan qui sépare les données sans erreur[4]. Un hyperplan f(x) a donc la forme suivante : f(x) = ⟨w, x⟩ + b = w⊤ x + b (1.3) l’hyperplan séparateur (frontière de décision) a donc pour équation : ⟨w, x⟩ + b = 0, où w est le vecteur orthogonal à l’hyperplan et b est le déplacement par rapport à l’origine[4]. ⟨·, ·⟩ est le produit scalaire usuel en Rd : ⟨x, y⟩ = d X i=1 xiyi, ∀x, y ∈ Rd (1.4) Soit H : ⟨w, x⟩ + b l’hyperplan qui satisfait les conditions suivantes : ( w · xi + b ≥ 1 si yi = 1 w · xi + b ≤ −1 si yi = −1 (1.5) ce qui est équivalent à : yi (w · xi + b) ≥ 1 pour i = 1, . . . , n (1.6) • Calcul de la marge : Si xs est un vecteur de support et H = x | w⊤ x + b = 0 , alors la marge est donnée par : Marge = 2d(x, H) = 2 w⊤ xs + b ∥w∥ (1.7) 14
  • 16. On utilise cette quantité pour des raisons de simplicité de l’écriture des équations plus tard, mais ceci ne change en rien le problème d’optimisation (maximiser la marge ou deux fois la marge conduit à la même solution). On impose alors la condition de normalisation w⊤ xs + b = 1 pour les vecteurs de support xs, ce qui conduit à : Marge = 2 ∥w∥ (1.8) Comme nous l’avons déjà mentionné, un hyperplan optimal est l’hyperplan qui maximise la marge (1.8) qui représente la plus petite distance entre les différentes données des deux classes et l’hyperplan. Maximiser la marge (1.8) est équivalent à maximiser la somme des distances des deux classes par rapport à l’hyperplan. • Maximisation de la marge : Trouver l’hyperplan optimal revient donc à maximiser 2 ∥w∥ . Ce qui est équivalent à minimiser ∥w∥2 2 sous la contrainte (1.6). Ceci est un problème de minimisation d’une fonction objective quadratique avec contraintes linéaires[1, 4]. Probleme primal =⇒    min w,b 1 2 ∥w∥2 s.c yi (w · xi + b) ≥ 1, i = 1, . . . , n (1.9) • Passage du primal vers le dual : Un problème dual est un problème fournissant la même solution que le primal mais dont la formulation est différente[1]. On passe du problème primal au dual en introduisant les multi- plicateurs de Lagrange pour chaque contrainte. Le lagrangien est donné par : L(w, b, α) = 1 2 ∥w∥2 − n X i=1 αi yi wT xi + b − 1 (1.10) Le lagrangien doit être optimisé par rapport à w, b et les multiplicateurs α. En annulant les dérivées partielles du lagrangien par rapport à w et b, on obtient les relations : ∂L ∂b L(w, b, α) = 0 =⇒ n X i=1 αiyi = 0 ∂L ∂w L(w, b, α) = 0 =⇒ w = n X i=1 αiyixi (1.11) Par substitution dans l’équation du lagrangien (1.10) on obtient le problème dual :                      max α n X i=1 αi − 1 2 n X i,j=1 αiαjyiyjxT i xj telque αi ≥ 0, i = 1, . . . , n (admissibilité duale) n X i=1 αiyi = 0 (stationarité) (1.12) 15
  • 17. La solution du problème dual donne les multiplicateurs de Lagrange optimaux αi. A partir des αi on obtient w par les relations (1.11). Le paramètre b est obtenu à partir de la relation xT s w + b = 1 valable pour tous les vecteurs de support xs. Nous avons à présent tous les éléments nécessaires pour exprimer la fonction de décision de notre classificateur linéaire[3] : f(x) = n X i=1 αiyix.xi + b (1.13) avec, x est un vecteur support et les xi sont les observations des différentes images d’apprentis- sage. Les multiplicateurs de Lagrange αi et le biais b sont des hyper-paramètres d’apprentissage déterminés par la résolution du Lagragien du problème d’optimisation initial[1]. La figure 1.2 illustre un exemple de classification binaire linéairement séparable. Figure 1.2 – Cas linéairement séparable 1.3.1.2 Cas linéairement non séparable Les données sont affectées par un bruit par exemple dans le cas d’images(bruit de capteur), et les deux classes se retrouvent mélangées autour de l’hyperplan de séparation[4]. Fondement mathématiques : Pour gérer ce type de problème on utilise une technique dite de marge souple, qui tolère les mau- vais classements, on introduit des variables d’écart ξi(i = 1..N) avec ξ 0 dans les contraintes (1.5)[6], qui deviennent : ( w · xi + b ≥ 1 − ξi si yi = +1 w · xi + b ≤ −1 + ξi si yi = −1 (1.14) ce qui est équivalent à : yi (w · xi + b) ≥ 1 − ξi pour i = 1, . . . , n (1.15) Remarque 1.1. Si un point (xi, yi) vérifie la contrainte de marge yi wT xi + b ≥ 1 alors la variable d’écart est nulle. 16
  • 18. La figure 1.4 présente un ensemble de données pour lequel il n’est pas possible de tracer une ligne droite ou un hyperplan pour séparer les différentes classes de manière linéaire. Les données présentent une structure complexe qui ne peut pas être linéairement séparée. Figure 1.3 – Cas linéairement non séparable Plus un exemple est situé loin du côté incorrect du séparateur (carré rouge), plus la variable de relâchement ξ prend une valeur élevée[6]. Nous avons donc deux situations : -Pas d’erreur : yi wT xi + b ≥ 1 =⇒ ξi = 0 -Erreur : yi wT xi + b 1 =⇒ ξi = 1 − yi wT xi + b 0 On associe à cette définition une fonction coût appelée coût charnière : ξi = max 0, 1 − yi wT xi + b (1.16) Le problème d’optimisation dans le cas des données non-séparables est donc :                        min w,b          1 2 ∥w∥2 n X i=1 ξi tel que yi (w · xi + b) ≥ 1 − ξi, i = 1, . . . , n ξi ≥ 0, i = 1, . . . , n (1.17) Puisqu’il faut minimiser les deux termes simultanément, on introduit une variable d’équilibrage C 0 qui permet d’avoir une seule fonction objectif dans le problème d’optimisation : min w,b 1 2 ∥w∥2 + C n X i=1 ξi (1.18) 17
  • 19. ce qui conduit à :                min w,b 1 2 ∥w∥2 + C n X i=1 ξi tel que yi (w · xi + b) ≥ 1 − ξi, i = 1, . . . , n ξi ≥ 0, i = 1, . . . , n (1.19) Remarque 1.2. Si toutes les variables d’écart ξi = 0, on retrouve le problème linéairement séparable traité plus tôt(1.9). Les variables ξi s’appellent aussi variables ressort (en anglais : slack variables). Par la même procédure qu’avant, on obtient le problème dual :                      max α n X i=1 αi − 1 2 n X i,j=1 αiαjyiyjxT i xj tel que C ≥ αi ≥ 0, i = 1, . . . , n n X i=1 αiyi = 0 (1.20) En ce qui concerne les observations faites sur le problème (1.20). ˆ C joue le rôle d’une constante de régularisation (la régularisation est d’autant plus forte que C est proche de 0)[6]. ˆ La différence pour le problème dual entre le cas séparable et non séparable est que les valeurs des αi sont majorées par C. ˆ Les points mal classés ou placés dans la marge ont un αi = C. ˆ b est calculé de sorte que yif(xi) = 1 pour les points tels que C αi 0. La fonction de décision permettant de classer une nouvelle observation x est toujours[6] : f(x) = n X i=1 αiyix.xi + b (1.21) 1.3.2 Cas non linéaire Pour résoudre le problème de non-séparabilité, les SVM consistent à effectuer une transfor- mation non-linéaire Φ de Rd dans un espace de Hilbert H = Rs de dimension supérieure (s d), éventuellement infinie (Card(H) d) [2]. Cette transformation non-linéaire des vecteurs carac- téristiques xi, i = [1, 2, . . . , n] permet une séparation linéaire des images dans un nouvel espace appelé, espace de re-description. Plus la dimension de l’espace de re-description est importante, plus la probabilité de pouvoir trouver un hyper-plan séparateur entre les images est élevée[2, 4]. On a donc une transformation d’un problème de séparation non-linéaire dans l’espace de repré- sentation initial en un problème de séparation linéaire dans un espace de re-description de plus 18
  • 20. grande dimension. En pratique, cette transformation est réalisée à l’aide d’une fonction noyau, souvent appelée K et décrite comme suit[2] : K (x, xi) = ⟨Φ(x), Φ (xi)⟩H , i = [1, 2, . . . , n] . (1.22) avec ( Φ : Rd → H x 7→ Φ(x) (1.23) Exemple de classification binaire non linéairement séparable. Figure 1.4 – Cas non linéairement séparable. On doit donc résoudre :                      max α n X i=1 αi − 1 2 n X i,j=1 αiαjyiyjK (xi, xj) tel que C ≥ αi ≥ 0, i = 1, . . . , n (admissibilité duale) n X i=1 αiyi = 0 (stationarité) (1.24) Finalement, Les SVM basé sur le noyau K peut maintenant être écrit comme suit : f(x) = n X i=1 αiyiK (x, xi) + b (1.25) L’introduction de noyaux permet donc aux machines à vecteurs supports de déterminer une surface de décision non linéaire en gardant un formalisme provenant d’une approche linéaire de la classification[3]. 19
  • 21. 1.3.2.1 Fonctions Noyau Les fonctions noyaux peuvent avoir plusieurs formes. Quelques familles de fonctions noyaux paramétrables sont connues et il revient à l’utilisateur de les tester pour déterminer celle qui convient le mieux pour son application[2, 4]. Pour un vecteur support x et une observation x′ , les noyaux combinant x et x′ les plus utilisés sont les suivant : Polynômial : K (x, x′ ) = (⟨x, x′ ⟩ + cte) d Sigmoı̂dal : K (x, x′ ) = tanh (⟨x, x′ ⟩ + θ) Laplacien : K (x, x′ ) = e− ∥x−x′ ∥ σ Gaussien : K (x, x′ ) = e− ∥x−x′ ∥2 2σ2 avec, cte, u, θ et σ sont des paramètres de noyaux [1, 2]. Un exemple de classification non-linéairement séparable est illustré par la figure en-dessus. Figure 1.5 – Espace de projection des données non-linéairement séparable. 1.4 Extension aux problèmes multi-classe Le principe du SVM expliqué dans la partie précédente se résume dans la résolution des problèmes de classification binaire, or les problèmes rencontrés dans la réalité, sont de type multi classes[4]. D’où l’importance d’étendre le principe du SVM aux problèmes de plus de deux classes, il y a eu plusieurs tentatives pour combiner des classificateurs binaires pour cerner ce problème[2]. Nous allons par suite expliquer brièvement quelques méthodes parmi les plus utilisées. Un exemple de classification à trois classes (C = 3) est illustré par la figure 1.6 : 20
  • 22. Figure 1.6 – Exemple de classification multi-classes (C = 3). Nous présentons maintenant les deux principales méthodes permettant de décomposer un problème de classification comportant plus de deux classes en un ensemble de sous problèmes binaires[3], la décomposition un contre un et un contre tous. 1.4.1 Algorithme SVM : Un contre tous L’approche la plus naturelle est d’utiliser cette méthode de discrimination binaire et d’ap- prendre C fonctions de décision {fm} m = 1 . . . C permettant de faire la discrimination entre chaque classe de toutes les autres (chaque classe est opposée à toutes les autres), il faut donc poser C problèmes binaires[4]. Le k ième classificateur sépare les données de la classe k de tout le reste des données d’apprentissage[1, 2]. Chaque classificateur renvoie 1 si la forme à reconnaitre appartient à la classe, -1 sinon. Alors pour reconnaitre une forme il faut la soumettre à tous les autres classificateurs, pour prendre une décision de classification, on garde la classe qui a eu la valeur maximale de toutes les fonctions de décision[1, 7]. Donc l’affectation d’un nouveau point x à une classe Ci se fait par la relation : i = argmax fm(x) m = 1 . . . C (1.26) Figure 1.7 – Nuage de points à 3 classes : l’approche un contre Tous 21
  • 23. L’avantage de l’algorithme Un contre tous est qu’il peut être utilisé avec n’importe quelle fonction de noyau, ce qui permet de traiter des problèmes de classification non linéaires[2]. Ce- pendant, l’inconvénient est qu’il nécessite plus de temps de calcul que l’algorithme Un contre Tous, qui ne nécessite qu’un seul classificateur binaire pour chaque classe[8]. 1.4.2 Algorithme SVM : Un contre un La technique Un contre Un, quand à elle, construit (C(C −1)/2) classifieurs SVMs binaires, en utilisant toutes les paires de combinaisons binaires des C classes. L’apprentissage de chaque classifieur est réalisé en considérant les images de la première classe comme des exemples positifs et les images de la seconde classe comme des exemples négatifs. Pour combiner les différents classifieurs, l’algorithme de vote majoritaire pour max-wins voting est adopté[8]. Cet algorithme permet de trouver la classe résultante en choisissant la classe votée par la majorité des classifieurs (Friedman, 1997)[2]. Le nombre d’images utilisées pour l’apprentissage de chaque classifieur est très réduit, car seuls les images appartenant à deux classes parmi les C classes sont prises en consideration. D’où, un temps d’apprentissage plus court[22]. Figure 1.8 – Nuage de points à 3 classes : l’approche un contre un L’un des avantages de la technique Un contre Un est qu’elle permet un temps d’apprentis- sage réduit car chaque classifieur est entraı̂né avec un petit sous-ensemble des données[22]. Cepen- dant, l’inconvénient est que chaque image doit être présentée à un grand nombre de classifieurs SVM (C(C −1)/2), ce qui peut entraı̂ner une augmentation significative du temps d’inférence[8]. 1.5 Conclusion Dans ce rapport, nous avons tenté de présenter d’une manière simple et complète le concept de système d’apprentissage introduit par Vladimir Vapnik Les machines à vecteurs de support. On a donné une vision générale et une vision purement mathématiques des SVM. Cette méthode de classification est basée sur la recherche d’un hyperplan qui permet de séparer au mieux des en- sembles de données. Nous avons exposé les cas linéairement séparable et les cas non linéairement séparables qui nécessitent l’utilisation de fonction noyau pour changer d’espace. Cette méthode est applicable pour des taches de classification à deux classes, mais il existe des extensions pour 22
  • 24. la classification multi classes. Les avantages que présentent les SVM sont l’utilisation de l’approche de noyau pour traiter les cas non-linéaires, l’absence de minimum local, le nombre raisonnable de solutions et le contrôle de capacité obtenu par optimisation de la marge. 23
  • 25. CHAPITRE 2 APPRENTISSAGE ENSEMBLISTE 2.1 Introduction L’apprentissage en ensemble, également connu sous le nom de méthodes ensembliste ou apprentissage ensembliste est une approche qui a été initialement proposé pour les tâches de classification à la manière de l’apprentissage supervisé(Nilsson, 1965). L’idée fondamentale de l’apprentissage d’ensemble est de combiner ou agréger les prédictions de plusieurs modèles indivi- duels, souvent appelés apprenants faibles(modèles qui ont une performance légèrement supérieur à un modèle aléatoire) ou classifieurs de base, de manière à exploiter leurs forces et à réduire leurs faiblesses individuelles[9]. Cela permet de créer un modèle plus puissant et plus robuste qui est capable de généraliser et de mieux s’adapter aux données d’apprentissage[10]. Cette tech- nique est largement utilisée dans différents domaines de l’apprentissage automatique tels que la reconnaissance de formes, la classification, la prédiction et la détection d’anomalies. Les trois techniques L’apprentissage en ensemble les plus populaires sont le bagging, le boosting et le stacking. Chacune de ces techniques offre une approche unique pour améliorer la précision des prédictions[10]. Chaque technique est utilisée dans un but différent, l’utilisation de chacune d’entre elles dépendant de divers facteurs. Bien que chaque technique soit différente, beaucoup d’entre nous ont du mal à les distinguer. Il est difficile de savoir quand ou pourquoi nous devons utiliser chaque technique. Dans ce chapitre, nous aborderons plusieurs clés concernant L’apprentissage en ensemble. Tout d’abord, comment former chacun des apprenants de base, c’est-à-dire les algorithmes uti- lisés pour L’apprentissage en ensemble. Ensuite, nous verrons comment combiner les résultats obtenus à partir de ces multiples apprenants de base, en utilisant différentes méthodes de com- binaison. Enfin, J’expliquerai leurs objectifs, leurs processus, ainsi que leurs avantages et leurs inconvénients. 2.2 Notions de base 24
  • 26. 2.2.1 Bootstrap Étant donné un jeu D de n observations, et un nombre N, on appelle bootstrap la procédure qui consiste à créer N échantillons D1, D2, · · · , DN de D, obtenus chacun en tirant n exemples de D avec remplacement. Ainsi, chaque exemple peut apparaı̂tre plusieurs fois, ou pas du tout, dans Db [10]. Définition 2.1. (Bootstrap) est une méthode d’échantillonnage aléatoire avec remplacement uti- lisée en apprentissage automatique et apprentissage statistique pour générer plusieurs ensembles de données d’entraı̂nement à partir d’un ensemble de données original[10]. Figure 2.1 – Étapes d’échantillonnage aléatoire avec remplacement à partir de l’ensemble de données original. Remarque 2.1. Cette méthode est largement utilisée en conjonction avec la méthode de bagging pour améliorer la performance du modèle et réduire sa variance[10, 11]. 2.2.2 Notion de Bais et Variance Le biais et la variance sont deux sources d’erreur de prédiction dans les modèles d’appren- tissage automatique. Le biais mesure l’erreur qui se produit lorsque le modèle est trop simple pour représenter les données d’entraı̂nement, conduisant à une sous-apprentissage des valeurs de sortie. La variance mesure la variabilité de la prédiction des modèles appris à partir de différents ensembles de données d’entraı̂nement[10]. Un modèle avec une variance élevée est généralement trop complexe, ce qui peut conduire à une sur-apprentissage aux données d’entraı̂nement et à une mauvaise performance pour les données de test ou de validation[11]. Exemple 2.1. Un modèle à biais élevé résulte d’un apprentissage insuffisant des données. Il n’est pas lié à la distribution des données. Par conséquent, les prédictions futures ne seront pas liées aux données et seront donc incorrectes (Figure 2.2). Exemple 2.2. Un modèle à variance élevée résulte d’un apprentissage trop poussé des données. Il varie avec chaque point de données. Il est donc impossible de prédire avec précision le point suivant (Figure 2.3). 25
  • 27. Figure 2.2 – Modèle simple Figure 2.3 – Modèle complexe De cette manière, le modèle résultant sera beaucoup plus équilibré, avec un faible biais et une faible variance. Le modèle résultant sera donc connu sous le nom d’apprenant fort. Ce modèle sera plus généralisé que les apprenants faibles[11]. Il sera donc capable de faire des prédictions précises. Figure 2.4 – Modèle bien adapté les modèles à fort biais ou à forte variance ne peuvent pas se généraliser correctement, ce qui peut conduire à des prédictions incorrectes. Le compromis biais-variance stipule que pour obtenir une bonne généralisation, il faut trouver un équilibre entre le biais et la variance[10]. En général, pour une bonne performance du modèle, il est important de trouver le juste milieu entre ces deux facteurs[9]. fonctionne L’apprentissage en ensemble ?. L’un des problèmes de l’apprentissage automatique est que les modèles individuels ont tendance à être peu performants. En d’autres termes, ils ont tendance à avoir une faible précision de prédiction. Pour atténuer ce problème, nous combinons plusieurs modèles afin d’en obtenir un plus performant[9]. L’apprentissage en ensemble visera à : • réduire le biais si nous disposons d’un modèle faible avec un biais élevé et une faible variance. • réduire la variance si nous disposons d’un modèle faible avec une variance élevée et un faible biais. 26
  • 28. Les modèles individuels que nous combinons sont connus sous le nom d’apprenants faibles. Nous les appelons apprenants faibles parce qu’ils ont soit un biais élevé, soit une variance élevée[10]. En raison de leur biais ou de leur variance élevés, les apprenants faibles ne peuvent pas apprendre efficacement et obtiennent des résultats médiocres[11]. 2.3 Méthodes ensemblistes : la sagesse des foules Les méthodes ensemblistes sont des méthodes très puissantes en pratique, qui reposent sur l’idée que combiner de nombreux apprenants faibles permet d’obtenir une performance large- ment supérieure aux performances individuelles de ces apprenants faibles, car leurs erreurs se compensent les unes les autres[9, 10]. Cette idée est similaire au concept de sagesse des foules (wisdom of crowd), si je demande à mes élèves l’année de la mort de Pompidou, il est probable que la moyenne de leurs réponses soit assez proche de la bonne (1974), cependant, si je demande cette date à une seule personne au hasard, je n’aurais aucun moyen de savoir a priori si cette personne connaı̂t la date ou me répond au hasard[10]. Exemple 2.3. Pour illustrer ce concept, imaginons une tâche de classification en deux dimen- sions, dans laquelle les deux classes sont séparées par une diagonale, mais que le seul algorithme d’apprentissage dont nous disposions ne puisse apprendre qu’une frontière de décision en escalier, avec un nombre limité de paliers. Combiner des dizaines voire des centaines de ces frontières de décision en escalier peut nous donner une bien meilleure approximation de la véritable frontière de décision[10]. Cet exemple est illustré sur la (figure 2.5). Figure 2.5 – Un exemple de méthode ensembliste de décision. Chacune des frontières de décision en escalier est une mauvaise approximation de la vraie frontière qui est la diagonale en trait plein[10]. Cependant, combiner ces escalier permet une meilleure approximation de la diagonale. Attention : La théorie des méthodes ensemblistes montre que lorsque les modèles que l’on combine ont été appris par des apprenants faibles, c’est-à-dire simples à entraı̂ner et peu performants, ces méthodes permettent d’améliorer la performance par rapport à celle du meilleur de ces modèles individuels[9]. En pratique, si les modèles individuels sont déjà performants et robustes au bruit, 27
  • 29. le modèle ensembliste ne sera pas nécessairement meilleur. On utilise le plus souvent des arbres de décision comme modèles individuels[10]. 2.3.1 Méthodes parallèles : bagging Supposons un jeu de données D de n observations, x1, x2, . . . , xi, . . . , xn de X le nuage d’observations dans l’espace d’attributs correspondant et y1, y2, . . . , yi, . . . , yn l’ensemble de leurs étiquettes. Définition 2.2. Le bagging, proposé par Leo Breiman (1996) est un acronyme de (anglais : Boots- trap Aggregating), également connu sous le nom d’agrégation bootstrap. cette méthode consiste à former N versions de D par échantillonnage bootstrap, ce qui signifie que les points de données individuels peuvent être choisis plus d’une fois. Après la génération de N échantillons de données D, ces modèles faibles sont formés indépendamment et leurs prédictions sont agrégées pour produire une prédiction finale plus robuste. Les N prédictions sont ensuite combinées selon le type de tâche : par vote de la majorité dans le cas d’un problème de classification. en prenant la moyenne dans le cas d’un problème de régression. Figure 2.6 – Principe du bagging (Bootstrap Aggregation) Remarque 2.2. Le bagging permet de réduire la variance des estimateurs individuels. C’est ce qui lui permet d’atteindre une plus grande stabilité et une meilleure prédiction qu’eux. Nous expliquons cette remarque par un exemple, la figure ci-dessous illustre ce principe les 5 premiers arbres qui composent le classifieur entraı̂né par bagging séparent nettement moins bien le jeu de données que le bagging, mais ils font des erreurs sur des régions différentes de l’espace, qui se compensent lorsqu’on les combine[10]. 28
  • 30. Figure 2.7 – Performance sur un jeu de test d’un classifieur entraı̂né par bagging (en bas à droite) et des 5 premiers arbres qui le composent. 2.3.1.1 Fonctionnement du Bagging : 1. Nous disposons d’un ensemble de données d’apprentissage initial contenant n nombres d’instances. 2. Nous créons un nombre m de sous-ensembles de données à partir de l’ensemble de données d’apprentissage. 3. Nous prenons un sous-ensemble de N points d’échantillonnage de l’ensemble de données initial pour chaque sous-ensemble. 4. Pour chaque sous-ensemble de données, nous formons indépendamment les apprenants faibles correspondants. Ces modèles sont homogènes, c’est-à-dire qu’ils sont du même type. 5. Chaque modèle fait une prédiction. 6. Les prédictions sont agrégées en une seule prédiction. Pour ce faire, on utilise soit le vote à majorité, soit la moyenne. 2.3.1.2 Avantages et inconvénients du bagging L’algorithme des ”forêts aléatoires” (ou Random Forest, parfois aussi traduit par forêt d’arbres décisionnels) est l’un des algorithmes bagging les plus populaires. Le bagging offre l’avan- tage de permettre à de nombreux apprenants faibles de combiner leurs efforts pour surpasser un seul apprenant. Il aide également à réduire la variance, éliminant ainsi le surapprentissage des modèles dans la procédure. ˆ Le bagging minimise le surapprentissage des données. ˆ Il traite efficacement les données de dimension supérieur. ˆ Un inconvénient de bagging est qu’il introduit une perte d’interprétabilité d’un modèle. ˆ Le modèle résultant peut subir de nombreux biais lorsque la procédure appropriée est ignorée. ˆ Bien que bagging soit très précis, il peut être coûteux en calcul et cela peut décourager son utilisation dans certains cas. 29
  • 31. 2.3.2 Méthodes séquentielles : boosting On parle alors de boosting, par itérations successives des apprenants faibles viennent exalter ”booster” les performances du modèle final qui les combine[10]. Les techniques de boosting les plus courantes sont AdaBoost, Gradient Boosting et XGBoost. Définition 2.3. Le boosting a été introduit par Schapire (1990), est une méthode ensembliste de l’apprentissage automatique dans laquelle des apprenants faibles, sont construits séquentiellement sur des sous-ensembles de données pondérés en fonction de leur erreur de prédiction précédente. Chaque modèle est construit pour minimiser l’erreur résiduelle du modèle précédent et est pondéré en fonction de sa performance. Les modèles pondérés sont ensuite combinés pour produire une prédiction finale. Figure 2.8 – Principe de la technique de Boosting Remarque 2.3. le boosting est souvent utilisée avec des arbres de décision comme modèles faibles, car ils sont simples à entraı̂ner et à interpréter. 2.3.2.1 Fonctionnement du boosting : 1. Un sous-ensemble est créé à partir de l’ensemble de données d’origine. 2. Au départ, tous les points de données reçoivent des poids égaux. 3. Un modèle de base est créé sur ce sous-ensemble. 4. Ce modèle est utilisé pour faire des prédictions sur l’ensemble des données. 5. Les erreurs sont calculées à l’aide des valeurs réelles et des valeurs prédites. 6. Les observations qui sont mal prédites reçoivent des poids plus élevés. 7. Un autre modèle est créé et des prédictions sont effectuées sur l’ensemble de données.(Ce modèle tente de corriger les erreurs du modèle précédent) 8. De même, plusieurs modèles sont créés, chacun corrigeant les erreurs du modèle précédent. 9. Le modèle final (apprenant fort) est la moyenne pondérée de tous les modèles(apprenants faibles). 30
  • 32. 2.3.2.2 AdaBoost AdaBoost dont le nom vient de Adaptive Boosting, est un algorithme qui permet de construire un classifieur de manière itérative, en forçant un classifieur faible à se concentrer sur les erreurs du modèle grâce à un système de pondération des exemples d’entraı̂nement. L’estima- teur le plus couramment utilisé avec AdaBoost est l’arbre de décision à un niveau, c’est-à-dire l’arbre de décision à une seule division[10]. Ces arbres sont également appelés ”Decision Stumps” (souches de décision). Algorithme 1 AdaBoost Entrée : - X l’observation à prévoir - dn = (x1, y1) , . . . , (xn, yn) l’échantillon - Une règle faible - T le nombre d’itérations. Initialiser les poids wi = 1/n, i = 1, . . . , n Pour m = 1 à T faire : Étape.1 : Ajuster la règle faible sur l’échantillon dn pondéré par les poids w1, . . . , wn, on note gm(X) l’estimateur issu de cet ajustement Étape.2 : Calculer le taux d’erreur : em = Pn i=1 wi1yi ̸= gm (xi). Pn i=1 wi . Étape.3 : Calculer : αm = log ((1 − em) /em) Étape.4 : Réajuster les poids : wi = wi exp αm1yi̸=gm(xi) , i = 1, . . . , n fin Sortie : ĝT (X) = T X m=1 αmgm(X) . Les poids de chaque observation sont initialisés à 1/n pour l’estimation du premier modèle. Ils sont ensuite mis à jour pour chaque itération. L’importance d’une observation wi est inchangée si l’observation est bien classée[10], dans le cas inverse elle croit avec la qualité d’ajustement du modèle mesurée par αm. L’agrégation finale est une combinaison des règles g1, · · · , gT pondérée par les qualités d’ajustement de chaque modèle. 2.3.2.3 Bagging vs boosting : la principale différence entre ces méthodes d’apprentissage est la manière dont elles sont formées. Dans le cas du bagging, les apprenants faibles sont formés en parallèle, alors que dans le cas du boosting, ils apprennent de manière séquentielle. 31
  • 33. 2.4 Méthodes de combinaison Après la construction des classificateurs de base, il existe diverses techniques pour combiner les résultats de chaque classificateur. Parmi les approches les plus fréquemment mentionnées dans la littérature, on trouve la moyenne, le vote majoritaire, le vote pondéré et le stacking. Ces méthodes permettent d’exploiter les prédictions des classificateurs individuels afin de parvenir à une décision finale plus robuste[10]. • Le vote à majorité : La méthode de vote majoritaire est généralement utilisée pour les problèmes de classification. Dans cette technique, plusieurs modèles sont utilisés pour faire des prédictions pour chaque point de données. Les prédictions de chaque modèle sont considérées comme un ”vote”. La prédiction obtenue de la part de la majorité des modèles est utilisée comme prédiction finale. L’inconvénient de cette méthode est dans le cas ou plus de la moitié des classificateurs de base obtiennent de faux résultats. • Le vote à majorité pondéré : C’est un vote basé sur des poids associés aux classificateurs de base.Ces poids peuvent être diminués ou augmentés au fur et à mesure que les classificateurs s’entraı̂nent, suivant qu’ils produisent respectivement une bonne ou une mauvaise prédiction. • Moyenne : Dans cette méthode, la moyenne des prédictions de tous les modèles est utilisée pour faire la prédiction finale. La moyenne peut être utilisée pour faire des prédictions dans des problèmes de régression ou pour calculer des probabilités pour des problèmes de classification. • Stacking : Le stacking, également connu sous le nom Stacked generalization, proposée par Wolpert (1992), est une technique d’apprentissage d’ensemble dans laquelle plusieurs modèles sont entraı̂nés et leurs prédictions sont combinées pour produire une prédiction finale. En général, elle consiste à utiliser les prédictions de plusieurs modèles de base pour entraı̂ner un modèle de méta-apprentissage qui apprend à partir de ces prédictions pour produire une prédiction finale plus précise[11]. Figure 2.9 – Classificateur basé sur l’empilement (stacking) général 32
  • 34. 2.5 Conclusion Pour l’apprentissage en ensemble, nous avons donné la définition de l’ensemble à la manière de l’apprentissage supervisé et nous avons abordé les problèmes fondamentaux de l’apprentissage en ensemble, comment former chacun des apprenants de base, comment combiner les résultats obtenus à partir des différents apprenants de base et quel est le facteur critique pour déterminer le succès de l’apprentissage en ensemble (diversité de l’ensemble). En ce qui concerne les algorithmes d’apprentissage en ensemble, nous avons décrit les algorithmes de bagging et de boosting et stacking qui ont été à l’origine de la proposition du modèle d’ensemble de classification multi- vues présenté dans le dernière chapitre suivant. En ce qui concerne les méthodes de combinaison, la moyenne, Le vote à majorité pondéré, vote majoritaire et stacking ont été décrits en détail dans le dernière section . En outre, nous avons examiné la question de la diversité liée à la réussite de l’apprentissage ensembliste. 33
  • 35. CHAPITRE 3 EXTRACTION DE CARACTÉRISTIQUES ET CLASSIFICATION D’IMAGES 3.1 Introduction Les contenus visuels des images sont extraits et décrits par des vecteurs multidimensionnels de caractéristiques, et ces vecteurs forment la base de données de descripteurs (ou signatures) l’extraction des contenus visuels des images se concentre généralement sur les caractéristiques de bas niveau[12]. Il y a deux approches principales de caractériser : la première est la construction de descripteurs globaux à toute l’image et la seconde est locale et consiste à calculer des carac- téristiques sur des portions restreintes de l’image et nous avons expliqué en détail dans ce chapitre. A cet effet, les notions de recherche par le contenu, de classification et d’annotation des images constituent les éléments clés de toute solution voulant répondre aux attentes des profes- sionnels exerçant dans des domaines d’application de l’analyse des images. L’analyse des images en général, pour des fins de détection et extraction des objets, est devenue un axe de recherche très important[2]. La première partie de ce chapitre se concentre sur les principes fondamentaux d’un système de reconnaissance d’images par le contenu. Dans la deuxième partie, nous décrivons en détail l’ensemble des caractéristiques utilisées pour décrire les images. Ensuite, nous présentons les bases d’images utilisées, en exposant leur contenu et les différentes méthodes de description d’images. Enfin, une évaluation approfondie des performances de reconnaissance de cet ensemble de caractéristiques est fournie à la fin du chapitre. 34
  • 36. 3.2 Reconnaissance d’images par le contenu Figure 3.1 – Architecture d’un système de reconnaissance d’images par le contenu basé sur la classification. L’architecture type des systèmes de Reconnaissance d’images par le contenu est illustrée par la figure 3.1. Cette architecture est composée principalement par deux étapes importantes, à savoir l’extraction des caractéristiques visuels pour la description des images et la classification qui mène à la reconnaissance de ces images. Un système de reconnaissance d’images est souvent conçu pour un type bien déterminé de base d’images. Les bases d’images se classent, généralement, en deux grandes catégories[2] : ˆ Les bases spécialisées : sont des bases dans lesquelles nous trouvons des images d’un do- maine particulier (images médicales, images satellitaires, images architecturales, images biométriques telles que les images de visages ou d’empreintes, images artistiques telles que les tableaux de musée, etc...). ˆ Les bases hétérogènes : désignées aussi par généralistes sont des bases d’images de sujets très variés comprenant des catégories d’images très différentes (par exemple couchers de soleil, montagne, plage, animaux, véhicules, bâtiments, etc...). Les images dans le cas des bases spécialisées ont le plus souvent un contenu sémantique homogène et présentent plusieurs caractéristiques en commun. La reconnaissance d’images dans de telles bases est en fait un problème spécifique à un domaine bien particulier. Par contre, la deuxième catégorie de bases d’images généralistes regroupe des images appartenant à des concepts hétérogènes. Les images sont alors de divers types et elles ont un contenu assez complexe[2]. Par conséquent, la difficulté de reconnaissance d’images est accrue dans ce type de bases à cause des limitations de description des images. 35
  • 37. 3.3 Extraction des caractéristiques La description du contenu des images est une étape essentielle dans un système de recherche d’image par le contenu, car la performance de système dépend en grande partie du choix des descripteurs employés et des techniques associées à leurs extractions. Un descripteur est défini comme la connaissance utilisée pour caractériser l’information contenue dans les images. Cette étape permet de fournir une représentation du contenu de l’image appelé aussi signature de l’image[2]. L’objectif principal de l’extraction de caractéristiques est de déterminer pour chaque image, une représentation (signature) qui soit, d’une part compacte, pour être rapidement accessible et facilement comparable, et d’autre part suffisamment complète pour bien caractériser l’image. Ces caractéristiques décrivent les principales caractéristiques visuelles existant dans une image, à savoir la couleur, la texture et la forme[2]. 3.3.1 Vecteur descripteur Le vecteur descripteur contient les attributs intéressants extraits de l’image. Il se présente en général sous la forme d’un vecteur à n composantes réelles. Les attributs extraits des images sont de différents types et sont exprimés dans des unités différentes selon qu’ils appartiennent à la couleur, la texture, la forme. Une étape de normalisation est indispensable, elle va permettre de réajuster les valeurs des attributs pour les rendre commensurables. 3.3.2 Types de caractéristiques Les images sont des objets numériques très riches en terme d’informations. En plus de l’espace mémoire gigantesque exigé, la manipulation directe de ces images dans un système de reconnaissance d’images par le contenu ne permet pas d’obtenir des temps de réponse réalistes. Il convient donc d’utiliser une représentation de dimension réduite pour caractériser le contenu de ces images. 3.3.2.1 Couleur Les caractéristiques couleurs sont les premiers utilisés dans les systèmes de reconnaissance d’images par le contenu et ils sont toujours les plus utilisés grâce à leur simplicité d’extraction, leur richesse de description et leur efficacité de reconnaissance. Ces caractéristiques couleurs dépendent directement de l’espace couleur utilisé pour la représentation couleur de l’image. Dans la littérature, plusieurs espaces couleurs sont étudiés et utilisés pour la reconnaissance d’images. Chaque couleur est représentée par trois composantes : rouge, vert et bleu. L’espace RVB est généralement l’espace couleur de base dans lequel sont capturées les images[12]. La figure 3.2 illustre la décomposition d’une image couleur en trois sous-images monochromes selon l’espace couleur RVB. 36
  • 38. Figure 3.2 – Image couleur RVB Les autres espaces couleurs représentent des transformations directes de l’espace RVB. Ces transformations ont pour objectif d’améliorer la représentativité colorimétrique de l’image et d’assurer des mesure de distance plus linéaires[2]. • Les espaces couleurs HSI, HSV, HSB et HLS (appelés communément HSx) sont plus proches de la perception humaine de couleur que l’espace couleur RVB, mais ils ne sont pas encore perceptuellement uniformes. • les espaces couleurs YUV et YIQ où la composante Y représente la luminance du pixel et les pairs de composantes UV et IQ représentent les composantes chromatiques. • l’espace couleur XYZ, où les composantes X et Z sont les composantes chromatiques et la composante Y est la somme pondérée des valeurs R, V et B. Comme il n’est pas per- ceptuellement uniforme, l’uniformisation de l’espace XYZ se fait par une transformation projective qui débouche sur l’espace couleur LUV. D’autres espaces couleurs existent aussi tels que HMMD, L*a*b*, LST et YCrCb...etc. 3.3.2.2 Texture La texture est liée aux apparences de surface des images ce qui est d’une grande importance dans tout domaine relatif à la perception visuelle. la texture est l’information générée par les variations des niveaux de gris entre des pixels voisins au sein d’une image[2, 12]. Différents modèles de texture sont illustrés dans la figure 3.3. Figure 3.3 – Différents modèles de texture. 37
  • 39. Les caractéristiques textures sont de plus en plus utilisés dans la description d’images car ils atténuent certains problèmes liés à la description couleur. En effet, la description texture est très efficace, surtout dans le cas d’une distribution couleur très proche. Les caractéristiques textures sont divisés en deux catégories[2] : • La première est déterministe et fait référence à une répétition spatiale d’un motif de base dans différentes directions. Cette approche structurelle correspond à une vision macrosco- pique des textures. • La deuxième approche, dite microscopique, est probabiliste et cherche à caractériser l’aspect chaotique qui ne comprend ni motif localisable, ni fréquence de répétition principale. 3.3.2.3 Forme Les caractéristiques forme se concentrent sur la description des objets individuels présents dans une image, Contrairement aux caractéristiques couleurs et textures qui s’intéressent à la description du contenu général de l’image. Généralement, ce type de caractéristique indique l’aspect général d’un objet, comme son contour, donc une segmentation sous forme de traitement préliminaire de l’image est souvent nécessaire[2]. Deux catégories des caractéristiques formes peuvent être extraites : • les caractéristiques basée sur la géométrie des régions de l’image. • les caractéristiques basée sur les statistiques des intensités de pixels des différentes régions dans l’image. Les images peuvent être transformées géométriquement, notamment par rotation, translation et changement d’échelle. Afin de garantir une description robuste et efficace, les attributs de forme couvrent généralement une large gamme d’échelles de représentation que comporte un objet[12]. De plus, ils sont souvent insensibles aux différentes variations causées par des transformations géométriques. un exemple des transformations géométriques que peut subir une image illustrés dans la (figure 3.4). Figure 3.4 – Différentes transformations géométriques que peut subir une image. 3.4 Catégories de caractéristiques Les caractéristiques visuels sont extraits à partir de l’image selon trois niveaux d’abstrac- tions : le niveau global, le niveau régions et le niveau points d’intérêt. Le premier niveau reflète 38
  • 40. une description globale des images, tandis que les deux derniers permettent d’assurer une descrip- tion locale. Nous rappelons ici les deux deux catégories de caractéristiques : les caractéristiques globaux et les caractéristiques locaux (Aly et al, 2009)[2]. 3.4.1 Caractéristiques globaux Cette approche globale permet la reconnaissance des images en se basant sur des similarités visuelles mesurées sur les images entières. Une image décrite globalement est représentée par un seul vecteur de caractéristiques, ce qui n’est pas le cas avec les caractéristiques locaux. Par conséquent, la phase de classification et de reconnaissance devient plus rapide[2]. Généralement, ce type de caractéristiques est robuste et peu affecté par le bruit qui peut s’ajouter au contenu de l’image. Les histogrammes de couleur ou de niveaux de gris et les corrélogrammes sont des exemples typiques de ce type de description. 3.4.2 Caractéristiques locaux L’approche locale de reconnaissance d’images se base essentiellement sur la description de parties spécifiques dans l’image, représentées souvent par des sous-régions homogènes[2]. La description d’image est construite dans ce cas par un ensemble de vecteurs de caractéristiques. Les caractéristiques utilisés sont, généralement, extraits pour chaque sous régions dans l’image. Il est possible également de caractériser le contenu des images par le biais de la description des points d’intérêt. Les approches locales basées sur des descriptions de points d’intérêt permettent d’effectuer des recherches précises mais au prix d’un temps de calcul très élevé. les caractéristiques locaux sont surtout utilisés dans le cas des bases d’images dites spécifiques[2, 12]. une description locale est beaucoup moins performante dans le cas des images hétérogènes, ou les images d’une même classe ne présentent pas forcément une majorité de sous régions ou de points d’intérêts en commun. 3.4.3 Méthodes de classification et évaluation des performances 3.4.3.1 Classification On distingue principalement deux types de classification, supervisée et non-supervisée, sui- vant que l’on dispose ou non d’une expertise des images à classifier figure 3.1. Dans ce projet, nous nous intéressons uniquement à la classification supervisée. • classification supervisée : se base sur une phase d’apprentissage où l’on cherche à produire au- tomatiquement des règles de décision à partir d’images déjà classifiées. Le choix de la technique d’apprentissage à utiliser est très important dans un tel processus. La classification de nouvelles images de test est réalisée dans une seconde phase, appelée généralisation. À partir des images d’apprentissage, le classifieur utilisé doit bien généraliser les règles de décision apprises sur de nouvelles images requêtes appartenant à une base dite de test. L’étape d’apprentissage est réali- sée hors ligne, alors que celle de généralisation est effectuée en ligne[2]. • classification non-supervisée : est une approche qui vise à regrouper automatiquement les images en fonction de leurs similarités intrinsèques, sans utiliser d’étiquettes ou de catégories prédéfinies. Contrairement à la classification supervisée, où les étiquettes sont fournies pour gui- der le processus d’apprentissage, la classification non supervisée cherche à découvrir des motifs ou des structures inhérentes dans les données d’image de manière non directive. 39
  • 41. 3.4.4 Performances de classification d’images L’évaluation des performances d’un modèle de reconnaissance d’images concerne à la fois sa capacité de reconnaissance et son efficacité en terme de rapidité d’exécution. Cette dernière est facile à évaluer, il suffit de mesurer le temps de réponse moyen du système sur plusieurs requêtes. L’évaluation des capacités de reconnaissance est effectuée en comparant le résultat de classifica- tion obtenu à un résultat de référence, appelé souvent vérité terrain[2]. Les critères de qualité les plus utilisés sont des mesures de performance standard (Bimbo, 2001), il s’agit principalement de la précision et du rappel. pour chaque classe Ci, on calcule de la manière suivante : • Le rappel : est la proportion d’images bien classés par rapport au nombre d’images de la classe à prédire : Rappel = TP TP + FN (3.1) Le rappel mesure la capacité d’un modèle de classification à détecter les images correctement classés. Un rappel fort ou faible n’est pas suffisant pour évaluer les performances d’un modèle. Pour cela, on définit la précision. • La précision : est la proportion d’images bien classés pour une classe donnée : Précision = TP TP + FP (3.2) La précision mesure la capacité d’un modèle de classification à ne pas classer une image dans une classe, un image qui ne l’est pas. Comme elle peut aussi être interprétée par la probabilité condi- tionnelle qu’une image choisi aléatoirement dans la classe soit bien classé par le classifieur[10]. Pour une image requêter donnée, TP le taux des vrai positifs, FP le taux des faux positifs et TP + FN le nombre total des images pertinentes dans la base. Notons que les taux TP et FP indiquent, respectivement, le nombre d’images pertinentes et non-pertinentes retrouvées. Figure 3.5 – Courbe Rappel-Précision pour trois classifieurs . • le F-score est la moyenne harmonique qui prend en compte les deux métriques de précision et de rappel. F − score = 2 ∗ Précision * Rappel Précision + Rappel (3.3) • Accuracy : est nombre d’échantillons correctement classés parmi tous les échantillons présents dans l’ensemble de test. Accuracy = TP + TN TP + TN + FP + FN (3.4) 40
  • 42. la précision et Le rappel sont souvent utilisées dans le domaine de la recherche d’information, car elles reflètent le point de vue de l’utilisateur, si la précision est faible, l’utilisateur sera insatisfait, car il devra perdre du temps à lire des informations qui ne l’intéressent pas. Si le rappel est faible, l’utilisateur n’aura pas accès à une information qu’il souhaitait avoir. Un classifieur parfait doit avoir une précision et un rappel de un (1), mais ces deux exigences sont souvent contradictoires et une très forte précision ne peut être obtenue qu’au prix d’un rappel faible et vice-versa[10]. 3.4.4.1 Matrice de confusion La matrice de confusion est un tableau de contingence comparant les classes obtenues (co- lonnes) et les classes souhaitées (lignes) pour l’échantillon. Sur la diagonale principale on retrouve donc les valeur bien classées. à l’exception de la diagonale les images sont mal classées[10]. Nous considérons ici un problème simple de classification pour lequel nous nous intéressons à une classe unique Ci et nous voulons évaluer un système qui nous indique si une image peut être associé ou non à cette classe Ci. Ce problème est un problème de classification à deux classes (C1 et C2). Si on peut maitriser ce problème simple, on pourra fusionner par la suite, les mesures de performance de plusieurs systèmes bi-classes afin d’obtenir une mesure de la performance d’un classifieur multi-classes. Pour évaluer un système de classification de ce type, nous utilisons la matrice de confusion. On diviser la base d’images en deux parties, une partie pour l’apprentissage (training) et une autre partie pour le test et la validation du modèle. Cette matrice permet de visualiser facilement le nombre de TP, TN, FP et FN. Figure 3.6 – Matrice de confusion Avec : • TP : nombre de ”True Positives”. C’est le nombre d’images classées par le modèle dans la classe C1 qui appartiennent effectivement à cette classe. • TN : nombre de ”True Negatives”. C’est le nombre d’images classées par le modèle dans la classe C2 qui appartiennent effectivement à cette classe. • FP : nombre de ”False Positives”. C’est le nombre d’images qui sont classées par le modèle dans la classe C1 alors et qu’elles appartiennent à la classe C2. • FN : nombre de ”False Negatives”. C’est le nombre d’images qui sont classées par le modèle dans la classe C2 alors et qu’elles appartiennent à la classe C1. 41
  • 43. Cette matrice permet de déduire les paramètres la précision et le Rappel. 3.5 Caractéristiques utilisées pour la description d’images dans les bases hétérogènes Comme mentionné précédemment, en raison de la diversité des contenus des images hété- rogènes, la description adoptée dans ce travail est basée sur l’extraction de caractéristiques glo- baux. Une image décrite globalement, contrairement à l’utilisation des caractéristiques locales, est représentée généralement par un seul vecteur de caractéristiques pour chaque caractéristique extraite[2]. Ceci permet de rendre plus rapide la reconnaissance des images. Soit I une image couleur quantifiée sur m couleurs {c1, c2, ..., cm}. Chaque pixel pi, i = [1, 2, ..., N], de coordonnés (x, y) est doté d’une couleur I(pi) : pi ∈ Icj ⇔ I(pi) = cj, ∀j ∈ {1, 2, ..., m} . Dans l’espace couleur RVB, les trois matrices couleur (Rouge, Vert et Bleu) de I sont notées respectivement par R, V et B. la figure ci-dessous présente une illustration de la décomposition d’une partie d’une image en ses trois composantes de couleur Rouge, Vert et Bleu (RVB). Figure 3.7 – Image numérique couleur RVB. 3.5.1 Couleurs moyennes La caractéristique couleur moyenne (Faloutsos et al, 1994), sert à déterminer les différentes distributions moyennes de couleur dans une image. Elle peut être calculée pour n’importe quel espace couleur[12]. Le nombre de caractéristiques constituant cette caractéristique dépend alors du nombres d’axes dans l’espace couleur utilisé pour la représentation de l’image[2]. Par exemple, la caractéristique couleur moyenne de l’image I dans l’espace couleur RVB est formulée comme 42
  • 44. suit : x̄ = (Rmoy, Vmoy, Bmoy)t (3.5) Sachant que : R̄moy = 1 N N X p=1 R(p), (3.6) V̄moy = 1 N N X p=1 V(p), (3.7) B̄moy = 1 N N X p=1 B(p), (3.8) 3.5.2 Matrice de co-occurrences La méthode de matrice de co-occurrence de niveaux de gris (GLCM en anglais : Grey Level Co-occurrence Matrix) présente une grande simplicité de mise en œuvre et donne de bons résul- tats sur la plupart des types d’images[10]. Une matrice de co-occurrence est une matrice de taille n ∗ n, où n est le nombre de niveaux de gris d’une image. Pour un déplacement d (translation), un élément (i, j) de la matrice est défini par le nombre de pixels de l’image de niveau de gris j situés à d d’un pixel de niveau de gris i. Il est possible de calculer sur cette matrice des attributs statistiques classiques comme la moyenne et la variance, ainsi que d’autres attributs telles que l’entropie, l’inertie, la corrélation, etc... Selon Haralick, treize attributs de texture peuvent être calculés (Haralick et al, 1973)[2]. ˆ Moyenne = 1 n2 Pn i=1 Pn j=1 Pij ˆ V ariance = Pn i=1 Pn j=1(i − Moyenne)2 Pij ˆ Energie = Pn i=1 Pn j=1 P2 ij ˆ Entropie = − Pn i=1 Pn j=1 Pij ln(Pij) ˆ Contraste = Pn i=1 Pn j=1(i − j)2 Pij ˆ Homogeneite = Pn i=1 Pn j=1 Pij 1+(i−j)2 ˆ Correlation = Pn i=1 Pn j=1 Pij [(i−µi)(j−µj)] σiσj Où Pij est la probabilité d’occurrence de la paire de niveaux de gris (i, j) (GLCM normalisée), µi = P i iPi, est la moyenne des entrées normalisées pour le pixel de référence de valeur i, µj = P j jPj, est la moyenne des entrées normalisées pour le pixel voisin de valeur j, σ2 i = P i(i − µi)2 Pi, est l’écart-type des entrées normalisées pour le pixel de référence de valeur i, σ2 j = P j(j − µj)2 Pj, est l’écart-type des entrées normalisées pour le pixel voisin de valeur j. 43
  • 45. La signification statistique des descripteurs présentés précédemment peut être décrite comme suit : ˆ Énergie : exprime le caractère régulier de la texture. De manière générale, une énergie élevée est observée lorsque l’image est très régulière, c’est-à-dire lorsque les valeurs élevées de la GLCM sont concentrées à quelques endroits de la matrice. ˆ Contraste : est plus élevé pour des GLCMs présentant des valeurs plus larges en dehors de la diagonale, autrement dit pour des images affichant des changements locaux d’intensité. ˆ Entropie : est d’autant plus élevée que la diagonale de la GLCM est étalée, le cas extrême étant une GLCM uniforme. En ce sens, l’entropie est l’inverse de l’énergie et caractérise l’aspect irrégulier de l’image, d’où une corrélation forte entre ces deux attributs. ˆ Homogénéité : évolue à l’inverse du contraste et prend des valeurs élevées si les différences entre les paires de pixels analysées sont faibles. Celle-ci est donc plus sensible aux éléments diagonaux de la GLCM, contrairement au contraste qui dépend plus des éléments éloignés la diagonale. ˆ Corrélation : peut s’apparenter à une mesure de la dépendance linéaire des niveaux de gris dans l’image. Une fois calculés et éventuellement normalisés, l’ensemble des descripteurs sont rassemblés dans un vecteur unique caractérisant chaque pixel ou chaque région de l’image[10, 12]. Ce vecteur d’attributs peut ensuite être utilisé comme donnée d’entrée dans un classifieur. 3.5.3 Histogramme couleur Un histogramme représente le mode de répartition des pixels dans une image en traçant le nombre de pixels correspondant à chaque niveau d’intensité de la couleur. A partir d’un espace discret de couleur défini par les axes couleurs correspondants (par exemple Rouge, Vert et Bleu), l’histogramme couleur est déterminé par la discrétisation de l’image couleur et le calcul du nombre d’occurrence de chaque couleur dans cette image[2]. Les histogrammes couleur dans l’espace RVB sont calculés comme suit, ∀i ∈ {1, 2, ..., m} : histR(ci) = 1 N N X p=1 R(p) == ci, (3.9) histV(ci) = 1 N N X p=1 V(p) == ci, (3.10) histB(ci) = 1 N N X p=1 B(p) == ci. (3.11) Il y a un histogramme pour chaque composante R, V et B comme on peut le voir dans la figure 3.8. 44
  • 46. Figure 3.8 – Histogramme couleur 3.5.4 Descripteur HOG Les histogrammes des dégradés orientés(HOG) ont été proposés par Navneet Dalal et Bill Triggs, est un descripteur de caractéristique utilisé dans la vision par ordinateur et le traitement d’image pour la détection d’objets. l’idée essentielle derrière HOG c’est que l’apparence locale et la forme d’objet dans une image peut être décrite par la distribution d’intensité des gradients ou de direction des contours. Cette méthode est similaire à celle des histogrammes d’orientation de bord, des descripteurs de transformation d’entités invariables à l’échelle et des contextes de forme, mais diffère en ce qu’elle est calculée sur une grille dense de cellules uniformément espacées[13]. Figure 3.9 – Étapes du Descripteur HOG. Le descripteur HOG maintient quelques avantages clés, puisque le descripteur histogramme de gradient orienté opère sur les cellules localisées, la méthode maintient l’invariance à des trans- formations géométriques et photométriques, ces changements ne feront leur apparition que dans les larges régions d’espaces[12]. 3.5.5 Moments de Hu Les moments de Hu sont des caractéristiques de forme très puissants. Un moment est une somme pondérée de tous les pixels en fonction de leurs positions dans l’image[2]. 45
  • 47. Figure 3.10 – Image binaire : exemple d’image d’une silhouette d’avion. Le moment régulier d’une forme dans une image binaire est défini par : Mij = X x X y xi yj I(x, y) (3.12) où i et j sont des nombres entiers (par exemple 0, 1, 2 ....). Ces moments sont souvent appelés moments bruts pour les distinguer des moments centraux mentionnés plus loin[14]. Le centroı̈de (x̄, ȳ) est calculé à l’aide de la formule suivante : x̄ = M10 M00 , ȳ = M01 M00 (3.13) Maintenant que nous avons nos centroı̈des, nous pouvons calculer les moments relatifs qui sont centrés sur le centroı̈de : µpq = X x X y (x − x̄)p (y − ȳ)q I(x, y) (3.14) où I(x, y) est la valeur de l’intensité du pixel à la coordonnée (x, y). Alors les sept moments de Hu ont été proposés (Hu,1962) est[2] : ϕ1 = µ20 + µ02 ϕ2 = (µ20 − µ02)2 + 4µ2 11 ϕ3 = (µ30 − 3µ12)2 + (3µ21 − µ03)2 ϕ4 = (µ30 + µ12)2 + (µ21 + µ03)2 ϕ5 = (µ30 − 3µ12)(µ30 + µ12)[(µ30 + µ12)2 − 3(µ21 + µ03)2 ] + (3µ21 − µ03)(µ21 + µ03)[3(µ30 + µ12)2 − (µ21 + µ03)2 ] ϕ6 = (µ20 − µ02)[(µ30 + µ12)2 − (µ21 + µ03)2 ] + 4µ11(µ30 + µ12)(µ21 + µ03) ϕ7 = (3µ21 − µ03)(µ30 + µ12)[(µ30 + µ12)2 − 3(µ21 + µ03)2 ] − (µ30 − 3µ12)(µ21 + µ03)[3(µ30 + µ12)2 − (µ21 + µ03)2 ] Les moments de Hu sont invariants aux différentes transformations géométriques[2, 14]. 3.5.6 Descripteur LPB Le motif binaire local (LBP) a été introduit pour la première fois par Ojala et al. pour la classification des textures invariante par rotation[17]. Il est connu comme l’un des descripteurs locaux les plus efficaces pour la reconnaissance d’images. Les LBP permettent d’extraire des 46
  • 48. descripteurs de texture spatiaux pour discriminer les images de textures en niveaux de gris[15]. L’idée de cet descripteur est d’assigner à chaque pixel un code dépendant des niveaux de gris de son voisinage[16]. L’opérateur LBP traditionnel convertit les valeurs des pixels dans le voisinage 3Ö3 de chaque pixel en un motif binaire par seuillage des différences entre la valeur du pixel central et les valeurs des pixels voisins[18]. Nous disposons de 256 motifs binaires pour le cas du voisinage 3 Ö 3. Le motif binaire est traité comme le code LBP. Ensuite, les occurrences du motif binaire dans une image donnée sont accumulées dans l’histogramme et cet histogramme est utilisé comme descripteur de texture de l’image[17]. Dans ce qui suit, la notation (P,R) sera utilisée pour les voisinages de pixels, ce qui signifie que P points d’échantillonnage sur un cercle de rayon R. Le niveau de gris du pixel central (ic) de coordonnées (xc, yc) est comparé à celui de ses voisins (ip) suivant l’équation suivante[17, 18] : LBPP,R = P−1 X p=0 2p · s(ip − ic), (3.15) où s(x) est la fonction seuil donnée par : s(x) = ( 1 si x ≥ 0, 0 sinon. (3.16) La figure illustre une étape de calcul du motif binaire local. Une région de l’image originale est examinée avec des paramètres de voisinage de R = 1 et P = 8. Figure 3.11 – Visualisation du calcul du motif binaire local (LBP). 3.5.7 Descripteur GIST Le descripteur GIST est une caractéristique globale qui permet d’extraire des informations sur les principales régions de couleur et de texture dans une image. Cette méthode de traitement d’image a été développée pour imiter le système de perception humain, en identifiant rapide- ment les zones les plus importantes d’une scène visuelle[19]. Il a été proposé initialement pour 47
  • 49. développer des représentations de scènes à faible dimension (Oliva and Torralba, 2001). La re- présentation de la structure d’une image est définie comme une enveloppe spatiale et l’image d’entrée est prétraitée en la convertissant en une image en niveaux de gris. L’image en niveaux de gris est divisée en une grille à différentes échelles et la sortie de chaque grille cellulaire est calculée à l’aide d’une série de filtres de Gabor[20]. Une image d’entrée est convoluée avec trente-deux filtres de Gabor à quatre échelles et huit orientations, ce qui donne trente-deux cartes de caractéristiques de taille équivalente à celle de l’image d’entrée[20]. Chaque carte de caractéristiques est divisée en seize régions et les valeurs des caractéristiques sont moyennées dans chaque région d’intérêt. Les valeurs moyennes des carac- téristiques provenant des seize régions contenues dans les trente-deux cartes de caractéristiques sont concaténées pour produire un descripteur GIST contenant 512 caractéristiques (16 régions * 32 cartes de caractéristiques), comme indiqué dans la figure 3 pour les foies normaux et gras. Ainsi, le descripteur GIST fournit des informations sur les gradients de l’image[21]. 3.6 Base de données Dans le domaine de la classification des images, il existe plusieurs base de donnée dispo- nible. Dans ce qui suit, une description des bases d’images utilisées est fournie. ˆ MNIST : MNIST (Mixed National Institute of Standards and Technology database) est une base de données de chiffres manuscrits (Figure 3.13). la base de données a été téléchargée du site de Yan LeCun et comprend un ensemble d’entraı̂nement de 60000 observations et un ensemble test de 10000 observations. Chacune des images comprises dans le MNIST est de dimensions 28 pixels par 28 pixels et représente un chiffre écrit à la main de 0 à 9[34]. Figure 3.12 – 15 Chiffres écrit à la main provenant du MNIST. ˆ CIFAR-10 : La base des images de CIFAR-10 (Figure 3.14 ) est composée de 60000 images couleur, chaque image à une taille de 32 x 32, ces images sont réparties en 10 classes, avec 6000 images par classe. Pour cette base on obtient 50000 images d’apprentissage et 10000 images de test[35]. 48
  • 50. Figure 3.13 – 10 Images aléatoires de chaque classes de CIFAR-10. ˆ Outdoor Scene : Outdoor Scene est une base d’images se compose de 2688 images de scènes extérieures. 8 catégories d’images sont sélectionnées, à savoir la côte, la montagne, la forêt, la campagne, la rue, l’intérieur de la ville, les grands bâtiments et les autoroutes. Pour ce travail, seules 386 images ont été utilisées, représentant 5 classes spécifiques parmi les 8 catégories d’images disponibles[37]. Figure 3.14 – 50 Echantillons d’images de différentes classes de la base Outdoor Scene utilisée. ˆ MSRC-V2 : MSRC-v2 est une extension de l’ensemble de données MSRC-v1 (Microsoft Research in Cambridge). Cependant, bien que l’ensemble de données contienne 591 images et 23 classes, seules 216 images et 7 classes sont couramment utilisées[36]. 49
  • 51. Figure 3.15 – 50 Echantillons d’images de différentes classes de la MSRC-v1. 3.7 Conclusion Dans ce chapitre, nous présentons la représentation des images ainsi que l’extraction et la description des caractéristiques nécessaires pour comprendre les approches que nous avons utilisées dans ce mémoire. Nous avons également présenté les bases d’images utilisées. Le pro- chain chapitre donnera les détails de la méthode de classification multi-vues pour l’apprentissage d’ensemble, ainsi que la méthode utilisée pour la réalisation de notre application. 50
  • 52. CHAPITRE 4 MÉTHODE DE CLASSIFICATION MULTI-VUES POUR L’APPRENTISSAGE EN ENSEMBLE Dans ce chapitre, une méthode supervisée de classification multi-vues basée sur la régression des moindres carrés et l’apprentissage en ensemble, que l’on appelle MCELWO, est présentée. Cette classification permet d’assurer la reconnaissance de chaque image requête selon ses diffé- rentes caractéristiques. 4.1 Introduction Les données multi-vues représentées par différentes caractéristiques ont été largement uti- lisées dans de nombreuses applications d’apprentissage automatique[26]. Ces caractéristiques offrent une perspective variée et complémentaire de la description de l’image à partir de diffé- rentes vues. Cependant, en raison de la complexité structurelle des données, exploiter de manière efficace les informations complémentaires et corrélées entre les caractéristiques de plusieurs vues pour améliorer les performances de classification est un défi majeur. De plus, il est important de pouvoir attribuer des poids appropriés à chaque classifieur en fonction de ses performances. Pour relever ces défis, nous avons présenté une méthode de classification multi-vues supervisée basée sur la régression des moindres carrés et l’apprentissage en ensemble (MCELWO)[24]. Cette méthode permet de préserver simultanément les informations corrélatives et complémentaires, qui sont ensuite améliorées afin d’être plus discriminantes pour la classification ultérieure. La classification multi-vues est un problème essentiel en apprentissage automatique, et de nombreuses méthodes ont été proposées pour fusionner les informations complémentaires pro- venant de multiples vues. Cependant, ces méthodes ont souvent recours à la concaténation des vues en de longs vecteurs, ce qui augmente la complexité du modèle[27]. La méthode MCELWO, quant à elle, offre une approche alternative en exploitant les forces spécifiques de chaque vue de données et en surmontant leurs faiblesses respectives. Cette approche permet d’obtenir une classification plus précise et plus robuste des données multi-vues. Dans ce chapitre nous décrirons le fonctionnement général de la méthode de classification supervisée multi-vues basées sur la régression des moindres carrés, tout en expliquant leur lien 51
  • 53. avec l’apprentissage en ensemble. Ensuite, nous décrivons les paramètres expérimentaux utilisés pour comparer les différentes approches et les mesures de performance utilisées. Enfin, nous pré- sentons les résultats expérimentaux et analysons les avantages et les inconvénients de la méthode. 4.2 Classification multi-vues pour l’apprentissage en ensemble La classification multi-vues pour l’apprentissage en ensemble est une technique d’appren- tissage automatique qui consiste à utiliser plusieurs sources de données ou ”vues” d’un problème pour améliorer les performances de la classification. Chaque vue représente une perspective dif- férente sur les mêmes données, et l’utilisation de vues multiples peut aider à capturer différents aspects de la distribution sous-jacente des données. Grâce aux résultats obtenus au cours des dernières décennies, les méthodes de classification multi-vues connaissent un succès croissant et ont prouvé leur efficacité dans plusieurs domaines, tels que la vision par ordinateur, le traitement du langage naturel, la bio-informatique, et bien d’autres encore. Nous présentons dans cette section une description de la méthode de classification multi- vues basée sur l’apprentissage en ensemble avec optimisation des poids[24]. En premier lieu, nous décrivons de façon simple et assez complète le principe de fonctionnement général. Étant donné l’ensemble de données multi-vues X = {X1, X2, . . . , XV } dans Rn×dv , où n est le nombre d’échantillons et dv est la dimension des caractéristiques de la v-ième vue, nous désignons les données d’apprentissage de la v-ième vue Xv = [xv1, xv2, . . . , xvn]T dans Rn×dv . Y = [y1, y2, . . . , yn]T dans Rn×C est la matrice des étiquettes avec yi = [yi1, yi2, . . . , yiC]T corres- pondant au vecteur des étiquettes du i-ième échantillon, où C est le nombre de classes. Si le i-ième échantillon appartient à la c-ième classe, alors yic = 1, et sinon yic = 0 [24]. Supposons que F = [F1, F2, . . . , Fv] soit les résultats de la classification initiale où Fv = [Fv 1 , Fv 2 , . . . , Fv n ]T dans Rn×C avec Fv ic = 1 si le i-ième échantillon appartient à la c-ième classe dans la v-ième vue, et sinon Fv ic = 0, (c = 1, 2, . . . , C) [24]. 4.2.1 Classification multi-vues basée sur l’apprentissage en ensemble avec op- timisation des poids. La méthode de classification multi-vues basée sur l’apprentissage en ensemble avec optimi- sation des poids est une approche de classification supervisée qui utilise plusieurs vues ou sources de données pour améliorer la précision de la classification. La méthode consiste à combiner plu- sieurs classificateurs, chacun entraı̂né sur une vue différente des données, et à pondérer leurs décisions pour obtenir une classification finale[24]. Les poids de vue sont attribués de manière adaptative sur un ensemble d’entraı̂nement. 52