SlideShare une entreprise Scribd logo
1  sur  164
Télécharger pour lire hors ligne
N° d’ordre : 2010telb0164



                     Sous le sceau de l’Université européenne de Bretagne


                                  Télécom Bretagne
                    En habilitation conjointe avec l’Université de Rennes 1

                                     Co-tutelle avec l’Ifremer

                                   Ecole Doctorale – MATISSE




         Apprentissage et classification faiblement supervisée :
                 Application en acoustique halieutique



                                   Thèse de Doctorat
                                 Mention : Traitement du signal



                                  Présentée par Riwal Lefort

                             Département : Signal et Communication

                              Laboratoire :   Labsticc     Pôle : CID




                             Directeur de thèse : Jean-Marc Boucher


                                 Soutenue le 29 novembre 2010


Jury :

M. Frédéric Jurie, professeur, université de Caen (Rapporteur)
Mme Pascale Kuntz, professeur, université de Nantes (Rapporteur)
M. Jean-Marc Boucher, professeur, Telecom Bretagne (Directeur de thèse)
M. Laurent Miclet, professeur, université de Rennes1 (Examinateur)
M. Ronan Fablet, enseignant-chercheur, Telecom Bretagne (Examinateur)
M. Carla Scalabrin, chercheur, Ifemer (Examinateur)
M. Laurent Berger, Ifremer (Invité)
Table des matières



Table des matières                                                                        v

1 Introduction générale                                                                 vii

I Classication automatique et apprentissage faiblement su-
pervisé                                                     xi
2 Les modèles de classication usuels : état de l'art                                   xiii
   PFI   sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xiii
   PFP   gl—ssi(™—tion supervisée F F F F F F F F F F F F F F F F F F F F F F F F F F xiv
         PFPFI   wodèle génér—tif F F F F F F F F F F F F F F F F F F F F F F F F F F    xv
         PFPFP   wodèle dis™rimin—nt F F F F F F F F F F F F F F F F F F F F F F F F xvi
         PFPFQ   wodèle hy˜ride X —r˜res de ™l—ssi(™—tion F F F F F F F F F F F F F xix
   PFQ   gl—ssi(™—tion non supervisée F F F F F F F F F F F F F F F F F F F F F F F F xxi
   PFR   gl—ssi(™—tion f—i˜lement supervisée F F F F F F F F F F F F F F F F F F F F xxii
   PFS   gl—ssi(™—tion semiEsupervisée F F F F F F F F F F F F F F F F F F F F F F F xxiii
   PFT   gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxvi

3 Classication faiblement supervisée : modèles proposés                             xxvii
   QFI   sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxvii
         QFIFI   qénér—lités F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxvii
         QFIFP   xot—tions F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxviii
   QFP   wodèle génér—tif F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxviii
         QFPFI   sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxviii
         QFPFP   gl—ssi(™—tion supervisée F F F F F F F F F F F F F F F F F F F F F F xxviii
         QFPFQ   gl—ssi(™—tion f—i˜lement supervisée F F F F F F F F F F F F F F F F xxx
   QFQ   wodèle dis™rimin—nt F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxxiii
iv                                                                 TABLE DES MATIÈRES




           QFQFI   gl—ssi(™—tion supervisée F F F F F F F F F F F F F F F F F F F F F F xxxiv
           QFQFP   gl—ssi(™—tion f—i˜lement supervisée F F F F F F F F F F F F F F F F         xli
     QFR   er˜res de ™l—ssi(™—tion F F F F F F F F F F F F F F F F F F F F F F F F F F F xlii
           QFRFI   gl—ssi(™—tion supervisée F F F F F F F F F F F F F F F F F F F F F F xlii
           QFRFP   gl—ssi(™—tion f—i˜lement supervisée F F F F F F F F F F F F F F F F xliv
     QFS   gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xlv

4 Association de classieurs                                                                 xlvii
     RFI   sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xlvii
     RFP   insem˜le de ™l—ssi(eurs F F F F F F F F F F F F F F F F F F F F F F F F F F xlvii
           RFPFI   it—t de l9—rt F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xlviii
           RFPFP   ‚—ndom forest X —pprentiss—ge supervisé F F F F F F F F F F F F F xlix
           RFPFQ   ‚—ndom forest X —pprentiss—ge f—i˜lement supervisé F F F F F F F               l
     RFQ   gl—ssi(™—tion itér—tive F F F F F F F F F F F F F F F F F F F F F F F F F F F         li
           RFQFI   epprentiss—ge itér—tif simple F F F F F F F F F F F F F F F F F F F F         li
           RFQFP   epprentiss—ge itér—tif —mélioré F F F F F F F F F F F F F F F F F F F        lii
     RFR   gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F      liii

5 Evaluations et performances des modèles                                                      lv
     SFI   sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F       lv
     SFP   €ro™édure de simul—tion F F F F F F F F F F F F F F F F F F F F F F F F F F          lv
     SFQ   teux de données F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F       lvi
     SFR   €erform—n™es F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lvii
           SFRFI   ghoix des p—r—mètres F F F F F F F F F F F F F F F F F F F F F F F F lvii
           SFRFP   €erform—n™es en fon™tion de l— ™omplexité des données d9—pprenE
                   tiss—ge F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F     lix
           SFRFQ   €erform—n™es en fon™tion du nom˜re de ™l—sses d—ns les mél—nges              lx
     SFS   gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxiii



II Classication automatique en acoustique halieutique                                   lxvii
6 Sondeurs acoustiques et logiciels de traitement                                            lxix
     TFI   sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxix
     TFP   ƒondeur monof—is™e—u F F F F F F F F F F F F F F F F F F F F F F F F F F F lxx
     TFQ   ƒondeur multif—is™e—ux F F F F F F F F F F F F F F F F F F F F F F F F F F F lxxii
     TFR   gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxxiii
TABLE DES MATIÈRES                                                                        v


7 Classication et reconnaissance des structures                                     lxxvii
  UFI   sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxxvii
  UFP   it—t de l9—rt F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxxviii
  UFQ   gl—ssi(™—tion et re™onn—iss—n™e des ˜—n™s de poissons F F F F F F F F F F lxxix
        UFQFI   hes™ripteurs des ˜—n™s Ph F F F F F F F F F F F F F F F F F F F F F lxxix
        UFQFP   hes™ripteurs des ˜—n™s Qh F F F F F F F F F F F F F F F F F F F F F lxxx
        UFQFQ   €erform—n™es de ™l—ssi(™—tion X f—n™s Ph F F F F F F F F F F F F F lxxxiii
  UFR   gl—ssi(™—tion et re™onn—iss—n™e des ensem˜les de ˜—n™s de poissons F F lxxxiv
        UFRFI   €ré—m˜ule F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxxxiv
        UFRFP   hes™ripteur glo˜—l proposé F F F F F F F F F F F F F F F F F F F F F lxxxv
        UFRFQ   €erform—n™es F F F F F F F F F F F F F F F F F F F F F F F F F F F F     x™
        UFRFR   ƒynthèse F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F    ™i
  UFS   gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F   ™ii

8 Application à l'évaluation des biomasses des espèces halieutiques dans
  le Golfe de Gascogne                                                   cv
  VFI   sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F   ™v
  VFP   wéthode de l9expert pour l9év—lu—tion de ˜iom—sses F F F F F F F F F F F         ™vi
  VFQ   wéthodes —lgorithmiques d9év—lu—tion de ˜iom—sses F F F F F F F F F F F          ™ix
  VFR   gl—ssi(™—tion de ˜—n™s de poissons pour l9év—lu—tion de ˜iom—sses F F F          ™x
        VFRFI   gomment év—luer l— ˜iomm—sse F F F F F F F F F F F F F F F F F F         ™x
        VFRFP   …n ™ritère d9optimis—tion des p—r—mètres des ™l—ssi(eurs F F F F ™xii
  VFS   €erform—n™es F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ™xiii
        VFSFI   ƒimul—tion d9un s™én—rio F F F F F F F F F F F F F F F F F F F F F F ™xiii
        VFSFP   g—mp—gne €ivqeƒHH F F F F F F F F F F F F F F F F F F F F F F F ™xiv
        VFSFQ   his™ussion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ™xxi
  VFT   gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ™xxvi

9 Conclusion Générale                                                               cxxvii

III Annexes et Bibliographie                                                      cxxxiii
CHAPITRE

                 1            Introduction générale



    gette thèse tr—iteD d9une p—rtD de l— ™l—ssi(™—tion —utom—tique d—ns un ™—dre d9—pE
prentiss—ge f—i˜lement superviséD et d9—utre p—rtD de l9—™oustique h—lieutiqueF ve m—E
nus™rit est s™indé en deux p—rties prin™ip—les X les méthodes d9—pprentiss—ge d9un point
de vue théorique @p—rtie sA et l9—ppli™—tion de ™es méthodes d—ns le ™ontexte de l9—™ousE
tique h—lieutique @p—rtie ssAF h—ns ™e premier ™h—pitre introdu™tifD nous ™ommençons
p—r dé(nir l— pro˜lém—tique de l9intelligen™e —rti(™ielle d—ns son ensem˜leD puisD ™elle de
l9—pprentiss—ge f—i˜lement superviséD ensuiteD nous introduisons le dom—ine de l9—™ousE
tique h—lieutiqueD et en(nD le pl—n de ™ette thèse est présentée su™™in™tementF
    h—ns l9ensem˜le des dom—ines de re™her™heD ™elui de l9intelligen™e —rti(™ielle est
ex™essivement proli(queF v9intelligen™e —rti(™ielle ™onsiste à —n—lyser et tr—iter des siE
gn—ux numériquesD tels que des photogr—phiesD des vidéosD des sonsD des r—diogr—phiesD
des é™hogr—phiesD des im—ges r—d—r @s—tellitesD —éron—utiqueD —utomo˜ileD et™AD des p—ges
we˜D des do™uments m—nus™rits @—n—lyse de l— sém—ntiqueAD ou en™oreD toute entité qui
se dé™rit de m—nière numériqueF
ves méthodes proposées s9inspirent souvent de l9hommeD l9o˜je™tif ét—nt de développer
des outils d9—n—lyse et de tr—itement dont les perform—n™es sont —u moins équiv—lentes
à ™elles du ™erve—u hum—inF v— question fond—ment—le est résumée d—ns l9exemple suiE
v—nt X si l9homme —rrive à di'éren™ier un o˜jet d9un —utre d—ns une im—geD pourquoi un
ordin—teur n9y —rriver—itEil p—s c get —™h—rnement s™ienti(que est prin™ip—lement moE
tivé p—r le très fort potentiel des outils inform—tiquesF einsiD l9import—n™e de p—rvenir
à ™e ˜ut et qui justi(e que l9intelligen™e —rti(™ielle ™on™entre une m—jorité de reg—rds
et d9intérêtsD réside d—ns l9énorme ™—p—™ité de ™—l™uls et de mémoires des ordin—teursF
ve dom—ine de l9intelligen™e —rti(™ielle peut être s™indé en une multitude de ™—tégoriesF
€—rmi les dis™iplines ™ommunesD on peut ™iter le tr—™king @suivi des stru™tures déforE
m—˜les ou indéform—˜les d—ns une vidéoAD l— déte™tion de texture d—ns des im—gesD l—
™l—ssi(™—tion @—ttri˜ution d9une ™l—sse à une im—geD à une portion d9im—geD à un pixelD
et à toute entité qui peut être ™l—ssée d—ns une ™—tégorieAD l— re™onn—iss—n™e de formes
@déte™tion du ™ontour d9un o˜jet d—ns une im—geAD l— rédu™tion de l— dimension des
données @p—r exemple en ™ompression de donnéesAD l— fusion de données @l— réponse à
une question posée se ˜—se sur une o˜serv—tion multiE™—pteur et ™ontextuelleAD et™F
in intelligen™e —rti(™ielleD les ™her™heurs proposent des modélis—tions m—thém—tiques
plus ou moins ™omplexes qui donnent l— solution à une question poséeF ges modèles
peuvent être représentés p—r une ˜oite noire dont l9entrée est le sign—l issu du ™—pteur
et dont l— sortie fournit une réponse à l— question poséeF v— plup—rt des modèles et
viii                                   CHAPITRE 1.      INTRODUCTION GÉNÉRALE




des —ppro™hes proposés sont tr—nsverses X ils sont utilisés d—ns plusieurs dis™iplines en
même tempsF €—r exempleD le même modèle m—thém—tique de suivi d9o˜jet peut être
utilisé pour suivre une ™i˜le d—ns une im—ge r—d—r ou pour suivre un o˜jet d—ns une
vidéoF he l— même m—nièreD un modèle m—thém—tique peut servir à l— foisD de ™l—ssiE
(eur d9o˜jets d—ns des im—gesD de ™l—ssi(eur de types de sonsD de ™l—ssi(eur de p—ges
we˜D de ™l—ssi(eur de do™uments m—nus™ritsD et™F gette rem—rque justi(e le pl—n géE
nér—l de l— thèse X plutôt que de proposer des méthodes de tr—itement du sign—l d—ns
un ™—dre —ppli™—tifD nous nous pl—çons d9—˜ord d—ns le ™—s génér—l qui —utorise toute
tr—nsvers—litéD puis nous étudions une —ppli™—tion possi˜le des méthodes proposéesF
    h—ns ™ette thèseD d—ns l— p—rtie s dédiée à l9—ppro™he théorique et génér—leD nous
nous pl—çons d—ns le ™—s de l— ™l—ssi(™—tion d9o˜jetsD ™euxE™i ét—nt des entités dé(nies
p—r un ensem˜le de des™ripteursD p—r exemple les ™—r—™téristiques des formes des o˜E
jets pré—l—˜lement déte™tés d—ns une im—geF v— question théorique prin™ip—le que nous
nous posons est X gomment r—nger ™es o˜jets d—ns des ™l—sses c yu ™omment —ttri˜uer
un l—˜el à ™h—que o˜jet c xous dé(nissons un l—˜el ™omme ét—nt l— ™l—sse —sso™iée à
un o˜jetF sm—ginonsEnous une ˜oite noire qui prend un o˜jet s—ns l—˜el en entrée et
dont l— sortie renseigne sur les ™l—sses pro˜—˜lesF gette ˜oite noire ™ontient un modèle
de ™l—ssi(™—tionF geuxE™i sont très nom˜reux et les —ppro™hes sont très v—ri—˜lesF ges
modèles de ™l—ssi(™—tions dépendent de p—r—mètres @propres à ™h—que méthodeA qui
sont déterminés lors d9une ph—se d9—pprentiss—geF v9—pprentiss—ge des modèles de ™l—sE
si(™—tion est e'e™tué à p—rtir d9un ensem˜le d9o˜jets @ou de donnéesA d9—pprentiss—ge
qui sont plus ou moins l—˜élisésF in e'etD il existe plusieurs types d9—pprentiss—ge qui
dépendent de l— ™onn—iss—n™e plus ou moins ex—™te des l—˜els des données d9—pprentisE
s—geF ƒi tous les l—˜els sont ™onnusD on p—rle d9—pprentiss—ge superviséF in —pprentiss—ge
semiEsuperviséD seule une p—rtie des données est l—˜éliséeD l9—utre ne l9est p—sF in —pE
prentiss—ge non superviséD les données ne sont p—s l—˜éliséesD l9o˜je™tif est de regrouper
les o˜jets en p—quets de données simil—iresF in(nD l9—pprentiss—ge f—i˜lement supervisé
génér—lise le ™—s supervisé et semiEsupervisé X les données d9—pprentiss—ge sont —sso™iées
à un ve™teur dont ™h—que ™ompos—nte donne l— pro˜—˜ilité — priori d9—ttri˜ution de
l9o˜jet ™onsidéré à ™h—que ™l—sse respe™tivementF v9origin—lité de ™ette p—rtie se situe
d—ns ™e form—lisme d9—pprentiss—ge f—i˜lement supervisé qui ™onsidère un modèle de
™l—ssi(™—tion dont l9—pprentiss—ge —grège d9—utres formes d9—pprentiss—geF
gomme nous l9—vons présenté d—ns le p—r—gr—phe introdu™tifD un gr—nd nom˜re de
modélis—tions m—thém—tiques est envis—gé pour ™h—™un des types d9—pprentiss—geF ges
gr—ndes f—milles de modèles sont tr—nsverses X le plus souventD moyenn—nt quelques reE
formul—tions méthodologiques ou m—thém—tiquesD elles s9—ppliquent pour tous les types
d9—pprentiss—geF h—ns ™ette thèseD nous reprenons trois gr—ndes f—milles de modèles X les
modèles génér—tifsD les modèles dis™rimin—ntsD et des modèles hy˜rides de ™l—ssi(™—tionF
xotre o˜je™tif est de proposerD pour ™h—™une des —ppro™hes m—thém—tiques envis—géesD
un modèle de ™l—ssi(™—tion dont les p—r—mètres sont év—lués d—ns le ™—dre de l9—pprenE
tiss—ge f—i˜lement superviséD et don™D qui génér—lise toutes les formes d9—pprentiss—geF
h—ns le dom—ine de l— ™l—ssi(™—tion d9o˜jetsD d9—utres méthodes ont vu le jourF gellesE
™i exploitent les modèles m—thém—tiques fond—ment—ux pré™édemment dé™rits en les
™om˜in—nt de plusieurs f—çonsF einsiD ils peuvent être ™on™—ténés en ™—s™—de de ™l—ssiE
(eursD les résult—ts de ™l—ssi(™—tion issus de plusieurs ™l—ssi(eurs peuvent être fusionnés
ix


pour prodiguer une seule proposition de ™l—ssi(™—tionD l9estim—tion des p—r—mètres d9un
modèle de ™l—ssi(™—tion peut s9e'e™tuer itér—tivementD et™F …ne multitude d9—ppro™hes
est envis—ge—˜le pour e'e™tuer une ™om˜in—isonF h—ns ™ette thèse nous —˜ordons les
méthodes de ™om˜in—isons les plus ™onnues et nous proposons des solutions pour l9—pE
prentiss—ge f—i˜lement superviséF ves perform—n™es de ™l—ssi(™—tion des modèles et
des méthodes de ™om˜in—ison proposés d—ns l— p—rtie s sont év—luées sur des jeux de
données d9—pprentiss—ge synthétiques dont nous m—itrisons les pro˜—˜ilités — priori de
™l—ssi(™—tionF ge ™ontrôle tot—l des données d9—pprentiss—ge permet de ™omp—rer et
d9—n—lyser les di'érentes —ppro™hes rel—tivement à des ™onditions p—rti™ulièresF
    h—ns l— p—rtie ss de ™ette thèseD nous étudions l9—pprentiss—ge st—tistique d—ns
le ™—dre de l9—™oustique h—lieutiqueF v9—™oustique h—lieutique est l—rgement étudiée
p—r l9snstitut pr—nç—is de ‚e™her™he pour l9ixploit—tion de l— wi‚ @sp‚iwi‚A qui
— (n—n™é en p—rtie ™ette thèseD ™e dom—ine s™ienti(que f—it p—rtie de l— f—mille de
l9—™oustique sousEm—rineF €—rmi l9ensem˜le des énergies possi˜les @éle™triqueD éle™troE
m—gnétiqueD lumineuseD et™AD seule l9énergie —™oustique possède des ™—r—™téristiques de
prop—g—tion —déqu—tes d—ns le milieu sousEm—rinF einsiD d—ns l9environnement —qu—E
tiqueD l9—™oustique est utilisée en télé™ommuni™—tion ™omme support de tr—nsmissionD
en géos™ien™e pour l9étude des fonds m—rins et de leur sousEsols @les —ppli™—tions ét—nt l—
sédimentologieD l— ˜—thymétrie et l— prospe™tion pétrolièreAD en o™é—nogr—phie physique
pour l9étude et l— ™—r—™téris—tion des ™our—nts m—rinsD et en ˜iologie —ve™ l9étude du
™omportement des espè™es sousEm—rinesF ge dernier point est tr—ité d—ns ™ette thèse X
l9o˜serv—tion —™oustique des espè™es h—lieutiques et l9—n—lyse de ™es o˜serv—tionsF
…n sondeur —™oustiqueD pl—™é sous l— ™oque d9un n—vireD est le seul outil qui permet
d9o˜tenir une im—ge de résolution ™orre™teD d—ns l—quelle (gure le fond de l— mer et
tous les o˜jets présents d—ns l— ™olonne d9e—uF heux f—™teurs prin™ip—ux motivent l9utiE
lis—tion des sondeurs —™oustiques en ˜iologie h—lieutiqueF €remièrementD l9exploit—tion
des ressour™es h—lieutiques doit être en™—drée —(n d9éviter tout pro˜lème de surexploiE
t—tion et don™ de disp—rition des espè™esF h—ns ™e ™ontexteD les sondeurs —™oustiques
permettent de dimensionner les sto™ks des espè™es ™on™ernées —(n de (xer des quot—s
de pê™heF xotons qu9il existe d9—utres moyens d9év—lu—tion des sto™ksD ™omme l9é™h—nE
tillonn—ge en ™riéesF heuxièmementD d9un point de vue ˜iologiqueD pour ™omprendre le
fon™tionnement de l9é™osystème sous m—rin d—ns son ensem˜leD et —insi l9étude de l—
vie sur terreD il est né™ess—ire d9étudier le ™omportement des espè™es h—lieutiques et du
pl—n™tonF €—r exempleD on peut se dem—nder ™omment vont se ™omporter les s—rdines
rel—tivement —u ré™h—u'ement ™lim—tique X vontEelles migrer c veur nom˜re v—EtEil évoE
luer c „outes ™es questions né™essitent une o˜serv—tion —™oustique de l— ™olonne d9e—uD
seul moyen de déterminer l— ™omposition des o™é—nsF
ges o˜serv—tions —™oustiques sont e'e™tuées lors de ™—mp—gnes o™é—nogr—phiques dont
le proto™ole in™lut un point ™ru™i—l et ™ritique X l9identi(™—tion des stru™tures de l9im—ge
—™oustiqueF e™tuellementD ™ette ét—pe d9identi(™—tion est e'e™tuée p—r un expert à p—rE
tir des im—ges —™quises p—r un sondeur —™oustique monof—is™e—uD ™epend—ntD il existe
une forte dem—nde d9—utom—tis—tion du pro™essus qui se justi(e p—r le f—it que l9expert
est ™onfronté à une m—sse d9inform—tions de plus en plus import—nteF €remièrementD il
existe plusieurs types de sondeurs monof—is™e—u ™—r—™térisés p—r des fréquen™es d9imE
pulsions —™oustiques di'érentesD ™e qui modi(e les morphologies des stru™tures d—ns les
x                                      CHAPITRE 1.      INTRODUCTION GÉNÉRALE




im—ges et leurs —ttri˜uts énergétiquesF heuxièmementD l9—rrivée du sondeur multif—isE
™e—ux permet l9—™quisition d9une im—ge en trois dimensions de l— ™olonne d9e—u qui est
˜e—u™oup plus pré™ise et plus ri™he en inform—tionsD m—is qui rend l9—n—lyse des données
plus ™omplexeF einsi l9expert est supposé ™onsidérer les inform—tions ™umulées de tous
les types de sondeurs à l— foisF wême si le ™erve—u hum—in est puiss—nt et très perforE
m—ntD il possède ses limitesD et l9—n—lyse ™onjuguée de l9ensem˜le de ™es inform—tions
est ™omplexeF gette —ppli™—tion illustre le tr—nsfert hommeGm—™hine qui — été dé™rit
d—ns le p—r—gr—phe pré™édent et justi(e l9—utom—tis—tion du pro™essus d9identi(™—tion
des stru™tures d—ns les im—ges —™oustiquesF
h—ns ™e ™ontexte de ™l—ssi(™—tion d9im—ges etGou de stru™tures d—ns des im—ges —™ousE
tiquesD nous proposerons des méthodes d9—pprentiss—ge de modèles de ™l—ssi(™—tion
pour l9—™oustique h—lieutiqueD nous proposerons —ussi des des™ripteurs d9—grég—tion de
poissons d—ns les é™hogr—mmesD et une —ppli™—tion à l9év—lu—tion des sto™ks de poissons
du qolfe de q—s™ogne ser— présentéeF
    ge mémoire de thèse est org—nisé en deux gr—ndes p—rties @les p—rties s et ss qui
sont ellesEmêmes s™indées en plusieurs ™h—pitresAF €remièrementD l— p—rtie s tr—ite du
pro˜lème de l— ™l—ssi(™—tion —utom—tique d9o˜jets d—ns le ™—dre de l9—pprentiss—ge f—iE
˜lement superviséF eprès un ét—t de l9—rt génér—l sur les méthodes de ™l—ssi(™—tion
@™h—pitre PAD trois modèles de ™l—ssi(™—tion dont les philosophies sont opposées seront
étudiés d—ns le ™h—pitre QF ve ™h—pitre suiv—nt @™h—pitre RA ™on™entre des méthodes de
™om˜in—isons de ™l—ssi(eurs élément—ires et de fusion de ™l—ssi(eursF in(nD des expéE
rien™es sont menées d—ns le ™h—pitre S —(n d9—n—lyser et de ™omp—rer les perform—n™es
de ™l—ssi(™—tion des modèles et des méthodes proposéesF „outes ™es expérien™es sont
e'e™tuées à p—rtir de jeux de données synthétiques qui nous permettent de m—îtriser
les ™omplexités des ensem˜les d9—pprentiss—geF heuxièmementD l— p—rtie ss tr—ite de
données qui proviennent essentiellement de l9—™oustique h—lieutiqueF h—ns le ™h—pitre
TD les ™—r—™téristiques te™hniques des sondeurs —™oustiques sont présentées ˜rièvementD
—insi que l— te™hnique d9o˜tention des im—ges de l— ™olonne d9e—uF ves des™ripteurs des
—grég—tions sont étudiés d—ns le ™h—pitre UF heux types d9—n—lyses sont envis—gés X une
—n—lyse lo™—le qui ™onsiste en l9emploi des des™ripteurs des ˜—n™s de poissons et une
—n—lyse glo˜—le pour l—quelle nous ™—l™ulons des des™ripteurs glo˜—ux pour une im—ge
de ˜—n™s de poissonsF in(nD une —ppli™—tion à l9év—lu—tion des sto™ks de poissons d—ns
le qolfe de q—s™ogne est e'e™tuée @™h—pitre VAF xous en pro(tons pour —ppliquer les
méthodes d9—pprentiss—ge f—i˜lement supervisé proposées d—ns l— p—rtie s du mémoire
et pour utiliser les des™ripteurs de ˜—n™s de poissons présentés d—ns l— p—rtie ssF …ne
™on™lusion génér—le @™h—pitre WA et une p—rtie qui ™ontient les —nnexes et l— ˜i˜liogr—phie
@p—rtie sssA ™los ™e mémoire de thèseF
Première partie
  Classication automatique et
apprentissage faiblement supervisé
CHAPITRE

                  2           Les modèles de
                              classication usuels : état
                              de l'art



2.1 Introduction
   ve ™h—pitre I est ™ons—™ré à l9ét—t de l9—rt des modèles de ™l—ssi(™—tion usuelsF
ves méthodes exist—ntes sont présentées su™™in™tementD l9o˜je™tif n9ét—nt p—s de tout
expli™iter en dét—il m—is de f—ire ét—t des ™onn—iss—n™es exist—ntes en ™l—ssi(™—tion
d9o˜jets —(n de situer les —pports méthodologiquesF
    v— pro˜lém—tique porte sur l9—pprentiss—ge st—tistique et l— ™l—ssi(™—tion —utom—E
tique pro˜—˜iliste d9un ensem˜le d9o˜jetsF …n modèle de ™l—ssi(™—tion est un outil
m—thém—tique qui permet d9—'e™ter une ™l—sse à une entité en fon™tion de ses proE
priétés intrinsèquesF v9—ppro™he étudiée d—ns ™e mémoire est purement pro˜—˜iliste X
™h—que o˜jet —pp—rtient à une ™l—sse et nous m—nipulons des ve™teurs qui tr—duisent
les pro˜—˜ilités d9—'e™t—tion à ™h—que ™l—sseF xotons queD ™omme notre —ppro™he est
pro˜—˜ilisteD etD ™omme nos ™onn—iss—n™es initi—les sur les données d9—pprentiss—ge sont
des pro˜—˜ilités de ™l—ssi(™—tion — prioriD nous n9étudierons p—s des méthodes plus géE
nér—les ™omme l— théorie de hempsterEƒh—fer ‘I“ qui ™om˜ine des ™onn—iss—n™es — priori
distin™tes sur les données d9—pprentiss—geF
    in ™l—ssi(™—tion —utom—tiqueD on distingue les données d9—pprentiss—ge qui ét—E
˜lissent le modèle de ™l—ssi(™—tionD et les données de test qui sont ™l—ssées à l9—ide
du modèleF €our —pprendre un modèle de ™l—ssi(™—tionD il existe plusieurs types d9—pE
pro™hes qui dépendent de l— n—ture des données d9—pprentiss—geF ƒi les ™l—sses d9origine
des données d9—pprentiss—ge sont ™onnuesD nous p—rlons d9—pprentiss—ge 4 supervisé 4F
xous p—rlons d9—pprentiss—ge 4 non supervisé 4 @ou de p—rtitionnement de donnéesA
d—ns le ™—s où les ™l—sses d9origine ne sont p—s ™onnuesF …n troisième groupe r—ssem˜le
les ™—s pour lesquels il existe une in™ertitude sur le l—˜el des données d9—pprentiss—geD
p—r exemplesD le ™—s où seuls les — priori des ™l—sses sont ™onnusD ou le ™—s de l— ™l—ssi(E
™—tion d9o˜jets d—ns des im—ges pour lesquelles l— présen™e et l9—˜sen™e des ™l—sses sont
™onnues ‘P“F h—ns ™e ™—sD nous p—rlons d9—pprentiss—ge 4 f—i˜lement supervisé 4 ou d9—pE
prentiss—ge 4 p—rtiellement supervisé 4F v9—pprentiss—ge 4 semiEsupervisé 4 est utilisé
qu—nd il y — peu de données l—˜élisées ‘Q“F hes exemples s—ns l—˜el sont —lors —joutés
à l9ensem˜le d9—pprentiss—ge qui ne ™ontient que des exemples de ™l—sses ™onnues d—ns
CHAPITRE 2.             LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE

xiv                                                                                                                            L'ART




le ˜ut d9—™™roître l— qu—ntité d9inform—tionsF
    v9—pprentiss—ge f—i˜lement supervisé génér—lise les ™—s supervisés et semiEsupervisésF
ve prin™ipe de l9—pprentiss—ge f—i˜lement supervisé est d9—ttri˜uerD à ™h—que exemple
d9—pprentiss—geD un ve™teur qui indique les pro˜—˜ilités — priori d9—'e™t—tion à ™h—que
™l—sseF €—r exempleD en ™onsidér—nt IP o˜jets pour l9—pprentiss—ge et Q ™l—sses possi˜lesD
—lors les ve™teurs qui fournissent les pro˜—˜ilités d9—'e™t—tion pourr—ient être X
                0.4       1       0.1            0        0       0.33   0.2        0.4       0          0.2      0.4    0
                0.6
                 0
                          0
                          0
                                  0.1
                                  0.8
                                                0.5
                                                0.5
                                                          1
                                                          0
                                                                  0.33
                                                                  0.33
                                                                         0.5
                                                                         0.3
                                                                                    0.3
                                                                                    0.3
                                                                                              0
                                                                                              1
                                                                                                         0.6
                                                                                                         .2
                                                                                                                  0.5
                                                                                                                  0.1
                                                                                                                         0
                                                                                                                         1
                                                                                                                                 @PFIA

in —pprentiss—ge superviséD les pro˜—˜ilités d9—'e™t—tion pourr—ient être X
                          1       1         1         1       0     0    0      0         0       0       0       0
                          0
                          0
                                  0
                                  0
                                            0
                                            0
                                                      0
                                                      0
                                                              1
                                                              0
                                                                    1
                                                                    0
                                                                         1
                                                                         0
                                                                                1
                                                                                0
                                                                                          0
                                                                                          1
                                                                                                  0
                                                                                                  1
                                                                                                          0
                                                                                                          1
                                                                                                                  0
                                                                                                                  1
                                                                                                                                 @PFPA

in —pprentiss—ge semiEsuperviséD les pro˜—˜ilités d9—'e™t—tion pourr—ient être X
                1     1       0         0        0        0       0.33   0.33       0.33          0.33         0.33     0.33
                0
                0
                      0
                      0
                              1
                              0
                                        1
                                        0
                                                 0
                                                 1
                                                          0
                                                          1
                                                                  0.33
                                                                  0.33
                                                                         0.33
                                                                         0.33
                                                                                    0.33
                                                                                    0.33
                                                                                                  0.33
                                                                                                  0.33
                                                                                                               0.33
                                                                                                               0.33
                                                                                                                        0.33
                                                                                                                        0.33
                                                                                                                                 @PFQA

€our l— ™l—ssi(™—tion semiEsuperviséeD les exemples initi—lement s—ns l—˜el peuvent être
™onsidérés ™omme l—˜élisés à l9—ide d9un ve™teur qui tr—duit le f—it que les ™l—sses sont
équipro˜—˜lesF einsiD les ™ompos—ntes du ve™teurD qui donnent l— pro˜—˜ilité des ™l—ssesD
sont ég—lesF v9—pprentiss—ge semiEsupervisé peut —ussi être vu ™omme un ™—s d9—pprenE
tiss—ge f—i˜lement supervisé pour lequel on —ur—it e'e™tué un seuill—ge sur les — priori
@si les pro˜—˜ilités de ™l—ssi(™—tion — priori sont simil—ires pour un o˜jet d9—pprentisE
s—geD —lors les ™l—sses sont ™onsidérées ™omme équipro˜—˜lesD et si une pro˜—˜ilité de
™l—ssi(™—tion — priori domine d—ns l9ensem˜leD —lors l— ™l—sse ™onsidérée est —ttri˜uée
à l9exemple ™on™ernéAF in(nD en —pprentiss—ge non superviséD le nom˜re de ™l—sse est
in™onnu et —u™un l—˜el n9est disponi˜leF
    sl v— de soit que l— ™omplexité des modèles d9—pprentiss—ge —ugmente —ve™ l9in™erE
titude sur les l—˜elsF gepend—ntD un —lgorithme ™omplexe ou un —pprentiss—ge à p—rtir
d9un jeu de données très in™ert—ins n9engendre p—s né™ess—irement de m—uv—ises perE
form—n™es de ™l—ssi(™—tionF €—r exempleD d—ns ™ert—ins ™—sD on montre que l9—jout de
données s—ns l—˜el —u jeu de donnée d9—pprentiss—ge @—pprentiss—ge semiEsupervisé ‘Q“A
permet d9—méliorer les perform—n™es de ™l—ssi(™—tionF
    €our l9—pprentiss—ge superviséD l9—pprentiss—ge non superviséD l9—pprentiss—ge f—iE
˜lement superviséD et l9—pprentiss—ge semiEsuperviséD respe™tivement étudiés d—ns les
se™tions PFPD PFQD PFRD et PFSD nous expli™itons les modèles de ™l—ssi(™—tion —sso™iés et
™—r—™térisons leurs di'éren™esF gh—que méthode présentée est ™l—ssée d—ns une des
gr—ndes f—milles de modèlesD à s—voir les modèles génér—tifsD les modèles dis™rimin—nts
et les modèles hy˜rides que nous dé(nirons d—ns l— se™tion PFPF


2.2 Classication supervisée
    ‚—ppelons que l9—pprentiss—ge supervisé ™onsiste à ét—˜lir un modèle de ™l—ssi(™—E
tionD à p—rtir d9un ensem˜le d9—pprentiss—ge ™onstitué de données dont les ™l—sses sont
p—rf—itement ™onnuesF
2.2.   CLASSIFICATION SUPERVISÉE                                                       xv


2.2.1 Modèle génératif

    €renons l— dé(nition du mot 4 génér—tif 4 X 4 ui engendreD qui — r—pport à l—
génér—tion 4 @gentre x—tion—l de ‚essour™e „extuelles et vexi™—lesAF h—ns ™e ™—sD le
modèle est pro™he des donnéesF ƒi l— loi ™onsidérée @xorm—leD fêt—D q—mm—D mél—nge
de q—ussienneD exponentielleD €oissonD F F F A pour le modèle de ™l—ssi(™—tion est ™onveE
n—˜lement ™hoisieD l— seule ™onn—iss—n™e du modèle peut permettre de re™onstituer un
ensem˜le d9o˜serv—tions possi˜lesF einsiD pour le modèle génér—tifD le ™l—ssi(eur est
une fon™tion m—thém—tique qui dé™rit —u mieux l9org—nis—tion sp—ti—le des données
d—ns l9esp—™e des des™ripteursF €—r exempleD si un jeu de données forme un ensem˜le
de ˜oules d—ns l9esp—™e des —ttri˜utsD nous pouvons modéliser le nu—ge de points p—r
un mél—nge de q—ussiennesF v9o˜je™tif de l9—pprentiss—ge ét—nt —lors de déterminer les
positions @moyennesA et les t—illes @v—ri—n™esA de ™h—que modeF €lus génér—lementD l9—pE
prentiss—ge ™onsiste à estimer les p—r—mètres d9une loi ™i˜le etD pour l— ™l—ssi(™—tionD
l— pro˜—˜ilité — posteriori donne les pro˜—˜ilités de ™h—que ™l—sseF
    ey—nt ™hoisi une densité de pro˜—˜ilité ™i˜le p—r—métriqueD une te™hnique ™onnue
™onsiste à utiliser le m—ximum de vr—isem˜l—n™e @w†A pour estimer les p—r—mètres ‘R“
‘S“ ‘T“ ‘U“ ‘V“ ‘W“ ‘IH“ ‘II“ ‘IP“ ‘IQ“F ves p—r—mètres optim—ux sont ™eux qui m—ximisent
l— vr—isem˜l—n™eF ve ™—s multimod—l f—it que l— m—ximis—tion est très ™omplexeD d—ns
™e ™—sD on utilise un —utre estim—teur du m—ximum de vr—isem˜l—n™e X l9—lgorithme 4
ixpe™t—tion w—ximiz—tion 4 @iwA ‘IR“ ‘IS“ ‘IT“F gette méthode génér—tive permet de
trouver le m—ximum de vr—isem˜l—n™e des p—r—mètres d9un modèle pro˜—˜iliste lorsque
le modèle dépend de v—ri—˜les l—tentes non o˜serv—˜les @les proportions des modes du
mél—ngeAF €lutôt que de trouver le jeu de p—r—mètres du modèle qui m—ximise l— vr—iE
sem˜l—n™eD l9espér—n™e de l— logEvr—isem˜l—n™e ™omplétée p—r l— v—ri—˜le ™—™hée est
m—ximisée ™onditionnellement à un jeu de p—r—mètres initi—lF gel— ™onduit —u ™—l™ul
itér—tif de ™ette espér—n™e @ét—pe iA et des p—r—mètres qui m—ximisent ™ette espér—n™e
@ét—pe wAF v— pro™édure est dét—illée d—ns l— se™tion QFP du ™h—pitre Q et d—ns le
t—˜le—u QFIF v— version sto™h—stique de l9—lgorithme ‘IU“D —ppelée —lgorithme ƒiwD préE
vient des m—ximums lo™—ux de vr—isem˜l—n™eF h9—utres —mélior—tions de l9—lgorithme
portent sur l— r—pidité de ™onvergen™e de l9—lgorithme ‘IV“ ‘IW“F h—ns l9—lgorithme 4
ixpe™t—tion gondition—l w—ximiz—tion 4 @igwA ‘PH“D l9ét—pe w est rempl—™ée p—r une
ét—pe de m—ximis—tion ™onditionnelle des p—r—mètresF gh—que p—r—mètre est m—ximisé
individuellement ™onditionnellement —ux —utres qui sont (xésF f—sé sur le même prinE
™ipe que l9—lgorithme igwD l9—lgorithme iw 4 génér—lisé 4 @qiwA ‘IR“ ‘IS“ ‘IT“ est
une —ltern—tive employée qu—nd l9ét—pe w est di0™ilement ré—lis—˜leD not—mment si
le ™—l™ul des dérivées premières est di0™ileF h—ns ™e ™—sD les p—r—mètres ne sont p—s
™eux qui m—ximisent l9espér—n™e de l— logEvr—isem˜l—n™eD m—is n9importe quel jeu de
p—r—mètres tel que ™ette espér—n™e soit supérieure à ™elle de l9itér—tion pré™édenteF
    w—lgré des perform—n™es —ssez moyennesD le ™l—ssi(eur ˜—yésien n—ïf ‘PI“ ‘PP“ ‘PQ“ est
souvent utilisé pour ™omp—rer des méthodes de ™l—ssi(™—tion entre ellesD expérimenter
les ensem˜les de ™l—ssi(eurs ‘PR“ ou les pro™essus itér—tifs ‘PS“ @™h—pitre RAF ƒ9—ppuy—nt
sur le théorème de f—yesD les prédi™tions de toutes les hypothèses sont pondérées p—r
les pro˜—˜ilités — prioriF v9—utre p—rti™ul—rité est de supposer l9indépend—n™e entre les
des™ripteursF einsiD l— méthode du w—ximum de †r—isem˜l—n™e peut être employée
CHAPITRE 2.       LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE

xvi                                                                                L'ART




pour estimer les p—r—mètres d9une loi liée à ™h—que des™ripteur indépend—mment ‘PT“F
gette dépend—n™e est restreinte p—r le ™l—ssi(eur eyhi @4 ever—ge yneEhependen™e
istim—tor 4 en —ngl—isA ‘PU“ qui ™hoisit un seul des™ripteur dont il estime l— dépend—n™e
—ve™ les —utresF ves perform—n™es sont —lors —™™rues p—r r—pport —u ™l—ssi(eur ˜—yésien
n—ïfF
    v9 4 ello™—tion de hiri™hlet v—tente 4 @vheA ‘PV“ est une nouvelle te™hnique issue
de l9 4 en—lyse ƒémentique v—tente €ro˜—˜iliste 4 @€vƒeA ‘PW“F gontr—irement à l— méE
thode vheD l— méthode €vƒe est limitée p—r son impossi˜ilité à générer de nouve—ux
exemplesD ™el— v— à l9en™ontre du prin™ipe des modèles génér—tifsF ges pro™édures sont
utilisées en ™l—ssi(™—tion de do™uments qui sont ™l—ssés p—r 4 ™on™ept 4 @un do™ument
pouv—nt être —sso™ié à plusieurs ™on™eptsAF v— te™hnique est ˜—sée sur l— ™orrél—tion
entre les termes des do™umentsD les do™uments et les ™on™eptsF v— pro˜—˜ilité des do™uE
ments et des termes qui les ™omposent est fon™tion d9un mél—nge de lois @pro˜—˜ilité des
™on™eptsD pro˜—˜ilité de ™h—que terme rel—tivement à ™h—que ™on™eptD et pro˜—˜ilité de
™h—que do™ument rel—tivement à ™h—que ™on™eptAF v9inféren™e ˜—yésienneD qui permet
de déduire ™h—™une des distri˜utions et l— distri˜ution — posterioriD peut être e'e™tuée
p—r —ppro™he v—ri—tionnelle ‘PV“D à l9—ide d9un é™h—ntillonn—ge de qi˜˜s ‘QH“D ou p—r
prop—g—tion de l9espér—n™e @4 ixpe™t—tion €rop—g—tion 4 en —ngl—isA ‘QI“F ve form—E
lisme m—thém—tique se r—ppro™he fortement des modèles de mél—ngeD ™epend—ntD en
™l—ssi(™—tion de do™uments ™ette te™hnique trouve de nom˜reux —deptes ét—nt donnée
que les o˜serv—tions @les do™umentsA sont projetées d—ns une ˜—se p—rti™ulière qui ™orE
respond —u di™tionn—ire des ™on™eptsF …ne —n—logie —ve™ l— ™l—ssi(™—tion d9o˜jets peut
être ré—lisée si les o˜jets sont ™ontenus d—ns des im—ges —sso™iées à plusieurs ™l—ssesF
   ges modèles génér—tifs ont le déf—ut qu9ils né™essitent l— ™onn—iss—n™e de l— loi ™i˜leF
in pr—tiqueD une séle™tion su˜je™tive de lois est e'e™tuéeD puis un ™ritère de séle™tion
permet de retenir l— loi l— mieux —d—ptée ‘QP“F ve ™ritère le plus utilisé est l— v—lid—tion
™roisée ‘QQ“ @év—lu—tions et st—tistiques des erreurs sur plusieurs expérien™esAD m—is
d9—utres ™ritères existent ™omme le 4 gritère d9snform—tion d9ek—ike 4 @esgA ‘QR“ ou le
4 gritère d9snform—tion ˜—yésien 4 @fsgA ‘QS“F


2.2.2 Modèle discriminant
    v9—ppro™he di'ère pour le modèle dis™rimin—ntF v— dé(nition de l9—dje™tif 4 dis™riE
min—nt 4 est X 4 ui ét—˜lit ou permet d9ét—˜lir une distin™tion entre des éléments
4 @gentre x—tion—l de ‚essour™e „extuelles et vexi™—lesAF einsiD d—ns le ™—dre de l—
™l—ssi(™—tion —utom—tique d9o˜jetsD le modèle vise ex™lusivement à l— di'éren™i—tion
des ™l—sses entre ellesF …n tel modèle ne dépend p—s de l9org—nis—tion intrinsèque des
donnéesF ƒeules l— m—nière et l— ™—p—™ité à di'éren™ier les ™l—sses ™omptentF v— m—E
jorité des méthodes dis™rimin—ntes est ˜—sées sur le prin™ipe du ™—l™ul des ™oe0™ients
des hyperpl—ns qui sép—rent les ™l—sses entre ellesF v9esp—™e des —ttri˜uts ét—nt s™indé
p—r les hyperpl—nsD il su0t de déterminer de quelle ™ôté de l9hyperpl—n se situe un
exemple pour ™onn—ître s— ™l—sseF eprès un ˜ref invent—ire de ™es méthodes @4 l9en—E
lyse his™rimin—nte de pisherD les ƒ†wD l— régression logistiqueD F F F AD nous évoquerons
des modèles dis™rimin—nts plus singuliers ™omme les rése—ux de neurones et les 4 k plus
pro™hes voisins 4F
2.2.   CLASSIFICATION SUPERVISÉE                                                       xvii


    v9 4 en—lyse his™rimin—nte de pisher 4 ‘QT“ ‘QU“ ‘QV“ @ou vhe pour 4 vine—r his™riE
min—nt en—lysis 4A f—it p—rtie des méthodes popul—iresF f—sée sur un ™ritère st—tistique
du se™ond ordreD ™ette te™hniqueD optim—le d—ns le ™—s q—ussienD p—rt du prin™ipe que les
moments du se™ond ordre sont identiques d9un groupe à l9—utreF v— pro™édure ™onsiste
à trouver les ™oe0™ients de l9hyperpl—n qui m—ximisent le r—pport entre l— v—ri—n™e
inter ™l—sse et l— v—ri—n™e intr— ™l—sseF v— méthode est dét—illée d—ns l— se™tion QFQFI
du ™h—pitre QF
    …n —utre modèle très ™élè˜re est l— méthode des ƒ†w @4 ƒupport †e™tor w—™hine
4A ‘QW“ ‘RH“ qui est dét—illée d—ns l— se™tion QFQFI du ™h—pitre QF ille résulte de l—
™om˜in—ison de deux —ppro™hes X l9idée de m—ximiser les m—rges @dist—n™e entre l9hyE
perpl—n sép—r—teur et l9exemple le plus pro™heA ‘RI“ ‘RP“ et l9idée des fon™tions noy—ux
‘RQ“ ‘RR“ qui déforment l9esp—™e des des™ripteurs et permettent de p—sser des ™—s non
liné—irement sép—r—˜les —ux ™—s liné—irement sép—r—˜lesF sl existe une méthode dite des
4 m—rges souples 4 qui tolère une ™ert—ine qu—ntité d9erreurs lors de l— re™her™he de
l9hyperpl—n optim—l et qui permet de résoudre les ™—s de re™ouvrement entre ™l—sses
‘RS“ ‘RT“F
    €—rmi les méthodes de régressionD l— 4 régression logistique 4 ‘RU“ ‘RV“ ‘RW“ ‘SH“ se
distingue p—r le f—it que l— v—ri—˜le à prédire est une ™l—sseD iFeF une v—leur dis™rète
et non une v—leur ™ontinue ™omme en régression liné—ireF h—ns le ™—s de deux ™l—ssesD
l9équ—tion de l9hyperpl—n sép—r—teur s9exprime en fon™tion du log—rithme du r—pport des
pro˜—˜ilités — posteriori des o˜serv—tionsF hi'érentes méthodes ™omme l9—lgorithme du
m—ximum de vr—isem˜l—n™e ‘RV“ peuvent —lors être utilisées pour estimer les ™oe0™ients
de l9hyperpl—n sép—r—teurF gette méthode — pour —v—nt—ge de ne p—s être p—r—métrique
et de modéliser dire™tement une pro˜—˜ilitéF in rev—n™heD elle ne s9—pplique qu9—ux
données s—ns v—leur m—nqu—ntes et elle est sensi˜le —ux individus hors normeF
    ges trois méthodes @vheD ƒ†wD régression logistiqueA sont développées d—ns le
™—s ˜in—ireD iFeF seulement deux ™l—sses sont ™onsidéréesF gomment f—ire d—ns le ™—s
de plusieurs ™l—sses c heux prin™ip—les —ppro™hes existentF v— méthode 4 oneEversusE—ll
4 ™onsiste à —ttri˜uer un ™l—ssi(eur à ™h—que ™l—sse @le ™l—ssi(eur dis™rimine l— ™l—sse
™onsidérée de toutes les —utresAF v— ™l—sse —ttri˜uée à un exemple test est l— plus proE
˜—˜le —u sens des ™l—ssi(eursF v9—utre méthodeD —ppelée 4 oneEversusEone 4D ™onsiste
à ét—˜lir un ™l—ssi(eur pour ™h—que ™ouple de ™l—sses possi˜leF v— ph—se de test ét—nt
simil—ire à l— méthode oneEversusE—llF h—ns ‘SI“D le ™—s des ™l—sses non m—jorit—ires
est tr—itéD iFeF le ™—s où —près l— ™l—ssi(™—tion de l9exemple testD plusieurs ™l—sses sont
équipro˜—˜lesF …ne méthode ‘SP“ propose de résoudre le pro˜lème en s9—ppuy—nt sur
les te™hniques employées pour les ™odes ™orre™teurs d9erreursF …ne —utre propose l9utiE
lis—tion des ƒ†w d—ns le ™—s multiE™l—sses en ™h—nge—nt le ™ritère d9optimis—tion en un
™ritère m—tri™iel ‘SQ“F
    …ne m—jorité de méthodes de ™l—ssi(™—tion ˜—sées sur les fon™tions noy—ux est préE
sentée d—ns le livre 4 ve—rning with uernel 4 ‘RT“F v— méthode uEp™— @4 uernel €rin™ip—l
gomponent en—lysis 4A ‘SR“ ‘SS“ y (gure not—mmentF gette te™hnique n9est p—s un moE
dèle de ™l—ssi(™—tion à p—rt entièreD m—is un moyen d9—méliorer les perform—n™es de
™l—ssi(™—tion des modèles liné—ires déjà exist—ntF v9idée est simple X en —sso™i—nt les
fon™tions noy—ux —ve™ une 4 —n—lyse en ™ompos—nte prin™ip—le 4 @€geA ‘ST“D l9esp—™e
des des™ripteurs est tr—nsformé tel que des groupes non liné—irement sép—r—˜les d—ns
CHAPITRE 2.    LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE

xviii                                                                            L'ART




l9esp—™e de dép—rt puissent le devenir d—ns l9esp—™e d9—rrivéeF hès que l9on dispose d9un
™l—ssi(eur dis™rimin—nt liné—ireD à l9inst—r du modèle vheD de l— régression logistiqueD
ou de n9importe quel ™l—ssi(eur à m—ximum de m—rgeD —lors l— méthode uEp™— peut être
—ppliquée en —mont et permet —insi de p—sser d9un ™l—ssi(eur liné—ire à un ™l—ssi(eur
non liné—ireF ves dét—ils de l— méthode sont donnés d—ns l— se™tion QFQFI du ™h—pitre QF
    ves premiers rése—ux de neurones —™™omplis @on p—rle —lors de rése—ux multi
™ou™hesA ‘SU“ ‘SV“ ‘SW“ sont —pp—rus à p—rtir de IWVS et sont utilisés depuis en ™l—sE
si(™—tion —utom—tique d9o˜jetsF …n neurone prend en entrée les sorties des neurones
pré™édentsF v— sortie est une fon™tionD —ppelée 4 fon™tion d9—™tiv—tion 4D d9une ™om˜iE
n—ison liné—ire des entréesF €lusieurs neurones peuvent être mis en p—r—llèle et plusieurs
™ou™hes de neurones peuvent être ™onsidéréesF …ne ™—r—™téristique import—nte d9un réE
se—u de neurones est le ™ompromis entre l— ™omplexité de son —r™hite™tureD dé(nie p—r
le nom˜re de ™ou™hes et le nom˜re de neurones p—r ™ou™heD et entre s— ™—p—™ité d9—pE
prentiss—ge qui est liée —u sur —pprentiss—geF xotons que les rése—ux de neurones sont
sujets —ux sur —pprentiss—gesD il est —lors né™ess—ire de supprimer des ™onnexions @—lE
gorithme 4 optim—l ˜r—in d—m—ge4 ‘TH“ ou —lgorithme 4 optim—l ˜r—in surgeon 4 ‘TI“AF
…ne fois que l9—r™hite™ture du rése—u est ™hoisieD l9—pprentiss—ge ™onsiste à trouver les
v—leurs des poids de l— ™om˜in—ison liné—ire des entrées de ™h—que neuroneF €our ™el—D
une minimis—tion de l— fon™tion de ™oût @souvent l9erreur qu—dr—tiqueAD qui détermine
l9o˜je™tif à —tteindreD est e'e™tuéeF v— di'éren™e entre les méthodes proposées porte
sur le ™hoix de l— fon™tion ™oûtD sur l— m—nière de minimiser ™ette fon™tionD sur le ™hoix
de l9—r™hite™ture du rése—u ou sur le ™hoix de l— fon™tion d9—™tiv—tionF €—r exempleD
d—ns ‘SV“D une des™ente de gr—dient est e'e™tuéeD l9origin—lité ét—nt l— f—çon de ™—l™uler
le gr—dient de l— fon™tion de ™oûtF xotons que l9—n—lyse dis™rimin—nte de pisher ou les
ƒ†w liné—ires sont des rése—ux de neurones à un seul neurone dont les poids —'e™tés à
™h—que entrée ™orrespondent —ux ™oe0™ients de l9hyperpl—n sép—r—teurF
    v— méthode des 4 K plus pro™hes voisins 4 ‘TP“ di'ère des —utres modèles dis™rimiE
n—nts p—r l9—˜sen™e d9hyperpl—ns sép—r—teursD l9unique idée génér—tri™e reste ™epend—nt
d9—'e™ter une ™l—sse à un individu in™onnuF v— pro™édure est très simple X il f—ut trouE
verD d—ns l9ensem˜le d9—pprentiss—geD l— ™l—sse m—jorit—ire p—rmi les K plus pro™hes
voisins de l9exemple à ™l—sserF gel— p—sse p—r l— dé(nition d9une dist—n™e entre o˜jets
‘TQ“D qui dépend de l— n—ture des des™ripteurs de l9o˜jetF €—r exempleD une dist—n™e euE
™lidienne peut ™onvenir pour des des™ripteurs pren—nt leur v—leur d—ns l9ensem˜le des
réelsD m—is d—ns le ™—s de des™ripteurs formés de densités de pro˜—˜ilité une dist—n™e
de fh—tt—™h—ryy— ‘TR“ ou de uull˜—™kEvei˜ler ‘TS“ est préfér—˜leF v— di0™ulté se trouve
d—ns l— pro™édure de re™her™he des plus pro™hes voisinsD not—mment si l9ensem˜le d9—pE
prentiss—ge est volumineuxD entr—în—nt des longueurs d—ns le temps de ™—l™ulF €our
™el— des —lgorithmes de re™her™he ont été développés ‘TT“ ‘TU“D leur prin™ipe ét—nt de
sto™ker les exemples pro™hes en dist—n™e et de pro™éder p—r regroupement hiér—r™hique
des donnéesF
   €—rmi les méthodes dis™rimin—ntesD l— méthode ƒ†w est ™elle qui remporte le plus
fr—n™ su™™ès d—ns le dom—ine de l— vision p—r ordin—teurF gel— est prin™ip—lement dû
—u f—it que le modèle de ™l—ssi(™—tion est non liné—ireD produis—nt de très ˜onnes perE
form—n™es de ™l—ssi(™—tion pour l— plup—rt des expérien™esF gepend—ntD les ƒ†w sont
dépend—nts d9un gr—nd nom˜re de p—r—mètres liés à l— souplesse des m—rgesD l— dyE
2.2.   CLASSIFICATION SUPERVISÉE                                                     xix


n—mique de pro˜—˜ilis—tionD et le ™hoix du noy—uD p—r ™onséquentD ™ert—ins dom—ines
s™ienti(ques préfèrent l9emploi de modèles plus —utonomes ™omme les régressions loE
gistiques @™9est le ™—s des études st—tistiques d—ns le dom—ine ˜—n™—ireD d—ns ™elui des
—ssur—n™es ou des sond—gesD et en méde™ineAF


2.2.3 Modèle hybride : arbres de classication
    hes modèles hy˜rides existentF veur dém—r™he s9—ppuie à l— fois sur les —ppro™hes
génér—tives et dis™rimin—ntesF €—rmi euxD on trouve les modèles ˜—sés sur les —r˜res
de ™l—ssi(™—tion @ou de dé™isionAF €remièrementD l— méthode est fondée sur un é™h—nE
tillonn—ge de l9esp—™e des —ttri˜uts à l9—ide d9hyper volumes d9é™h—ntillonn—ge de t—ille
di'érente et de dimension (nie ou in(nieF v9é™h—ntillonn—ge dé™rit l9o™™up—tion de l9enE
vironnement et dépend dire™tement de l— forme des nu—ges de points des di'érentes
™l—ssesF ejoutons queD ™omme pour un histogr—mmeD le nom˜re d9individus est ™onnu
d—ns ™h—que volume d9é™h—ntillonn—geD ™e qui —utorise l— génér—tion —lé—toirement des
données d—ns ™es volumes élément—iresF ge™i permet de nous positionner d—ns le ™—s
génér—tifF heuxièmementD les volumes é™h—ntillonnés sont o˜tenus p—r dis™rimin—tions
su™™essives de sous ensem˜les de donnéesD le prin™ipe ét—nt de s™inder un volume de
l9esp—™e en deux p—rties homogènes en ™l—sseF gette s™ission n9— qu9un seul o˜je™tif X
sép—rer les ™l—sses entre ellesF gel— nous positionne d—ns le ™—s dis™rimin—ntF
    …n —r˜re de ™l—ssi(™—tion ™omporte des noeuds qui sont —sso™iés à des règles de
dé™isionF v— tot—lité forme un ensem˜le de ™hemins qui p—rtent du noeud prin™ip—l vers
les noeuds termin—ux —uxquels sont —ttri˜ués des ™l—ssesF …n noeud donné renvoie vers
des noeuds (ls en fon™tion de l— règle de dé™ision (xéeF ge même noeud est engendré
p—r un noeud p—rentF ve prin™ipe de ™onstru™tion d9un —r˜re repose sur l— s™ission
d9un groupe d9exemples pour un des™ripteur donnéF eu noeud ™onsidéréD l— meilleure
—sso™i—tion entre un des™ripteur et une v—leur de ™oupureD est ™elle qui m—ximise le g—in
d9inform—tionF eutrement ditD l— s™ission doit donner des groupes qui sont homogènes
en ™l—ssesF in pr—tiqueD ™h—que v—leur de ™oupure est testée pour ™h—que des™ripteurD
puis le ™ouple formé p—r le des™ripteur et l— v—leur de ™oupure qui m—ximise le g—in
d9inform—tion est retenu et —sso™ié —u noeud ™onsidéréF …n noeud est ™hoisi ™omme
ét—nt un noeud (n—l si son nive—u d9 4 impureté 4 est f—i˜leD iFeF si une ™l—sse domine
l—rgementF …ne fois l9—r˜re ™onstruitD un exemple test p—r™ourt l9—r˜re jusqu9—u noeud
termin—l qui dé(nit l— ™l—sse —ttri˜uéeF ve form—lisme et les dét—ils m—thém—tiques
sont présentés d—ns l— se™tion QFRFI du ™h—pitre Q pour le ™—s usuel de l9—pprentiss—ge
superviséF
    ves méthodes ™onnues di'èrent p—r le ™hoix du ™ritère de g—in d9inform—tionF gerE
t—ins ™her™hent à m—ximiser le ™ritère de qini ‘TV“ @méthode ge‚„ X 4 gl—ssi(™—tion
end ‚egression „rees 4AD d9—utres pré™onisent l9entropie de ƒh—nnon ‘TW“ ‘UH“ @méthode
shQ et gRFSAD et ™ert—ines méthodes proposent d9utiliser un test st—tistique fondé sur
l— loi du χ2 @méthode gresh ‘UI“ X 4 griEsqu—re eutom—ti™ snter—™tion hete™tion 4
et méthode …iƒ„ ‘UP“ X 4 ui™kD …n˜i—sedD i0™ientD ƒt—tisti™—l „ree 4AF v— méthode
…iƒ„ permet de ™onstruire un —r˜re de dé™ision plus r—pidementF h—ns …iƒ„D
le meilleur des™ripteur est d9—˜ord ™hoisi en ™om˜in—nt une —n—lyse de l— v—ri—n™e @4
exy†e 4A —ve™ le test du χ2 ou le test de vevene ‘UQ“ @en fon™tion de l— n—ture disE
CHAPITRE 2.      LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE

xx                                                                               L'ART




™rète ou ™ontinue du des™ripteurF xotons que gRFS est une évolution dire™te de shQD les
—mélior—tions port—nt sur l— gestion des données numériquesD sur l— prise en ™ompte
des données m—nqu—ntes et sur l— r—pidité d9exé™utionF
   €lutôt que de ™her™her l— v—leur de ™oupure sur ™h—que des™ripteur indépend—mE
mentD des méthodes proposent des ™ritères de 4 sép—r—tion o˜liques 4 ‘UR“ qui s9—ppuient
sur un modèle de ™l—ssi(™—tion à plusieurs des™ripteursF ve modèle ™hoisi peut être de
type ƒ†w ‘US“ ‘UT“ ou s9—ppuyer sur l9—n—lyse dis™rimin—nte liné—ire de pisher ‘UU“F
   uelques p—piers —˜ordent les —r˜res de ™l—ssi(™—tion d—ns le ™—dre de l— logique
4 )oue 4F €—r exempleD un —r˜re est ™onstruit à l9—ide de l— méthode ge‚„D puis des
règles de dé™isions )oues sont él—˜orées à p—rtir des frontières des é™h—ntillons d9hyper
volumes ‘UV“F ve même pro™édé est employé pour l9—lgorithme shQ ‘UW“F €our d9—utres
exemples ‘VH“D l— logique )oue intervient d—ns le ™—l™ul des v—leurs de ™oupureF €lutôt
que d9—voir une s™ission nette et pré™iseD l— frontière est in™ert—ine telle que le degré
d9—pp—rten—n™e à un groupe dépend de l— dist—n™e entre l9exemple ™onsidéré et l— v—leur
de ™oupure ™onsidéréeF ves règles de dé™ision sont —lors dire™tement liées à l9—ppli™—tion
™onsidérée ‘VI“F
    v9un des déf—uts m—jeurs des —r˜res de ™l—ssi(™—tion est leur disposition à ne ™onsiE
dérer que les ™l—sses m—jorit—irement représentées d—ns l9ensem˜le d9—pprentiss—geF €—r
exempleD l— méthode ge‚„ privilégie les ™l—sses domin—ntes d9un jeu de données disE
tri˜uées inég—lement ‘VP“F ƒi le modèle d9une ™l—sse sousEreprésentée est m—l év—luéD
—lors ™ette ™l—sse est souvent ™l—ssée p—rmi l— ™l—sse m—jorit—ire de l9ensem˜le d9—pE
prentiss—geF €our remédier à ™e pro˜lèmeD le ™ritère de s™ission peut être —mélioré
en ™hoisiss—ntD p—r exempleD une entropie dé™entrée ‘VQ“D ou en e'e™tu—ntD soit un surE
é™h—ntillonn—ge de l9ensem˜le sousEreprésenté ‘VR“D soit un sousEé™h—ntillonn—ge de l9enE
sem˜le surEreprésenté ‘VS“F
    hes tr—v—ux ‘TV“ ont montré qu9—près ™onstru™tionD il est souvent né™ess—ire d9él—guer
l9—r˜reF in e'etD lors de l9—pprentiss—geD une ™ontr—inte permet de déterminer si un
noeud est r—isonn—˜lement homogène @si tel est le ™—sD —lors le noeud est un noeud
termin—lAF h—ns le ™—s où ™ette ™ontr—inte est trop forte et qu9il y — du re™ouvrement
entre ™l—ssesD ™ert—ins volumes élément—ires sont insigni(—nts et n9impliquent qu9un
seul exempleF h—ns ™e ™—sD il —pp—r—ît des phénomènes de surE—pprentiss—ge et de surE
é™h—ntillonn—ge de l9esp—™e des des™ripteursF geuxE™i sont résolus grâ™e à l9él—g—geF sl
existe deux gr—ndes f—milles de méthodes ‘VT“ ‘VU“ X soit l9—r˜re o˜tenu est simpli(é
en ™oup—nt toutes les ˜r—n™hes d9un noeudD soit un noeud est rempl—™é p—r l9un des
sousE—r˜res qui en des™endD les exemples des sousE—r˜res disp—rus ét—nt re™l—ssésF
    sl est génér—lement —dmis qu9—u™une de ™es propositions @™hoix du ™ritère de s™isE
sionD —r˜res o˜liquesD logique )oueD él—g—ge F F F A ne dev—n™e une —utre de m—nière sysE
tém—tique en termes de perform—n™e de ™l—ssi(™—tionF gel— dépend du jeu de données
employéD de l— n—ture dis™rète ou ™ontinue des v—ri—˜lesD de l9org—nis—tion intrinsèque
des ™l—sses d—ns l9esp—™e des des™ripteursD du f—it d9être en gr—nde dimension ou nonD
de l— t—ille de l9ensem˜le d9—pprentiss—geD de l— distri˜ution des ™l—sses F F F
2.3.   CLASSIFICATION NON SUPERVISÉE                                                     xxi


2.3 Classication non supervisée
   in —pprentiss—ge non superviséD seules les v—leurs données p—r les des™ripteurs sont
o˜serv—˜lesF ves exemples ne disposent d9—u™un étiquet—ge et le nom˜re de ™l—sses est
in™onnuF gel— ™onstitue les prin™ip—les interrog—tions X ™om˜ien y —EtEil de ™l—sses c itD
en suppos—nt le nom˜re de ™l—sses (xéD ™omment ét—˜lir un ™l—ssi(eur c
    v— première question trouve peu de réponseF ve nom˜re de ™l—sses réellement o˜serE
vées est di0™ilement détermin—˜le s—ns inform—tions — priori et il dépend de l9—ppli™—E
tion ™onsidéréeF v— di0™ulté se résume d—ns le pro˜lème suiv—nt X ™omment di'éren™ier
le ™—s de plusieurs regroupements de données qui ™orrespondent à plusieurs ™l—sses et
le ™—s de regroupements qui ™orrespondent à des modes d9une seule ™l—sseF ƒ—ns —uE
™une inform—tion — priori ou ™ontextuelleD ™el— sem˜le impossi˜leF in rev—n™heD des
™ritères de qu—lité mesurent l— pertinen™e du ™hoix du nom˜re de ™l—sses ‘VV“F €—rmi
™es ™ritèresD ™ert—ins s9—ppuient sur l9indi™e fsg @4 f—yesi—n snform—tion griterion 4A
‘QS“ ou sur le ™ritère esg @4 ek—ike9s snform—tion griterion 4A ‘VW“D ou en™ore sur des
™ritères st—tistiques de dist—n™es ‘WH“ ‘WI“ F F F in(nD d9—utres méthodes sont ˜—sées sur
le prin™ipe de l— v—lid—tion ™roisée ‘WP“F
    v— deuxième question trouve ˜e—u™oup de solutionsF ves premiers tr—v—ux ‘WQ“ ‘WR“
en regroupement non supervisé de données ™onduisent à des méthodes de ™l—ssi(™—tion
hiér—r™hiquesF ve prin™ipe est de ™onsidérer l— p—rtition à une seule ™l—sse qui ™omprend
toutes les o˜serv—tions jusqu9à l— p—rtition où ™h—que o˜serv—tion est une ™l—sseF intres
les deux extrémitésD l9utilis—teur doit ™hoisir l— p—rtition l— plus ré—listeF €our ™el—D les
™ritères de qu—lité qui mesurent l— pertinen™e du ™hoix du nom˜re de ™l—sses sont utilisés
‘VV“ ‘QS“ ‘VW“ ‘WH“ ‘WI“F ge type de ™l—ssi(™—tion hiér—r™hique est simil—ire —ux —r˜res de
™l—ssi(™—tionsF freim—n ‘WS“ propose une méthode d9—pprentiss—ge non supervisé pour
les —r˜res de ™l—ssi(™—tionF v9idée est origin—le X p—rt—nt d9un ensem˜le de points s—ns
l—˜el qui ™onstitue l— première ™l—sseD une se™onde ™l—sse est ™réée —rti(™iellement sur
l— ˜—se d9un tir—ge —lé—toire des des™ripteurs de l— première ™l—sseF in ™onstruis—nt
un —r˜re qui sép—re les deux ™l—ssesD on espère que l— première ™l—sse ser— s™indée en
groupes homogènes qui ™onstituent les 4 ™lusters 4 souh—itésF v— te™hnique ™onsiste
ensuite à déterminer quels sont les groupes qui sont reliés entre euxD p—r exemple vi—
une m—tri™e de proximité ‘WT“F €eu d9—rti™les ont été pu˜liés à ™e sujet et le pro™édé est
di0™ilement —ppli™—˜le pour les ™—s de données dont l9org—nis—tion sp—ti—le n9est p—s
trivi—leF
    €—rmi les modèles de mél—ngesD l— méthode l— plus ™élè˜re d9—pprentiss—ge non suE
pervisé est l— méthode des 4 uEmoyennes 4 ‘WU“ ‘WV“F €—rt—nt d9un nom˜re de points
d9initi—lis—tion ég—l —u nom˜re de regroupements souh—itésD on ™her™he simplement
à regrouper les exemples en groupes homogènes —u sens des des™ripteursF v— méE
thode ™onsiste à étiqueter itér—tivement les individus en fon™tion de leur dist—n™e —ve™
les points d9initi—lis—tion qui ™h—ngent d9une itér—tion à l9—utreF hivers modi(™—tions
™ontri˜uent à l9—™™élér—tion de l9—lgorithme ‘WW“ ou ™her™hent l— meilleure initi—lis—tion
‘IHH“F v— méthode des 4 uEmoyennes 4 est étendue à l— logique )oue à l9—ide l9—lgoE
rithme pgw @4 puzzy gEwe—ns 4A ‘IHI“F eprès —voir regroupé les données p—r p—quets
à l9—ide de l9—lgorithme des uEmoyennesD l9—spe™t )ou se ™—r—™térise p—r l— possi˜ilité
d9—ttri˜uer plusieurs ™l—sses p—r élément ‘IHP“F h9—utres méthodes mél—ngent l9—lgoE
CHAPITRE 2.      LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE

xxii                                                                              L'ART




rithme pgw —ve™ des —ppro™hes )oues de l9estim—tion du m—ximum de vr—isem˜l—n™e
‘IHQ“F v9—lgorithme iw ‘IR“ ‘IS“ ‘IT“ et ses dérivées ƒiwD igwD qiw ‘IU“ ‘IV“ ‘IW“
‘PH“ ™onstituent l9extension pro˜—˜iliste des 4 uEmoyennes 4F sls permettent de trouver
les proportions et les p—r—mètres des modes d9une loi ™i˜leF w—isD ™ontr—irement —u ™—s
de l9—pprentiss—ge supervisé qui ™onsidère que ™h—que ™l—sse peut être modélisée p—r
un mél—nge de loisD en —pprentiss—ge non supervisé une ™l—sse ™orrespond à l9un des
modes du mél—ngeF v9—pprentiss—ge ™onsiste don™ à —pprendre les p—r—mètres des lois de
™h—que ™l—sse —insi que les pro˜—˜ilités — priori de f—çon à m—ximiser l— vr—isem˜l—n™e
des donnéesF
    in(nD les rése—ux de neurones possèdent —ussi leur version de ™l—ssi(™—tion non
superviséeF sniti—lisés p—r les tr—v—ux de qross˜erg ‘IHR“D les v† @4 ve—rning †e™tor
u—ntiz—tion 4A sont un ™—s p—rti™ulier des rése—ux de neuronesF v— méthode qui en
résulte @ƒyw pour 4 ƒelfEyrg—niz—tion w—p 4 ou en™ore —ppelée les 4 g—rtes de uoE
honen 4A ‘IHS“ ‘IHT“ ‘IHU“D forme un rése—u ™omposé de deux ™ou™hesD l9une pour les
entréesD l9—utre qui dé™rit l9org—nis—tion des neurones de m—nière topologiqueF vors de
l9—pprentiss—geD les neurones ™i˜les de l— se™onde ™ou™he for™ent leurs voisins à modi(er
leurs poids en f—veur de l9exemple ™on™ernéF pin—lementD les poids dé™rivent l— densité
et l— stru™ture de l— rép—rtition des ve™teurs d9entréeF
    v9utilis—tion de l9une ou l9—utre de ™es méthodes dépend de l9—ppli™—tion visée et de
l9org—nis—tion intrinsèques des données d—ns l9esp—™e des des™ripteursF he m—nière géE
nér—leD l9—lgorithme des uEmoyennes est le plus utiliséD pour s— simpli™ité et s— r—piditéD
m—is —ussi ™—r il n9est p—s sujet à —ux sou™is d9optimis—tionsF



2.4 Classication faiblement supervisée
   in ™l—ssi(™—tion f—i˜lement superviséeD il existe une in™ertitude sur l— ™l—sse des
exemples d9—pprentiss—geF gette in™ertitude se ™—r—™térise p—r un ve™teur dont les ™omE
pos—ntes sont les pro˜—˜ilités de ™l—ssi(™—tion — priori de ™h—que ™l—sseF v9ensem˜le
d9—pprentiss—ge est don™ ™onstitué des exemples d—ns l9esp—™e des des™ripteurs et des
ve™teurs de pro˜—˜ilité de ™l—ssi(™—tion —sso™iés @™fF équ—tion PFIAF
    €eu de p—piers —˜ordent le ™—s de l9—pprentiss—ge f—i˜lement supervisé sous ™e forE
m—lisme pro˜—˜ilisteF ve ™—s le plus popul—ireD le plus tr—itéD et —y—nt f—it l9o˜jet d9une
m—jorité de pu˜li™—tionsD est le ™—s p—rti™ulier des —nnot—tions qui indiquent quelles
™l—sses sont possi˜les de m—nière équipro˜—˜leF €—r exempleD on p—rle du ™—s 4 préE
sen™eG—˜sen™e 4 en index—tion d9im—ges X ét—nt donnée une ˜—se d9im—ges dont l—
présen™e ou l9—˜sen™e de 4 ™on™epts 4 @™l—ssesA est ™onnue d—ns ™h—que im—ge ‘IHV“
‘IHW“D un modèle de ™l—ssi(™—tion des o˜jets doit être ét—˜liF hes modèles pro˜—˜ilistes
génér—tifs s9—ppuy—nt sur l9—lgorithme iw ‘P“ ‘IIH“ ‘IHV“ ‘IHW“ ou sur les ™h—mps de
w—rkov —lé—toires g—ussien ‘III“ ont été développésD m—is —ussi des modèles dis™rimiE
n—nts qui emploient des te™hniques de type ƒ†w ‘IIP“ ‘IIQ“D ou en™ore des modèles
˜—sés sur du 4 ˜oosting 4 ‘IIR“ ‘IIS“ @voir ™h—pitre R pour le ˜oostingAF ves di'éren™es
entre ™es méthodes portent sur le nom˜re de ™on™epts tr—ités d—ns les im—gesD sur le
nom˜re d9exemples d9—pprentiss—geD sur l— ™omplexité des im—gesD et sur les hypothèses
retenues rel—tivement —ux tr—nsform—tions des fr—gments d9une im—ge à l9—utreF €—r
2.5.   CLASSIFICATION SEMI-SUPERVISÉE                                                  xxiii


exempleD ™ert—ins ™onsidèrent que les régions d9intérêts sont ™onst—ntes en é™helle m—is
qu9elles su˜issent des rot—tions et des tr—nsl—tions ‘IIT“ ‘IIU“D d9—utres ‘IIV“ ‘IIW“D sous
les mêmes hypothèsesD ex—minent les inter—™tions sp—ti—les entre fr—gment d9im—ges —(n
de p—rf—ire le modèleF hes modèles génér—tifs plus ™omplets ‘IPH“ ‘IPI“ permettent de
lo™—liser l9o˜jet tout en pren—nt en ™ompte s— tr—nsl—tionD s— rot—tion et son é™helle
d—ns les im—ges d9—pprentiss—geF e l9inst—r de l9—pprentiss—ge semiEsuperviséD ‚osen˜erg
‘IPP“ montre qu9en —jout—nt des im—ges —nnotées en présen™eG—˜sen™e @f—i˜lement suE
perviséeA à des im—ges —nnotées de m—nière pré™ise @superviséeAD —lors les perform—n™es
de ™l—ssi(™—tion peuvent être —mélioréesF ves mêmes modèles génér—tifs sont utilisés en
segment—tion d9im—ges ‘IPQ“ ou pour l— déte™tion de ™on™epts d—ns des vidéos —nnotées
‘IPR“F
    h9—utres exemples p—rti™uliers proposent un —pprentiss—ge f—i˜lement superviséF ges
le ™—s d9o˜jets d9—pprentiss—ge dire™tement —nnotés p—r des experts ‘IPS“D ou en™oreD
des —ppli™—tions en télédéte™tionD et not—mment en interprét—tion d9im—ges ‘VI“F ve
™—s de l9—™oustique h—lieutique est un ™—s typique d9—pprentiss—ge f—i˜lement supervisé
‘IPT“D il est étudié d—ns l— p—rtie ssF
    in(nD ™ert—ins ™—s d9—sso™i—tions de ™l—ssi(eurs né™essitent l9utilis—tion d9un —pE
prentiss—ge f—i˜lement superviséF €—r exempleD en —pprentiss—ge semiEsupervisé itér—tif
‘Q“D les p—r—mètres du ™l—ssi(eur d9une itér—tion donnée sont estimés sur l— ˜—se des
pro˜—˜ilités de ™l—ssi(™—tion issues de l9itér—tion pré™édenteF
    gomme d—ns l— plup—rt des pro˜lèmes de ™l—ssi(™—tionD il n9existe p—s un modèle qui
est meilleur que les —utresD ™h—que jeu de données ™orrespond à un type de ™l—ssi(eur
en fon™tion des ses ™—r—™téristiques propresF he plusD en ™l—ssi(™—tion f—i˜lement suE
perviséeD il existe l— notion de ™omplexité de l9ensem˜le d9—pprentiss—geD qui est dé(nit
p—r l— n—ture des pro˜—˜ilités de ™l—ssi(™—tion — prioriF ƒi ™es pro˜—˜ilités — priori sont
f—i˜lesD —lors le jeu de données est ™omplexe ™—r les inform—tions sur les ™l—sses sont peu
inform—tivesD en rev—n™heD —ve™ un — priori fortD le jeu de données d9—pprentiss—ge est
peu ™omplexe du f—it de l— pré™ision forte des inform—tions liés —ux l—˜elsF ves tr—v—ux
™ités pré™édemment ne font p—s d9étude des réponses des ™l—ssi(eurs rel—tivement à
l— ™omplexité des l—˜elsD l9idée ét—nt plutôt de trouver le meilleur ™l—ssi(eur pur un
ensem˜le d9—pprentiss—ge donnéeF h—ns le ™h—pitre SD nous —pportons des éléments de
réponsesF


2.5 Classication semi-supervisée
    get ét—t de l9—rt est l—rgement inspiré du livre de gh—pelle ‘Q“ et de l9étude ˜iE
˜liogr—phique de hu ‘IPU“F gepend—ntD leurs ét—ts de l9—rt ne font p—s mention des
méthodes d9—pprentiss—ge semiEsupervisé utilisées pour l— ™l—ssi(™—tion des données
™orrélées @tr—du™tion de l9—ngl—is 4 rel—tion—l d—t— 4AD dont les prin™ip—les —ppli™—tions
sont l— ™l—ssi(™—tion de p—ges we˜F
    v9—pprentiss—ge semiEsupervisé est utilisé qu—nd peu de données l—˜élisées sont disE
poni˜lesF h—ns ™e ™—sD il — été montré que l9introdu™tion de données s—ns l—˜el d—ns
l9ensem˜le d9—pprentiss—ge peut —méliorer les perform—n™es de ™l—ssi(™—tion ‘Q“F sl existe
plusieurs f—milles de méthodesD à s—voirD les modèles génér—tifsD les modèles qui s9—pE
CHAPITRE 2.      LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE

xxiv                                                                              L'ART




puient sur des gr—phesD les modèles dis™rimin—nts et les modèles itér—tifs qui s9—ppuient
sur n9importe quel ™l—ssi(eur de ˜—seF
    v— première f—mille de méthodes regroupe les modèles génér—tifs ‘Q“F ve modèle
employé usuellement se ˜—se sur l9—lgorithme iwF ve prin™ipe est d9estimer l— denE
sité de pro˜—˜ilité jointe des o˜serv—tions et des l—˜elsF gomme en ™l—ssi(™—tion non
supervisée @™fF l— se™tion PFQ du ™h—pitre PAD on suppose que ™h—que ™l—sse suit une denE
sité de pro˜—˜ilité p—r—métriqueD dont on estime les p—r—mètresF w—is ™ontr—irement
—u ™—s non superviséD les ™l—sses sont ™onnuesD il su0t don™ de ™onn—ître un exemple
l—˜élisé p—r ™l—sse pour déduire les p—r—mètres —sso™iés à ™h—™une des ™l—ssesF xous
pouvons ™iter les —rti™les de xig—m qui proposeD vi— l9—lgorithme iwD d9estimer les
p—r—mètres de modèles f—yésien n—ïf q—ussien d—ns le ™—s mono mod—l ‘IPV“ ou multi
mod—l ‘IPW“D et dont les méthodes sont regroupées d—ns le ™h—pitre 4ƒemiEsupervised
text ™l—ssi(™—tion using iw4 du livre 4ƒemiEsupervised le—rning4 ‘Q“F xotons que l9—lE
gorithme génér—tif d9—pprentiss—ge f—i˜lement supervisé de l— se™tion QFPFQ du ™h—pitre
Q est l9un de ™es modèles génér—tifs qui peut être —ppliqué —u ™—s de l9—pprentiss—ge
semiEsuperviséF ges modèles possèdent l9—v—nt—ge d9—voir ˜e—u™oup été étudiés d—ns
l— littér—ture et d9être —ppré™iés pour leur stru™ture pro˜—˜ilisteF in rev—n™heD il est
di0™ile d9év—luer l— justesse des modèles génér—tifs et il f—ut ™onn—ître l— loi ™i˜le pour
™h—que jeux de donnéesF he plusD l9—lgorithme iw est sujet à l— question des minim—s
lo™—ux et ™ert—ines org—nis—tions intrinsèques des données ™onduisent l9—lgorithme vers
de m—uv—ises solutions ‘IQH“F
    v— deuxième gr—nde f—mille de modèles est l9—ppro™he dis™rimin—nteF €—rmi les méE
thodes dis™rimin—ntesD l— méthode des m—™hines à ve™teurs de support semiEsupervisée
est l— plus utilisée ‘Q“F in —ngl—isD on trouve les termes 4 semiEsupervised ƒ†w 4
@ƒQ†wA ou en™ore 4 „r—nsdu™tive ƒ†w 4 @„ƒ†wAF v— méthode ™onsiste à trouver
les ™oe0™ients de l9hyperpl—n qui sép—re les ™l—sses entre elles et tel que l— m—rge soit
m—xim—le @™fF l— se™tion QFQ du ™h—pitre QAF €—r r—pport à l9—pprentiss—ge superviséD
un terme de régul—ris—tion est —jouté d—ns l9équ—tion d9optimis—tionF geluiE™i tient
™ompte des données non l—˜éliséesF ves premières propositions ‘IQI“ m—nqu—ient de
ro˜ustesseD not—mment visEàEvis de l— qu—ntité d9exemples s—ns l—˜elF to—™hims ‘IQP“
propose l— première version ro˜usteF h9—utres p—piers proposent des —mélior—tionsD
™omme p—r exempleD une —d—pt—tion —u ™—s multiE™l—sses ‘IQQ“D un —lgorithme r—pide
pour les ƒQ†w liné—ires ‘IQR“D une dyn—mique de pro˜—˜ilis—tion g—ussienne à l— pl—™e
d9une dyn—mique liné—ire ‘IQS“ F F F w—lgré un form—lisme m—thém—tique —ppré™i—˜le et
de ˜onnes perform—n™esD not—mment pour les jeux de données pour lesquels les ƒ†w
supervisés sont très perform—ntsD ™ette méthode reste sujette —ux points optim—ux loE
™—ux et donne des perform—n™es modestes pour ˜e—u™oup de jeux de donnéesF gh—pelleD
ƒindhw—ni et ueerthi ‘IQT“D proposent une ˜i˜liogr—phie et ™omp—re les résult—ts des
méthodes d9—pprentiss—ge semiEsupervisé qui emploient les ƒ†wF
   ves modèles ˜—sés sur les gr—phes de simil—rité ™onstituent une —utre gr—nde f—mille
de méthodes d9—pprentiss—ge semiEsupervisé ‘Q“F sl existe plusieurs f—çons de ™onstruire
un gr—phe ‘IQU“ ‘IQV“ ‘IQW“F sm—ginez des noeuds de l9esp—™e reliés entre eux p—r des
˜r—n™hesF ves noeuds représentent les exemples —ve™ et s—ns l—˜elsD t—ndis que les
˜r—n™hes représentent les simil—rités entre exemplesF v9—lgorithme des kEplusEpro™hesE
voisins ‘TP“ ‘TT“ ‘TU“ peut être vu ™omme un ™—s p—rti™ulier des gr—phes de simil—ritéD l—
2.5.   CLASSIFICATION SEMI-SUPERVISÉE                                                   xxv


™l—sse —ttri˜uée ™orrespond—nt à l— ™l—sse m—jorit—ire des k exemples l—˜élisés les plus
simil—iresF eve™ les gr—phes de simil—ritéD s9—joute l— notion de dist—n™e entre données
s—ns l—˜elF €—r exempleD le jeu des simil—rités f—it qu9une o˜serv—tion s—ns l—˜elD éloignée
en dist—n™e de tout exemple l—˜éliséD peut être ™onsidérée ™omme pro™he de l9un d9entre
eux p—r l9intermédi—ire d9une —utre o˜serv—tion s—ns l—˜elF v9o˜je™tif est de trouver
une fon™tion de ™l—ssi(™—tion pour le gr—pheF v— méthode ™onsiste en un pro˜lème
de régul—ris—tion où le premier terme de l— fon™tion de ™oût porte sur les données
l—˜élisées et le se™ond terme permet de lisser les solutions sur l9ensem˜le du gr—phe à
l9—ide des exemples s—ns l—˜elF v— di'éren™e entre les méthodes se situe sur l— forme
des fon™tions de ™oûtF €—r exempleD l— fon™tion de ™oût peut s9exprimer en fon™tion de
l9erreur qu—dr—tique de ™l—ssi(™—tion pondérée pour une ™l—ssi(™—tion dite 4 dure 4 @non
pro˜—˜ilisteA ‘IRH“F he l— même f—çonD l— version pro˜—˜iliste exprime le ™oût en fon™tion
des ™h—mps —lé—toires q—ussiens ‘IRI“ ‘IRP“F …n p—pier propose d9utiliser l9—lgorithme
de régul—ris—tion de „ikhonov ‘IRQ“F ve gr—phe peut —ussi être modélisé ™omme un
™h—mp de w—rkov dis™ret ‘IRR“F sl existe ˜e—u™oup de propositions pour les modèles
˜—sés sur les gr—phes de simil—ritéF v9invent—ire présent n9est p—s exh—ustif m—is donne
une idée des —ppro™hes possi˜lesF xotons queD ™omme pour les modèles dis™rimin—ntsD
™es modèles sont ˜in—ires et peuvent s9étendre —u ™—s multiE™l—sses en utilis—nt une
—ppro™he 4 oneEversusE—ll 4F w—lgré l9élég—n™e des modèles m—thém—tiques et les ˜onnes
perform—n™es de ™l—ssi(™—tionD ™e modèle possède quelques déf—utsF „out d9—˜ord ™es
modèles sont fortement dépend—nts de l— f—çon dont sont ™onstruits les gr—phsF ƒ9ils
ne sont p—s ™orre™tement édi(ésD ™el— peut entr—îner de très m—uv—ises perform—n™esF
in(nD ™es modèles ont le déf—ut d9être perform—nts en ™l—ssi(™—tion uniquement sur les
données d9—pprentiss—ge ‘Q“D p—s sur les données de testD ™el— né™essite de ré—pprendre
un ™l—ssi(eur pour ™h—que nouvelle donnéeF
    v— dernière gr—nde f—mille de méthodes d9—pprentiss—ge semiEsupervisé repose sur
l9emploi itér—tif de ™l—ssi(eursF v— version simpliste est le 4 self tr—ining 4 introduit
d—ns les —nnées UH ‘IRS“ et qui est employé d—ns quelques —ppli™—tions de vision p—r
ordin—teurF €—r exempleD un p—pier ‘IRT“ propose de ™om˜iner un ™l—ssi(eur génér—tif
@vi— l9—lgorithme iwA —ve™ un pro™essus de self tr—iningF ve prin™ipe est le suiv—ntF e
une itér—tion donnéeD les exemples l—˜élisés de l9ensem˜le d9—pprentiss—ge ét—˜lissent un
modèle de ™l—ssi(™—tionF ves exemples s—ns l—˜el sont ™l—ssés à l9—ide de ™e ™l—ssi(eurD de
làD les exemples s—ns l—˜el deviennent l—˜élisésF €—rmi ™es exemples fr—i™hement l—˜éliE
sésD les plus pro˜—˜les —u sens de l— pro˜—˜ilité de ™l—ssi(™—tionD sont ™onsidérés ™omme
dé(nitivement l—˜élisés et ils ™ontri˜ueront à l9él—˜or—tion du ™l—ssi(eur de l9itér—tion
suiv—nteF v9—lgorithme est présenté plus en dét—il d—ns l— se™tion RFQ du ™h—pitre RF
ves —v—nt—ges de ™ette méthode sont l— simpli™ité de l9—lgorithme et l9—ppli™—˜ilité à
tout ™l—ssi(eur pro˜—˜ilisteF ves in™onvénients sont l— possi˜le prop—g—tion d9une erE
reur ™ommise lors des premières itér—tions et l— di0™ulté de l9étude de l— ™onvergen™e
‘IRU“ ‘IRV“ et du ™omportement de l9—lgorithmeF ve modèle génér—tif qui s9—ppuie sur
l9—lgorithme iw peut être vu ™omme un ™—s p—rti™ulier du self tr—ining d—ns le sens
où le modèle de ™l—ssi(™—tion évolue à ™h—que itér—tionD —u fur et à mesure que les
exemples sont ™orre™tement ™l—ssésF v— di'éren™e se situe d—ns l9—ttri˜ution d9un l—E
˜el à tous les exemples à ™h—que itér—tionD t—ndis que pour le self tr—iningD seuls les
exemples dont l9indi™e de ™on(—n™e de ™l—ssi(™—tion est su0s—mment élevé se voient
CHAPITRE 2.      LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE

xxvi                                                                              L'ART




—ttri˜uer une ™l—sseF v9—lgorithme itér—tif le plus ™élè˜re est le 4 ™oEtr—ining 4 ‘IRW“F
€—r r—pport —u self tr—iningD le ™oEtr—ining suppose que l9esp—™e des des™ripteurs peut
être s™indé en deux sousEesp—™es indépend—nts tels queD à ™h—que itér—tionD deux ™l—ssiE
(eurs —pprennent ™h—™un un modèle de ™l—ssi(™—tion sur l— ˜—se des deux sous esp—™esF
v— s™ission est e'e™tuée pour réduire l— ™omplexitéD surtout si l9un des deux sousE
ensem˜les est fortement ˜ruitéF h9—utres versions du ™oEtr—ining proposent de s™inder
—lé—toirement l9esp—™e des des™ripteurs à ™h—que itér—tion ‘ISH“F €ier™e et g—rdie ‘ISI“
emploient un ™l—ssi(eur f—yésien n—ïf —ve™ un pro™essus de ™oEtr—iningF sls proposent
—ussi quelques modi(™—tions ™ommeD p—r exempleD le ™hoix —lé—toire d9une ™l—sse @—u
sens de l— distri˜ution des ™l—sses des exemples l—˜élisésA pour l—quelle on ™her™he
l9exemple le plus pro˜—˜le p—rmi les exemples fr—i™hement ™l—ssi(ésF gette proposition
est dis™ut—˜le d—ns le ™—s des —r˜res de ™l—ssi(™—tion dont on s—it qu9ils f—vorisent les
™l—sses m—jorit—ires @™fF l— se™tion PFPFQ du ™h—pitre PAF
    €our ™on™lureD les perform—n™es de toutes ™es méthodes sont liées à l— n—ture des jeux
de données @nom˜re de des™ripteursD nom˜re d9exemples l—˜élisés et nom˜re d9exemples
s—ns l—˜elD re™ouvrement entre ™l—ssesD org—nis—tion sp—ti—le des données F F F AF sl n9y —
p—s vr—iment de méthode idé—le qui domine les —utres et une étude doit être menée
à ™h—que foisF he plusD l9—pprentiss—ge semiEsupervisé fon™tionne m—l qu—nd le jeu de
données est ™omplexe en terme de re™ouvrement entre ™l—sseF einsiD d—ns l— plup—rt des
p—piersD les méthodes sont testées sur des jeux de données pour lesquels l— ™l—ssi(™—tion
est —isée en —pprentiss—ge superviséF h—ns l— ™ommun—uté de l— ™l—ssi(™—tion de p—ges
we˜ ‘PS“ ‘ISP“D on emploie les termes 4 données ™orrélées 4 pour p—rler d9—pprentiss—ge
semiEsuperviséF …n p—pier ‘ISQ“ montre que les deux méthodes utilisées p—r ™ette ™omE
mun—uté sont les modèles ˜—sés sur les gr—phes de simil—rité et les modèles itér—tifsF
h—ns ™e même p—pierD pour un jeu de données p—rti™ulierD on montre que les gr—phes
sont plus perform—nts que les modèles itér—tifs si l— qu—ntité d9individus l—˜ellisés est
très f—i˜leF


2.6 Conclusion
    h—ns ™et ét—t de l9—rtD nous —vons présenté les qu—tre types d9—pprentiss—ge ™ouE
r—mment utilisés X l9—pprentiss—ge superviséD l9—pprentiss—ge non superviséD l9—pprentisE
s—ge f—i˜lement supervisé et l9—pprentiss—ge semiEsupervisé qui se dé™linent en gr—ndes
f—milles de modèles @génér—tifsD dis™rimin—ntsD hy˜ridesAF ve ˜ut ét—nt d9éto'er les
™onn—iss—n™es et de se situer méthodologiquementD les méthodes —sso™iées à ™h—™un de
™es —pprentiss—ges ont été présentées su™™in™tement et nous —vons exposé les prin™ip—les
di'éren™esF
    ve ™h—pitre Q est plus formel qu—nt à l— ™ompréhension des méthodes et —ux déE
veloppements m—thém—tiquesF xous —llons ™hoisir trois modèles de ˜—se @un génér—tifD
un dis™rimin—nt et un hy˜rideA que nous dé™linerons sous leurs formes supervisées et
f—i˜lement superviséesF
CHAPITRE

                 3           Classication faiblement
                             supervisée : modèles
                             proposés



3.1 Introduction


3.1.1 Généralités


    v9o˜je™tif de ™e ™h—pitre est de déterminer quelle méthode usuelle répond —u mieux
en —pprentiss—ge f—i˜lement supervisé et de ™omprendre le fon™tionnement propre à
™h—™une de ™es méthodesF xous ™hoisissons don™ volont—irement un l—rge spe™tre de
méthodes @d—ns le sens où les —ppro™hes méthodologiques se distinguent fortementAF
xous —vons ™hoisi un modèle génér—tifD un modèle dis™rimin—nt et un modèle hy˜ride
que nous dé™linons sous leur forme ™onnue d9—pprentiss—ge superviséD puis sous une
forme d9—pprentiss—ge f—i˜lement superviséF ves deux types d9—pprentiss—ge sont préE
sentés ™onjointement de m—nière à ˜ien ™omprendre les fondements des méthodes et
les liens étroits exist—nt entre l9—pprentiss—ge supervisé et l9—pprentiss—ge f—i˜lement
superviséF
    ve ™—s de l9—pprentiss—ge f—i˜lement supervisé ™onsidéré d—ns ™e ™h—pitre est di'éE
rent de ™elui ren™ontré h—˜ituellement d—ns l— littér—tureF gontr—irement —ux données
d9—pprentiss—ge dont l9inform—tion sur les ™l—sses est donnée p—r des ve™teurs ˜in—ires
qui indiquent quelles sont les ™l—sses possi˜lesD nous nous pl—çons d—ns le ™—s génér—l
d9un ve™teur qui donne les pro˜—˜ilités de ™l—ssi(™—tion — priori pour ™h—que ™l—sseF
€lus génér—lement en™oreD nous ™onsidérons un ensem˜le d9im—ges ou de do™uments
™onten—nt des o˜jetsD telles que les distri˜utions — priori des ™l—sses sont ™onnues d—ns
les im—ges ou les do™umentsF
   ev—nt de présenter les modèles de ™l—ssi(™—tion d—ns les se™tions QFP QFQ QFRD les
not—tions seront introduitesF ves perform—n™es de ™l—ssi(™—tion de ™es modèles seront
présentées d—ns le ™h—pitre S pour plusieurs jeux de données du dom—ine pu˜li™F
CHAPITRE 3.       CLASSIFICATION FAIBLEMENT SUPERVISÉE :

xxviii                                                            MODÈLES PROPOSÉS




3.1.2 Notations
    in ™l—ssi(™—tion superviséeD l9ensem˜le d9—pprentiss—ge est noté {xn , yn }1≤n≤N D où
xn représente l9o˜serv—tion d—ns l9esp—™e des des™ripteursD t—ndis que yn = i indique
que xn est de l— ™l—sse iF h—ns le ™—s des ™l—ssi(eurs ˜in—ires @™l—ssi(™—tion à deux
™l—ssesAD yn peut prendre les v—leurs +1 ou −1F
    in ™l—ssi(™—tion f—i˜lement superviséeD K indique le nom˜re d9im—ges d9—pprentisE
s—geF v9im—ge d9—pprentiss—ge indi™ée p—r k ™ontient N (k) o˜jets dé™rits d—ns l9esp—™e
des des™ripteurs p—r {xkn }1≤k≤K,1≤n≤N (k) F gh—que im—ge d9—pprentiss—ge est —sso™iée à
un ve™teur l—˜el πk F ves ™ompos—ntes πki du ve™teur l—˜el donnent l— proportion de l—
™l—sse i d—ns l9im—ge k F ges proportions peuvent être vues ™omme l9— priori de l— ™l—sse
i d—ns l9im—ge k telle que πki = p (ykn = i)D ∀nF xous notons ykn = i si l9o˜jet xkn est
—sso™ié à l— ™l—sse iF xotons que i πki = 1F v9étiquette glo˜—le de l9im—ge est r—menée
à l9é™helle de l9o˜jetD donn—nt un l—˜el individuel — prioriF v9ensem˜le d9—pprentiss—ge
peut don™ s9é™rire X {xkn , πk }1≤k≤K,1≤n≤N (k) F
   v9o˜je™tif des méthodes est d9ét—˜lir un modèle de ™l—ssi(™—tion des o˜jets à p—rtir
du jeu de données d9—pprentiss—geF ƒi Θ sont les p—r—mètres du modèleD —lors nous
         ˆ
év—luons Θ d—ns un premier tempsD puis l— pro˜—˜ilité de ™l—ssi(™—tion p y = i|x, Θ ˆ
ét—nt donné l9exemple test xF


3.2 Modèle génératif
3.2.1 Introduction
   h—ns le ™h—pitre QFPD nous étudions un modèle génér—tif ˜—sé sur l9—lgorithme iwF
v— méthode ™onsiste à ™onsidérer que les données sont ™onstituées de modes g—ussiens
dont nous ™her™hons à év—luer les moments d9ordre I et PF
   „out d9—˜ordD d—ns l— se™tion QFPFPD nous présentons l— méthode sous s— forme l—
plus ™onnue X d—ns le ™—s de l9—pprentiss—ge superviséF €uisD d—ns l— se™tion QFPFQD l—
pro™édure est étendue —u ™—s de l9—pprentiss—ge f—i˜lement superviséF


3.2.2 Classication supervisée
   in guise de modèle génér—tifD nous étudions les mél—nges de q—ussiennes dont les
p—r—mètres sont estimés à l9—ide de l9—lgorithme iw qui m—ximise l— vr—isem˜l—n™e à
™h—que itér—tionF yn se pl—™e d—ns le ™—s de N ré—lis—tions {x1 , . . . , xN } d9une v—ri—˜le
—lé—toire X dont l— densité est un mél—nge de g—ussiennesF gel— suppose que nous
™onsidérons les données d9une ™l—sse rép—rties de m—nière mod—leD ™h—que mode ét—nt
modélisé p—r une g—ussienneF v9o˜je™tif de l9—pprentiss—ge est d9estimer les p—r—mètres
de ™h—™une des g—ussiennesF
  ƒoit l— v—ri—˜le —lé—toire S telle que snim = 1 si l— ré—lis—tion xn provient du
mode m de l— ™l—sse iD et snim = 0 sinonF xous en déduisons que ρim = p (sim )D —ve™
 M
 m=1 ρim = 1F
3.2.   MODÈLE GÉNÉRATIF                                                                          xxix


    ƒoit Θ = {ρim , µim , Σim }i,m les p—r—mètres d9un modèle de mél—nge g—ussienD où M
est le nom˜re de modes p—r ™l—sseD ρim est l— proportion du mode m de l— ™l—sse iD µim
est l— moyenne du mode m de l— ™l—sse i et Σim est l— m—tri™e de ™ov—ri—n™e du mode
m de l— ™l—sse iF v— fon™tion densité s9é™rit X
                                                  M
                           p (x|y = i, Θ) =             ρim N (x|µim , Σim )                     @QFIA
                                               m=1

    X est une o˜serv—tion in™omplète que l9on peut ™ompléter p—r l— v—ri—˜le ™—™hée
S F einsi f—itD le ™ritère du m—ximum de vr—isem˜l—n™e — posteriori peut être employéF
gepend—ntD l— m—ximis—tion de l— logEvr—isem˜l—n™e ™omplétée est di0™ileF v9—stu™e
de l9—lgorithme iw est de ™ontourner ™e ™—l™ul vi— l— m—ximis—tion de l9espér—n™e
™onditionnelle de l— logEvr—isem˜l—n™e ™omplétée p—r r—pport à ΘF in not—nt Θc les
p—r—mètres ™our—nts o˜tenus soit p—r ™—l™ulD soit p—r initi—lis—tionD l9estimé des p—r—E
mètres à l9itér—tion suiv—nte s9é™rit don™ X
                                   ˆ
                                   Θ = arg max {Q(Θ, Θc )}                                       @QFPA
                                               Θ

où
            Q(Θ, Θc ) = E [log p (x, s|Θ) |x, Θc ] =                p(s|x, Θc ) log p(x, s, Θ)   @QFQA
                                                                s
F yrD en suppos—nt les o˜serv—tions {xn } indépend—ntesD nous pouvons é™rire X
       
                                 N                     N
       
        log p(x, s, Θ) = log
       
                                    p(xn , sn , Θ) =     log [N (x|µ, Σ)p(sn )]
       
                        N
                               n=1                    n=1
                                                                                 .               @QFRA
                                      c
        p(s|x, Θc ) =
       
                          p(sn |xn , Θ )
       
                       n=1

pin—lementD en su˜stitu—nt les éléments de l9équ—tion @QFQA et en se fo™—lis—nt sur l—
™l—sse iD nous o˜tenons l9expression suiv—nte X
                              N    M
                       c
               Q(Θ, Θ ) =               log [ρim N (x|µim , Σim )] p(snim |xn , Θc )             @QFSA
                              n=1 m=1

xous voulons m—ximiser Q(Θ, Θc ) p—r r—pport à ΘF einsiD en ™onsidér—nt Θc ™omme
un p—r—mètre ™onst—ntD et ™omme prélimin—ire à l— m—ximis—tion nous ™—l™ulons
p(snim |xn , Θc ) d—ns une première ét—peF v— règle d9inversion de f—yes donne X
                                                    ρim p (xn |snim , Θc )
                           p(snim |xn , Θc ) =      M
                                                                                                 @QFTA
                                                          ρil p (xn |snil , Θc )
                                                    l=1


   €our trouver le p—r—mètre ρim qui m—ximise Q(Θ, Θc )D nous utilisons les multipliE
™—teurs de v—gr—nge —ve™ l— ™ontr—inte M ρim = 1F xous o˜tenons X
                                       m=1

                                              N
                                          1
                                  ρim   =           p(snim |xn , Θc )                            @QFUA
                                          N   n=1
CHAPITRE 3.         CLASSIFICATION FAIBLEMENT SUPERVISÉE :

xxx                                                                         MODÈLES PROPOSÉS




ves moyennes et v—ri—n™es sont o˜tenues p—r dériv—tion X
                                         N
                                              p (snim |xn , Θc ) xn
                                        n=1
                               µim =      N
                                                                                          @QFVA
                                                                 c
                                                 p (snim |xn , Θ )
                                          n=1

                           N
                                 p (snim |xn , Θc ) (xn − µim ) (xn − µim )T
                           n=1
                   Σim =                     N
                                                                                          @QFWA
                                                 p (snim |xn , Θc )
                                          n=1

€uis les p—r—mètres ™our—nts sont estimés à nouve—uD et le pro™essus est itéré jusqu9à
™onvergen™eF v9—lgorithme est résumé d—ns le t—˜le—u QFIF
    vors de l— ph—se de testD l— pro˜—˜ilité pour qu9un individu quel™onque x soit de l—
™l—sse i est donnée p—r l— pro˜—˜ilité de ™l—ssi(™—tion — posteriori X
                                                 M
                         p(y = i|x, Θ) =               ρim N (x|µim , Σim )              @QFIHA
                                                 m=1


    sl existe une version sto™h—stique de ™et —lgorithmeF v9—lgorithme ƒiw ‘IU“ — pour
o˜je™tif d9éviter d9—˜outir à un m—ximum lo™—l de vr—isem˜l—n™eF €our ™el—D entre les
ét—pes i et wD les individus sont ™l—ssés p—r r—pport —ux di'érents modes à l9—ide d9un
tir—ge —lé—toire suiv—nt l— densité de pro˜—˜ilité dis™rète {p(snim |xn )}i F


3.2.3 Classication faiblement supervisée
    €our le ™—s de l9—pprentiss—ge f—i˜lement superviséD nous nous sommes —ppuyés sur
les tr—v—ux développés d—ns ‘ISR“F ge p—pier propose de résoudre l9—lgorithme iw pour
des données f—i˜lement l—˜elliséesF ge dernier tr—ite uniquement le ™—s d9o˜serv—tion
dont le l—˜el indique l— présen™e ou l9—˜sen™e de ™l—sses d—ns un groupe d9o˜jetsF xous
—vons —d—pté l9—lgorithme —u ™—s des l—˜els qui indiquent l— proportion des ™l—sses d—ns
un groupe d9o˜jetsF
   ƒoit Θ = {ρim , µim , Σim }i,m les p—r—mètres d9un modèle de mél—nge de g—ussiennes X
                                                 M
                        p (x|y = i, Θ) =               ρim N (x|µim , Σim )              @QFIIA
                                                 m=1

€our un ensem˜le d9—pprentiss—ge de l— forme {xkn , πk } qui est l—˜ellisé en proportionD
le ™ritère de m—ximis—tion de l— vr—isem˜l—n™e peut être dé(nit p—r X
                                                              K N (k)
                 ˆ
                 Θ = arg max p(π|x, Θ) = arg max                        p(πk |xkn , Θ)   @QFIPA
                           Θ                              Θ
                                                              k=1 n=1
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort
These lefort

Contenu connexe

En vedette

A la sombra de la rosa
A la sombra de la rosaA la sombra de la rosa
A la sombra de la rosaLUZ M.
 
Miraglia La Sirenetta
Miraglia La SirenettaMiraglia La Sirenetta
Miraglia La Sirenettadinamaragno
 
Standard fci braque de weimar
Standard fci braque de weimarStandard fci braque de weimar
Standard fci braque de weimarelyaneforet
 
8 minutos
8 minutos8 minutos
8 minutosLUZ M.
 
Amor en lata de leche
Amor en lata de lecheAmor en lata de leche
Amor en lata de lecheLUZ M.
 
La cité état de sparte
La cité état de sparteLa cité état de sparte
La cité état de sparteminicoco8
 
Redes informaticas
Redes informaticasRedes informaticas
Redes informaticasrocanela
 
Las drogas maicol martinez 8 5
Las drogas maicol martinez 8 5Las drogas maicol martinez 8 5
Las drogas maicol martinez 8 5MAIUNIC
 
La revolución mexicana
La revolución mexicanaLa revolución mexicana
La revolución mexicanarocanela
 
El arte de iman maleki
El arte de iman malekiEl arte de iman maleki
El arte de iman malekiLUZ M.
 
De mujer a_mujer
De mujer a_mujerDe mujer a_mujer
De mujer a_mujerLUZ M.
 
Blogg de informatic a
Blogg de informatic aBlogg de informatic a
Blogg de informatic aIngrid Isaza
 
Standard fci 282 grand griffon vendéen
Standard fci 282 grand griffon vendéenStandard fci 282 grand griffon vendéen
Standard fci 282 grand griffon vendéenelyaneforet
 
Comparación entre angedas digitales peruanas
Comparación entre angedas digitales peruanasComparación entre angedas digitales peruanas
Comparación entre angedas digitales peruanasjadfr
 
Producto 6 (individual)
Producto 6 (individual)Producto 6 (individual)
Producto 6 (individual)AdrianaAmu
 
Standard fci flat coated retriever
Standard fci flat coated retrieverStandard fci flat coated retriever
Standard fci flat coated retrieverelyaneforet
 
Standard parson russell terrier
Standard parson russell terrierStandard parson russell terrier
Standard parson russell terrierelyaneforet
 

En vedette (20)

Descripcion del curso
Descripcion del cursoDescripcion del curso
Descripcion del curso
 
A la sombra de la rosa
A la sombra de la rosaA la sombra de la rosa
A la sombra de la rosa
 
Miraglia La Sirenetta
Miraglia La SirenettaMiraglia La Sirenetta
Miraglia La Sirenetta
 
Standard fci braque de weimar
Standard fci braque de weimarStandard fci braque de weimar
Standard fci braque de weimar
 
8 minutos
8 minutos8 minutos
8 minutos
 
Amor en lata de leche
Amor en lata de lecheAmor en lata de leche
Amor en lata de leche
 
La cité état de sparte
La cité état de sparteLa cité état de sparte
La cité état de sparte
 
Redes informaticas
Redes informaticasRedes informaticas
Redes informaticas
 
Las drogas maicol martinez 8 5
Las drogas maicol martinez 8 5Las drogas maicol martinez 8 5
Las drogas maicol martinez 8 5
 
+ Nabucco.
+ Nabucco. + Nabucco.
+ Nabucco.
 
La revolución mexicana
La revolución mexicanaLa revolución mexicana
La revolución mexicana
 
El arte de iman maleki
El arte de iman malekiEl arte de iman maleki
El arte de iman maleki
 
De mujer a_mujer
De mujer a_mujerDe mujer a_mujer
De mujer a_mujer
 
Redessociales{milton
Redessociales{miltonRedessociales{milton
Redessociales{milton
 
Blogg de informatic a
Blogg de informatic aBlogg de informatic a
Blogg de informatic a
 
Standard fci 282 grand griffon vendéen
Standard fci 282 grand griffon vendéenStandard fci 282 grand griffon vendéen
Standard fci 282 grand griffon vendéen
 
Comparación entre angedas digitales peruanas
Comparación entre angedas digitales peruanasComparación entre angedas digitales peruanas
Comparación entre angedas digitales peruanas
 
Producto 6 (individual)
Producto 6 (individual)Producto 6 (individual)
Producto 6 (individual)
 
Standard fci flat coated retriever
Standard fci flat coated retrieverStandard fci flat coated retriever
Standard fci flat coated retriever
 
Standard parson russell terrier
Standard parson russell terrierStandard parson russell terrier
Standard parson russell terrier
 

Plus de fatmakarem

3nouveautesmoodle2v1 111219173259-phpapp02
3nouveautesmoodle2v1 111219173259-phpapp023nouveautesmoodle2v1 111219173259-phpapp02
3nouveautesmoodle2v1 111219173259-phpapp02fatmakarem
 
4reseausociauxportfolioetblogsquelsavantagespdagogiques 111220175343-phpapp01
4reseausociauxportfolioetblogsquelsavantagespdagogiques 111220175343-phpapp014reseausociauxportfolioetblogsquelsavantagespdagogiques 111220175343-phpapp01
4reseausociauxportfolioetblogsquelsavantagespdagogiques 111220175343-phpapp01fatmakarem
 
Sapev gabes 2012_atelier
Sapev gabes 2012_atelierSapev gabes 2012_atelier
Sapev gabes 2012_atelierfatmakarem
 
Presentation egc2012v2final
Presentation egc2012v2finalPresentation egc2012v2final
Presentation egc2012v2finalfatmakarem
 
Presentationbelief2012
Presentationbelief2012Presentationbelief2012
Presentationbelief2012fatmakarem
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karemfatmakarem
 
+Lelandais belief
+Lelandais belief+Lelandais belief
+Lelandais belieffatmakarem
 

Plus de fatmakarem (7)

3nouveautesmoodle2v1 111219173259-phpapp02
3nouveautesmoodle2v1 111219173259-phpapp023nouveautesmoodle2v1 111219173259-phpapp02
3nouveautesmoodle2v1 111219173259-phpapp02
 
4reseausociauxportfolioetblogsquelsavantagespdagogiques 111220175343-phpapp01
4reseausociauxportfolioetblogsquelsavantagespdagogiques 111220175343-phpapp014reseausociauxportfolioetblogsquelsavantagespdagogiques 111220175343-phpapp01
4reseausociauxportfolioetblogsquelsavantagespdagogiques 111220175343-phpapp01
 
Sapev gabes 2012_atelier
Sapev gabes 2012_atelierSapev gabes 2012_atelier
Sapev gabes 2012_atelier
 
Presentation egc2012v2final
Presentation egc2012v2finalPresentation egc2012v2final
Presentation egc2012v2final
 
Presentationbelief2012
Presentationbelief2012Presentationbelief2012
Presentationbelief2012
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karem
 
+Lelandais belief
+Lelandais belief+Lelandais belief
+Lelandais belief
 

These lefort

  • 1. N° d’ordre : 2010telb0164 Sous le sceau de l’Université européenne de Bretagne Télécom Bretagne En habilitation conjointe avec l’Université de Rennes 1 Co-tutelle avec l’Ifremer Ecole Doctorale – MATISSE Apprentissage et classification faiblement supervisée : Application en acoustique halieutique Thèse de Doctorat Mention : Traitement du signal Présentée par Riwal Lefort Département : Signal et Communication Laboratoire : Labsticc Pôle : CID Directeur de thèse : Jean-Marc Boucher Soutenue le 29 novembre 2010 Jury : M. Frédéric Jurie, professeur, université de Caen (Rapporteur) Mme Pascale Kuntz, professeur, université de Nantes (Rapporteur) M. Jean-Marc Boucher, professeur, Telecom Bretagne (Directeur de thèse) M. Laurent Miclet, professeur, université de Rennes1 (Examinateur) M. Ronan Fablet, enseignant-chercheur, Telecom Bretagne (Examinateur) M. Carla Scalabrin, chercheur, Ifemer (Examinateur) M. Laurent Berger, Ifremer (Invité)
  • 2.
  • 3. Table des matières Table des matières v 1 Introduction générale vii I Classication automatique et apprentissage faiblement su- pervisé xi 2 Les modèles de classication usuels : état de l'art xiii PFI sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xiii PFP gl—ssi(™—tion supervisée F F F F F F F F F F F F F F F F F F F F F F F F F F xiv PFPFI wodèle génér—tif F F F F F F F F F F F F F F F F F F F F F F F F F F xv PFPFP wodèle dis™rimin—nt F F F F F F F F F F F F F F F F F F F F F F F F xvi PFPFQ wodèle hy˜ride X —r˜res de ™l—ssi(™—tion F F F F F F F F F F F F F xix PFQ gl—ssi(™—tion non supervisée F F F F F F F F F F F F F F F F F F F F F F F F xxi PFR gl—ssi(™—tion f—i˜lement supervisée F F F F F F F F F F F F F F F F F F F F xxii PFS gl—ssi(™—tion semiEsupervisée F F F F F F F F F F F F F F F F F F F F F F F xxiii PFT gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxvi 3 Classication faiblement supervisée : modèles proposés xxvii QFI sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxvii QFIFI qénér—lités F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxvii QFIFP xot—tions F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxviii QFP wodèle génér—tif F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxviii QFPFI sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxviii QFPFP gl—ssi(™—tion supervisée F F F F F F F F F F F F F F F F F F F F F F xxviii QFPFQ gl—ssi(™—tion f—i˜lement supervisée F F F F F F F F F F F F F F F F xxx QFQ wodèle dis™rimin—nt F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxxiii
  • 4. iv TABLE DES MATIÈRES QFQFI gl—ssi(™—tion supervisée F F F F F F F F F F F F F F F F F F F F F F xxxiv QFQFP gl—ssi(™—tion f—i˜lement supervisée F F F F F F F F F F F F F F F F xli QFR er˜res de ™l—ssi(™—tion F F F F F F F F F F F F F F F F F F F F F F F F F F F xlii QFRFI gl—ssi(™—tion supervisée F F F F F F F F F F F F F F F F F F F F F F xlii QFRFP gl—ssi(™—tion f—i˜lement supervisée F F F F F F F F F F F F F F F F xliv QFS gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xlv 4 Association de classieurs xlvii RFI sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xlvii RFP insem˜le de ™l—ssi(eurs F F F F F F F F F F F F F F F F F F F F F F F F F F xlvii RFPFI it—t de l9—rt F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xlviii RFPFP ‚—ndom forest X —pprentiss—ge supervisé F F F F F F F F F F F F F xlix RFPFQ ‚—ndom forest X —pprentiss—ge f—i˜lement supervisé F F F F F F F l RFQ gl—ssi(™—tion itér—tive F F F F F F F F F F F F F F F F F F F F F F F F F F F li RFQFI epprentiss—ge itér—tif simple F F F F F F F F F F F F F F F F F F F F li RFQFP epprentiss—ge itér—tif —mélioré F F F F F F F F F F F F F F F F F F F lii RFR gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F liii 5 Evaluations et performances des modèles lv SFI sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lv SFP €ro™édure de simul—tion F F F F F F F F F F F F F F F F F F F F F F F F F F lv SFQ teux de données F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lvi SFR €erform—n™es F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lvii SFRFI ghoix des p—r—mètres F F F F F F F F F F F F F F F F F F F F F F F F lvii SFRFP €erform—n™es en fon™tion de l— ™omplexité des données d9—pprenE tiss—ge F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lix SFRFQ €erform—n™es en fon™tion du nom˜re de ™l—sses d—ns les mél—nges lx SFS gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxiii II Classication automatique en acoustique halieutique lxvii 6 Sondeurs acoustiques et logiciels de traitement lxix TFI sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxix TFP ƒondeur monof—is™e—u F F F F F F F F F F F F F F F F F F F F F F F F F F F lxx TFQ ƒondeur multif—is™e—ux F F F F F F F F F F F F F F F F F F F F F F F F F F F lxxii TFR gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxxiii
  • 5. TABLE DES MATIÈRES v 7 Classication et reconnaissance des structures lxxvii UFI sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxxvii UFP it—t de l9—rt F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxxviii UFQ gl—ssi(™—tion et re™onn—iss—n™e des ˜—n™s de poissons F F F F F F F F F F lxxix UFQFI hes™ripteurs des ˜—n™s Ph F F F F F F F F F F F F F F F F F F F F F lxxix UFQFP hes™ripteurs des ˜—n™s Qh F F F F F F F F F F F F F F F F F F F F F lxxx UFQFQ €erform—n™es de ™l—ssi(™—tion X f—n™s Ph F F F F F F F F F F F F F lxxxiii UFR gl—ssi(™—tion et re™onn—iss—n™e des ensem˜les de ˜—n™s de poissons F F lxxxiv UFRFI €ré—m˜ule F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxxxiv UFRFP hes™ripteur glo˜—l proposé F F F F F F F F F F F F F F F F F F F F F lxxxv UFRFQ €erform—n™es F F F F F F F F F F F F F F F F F F F F F F F F F F F F x™ UFRFR ƒynthèse F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ™i UFS gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ™ii 8 Application à l'évaluation des biomasses des espèces halieutiques dans le Golfe de Gascogne cv VFI sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ™v VFP wéthode de l9expert pour l9év—lu—tion de ˜iom—sses F F F F F F F F F F F ™vi VFQ wéthodes —lgorithmiques d9év—lu—tion de ˜iom—sses F F F F F F F F F F F ™ix VFR gl—ssi(™—tion de ˜—n™s de poissons pour l9év—lu—tion de ˜iom—sses F F F ™x VFRFI gomment év—luer l— ˜iomm—sse F F F F F F F F F F F F F F F F F F ™x VFRFP …n ™ritère d9optimis—tion des p—r—mètres des ™l—ssi(eurs F F F F ™xii VFS €erform—n™es F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ™xiii VFSFI ƒimul—tion d9un s™én—rio F F F F F F F F F F F F F F F F F F F F F F ™xiii VFSFP g—mp—gne €ivqeƒHH F F F F F F F F F F F F F F F F F F F F F F F ™xiv VFSFQ his™ussion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ™xxi VFT gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ™xxvi 9 Conclusion Générale cxxvii III Annexes et Bibliographie cxxxiii
  • 6.
  • 7. CHAPITRE 1 Introduction générale gette thèse tr—iteD d9une p—rtD de l— ™l—ssi(™—tion —utom—tique d—ns un ™—dre d9—pE prentiss—ge f—i˜lement superviséD et d9—utre p—rtD de l9—™oustique h—lieutiqueF ve m—E nus™rit est s™indé en deux p—rties prin™ip—les X les méthodes d9—pprentiss—ge d9un point de vue théorique @p—rtie sA et l9—ppli™—tion de ™es méthodes d—ns le ™ontexte de l9—™ousE tique h—lieutique @p—rtie ssAF h—ns ™e premier ™h—pitre introdu™tifD nous ™ommençons p—r dé(nir l— pro˜lém—tique de l9intelligen™e —rti(™ielle d—ns son ensem˜leD puisD ™elle de l9—pprentiss—ge f—i˜lement superviséD ensuiteD nous introduisons le dom—ine de l9—™ousE tique h—lieutiqueD et en(nD le pl—n de ™ette thèse est présentée su™™in™tementF h—ns l9ensem˜le des dom—ines de re™her™heD ™elui de l9intelligen™e —rti(™ielle est ex™essivement proli(queF v9intelligen™e —rti(™ielle ™onsiste à —n—lyser et tr—iter des siE gn—ux numériquesD tels que des photogr—phiesD des vidéosD des sonsD des r—diogr—phiesD des é™hogr—phiesD des im—ges r—d—r @s—tellitesD —éron—utiqueD —utomo˜ileD et™AD des p—ges we˜D des do™uments m—nus™rits @—n—lyse de l— sém—ntiqueAD ou en™oreD toute entité qui se dé™rit de m—nière numériqueF ves méthodes proposées s9inspirent souvent de l9hommeD l9o˜je™tif ét—nt de développer des outils d9—n—lyse et de tr—itement dont les perform—n™es sont —u moins équiv—lentes à ™elles du ™erve—u hum—inF v— question fond—ment—le est résumée d—ns l9exemple suiE v—nt X si l9homme —rrive à di'éren™ier un o˜jet d9un —utre d—ns une im—geD pourquoi un ordin—teur n9y —rriver—itEil p—s c get —™h—rnement s™ienti(que est prin™ip—lement moE tivé p—r le très fort potentiel des outils inform—tiquesF einsiD l9import—n™e de p—rvenir à ™e ˜ut et qui justi(e que l9intelligen™e —rti(™ielle ™on™entre une m—jorité de reg—rds et d9intérêtsD réside d—ns l9énorme ™—p—™ité de ™—l™uls et de mémoires des ordin—teursF ve dom—ine de l9intelligen™e —rti(™ielle peut être s™indé en une multitude de ™—tégoriesF €—rmi les dis™iplines ™ommunesD on peut ™iter le tr—™king @suivi des stru™tures déforE m—˜les ou indéform—˜les d—ns une vidéoAD l— déte™tion de texture d—ns des im—gesD l— ™l—ssi(™—tion @—ttri˜ution d9une ™l—sse à une im—geD à une portion d9im—geD à un pixelD et à toute entité qui peut être ™l—ssée d—ns une ™—tégorieAD l— re™onn—iss—n™e de formes @déte™tion du ™ontour d9un o˜jet d—ns une im—geAD l— rédu™tion de l— dimension des données @p—r exemple en ™ompression de donnéesAD l— fusion de données @l— réponse à une question posée se ˜—se sur une o˜serv—tion multiE™—pteur et ™ontextuelleAD et™F in intelligen™e —rti(™ielleD les ™her™heurs proposent des modélis—tions m—thém—tiques plus ou moins ™omplexes qui donnent l— solution à une question poséeF ges modèles peuvent être représentés p—r une ˜oite noire dont l9entrée est le sign—l issu du ™—pteur et dont l— sortie fournit une réponse à l— question poséeF v— plup—rt des modèles et
  • 8. viii CHAPITRE 1. INTRODUCTION GÉNÉRALE des —ppro™hes proposés sont tr—nsverses X ils sont utilisés d—ns plusieurs dis™iplines en même tempsF €—r exempleD le même modèle m—thém—tique de suivi d9o˜jet peut être utilisé pour suivre une ™i˜le d—ns une im—ge r—d—r ou pour suivre un o˜jet d—ns une vidéoF he l— même m—nièreD un modèle m—thém—tique peut servir à l— foisD de ™l—ssiE (eur d9o˜jets d—ns des im—gesD de ™l—ssi(eur de types de sonsD de ™l—ssi(eur de p—ges we˜D de ™l—ssi(eur de do™uments m—nus™ritsD et™F gette rem—rque justi(e le pl—n géE nér—l de l— thèse X plutôt que de proposer des méthodes de tr—itement du sign—l d—ns un ™—dre —ppli™—tifD nous nous pl—çons d9—˜ord d—ns le ™—s génér—l qui —utorise toute tr—nsvers—litéD puis nous étudions une —ppli™—tion possi˜le des méthodes proposéesF h—ns ™ette thèseD d—ns l— p—rtie s dédiée à l9—ppro™he théorique et génér—leD nous nous pl—çons d—ns le ™—s de l— ™l—ssi(™—tion d9o˜jetsD ™euxE™i ét—nt des entités dé(nies p—r un ensem˜le de des™ripteursD p—r exemple les ™—r—™téristiques des formes des o˜E jets pré—l—˜lement déte™tés d—ns une im—geF v— question théorique prin™ip—le que nous nous posons est X gomment r—nger ™es o˜jets d—ns des ™l—sses c yu ™omment —ttri˜uer un l—˜el à ™h—que o˜jet c xous dé(nissons un l—˜el ™omme ét—nt l— ™l—sse —sso™iée à un o˜jetF sm—ginonsEnous une ˜oite noire qui prend un o˜jet s—ns l—˜el en entrée et dont l— sortie renseigne sur les ™l—sses pro˜—˜lesF gette ˜oite noire ™ontient un modèle de ™l—ssi(™—tionF geuxE™i sont très nom˜reux et les —ppro™hes sont très v—ri—˜lesF ges modèles de ™l—ssi(™—tions dépendent de p—r—mètres @propres à ™h—que méthodeA qui sont déterminés lors d9une ph—se d9—pprentiss—geF v9—pprentiss—ge des modèles de ™l—sE si(™—tion est e'e™tué à p—rtir d9un ensem˜le d9o˜jets @ou de donnéesA d9—pprentiss—ge qui sont plus ou moins l—˜élisésF in e'etD il existe plusieurs types d9—pprentiss—ge qui dépendent de l— ™onn—iss—n™e plus ou moins ex—™te des l—˜els des données d9—pprentisE s—geF ƒi tous les l—˜els sont ™onnusD on p—rle d9—pprentiss—ge superviséF in —pprentiss—ge semiEsuperviséD seule une p—rtie des données est l—˜éliséeD l9—utre ne l9est p—sF in —pE prentiss—ge non superviséD les données ne sont p—s l—˜éliséesD l9o˜je™tif est de regrouper les o˜jets en p—quets de données simil—iresF in(nD l9—pprentiss—ge f—i˜lement supervisé génér—lise le ™—s supervisé et semiEsupervisé X les données d9—pprentiss—ge sont —sso™iées à un ve™teur dont ™h—que ™ompos—nte donne l— pro˜—˜ilité — priori d9—ttri˜ution de l9o˜jet ™onsidéré à ™h—que ™l—sse respe™tivementF v9origin—lité de ™ette p—rtie se situe d—ns ™e form—lisme d9—pprentiss—ge f—i˜lement supervisé qui ™onsidère un modèle de ™l—ssi(™—tion dont l9—pprentiss—ge —grège d9—utres formes d9—pprentiss—geF gomme nous l9—vons présenté d—ns le p—r—gr—phe introdu™tifD un gr—nd nom˜re de modélis—tions m—thém—tiques est envis—gé pour ™h—™un des types d9—pprentiss—geF ges gr—ndes f—milles de modèles sont tr—nsverses X le plus souventD moyenn—nt quelques reE formul—tions méthodologiques ou m—thém—tiquesD elles s9—ppliquent pour tous les types d9—pprentiss—geF h—ns ™ette thèseD nous reprenons trois gr—ndes f—milles de modèles X les modèles génér—tifsD les modèles dis™rimin—ntsD et des modèles hy˜rides de ™l—ssi(™—tionF xotre o˜je™tif est de proposerD pour ™h—™une des —ppro™hes m—thém—tiques envis—géesD un modèle de ™l—ssi(™—tion dont les p—r—mètres sont év—lués d—ns le ™—dre de l9—pprenE tiss—ge f—i˜lement superviséD et don™D qui génér—lise toutes les formes d9—pprentiss—geF h—ns le dom—ine de l— ™l—ssi(™—tion d9o˜jetsD d9—utres méthodes ont vu le jourF gellesE ™i exploitent les modèles m—thém—tiques fond—ment—ux pré™édemment dé™rits en les ™om˜in—nt de plusieurs f—çonsF einsiD ils peuvent être ™on™—ténés en ™—s™—de de ™l—ssiE (eursD les résult—ts de ™l—ssi(™—tion issus de plusieurs ™l—ssi(eurs peuvent être fusionnés
  • 9. ix pour prodiguer une seule proposition de ™l—ssi(™—tionD l9estim—tion des p—r—mètres d9un modèle de ™l—ssi(™—tion peut s9e'e™tuer itér—tivementD et™F …ne multitude d9—ppro™hes est envis—ge—˜le pour e'e™tuer une ™om˜in—isonF h—ns ™ette thèse nous —˜ordons les méthodes de ™om˜in—isons les plus ™onnues et nous proposons des solutions pour l9—pE prentiss—ge f—i˜lement superviséF ves perform—n™es de ™l—ssi(™—tion des modèles et des méthodes de ™om˜in—ison proposés d—ns l— p—rtie s sont év—luées sur des jeux de données d9—pprentiss—ge synthétiques dont nous m—itrisons les pro˜—˜ilités — priori de ™l—ssi(™—tionF ge ™ontrôle tot—l des données d9—pprentiss—ge permet de ™omp—rer et d9—n—lyser les di'érentes —ppro™hes rel—tivement à des ™onditions p—rti™ulièresF h—ns l— p—rtie ss de ™ette thèseD nous étudions l9—pprentiss—ge st—tistique d—ns le ™—dre de l9—™oustique h—lieutiqueF v9—™oustique h—lieutique est l—rgement étudiée p—r l9snstitut pr—nç—is de ‚e™her™he pour l9ixploit—tion de l— wi‚ @sp‚iwi‚A qui — (n—n™é en p—rtie ™ette thèseD ™e dom—ine s™ienti(que f—it p—rtie de l— f—mille de l9—™oustique sousEm—rineF €—rmi l9ensem˜le des énergies possi˜les @éle™triqueD éle™troE m—gnétiqueD lumineuseD et™AD seule l9énergie —™oustique possède des ™—r—™téristiques de prop—g—tion —déqu—tes d—ns le milieu sousEm—rinF einsiD d—ns l9environnement —qu—E tiqueD l9—™oustique est utilisée en télé™ommuni™—tion ™omme support de tr—nsmissionD en géos™ien™e pour l9étude des fonds m—rins et de leur sousEsols @les —ppli™—tions ét—nt l— sédimentologieD l— ˜—thymétrie et l— prospe™tion pétrolièreAD en o™é—nogr—phie physique pour l9étude et l— ™—r—™téris—tion des ™our—nts m—rinsD et en ˜iologie —ve™ l9étude du ™omportement des espè™es sousEm—rinesF ge dernier point est tr—ité d—ns ™ette thèse X l9o˜serv—tion —™oustique des espè™es h—lieutiques et l9—n—lyse de ™es o˜serv—tionsF …n sondeur —™oustiqueD pl—™é sous l— ™oque d9un n—vireD est le seul outil qui permet d9o˜tenir une im—ge de résolution ™orre™teD d—ns l—quelle (gure le fond de l— mer et tous les o˜jets présents d—ns l— ™olonne d9e—uF heux f—™teurs prin™ip—ux motivent l9utiE lis—tion des sondeurs —™oustiques en ˜iologie h—lieutiqueF €remièrementD l9exploit—tion des ressour™es h—lieutiques doit être en™—drée —(n d9éviter tout pro˜lème de surexploiE t—tion et don™ de disp—rition des espè™esF h—ns ™e ™ontexteD les sondeurs —™oustiques permettent de dimensionner les sto™ks des espè™es ™on™ernées —(n de (xer des quot—s de pê™heF xotons qu9il existe d9—utres moyens d9év—lu—tion des sto™ksD ™omme l9é™h—nE tillonn—ge en ™riéesF heuxièmementD d9un point de vue ˜iologiqueD pour ™omprendre le fon™tionnement de l9é™osystème sous m—rin d—ns son ensem˜leD et —insi l9étude de l— vie sur terreD il est né™ess—ire d9étudier le ™omportement des espè™es h—lieutiques et du pl—n™tonF €—r exempleD on peut se dem—nder ™omment vont se ™omporter les s—rdines rel—tivement —u ré™h—u'ement ™lim—tique X vontEelles migrer c veur nom˜re v—EtEil évoE luer c „outes ™es questions né™essitent une o˜serv—tion —™oustique de l— ™olonne d9e—uD seul moyen de déterminer l— ™omposition des o™é—nsF ges o˜serv—tions —™oustiques sont e'e™tuées lors de ™—mp—gnes o™é—nogr—phiques dont le proto™ole in™lut un point ™ru™i—l et ™ritique X l9identi(™—tion des stru™tures de l9im—ge —™oustiqueF e™tuellementD ™ette ét—pe d9identi(™—tion est e'e™tuée p—r un expert à p—rE tir des im—ges —™quises p—r un sondeur —™oustique monof—is™e—uD ™epend—ntD il existe une forte dem—nde d9—utom—tis—tion du pro™essus qui se justi(e p—r le f—it que l9expert est ™onfronté à une m—sse d9inform—tions de plus en plus import—nteF €remièrementD il existe plusieurs types de sondeurs monof—is™e—u ™—r—™térisés p—r des fréquen™es d9imE pulsions —™oustiques di'érentesD ™e qui modi(e les morphologies des stru™tures d—ns les
  • 10. x CHAPITRE 1. INTRODUCTION GÉNÉRALE im—ges et leurs —ttri˜uts énergétiquesF heuxièmementD l9—rrivée du sondeur multif—isE ™e—ux permet l9—™quisition d9une im—ge en trois dimensions de l— ™olonne d9e—u qui est ˜e—u™oup plus pré™ise et plus ri™he en inform—tionsD m—is qui rend l9—n—lyse des données plus ™omplexeF einsi l9expert est supposé ™onsidérer les inform—tions ™umulées de tous les types de sondeurs à l— foisF wême si le ™erve—u hum—in est puiss—nt et très perforE m—ntD il possède ses limitesD et l9—n—lyse ™onjuguée de l9ensem˜le de ™es inform—tions est ™omplexeF gette —ppli™—tion illustre le tr—nsfert hommeGm—™hine qui — été dé™rit d—ns le p—r—gr—phe pré™édent et justi(e l9—utom—tis—tion du pro™essus d9identi(™—tion des stru™tures d—ns les im—ges —™oustiquesF h—ns ™e ™ontexte de ™l—ssi(™—tion d9im—ges etGou de stru™tures d—ns des im—ges —™ousE tiquesD nous proposerons des méthodes d9—pprentiss—ge de modèles de ™l—ssi(™—tion pour l9—™oustique h—lieutiqueD nous proposerons —ussi des des™ripteurs d9—grég—tion de poissons d—ns les é™hogr—mmesD et une —ppli™—tion à l9év—lu—tion des sto™ks de poissons du qolfe de q—s™ogne ser— présentéeF ge mémoire de thèse est org—nisé en deux gr—ndes p—rties @les p—rties s et ss qui sont ellesEmêmes s™indées en plusieurs ™h—pitresAF €remièrementD l— p—rtie s tr—ite du pro˜lème de l— ™l—ssi(™—tion —utom—tique d9o˜jets d—ns le ™—dre de l9—pprentiss—ge f—iE ˜lement superviséF eprès un ét—t de l9—rt génér—l sur les méthodes de ™l—ssi(™—tion @™h—pitre PAD trois modèles de ™l—ssi(™—tion dont les philosophies sont opposées seront étudiés d—ns le ™h—pitre QF ve ™h—pitre suiv—nt @™h—pitre RA ™on™entre des méthodes de ™om˜in—isons de ™l—ssi(eurs élément—ires et de fusion de ™l—ssi(eursF in(nD des expéE rien™es sont menées d—ns le ™h—pitre S —(n d9—n—lyser et de ™omp—rer les perform—n™es de ™l—ssi(™—tion des modèles et des méthodes proposéesF „outes ™es expérien™es sont e'e™tuées à p—rtir de jeux de données synthétiques qui nous permettent de m—îtriser les ™omplexités des ensem˜les d9—pprentiss—geF heuxièmementD l— p—rtie ss tr—ite de données qui proviennent essentiellement de l9—™oustique h—lieutiqueF h—ns le ™h—pitre TD les ™—r—™téristiques te™hniques des sondeurs —™oustiques sont présentées ˜rièvementD —insi que l— te™hnique d9o˜tention des im—ges de l— ™olonne d9e—uF ves des™ripteurs des —grég—tions sont étudiés d—ns le ™h—pitre UF heux types d9—n—lyses sont envis—gés X une —n—lyse lo™—le qui ™onsiste en l9emploi des des™ripteurs des ˜—n™s de poissons et une —n—lyse glo˜—le pour l—quelle nous ™—l™ulons des des™ripteurs glo˜—ux pour une im—ge de ˜—n™s de poissonsF in(nD une —ppli™—tion à l9év—lu—tion des sto™ks de poissons d—ns le qolfe de q—s™ogne est e'e™tuée @™h—pitre VAF xous en pro(tons pour —ppliquer les méthodes d9—pprentiss—ge f—i˜lement supervisé proposées d—ns l— p—rtie s du mémoire et pour utiliser les des™ripteurs de ˜—n™s de poissons présentés d—ns l— p—rtie ssF …ne ™on™lusion génér—le @™h—pitre WA et une p—rtie qui ™ontient les —nnexes et l— ˜i˜liogr—phie @p—rtie sssA ™los ™e mémoire de thèseF
  • 11. Première partie Classication automatique et apprentissage faiblement supervisé
  • 12.
  • 13. CHAPITRE 2 Les modèles de classication usuels : état de l'art 2.1 Introduction ve ™h—pitre I est ™ons—™ré à l9ét—t de l9—rt des modèles de ™l—ssi(™—tion usuelsF ves méthodes exist—ntes sont présentées su™™in™tementD l9o˜je™tif n9ét—nt p—s de tout expli™iter en dét—il m—is de f—ire ét—t des ™onn—iss—n™es exist—ntes en ™l—ssi(™—tion d9o˜jets —(n de situer les —pports méthodologiquesF v— pro˜lém—tique porte sur l9—pprentiss—ge st—tistique et l— ™l—ssi(™—tion —utom—E tique pro˜—˜iliste d9un ensem˜le d9o˜jetsF …n modèle de ™l—ssi(™—tion est un outil m—thém—tique qui permet d9—'e™ter une ™l—sse à une entité en fon™tion de ses proE priétés intrinsèquesF v9—ppro™he étudiée d—ns ™e mémoire est purement pro˜—˜iliste X ™h—que o˜jet —pp—rtient à une ™l—sse et nous m—nipulons des ve™teurs qui tr—duisent les pro˜—˜ilités d9—'e™t—tion à ™h—que ™l—sseF xotons queD ™omme notre —ppro™he est pro˜—˜ilisteD etD ™omme nos ™onn—iss—n™es initi—les sur les données d9—pprentiss—ge sont des pro˜—˜ilités de ™l—ssi(™—tion — prioriD nous n9étudierons p—s des méthodes plus géE nér—les ™omme l— théorie de hempsterEƒh—fer ‘I“ qui ™om˜ine des ™onn—iss—n™es — priori distin™tes sur les données d9—pprentiss—geF in ™l—ssi(™—tion —utom—tiqueD on distingue les données d9—pprentiss—ge qui ét—E ˜lissent le modèle de ™l—ssi(™—tionD et les données de test qui sont ™l—ssées à l9—ide du modèleF €our —pprendre un modèle de ™l—ssi(™—tionD il existe plusieurs types d9—pE pro™hes qui dépendent de l— n—ture des données d9—pprentiss—geF ƒi les ™l—sses d9origine des données d9—pprentiss—ge sont ™onnuesD nous p—rlons d9—pprentiss—ge 4 supervisé 4F xous p—rlons d9—pprentiss—ge 4 non supervisé 4 @ou de p—rtitionnement de donnéesA d—ns le ™—s où les ™l—sses d9origine ne sont p—s ™onnuesF …n troisième groupe r—ssem˜le les ™—s pour lesquels il existe une in™ertitude sur le l—˜el des données d9—pprentiss—geD p—r exemplesD le ™—s où seuls les — priori des ™l—sses sont ™onnusD ou le ™—s de l— ™l—ssi(E ™—tion d9o˜jets d—ns des im—ges pour lesquelles l— présen™e et l9—˜sen™e des ™l—sses sont ™onnues ‘P“F h—ns ™e ™—sD nous p—rlons d9—pprentiss—ge 4 f—i˜lement supervisé 4 ou d9—pE prentiss—ge 4 p—rtiellement supervisé 4F v9—pprentiss—ge 4 semiEsupervisé 4 est utilisé qu—nd il y — peu de données l—˜élisées ‘Q“F hes exemples s—ns l—˜el sont —lors —joutés à l9ensem˜le d9—pprentiss—ge qui ne ™ontient que des exemples de ™l—sses ™onnues d—ns
  • 14. CHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE xiv L'ART le ˜ut d9—™™roître l— qu—ntité d9inform—tionsF v9—pprentiss—ge f—i˜lement supervisé génér—lise les ™—s supervisés et semiEsupervisésF ve prin™ipe de l9—pprentiss—ge f—i˜lement supervisé est d9—ttri˜uerD à ™h—que exemple d9—pprentiss—geD un ve™teur qui indique les pro˜—˜ilités — priori d9—'e™t—tion à ™h—que ™l—sseF €—r exempleD en ™onsidér—nt IP o˜jets pour l9—pprentiss—ge et Q ™l—sses possi˜lesD —lors les ve™teurs qui fournissent les pro˜—˜ilités d9—'e™t—tion pourr—ient être X 0.4 1 0.1 0 0 0.33 0.2 0.4 0 0.2 0.4 0 0.6 0 0 0 0.1 0.8 0.5 0.5 1 0 0.33 0.33 0.5 0.3 0.3 0.3 0 1 0.6 .2 0.5 0.1 0 1 @PFIA in —pprentiss—ge superviséD les pro˜—˜ilités d9—'e™t—tion pourr—ient être X 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 1 0 0 1 0 1 0 1 0 1 @PFPA in —pprentiss—ge semiEsuperviséD les pro˜—˜ilités d9—'e™t—tion pourr—ient être X 1 1 0 0 0 0 0.33 0.33 0.33 0.33 0.33 0.33 0 0 0 0 1 0 1 0 0 1 0 1 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33 @PFQA €our l— ™l—ssi(™—tion semiEsuperviséeD les exemples initi—lement s—ns l—˜el peuvent être ™onsidérés ™omme l—˜élisés à l9—ide d9un ve™teur qui tr—duit le f—it que les ™l—sses sont équipro˜—˜lesF einsiD les ™ompos—ntes du ve™teurD qui donnent l— pro˜—˜ilité des ™l—ssesD sont ég—lesF v9—pprentiss—ge semiEsupervisé peut —ussi être vu ™omme un ™—s d9—pprenE tiss—ge f—i˜lement supervisé pour lequel on —ur—it e'e™tué un seuill—ge sur les — priori @si les pro˜—˜ilités de ™l—ssi(™—tion — priori sont simil—ires pour un o˜jet d9—pprentisE s—geD —lors les ™l—sses sont ™onsidérées ™omme équipro˜—˜lesD et si une pro˜—˜ilité de ™l—ssi(™—tion — priori domine d—ns l9ensem˜leD —lors l— ™l—sse ™onsidérée est —ttri˜uée à l9exemple ™on™ernéAF in(nD en —pprentiss—ge non superviséD le nom˜re de ™l—sse est in™onnu et —u™un l—˜el n9est disponi˜leF sl v— de soit que l— ™omplexité des modèles d9—pprentiss—ge —ugmente —ve™ l9in™erE titude sur les l—˜elsF gepend—ntD un —lgorithme ™omplexe ou un —pprentiss—ge à p—rtir d9un jeu de données très in™ert—ins n9engendre p—s né™ess—irement de m—uv—ises perE form—n™es de ™l—ssi(™—tionF €—r exempleD d—ns ™ert—ins ™—sD on montre que l9—jout de données s—ns l—˜el —u jeu de donnée d9—pprentiss—ge @—pprentiss—ge semiEsupervisé ‘Q“A permet d9—méliorer les perform—n™es de ™l—ssi(™—tionF €our l9—pprentiss—ge superviséD l9—pprentiss—ge non superviséD l9—pprentiss—ge f—iE ˜lement superviséD et l9—pprentiss—ge semiEsuperviséD respe™tivement étudiés d—ns les se™tions PFPD PFQD PFRD et PFSD nous expli™itons les modèles de ™l—ssi(™—tion —sso™iés et ™—r—™térisons leurs di'éren™esF gh—que méthode présentée est ™l—ssée d—ns une des gr—ndes f—milles de modèlesD à s—voir les modèles génér—tifsD les modèles dis™rimin—nts et les modèles hy˜rides que nous dé(nirons d—ns l— se™tion PFPF 2.2 Classication supervisée ‚—ppelons que l9—pprentiss—ge supervisé ™onsiste à ét—˜lir un modèle de ™l—ssi(™—E tionD à p—rtir d9un ensem˜le d9—pprentiss—ge ™onstitué de données dont les ™l—sses sont p—rf—itement ™onnuesF
  • 15. 2.2. CLASSIFICATION SUPERVISÉE xv 2.2.1 Modèle génératif €renons l— dé(nition du mot 4 génér—tif 4 X 4 ui engendreD qui — r—pport à l— génér—tion 4 @gentre x—tion—l de ‚essour™e „extuelles et vexi™—lesAF h—ns ™e ™—sD le modèle est pro™he des donnéesF ƒi l— loi ™onsidérée @xorm—leD fêt—D q—mm—D mél—nge de q—ussienneD exponentielleD €oissonD F F F A pour le modèle de ™l—ssi(™—tion est ™onveE n—˜lement ™hoisieD l— seule ™onn—iss—n™e du modèle peut permettre de re™onstituer un ensem˜le d9o˜serv—tions possi˜lesF einsiD pour le modèle génér—tifD le ™l—ssi(eur est une fon™tion m—thém—tique qui dé™rit —u mieux l9org—nis—tion sp—ti—le des données d—ns l9esp—™e des des™ripteursF €—r exempleD si un jeu de données forme un ensem˜le de ˜oules d—ns l9esp—™e des —ttri˜utsD nous pouvons modéliser le nu—ge de points p—r un mél—nge de q—ussiennesF v9o˜je™tif de l9—pprentiss—ge ét—nt —lors de déterminer les positions @moyennesA et les t—illes @v—ri—n™esA de ™h—que modeF €lus génér—lementD l9—pE prentiss—ge ™onsiste à estimer les p—r—mètres d9une loi ™i˜le etD pour l— ™l—ssi(™—tionD l— pro˜—˜ilité — posteriori donne les pro˜—˜ilités de ™h—que ™l—sseF ey—nt ™hoisi une densité de pro˜—˜ilité ™i˜le p—r—métriqueD une te™hnique ™onnue ™onsiste à utiliser le m—ximum de vr—isem˜l—n™e @w†A pour estimer les p—r—mètres ‘R“ ‘S“ ‘T“ ‘U“ ‘V“ ‘W“ ‘IH“ ‘II“ ‘IP“ ‘IQ“F ves p—r—mètres optim—ux sont ™eux qui m—ximisent l— vr—isem˜l—n™eF ve ™—s multimod—l f—it que l— m—ximis—tion est très ™omplexeD d—ns ™e ™—sD on utilise un —utre estim—teur du m—ximum de vr—isem˜l—n™e X l9—lgorithme 4 ixpe™t—tion w—ximiz—tion 4 @iwA ‘IR“ ‘IS“ ‘IT“F gette méthode génér—tive permet de trouver le m—ximum de vr—isem˜l—n™e des p—r—mètres d9un modèle pro˜—˜iliste lorsque le modèle dépend de v—ri—˜les l—tentes non o˜serv—˜les @les proportions des modes du mél—ngeAF €lutôt que de trouver le jeu de p—r—mètres du modèle qui m—ximise l— vr—iE sem˜l—n™eD l9espér—n™e de l— logEvr—isem˜l—n™e ™omplétée p—r l— v—ri—˜le ™—™hée est m—ximisée ™onditionnellement à un jeu de p—r—mètres initi—lF gel— ™onduit —u ™—l™ul itér—tif de ™ette espér—n™e @ét—pe iA et des p—r—mètres qui m—ximisent ™ette espér—n™e @ét—pe wAF v— pro™édure est dét—illée d—ns l— se™tion QFP du ™h—pitre Q et d—ns le t—˜le—u QFIF v— version sto™h—stique de l9—lgorithme ‘IU“D —ppelée —lgorithme ƒiwD préE vient des m—ximums lo™—ux de vr—isem˜l—n™eF h9—utres —mélior—tions de l9—lgorithme portent sur l— r—pidité de ™onvergen™e de l9—lgorithme ‘IV“ ‘IW“F h—ns l9—lgorithme 4 ixpe™t—tion gondition—l w—ximiz—tion 4 @igwA ‘PH“D l9ét—pe w est rempl—™ée p—r une ét—pe de m—ximis—tion ™onditionnelle des p—r—mètresF gh—que p—r—mètre est m—ximisé individuellement ™onditionnellement —ux —utres qui sont (xésF f—sé sur le même prinE ™ipe que l9—lgorithme igwD l9—lgorithme iw 4 génér—lisé 4 @qiwA ‘IR“ ‘IS“ ‘IT“ est une —ltern—tive employée qu—nd l9ét—pe w est di0™ilement ré—lis—˜leD not—mment si le ™—l™ul des dérivées premières est di0™ileF h—ns ™e ™—sD les p—r—mètres ne sont p—s ™eux qui m—ximisent l9espér—n™e de l— logEvr—isem˜l—n™eD m—is n9importe quel jeu de p—r—mètres tel que ™ette espér—n™e soit supérieure à ™elle de l9itér—tion pré™édenteF w—lgré des perform—n™es —ssez moyennesD le ™l—ssi(eur ˜—yésien n—ïf ‘PI“ ‘PP“ ‘PQ“ est souvent utilisé pour ™omp—rer des méthodes de ™l—ssi(™—tion entre ellesD expérimenter les ensem˜les de ™l—ssi(eurs ‘PR“ ou les pro™essus itér—tifs ‘PS“ @™h—pitre RAF ƒ9—ppuy—nt sur le théorème de f—yesD les prédi™tions de toutes les hypothèses sont pondérées p—r les pro˜—˜ilités — prioriF v9—utre p—rti™ul—rité est de supposer l9indépend—n™e entre les des™ripteursF einsiD l— méthode du w—ximum de †r—isem˜l—n™e peut être employée
  • 16. CHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE xvi L'ART pour estimer les p—r—mètres d9une loi liée à ™h—que des™ripteur indépend—mment ‘PT“F gette dépend—n™e est restreinte p—r le ™l—ssi(eur eyhi @4 ever—ge yneEhependen™e istim—tor 4 en —ngl—isA ‘PU“ qui ™hoisit un seul des™ripteur dont il estime l— dépend—n™e —ve™ les —utresF ves perform—n™es sont —lors —™™rues p—r r—pport —u ™l—ssi(eur ˜—yésien n—ïfF v9 4 ello™—tion de hiri™hlet v—tente 4 @vheA ‘PV“ est une nouvelle te™hnique issue de l9 4 en—lyse ƒémentique v—tente €ro˜—˜iliste 4 @€vƒeA ‘PW“F gontr—irement à l— méE thode vheD l— méthode €vƒe est limitée p—r son impossi˜ilité à générer de nouve—ux exemplesD ™el— v— à l9en™ontre du prin™ipe des modèles génér—tifsF ges pro™édures sont utilisées en ™l—ssi(™—tion de do™uments qui sont ™l—ssés p—r 4 ™on™ept 4 @un do™ument pouv—nt être —sso™ié à plusieurs ™on™eptsAF v— te™hnique est ˜—sée sur l— ™orrél—tion entre les termes des do™umentsD les do™uments et les ™on™eptsF v— pro˜—˜ilité des do™uE ments et des termes qui les ™omposent est fon™tion d9un mél—nge de lois @pro˜—˜ilité des ™on™eptsD pro˜—˜ilité de ™h—que terme rel—tivement à ™h—que ™on™eptD et pro˜—˜ilité de ™h—que do™ument rel—tivement à ™h—que ™on™eptAF v9inféren™e ˜—yésienneD qui permet de déduire ™h—™une des distri˜utions et l— distri˜ution — posterioriD peut être e'e™tuée p—r —ppro™he v—ri—tionnelle ‘PV“D à l9—ide d9un é™h—ntillonn—ge de qi˜˜s ‘QH“D ou p—r prop—g—tion de l9espér—n™e @4 ixpe™t—tion €rop—g—tion 4 en —ngl—isA ‘QI“F ve form—E lisme m—thém—tique se r—ppro™he fortement des modèles de mél—ngeD ™epend—ntD en ™l—ssi(™—tion de do™uments ™ette te™hnique trouve de nom˜reux —deptes ét—nt donnée que les o˜serv—tions @les do™umentsA sont projetées d—ns une ˜—se p—rti™ulière qui ™orE respond —u di™tionn—ire des ™on™eptsF …ne —n—logie —ve™ l— ™l—ssi(™—tion d9o˜jets peut être ré—lisée si les o˜jets sont ™ontenus d—ns des im—ges —sso™iées à plusieurs ™l—ssesF ges modèles génér—tifs ont le déf—ut qu9ils né™essitent l— ™onn—iss—n™e de l— loi ™i˜leF in pr—tiqueD une séle™tion su˜je™tive de lois est e'e™tuéeD puis un ™ritère de séle™tion permet de retenir l— loi l— mieux —d—ptée ‘QP“F ve ™ritère le plus utilisé est l— v—lid—tion ™roisée ‘QQ“ @év—lu—tions et st—tistiques des erreurs sur plusieurs expérien™esAD m—is d9—utres ™ritères existent ™omme le 4 gritère d9snform—tion d9ek—ike 4 @esgA ‘QR“ ou le 4 gritère d9snform—tion ˜—yésien 4 @fsgA ‘QS“F 2.2.2 Modèle discriminant v9—ppro™he di'ère pour le modèle dis™rimin—ntF v— dé(nition de l9—dje™tif 4 dis™riE min—nt 4 est X 4 ui ét—˜lit ou permet d9ét—˜lir une distin™tion entre des éléments 4 @gentre x—tion—l de ‚essour™e „extuelles et vexi™—lesAF einsiD d—ns le ™—dre de l— ™l—ssi(™—tion —utom—tique d9o˜jetsD le modèle vise ex™lusivement à l— di'éren™i—tion des ™l—sses entre ellesF …n tel modèle ne dépend p—s de l9org—nis—tion intrinsèque des donnéesF ƒeules l— m—nière et l— ™—p—™ité à di'éren™ier les ™l—sses ™omptentF v— m—E jorité des méthodes dis™rimin—ntes est ˜—sées sur le prin™ipe du ™—l™ul des ™oe0™ients des hyperpl—ns qui sép—rent les ™l—sses entre ellesF v9esp—™e des —ttri˜uts ét—nt s™indé p—r les hyperpl—nsD il su0t de déterminer de quelle ™ôté de l9hyperpl—n se situe un exemple pour ™onn—ître s— ™l—sseF eprès un ˜ref invent—ire de ™es méthodes @4 l9en—E lyse his™rimin—nte de pisherD les ƒ†wD l— régression logistiqueD F F F AD nous évoquerons des modèles dis™rimin—nts plus singuliers ™omme les rése—ux de neurones et les 4 k plus pro™hes voisins 4F
  • 17. 2.2. CLASSIFICATION SUPERVISÉE xvii v9 4 en—lyse his™rimin—nte de pisher 4 ‘QT“ ‘QU“ ‘QV“ @ou vhe pour 4 vine—r his™riE min—nt en—lysis 4A f—it p—rtie des méthodes popul—iresF f—sée sur un ™ritère st—tistique du se™ond ordreD ™ette te™hniqueD optim—le d—ns le ™—s q—ussienD p—rt du prin™ipe que les moments du se™ond ordre sont identiques d9un groupe à l9—utreF v— pro™édure ™onsiste à trouver les ™oe0™ients de l9hyperpl—n qui m—ximisent le r—pport entre l— v—ri—n™e inter ™l—sse et l— v—ri—n™e intr— ™l—sseF v— méthode est dét—illée d—ns l— se™tion QFQFI du ™h—pitre QF …n —utre modèle très ™élè˜re est l— méthode des ƒ†w @4 ƒupport †e™tor w—™hine 4A ‘QW“ ‘RH“ qui est dét—illée d—ns l— se™tion QFQFI du ™h—pitre QF ille résulte de l— ™om˜in—ison de deux —ppro™hes X l9idée de m—ximiser les m—rges @dist—n™e entre l9hyE perpl—n sép—r—teur et l9exemple le plus pro™heA ‘RI“ ‘RP“ et l9idée des fon™tions noy—ux ‘RQ“ ‘RR“ qui déforment l9esp—™e des des™ripteurs et permettent de p—sser des ™—s non liné—irement sép—r—˜les —ux ™—s liné—irement sép—r—˜lesF sl existe une méthode dite des 4 m—rges souples 4 qui tolère une ™ert—ine qu—ntité d9erreurs lors de l— re™her™he de l9hyperpl—n optim—l et qui permet de résoudre les ™—s de re™ouvrement entre ™l—sses ‘RS“ ‘RT“F €—rmi les méthodes de régressionD l— 4 régression logistique 4 ‘RU“ ‘RV“ ‘RW“ ‘SH“ se distingue p—r le f—it que l— v—ri—˜le à prédire est une ™l—sseD iFeF une v—leur dis™rète et non une v—leur ™ontinue ™omme en régression liné—ireF h—ns le ™—s de deux ™l—ssesD l9équ—tion de l9hyperpl—n sép—r—teur s9exprime en fon™tion du log—rithme du r—pport des pro˜—˜ilités — posteriori des o˜serv—tionsF hi'érentes méthodes ™omme l9—lgorithme du m—ximum de vr—isem˜l—n™e ‘RV“ peuvent —lors être utilisées pour estimer les ™oe0™ients de l9hyperpl—n sép—r—teurF gette méthode — pour —v—nt—ge de ne p—s être p—r—métrique et de modéliser dire™tement une pro˜—˜ilitéF in rev—n™heD elle ne s9—pplique qu9—ux données s—ns v—leur m—nqu—ntes et elle est sensi˜le —ux individus hors normeF ges trois méthodes @vheD ƒ†wD régression logistiqueA sont développées d—ns le ™—s ˜in—ireD iFeF seulement deux ™l—sses sont ™onsidéréesF gomment f—ire d—ns le ™—s de plusieurs ™l—sses c heux prin™ip—les —ppro™hes existentF v— méthode 4 oneEversusE—ll 4 ™onsiste à —ttri˜uer un ™l—ssi(eur à ™h—que ™l—sse @le ™l—ssi(eur dis™rimine l— ™l—sse ™onsidérée de toutes les —utresAF v— ™l—sse —ttri˜uée à un exemple test est l— plus proE ˜—˜le —u sens des ™l—ssi(eursF v9—utre méthodeD —ppelée 4 oneEversusEone 4D ™onsiste à ét—˜lir un ™l—ssi(eur pour ™h—que ™ouple de ™l—sses possi˜leF v— ph—se de test ét—nt simil—ire à l— méthode oneEversusE—llF h—ns ‘SI“D le ™—s des ™l—sses non m—jorit—ires est tr—itéD iFeF le ™—s où —près l— ™l—ssi(™—tion de l9exemple testD plusieurs ™l—sses sont équipro˜—˜lesF …ne méthode ‘SP“ propose de résoudre le pro˜lème en s9—ppuy—nt sur les te™hniques employées pour les ™odes ™orre™teurs d9erreursF …ne —utre propose l9utiE lis—tion des ƒ†w d—ns le ™—s multiE™l—sses en ™h—nge—nt le ™ritère d9optimis—tion en un ™ritère m—tri™iel ‘SQ“F …ne m—jorité de méthodes de ™l—ssi(™—tion ˜—sées sur les fon™tions noy—ux est préE sentée d—ns le livre 4 ve—rning with uernel 4 ‘RT“F v— méthode uEp™— @4 uernel €rin™ip—l gomponent en—lysis 4A ‘SR“ ‘SS“ y (gure not—mmentF gette te™hnique n9est p—s un moE dèle de ™l—ssi(™—tion à p—rt entièreD m—is un moyen d9—méliorer les perform—n™es de ™l—ssi(™—tion des modèles liné—ires déjà exist—ntF v9idée est simple X en —sso™i—nt les fon™tions noy—ux —ve™ une 4 —n—lyse en ™ompos—nte prin™ip—le 4 @€geA ‘ST“D l9esp—™e des des™ripteurs est tr—nsformé tel que des groupes non liné—irement sép—r—˜les d—ns
  • 18. CHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE xviii L'ART l9esp—™e de dép—rt puissent le devenir d—ns l9esp—™e d9—rrivéeF hès que l9on dispose d9un ™l—ssi(eur dis™rimin—nt liné—ireD à l9inst—r du modèle vheD de l— régression logistiqueD ou de n9importe quel ™l—ssi(eur à m—ximum de m—rgeD —lors l— méthode uEp™— peut être —ppliquée en —mont et permet —insi de p—sser d9un ™l—ssi(eur liné—ire à un ™l—ssi(eur non liné—ireF ves dét—ils de l— méthode sont donnés d—ns l— se™tion QFQFI du ™h—pitre QF ves premiers rése—ux de neurones —™™omplis @on p—rle —lors de rése—ux multi ™ou™hesA ‘SU“ ‘SV“ ‘SW“ sont —pp—rus à p—rtir de IWVS et sont utilisés depuis en ™l—sE si(™—tion —utom—tique d9o˜jetsF …n neurone prend en entrée les sorties des neurones pré™édentsF v— sortie est une fon™tionD —ppelée 4 fon™tion d9—™tiv—tion 4D d9une ™om˜iE n—ison liné—ire des entréesF €lusieurs neurones peuvent être mis en p—r—llèle et plusieurs ™ou™hes de neurones peuvent être ™onsidéréesF …ne ™—r—™téristique import—nte d9un réE se—u de neurones est le ™ompromis entre l— ™omplexité de son —r™hite™tureD dé(nie p—r le nom˜re de ™ou™hes et le nom˜re de neurones p—r ™ou™heD et entre s— ™—p—™ité d9—pE prentiss—ge qui est liée —u sur —pprentiss—geF xotons que les rése—ux de neurones sont sujets —ux sur —pprentiss—gesD il est —lors né™ess—ire de supprimer des ™onnexions @—lE gorithme 4 optim—l ˜r—in d—m—ge4 ‘TH“ ou —lgorithme 4 optim—l ˜r—in surgeon 4 ‘TI“AF …ne fois que l9—r™hite™ture du rése—u est ™hoisieD l9—pprentiss—ge ™onsiste à trouver les v—leurs des poids de l— ™om˜in—ison liné—ire des entrées de ™h—que neuroneF €our ™el—D une minimis—tion de l— fon™tion de ™oût @souvent l9erreur qu—dr—tiqueAD qui détermine l9o˜je™tif à —tteindreD est e'e™tuéeF v— di'éren™e entre les méthodes proposées porte sur le ™hoix de l— fon™tion ™oûtD sur l— m—nière de minimiser ™ette fon™tionD sur le ™hoix de l9—r™hite™ture du rése—u ou sur le ™hoix de l— fon™tion d9—™tiv—tionF €—r exempleD d—ns ‘SV“D une des™ente de gr—dient est e'e™tuéeD l9origin—lité ét—nt l— f—çon de ™—l™uler le gr—dient de l— fon™tion de ™oûtF xotons que l9—n—lyse dis™rimin—nte de pisher ou les ƒ†w liné—ires sont des rése—ux de neurones à un seul neurone dont les poids —'e™tés à ™h—que entrée ™orrespondent —ux ™oe0™ients de l9hyperpl—n sép—r—teurF v— méthode des 4 K plus pro™hes voisins 4 ‘TP“ di'ère des —utres modèles dis™rimiE n—nts p—r l9—˜sen™e d9hyperpl—ns sép—r—teursD l9unique idée génér—tri™e reste ™epend—nt d9—'e™ter une ™l—sse à un individu in™onnuF v— pro™édure est très simple X il f—ut trouE verD d—ns l9ensem˜le d9—pprentiss—geD l— ™l—sse m—jorit—ire p—rmi les K plus pro™hes voisins de l9exemple à ™l—sserF gel— p—sse p—r l— dé(nition d9une dist—n™e entre o˜jets ‘TQ“D qui dépend de l— n—ture des des™ripteurs de l9o˜jetF €—r exempleD une dist—n™e euE ™lidienne peut ™onvenir pour des des™ripteurs pren—nt leur v—leur d—ns l9ensem˜le des réelsD m—is d—ns le ™—s de des™ripteurs formés de densités de pro˜—˜ilité une dist—n™e de fh—tt—™h—ryy— ‘TR“ ou de uull˜—™kEvei˜ler ‘TS“ est préfér—˜leF v— di0™ulté se trouve d—ns l— pro™édure de re™her™he des plus pro™hes voisinsD not—mment si l9ensem˜le d9—pE prentiss—ge est volumineuxD entr—în—nt des longueurs d—ns le temps de ™—l™ulF €our ™el— des —lgorithmes de re™her™he ont été développés ‘TT“ ‘TU“D leur prin™ipe ét—nt de sto™ker les exemples pro™hes en dist—n™e et de pro™éder p—r regroupement hiér—r™hique des donnéesF €—rmi les méthodes dis™rimin—ntesD l— méthode ƒ†w est ™elle qui remporte le plus fr—n™ su™™ès d—ns le dom—ine de l— vision p—r ordin—teurF gel— est prin™ip—lement dû —u f—it que le modèle de ™l—ssi(™—tion est non liné—ireD produis—nt de très ˜onnes perE form—n™es de ™l—ssi(™—tion pour l— plup—rt des expérien™esF gepend—ntD les ƒ†w sont dépend—nts d9un gr—nd nom˜re de p—r—mètres liés à l— souplesse des m—rgesD l— dyE
  • 19. 2.2. CLASSIFICATION SUPERVISÉE xix n—mique de pro˜—˜ilis—tionD et le ™hoix du noy—uD p—r ™onséquentD ™ert—ins dom—ines s™ienti(ques préfèrent l9emploi de modèles plus —utonomes ™omme les régressions loE gistiques @™9est le ™—s des études st—tistiques d—ns le dom—ine ˜—n™—ireD d—ns ™elui des —ssur—n™es ou des sond—gesD et en méde™ineAF 2.2.3 Modèle hybride : arbres de classication hes modèles hy˜rides existentF veur dém—r™he s9—ppuie à l— fois sur les —ppro™hes génér—tives et dis™rimin—ntesF €—rmi euxD on trouve les modèles ˜—sés sur les —r˜res de ™l—ssi(™—tion @ou de dé™isionAF €remièrementD l— méthode est fondée sur un é™h—nE tillonn—ge de l9esp—™e des —ttri˜uts à l9—ide d9hyper volumes d9é™h—ntillonn—ge de t—ille di'érente et de dimension (nie ou in(nieF v9é™h—ntillonn—ge dé™rit l9o™™up—tion de l9enE vironnement et dépend dire™tement de l— forme des nu—ges de points des di'érentes ™l—ssesF ejoutons queD ™omme pour un histogr—mmeD le nom˜re d9individus est ™onnu d—ns ™h—que volume d9é™h—ntillonn—geD ™e qui —utorise l— génér—tion —lé—toirement des données d—ns ™es volumes élément—iresF ge™i permet de nous positionner d—ns le ™—s génér—tifF heuxièmementD les volumes é™h—ntillonnés sont o˜tenus p—r dis™rimin—tions su™™essives de sous ensem˜les de donnéesD le prin™ipe ét—nt de s™inder un volume de l9esp—™e en deux p—rties homogènes en ™l—sseF gette s™ission n9— qu9un seul o˜je™tif X sép—rer les ™l—sses entre ellesF gel— nous positionne d—ns le ™—s dis™rimin—ntF …n —r˜re de ™l—ssi(™—tion ™omporte des noeuds qui sont —sso™iés à des règles de dé™isionF v— tot—lité forme un ensem˜le de ™hemins qui p—rtent du noeud prin™ip—l vers les noeuds termin—ux —uxquels sont —ttri˜ués des ™l—ssesF …n noeud donné renvoie vers des noeuds (ls en fon™tion de l— règle de dé™ision (xéeF ge même noeud est engendré p—r un noeud p—rentF ve prin™ipe de ™onstru™tion d9un —r˜re repose sur l— s™ission d9un groupe d9exemples pour un des™ripteur donnéF eu noeud ™onsidéréD l— meilleure —sso™i—tion entre un des™ripteur et une v—leur de ™oupureD est ™elle qui m—ximise le g—in d9inform—tionF eutrement ditD l— s™ission doit donner des groupes qui sont homogènes en ™l—ssesF in pr—tiqueD ™h—que v—leur de ™oupure est testée pour ™h—que des™ripteurD puis le ™ouple formé p—r le des™ripteur et l— v—leur de ™oupure qui m—ximise le g—in d9inform—tion est retenu et —sso™ié —u noeud ™onsidéréF …n noeud est ™hoisi ™omme ét—nt un noeud (n—l si son nive—u d9 4 impureté 4 est f—i˜leD iFeF si une ™l—sse domine l—rgementF …ne fois l9—r˜re ™onstruitD un exemple test p—r™ourt l9—r˜re jusqu9—u noeud termin—l qui dé(nit l— ™l—sse —ttri˜uéeF ve form—lisme et les dét—ils m—thém—tiques sont présentés d—ns l— se™tion QFRFI du ™h—pitre Q pour le ™—s usuel de l9—pprentiss—ge superviséF ves méthodes ™onnues di'èrent p—r le ™hoix du ™ritère de g—in d9inform—tionF gerE t—ins ™her™hent à m—ximiser le ™ritère de qini ‘TV“ @méthode ge‚„ X 4 gl—ssi(™—tion end ‚egression „rees 4AD d9—utres pré™onisent l9entropie de ƒh—nnon ‘TW“ ‘UH“ @méthode shQ et gRFSAD et ™ert—ines méthodes proposent d9utiliser un test st—tistique fondé sur l— loi du χ2 @méthode gresh ‘UI“ X 4 griEsqu—re eutom—ti™ snter—™tion hete™tion 4 et méthode …iƒ„ ‘UP“ X 4 ui™kD …n˜i—sedD i0™ientD ƒt—tisti™—l „ree 4AF v— méthode …iƒ„ permet de ™onstruire un —r˜re de dé™ision plus r—pidementF h—ns …iƒ„D le meilleur des™ripteur est d9—˜ord ™hoisi en ™om˜in—nt une —n—lyse de l— v—ri—n™e @4 exy†e 4A —ve™ le test du χ2 ou le test de vevene ‘UQ“ @en fon™tion de l— n—ture disE
  • 20. CHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE xx L'ART ™rète ou ™ontinue du des™ripteurF xotons que gRFS est une évolution dire™te de shQD les —mélior—tions port—nt sur l— gestion des données numériquesD sur l— prise en ™ompte des données m—nqu—ntes et sur l— r—pidité d9exé™utionF €lutôt que de ™her™her l— v—leur de ™oupure sur ™h—que des™ripteur indépend—mE mentD des méthodes proposent des ™ritères de 4 sép—r—tion o˜liques 4 ‘UR“ qui s9—ppuient sur un modèle de ™l—ssi(™—tion à plusieurs des™ripteursF ve modèle ™hoisi peut être de type ƒ†w ‘US“ ‘UT“ ou s9—ppuyer sur l9—n—lyse dis™rimin—nte liné—ire de pisher ‘UU“F uelques p—piers —˜ordent les —r˜res de ™l—ssi(™—tion d—ns le ™—dre de l— logique 4 )oue 4F €—r exempleD un —r˜re est ™onstruit à l9—ide de l— méthode ge‚„D puis des règles de dé™isions )oues sont él—˜orées à p—rtir des frontières des é™h—ntillons d9hyper volumes ‘UV“F ve même pro™édé est employé pour l9—lgorithme shQ ‘UW“F €our d9—utres exemples ‘VH“D l— logique )oue intervient d—ns le ™—l™ul des v—leurs de ™oupureF €lutôt que d9—voir une s™ission nette et pré™iseD l— frontière est in™ert—ine telle que le degré d9—pp—rten—n™e à un groupe dépend de l— dist—n™e entre l9exemple ™onsidéré et l— v—leur de ™oupure ™onsidéréeF ves règles de dé™ision sont —lors dire™tement liées à l9—ppli™—tion ™onsidérée ‘VI“F v9un des déf—uts m—jeurs des —r˜res de ™l—ssi(™—tion est leur disposition à ne ™onsiE dérer que les ™l—sses m—jorit—irement représentées d—ns l9ensem˜le d9—pprentiss—geF €—r exempleD l— méthode ge‚„ privilégie les ™l—sses domin—ntes d9un jeu de données disE tri˜uées inég—lement ‘VP“F ƒi le modèle d9une ™l—sse sousEreprésentée est m—l év—luéD —lors ™ette ™l—sse est souvent ™l—ssée p—rmi l— ™l—sse m—jorit—ire de l9ensem˜le d9—pE prentiss—geF €our remédier à ™e pro˜lèmeD le ™ritère de s™ission peut être —mélioré en ™hoisiss—ntD p—r exempleD une entropie dé™entrée ‘VQ“D ou en e'e™tu—ntD soit un surE é™h—ntillonn—ge de l9ensem˜le sousEreprésenté ‘VR“D soit un sousEé™h—ntillonn—ge de l9enE sem˜le surEreprésenté ‘VS“F hes tr—v—ux ‘TV“ ont montré qu9—près ™onstru™tionD il est souvent né™ess—ire d9él—guer l9—r˜reF in e'etD lors de l9—pprentiss—geD une ™ontr—inte permet de déterminer si un noeud est r—isonn—˜lement homogène @si tel est le ™—sD —lors le noeud est un noeud termin—lAF h—ns le ™—s où ™ette ™ontr—inte est trop forte et qu9il y — du re™ouvrement entre ™l—ssesD ™ert—ins volumes élément—ires sont insigni(—nts et n9impliquent qu9un seul exempleF h—ns ™e ™—sD il —pp—r—ît des phénomènes de surE—pprentiss—ge et de surE é™h—ntillonn—ge de l9esp—™e des des™ripteursF geuxE™i sont résolus grâ™e à l9él—g—geF sl existe deux gr—ndes f—milles de méthodes ‘VT“ ‘VU“ X soit l9—r˜re o˜tenu est simpli(é en ™oup—nt toutes les ˜r—n™hes d9un noeudD soit un noeud est rempl—™é p—r l9un des sousE—r˜res qui en des™endD les exemples des sousE—r˜res disp—rus ét—nt re™l—ssésF sl est génér—lement —dmis qu9—u™une de ™es propositions @™hoix du ™ritère de s™isE sionD —r˜res o˜liquesD logique )oueD él—g—ge F F F A ne dev—n™e une —utre de m—nière sysE tém—tique en termes de perform—n™e de ™l—ssi(™—tionF gel— dépend du jeu de données employéD de l— n—ture dis™rète ou ™ontinue des v—ri—˜lesD de l9org—nis—tion intrinsèque des ™l—sses d—ns l9esp—™e des des™ripteursD du f—it d9être en gr—nde dimension ou nonD de l— t—ille de l9ensem˜le d9—pprentiss—geD de l— distri˜ution des ™l—sses F F F
  • 21. 2.3. CLASSIFICATION NON SUPERVISÉE xxi 2.3 Classication non supervisée in —pprentiss—ge non superviséD seules les v—leurs données p—r les des™ripteurs sont o˜serv—˜lesF ves exemples ne disposent d9—u™un étiquet—ge et le nom˜re de ™l—sses est in™onnuF gel— ™onstitue les prin™ip—les interrog—tions X ™om˜ien y —EtEil de ™l—sses c itD en suppos—nt le nom˜re de ™l—sses (xéD ™omment ét—˜lir un ™l—ssi(eur c v— première question trouve peu de réponseF ve nom˜re de ™l—sses réellement o˜serE vées est di0™ilement détermin—˜le s—ns inform—tions — priori et il dépend de l9—ppli™—E tion ™onsidéréeF v— di0™ulté se résume d—ns le pro˜lème suiv—nt X ™omment di'éren™ier le ™—s de plusieurs regroupements de données qui ™orrespondent à plusieurs ™l—sses et le ™—s de regroupements qui ™orrespondent à des modes d9une seule ™l—sseF ƒ—ns —uE ™une inform—tion — priori ou ™ontextuelleD ™el— sem˜le impossi˜leF in rev—n™heD des ™ritères de qu—lité mesurent l— pertinen™e du ™hoix du nom˜re de ™l—sses ‘VV“F €—rmi ™es ™ritèresD ™ert—ins s9—ppuient sur l9indi™e fsg @4 f—yesi—n snform—tion griterion 4A ‘QS“ ou sur le ™ritère esg @4 ek—ike9s snform—tion griterion 4A ‘VW“D ou en™ore sur des ™ritères st—tistiques de dist—n™es ‘WH“ ‘WI“ F F F in(nD d9—utres méthodes sont ˜—sées sur le prin™ipe de l— v—lid—tion ™roisée ‘WP“F v— deuxième question trouve ˜e—u™oup de solutionsF ves premiers tr—v—ux ‘WQ“ ‘WR“ en regroupement non supervisé de données ™onduisent à des méthodes de ™l—ssi(™—tion hiér—r™hiquesF ve prin™ipe est de ™onsidérer l— p—rtition à une seule ™l—sse qui ™omprend toutes les o˜serv—tions jusqu9à l— p—rtition où ™h—que o˜serv—tion est une ™l—sseF intres les deux extrémitésD l9utilis—teur doit ™hoisir l— p—rtition l— plus ré—listeF €our ™el—D les ™ritères de qu—lité qui mesurent l— pertinen™e du ™hoix du nom˜re de ™l—sses sont utilisés ‘VV“ ‘QS“ ‘VW“ ‘WH“ ‘WI“F ge type de ™l—ssi(™—tion hiér—r™hique est simil—ire —ux —r˜res de ™l—ssi(™—tionsF freim—n ‘WS“ propose une méthode d9—pprentiss—ge non supervisé pour les —r˜res de ™l—ssi(™—tionF v9idée est origin—le X p—rt—nt d9un ensem˜le de points s—ns l—˜el qui ™onstitue l— première ™l—sseD une se™onde ™l—sse est ™réée —rti(™iellement sur l— ˜—se d9un tir—ge —lé—toire des des™ripteurs de l— première ™l—sseF in ™onstruis—nt un —r˜re qui sép—re les deux ™l—ssesD on espère que l— première ™l—sse ser— s™indée en groupes homogènes qui ™onstituent les 4 ™lusters 4 souh—itésF v— te™hnique ™onsiste ensuite à déterminer quels sont les groupes qui sont reliés entre euxD p—r exemple vi— une m—tri™e de proximité ‘WT“F €eu d9—rti™les ont été pu˜liés à ™e sujet et le pro™édé est di0™ilement —ppli™—˜le pour les ™—s de données dont l9org—nis—tion sp—ti—le n9est p—s trivi—leF €—rmi les modèles de mél—ngesD l— méthode l— plus ™élè˜re d9—pprentiss—ge non suE pervisé est l— méthode des 4 uEmoyennes 4 ‘WU“ ‘WV“F €—rt—nt d9un nom˜re de points d9initi—lis—tion ég—l —u nom˜re de regroupements souh—itésD on ™her™he simplement à regrouper les exemples en groupes homogènes —u sens des des™ripteursF v— méE thode ™onsiste à étiqueter itér—tivement les individus en fon™tion de leur dist—n™e —ve™ les points d9initi—lis—tion qui ™h—ngent d9une itér—tion à l9—utreF hivers modi(™—tions ™ontri˜uent à l9—™™élér—tion de l9—lgorithme ‘WW“ ou ™her™hent l— meilleure initi—lis—tion ‘IHH“F v— méthode des 4 uEmoyennes 4 est étendue à l— logique )oue à l9—ide l9—lgoE rithme pgw @4 puzzy gEwe—ns 4A ‘IHI“F eprès —voir regroupé les données p—r p—quets à l9—ide de l9—lgorithme des uEmoyennesD l9—spe™t )ou se ™—r—™térise p—r l— possi˜ilité d9—ttri˜uer plusieurs ™l—sses p—r élément ‘IHP“F h9—utres méthodes mél—ngent l9—lgoE
  • 22. CHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE xxii L'ART rithme pgw —ve™ des —ppro™hes )oues de l9estim—tion du m—ximum de vr—isem˜l—n™e ‘IHQ“F v9—lgorithme iw ‘IR“ ‘IS“ ‘IT“ et ses dérivées ƒiwD igwD qiw ‘IU“ ‘IV“ ‘IW“ ‘PH“ ™onstituent l9extension pro˜—˜iliste des 4 uEmoyennes 4F sls permettent de trouver les proportions et les p—r—mètres des modes d9une loi ™i˜leF w—isD ™ontr—irement —u ™—s de l9—pprentiss—ge supervisé qui ™onsidère que ™h—que ™l—sse peut être modélisée p—r un mél—nge de loisD en —pprentiss—ge non supervisé une ™l—sse ™orrespond à l9un des modes du mél—ngeF v9—pprentiss—ge ™onsiste don™ à —pprendre les p—r—mètres des lois de ™h—que ™l—sse —insi que les pro˜—˜ilités — priori de f—çon à m—ximiser l— vr—isem˜l—n™e des donnéesF in(nD les rése—ux de neurones possèdent —ussi leur version de ™l—ssi(™—tion non superviséeF sniti—lisés p—r les tr—v—ux de qross˜erg ‘IHR“D les v† @4 ve—rning †e™tor u—ntiz—tion 4A sont un ™—s p—rti™ulier des rése—ux de neuronesF v— méthode qui en résulte @ƒyw pour 4 ƒelfEyrg—niz—tion w—p 4 ou en™ore —ppelée les 4 g—rtes de uoE honen 4A ‘IHS“ ‘IHT“ ‘IHU“D forme un rése—u ™omposé de deux ™ou™hesD l9une pour les entréesD l9—utre qui dé™rit l9org—nis—tion des neurones de m—nière topologiqueF vors de l9—pprentiss—geD les neurones ™i˜les de l— se™onde ™ou™he for™ent leurs voisins à modi(er leurs poids en f—veur de l9exemple ™on™ernéF pin—lementD les poids dé™rivent l— densité et l— stru™ture de l— rép—rtition des ve™teurs d9entréeF v9utilis—tion de l9une ou l9—utre de ™es méthodes dépend de l9—ppli™—tion visée et de l9org—nis—tion intrinsèques des données d—ns l9esp—™e des des™ripteursF he m—nière géE nér—leD l9—lgorithme des uEmoyennes est le plus utiliséD pour s— simpli™ité et s— r—piditéD m—is —ussi ™—r il n9est p—s sujet à —ux sou™is d9optimis—tionsF 2.4 Classication faiblement supervisée in ™l—ssi(™—tion f—i˜lement superviséeD il existe une in™ertitude sur l— ™l—sse des exemples d9—pprentiss—geF gette in™ertitude se ™—r—™térise p—r un ve™teur dont les ™omE pos—ntes sont les pro˜—˜ilités de ™l—ssi(™—tion — priori de ™h—que ™l—sseF v9ensem˜le d9—pprentiss—ge est don™ ™onstitué des exemples d—ns l9esp—™e des des™ripteurs et des ve™teurs de pro˜—˜ilité de ™l—ssi(™—tion —sso™iés @™fF équ—tion PFIAF €eu de p—piers —˜ordent le ™—s de l9—pprentiss—ge f—i˜lement supervisé sous ™e forE m—lisme pro˜—˜ilisteF ve ™—s le plus popul—ireD le plus tr—itéD et —y—nt f—it l9o˜jet d9une m—jorité de pu˜li™—tionsD est le ™—s p—rti™ulier des —nnot—tions qui indiquent quelles ™l—sses sont possi˜les de m—nière équipro˜—˜leF €—r exempleD on p—rle du ™—s 4 préE sen™eG—˜sen™e 4 en index—tion d9im—ges X ét—nt donnée une ˜—se d9im—ges dont l— présen™e ou l9—˜sen™e de 4 ™on™epts 4 @™l—ssesA est ™onnue d—ns ™h—que im—ge ‘IHV“ ‘IHW“D un modèle de ™l—ssi(™—tion des o˜jets doit être ét—˜liF hes modèles pro˜—˜ilistes génér—tifs s9—ppuy—nt sur l9—lgorithme iw ‘P“ ‘IIH“ ‘IHV“ ‘IHW“ ou sur les ™h—mps de w—rkov —lé—toires g—ussien ‘III“ ont été développésD m—is —ussi des modèles dis™rimiE n—nts qui emploient des te™hniques de type ƒ†w ‘IIP“ ‘IIQ“D ou en™ore des modèles ˜—sés sur du 4 ˜oosting 4 ‘IIR“ ‘IIS“ @voir ™h—pitre R pour le ˜oostingAF ves di'éren™es entre ™es méthodes portent sur le nom˜re de ™on™epts tr—ités d—ns les im—gesD sur le nom˜re d9exemples d9—pprentiss—geD sur l— ™omplexité des im—gesD et sur les hypothèses retenues rel—tivement —ux tr—nsform—tions des fr—gments d9une im—ge à l9—utreF €—r
  • 23. 2.5. CLASSIFICATION SEMI-SUPERVISÉE xxiii exempleD ™ert—ins ™onsidèrent que les régions d9intérêts sont ™onst—ntes en é™helle m—is qu9elles su˜issent des rot—tions et des tr—nsl—tions ‘IIT“ ‘IIU“D d9—utres ‘IIV“ ‘IIW“D sous les mêmes hypothèsesD ex—minent les inter—™tions sp—ti—les entre fr—gment d9im—ges —(n de p—rf—ire le modèleF hes modèles génér—tifs plus ™omplets ‘IPH“ ‘IPI“ permettent de lo™—liser l9o˜jet tout en pren—nt en ™ompte s— tr—nsl—tionD s— rot—tion et son é™helle d—ns les im—ges d9—pprentiss—geF e l9inst—r de l9—pprentiss—ge semiEsuperviséD ‚osen˜erg ‘IPP“ montre qu9en —jout—nt des im—ges —nnotées en présen™eG—˜sen™e @f—i˜lement suE perviséeA à des im—ges —nnotées de m—nière pré™ise @superviséeAD —lors les perform—n™es de ™l—ssi(™—tion peuvent être —mélioréesF ves mêmes modèles génér—tifs sont utilisés en segment—tion d9im—ges ‘IPQ“ ou pour l— déte™tion de ™on™epts d—ns des vidéos —nnotées ‘IPR“F h9—utres exemples p—rti™uliers proposent un —pprentiss—ge f—i˜lement superviséF ges le ™—s d9o˜jets d9—pprentiss—ge dire™tement —nnotés p—r des experts ‘IPS“D ou en™oreD des —ppli™—tions en télédéte™tionD et not—mment en interprét—tion d9im—ges ‘VI“F ve ™—s de l9—™oustique h—lieutique est un ™—s typique d9—pprentiss—ge f—i˜lement supervisé ‘IPT“D il est étudié d—ns l— p—rtie ssF in(nD ™ert—ins ™—s d9—sso™i—tions de ™l—ssi(eurs né™essitent l9utilis—tion d9un —pE prentiss—ge f—i˜lement superviséF €—r exempleD en —pprentiss—ge semiEsupervisé itér—tif ‘Q“D les p—r—mètres du ™l—ssi(eur d9une itér—tion donnée sont estimés sur l— ˜—se des pro˜—˜ilités de ™l—ssi(™—tion issues de l9itér—tion pré™édenteF gomme d—ns l— plup—rt des pro˜lèmes de ™l—ssi(™—tionD il n9existe p—s un modèle qui est meilleur que les —utresD ™h—que jeu de données ™orrespond à un type de ™l—ssi(eur en fon™tion des ses ™—r—™téristiques propresF he plusD en ™l—ssi(™—tion f—i˜lement suE perviséeD il existe l— notion de ™omplexité de l9ensem˜le d9—pprentiss—geD qui est dé(nit p—r l— n—ture des pro˜—˜ilités de ™l—ssi(™—tion — prioriF ƒi ™es pro˜—˜ilités — priori sont f—i˜lesD —lors le jeu de données est ™omplexe ™—r les inform—tions sur les ™l—sses sont peu inform—tivesD en rev—n™heD —ve™ un — priori fortD le jeu de données d9—pprentiss—ge est peu ™omplexe du f—it de l— pré™ision forte des inform—tions liés —ux l—˜elsF ves tr—v—ux ™ités pré™édemment ne font p—s d9étude des réponses des ™l—ssi(eurs rel—tivement à l— ™omplexité des l—˜elsD l9idée ét—nt plutôt de trouver le meilleur ™l—ssi(eur pur un ensem˜le d9—pprentiss—ge donnéeF h—ns le ™h—pitre SD nous —pportons des éléments de réponsesF 2.5 Classication semi-supervisée get ét—t de l9—rt est l—rgement inspiré du livre de gh—pelle ‘Q“ et de l9étude ˜iE ˜liogr—phique de hu ‘IPU“F gepend—ntD leurs ét—ts de l9—rt ne font p—s mention des méthodes d9—pprentiss—ge semiEsupervisé utilisées pour l— ™l—ssi(™—tion des données ™orrélées @tr—du™tion de l9—ngl—is 4 rel—tion—l d—t— 4AD dont les prin™ip—les —ppli™—tions sont l— ™l—ssi(™—tion de p—ges we˜F v9—pprentiss—ge semiEsupervisé est utilisé qu—nd peu de données l—˜élisées sont disE poni˜lesF h—ns ™e ™—sD il — été montré que l9introdu™tion de données s—ns l—˜el d—ns l9ensem˜le d9—pprentiss—ge peut —méliorer les perform—n™es de ™l—ssi(™—tion ‘Q“F sl existe plusieurs f—milles de méthodesD à s—voirD les modèles génér—tifsD les modèles qui s9—pE
  • 24. CHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE xxiv L'ART puient sur des gr—phesD les modèles dis™rimin—nts et les modèles itér—tifs qui s9—ppuient sur n9importe quel ™l—ssi(eur de ˜—seF v— première f—mille de méthodes regroupe les modèles génér—tifs ‘Q“F ve modèle employé usuellement se ˜—se sur l9—lgorithme iwF ve prin™ipe est d9estimer l— denE sité de pro˜—˜ilité jointe des o˜serv—tions et des l—˜elsF gomme en ™l—ssi(™—tion non supervisée @™fF l— se™tion PFQ du ™h—pitre PAD on suppose que ™h—que ™l—sse suit une denE sité de pro˜—˜ilité p—r—métriqueD dont on estime les p—r—mètresF w—is ™ontr—irement —u ™—s non superviséD les ™l—sses sont ™onnuesD il su0t don™ de ™onn—ître un exemple l—˜élisé p—r ™l—sse pour déduire les p—r—mètres —sso™iés à ™h—™une des ™l—ssesF xous pouvons ™iter les —rti™les de xig—m qui proposeD vi— l9—lgorithme iwD d9estimer les p—r—mètres de modèles f—yésien n—ïf q—ussien d—ns le ™—s mono mod—l ‘IPV“ ou multi mod—l ‘IPW“D et dont les méthodes sont regroupées d—ns le ™h—pitre 4ƒemiEsupervised text ™l—ssi(™—tion using iw4 du livre 4ƒemiEsupervised le—rning4 ‘Q“F xotons que l9—lE gorithme génér—tif d9—pprentiss—ge f—i˜lement supervisé de l— se™tion QFPFQ du ™h—pitre Q est l9un de ™es modèles génér—tifs qui peut être —ppliqué —u ™—s de l9—pprentiss—ge semiEsuperviséF ges modèles possèdent l9—v—nt—ge d9—voir ˜e—u™oup été étudiés d—ns l— littér—ture et d9être —ppré™iés pour leur stru™ture pro˜—˜ilisteF in rev—n™heD il est di0™ile d9év—luer l— justesse des modèles génér—tifs et il f—ut ™onn—ître l— loi ™i˜le pour ™h—que jeux de donnéesF he plusD l9—lgorithme iw est sujet à l— question des minim—s lo™—ux et ™ert—ines org—nis—tions intrinsèques des données ™onduisent l9—lgorithme vers de m—uv—ises solutions ‘IQH“F v— deuxième gr—nde f—mille de modèles est l9—ppro™he dis™rimin—nteF €—rmi les méE thodes dis™rimin—ntesD l— méthode des m—™hines à ve™teurs de support semiEsupervisée est l— plus utilisée ‘Q“F in —ngl—isD on trouve les termes 4 semiEsupervised ƒ†w 4 @ƒQ†wA ou en™ore 4 „r—nsdu™tive ƒ†w 4 @„ƒ†wAF v— méthode ™onsiste à trouver les ™oe0™ients de l9hyperpl—n qui sép—re les ™l—sses entre elles et tel que l— m—rge soit m—xim—le @™fF l— se™tion QFQ du ™h—pitre QAF €—r r—pport à l9—pprentiss—ge superviséD un terme de régul—ris—tion est —jouté d—ns l9équ—tion d9optimis—tionF geluiE™i tient ™ompte des données non l—˜éliséesF ves premières propositions ‘IQI“ m—nqu—ient de ro˜ustesseD not—mment visEàEvis de l— qu—ntité d9exemples s—ns l—˜elF to—™hims ‘IQP“ propose l— première version ro˜usteF h9—utres p—piers proposent des —mélior—tionsD ™omme p—r exempleD une —d—pt—tion —u ™—s multiE™l—sses ‘IQQ“D un —lgorithme r—pide pour les ƒQ†w liné—ires ‘IQR“D une dyn—mique de pro˜—˜ilis—tion g—ussienne à l— pl—™e d9une dyn—mique liné—ire ‘IQS“ F F F w—lgré un form—lisme m—thém—tique —ppré™i—˜le et de ˜onnes perform—n™esD not—mment pour les jeux de données pour lesquels les ƒ†w supervisés sont très perform—ntsD ™ette méthode reste sujette —ux points optim—ux loE ™—ux et donne des perform—n™es modestes pour ˜e—u™oup de jeux de donnéesF gh—pelleD ƒindhw—ni et ueerthi ‘IQT“D proposent une ˜i˜liogr—phie et ™omp—re les résult—ts des méthodes d9—pprentiss—ge semiEsupervisé qui emploient les ƒ†wF ves modèles ˜—sés sur les gr—phes de simil—rité ™onstituent une —utre gr—nde f—mille de méthodes d9—pprentiss—ge semiEsupervisé ‘Q“F sl existe plusieurs f—çons de ™onstruire un gr—phe ‘IQU“ ‘IQV“ ‘IQW“F sm—ginez des noeuds de l9esp—™e reliés entre eux p—r des ˜r—n™hesF ves noeuds représentent les exemples —ve™ et s—ns l—˜elsD t—ndis que les ˜r—n™hes représentent les simil—rités entre exemplesF v9—lgorithme des kEplusEpro™hesE voisins ‘TP“ ‘TT“ ‘TU“ peut être vu ™omme un ™—s p—rti™ulier des gr—phes de simil—ritéD l—
  • 25. 2.5. CLASSIFICATION SEMI-SUPERVISÉE xxv ™l—sse —ttri˜uée ™orrespond—nt à l— ™l—sse m—jorit—ire des k exemples l—˜élisés les plus simil—iresF eve™ les gr—phes de simil—ritéD s9—joute l— notion de dist—n™e entre données s—ns l—˜elF €—r exempleD le jeu des simil—rités f—it qu9une o˜serv—tion s—ns l—˜elD éloignée en dist—n™e de tout exemple l—˜éliséD peut être ™onsidérée ™omme pro™he de l9un d9entre eux p—r l9intermédi—ire d9une —utre o˜serv—tion s—ns l—˜elF v9o˜je™tif est de trouver une fon™tion de ™l—ssi(™—tion pour le gr—pheF v— méthode ™onsiste en un pro˜lème de régul—ris—tion où le premier terme de l— fon™tion de ™oût porte sur les données l—˜élisées et le se™ond terme permet de lisser les solutions sur l9ensem˜le du gr—phe à l9—ide des exemples s—ns l—˜elF v— di'éren™e entre les méthodes se situe sur l— forme des fon™tions de ™oûtF €—r exempleD l— fon™tion de ™oût peut s9exprimer en fon™tion de l9erreur qu—dr—tique de ™l—ssi(™—tion pondérée pour une ™l—ssi(™—tion dite 4 dure 4 @non pro˜—˜ilisteA ‘IRH“F he l— même f—çonD l— version pro˜—˜iliste exprime le ™oût en fon™tion des ™h—mps —lé—toires q—ussiens ‘IRI“ ‘IRP“F …n p—pier propose d9utiliser l9—lgorithme de régul—ris—tion de „ikhonov ‘IRQ“F ve gr—phe peut —ussi être modélisé ™omme un ™h—mp de w—rkov dis™ret ‘IRR“F sl existe ˜e—u™oup de propositions pour les modèles ˜—sés sur les gr—phes de simil—ritéF v9invent—ire présent n9est p—s exh—ustif m—is donne une idée des —ppro™hes possi˜lesF xotons queD ™omme pour les modèles dis™rimin—ntsD ™es modèles sont ˜in—ires et peuvent s9étendre —u ™—s multiE™l—sses en utilis—nt une —ppro™he 4 oneEversusE—ll 4F w—lgré l9élég—n™e des modèles m—thém—tiques et les ˜onnes perform—n™es de ™l—ssi(™—tionD ™e modèle possède quelques déf—utsF „out d9—˜ord ™es modèles sont fortement dépend—nts de l— f—çon dont sont ™onstruits les gr—phsF ƒ9ils ne sont p—s ™orre™tement édi(ésD ™el— peut entr—îner de très m—uv—ises perform—n™esF in(nD ™es modèles ont le déf—ut d9être perform—nts en ™l—ssi(™—tion uniquement sur les données d9—pprentiss—ge ‘Q“D p—s sur les données de testD ™el— né™essite de ré—pprendre un ™l—ssi(eur pour ™h—que nouvelle donnéeF v— dernière gr—nde f—mille de méthodes d9—pprentiss—ge semiEsupervisé repose sur l9emploi itér—tif de ™l—ssi(eursF v— version simpliste est le 4 self tr—ining 4 introduit d—ns les —nnées UH ‘IRS“ et qui est employé d—ns quelques —ppli™—tions de vision p—r ordin—teurF €—r exempleD un p—pier ‘IRT“ propose de ™om˜iner un ™l—ssi(eur génér—tif @vi— l9—lgorithme iwA —ve™ un pro™essus de self tr—iningF ve prin™ipe est le suiv—ntF e une itér—tion donnéeD les exemples l—˜élisés de l9ensem˜le d9—pprentiss—ge ét—˜lissent un modèle de ™l—ssi(™—tionF ves exemples s—ns l—˜el sont ™l—ssés à l9—ide de ™e ™l—ssi(eurD de làD les exemples s—ns l—˜el deviennent l—˜élisésF €—rmi ™es exemples fr—i™hement l—˜éliE sésD les plus pro˜—˜les —u sens de l— pro˜—˜ilité de ™l—ssi(™—tionD sont ™onsidérés ™omme dé(nitivement l—˜élisés et ils ™ontri˜ueront à l9él—˜or—tion du ™l—ssi(eur de l9itér—tion suiv—nteF v9—lgorithme est présenté plus en dét—il d—ns l— se™tion RFQ du ™h—pitre RF ves —v—nt—ges de ™ette méthode sont l— simpli™ité de l9—lgorithme et l9—ppli™—˜ilité à tout ™l—ssi(eur pro˜—˜ilisteF ves in™onvénients sont l— possi˜le prop—g—tion d9une erE reur ™ommise lors des premières itér—tions et l— di0™ulté de l9étude de l— ™onvergen™e ‘IRU“ ‘IRV“ et du ™omportement de l9—lgorithmeF ve modèle génér—tif qui s9—ppuie sur l9—lgorithme iw peut être vu ™omme un ™—s p—rti™ulier du self tr—ining d—ns le sens où le modèle de ™l—ssi(™—tion évolue à ™h—que itér—tionD —u fur et à mesure que les exemples sont ™orre™tement ™l—ssésF v— di'éren™e se situe d—ns l9—ttri˜ution d9un l—E ˜el à tous les exemples à ™h—que itér—tionD t—ndis que pour le self tr—iningD seuls les exemples dont l9indi™e de ™on(—n™e de ™l—ssi(™—tion est su0s—mment élevé se voient
  • 26. CHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE xxvi L'ART —ttri˜uer une ™l—sseF v9—lgorithme itér—tif le plus ™élè˜re est le 4 ™oEtr—ining 4 ‘IRW“F €—r r—pport —u self tr—iningD le ™oEtr—ining suppose que l9esp—™e des des™ripteurs peut être s™indé en deux sousEesp—™es indépend—nts tels queD à ™h—que itér—tionD deux ™l—ssiE (eurs —pprennent ™h—™un un modèle de ™l—ssi(™—tion sur l— ˜—se des deux sous esp—™esF v— s™ission est e'e™tuée pour réduire l— ™omplexitéD surtout si l9un des deux sousE ensem˜les est fortement ˜ruitéF h9—utres versions du ™oEtr—ining proposent de s™inder —lé—toirement l9esp—™e des des™ripteurs à ™h—que itér—tion ‘ISH“F €ier™e et g—rdie ‘ISI“ emploient un ™l—ssi(eur f—yésien n—ïf —ve™ un pro™essus de ™oEtr—iningF sls proposent —ussi quelques modi(™—tions ™ommeD p—r exempleD le ™hoix —lé—toire d9une ™l—sse @—u sens de l— distri˜ution des ™l—sses des exemples l—˜élisésA pour l—quelle on ™her™he l9exemple le plus pro˜—˜le p—rmi les exemples fr—i™hement ™l—ssi(ésF gette proposition est dis™ut—˜le d—ns le ™—s des —r˜res de ™l—ssi(™—tion dont on s—it qu9ils f—vorisent les ™l—sses m—jorit—ires @™fF l— se™tion PFPFQ du ™h—pitre PAF €our ™on™lureD les perform—n™es de toutes ™es méthodes sont liées à l— n—ture des jeux de données @nom˜re de des™ripteursD nom˜re d9exemples l—˜élisés et nom˜re d9exemples s—ns l—˜elD re™ouvrement entre ™l—ssesD org—nis—tion sp—ti—le des données F F F AF sl n9y — p—s vr—iment de méthode idé—le qui domine les —utres et une étude doit être menée à ™h—que foisF he plusD l9—pprentiss—ge semiEsupervisé fon™tionne m—l qu—nd le jeu de données est ™omplexe en terme de re™ouvrement entre ™l—sseF einsiD d—ns l— plup—rt des p—piersD les méthodes sont testées sur des jeux de données pour lesquels l— ™l—ssi(™—tion est —isée en —pprentiss—ge superviséF h—ns l— ™ommun—uté de l— ™l—ssi(™—tion de p—ges we˜ ‘PS“ ‘ISP“D on emploie les termes 4 données ™orrélées 4 pour p—rler d9—pprentiss—ge semiEsuperviséF …n p—pier ‘ISQ“ montre que les deux méthodes utilisées p—r ™ette ™omE mun—uté sont les modèles ˜—sés sur les gr—phes de simil—rité et les modèles itér—tifsF h—ns ™e même p—pierD pour un jeu de données p—rti™ulierD on montre que les gr—phes sont plus perform—nts que les modèles itér—tifs si l— qu—ntité d9individus l—˜ellisés est très f—i˜leF 2.6 Conclusion h—ns ™et ét—t de l9—rtD nous —vons présenté les qu—tre types d9—pprentiss—ge ™ouE r—mment utilisés X l9—pprentiss—ge superviséD l9—pprentiss—ge non superviséD l9—pprentisE s—ge f—i˜lement supervisé et l9—pprentiss—ge semiEsupervisé qui se dé™linent en gr—ndes f—milles de modèles @génér—tifsD dis™rimin—ntsD hy˜ridesAF ve ˜ut ét—nt d9éto'er les ™onn—iss—n™es et de se situer méthodologiquementD les méthodes —sso™iées à ™h—™un de ™es —pprentiss—ges ont été présentées su™™in™tement et nous —vons exposé les prin™ip—les di'éren™esF ve ™h—pitre Q est plus formel qu—nt à l— ™ompréhension des méthodes et —ux déE veloppements m—thém—tiquesF xous —llons ™hoisir trois modèles de ˜—se @un génér—tifD un dis™rimin—nt et un hy˜rideA que nous dé™linerons sous leurs formes supervisées et f—i˜lement superviséesF
  • 27. CHAPITRE 3 Classication faiblement supervisée : modèles proposés 3.1 Introduction 3.1.1 Généralités v9o˜je™tif de ™e ™h—pitre est de déterminer quelle méthode usuelle répond —u mieux en —pprentiss—ge f—i˜lement supervisé et de ™omprendre le fon™tionnement propre à ™h—™une de ™es méthodesF xous ™hoisissons don™ volont—irement un l—rge spe™tre de méthodes @d—ns le sens où les —ppro™hes méthodologiques se distinguent fortementAF xous —vons ™hoisi un modèle génér—tifD un modèle dis™rimin—nt et un modèle hy˜ride que nous dé™linons sous leur forme ™onnue d9—pprentiss—ge superviséD puis sous une forme d9—pprentiss—ge f—i˜lement superviséF ves deux types d9—pprentiss—ge sont préE sentés ™onjointement de m—nière à ˜ien ™omprendre les fondements des méthodes et les liens étroits exist—nt entre l9—pprentiss—ge supervisé et l9—pprentiss—ge f—i˜lement superviséF ve ™—s de l9—pprentiss—ge f—i˜lement supervisé ™onsidéré d—ns ™e ™h—pitre est di'éE rent de ™elui ren™ontré h—˜ituellement d—ns l— littér—tureF gontr—irement —ux données d9—pprentiss—ge dont l9inform—tion sur les ™l—sses est donnée p—r des ve™teurs ˜in—ires qui indiquent quelles sont les ™l—sses possi˜lesD nous nous pl—çons d—ns le ™—s génér—l d9un ve™teur qui donne les pro˜—˜ilités de ™l—ssi(™—tion — priori pour ™h—que ™l—sseF €lus génér—lement en™oreD nous ™onsidérons un ensem˜le d9im—ges ou de do™uments ™onten—nt des o˜jetsD telles que les distri˜utions — priori des ™l—sses sont ™onnues d—ns les im—ges ou les do™umentsF ev—nt de présenter les modèles de ™l—ssi(™—tion d—ns les se™tions QFP QFQ QFRD les not—tions seront introduitesF ves perform—n™es de ™l—ssi(™—tion de ™es modèles seront présentées d—ns le ™h—pitre S pour plusieurs jeux de données du dom—ine pu˜li™F
  • 28. CHAPITRE 3. CLASSIFICATION FAIBLEMENT SUPERVISÉE : xxviii MODÈLES PROPOSÉS 3.1.2 Notations in ™l—ssi(™—tion superviséeD l9ensem˜le d9—pprentiss—ge est noté {xn , yn }1≤n≤N D où xn représente l9o˜serv—tion d—ns l9esp—™e des des™ripteursD t—ndis que yn = i indique que xn est de l— ™l—sse iF h—ns le ™—s des ™l—ssi(eurs ˜in—ires @™l—ssi(™—tion à deux ™l—ssesAD yn peut prendre les v—leurs +1 ou −1F in ™l—ssi(™—tion f—i˜lement superviséeD K indique le nom˜re d9im—ges d9—pprentisE s—geF v9im—ge d9—pprentiss—ge indi™ée p—r k ™ontient N (k) o˜jets dé™rits d—ns l9esp—™e des des™ripteurs p—r {xkn }1≤k≤K,1≤n≤N (k) F gh—que im—ge d9—pprentiss—ge est —sso™iée à un ve™teur l—˜el πk F ves ™ompos—ntes πki du ve™teur l—˜el donnent l— proportion de l— ™l—sse i d—ns l9im—ge k F ges proportions peuvent être vues ™omme l9— priori de l— ™l—sse i d—ns l9im—ge k telle que πki = p (ykn = i)D ∀nF xous notons ykn = i si l9o˜jet xkn est —sso™ié à l— ™l—sse iF xotons que i πki = 1F v9étiquette glo˜—le de l9im—ge est r—menée à l9é™helle de l9o˜jetD donn—nt un l—˜el individuel — prioriF v9ensem˜le d9—pprentiss—ge peut don™ s9é™rire X {xkn , πk }1≤k≤K,1≤n≤N (k) F v9o˜je™tif des méthodes est d9ét—˜lir un modèle de ™l—ssi(™—tion des o˜jets à p—rtir du jeu de données d9—pprentiss—geF ƒi Θ sont les p—r—mètres du modèleD —lors nous ˆ év—luons Θ d—ns un premier tempsD puis l— pro˜—˜ilité de ™l—ssi(™—tion p y = i|x, Θ ˆ ét—nt donné l9exemple test xF 3.2 Modèle génératif 3.2.1 Introduction h—ns le ™h—pitre QFPD nous étudions un modèle génér—tif ˜—sé sur l9—lgorithme iwF v— méthode ™onsiste à ™onsidérer que les données sont ™onstituées de modes g—ussiens dont nous ™her™hons à év—luer les moments d9ordre I et PF „out d9—˜ordD d—ns l— se™tion QFPFPD nous présentons l— méthode sous s— forme l— plus ™onnue X d—ns le ™—s de l9—pprentiss—ge superviséF €uisD d—ns l— se™tion QFPFQD l— pro™édure est étendue —u ™—s de l9—pprentiss—ge f—i˜lement superviséF 3.2.2 Classication supervisée in guise de modèle génér—tifD nous étudions les mél—nges de q—ussiennes dont les p—r—mètres sont estimés à l9—ide de l9—lgorithme iw qui m—ximise l— vr—isem˜l—n™e à ™h—que itér—tionF yn se pl—™e d—ns le ™—s de N ré—lis—tions {x1 , . . . , xN } d9une v—ri—˜le —lé—toire X dont l— densité est un mél—nge de g—ussiennesF gel— suppose que nous ™onsidérons les données d9une ™l—sse rép—rties de m—nière mod—leD ™h—que mode ét—nt modélisé p—r une g—ussienneF v9o˜je™tif de l9—pprentiss—ge est d9estimer les p—r—mètres de ™h—™une des g—ussiennesF ƒoit l— v—ri—˜le —lé—toire S telle que snim = 1 si l— ré—lis—tion xn provient du mode m de l— ™l—sse iD et snim = 0 sinonF xous en déduisons que ρim = p (sim )D —ve™ M m=1 ρim = 1F
  • 29. 3.2. MODÈLE GÉNÉRATIF xxix ƒoit Θ = {ρim , µim , Σim }i,m les p—r—mètres d9un modèle de mél—nge g—ussienD où M est le nom˜re de modes p—r ™l—sseD ρim est l— proportion du mode m de l— ™l—sse iD µim est l— moyenne du mode m de l— ™l—sse i et Σim est l— m—tri™e de ™ov—ri—n™e du mode m de l— ™l—sse iF v— fon™tion densité s9é™rit X M p (x|y = i, Θ) = ρim N (x|µim , Σim ) @QFIA m=1 X est une o˜serv—tion in™omplète que l9on peut ™ompléter p—r l— v—ri—˜le ™—™hée S F einsi f—itD le ™ritère du m—ximum de vr—isem˜l—n™e — posteriori peut être employéF gepend—ntD l— m—ximis—tion de l— logEvr—isem˜l—n™e ™omplétée est di0™ileF v9—stu™e de l9—lgorithme iw est de ™ontourner ™e ™—l™ul vi— l— m—ximis—tion de l9espér—n™e ™onditionnelle de l— logEvr—isem˜l—n™e ™omplétée p—r r—pport à ΘF in not—nt Θc les p—r—mètres ™our—nts o˜tenus soit p—r ™—l™ulD soit p—r initi—lis—tionD l9estimé des p—r—E mètres à l9itér—tion suiv—nte s9é™rit don™ X ˆ Θ = arg max {Q(Θ, Θc )} @QFPA Θ où Q(Θ, Θc ) = E [log p (x, s|Θ) |x, Θc ] = p(s|x, Θc ) log p(x, s, Θ) @QFQA s F yrD en suppos—nt les o˜serv—tions {xn } indépend—ntesD nous pouvons é™rire X  N N   log p(x, s, Θ) = log   p(xn , sn , Θ) = log [N (x|µ, Σ)p(sn )]  N n=1 n=1 . @QFRA  c  p(s|x, Θc ) =   p(sn |xn , Θ )  n=1 pin—lementD en su˜stitu—nt les éléments de l9équ—tion @QFQA et en se fo™—lis—nt sur l— ™l—sse iD nous o˜tenons l9expression suiv—nte X N M c Q(Θ, Θ ) = log [ρim N (x|µim , Σim )] p(snim |xn , Θc ) @QFSA n=1 m=1 xous voulons m—ximiser Q(Θ, Θc ) p—r r—pport à ΘF einsiD en ™onsidér—nt Θc ™omme un p—r—mètre ™onst—ntD et ™omme prélimin—ire à l— m—ximis—tion nous ™—l™ulons p(snim |xn , Θc ) d—ns une première ét—peF v— règle d9inversion de f—yes donne X ρim p (xn |snim , Θc ) p(snim |xn , Θc ) = M @QFTA ρil p (xn |snil , Θc ) l=1 €our trouver le p—r—mètre ρim qui m—ximise Q(Θ, Θc )D nous utilisons les multipliE ™—teurs de v—gr—nge —ve™ l— ™ontr—inte M ρim = 1F xous o˜tenons X m=1 N 1 ρim = p(snim |xn , Θc ) @QFUA N n=1
  • 30. CHAPITRE 3. CLASSIFICATION FAIBLEMENT SUPERVISÉE : xxx MODÈLES PROPOSÉS ves moyennes et v—ri—n™es sont o˜tenues p—r dériv—tion X N p (snim |xn , Θc ) xn n=1 µim = N @QFVA c p (snim |xn , Θ ) n=1 N p (snim |xn , Θc ) (xn − µim ) (xn − µim )T n=1 Σim = N @QFWA p (snim |xn , Θc ) n=1 €uis les p—r—mètres ™our—nts sont estimés à nouve—uD et le pro™essus est itéré jusqu9à ™onvergen™eF v9—lgorithme est résumé d—ns le t—˜le—u QFIF vors de l— ph—se de testD l— pro˜—˜ilité pour qu9un individu quel™onque x soit de l— ™l—sse i est donnée p—r l— pro˜—˜ilité de ™l—ssi(™—tion — posteriori X M p(y = i|x, Θ) = ρim N (x|µim , Σim ) @QFIHA m=1 sl existe une version sto™h—stique de ™et —lgorithmeF v9—lgorithme ƒiw ‘IU“ — pour o˜je™tif d9éviter d9—˜outir à un m—ximum lo™—l de vr—isem˜l—n™eF €our ™el—D entre les ét—pes i et wD les individus sont ™l—ssés p—r r—pport —ux di'érents modes à l9—ide d9un tir—ge —lé—toire suiv—nt l— densité de pro˜—˜ilité dis™rète {p(snim |xn )}i F 3.2.3 Classication faiblement supervisée €our le ™—s de l9—pprentiss—ge f—i˜lement superviséD nous nous sommes —ppuyés sur les tr—v—ux développés d—ns ‘ISR“F ge p—pier propose de résoudre l9—lgorithme iw pour des données f—i˜lement l—˜elliséesF ge dernier tr—ite uniquement le ™—s d9o˜serv—tion dont le l—˜el indique l— présen™e ou l9—˜sen™e de ™l—sses d—ns un groupe d9o˜jetsF xous —vons —d—pté l9—lgorithme —u ™—s des l—˜els qui indiquent l— proportion des ™l—sses d—ns un groupe d9o˜jetsF ƒoit Θ = {ρim , µim , Σim }i,m les p—r—mètres d9un modèle de mél—nge de g—ussiennes X M p (x|y = i, Θ) = ρim N (x|µim , Σim ) @QFIIA m=1 €our un ensem˜le d9—pprentiss—ge de l— forme {xkn , πk } qui est l—˜ellisé en proportionD le ™ritère de m—ximis—tion de l— vr—isem˜l—n™e peut être dé(nit p—r X K N (k) ˆ Θ = arg max p(π|x, Θ) = arg max p(πk |xkn , Θ) @QFIPA Θ Θ k=1 n=1