CYRIL-DANIELISKANDER
Égaliseurs neuronaux rapides
Mémoire
présenté
à la Faculté des études supérieures
de l'université Lav...
National Library
1+1 of Canada
Bibliothéque nationale
du Canada
Acquisitions and Acquisitions et
BibliographicServices ser...
Résumé
La performance limitée des égaliseurs linkaires face à des canaux fortement dispersifs
ou non-linéaires a encouragé...
Avant-propos
Je souhaite d'abord remercier mes parents et grand-parents -1nes et Vittorio Zamuner-
pour tout leur soutien....
Résumé ....................................................................i
Avant-propos....................................
3.1 Algorithmes basés sur te gradient stochastique............................ 22
3.1.1 L'algorithme LMS ("Least-Mean Squa...
.........................4.1.3.1 Algorithme de backpropagation (BP) 73
....................4.1.3.2 Algorithmespour accélér...
Annexe A Dérivations de quelques algorithmesd'apprentissage ..................190
A.1 Dérivation de l'algorithme RLS ........
Liste des Figures
Figure 2.I
Figure 2.2
Figure 2.3
Figure 2.4
Figure 2.5
Figure 2.6
Figure 2.7
Figure 2.8
Figure 4.1
Figur...
Figure 5.10
Figure 5.11
Figure 5.12
Figure 5-13
Figure 5.14
Figure 5.15
Figure 5.16
Figure 5.17
Figure 5.18
Figure 5.19
Fi...
Figure 5.37
Figure 5.38
Figure 5.39
Figure 5.40
Figure 5.41
Figure 5.42
Figure 5.43
Figure 5.44
Figure 5.45
Figure 5.46
Fi...
Figure 5.69
Figure 5.70
Figure 5.71
Figure 5.72
Figure 5.73
Figure 5.74
Figure 5.75
Figue 5.76
Figure 5.77
Figure 5.78
Fig...
Figure 5.103
Figure 5.104
Figure 5.105
Figure 5.106
Figure 5.107
Figure 5.108
Figure 5.109
Figure 5.110
Figure 5.1 11
Figu...
Liste des sigles et abbrbviations
BER
BP
DEKF
DFE
EKF
ELT
FIR
FRIS
FTF
GAL
iSI
LMS
LSL
MAP
MLP
MLSE
Msymb./s
MSE
PAM
PMC
P...
Chapitre 1: lnrroducrion
CHAPITRE
Introduction
1.1 Progrès dans l'égaiisation adaptative
L'égalisation adaptative pour les...
Chapitre 1: lntrtniucrion
pour signaux modulés GMSK ("Gaussian Minimum Shi3 Keying"). Les standards 1s-54("EIA
Interim Sta...
Chapitre 1: Introduction
Le but de ce mémoire est de proposer de nouvelles structures pour l'égalisation par
réseaux de ne...
Chapitre 1: Introduction
1.4 Notation
Les notationset opérateurs suivants seront utilisés:
u: vecteur d'éléments.
U:matric...
Chapitre2: Revue de I'&alisation
CHAPITRE
Revue de l'égalisation
2.1 Principe de l'égalisation
2.1.1 Introduction
Dans les...
Chapitre 2: Revue de 1'égalisation
Les symboles originaux ne peuvent être identifiésde manière simple, à cause du haut niv...
Chapitre 2: Revue de I'égalisurion
La solutionàce problème consisteà recourir des méthodes d'égalisation [Qur851. De
maniè...
Chapitre 2: Revue de I'igalis~~tion
dispositif de pré-distortion à l'émetteur, soit en munissant le récepteur d'un egalise...
Chopitre 2: Revue de I'igalisation
Soit ~ ( t )le symbole transmis au temps t, provenant d'une modulation arbitraire. On
a...
Chapitre 2: Revue de I'igolisation
c'est-à-dire la sommedu signal désir6et du bruit additif. Le terme x ( i )h(k-i) corres...
Chapitre2: Revue de l'égalisation
Autrement dit, la réponse en fréquencede l'égaliseur doit approximer l'inverse de la rép...
dans certains liens micro-ondes ou dans des réseaux point-à-multipoints. Dans d'autres
situations, l'utilisation d'une tra...
Chapitre2: Revue de f '4galisPtion
LMS GAL
RLS LSL
FRLS
SR-RLS
L m L m
RIS RLS
CAL
FRLS FRLS
LSL
SR-RLS SR-RLS
MAP: Maximu...
Chapitre 2: Revue de l'dgaliscition
T('~rmtionnaly-spcedequalizer"ou FSE):par exemple,si r = -.comme c'est souventle cas,
...
Chopirre 2: Revue de i'igalisation
Durant la période d'égalisation autodidacte en régime permanent, l'erreur est:
où X(k -...
Chapitre 2: Revue de I'égalisarion
e e * = {plm*m = n
0 , m f n
b
où pfm et P ,dénotent les puissances de l'erreur de préd...
Chapitre2: Revue de l'igalisattatton
2.1.4.2 Égaliseurs non-linéaires
Parmi les classes importantes d'égdiseurs non-linéai...
Chapitre2: Revue de 1'4galisarion
L'avantage de I'égaliseur à retour de decisions est qu'il dlimine I'ISI provenant des
sy...
Chapitre 2: Revue de l'dgulïsation
moyens ("laast-Mean Squares", LMS). L'algorithme de base est le LMS.
Le LMS
les algorit...
C ' p i t r e2: Revue de l'igalisarion
description plus détaillée sera donnée à la section 4.1.1. Les RNA cherchent à héri...
Chapitre2: Rewue de i'égrrlisation
931, [Lo921, [Kir 921, [You 961 .
Réseau récurrent [Kec 941, Liu 961.
Réseau à fonction...
Chapitre3: Afgorirhmesadaptarifspour l'igalisationlinéaire
CHAPITRE
Algorithmes adaptatifs pour l'égalisation
linéaire
3.1...
Chapitre 3: AlgorithmescrdapratQ5 pour I 'dgalisation linéaire
de faire l'objet de recherches. Les aspects importants du L...
Chapitre 3:Algorithmes aa2tptarifspour I'Pgalisation linéaire
C'est-à-dire:
en supposant R non singulière et donc invertib...
Chapitre 3: Algorithmes adapratifspour l'égalisationlinéaire
Utilisons ce gradient dans l'algorithme de descente rapide ("...
Chapitre 3: Algorirhes adaptatifi pour I'dgalisurion linéaire
2
' puissance totalede l'entree
L'algorithme LMS est sensibl...
Chapitre3: Algorithmesodapratifi pour l'égalisation linéaire
On voit que J ( w ) est supéneure à J,, de la quantité positi...
Chapitre 3: Algorithmes aùaptatl~sp u r 1'égalisarion linéaire
3-1.2 L'algorithme GAL C'Gradient AdpiPtive tCr#iceJ3
L'alg...
Chapirre 3: Algorithmes adapratijspour l'égalisation linéaire
a étant une petite constante (i.e. 0.01).
Fin
Pour nz = 1, ....
Chapitre 3: Algodhmes aalzptarifspour f'dgalisationlinéaire
l'entraînement d'un filtreen treillis par un algorithme de typ...
Chapitre 3: Algonihmes adaptarifJ pour l'dgalisation lindaire
~ ( 0 )= O N x 1
6 étant une petite constanteet I la matrice...
Chopirre3: Algorithmes adap~atifspour l'égalisationlindaire
avec:
* x(k), , :état du système
* @(k)M :matrice de transitio...
Chapitre 3: Algorithmes adaptatifspour l 'Pgalisationlindaire
P(k + 1 1Y i ) = @(k + 1, k ) î ( k JY,- ,) +G ( k ) a ( k )...
Chapitre3: Afgorirhmesa&pzati/s pour I'dgalisatiorr linéaire
où:
- w,(k) représente le vecteur des coefficients optimal de...
Chapitre 3: Algonrhmes aàaptar~spour f'dgalisarionlinéaire
* L'environnement est stationnoire. Q(k)est égal à zéro. L'algo...
Chapitre 3: A l g o n h e s aabptarifspour l'égalisation linéaire
En résumé, l'algorithme RLS peut être obtenu de deux man...
Chapitre 3:Algorithmes adaptarifsp u r l'égalisation linéaire
I
nthme etm-an (EKF)
* Itérations
Dans le cas de l'égalisati...
Chapitre 3: Algorithmes a&ptatijs pour I'dgalisarion linéaire
K ( k ) = A-'[ K ( k )-g ( k ) ~ H ( k ) ~ ( k ) ]
3.2.3 L'a...
Chapitre3: AIgorirhmes adaptatifsp u r I 'égalisationlindaire
1@ à un intervalle l ~ - ~ ~- ld? Ainsi. en utilisant le mêm...
Chupirre3: AIgon-rhes cldapruzifspour f'igulisurion linéaire
fourj = 2. ,..,ht
j - 1
f,(k) = pij(k - 1 )u*(k -i ) +u*(k-j)...
Chpirre 3: AIgonrhmes aa'aptatifs pour I'igalisarion linéaire
considérable de la complexité de calcul des algorithmes RLS....
Chapitre 3: Algorithmes aakptatifspour 1'4galisationlinéaire
Vecteurde prédiction avant:
f fw,(k) = wN(k- 1 ) +kN(k)ef(k(k...
Chapitre 3: Algorirhrnes adaptatifspour f't?galisa~ionlindaire
Vecteurdes poids:
4leorithrne FTF (64Fast Transversal Filte...
Chapitre 3: Algorithmes aaàptarij3 pour I'igalisation linéaire
Facteur de conversion augmenté:
Vecteurde gain normalisé au...
C'pitre3: Algonrhmes adaptarifspour l'égalisation Iint?aire
H
a,W = 4 k ) -w,(k)u,(k)
Erreur d'estimation a posteriori:
Ve...
Chapitre3: Algorithmes adaptatifspour I 'igalisationlinéaire
&orm-e
6 étant une petite constante.
Fin
Pourm = 1, ...,N:
Fi...
Fin
Pour m = 1, ,..,N:
Fin
Pour nt =O, ...,N:
Fin
Pourm = 1, ...,At
Chapitre 3: Algorithmes a&piatïf.s pour 1'égulisarionl...
Chapitre3: Algorithmes adaprarvspour L'igulisarion Linéaire
Une version de l'algorithme qui possède une stabilité numériqu...
Chapitre 3: Algorizhmes adapratryspour l'égalisarion linéaire
A,-,(O) = O,,,
Fin
Pourm =NI -Nb+l.....Nf+1:
Fin
* Itération...
Chapitre 3: Algorithmes adaptatifspour l'égalisation linéaire
-
Fin
Étage de transition
Pourm=M=N/ - N b :
Fin
Étage vecto...
Chapitre 3: AIgori~hmesadaptatfspour I'dgalisarion linéaire
Fin
Étages vectoriels
Pourm =Nf-Nb+ 1, ....Nf + 1:
e J k ) = d...
Chapitre 3: Algon'thmes PdaptatifS p u r 1't?galiscltionlinkaire
Fin
Pourm =Nf-Nb+1. ....NI+ 1:
Fin
3.2.6 L'algorithme RMG...
Chapitre 3: Algorithmes adaprar,f.spour l'dgalisation linéaire
Y&) = 0
Pour m = 1, ...,N:
Pourn =nt + 1, ...,N:
Fin
Fin
Po...
Chapitre4: Algorithmes a&ptarus pour l 'égalisationneuronale non-linéaire
CHAPITRE
Algorithmes adaptatifs pour l'égalisati...
Chapitre 4: Algonrhmes hptatifs pour I'igalisation neuro~lenon-linéaire
W représente la matrice despoids associés au perce...
Chupirre 4: Algorithmes &ptatifs p u r l't!galisatian neuronale non-lin4aire
où rn = 1,...,Mdésigne le numéro de la couche...
Chpitre 4: Algorithmes rdapratifspour Imigalijationn e u r o ~ l enon-linéaire
Fonaion Umiteur
symrn4trique
Fonctionl i d ...
Chapitre4: Algorithmes adaptatif3pour 1'igalisationneuronule non-lindaire
4)fT)ne doit pas être une fonction entière, c'es...
Chapitre4: Algorithmes adaptatifspour I'Pgalisarionneuro~fenon-linéaire
où a,b et C sont des constantes. Il s'agit d'une f...
Chapitre4: Algorithmes &prarifs pour 1'égalisationneuronule non-linéaire
Figure 4.4 Fonction f M ( ~ ) ,pour M = 4, avec =...
Chapitre 4: Algon'thmes adaptatvs pour l'égalisarion neuronale non-lin4oire
en série, changeant d'un échantillon à la fois...
Chapitre 4: Algorithmes ad&ptari$s pour 1'dgalisationneuronale non-lindaire
où les u(k), u(k - 1), ...,u(k -NI+ 1) sontde ...
Chapitre4: Algonihmes adaptatifs pour IOPgalisationneuronale non-lin4uire
d'un côté de I'hyperplan, et tous ceux de la 2'm...
Chapitre 4: Algorithmes aahptatifs pour 1'&a fisution neuronale non-finduire
= 1, 2, .S., N*.
Une couche de sortie posséda...
Chapitre4: Algorithmes adbptatifs pour 1'Pgalisaiionneuronale non-liniaire
Quand un échantiilonx est présenté. la probabil...
Chapitre 4: Algorithmes adaprar~spour I 'igalisationneuronale non-linéaire
On peut aussi établir la règle de décision de B...
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
MScThesisCyrilIskanderUniversiteLaval
Prochain SlideShare
Chargement dans…5
×

MScThesisCyrilIskanderUniversiteLaval

275 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
275
Sur SlideShare
0
Issues des intégrations
0
Intégrations
7
Actions
Partages
0
Téléchargements
1
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

MScThesisCyrilIskanderUniversiteLaval

  1. 1. CYRIL-DANIELISKANDER Égaliseurs neuronaux rapides Mémoire présenté à la Faculté des études supérieures de l'université Laval pour l'obtention du grade de maître ès sciences (M-Sc.) Département de génie électrique et de génie informatique FAcULTÉ DES SCIENCES ET GÉNE UNIVERSITÉLAVAL Décembre 1999 @ Cyril-DanielIskander 1999
  2. 2. National Library 1+1 of Canada Bibliothéque nationale du Canada Acquisitions and Acquisitions et BibliographicServices services bibliographiques 395 Wellington Sheett 395. rueWeflingtm Ottawa ON K IA ON4 OnawaON K l A W Canada Canada The author has granted a non- exclusive licence allowingthe National Library of Canada to reproduce, loan, distribute or sel1 copies of this thesis in microform7 paper or electronicformats. The author retains ownershipof the copyright in this thesis. Neither the thesis nor substantial extracts fiom it may be printed or otherwise reproduced without the author's permission. L'auteur a accordéune licence non exclusivepermettant à la Bibliothèque nationale du Canada de reproduire, prêter, disûibuer ou vendre des copies de cette thèse sous la forme de microfiche/film, de reproduction surpapier ou sur format électronique. L'auteur conserve la propriété du droit d'auteur qui protège cette thèse. Ni la thèse ai des extraits substantiels de celle-ci ne doivent être imprimés ou autrement reproduits sans son autorisation.
  3. 3. Résumé La performance limitée des égaliseurs linkaires face à des canaux fortement dispersifs ou non-linéaires a encouragé le développement de nouvelles structures non-linéaires. Des égaliseurs basés sur des réseaux de neurones ont été proposés, cependant la lenteur de la convergence et la complexité de calcul demeurent deux fardeaux importants pour une implémentation en temps réel. Ce mémoire présente des approches qui ont été prises pour permettre à des égaliseurs neuronaux de surpasser les performances des égaliseurs conventionnels,et ce de manière réalisable. On s'intéresse particulièrement à l'entraînement des égdiseurs par des méthodes de Kalman et des moindres carrés, afin d'eue robustes face à des canaux fortement dispersifs. Les réseaux neuronaux utilisés possèdent une structure transversale, en treillis ou récurrente. On optimise leur fonction d'activation afin qu'ils soient capables d'égaliser des constellations d'ordre supérieur; on présente des simulations pour les modulationsQAM-4 à QAM-1021. Enfin,on présente quelques simulations pour un modèle réaliste de canal radio intérieur variable. Ces résultats démontrent l'avantage que peut procurer l'incorporation d'un dément non-linéaire dans les égaliseurs courants, tout comme ce fut le cas pour I'égaliseur à retour de décisions. Cyril Iskander Paul Fortier Huu Tue Huynh Étudiant gradué Directeur de recherche Co-directeur de recherche
  4. 4. Avant-propos Je souhaite d'abord remercier mes parents et grand-parents -1nes et Vittorio Zamuner- pour tout leur soutien. Je remercie mon directeur et mon CO-directeurde thèse pour avoir encadré ma recherche, ainsi que plusieurs autres professeurs, collègues de labo et amis pour leurs conseiIs et coups de main. Le soutien du CRSNG est apprécié pour ma dernière session de travaux. Un gros merci à Sonia pour avoir enduré tant de finsde semaine "plates" passées dans la salle des Sun.
  5. 5. Résumé ....................................................................i Avant-propos.......................................................... ii .. .........................................................Tabledesmatietes iii Listedesfigures ...........................................................vii Liste des sigles et abbréviations .................................m............xii Chapitre 1 Introduction .....................................................1 1.1 Progrès dans l'égalisation adaptative..................................... I 71.2 L'égalisation par réseaux de neurones: un concept en évolution ............... - 1.3 Plan du mémoire .................................................... 3 ...........................................................1.4 Notation 4 Chapitre 2 Revue de l'égalisation..............................................5 2.1 Principe de I'égalisation............................................... 5 2.1.1 Introduction ................................................... 5 3.1.2 Cause et effets de l'interférence intersymbole ......................... 7 2.1.3 L'égalisation.................................................. 10 2.1.4 Types d'égaliseurs ............................................. 12 2.1.4.1 Egaliseurs linéaires ....................................... 13 2.1.4.2 Egaliseurs non-linéaires ................................... 17 2.1.5 Algorithmes adaptatifs pour l'entraînement des égaliseurs .............. 18 2.2 Applications des réseaux de neurones aux communications numeriques ........ 19 2.2.1 Introduction aux réseaux de neurones .............................. 19 2.2.2 Applications .................................................. 20 Chapitre3 Algorithmes adaptatifspour l'égalisation linéaire .....................22
  6. 6. 3.1 Algorithmes basés sur te gradient stochastique............................ 22 3.1.1 L'algorithme LMS ("Least-Mean Squares") ......................... 22 3.1.1.1 L'équation normale (ou équation de Wiener-Hopf) .............. 23 3.1.1.2 L'algorithme LMS ...................................... -24 3.1.1.3 Convergence du LMS ..................................... 25 3.1.1.4 Erreur résiduelle ......................................... 26 3.1.2 L'algorithme GAL("Gradient Adaptive httice") ..................... 28 3.2 Algorithmes basés sur le gradient déterministe ............................ 29 3.2.1 L'algorithme RLS ("Recwsive-hast Squares") ..................... - 3 0 3.2.1.1 L'algorithme RLS ....................................... - 3 0 3.2.1.2 Convergence de l'algorithme RLS ........................... 31 3.2.1.3 Erreur résiduelle ......................................... 31 3.2.1.4 Relation avec le filtre de Kaiman ............................ 31 ....3-32 L'algorithme étendu de Kalman ("Extended Kalman Filter" o u EKF) 36 ...3.2.3 L'algorithme SR-RLS("Square-Root RLS"ou "Square-Root Kalman") 38 3.2.4 Algorithmes rapides FRLS et FTF................................. 40 3.2.5 L'algorithme LSL ("Least-Squares Lattice") ......................... 45 3.2.6 L'algorithme RMGS ("Recursive Modified Gram.Schmidt7') ............ 53 Chapitre4 Algorithmes adaptatifspour l'égalisation neuronalenon-linéaire ........53 ..............................................4.1 Réseaux multicouches -53 ...................................................4.1.1 Description 54 4.1.1.1 Stnicturede base ......................................... 54 4.1.1.2 Fonction d'activation ..................................... 56 4.1.1.3 Application au filtrage adaptatif ............................. 60 4.1.1.4 PMCavec retour de décisions ("Decision feedback MLP)........61 4.1.2 Capacitk de ~Iassification....................................... -63 4.1.2.1 Le perceptron unicouche................................... 62 4.1.2.2 Le perceptron multicouche ................................ -63 ......................................4.1.3 Algorithmesd'entrainement 73
  7. 7. .........................4.1.3.1 Algorithme de backpropagation (BP) 73 ....................4.1.3.2 Algorithmespour accélérer la convergence 78 4.1.3.3 Algorithmes EKF ....................................... -79 4.1.3.4 Algorithmes RLS ........................................ 85 ...............4.1.3.5 Algorithmes de décorrélation des entrées du PUC 88 ..............4.1.3.6 Algorithmesde décorrélation des entrées du PMC - 9 7 .......4.2 Le Réseau de Neurone Récurrent ("Recurrent Neural Network". RNN) - 9 8 ........................................4.2.1 Architecture du système - 9 8 4.2.2 Algorithmes d'entraînement..................................... -99 4.2.2.1 Algorithme RTRL........................................ 99 ..................................4.2.2.2 Algorithme RNN-DEKF IO2 ...................................4.2.2.3 Algorithme W - R L S 101 Chapitre 5 Simulationset résultats ..........................................105 .....................................................5.1 Lesimulateur 105 ......................................5.1.1 Description du simulateur 105 5.1.2 Simulationdu canal radio intérieur ............................... 106 5.1.2.1 Modèle général ......................................... 107 5.1.2.2 Modélisation des délais................................... 108 5.1.2.3 ModéIisation des amplitudes............................... 109 5.1.2.4 Modélisation des phases .................................. 113 5.2 Résultats de simulationsavec canaux FIR............................... 113 .................................................5.2.1 Présentation 113 ......................................5.2.2 Sélection des architectures 116 C 5.2.3 Etude de la convergence........................................ 123 .................5.2.4 Étude de la probabilitd d'erreur versus le bruit (SER) 125 5.3 Résultats de simulationsavec le canal intérieur .......................... 127
  8. 8. Annexe A Dérivations de quelques algorithmesd'apprentissage ..................190 A.1 Dérivation de l'algorithme RLS ......................................190 A.2 Dérivation de l'algorithme SR-RLSWsu 821............................ 193 A.3 Dérivation de l'algorithme FRIS complexe ("Fast RLS" ou "Fast Kalman") ... 198 A.4 Dérivation de l'algorithme GAL ("Gradient Adaptive Lattice") ..............205 A S Dérivation de l'algorithme de backpropagation complexe (BP-c) ...........-207 A.6Dérivation de I'aIgorithme EKF localisé pour le perceptron multicouche ......211 A.7 Dérivation de l'algorithme EKF localisé complexe pour Ie perceptron muIticouche A.8 Dérivation de l'algorithme RTRL complexe ............................ 219 Annexe B Utilisation du simulateur "Neuralizer" .............................-227 B.1Démmage ....................................................... 227 B.2 Sélection des paramètres du système de communication ...................227 B.?. 1 Sélection de l'algorithme ....................................... 227 B.2.2 Sélection de la modulation ...................................... 227 B.2.3 Sélection du canal............................................. 228 B.2.4 Sélection des paramètres de la simulation .......................... 228 B.3 Exécution des simulations .......................................... -229 B.4Visualisation des résuItats ........................................... 229 Annexe C Sélection des paramètres pour le LMS et le RLS .....................-231 Référenca.............................................................*.238
  9. 9. Liste des Figures Figure 2.I Figure 2.2 Figure 2.3 Figure 2.4 Figure 2.5 Figure 2.6 Figure 2.7 Figure 2.8 Figure 4.1 Figure 4.2 Figure 4.3 Figure 4.4 Figure 4.5 Figure 4.6 Figure 4.7 Figure 4.8 Figure 4.9 Figure 4.10 Figure 4.11 Figure 4.12 Figure 4.13 Figure 4.14 Figure 5.1 Figure 5.2 Figure 5.3 Figure 5.4 Figure 5.5 Figure 5.6 Figure 5.7 Figure 5.8 Figure 5.9 Constellation 16-QAM avant et après distorsion par un canal dispersif avec affaiblissementricien.......................................... - 6 Système de communication [Rap961 .............................. 8 Schéma simplifié d'un système de communication ................... 8 Classification des égaliseun par type et structure.................... 13 Égaliseur linéaire transversal.................................... 14 Égaliseur en treillis........................................... 16 Égaliseur transversal avec retour de décisions...................... 17 ...........................Classificationdes égaliseurs neuronaux 18 ........................................Perceptron unicouche - 5 5 .......................................Perceptron multicouche 56 Fonctions d'activation courantes ................................ 57 ................FonctionfpAM(.r).pour M =4. avec (3 = 1 et 6 = 4 60 ...............FonctionfmM(x). pour M = 8. avec = 1 et = 4 - 6 0 .........................Perceptron multicouche pour 1'égalisation 61 .............................Égaliseur PMC à retour de décisions 62 * .........................Ü(1) et LI(-1) pourlecanalhp2etd=O 71 - - .........................U(1) et U(-1) pour le canal Iip2 et d = 2 72 - . .........................U(1) et U(-1) pourlecanalhp3etd=O 72 . .........................Ü(1) et U(-1) pour le canal hp3 et d =2 73 Perceptron unicouche en treillis ................................. 89 .............Perceptron unicouche en treillis avec retour de décisions 90 .....................Réseau de neurone récurrent entièrement relié -99 ...........................Réponse irnpulsionnelledu canal hpl 114 ...........................Réponse impulsionnelledu canal hp2 115 ...........................Réponse impulsionnelledu canal hp3 115 MSE vs délai de décision. MLP.GD ............................ 129 .....................MSE vs nombre d'entrées externes. MLP-GD 129 ..................MSE vs nombre d'entrées de feedback. MLP-GD 130 ..........MSE vs nombre de neurones dans la Ière couche. MLP.GD 130 .........MSE vs nombre de neurones dans la 2ème couche. MLP.GD 131 ..........................MSE vs taux d'apprentissage. MLP.GD 131 vii
  10. 10. Figure 5.10 Figure 5.11 Figure 5.12 Figure 5-13 Figure 5.14 Figure 5.15 Figure 5.16 Figure 5.17 Figure 5.18 Figure 5.19 Figure 5.20 Figure 5.21 Figure 5.22 Figure 5.23 Figure 5.24 Figure 5.25 Figure 5.26 Figure 5.27 Figure 5.28 Figure 5.29 Figure 5.30 Figure 5.31 Figure 5.32 Figure 5.33 Figure 5.34 Figure 5.35 Figure 5.36 MSE vs momentum. MLPDGD................................. 132 MSE vs nombre de neurones dans la lère couche. MLP-GD 2 couches. 132 MSE vs délai de décision. MLP-RLS 3 couches- ................... 133 ............MSE vs nombre d'entrées externes. MLP-FUS 3 couches 133 .........MSE vs nombre d'entrées de feedback. MLP-RLS 3 couches 134 MSE vs nombre de neurones dans la lère couche. MLP-RLS 3 couches. 134 MSE vs nombre de neurones dans la 2ème couche. MLP-RLS 3 couches .......................................................... 135 MSE vs facteur d'oubli, MLP-RLS 3 couches..................... 135 MSE vs coefficient de la fonction d'activation, MLP-FUS 3 couches. . 136 MSE vs nombre de neurones dans la lère couche. MLP-RLS 2 couches. 136 MSE vs facteur d'oubli. MLP-RLS 1 couche. QAM4............... 137 MSE vs facteur d'oubli. MLP-RLS 1 couche. QAM.16 .............. 137 MSE vs facteur d'oubli. MLP-RLS 1 couche. QAM.64 .............. 138 MSE vs coefficient de la fonction d'activation. MLP-RLS 1 couche.QAM-16 MSE vs coefficient de la fonction d'activation. MLP-RLS I couche. QAM-64 .......................................................... 139 MSEvscoefficient delafonctiond'activation. MLP-RLS 1couche. QAM-256 .......................................................... 139 MSE vs coefficient de la fonction d'activation, MLP-RLS 1 couche. QAIM-4 .......................................................... 140 MSE vs coefficient de pondération de la sortie sf-out, MLP-RLS 1couche. ...................................................QAM-4 140 MSE vs coefficient de pondération de la sortie sf-out, MLP-RLS 1 couche, QAM-16 .................................................. 141 MSE vs délai de décision, MLP-EKF 1couche.................... 141 MSE vs nombre d'entrées externes, MLP-EKF 1couche............. 142 MSE vs nombre d'entrées de feedback, MLP-EKF 1 couche.......... 142 MSE vs facteur d'oubli, MLP-EKF 1 couche, QAM-4............... 133 ..............MSE vs facteur d'oubli, MLP-EKF 1 couche,QAM-16 143 ..............MSE vs facteurd'oubli, MLP-EKF 1couche,QAM-64 144 MSE vs coefficient de la fonction d'activation, MLP-EKF 1 couche,QAM-16 .......................................................... 144 MSE après 1000 itérations vs coefficient de la fonction d'activation, MLP-EKF 1 couche, QAM-64................................. 145 viii
  11. 11. Figure 5.37 Figure 5.38 Figure 5.39 Figure 5.40 Figure 5.41 Figure 5.42 Figure 5.43 Figure 5.44 Figure 5.45 Figure 5.46 Figure 5.47 Figure 5.48 Figure 5.49 Figure 5.50 Figure 5.5 1 Figure 5.52 Figure 5.53 Figure 5.54 Figure 5.55 Figure 5.56 Figure 5.55 Figure 5.58 Figure 5.59 Figure 5.60 Figure 5.61 Figure 5.62 Figure 5.63 Figure 5.64 Figure 5.65 Figure 5.66 Figure 5.67 Figure 5.68 MSE après 2000 itérations vs coefficient de la fonction d'activation. MLP-EKF 1couche. QAM.64 ................................. 145 MSE après 5000 iterations vs coefficient de la fonction d'activation. MLP-EKF 1couche. QAM-64. ................................ 146 MSEvscoefficient delafonctiond'activation. MLP-EKF1couche. QAM-256 .......................................................... 146 MSE vs coefficient de la fonction d'activation. PLSL. QAM4....... 147 MSE vs coefficient de la fonction d'activation. PLSL. QAM-16......147 MSE vs coefficient de la fonction d'activation. PLSL. QAM.16 ...... 148 MSE vs facteur d'oubli. RNN.RLS. QAM.4 ...................... 148 MSE vs facteurd'oubli. RNN.RLS. QAM-16..................... 149 MSE vs coefficient de la fonction d'activation. RNN.RLS. QAM.16 . . 149 M S E vs coefficient de la fonction d'activation. RNN4US. QAM.64 . . 150 Égaliseun LMS.MLP-GD: hpl. QAM-4......................... 151 Égaliseurs LMS.RLS:hp2. Q A M ~............................. 151 Égaliseun RLS.PMC-RLS: hpl. QAM-4........................ 152 Égaliseun RLS.PMC-RLS: hp2. QAM-4........................ 152 Égaliseun EUS. PMC-RLS: hp3. QAM.4 ........................ 153 Égaliseurs RLS.PMC-EKF: Iipl. QAM.4 ........................ 153 Égaliseurs U S .PMC-EKF: hp2. QAM4 ........................ 154 Égaliseurs RLS.PMC-EKF:hp3. QAM4 ........................ 151 Égaliseur PMC-RLS:Itpl. QAM-4 ............................. 155 Égaliseur PMC-FUS: hp2. QAM-4 ............................. 155 Égaliseur PMC-RLS: hp3.QAM-4 ............................. 156 Égaliseus RMGS. P-RMGS:hpl. QAM4 ....................... 156 Égaliseurs RMGS. P-RMGS: hp2. QAM-4 ....................... 157 Égaliseurs RMGS. P-RMGS: hp3. Q A M 4 ....................... 157 Égaliseun LSL.P-LSL: hpl.QAM-4 ........................... 158 Égaliseurs LSL. P-LSL: hp2. QAM-4 ........................... 158 Égaliseun LSL. P-LSL: hp3. QAM4 ........................... 159 Égaliseun RNN.RLS. RLS:hpl .QAM-4 ........................ 159 Égaliseun RNN.RLS. RLS:hp2. QAM-4 ........................ 160 Égaliseun PMC.RMGS. PMC-GD: hpl. QAM-4 .................. 160 Égaliseun PMC.RMGS. PMC-RLS 3 couches: hp2.QAM-4 ......... 161 Égaliseun RLS.PMC.RLS. PMC-EKF: hpl. QAM-16 ............. 161
  12. 12. Figure 5.69 Figure 5.70 Figure 5.71 Figure 5.72 Figure 5.73 Figure 5.74 Figure 5.75 Figue 5.76 Figure 5.77 Figure 5.78 Figure 5.79 Figure 5.80 Figure 5.81 Figure 5.82 Figure 5.83 Figure 5.84 Figure 5.85 Figure 5.86 Figure 5.87 Figure 5.88 Figure 5.89 Figure 5.90 Figure 5.91 Figure 5.92 Figure 5.93 Figure 5.94 Figure 5.95 Figure 5.96 Figure 5.97 Figure 5.98 Figure 5.99 Figure 5.IO0 Figure 5.101 Figure 5.102 Égaliseun RLS.PMC.RLS. PMC-EKF: hp2. QAM-16 ............. 162 Égaliseurs RLS. PMC.RLS. PMC-EKF: hp3. QAM-16 ............. 162 Égaliseur PMC-RLS: hpl .QAM-16 ............................ 163 Égaliseur PMC-RLS:hp2. QAM-16 ............................ 163 &diseur PMC-RLS: hp3. QAM-16 ............................ 164 Égaliseurs RMGS. P-RMGS: hpl. QAM-16...................... 164 Égaliseun RMGS.P-RMGS:hp2. QAM-16 ...................... 165 Égaliseun RMGS.P-RMGS:hp3. QAM-16 ...................... 165 Égaliseurs LSL.P-LSL: hpl. QAM-16 .......................... 166 Égaliseun RNWRLS. RLS:hpl. QAM-16 ....................... 166 Égaliseun RNN.RLS. FUS:hp2. QAM-16 ....................... 167 Égaliseurs RLS. PMC.RLS. PMC-EW: hpl. QAM-64 ............. 167 Égaliseun RLS. PMC.RLS. PMC-EKF: hp2. QAM-64 ............. 168 Égaliseurs RLS. PMC-RLS: hp3. QAM-64 ....................... 168 Égaliseurs RLS. PMC-EKF: ltp3. QAM-64 ....................... 169 Égaliseun RMGS.P-RMGS: Ilpl. QAM-64 ...................... 169 Égaliseun RMGS. P-RMGS: I1p2. QAM-64 ...................... 170 Égaliseurs RMGS. P-RMGS: hp3. QAM-64 ...................... 170 Égaliseurs RNN42LS. RLS: hpl. QAM-64 ....................... 171 Égaliseurs RLS.PMC-RLS: hpl. QAM-256 ...................... 171 Égaliseurs RLS. PMC-EKF: hpl. QAM-256 ...................... 172 Égaliseurs RLS. PMC-RLS: hp2.QAM-256 ...................... 172 Égaliseurs RMGS.P-RMGS: hpl.QAM-256 ..................... 173 Égaliseun RLS. PMC-RLS.PMC-EKF: hpl.QAM-1024 ........... 173 Égaliseurs RMGS. P-RMGS: hpl. QAM-1024 .................... 174 SER vs a.canal hpl. QAM.4 .................................. 175 SER vs a.canal hpl. QAM.4. pour différents A ................... 175 SER vs a.canal hpl. QAM.4 .................................. 176 SER vs a.canal hpl. QAM.4 .................................. 176 SER vs a.canal hpl. QAM.16................................. 177 SER vs a.canal hpl. QAM.16 .pour différents .................. 177 SER vs a.canal hpl. QAM.16. pour différents A .................. 178 SER vs a.canal hpl. QAM.16 ................................. 178 SER vs a.canal hpl. QAM.64................................. 179
  13. 13. Figure 5.103 Figure 5.104 Figure 5.105 Figure 5.106 Figure 5.107 Figure 5.108 Figure 5.109 Figure 5.110 Figure 5.1 11 Figure 5.112 Figiire 5.113 Figure 5.114 Figure 5.115 Figure 5.116 Figure B.1 Figure C.1 Figure C.2 Figure C.3 Figure C.4 Figure CS Figure C.6 Figure C.7 Figure C.8 Figure C.9 Figure C.10 Figure C.11 Figure C.13 Figure C.13 SER vs a.canal hpl. QAM.64. pour différents )c .................. 179 SER vs a.canal hpl. QAM.256 ................................ 180 SER vs a.canai hp2. QAM.4 .................................. 180 SER vs a.canal hp2. QAM-4. pour différents A ................... 181 SER vs a.canal hp2. QAM.4.................................. 181 SER vs a.canai hpl. QAM.16 ................................. 182 SER vs a.canai hp2. QAM.16 ................................. 182 SER vs a.canal hp2. QAM-16. pour différents h .................. 183 SER vs a.canalhp2. QAM.6 4. ................................ 183 SER vs a.canal hp2. QAM.256 ................................ 184 SER vs a.canal radio intérieur. QAM4. 32 Msymb./s. ............. 184 SER vs a.canal radio intérieur. QAM-4.64 Msymb./s. ............. 185 SER vs a.canal radio intérieur. QAM.4. 128Msymb./s. ............ 185 SER vs a.canal radio intérieur. QAM.16. 32 Msymb./s. ............ 186 Fenêtre de commande du Neuralizer ............................ 230 MSE vs délai de décision. LMS............................... -131 MSE vs nombre d'entrées externes. LMS........................ -233 MSE vs nombre d'entrées de feedback. LMS...................... 232 MSE vs taux d'apprentissage. LMS. Q.4M.4. ..................... 133 MSE vs taux d'apprentissage. LMS. QAM.16 ..................... 233 MSE vs taux d'apprentissage. LMS. QAM.64..................... 134 MSE vs taux d'apprentissage. LMS. QAM.256 .................... 234 MSE vs délai de décision. RLS................................. 235 MSE vs nombre d'entrées externes. RLS......................... 235 MSE vs nombre d'entrées de feedback. RLS...................... 236 MSE vs facteur d'oubli. RLS. QAM.4 ..........................-236 MSE vs facteur d'oubli. RLS.QAM.16 .........................-237 MSE vs facteur d'oubli. IUS. QAM.64 .......................... 237
  14. 14. Liste des sigles et abbrbviations BER BP DEKF DFE EKF ELT FIR FRIS FTF GAL iSI LMS LSL MAP MLP MLSE Msymb./s MSE PAM PMC PUC QAV RBF RLS RMGS RNA RNN SER RTRL SR-RLS VLSI Bit Error Rate Backpropagation Decoupled Extended Kaiman Filter Decision-Feedback Equalizer (Égaliseur à retour de décisions) Extended Kalman Filter (Filtre de Kaiman étendu) &diseur Linéaire Transverse Finite Impluse Response (Réponse impulsionnelle finie) Fast Recursive Least Squares (Moindres camés récursifs rapides) Fast Transversal Filter (Filtre transversal rapide) Gradient AdaptiveLattice Intersymbol Interference (Interférence intersymbole) Least-Mean Squares (Moindres carrés moyens) Least-Squares Lattice Maximum A Priori Multilayer Perceptron Maximum Likelihood Sequence Estimation MégasymboIes par seconde Mean Square Error (Erreur quadratique moyenne) Pulse Amplitude Modulation Perceptron Mu1ticouche Perceptron Unicouche Quadrature Amplitude Modulation Radial Basis Function Recursive Least Squares (Moindres carrés récursifs) Recursive Modified Gram-Shmidt Réseaux de Neurones ArtificieIs Recurrent Neural Network (Réseau de neurones récurrent) Symbole Error Rate Real-Time Recurrent Learning Square-Root RLS Very Large Scale Integration xii
  15. 15. Chapitre 1: lnrroducrion CHAPITRE Introduction 1.1 Progrès dans l'égaiisation adaptative L'égalisation adaptative pour les communicationsnumériques a été un thème constant de recherche depuis son introduction en 1965[Luc 651. Son but est de supprimer l'interférence intersymbole dans les liens de communication où le canal est dispersif. La performance d'un égaliseur dans un récepteur détermineà quelle vitesse un modulateurldémodulateurpeut trans- mettre. C'est en général le composant le plus sophistiqué d'un modem: il peut consommer jusqu'à 80% des cycles multiplication-addition du démodulateur pour un signal 256-QAM ("Quadrature Amplirude Modulation") en treillis [Tre961.Son rôle est donc crucial dans l'élab- oration de modems à haute capacité. De nombreux égaliseurs ont déjà étés conçus et commercialiséspour les modulations à faible capacité. Le GSM ("Global Sysfem for Mobile Cornunication") nécessite un égaliseur
  16. 16. Chapitre 1: lntrtniucrion pour signaux modulés GMSK ("Gaussian Minimum Shi3 Keying"). Les standards 1s-54("EIA Interim Standardfor US Digital Cellular")et PDC ("PacijicDigital Cellular")recommendent également l'utilisation d'un égaliseur pour des signaux modulés n/4 D-QPSK("Differential Quadrature Phase Shi13Keying") [Rap 961. La plupart des liens satellites utilisent des modula- tions à faible capacité, tels le QPSK pour les réseaux Globastar et ICO-Global, et le D-QPSK pour l'Iridium p v a 981. Les modulations à plus haute capacité, tels le QAM-16 et le QAM-64, ont été intro- duites durant les années 80. La conception d'égaliseurs appropriés a également été abordée abocdamment [Yarn 811, [Seb 871, [Bac 871, [Agu 871. Cependant, beaucoup reste à faire sur les modulations à très haute capacité, tels le 256-QAM et le 1024-QAM.Des études sur l'égal- isation de ce types de signaux ont été entamées dans la deuxième moitiée des années 80 [Nak 871, Feh 871, [And 871;cependant le niveau d'expertise en la matière reste inférieur à celui ac- quén dans l'égalisation de signaux modulés à des capacités plus basses. Récemment, des con- stellationspossédant jusqu'à 32768 (2") symboles différentsont été proposées [Che 981. 1.2 L'égalisation par réseaux de neurones: un concept en évolution Les réseaux neuronaux ont déjà fait leurs preuves dans des domaines d'ingénierie aussi variés que l'analyse de systèmeset procédés, la reconnaissancedes formes et structures(vision numérique, reconnaissance de la voix) et la robotique [Koh 961. Les applications aux télécom- munications sont cependant plus discrètes.L'utilisation de réseaux neuronaux dans des disposi- tifs commerciaux ne semble pas encore avoir eu lieu, à notre connaissance. On peut tenter d'expliquer ceci par plusieurs facteurs.La complexitédes réseaux neuronaux se prête mal à une implantation en temps réel et à haute capacité. De plus, le domaine des réseaux neuronaux est assezjeune: l'essor principal a eu lieu dans les années 80. On peut donc s'imaginer que les fab- ricants de matériel de communication sont prudents face à cela. et attendent que des bases théoriques plus solides soient disponibles. L'application des réseaux neuronaux à l'égalisation a connu une vague de recherche depuis la fin des années 80. Cependant, les résultats sont encore trop disparates pour pouvoir conclure. Une multitude de structures ont tté proposées, chacune destinée a égaliser un certain type de signal, dans des conditions variables, mais les synthèses des résultats obtenus par des égaliseurs neuronaux différentssont rares.
  17. 17. Chapitre 1: Introduction Le but de ce mémoire est de proposer de nouvelles structures pour l'égalisation par réseaux de neurones. ou d'améliorer des structures existantes. et d'en étudier la performance. Les élémentsessentiels à prendre en compte sont en particulier les suivants: la capacité d'égaliser un vaste éventail de canaux (aux degrés de dispersion variables). la capacitéd'égaliser des modulations à haute capacité (M-QAM). la complexité d'implémentation et de calcul. l'habileté de pistage, dans le cas de canaux variables. 1.3 Plan du mémoire Un résumé des chapitres qui suivent est donné ci-dessous: le chapitre 2 donne une brève revue de l'égalisation. et formalise le problème en termes mathématiques. Un aperçu des techniques d'égalisation par réseaux neuronaux à cejour est donné. le chapitre 3 fait une synthèse des principaux algorithmes de traitement adaptatif de signal qui vont être utilisés par la suite. Le lecteur pourra s'y référer lors de la lecture des chapitres ultérieurs. le chapitre 4 constitue le noyau du mémoire. Son but est triple: présenter brièvement les réseaux neuronaux. décrire leur application à l'égalisation. proposer des architectures plus performantes. le chapitre 5 présente les résultats de simulations effectuées par ordinateur pour des égaliseurs traditionnelset neuronaux, dans un souci de comparaison équitable. Les simulations visent à déterminer les paramètres optimaux des architectures, à étudier la convergence des égaliseurs, et à mesurer leur perfomiance pour différents canaux dispersifs en terme de probabilité d'erreur. des conclusions sont tirées dans le dernier chapitre. Les dérivations de certains algorithmes sont données à l'annexe A.
  18. 18. Chapitre 1: Introduction 1.4 Notation Les notationset opérateurs suivants seront utilisés: u: vecteur d'éléments. U:matrice d'éléments. x*: conjugué d'une variable complexex. UT uT:transposé d'un vecteurou d'une matrice. uH, uH:transposé conjugué d'un vecteur ou d'une matrice d'éléments complexes. VxJ:gradient par rapport à x d'une fonction J de la variable x. f ( x ) : dérivée par rapport à x d'une fonctionfi) de la variablex.
  19. 19. Chapitre2: Revue de I'&alisation CHAPITRE Revue de l'égalisation 2.1 Principe de l'égalisation 2.1.1 Introduction Dans les systèmesde communication où le canal de transmission est à bande finie, les symboles transmis subissent de l'inte@érence intersymbole (ISI). Chaque symbole est affecté par de l'interférence provenant des symboles transmis avant ou après lui. La cause et les caractdristiquesde cet ISI dépendentdu canal utilisé. L'effet est que les signaux reçus different des signaux originaux transmis, selon un écart proportionnel à l'ampleur de I'ISI. Par exemple, la figure 2.1 illustre la constellation formée par des signaux 16-QAM avant leur transmission, et les signaux disponibles au récepteur, après passage par un canal introduisant une forte ISI.
  20. 20. Chapitre 2: Revue de 1'égalisation Les symboles originaux ne peuvent être identifiésde manière simple, à cause du haut niveau de distorrion introduit par le canal sur les formesd'ondes transmises. Figure 2.1 Constellation 16-QAMavant et après distorsionpar un canal dispersif avec affaiblissementricien. Ce phénomème est d'autant important que la vitesse de transmission est grande. Ainsi. à des vitesses de 300 bitsls et moins sur une ligne tdléphonique. la dispersion des symboles ne pose pas de problèmes. Cependant, en atteignant des vitesses de l'ordre de 2400 bits et plus. le signal reçu est très contaminé, et il est difficile ou impossible de reconstituer le signal original.
  21. 21. Chapitre 2: Revue de I'égalisurion La solutionàce problème consisteà recourir des méthodes d'égalisation [Qur851. De manière traditionnelle. l'égalisation consiste à eliminer la dispersion dans le signal reçu en le faisant passer dans un filtre spécifique, appelé égaliseur. Dans les sections suivantes. on abordera successivement les sujets de I'ISI, des structures d'égalisation et des algorithmes utilisés dans le fonctionnement des égaliseurs. 2.1.2 Cause et effets de l'interférence intersymbole Afin d'illuster des exemples de canaux introduisant de I'ISI, considérons successivement les cas d'un canal de transmission d'une ligne téléphonique, d'un canal radio et d'un canal satellite. Soit HV)la réponse en fréquence d'un canal téléphonique. L'ISI affecte les symboles transmis sur ce canal quand l'amplitude de HV)n'est pas constante sur la bande passante du canal. et que la phase de HV)n'est pas linéaire, ce qui est en général le cas [Che 981. De plus. la présence de nonlinéarités sur les lignes téléphoniquesentraîne de la distortion non-linéaire. Dans le cas des communications sans-fil, les vitesses de transmission pour radios micro-ondes et téléphones cellulaires sont très grandes, ce qui rend I'ISI très élevée. De plus. l'environnement de propagation est très dur. 11 fluctue continuellement au cours du temps. et comporte en généra1 divers obstacles qui entravent la libre propagation des ondes électromagnétiques. Il peut s'agir d'obstacles de grandes envergures, tels collines, falaises, immeubles, ou de moins grande importance. comme végétation, véhicules. poteaux. La propagation est particulièrement difficile dans un environnement urbain dense en hautes constructions. Tous ces phénomènes sont à l'origine de I'aflaiblissement (propagation) rnulrivoie ou rnultiparcours du signal: les ondes sont réfléchies dans diverses directions. et adoptent plusieurs parcours différentspour amiver à destination [Rap 961. [Sil 841, [Rum 86bJ. L'atténuation du signal varie selon le chemin pris. La conséquence de ce phénomène est que le recepteur reçoit plusieurs versions décalées dans le temps du même signal: le signal reçu consisteen général en une composantedominanteet une ou plusieurs composantesde moindres amplitudes retardées par rapport à cette dernière, Ainsi, l'interférence intersymboleatteint des niveaux qui nécessitent une égalisation précise du signal. Dans le cas d'un canal satellite, les effets de la propagation muitiparcours sont peu importants, dû au lien direct existant entre l'émetteur et le récepteur. Cependant, l'utilisation d'amplificateurs ik haute puissance dans la transmission des signaux entraîne de la distortion non-linéaire men 791, [Ben 831. On peut compenser pour ce problème soit en utilisant un
  22. 22. Chapitre 2: Revue de I'igalis~~tion dispositif de pré-distortion à l'émetteur, soit en munissant le récepteur d'un egaliseur. L'ISI non-linéaireest cependantplus difficile à corriger que I'ISI linéaire d'un canal téléphonique ou radio. Abordons maintenant le problème de 1'ISI sous forme mathématique. Considérons le schéma de la figure 2.2 modelisant de manière simplifiée un lien de communication. On distingue dans la partie encadréecertainescomposantesde l'émetteur (le modulateuret le filtre de transmission), le canal physique de propagation, et certains él6ments du récepteur (le récepteurRF, l'étage IF,le filtre adapté). L'égdiseur et le d6modulateur sont représentés à part. L'ensemble des composantes du système qui figurent dans le cadre peuvent être regroupées ensemble pour former le canal de transmission : on peut alors utiliser le schéma simplifié illustré à la figure 2.3, qui se prête mieux à la descriptionde I'ISI et de l'égalisation. I Message j Canal de transmission original i rn dl) : b Modulateur + Transmetteur + Canal radio .-I I1 . ? I II I I I1 l i . FitreadapQ t- ÉtageIF Récepteur RF * . W ) Message -u(t) 2t-d) Message Égaliseur Engin de reconsfmit décision f Figure 2.2 Système de communication map 961. M-43~ 4 reconstruit original f Canal de -3 Enlgi.de transabsior dI) At) dicWon hW Figure 2.3 Schéma simplifié d'un système de cornmunicarion.
  23. 23. Chopitre 2: Revue de I'igalisation Soit ~ ( t )le symbole transmis au temps t, provenant d'une modulation arbitraire. On assume que les symboles x(t) ont déjà kt6 modulés, bien que le modulateur apparaisse ultérieurement à la figure 2.2. En effet, on pourrait remplacer cette figure par un schéma où le modulateur serait placé avant le canal, mais en incluant son effet dans le canal. Les deux représentations seraient équivalentes, mais la première est plus claire. Soit h(t) la réponse impulsionnelledu canal, et HV)sa réponse en fréquence associée. Un bruit n(t) est ajouté à la sortie du canal: on assumerapar la suite (sauf mention contraire)qu'il est blanc, Gaussien et de moyenne nulle. L'échantillon présent au récepteur à l'instant t est u(t).On peut lier toutes ces quantités par l'équation suivante: où Test la durée des symboles transmis (la vitesse est donc 117).Ncest la longueur du canal (en symboles),et l'opérateur '8 ' dénote la convolution à une dimension entre deux quantités. On a supposéque le canal prend la forme d'un FIR,hypothèse souventfaite en pratique [Tur721: Si le récepteur échantillonne le signal reçu à chaque symbole (à une fréquence llT).et qu'il existe un délai de transmission ro causé par la propagation physique et les kléments de l'émetteur et du récepteur. l'équation (2.1) peut se réécrire sous la forme: En simplifiantto =O ,et en normalisant la durée des symbolesà T = 1.on obtient: Si le canal de transmission Cuit idéal, c'est-à-dire si h(k) = &k). ou H(f ) = 1 pour toutj alors l'équation précédente se simplifierait à:
  24. 24. Chapitre 2: Revue de I'igolisation c'est-à-dire la sommedu signal désir6et du bruit additif. Le terme x ( i )h(k-i) correspond i # k donc à I'ISI introduite par un canal non-idéal. Afin d'éliminer le plus possible l'effet de I'ISI, on introduit au récepteur un dispositif appelé égaliseur,dont le but est d'effectuer l'égalisation du canal. Afin de permettre l'analyse suivante, moàélisons cet égaliseur comme un filtre FIR, de dponse impulsionnelle Ak) et d'ordre 1V. A la sortie de l'égaliseur, comme illustré à la figure 2.3, on a: Afin d'obtenir le symbole original à la sortie de l'égaliseur, on devrait avoir y(k) = x(k) ou, en autorisant l'introduction d'une constante d'atténuation a et d'un délai constant d dans l'estimé du symbole (ce qui peut servir à I'égaliseur): En négligeant pour l'instant l'effet du bruit n(k),la condition précédente cornespond à: ax(k -d ) = h ( k )CD x(k) @ f ( k ) (2.8) c'est-à-dire: h ( k )@ f ( k ) = a6(k -d ) (2.9) ou, dans le domaine fréquentiel (FOétant la réponseen fdquence de I'dgaliseur):
  25. 25. Chapitre2: Revue de l'égalisation Autrement dit, la réponse en fréquencede l'égaliseur doit approximer l'inverse de la réponse en fréquence du canal, à une constante multiplicative et un délai de phase près. Ainsi, pour construire un égaiiseur, il suffirait de choisir soigneusement les coefficients de ce filtre de façon à ce que l'effet du canal de transmission soit parfaitement compensé. Cependant, (h(k)) n'est pas connu en général, et on ne peut donc trouver directement Cf(&) ).La solution la plus répandue consiste à diviser la transmission d'un signal en deux périodes. Dans un premier temps, on envoie une séquence de symboles ne contenant pas d'information utile. Cette séquence, qui est en général pseudo-aléatoire, est également présente de manière identique au récepteur, Celui-ci observe la réponse du canal de transmission à cette séquence particulière et peut, après un certain nombre de symboles, constmire une approximation de l'inverse de la réponse impulsionnelle (h(k)). On obtient ainsi les coefficients pour Mk)}:pour cela on utilise des algorithmes adaptatifs [Hay 961, qui modifient ces coefficients au fur et à mesure que des symboles sont reçus. On a donc "entraîné" l'égaiiseur à reproduire l'inverse de {h(k)}: la séquence pseudo-aléatoire utilisée à cette fin s'appelle pour cela séquence d'entraînement.Cependant, il est montré que, dans le cas où I'échantillonnage du signal reçu se fait à tous les symboles, seul un égaliseur possédant un nombre infini de coefficients peut réaliser exactement l'inverse de la réponse impulsionnelle du canal. En pratique. la longueurde l'égaliseur doit être la plus petite possible afin de minimiser les coûts d'implémentation: ainsi, les coefficients de l'égaliseur ne seront pas idéaux, et la sortie de l'égaliseur ne sera pas égale tout à fait au symbole transmis. On introduit dors un engin de décision à la sortie de I'égaliseur, dont le rôle est de décider quel symbole fût effectivement transmis, en comparant la sortie de l'égaliseur au symbole de la constellation utilisée qui se rapproche le plus de cette sortie, selon une règle du "voisin-le-plus-proche" ("nearest-neighbour mle "). Après l'étape d'entraînement, les symboles contenant de l'information utile peuvent être transmis, puis reconstruits correctement par Le récepteur. Dans un environnement stationnaire, l'égaliseur obtenu par cette méthode pourrait être utilisé aussi longtemps que l'on voudrait transmettre de 1'information: {h(k)) ne changerait pas, donc Cf(k)) ne nécessiterait pas de modifications. Cependant, la plupart des environnements de propagation sont non-stationnaires, tels les lignes tél6phoniques. liens radio-mobiles et satellites vus plus tôt. L'adaptation des coefficients de l'égaliseur doit donc continuer apriis la fin de la trame d'entraînement. Celle-ci est remplacée par la séquence de symboles fournis par l'engin de décision: 1'égaliseur fonctionne alorsen mode autodidacte ou aveugle, non-supervisé [Mac 981. La méthode d'entraînement décrite précédemment correspond à une méthode supervisée. Dans certains cas, il n'est pas possible d'utiliser une tranie d'entraînement, comme
  26. 26. dans certains liens micro-ondes ou dans des réseaux point-à-multipoints. Dans d'autres situations, l'utilisation d'une trame d'entraînement diminue suffisamment la largeur de bande de la transmission pour que l'on souhaite l'éliminer. Dans ce cas, on parle de début aveugle de la transmission ("blind start-up"): la phase autodidacte d'ajustement des coefficients de l'égaliseur commence directement [Sat 751, [Gd801. 2.1.4 mpes d'égaliseurs La figure 2.4, inspirée de [Pro 911, représente les principales classes d'égaiiseurs discutés dans la littérature. De manière générale, on distingue les égaliseurs optimuux des égaliseurs sous-optimaux. Les premiers sont représentés essentiellement par les algorithmes MLSE [For721et MAP [Abe 701:ceux-ci sont basés sur l'algorithme de Viterbi, et fournissent la meilleure performance possible en terme de probabilité d'erreur. Ils nécessitent cependant une complexité de calcul qui croît exponentiellement avec la longueur du canal, ainsi qu'une estimation préalable de celle-ci. Cette dernière doit être précise sous peine de faibles résultats subséquents. De plus, si la réponse du canal change pendant le fonctionnement de ces algorithmes, les résultats peuvent être désastreux. La connaissance de la fonction de densité de distribution de bruit est également requise. Ces facteurs (principalement la complexité d'implémentation) ont contribué à stimuler le développementd'égaliseurs sous-optimaux,dans le sens que leurs performances demeurent inférieures à celles des égaliseurs précédents, mais leur complexité est beaucoup moindre en comparaison. Cette famille d'égaliseurs peut être divisée en deux classes: les égaliseurs linéaires et non-linéaires. 11 est à noter que les égaliseurs optimaux ont été classés dans la dernière catégorie.
  27. 27. Chapitre2: Revue de f '4galisPtion LMS GAL RLS LSL FRLS SR-RLS L m L m RIS RLS CAL FRLS FRLS LSL SR-RLS SR-RLS MAP: Maximum A Priori LMS:Lcast!!eanSquares MLSE:Maximumï.,ikeühood RLS:RecursiveLeastSquares !3equeaceestimation FRLS:FastRLS DFE: DecisionFcedbackEquaiizer SR-RLS:SquarellootRLS GAL:Gradienadaptive Lattice LSL:k t Squarehttice Figure 2.4 Classz!jïcation des égaliseurspar type et structure. 2.1A.1 Égaliseun linéaires Parmi les égdiseurs linéaires, on distingue essentiellement deux stnictures: les égaliseurstransversaux et les égaliseurs en treillis. Égalisews transversaux Un égaliseur linéaire transversal (UT) est illustré à la figure 2.5. Il s'agit d'une représentation physique d'un filtre FIR, constituée d'une ligne de delai. d'un ensemble de coefficients et d'un sommateur. La ligne de dtlai accepte un nouvel échantillon d'entrée y(k) après chaque intervalle de temps de longueur s. Si l'échantillonnage se fait une fois par symbole, alors t = T ,et on parle d'égaliseur à pas entiers ("baud-spaced equafizer", BSE). KSi r = - T . où K et M sont des entiers et K c M.on parle d'égaliseur à pasfractionnaires M
  28. 28. Chapitre 2: Revue de l'dgaliscition T('~rmtionnaly-spcedequalizer"ou FSE):par exemple,si r = -.comme c'est souventle cas, 2 la ligne de délai accepte deux échantillons d'une même quantitt u(k)durant l'intervalle occupé par un seul symbole. Chacun des coefficients de I'égaliseur multiplie un échantillon présent dans la ligne de délai, puis les N produits résultants sont additionnés. de sorte que la sortie de I'égaliseur est donnée par: où l'on a posé et Cette sortie est par la suite quantifiée par l'engin de décision afin de donner une décision yd(k) = K(k -d ),où f(k-d) désigne l'estimé du symbole transmis à l'instant k-d. Figure 2.5 Egoliseur linéaire transversal. Engin de , dicision A chaque instant k, l'erreur entre la sortie de l'égaliseur et une référence est calculée. Durant la phase d'entraînement, cette référence est le symbole transmis x(k -d), dont une copie est disponible au récepteur, et l'erreur est: 1 2 k - 4
  29. 29. Chopirre 2: Revue de i'igalisation Durant la période d'égalisation autodidacte en régime permanent, l'erreur est: où X(k -d) est fourni par l'engin de décision. Dans le cas d'algorithmes aveugles, l'erreur utillsée par l'égaliseur peut prendre des formes très variées. On se référera à [Hay 961 pour un aperçu de ces formes. Dans une simulation, on peut mesurer à chaque instant la performance de I'égaliseur en évaluant l'erreur quadratique moyenne (EQM ou "Mean-Squared Error", MSE),donnée par: 2 MSE = ( ~ ( k-d)-y(&)) (2.14) Ce critère d'erreur sera utilisé par la suite dans nos simulations. Les ELT sont attirants du fait de leur simplicité d'implémentation. Cependant, en retournant à l'équation (2.10), on peut constater une limitation majeure. Si la réponse en fréquencedu canal que l'on veut égaliserpossède des nuls profonds,commec'est souvent le cas pour le canal radio, I'ELT tente de compenser cette réponse en imposant un gain élevé à l'endroit du nul, afin de ramener à 1 la réponse en fréquence du système combiné canal-égaliseur. En faisant cela, en supposant que le bruit additif est non-nul, Ie terme f ( k ) O n(k) de l'équation (2.6) devient très important: le bruit est donc considérablement amplifié,ce qui a pour effet de réduire la performance de 1'égaliseur. Afin de passer outre cette difficulté, des Pgaliseurs transversaux non-linéaires avec rétroaction ("Decision-Feedback Eqidizer ",DFE) ont été proposés, et sont décrits dans la section ~~a1iseur.snon-linéaires. Égaliseurs en treillis Un égaiiseuren treillis wak 781, 821 est illusué à la figure 2.6. Le fonctionnement de cet égaliseur se fait en deux étapes. Dans un premier temps, Ia partie en treillis de l'égaliseur d'ordre N,qui comprend les b coefficients & et IC, (elle est encadrée en pointillée dans la figure),produit une série d'erreurs f b de prédictionsavant et arrière, dénotées e,(k) et e,(k) ,m =0. ...,AT. Ces quantités possèdent la particularitéd'être non-corrélées entre elles, c'est-à-dire:
  30. 30. Chapitre 2: Revue de I'égalisarion e e * = {plm*m = n 0 , m f n b où pfm et P ,dénotent les puissances de l'erreur de prédiction avant et arrière, respectivement, à l'étage m. La deuxièmeétapeconsisteà calculer la sortie z(k) = y,(k) de I'égaliseur, en utilisant b les erreurs de prédiction arrière e,(k) ,m =O, ....Net les coefficients w,(k) ,rn =O,...Jd'un filtre transversal. Les avantages principaux des égaliseurs en treillis sont leur insensibilité au niveau de corrélation des entrées (que l'on verra plus en détail dans le chapitre suivant), leur structure modulaire qui se prête bien à l'implantation VLSI, et leur immunité au bruit d'arrondi numérique.
  31. 31. Chapitre2: Revue de l'igalisattatton 2.1.4.2 Égaliseurs non-linéaires Parmi les classes importantes d'égdiseurs non-linéaires, on compte les égaliseurs optimauxdiscutésprécédemment, les égaliseurs transversauxavec rétroactionet leségaliseurs neuronaux. Ega~rreirstransversauxsovec rétroaction Un égaliseur transversal avec rétroaction (ou avec retour de décisions) [Bel 791 est illustré à la figure 2.7.L'entrée de I'égaliseur est maintenant constituéede deux lignes de délai, une ligne directe et une ligne rétrograde, de longueurs Nb et Nf respectivement. L'estimé î ( k-d) produit par I'igaliseur à l'instant k est acheminéà l'entrée de l'égaliseur à l'instant k + 1 , par la ligne de délai rétrograde. L'entrée de l'égaliseur à l'instant k est alors donnée par: où les u(k),u(k - 1 ), ...,u(k -Nf+ I ) sontde nouveaux symbolesprovenant de l'extérieur du filtre, et f ( k -d - 1), X(k -d - 2), ...,f ( k-d -Nb) sont les décisions prises par I'égaliseur aux instants k -4à k - 1. Une modification similairepeut être apportée aux égaliseurs en treillis [Lin 841. Engin de dicision N,: nombrede coefficientsdu filtre àinctlyredfomcud/iricP) Nb:nombrede coctlicients du filtre rétmgrnd~edbackfder") Figure 2.7 Égaliseur transversal ovec retour de décisions.
  32. 32. Chapitre2: Revue de 1'4galisarion L'avantage de I'égaliseur à retour de decisions est qu'il dlimine I'ISI provenant des symboles î ( k -d - 1), î(k -d -2). ...,î(k -d -Nb). De plus. il ne provoque pas d'amplification du bruit. comme dans le cas d'un égaliseur linéaire. Cette stn~ctureprésente néanmoins un certain risque: si une décision incorrecte est prise par le dispositif de décision. alors cette erreur se propage dans les décisions futures à cause de la rétroaction. Ainsi, les erreurs peuvent arriver en bIoc. Cependant*il est montré que cette propagation n'est pas catastrophique. Il a été constaté expérimentaiement que la performance du D E est pratiquement similaire B celle de l'algorithme MLSE pour l'égalisation de canaux radio variables [Fal85]. Égaliseun neuronaux Les égaliseursneuronaux sont une famille récente d'égaliseurs. Leur étude sera menée au chapitre 4. Un aperçu des principales stxuctures possibles est donné à la figure 2.8. Perceptron multicouche Simple Polynômid Eniattice Réseau récurren Réseau i3 fonctio Globalement I ~oakrnC*<] récurrent Figure 2.8 Classificationdes égaliseurs neuronaux. 2.1.5 Algorithmes adaptatifspour I'entraînement des égaliseurs Lescoefficientsdes ELT peuvent être adaptés par une variété d'algorithmes adaptatifs. Les deux principales familles sont: les algorithmes basés sur le gradient stochastique,ou sur les moindres carrés
  33. 33. Chapitre 2: Revue de l'dgulïsation moyens ("laast-Mean Squares", LMS). L'algorithme de base est le LMS. Le LMS les algorithmes basés sur le gradient détenninisre, ou sur les moindres carrés (récursifs) ("(~ecursive)L&t-Squares".(R)LS). L'algorithme de base est le RLS. et le RLS seront présentés par la suite. Les critères recherchés chez les algorithmes adapatifs pour l'égalisation sont les suivants: Rapidité de convergence: la vitesse de convergence conespond au nombre d'itérations necessaires par l'algorithme adaptatif pour atteindre le seuil d'erreur désiré. Elle peut êke très cruciale. par exempledans le cas de canaux radio-mobiles évoluant rapidement. Erreur résiduelle d'adaptation: elle correpond à l'écart entre la solution des coefficients de l'égaliseur à laquelle l'algorithme a convergé, et la solution optimale. Cet écart se doit d'être petit pour une bonne performance. Capacité de pistage: il s'agit de l'habileté pour l'algorithme d'adapter efficacement ses coefficients à un changement dans l'environnement (c'est-à-dire le canal. dans le cas de l'égalisation), sans perte notable de performance. Ce critère est lié aux deux précédents. Complexité de calcul: elle est définie comme le nombre d'opérations arithmétiques nécessaires pour réaliser une itération de l'algorithme. Les capacitésdu matériel imposent des limites sur cette complexité. Complexiré de programmarion: on la définit comme la facilité. pour un non-expert dans le domaine spécifique du traitement adaptatif du signal, de programmer ou implanter l'algorithme sur du matériel. Robustesse numérique: ceci correspond à la peite de performance dans un algorithme adaptatif causée par les erreurs d'arrondis et la représentation des quantités dans une machine à précision finie. Un algorithme robuste devrait être très peu sensible à ces imperfections. 2.2 Applications des réseauxde neurones aux communications numériques 2.2.1 Introductionaux réseaux de neurones Un réseau de neurone ampciel (RNA) est une structure s'inspirant de l'architecture et du fonctionnement des réseaux de neurones biologiques. Chaque RNA comporte un ou plusieurs neurones, qui sont reliés ensemble de manière à réaliser une fonction spdcifique. Un RNA est de plus constitué d'une série d'entrées, d'un ensemble de coefficients de pondération (OU poids), et d'une fonction d'activation arbitraire. le plus souvent non-linéaire. Une
  34. 34. C ' p i t r e2: Revue de l'igalisarion description plus détaillée sera donnée à la section 4.1.1. Les RNA cherchent à hériter de certainespropriétés intéressantesdes rSseaux de neurones biologiques. qui sont: le parallélisme dans l'activité des unités nerveuses, la forte puissance de calcul, la tolérance envers des défaillance (si un seul neurone est détruit, le système continue à fonctionner sans grande répercussion). On pourra se référer aux livres et tutonaux suivants pour une description des RNA et propriétés: [Hag 961, [Hay 991, [Lip 871, fLip 891, rWid 901, [Hus931, may 96~1. 2.2.2 Applications Les domaines qui bénéficient des RNA sont très variés: traitement des images, robotique. médecine. finance. assurances. défense. Dans le domaine qui nous intéresse, c'est-à-dire le traitement de signal pour les télécommunications. on peut citer les applications suivantes: L'égalisation et la suppression d'interférence. L'estimation et l'identification de canaux de communications [Ibn 961,[Ibn 981, [Zho 951, [Hem971. Le codage et le décodage [AIM], [You 951, [Tei 951. La démodulation de signaux QAM [Ohn 961. Le contrôled'antennes adaptatives [Ben 971. La prédistortion =un 941, [Ben 961. La détection de signaux: - détection d'un signal dans du bruit Gaussien [Wat 901. - détection d'un signal dans du bruit nonGaussien: [Gan 97). -détection différentielled'un signal M-DPSK [Pha941. - détection multi-usager dans un canal CDMA Mit 941, [Kec 961, [Ibi 981. - détection d'un signal radar pulsé [Kwa 931, [Rao 951. - détection d'un signal radar dans un milieu non-stationnaire: [Bha 971, [Hay 971, [Hay 981. Le contrôle du traffic de réseau. Dans le domaine de l'égalisation et de la suppression d'interférence, Ia liste suivante résume les principaux types de réseaux neuronaux (ou égaliseurs neuronaux) utilisés: Perceptron unicouche (PU) [Ada941, [Sha 961. Perceptron unicouche polynômial (PP) [Che 90d], [Xia 92~1,[Xia 941, [Xia 95). [Cha 95dl. Perceptron multicouche (PMC) [Zha 901, [Gib 891, [Pen 911, [Pen 921, [Pen
  35. 35. Chapitre2: Rewue de i'égrrlisation 931, [Lo921, [Kir 921, [You 961 . Réseau récurrent [Kec 941, Liu 961. Réseau à fonction de base radiale (RBF, "Radial Basis Function nezwork") [Che 911, [Che 92a], [Che 92b], [Che 93a], [Che 93b], [Che 94a], [Che 94b], [Cid 941, [How 941, [Lar941, [Cha95b], [Cha 95~1.[Chn 951, [Mul96], [Cm 961, [Lee961, [Gan961, CTan 971, &ee 981, [Lee 993. Self-OrganizingMap (SOM)[Rai 901, mai 931, [Paq981. Réseau de neurone à lien fonctionnel [Gan921, [Gan943, mus 961, [Pat 951. Réseau de contre-propagation. Réseau Sigma-Pi (X-R ) [Shi 971. Réseau de Hopfield [Ban941. Réseau de neurone à ondelettes [Cha 94b]. Réseau GCMAC ("Generalized Cerebellar Mode2 Anrhmetic Computer") [Gon 981. On peut recenser dans la littérature des études sur l'application des égaliseun neuronaux aux canaux de communicationssuivants: Le canal radio-mobile [Xia 92a], [Yao931, [Che 951, [Bou971. Le canal satellite [Bal 941, [Cha 95a]. Le canal radio intérieur [Cha 94a]. Le canal de stockage magnetique [Cho971, [Cho981. Peu de travail a été réalisé sur l'égalisation du canal radio intérieur, Ia référence [Cha 94a] étant la sede que l'on ait encontrée.
  36. 36. Chapitre3: Afgorirhmesadaptarifspour l'igalisationlinéaire CHAPITRE Algorithmes adaptatifs pour l'égalisation linéaire 3.1 Algorithmes basés sur le gradient stochastique Cette section résume brièvement l'origine, le fonctionnement et les caractéristiques de l'algorithme LMS, puis décrit l'algorithme GAL ("GradientAdaprive Lartice"). qui est une ex- tension du LMS pour un filtre en treillis. 3.1.1 L'algorithme LMS ("Least-Mean Squares" ou Moindres Carrés Moyens) Le LMS est probablement le plus répandu des algorithmes de traitement adaptatif du signal. Sapremière apparitiondans la litterature remonte à 1960 [Wrd601.et il continue toujours
  37. 37. Chapitre 3: AlgorithmescrdapratQ5 pour I 'dgalisation linéaire de faire l'objet de recherches. Les aspects importants du LMS sont présentés dans les sections qui suivent [Wid 851, [Hay 961, [Wid 671, [Wid751. w i d 761. 3.1.1.1 L'équation normale (ou équationde Wiener-Hopf') On cherche B minimiser l'erreur quadratique moyenne entre la sortie d'un filtre trans- versal et la réponse désirée. Cette fonction d'erreur est donnée, dans le cas général complexe, par: = E [ ( d ( k )-wT(k)u(k))(d*(k)-u H ( k ) w f( k ) ) ] = E[d(k)d*(k)]-w T ( k ) ~[u(k)d*(k)]-~ [ d ( k ) u ~ ( k )] w * ( k ) avec: T - w ( k ) = [wl( k ) lv,(k) ... wN(k)1 : vecteur des N coefficients du filtre. de dimension* N x l . r - u ( k ) = [&) r4(k- 1) ... u ( k - ~ + : vecteurdesNentréesdu filtre à l'instant k. de dimension N x 1 . - d(k):réponse désirée à l'instant k. - a a ( k ) = E[d(k)d*(k)] :puissance du signal désiré. - p(k) = E [ u ( k ) d * ( k ) ]: vecteur de corrélation entre le signal d'entrée et le signal désiré, de dimension N x 1 . H - R ( k ) = E[u(k)u ( k ) ] :matrice d'autocorrélation du signai d'entrée. de dimension N x N . E[]désigne l'espérance mathématique. J ( w ) atteint un point stationnaire wo quand (en omettant la dépendance envers k. comme on le fera à certaines occasionspar la suite):
  38. 38. Chapitre 3:Algorithmes aa2tptarifspour I'Pgalisation linéaire C'est-à-dire: en supposant R non singulière et donc invertible. Cette équation est dénommée équation nor- male ou équationde Wiener-Hopf.La fonction d'erreur J ( w ) étant quadratique. wo correspond à un minimum de la fonction, etc'est ceque l'on cherche à obtenir. J ( w ) correspond graphique- ment à une paraboloïde: l'algorithme employé aura pour but de trouver le minimum de celle-ci. L'équation (3.3) peut s'écrire sous la forme suivante: On en déduit que l'erreur produite par le vecteur wo est toujours orthogonale à l'entrée: c'est le prirlcipe de f 'orthogonalité.On peut montrer de même que cette erreur est également orthogo- nale au signai désiré d(k). Afin de trouver le minimum wo de la fonction d'erreur, l'équation (3.3) laisse entendre qu'il est nécessaire d'inverser une matrice N x N àchaque itération. On sait qu'une telle opéra- tion nécessite o(N~)multiplications ou divisions, ce qui est excessif dès que N atteint des valeurs assez élevées. L'algorithme LMS présenté dans la section suivante permet de réduire ce fardeau. 3.1.1.2 L'algorithme LMS Définissons des estimés de R etp comme: Le gradient de la fonction d'erreur J ( w ) devient:
  39. 39. Chapitre 3: Algorithmes adapratifspour l'égalisationlinéaire Utilisons ce gradient dans l'algorithme de descente rapide ("steepest descent algorithm"): p étant lepas de convergence. L'algorithmeest donné ci-dessous. -rithme LMS * Inirialisarion * Itérations 3.1.1.3 Convergence du LMS Les conditions pour la convergencedu LMS sont: * Convergence de la moyenne de w: A,, étant la valeur propre maximale de R. * Convergencede E[J(w)] au sens quadratique: A, i = 1. ....N étant les valeurs propres de R. Cene condition peut aussi s'écrire:
  40. 40. Chapitre 3: Algorirhes adaptatifi pour I'dgalisurion linéaire 2 ' puissance totalede l'entree L'algorithme LMS est sensible à l'écart maximal entre les valeurs propres de R- En ef- fet, plus la quantité h,,,/hmin est élevée. où hm, et À,, correspondentrespectivement aux valeurs propres maximaleet minimale deR, plus la convergenceest lente.Cet écart est d'autant plus important que la corrélation entre lesentréesdu filtreest élevée. La vitesseoptimalede con- vergence a lieu quand toutes les valeurs propres sont égales, donc quand il n'y a pas de conéia- tion entre les entrées [Ung 721. 3.1.1.4 Erreur résiduelle A la convergencede l'algorithme, l'erreur e(k) n'est pas nulle. On peut montrer qu'elle est égale a la sommede deux composantes: l'erreur quadratique moyenne minimale J,,, ("rnirt- imum mean-squared error") et l'erreur quadratique moyenne d'excès J,, ("excess mean-squared error"). A la convergence (w =wo),d'après (3.1)on a: car d'après (3.3)' p -Rwo = O . Cette quantité correspond à l'erreur qtcadrariqile »lqizne minimale: L'erreur (3.1) peut s'écrire, en utilisant (3.3): 2 H H J ( w ) = ad-( R W , ) ~ W -w (Rwo)+w Rw 2 H H = a, -woRw +w R(w -wo) 2 H H = ad-W o Rwo +(W -U O ) R(w-W * ) c'est-à-dire:
  41. 41. Chapitre3: Algorithmesodapratifi pour l'égalisation linéaire On voit que J ( w ) est supéneure à J,, de la quantité positive suivante: que l'on dénomme erreur quodrotiquemoyenne d ' d s . Cette erreur est due à la fluctuation du vecteur w autour de sa valeur optimale wo, égale à E .En effet. vu que l'on utilise un estimé du gradient pour dériver le LMS.on introduit un bruit de gradient, qui entraîne une erreurà la con- vergence supérieureiila valeur minimale théorique.On remarqueque l'erreur I,est nulle seule- ment quand w =wg. En résumé, on peut écrire: d'où l'on voit à nouveau que Je, = J ( w )-J(w,) = O uniquementquand w =wo (vu que J(w) est monotone) . On définit le niésajusrernent ("nlisadjusrment ") comme: Jmin Cette quantité donne une indication sur la performance de l'algorithme adaptatif. Le taux d'apprentissage p correspond à la mémoire de l'algorithme. Plus il est grand, plus la convergence initialeest rapide. Cependant. une trop grande valeur de C( entraîne une er- reur résiduelle élevée. et possiblement la divergencede l'algorithme (si la condition (3.15) n'est pas respectée). 11est en effet démontré que: J, croît donc avec le taux d'apprentissage.
  42. 42. Chapitre 3: Algorithmes aùaptatl~sp u r 1'égalisarion linéaire 3-1.2 L'algorithme GAL C'Gradient AdpiPtive tCr#iceJ3 L'algorithme GAL sert à entraîner un filtre en treillis comme décrit dans le chapitre précédent. Cet algorithmeest récursif en tempset en ordre. contrairementau LMS qui n'est que récursif en temps. En effet, à chaque itération dans le temps, les e m u n de prédiction avant et arrière d'ordre rn, ainsi que les coefficientsde la treillis d'ordre m. sont calculés à panir de ces fmêmes quantitésd'ordre rn- 1. Autrementdit, àl'itération k.l'algorithme calcule d'abord eo(k) .b f b eo(k),~ ~ ( k ) .puis évalue successivement e,(k) ,e,(k). rn = 1 à Net ~ , ( k ) ,m = 1 à N - 1. à f b partir de e, - ,(k) ,e, - ,(k) et K, - ,(k) .Lorsque toutes ces quantités sont disponibles, les co- efficients w, (k).rn =O, ...,N sontévalués. L'algorithme GAL appliquéà l'égalisation [Sat 791, [Sym 791 est résumé ci-dessous. et sa dérivation est présentée à l'annexe A. * 112irialisation Pour ?II = 1 à N: 6 étant une petite constante. Fin Pourm=OàN: Fin * Itérations
  43. 43. Chapirre 3: Algorithmes adapratijspour l'égalisation linéaire a étant une petite constante (i.e. 0.01). Fin Pour nz = 1, ...,A? Fin Pour 171 =O, ...,1V: Fin 3.2 Algorithmes basés sur le gradient déterministe L'algorithme RLS ("Recursivekasr Squares")et certaines de ses variantes. plus stables ( "Square-RootRU",ou SR-RLS)ou plus rapidesen temps de calcul ("FastRLS ","FastTrans- versal Filter") sont présentés. Le lien avec l'algorithme de Kalman est décrit. On discute aussi
  44. 44. Chapitre 3: Algodhmes aalzptarifspour f'dgalisationlinéaire l'entraînement d'un filtreen treillis par un algorithme de type RLS (soit l'algorithme LSL. ou "Least-Squares Lam'ce"). 3.2.1 L'algorithme RLS ("Recursive-kt Squares" ou Moindres CarrésRécursifs) L'algorithme LMS tente de minimiser une quantité stochastique, soit l'espérance de l'erreur quadratiquemoyenne E[J(w)].A chaque itération, l'algorithme utilise seulementI'in- formation fournie par l'itération précédente. C'est à cela qu'il doit la lenteur de sa convergence. Afin d'obtenir une convergence rapide pour le même problème, l'algorithme RLS a été intro- duit. qui utilise toute l'information produite depuis la lke itération, par l'entremise d'un p d i - ent déterministe. 3.2.1.1 L'algorithme RLS On cherche à minimiser l'erreur produite par l'algorithme depuis le début de son fonc- tionnement, c'est-à-dire de l'échantillon i = 1 à I'échantillon courant i =k. Pour cela, la fonction d'erreur à minimiser est la quantité déterministe suivante: La constante h est lefacteur d'oubli. et satisfait : O << h < 1 .Ce facteur, typiquement compris entre 0.9et 1, permet d' "oublier" les échantillons les plus anciens au fur et à mesure de la pro- gression de l'algorithme, en les pondérant de manière à ce que leur contribution au calcul de la fonction d'erreur disparaisse après un certain temps. Ceci permet à l'algorithme d'évoluer dans un milieu non-stationnaire, où les échantillons trop anciens doivent être exclus du processus. 1 On peut approximer la "mémoire" de l'algorithme par la quantité suivante: -1-A L'algorithme RLS est résumé à l'annexe A, et son fonctionnement est décrit ci-après. * Initialisation
  45. 45. Chapitre 3: Algonihmes adaptarifJ pour l'dgalisation lindaire ~ ( 0 )= O N x 1 6 étant une petite constanteet I la matrice identité. * Itérations k(k) = P(k - I )U ( k ) h +uH(k)p(k- 1)u(k) 3.2.1.2 Convergence de l'algorithme RLS On peut montrer, tout comme pour le LMS, que: * w converge dans la moyenne. * E [ J ( w )J converge au sens quadratique. La convergence est cependant beaucoup plus rapide que pour le LMS: elle se fait théoriquement en 2N itérations, N étant la longueur du filtre. Le RLS,contrairement au LMS. est insensible à l'écart maximal entre les valeurs propres de R. 3.2.1.3 Erreur résiduelle L'erreur quadratique moyenne minimale Jmin du RLS est la même que celle du LMS, car ces deux algorithmes sont issus des équations de Wiener-Hopf. Cependant, on peut montrer qu'en théorie, pour un facteurd'oubli h = 1,il n'y a pas d'erreur quadratique moyenne d'excès (Ja =O), et qu'il n'y a donc pas de mésajustement (M =0). 3.2.1.4 Relation avec le filtre de Kalrnan Soit un systèmedynamique linéaireet discret, régi par les équations suivantes:
  46. 46. Chopirre3: Algorithmes adap~atifspour l'égalisationlindaire avec: * x(k), , :état du système * @(k)M :matrice de transition d'état * v ,( k ) M :bruit de procédé. blanc et de moyenne nulle, * y(k),,, ,, :sortie du système * C(k)N, :matrice de mesure * vz(k), :bruit de mesure. blanc et de moyenne nulle. avec: avec: n H E[v (k)vz( n ) ] = O .pour tous k et n. (3-52) L'équation (3.48) est l'équation de procédé. L'équation (3.49) est l'équariori de mesure. Pour trouverune approximationde l'état x(k)à chaque itération, en un nombre minimal d'itérations. il existe une méthode classique. l'algorithme de Kalman. Celui-ci est détaillé dans de nombreux ouvrages. dont [And 791. [Bro951, [Hay 861. On se contenterad'en présenter un résumé ci-dessous. norithmede Kalman * Initialisarion * Itérations
  47. 47. Chapitre 3: Algorithmes adaptatifspour l 'Pgalisationlindaire P(k + 1 1Y i ) = @(k + 1, k ) î ( k JY,- ,) +G ( k ) a ( k ) P ( k l Y k _ , ) = * ( k + 1, k ) k ( k + III',) K ( k ) = K(k, k - 1 ) -@(k + 1, k)G(k)C(k)K(k,k - 1) K(k, k - 1 ) = @(k + 1' k ) ~ ( k ) d ' ( k+ 1, k ) +Q ,( k ) Dans cet algorithme: - P(k1Y , - ,) est l'estimé de r(k)à l'instant k, étant donné la connaissance de: y , = { ~ ( l ) , ~ ( 2 ) '* - * . ~ ( k -111 c'est-à-dire toutes les sorties du système de l'instant 1 à l'instant k - 1 . - G(k), ,,est le gain de Kalman. - K(k, k - 1 ), .,est la matrice de corrélarion de 1'erreurde prédiction. En effet. on a: où: ~ ( k ,k - 1) = ~ ( k ) - P ( k l Y ~ - ~ ) est 1' erreur de prédiction. - K ( k ) M, est la matrice de corrélation de l'erreurdefilrrage. En effet: où: e(k) = x ( k )-P(kl Y,) est l'erreur defiltrage. Dans le cas du filtrage adaptatif transversal. à la convergence. le système dynamique étudié est donné par:
  48. 48. Chapitre3: Afgorirhmesa&pzati/s pour I'dgalisatiorr linéaire où: - w,(k) représente le vecteur des coefficients optimal de Wiener. - v ( k ) est le bruit affectant le vecteur des coefficients après convergence. Dans un environne- ment stationnaire, il est nul. - d ( k ) est la réponse désirée. - u ( k ) est le vecteur d'entrée. - eo(k) est l'erreur minimale de Wiener entre la réponse désirée et la sortie du système. On peut faire les constatations suivantes: QzW = E[e,(k)e,*(k)l = J,,,, L'algorithme de Kalman s'écrit alors [God 741, may 861: K(k, k - 1)u(k) g(k) = u H ( k ) ~ ( k ,k - 1)u(k)+J,, Jmhest calculée typiquement comme la variance du signal désiré multipliée par un facteur de 0.001 à 0.01. On distingue deux cas pour cet algorithme:
  49. 49. Chapitre 3: Algonrhmes aàaptar~spour f'dgalisarionlinéaire * L'environnement est stationnoire. Q(k)est égal à zéro. L'algorithme de Kalman correspond alors à l'algorithme RLS avec )c = 1 ,en faisant les correspondances suivantes: * L'environnement est non-stationnaire. On peut envisager les deux possibilités suivantes: - On pose: q étant un petit scalaire. Les éléments de v ( k ) sont donc des variables aléatoires de moyenne nulle et de variance q: le modèle présumé est celui de la marche aléatoire. - On pose: L'algorithme s'écrit alors: avec: Si l'on pose J,, = 1 ,l'algorithme donné par (3.79)-(3.82) correspond exactement à I'algo- rithme RLS,avec:
  50. 50. Chapitre 3: A l g o n h e s aabptarifspour l'égalisation linéaire En résumé, l'algorithme RLS peut être obtenu de deux manières: - suivant des équations déterministes,comme ce fut le cas dans la section 3.2.1.1 L'algorithme m. - suivant des équations stochastiques.en partant de l'algorithme de Kalman. Ainsi, l'algorithme RLS peut prendre la dénomination algorithme de Kalman, vu qu'il s'agit d'un cas particulier de celui-ci: les deux appelations seront utilisées par la suite. 3.2.2 L'algorithme étendu de Kalman ("Extended Kalman Filter" ou EKF) L'algorithme de Kalman vu précédemment est valide pour un système dynamique linéaire seulement. Danscertainscas. le système étudiéest non-linéaire. et peut s'exprimer sous la forme générale suivante: x(k + 1 ) = F(k, x(k)) +v ,(k) (3.85) Afin d'appliquer la méthode de Kalman à ce cas, il faut Iinéariser les fonctions F(k, x ( k ) ) et C(k,x ( k ) ). Pour cela, on utilise une approximation par une série de Taylor de le' ordre de chaque fonction: F(k,~ ( k ) )= F(k,i(kl Y,)) +F(k + 1, k)[x(k)- f (klYk)I (3.87) avec: Après quelques manipulations sur l'algorithme de Kaiman linéaire, on obtient l'algorithme sui- vant [Hay 96aJ:
  51. 51. Chapitre 3:Algorithmes adaptarifsp u r l'égalisation linéaire I nthme etm-an (EKF) * Itérations Dans le cas de l'égalisation, on peut poser, comme précédemment: - F(k, X(kl Y,)) = P(kl Y,) - Q2(k) = E[eo(k)eo*(k)l= Jmi, = 1 H - Q , ( k ) = E[.(k). ( k ) ] = 41 = (i-l ) ï L'algorithme prend la forme simplifiée suivante:
  52. 52. Chapitre 3: Algorithmes a&ptatijs pour I'dgalisarion linéaire K ( k ) = A-'[ K ( k )-g ( k ) ~ H ( k ) ~ ( k ) ] 3.2.3 L'algorithme SR-- ("Square-RootRLS" ou "Square-Root Kalman") Dans l'algorithme RLS,l'équation d'ajustement de la matrice inverse de covariance P(k), reproduite ci-dessous, est numt!riquemenr instable dans un environnement de précision finie: En effet, cette matrice est calculée comme la différence de 2 matrices semidéfinies positives, et doit aussi être semidéfiniepositive. Or, le grand nombre de multiplicationset la division encou- mes par l'algorithme entraînent des erreurs d'arrondi de plus en plus importantes. Après un grand nombre d'itérations, la matrice inverse de covariance peut devenir semidéfinie négative, et posséder à la fois des valeurs propres positives et négatives, ce qui est inacceptable. C'est à ce moment que l'algorithme risque de diverger, et on le qualifie à cet égard de numériquement instable. Le filtre Kalman possède le même problème, mais une solution a été trouvée en effec- tuant les calculs sur la racine carrée des valeurs propres de P(k), au lieu de P(k)directement: celle-ci demeurera en conséquencesemidéfinie positive, et le problème d'instabilité numérique est surmonté [Bie 771. On dénomme cette famille d'algorithmes le Square-Root KaZman. Une méthode de factorisation de P(k)a été développée par Hsu [Hsu 821, s'inspirant de Bierman [Bie 771, afin d'être utilisable sur des signauxcomplexesdans le contextede l'égalisa- tion. On cherche des facteurs U(k) et D(k) tels que P(k) puisse s'&rire: U ( k ) est une matrice triangulaire supérieure avec une diagonale unitaire, et des éléments supérieurs complexes pi,,i = 1.2, ....N - 1 etj = i + 1 , i +2. ....N. D(k) est une matrice diag- onale avec comme élémentsdiagonaux les réels d j .j = 1, 2, ....N. En effectuant les calculs sur D(k)et U(k)au lieu de P(k), on réduit l'intervalle dynamique des variables avec lesquelles on travaille. De manière approximative, on passe d'une plage de valeurs comprises entre 10" et
  53. 53. Chapitre3: AIgorirhmes adaptatifsp u r I 'égalisationlindaire 1@ à un intervalle l ~ - ~ ~- ld? Ainsi. en utilisant le même nombre de bits, la précision numérique est doublée. L'algorithme de Hsu est donné ci-après. La dérivation est résumée à l'annexe A2. Pour j = 1, ...,At d,(O) = I Fin Pour i = 1, ...,N , e t j = i + 1 , i + 2 , ....Ak Fin * Itérarions avec q = 1 x-1 .
  54. 54. Chupirre3: AIgon-rhes cldapruzifspour f'igulisurion linéaire fourj = 2. ,..,ht j - 1 f,(k) = pij(k - 1 )u*(k -i ) +u*(k-j) i = 1 gj(k) = dj(k - 1If,(k) Fin Fin 3.2.4 Algorithmes rapides FRLS et FTF L'algorithme RLS possède une convergence initiale bien supérieure au LMS. mais au détrimentd'une complexitéde calcul accrue: le calcul dePdans (13) demande N x N multipli- cations.L'algorithme est alorsde complexitéo(N*),comparativement au LMS qui possède une complexité O(N). Ce temps de calcul est excessif pour beaucoup d'applications qui doivent fonctionner en temps réel. telle l'égalisation d'un lien micro-onde. Des travaux sur les propriétés des matrices de covariance w o r 741, dans le cas de filtres ayant une ligne de délai à leur entrée. ont inspiré des algorithmes permettant une diminution
  55. 55. Chpirre 3: AIgonrhmes aa'aptatifs pour I'igalisarion linéaire considérable de la complexité de calcul des algorithmes RLS.Ainsi, l'algorithme "Fast Kul- man " (ou "FastRLS", F m est réduit à une complexitéde calcul de l'ordre O(N),Nétant I'or- dre (le nombre d'entrées) du filtre [Lju781, [Fal78]. Plus précisément, sa complexitéde calcul est de 1IN. Le principe de base de cet algorithme et sa dérivation complète sont donnés à l'an- nexe A. Son fonctionnementest resurné plus bas. L'algorithme FAEST RLT ("FastA posteriori E m r Sequential Technique" RLS) a per- mis de réduire la complexitéde calcul à 7N.en exploitant certaines propriétés dont le FRLS n'a pas tenu compte. On en trouvera une description dans [Car 831. L'algorithme FTF ("Fast Tmnsversal Filrer ").similaire au FAESTRLS possède égale- ment une complexité de calcul de 7N. Sa description est donnée dans [Cio 841. L'algorithme FTF peut être dérivé en se basant sur une interprétation géométriquedu problème des moindres carrés. Une explication de cette approche est donnéedans [Ale 86b]et dans [Lev 841. Une déri- vation complète utilisant cette approche est présentée dans [Ale 86b]. L'algorithme FïF peut aussi être dérivé de manière purement algébrique. tel le FRLS: on se référera à [Hay 861 dans ce cas. Le fonctionnement du FTFest donné à la suite de la celui du FRLS. Al-orithrne FRLS ("FastRLS" ou "FastKalman") * Initialisation * Itérations Erreur a priori de prédiction avant :
  56. 56. Chapitre 3: Algorithmes aakptatifspour 1'4galisationlinéaire Vecteurde prédiction avant: f fw,(k) = wN(k- 1 ) +kN(k)ef(k(k- 1 ) Erreur a posteriori de prédiction avant : Somme des carrés des erreurs de prédiction avant pondérées: Vecteurde gain augmenté: Panitionner kN + (k) comme suit: Erreur a priori de prédiction arrière : b out b T e ( k i k - 1 ) = u ( k ) - ( w N ( k - 1 ) ) u N ( k + l ) Vecteurde prédiction arrière: b b N + 1 w , ( k ) = [ w , ( k - l ) + k N ( k ) e b ( k l k - l ) ] [ l - k (k)eb(klk-l)]-' Vecteurde gain normalisé: k,(k + 1 ) = kN(k)+wL(k)kN+' ( k ) Erreur d'estimation a priori:
  57. 57. Chapitre 3: Algorirhrnes adaptatifspour f't?galisa~ionlindaire Vecteurdes poids: 4leorithrne FTF (64Fast Transversal Filter") * Initialisation (conditions initiales arbitraires) où p est une constante choisie par l'utilisateur. * ?rérations Erreur a priori de prédiction avant : f f H + - = + ( k - l ) ~ ~ + ~ ( k ) Erreur a posteriori de prédiction avant : f e,+l(klk) = Y&- l>eN+l(klk-1) Somme des carrés des erreurs de prédiction avant pondérées:
  58. 58. Chapitre 3: Algorithmes aaàptarij3 pour I'igalisation linéaire Facteur de conversion augmenté: Vecteurde gain normalisé augmenté: Vecreurde prédiction avant augmenté: f f *~ N + , w= ~ ~ + ~ ( k - l ) - e ~ + ,( w ) Erreur a priori de prédiction arrière : Facfeurde conversion: Erreur a posteriori de prédiction arrière : Somme des carrés des erreurs de prédiction arrière pondérées: Vecteurde gain normalisé: Vecteurde prédiction arrière augmenté: Erreur d'estimation a priori:
  59. 59. C'pitre3: Algonrhmes adaptarifspour l'égalisation Iint?aire H a,W = 4 k ) -w,(k)u,(k) Erreur d'estimation a posteriori: Vecteurdes poids: avec: 3.2.5 L'algorithme LSL ("Least-SquaresLattîce9') La structure en treillis de la section 3-12peut également être entraînée par la méthode des moindres carrés. L'algorithme LSL.dont une dérivation peut être trouvée dans [Lee 811. [Hay 961,possède une convergencesimilaire àcelledu RLS.mais avec une complexitéde calcul beaucoup moindre. C'est un algorithme rapide, au même titre que le FRLS et le FIF, mais qui est numériquement plus stable. Il existe deux versions principales de l'algorithme LSL, selon que l'erreur d'estimation a posteriori ou a priori soit utilisée. Afin de pouvoir fonctionner en mode aveugle, un égaliseurdoit être entraîné par l'algorithme LSLutilisant l'erreur apriori [Sat 811. Ce dernier est résumé ci-dessous. On trouvera à sa suite une description de l'algorithme LSL avec retour de décisions.
  60. 60. Chapitre3: Algorithmes adaptatifspour I 'igalisationlinéaire &orm-e 6 étant une petite constante. Fin Pourm = 1, ...,N: Fin * Itérations
  61. 61. Fin Pour m = 1, ,..,N: Fin Pour nt =O, ...,N: Fin Pourm = 1, ...,At Chapitre 3: Algorithmes a&piatïf.s pour 1'égulisarionlinéaire
  62. 62. Chapitre3: Algorithmes adaprarvspour L'igulisarion Linéaire Une version de l'algorithme qui possède une stabilité numérique supérieure à la précé- dente est donnée dans [Lin 86b3. AIeoRthme LSL a a * * vecw - f e e d b a c kLSL )99 * Inirialisation Pour m = 1. ....Nf - Nb: 6 étant une petite constante. Fin Pour ni = 1. ....Nf - Nb: Fin Pour rn = 1. ....Nf: Fin
  63. 63. Chapitre 3: Algorizhmes adapratryspour l'égalisarion linéaire A,-,(O) = O,,, Fin Pourm =NI -Nb+l.....Nf+1: Fin * Itérations Éiage scalaire Pourm = 1. ..., Nf - Nb:
  64. 64. Chapitre 3: Algorithmes adaptatifspour l'égalisation linéaire - Fin Étage de transition Pourm=M=N/ - N b : Fin Étage vectoriel Pourm =Nf -fi+ 1. ....Nf:
  65. 65. Chapitre 3: AIgori~hmesadaptatfspour I'dgalisarion linéaire Fin Étages vectoriels Pourm =Nf-Nb+ 1, ....Nf + 1: e J k ) = d ( k )-ym(k) Fin Adaptation des coeficients dufiltre transversal Pour m = 1, ...,Nf-Nb:
  66. 66. Chapitre 3: Algon'thmes PdaptatifS p u r 1't?galiscltionlinkaire Fin Pourm =Nf-Nb+1. ....NI+ 1: Fin 3.2.6 L'algorithme RMGS ("Recursive Modijîed Gram-Schmùit") L'algorithme RMGS est une version récursive de l'algorithme MGS ("Modifed Gram-Schmidt") traditionnel [Law741, qui a été proposée dans [Lin 86aJ.Cet algorithme,com- me les algorithmesen treillis. calcule une série d'erreurs de prédiction non-corrélées entre elles à partir du vecteur d'entrée du filtre. grâce au principe de I'orthogonalisation Gram-Schmidt [Lay 941. La sortie du filtre est calculée en utilisant cette séquence blanchie. Ci-après est ré- sumée une version robuste numériquement et rapide du RMGS. le RMGSEF ("RecursiiveMod- ified Gram-Schmidr wirh Error Feedback"). L'algorithme est résumé sous forme complexe, contrairement à [Lin 86aJoù il est présenté sous forme réelle seulement. Alnorithme RMGSEE * Irzitialisation R(O) = &IN,, 6 étant une petite constante. * Itérations
  67. 67. Chapitre 3: Algorithmes adaprar,f.spour l'dgalisation linéaire Y&) = 0 Pour m = 1, ...,N: Pourn =nt + 1, ...,N: Fin Fin Pour rtt = 1, ...,hi: Fin
  68. 68. Chapitre4: Algorithmes a&ptarus pour l 'égalisationneuronale non-linéaire CHAPITRE Algorithmes adaptatifs pour l'égalisation neuronale non-linéaire 4.1 Réseaux multicouches 4.1.1 Description 4.1.1.1 Strucîurede base Lepercepîron unkouche (PUC) Le modèle le plus simple d'un réseau de neurones est celui du perceptron, proposé par Rosenblatt [Ros 581. Celui-ci est illustré à la figure 4.1. Il ne comporte qu'un neurone. La relation entre l'entrée u et la sortie a est la suivante:
  69. 69. Chapitre 4: Algonrhmes hptatifs pour I'igalisation neuro~lenon-linéaire W représente la matrice despoids associés au perceptron (dans ce cas. il n'y a que 2 entrées. et donc seulement 2 poids): b est le biais associé au neurone-A) est une fonction spécifique au neurone, appelkfonction d'activation:elle doit être non-linéaire afin que l'on puisse parler de réseau de neurones. sinon il s'agit simplement d'un filtre linéaire. Figure 4.1 Perceptron unicouche. Si les données utilisées sont complexes, comme dans le cas de symboles M-QAM. on assignera aussi des valeurs complexes aux poids et biais du réseau. selon la notation suivante [Xia 92b]: wi,= wij, +jwi,, bi = b , +jb,, où les quantités portant les indicesR et Idésignent les parties réelle et imaginairerespectivement des poids et biais, et j = a.Le choix de la fonction d'activation pour un réseau complexe est discuté dans la prochaine section. Leperceptron multicouche (PMC) Si on utilise piusieun niveaux de traitement de l'entrée, dors on obtient un perceptron multicouche (PMC). Les couches antérieures à la couche de sortie sont appelées couches cachées.La sortie de chaque couche est donnée par:
  70. 70. Chupirre 4: Algorithmes &ptatifs p u r l't!galisatian neuronale non-lin4aire où rn = 1,...,Mdésigne le numéro de la couche, M étant le nombre total de couches.Le percep- won multicouche est illustré à la figure 4.2. Figltre 4.2 Perceptron multicouche. 4.1.1.2 Fonction d'activation Plusieurs fonctions d'activations sont possibles; les plus utilisées sont illustrées à la figure 4.3. On peut faire les commentairessuivants: * Si on utilise la fonction linéaire dans un perceptron multicouche, on obtient un filtre F R con- ventionnel. Il n'y a pas d'intérêt à utiliser cette fonction dans le percepuon multicouche,car ce- lui-ci pourrait alors être réduit à un perceptron unicouche. * L'algorithme présenté dans la section 4.1.3 - l'algorithme de backpropagation (BP) - n'au- torise quedes fonctions d'activation qui soientdifférentiablesen tout point. Pour cela. on utilise en général des fonctions continues. telles la fonction logistique et la fonction tangente hyper- bolique (tanho). * Si le signal que l'on désire obtenir est symmétrique, alors la fonction d'activation doit l'être aussi. La fonction tanh(). du fait de sa continuité en tout point et de sa symméuie. sera la can- didate privilégiée pour l'égalisation.
  71. 71. Chpitre 4: Algorithmes rdapratifspour Imigalijationn e u r o ~ l enon-linéaire Fonaion Umiteur symrn4trique Fonctionl i d n saturée Fonction log-ngmoiide Fonction tangente hyperbolique Figure 4.3 Fonctions d'activation courantes. Cas complexe Si les signaux traités sont compIexes. on doit modifier conséquence.En effet,si on conservait la fonction tanho, le facteur pour: la fonction d'activation en 1 tendrait vers l'infini 1 +LX x = fj(2k + 1)n .pour tout k entier La sortie serait non bornée et donc inacceptablepour un calculateur. Georgiou et Koutsouperas [Geo 921 ont proposé une liste de propriétés qui doivent être satisfaitespar une fonction d'acti- vation complexefl) [Hay 961: 1) Soit x~ et XI les parties réelle et imaginaire de x, respectivement. Alors fi) doit être non-linéaire à la fois en x~ et en x,, pour que l'utilisation d'un percepuon multicouche soitjus- tifiée. 2)fo doit être bomee. sinon un débordement pourrait survenirdans un calculateur. 3) Les dérivéesdefo doivent existeret être bornées. afin d'être utilisables par l'algorithme BP.
  72. 72. Chapitre4: Algorithmes adaptatif3pour 1'igalisationneuronule non-lindaire 4)fT)ne doit pas être une fonction entière, c'est-à-dire une fonction complexe qui est analytique en tout point dans le domaine complexe. Or, d'après le thkorème de Liouville, une fonction en- tière bornée en tout point est une fonction constante, ce qui ne convient évidemment pas. 5) Lesdérivées partielles de la fonction de coût E(k)(choisie par exemple comme l'erreur qua- dratique moyenne) doivent satisfaire la condition: En effet, dans ce cas, le gradient de E(k)pourrait être nul sans que l'entrée et l'erreur soit nulles. Alors l'algorithme aurait atteint un point stationnaire,et la convergence vers la solution désirée n'aurait jamais iieu. Un choix possible pour A) est: oùfR est une des fonctions d'activation réelles présentées auparavant. Par exemple, si on choisit la fonction tanho: Cas des niveaux muiîiples La fonction d'activation tanh() produit une sortie qui est limitée à des valeurs entre -1 et 1,et convient donc plutôt à un alphabet bipolaire (BPSK).Afin d'accomoder des alphabets à plusieurs niveaux (i.e., $-PAM. 16-QAM,...), de nouvelles fonctions d'activations dérivées de la fonction tanho ou d'autres fonctions trigonométriques ont été proposées: * Dans [Pen 921, la fonction d'activation de la couche de sortie est multipliée par une constante C,et son entrée est pondérée par un coefficient a, ce qui donne la fonction: (1 -ëU) (7)f<x>= = Ctanh - 1 +e-Ox * Dans la même référence, la fonction suivante est proposée:
  73. 73. Chapitre4: Algorithmes adaptatifspour I'Pgalisarionneuro~fenon-linéaire où a,b et C sont des constantes. Il s'agit d'une fonction continue monotone en escalier. favor- isant la nature discrète des niveaux. comme dans le cas d'alphabets M-PAM, M étant le nombre de niveaux. * Dans [You 961, une fonction similaire est utilisée: f ( x ) = A x +Bsin(Ax) (4.8) où A et B sont des constantes. * Dans [Siv 931. la fonction suivante est utilisée pour distinguerentre plusieurs niveaux de gris. dans une application des réseaux neuronaux au traitement d'images: où q est le nombre de niveaux. Similairement.on peut définir les fonctionsd'activation suivantes pour l'égalisation de signaux modulés M-PAMet M-QAM, respectivement: Les coefficients réels positifs B et 6 doivent être choisis afin d'optimiser la performance. Des variantes de ces fonctions sont données dans [Hac 971 et [Bou 97). La fonction donnée par (4.10)est illustrée aux figures 4.4 et 4.5 pour les cas M =4 et M = 8, respectivement. Dans le cas M = 2. cette fonction est équivalente à la fonction tanho traditionnelle. Par la suite. on se servira exclusivement de cette fonction pour les alphabets à niveaux multiples. car elle s'est avérée supérieure aux autres fonctions dans nos simulations.
  74. 74. Chapitre4: Algorithmes &prarifs pour 1'égalisationneuronule non-linéaire Figure 4.4 Fonction f M ( ~ ) ,pour M = 4, avec = 1 et 6 = 4. Figure 4.5 Fonction f P A M ( ~ ) ,pour M = 8, avec f3 = 1 et = 4. Un fonction d'activation plus complexebasée surdes splinescubiquesde Catmull-Romest pro- posée dans wnc 991. Une méthode d'entraînement censée améliorer la convergence pour des alphabets multi-niveaux est proposée dans [Sai 981. 4.1.1.3 Applicationau filtrage adaptatif Si l'on veut se servir d'un perceptron comme filtre transversal, alors il faut ajouter une ligne de délai à son entrke, comme illustré à la figure 4.6. Il est à noter que dans un perceptron multicouche, seule la couche d'entrée possèciera cette caractéristique;son entrée seraprésentée
  75. 75. Chapitre 4: Algon'thmes adaptatvs pour l'égalisarion neuronale non-lin4oire en série, changeant d'un échantillon à la fois, alors que les entdes des autres couches seront présentéesen bloc. Figure 4.6 Perceptron multicouchepour i 'égalisarion. Coucbe + u(& 4.1.1.4 PMCavec retour de décisions("Decisionfeedback MU") I .a. I On peut construire un égaliseur PMC avec retour de décisions en s'inspirant de l'égaliseur DFE [Siu 901. Reprenons le modèle de système d'égalisation de la section précédente,en modifiant la structure du PMCtel qu'illustré à la figure 4.7. L'entrée du PMC est maintenant constituée de deux lignes de délai, une ligne directe et une ligne rétrograde, de longueursNb etNfrespectivement. On ajouteà la sortiedu PMC un enginde décision implantant la fonction dec(),donnée par exemple dans le cas d'un alphabet bipolaire par: M Courbe La sortie de ce dispositif est: .,u(k-Np2) I b Il s'agit de l'estimé du symbole x(k -d) produit par I'Cgaliseur. Cet estimé î ( k -d).produit à l'instant k,est acheminé à l'entrée de I'égaliseur à l'instant k+l. par la ligne de délai rétro- grade. L'entrée de I'égaliseur à l'instant k est alon donnée par: 1 2 :(&dm Engin de décision b
  76. 76. Chapitre 4: Algorithmes ad&ptari$s pour 1'dgalisationneuronale non-lindaire où les u(k), u(k - 1), ...,u(k -NI+ 1) sontde nouveaux symbolesprovenant de l'extérieur du filtre. et i ( k -d -1), î(k -d -2), ...,P(k -d -Nb) sont les décisions prises par l'égaliseur aux instantsk - Nb k - 1. La sortie de la l're couche est ainsi modifiée de la façon suivante: pour i = 1, ...,NI.Les sortiesdes couches subséquentesgardent la même forme. L'avantage de l'égaliseur à retour de décisions est qu'il élimine I'ISI provenant des symboles X(k -d - 1), d(k -d -2), ...,a(&-d -1). De plus, il ne provoque pas d'amplification du bruit, comme dans le cas d'un égaliseur linéaire- Cette structureprésente néanmoins un certain risque: si une décision incorrecteest prise par le dispositif de décision, alors cette erreur se propage dans les décisions futures à cause de la rétroaction. Ainsi, les erreurs peuvent arriver en bloc. Cependant, il est montré que cette propagation n'est pas catastrophique. Figure 4.7 Égaliseur PMC à retour de d&cisions. 4.1.2 Capacitéde classification 4.1.2.1 Le perceptron unicouche Le perceptron unicouche à un neurone ne peut distinguer qu'entre deux catégories qui sont linéairement séparables dans l'espace: c'est-&-direque si on place géométriquement les vecteurs d'entrée dans un espace vecoriel de dimension arbitrairen,il doit exister un hyperplan de n dimensionsqui sCparecesprototypes en 2 groupes.Tous les vecteursde la 1'" classe seront
  77. 77. Chapitre4: Algonihmes adaptatifs pour IOPgalisationneuronale non-lin4uire d'un côté de I'hyperplan, et tous ceux de la 2'me classe seront de l'autre côté. Afin de pouvoir distinguer entre plusieurs catégories, il faut accroître le nombre de neurones. Le perceptron est donc un discriminant linéaire, car les frontières de décision entre catégories sont des hyperplans (ou une droite dans le cas simple de 2 dimensions) p u d 731. 4.1.2.2 Le perceptronmulticouche Si on veut pouvoir distinguer entre des catégories qui ne sont pas linéairement séparables dans l'espace, il faut que le réseau ait au moins deux couches. Ainsi, un RNA multicouche avec un certainnombrede neuronespeutclassifierdesdonnéescommeappartenant à plusieurs catégories dont les frontières géométriques sont non-linéaires: on parle alors de discriminant non-linéaire. Le Théorème Universel d'Approximation. présenté ci-dessous, affirme qu'un PMC peut réaliser des frontières de décision arbitrairement complexes [Cyb 891, [Fun 891, [Hor 891. Théorème Universeld'Approximation (TUA) *Soirf() unefonction non-constante, bornée, monotone croissante et continue. * Soit IN l'hypercube unitaire de dimension N. * Soit C(IN)l'ensemble desfonctions continues défnies sur IN Alors, pour toutefonction f appartenant à C(l,v),il existe un entier NI et des constantes a,,6 ,w,, avec i = 1. 2, ...,NIetj = 1, 2, ....N telles quef puisse être approxinzéepar de tellefaçon que : pour tous lul, u2, ...,uN] appartenant àIN,etpour & arbitrairementpetit. Ce théorème est directement applicableà un PMC ayant: N entrées XI, x ~ ,...,xw Une seule couche cachée avec NIneurones. de poids wil.wiz.....w , ~ .avec i
  78. 78. Chapitre 4: Algorithmes aahptatifs pour 1'&a fisution neuronale non-finduire = 1, 2, .S., N*. Une couche de sortie possédant un seul neurone. Il faut noter que le TUA indique uniquement I'existence d'une fonction aux propriétés précé- dentes: il ne donne pas d'indications sur la façon de l'optimiser. Pour approximer une fonction avec un PMC,il est en général plus aisé d'utiliser au moins 2 couches cachées. Cependant, vu que la complexité du système augmente avec le nombre de couches, on décide habituellementde limiter le nombrede couchescachées à 2, pour obtenir un PMC avec 3 couches au total, Le PMC comme approximation du discriminant optimal de Bayes Il est démontré dans [Ruc 901que le PMC peut approximer le discriminant optimal de Bayes. On présentera le cas où l'on est confronté E deux classes uniquement, dont les éléments prennent les valeurs 1 ou -1. Commençons par un rappel sur la règle de Bayes. Le discriminant optimal de Bayes Considérons les définitions suivantes: - x :élément à être classifié. - Cl,C2 :2 classes distinctes. CIcomprend les x = 1,et Ct lesx =-1. - P(Ci):probabilité a priori de Ci,i =1. 2. - P(Cik):probabilité que x appartienne à Ci,i = 1, 2 ,étant donné son observation. - p(x) :densité de probabilité de x. - p(xlCi):densité de probabilité conditionnellede x, étant donné quex appartient à Ci,i = 1. 2. La règle de Bayes dans le cas de 2 classes s'énonce: avec i = 1,2. Dans cette définition:
  79. 79. Chapitre4: Algorithmes adbptatifs pour 1'Pgalisaiionneuronale non-liniaire Quand un échantiilonx est présenté. la probabilité de commettre une erreur sur sa classification est donnée par: P(C,lx), si on décide C2 P(eneurjx) = P(C2(x),si on décide CI Ainsi. afin de minimiser cette probabilité d'erreur. on utilise la règle de décision de Bayes sui- vante: Soit g,(x) la fonction de classification qui attribuex à Cisi: gi(x) est le discriminant de la classe Ci. On a alors: En définissant le discriminant suivant: on peut alors reformuler la règle de décision de Bayes comme suit: Décider CIsi : go(x)>0 Sinon décider C2 g,(x) est le discriminant optimal de Bayes.
  80. 80. Chapitre 4: Algorithmes adaprar~spour I 'igalisationneuronale non-linéaire On peut aussi établir la règle de décision de Bayes en fonction du risque encouru par une prise de décision. Soit: * ail'action de décider que x appartient à Ci. * cc le coût encouru par a,alors que a, entraîne la bonne classification. En particulier: - ci*est le coût encouru en décidant que x appartientà Cl, mais qu'en réalitéx appar- tient à C2 - czlest le coût encouru en décidant que x appartientà C2,mais qu'en réalitéx appar- tient à Cl Définissons: comme le risque conditionnel associé à ai. Aussi, soit: le risque zoral associé à ai.Afin de minimiser R, on calcule le risque conditionnel R(a,(x)pour chaque i,et on choisit l'action aiqui produit le plus petit R(ailx). La règle de décision de Bayes devient alors: Sinon décider C2. Si on assume que le coût de prendre une bonne décision est nulle (soit cl =~ 2 2=O), et que les cofits d'une mauvaise décision sont égaux (soit cl2 = ql).alors on retrouve la règle de Bayes dérivée précédemment. Ces suppositions peuvent être faites en toute légitimité dans le cas de l'égalisation, et on utilisera donc par la suite la règle de Bayes sans incorporation des coûts.

×