Réseaux de neurones à entrées fonctionnelles

RRééseaux de neuronesseaux de neurones àà
entrentréées fonctionnelleses fonctionnelles
Nathalie Villa (GRIMM - SMASH)
Université Toulouse Le Mirail
Séminaire SMASH
8 octobre 2004

Séminaire SMASH
8 octobre 2004
BUT DU TRAVAILBUT DU TRAVAIL
Ou comment utiliser des réseaux de
neurones en statistique fonctionnelle
???

Réseaux fonctionnels :
Mode d’emploi
But :
Discrimination
Perceptron
multi-couches
1
C1
1
CK
Y =
Régression
Perceptron
multi-couches
Y réel
Séminaire SMASH
8 octobre 2004

Exemples
1) Données de phonèmes (discrimination)
50 100 150 200 250
-5
0
5
10
15
20
25
30
[aa]
50 100 150 200 250
-5
0
5
10
15
20
25
30
[ao]
50 100 150 200 250
-5
0
5
10
15
20
[dcl]
50 100 150 200 250
-5
0
5
10
15
20
25
[iy]
50 100 150 200 250
0
5
10
15
20
25
[sh]
Séminaire SMASH
8 octobre 2004
Phonème
Enregistrements de voix

2) Données de spectrométrie
(régression)
10 20 30 40 50 60 70 80 90 100
2
2.5
3
3.5
4
4.5
5
5.5
Spectres d’absorbance
Masse de
matière
grasse
Séminaire SMASH
8 octobre 2004

Séminaire SMASH
8 octobre 2004
Le programme…
••Etat des lieux en réseaux de neuronesEtat des lieux en réseaux de neurones
fonctionnelsfonctionnels
••SIRSIR
••SIRSIR--NNNN

Séminaire SMASH
8 octobre 2004
ETAT DES LIEUX ENETAT DES LIEUX EN
RESEAUX DE NEURONESRESEAUX DE NEURONES
FONCTIONNELSFONCTIONNELS

1) Approche directe
discrétisée
en t1…tD
X w ≈ <X,w> + b Ya
∑j
jj
)t(w)t(X
m
1
biais
g
SORTIESORTIE
Séminaire SMASH
8 octobre 2004
Rossi, Conan-Guez (2002)

Représentation des fonctions de poids w :
•Représentation linéaire des poids par rapport à une
base de B-Splines, d’ondelettes, de fonctions
trigonométriques… :
•Représentation non linéaire des poids par un
perceptron multicouche multidimentionnel.
∑=
i
ii
)t(w)t(w φ
Séminaire SMASH
8 octobre 2004

2) Approche par projection
X w <PX ,w> + b Ya
∑ ><
j,i
jiij
,w ψφα
biais
g
SORTIESORTIE
projection
∑=
j
jjX
)X(P ψα
Séminaire SMASH
8 octobre 2004

Résultats
•Approximation universelle : il existe un perceptron
fonctionnel qui approche avec la précision voulue
n’importe quelle application allant d’un compact de
l’espace L² dans R.
•Consistance : les paramètres (w) et (a) qui minimisent
l’erreur empirique construite à partir d’un nombre fini
d’observations discrétisées en un nombre fini de points
convergent ps vers les paramètres optimaux
théoriques lorsque le nombre d’observations et le
nombre de points de discrétisation tendent vers l’infini.
Séminaire SMASH
8 octobre 2004

Limites
•Approche directe : la détermination des minima locaux
peut devenir lourde lorsque le nombre de points de
discrétisation augmente, particulièrement si la fonction
de poids est représentée par un perceptron multicouche.
•Approche par projection : trouver une base de projection
adaptée au problème ; le choix du type de la base ainsi
que du nombre de fonctions à y introduire n’est pas
évident à priori.
Risque de perte d’informations pertinentes.
Séminaire SMASH
8 octobre 2004

Base de projection qui dépend des données
(méthode mise en œuvre sur le jeu de
données de spectrométrie)
X
ACP
X kn
(Projection des
données sur les kn
premiers vecteurs
propres)
Perceptron
multi-couches
classique
Y
Séminaire SMASH
8 octobre 2004
Thodberg (1996)

Avantages
•Le jeu de données est simplifié ;
•La base de projection dépend des données
(procédure automatique de détermination).
Inconvénients
•La base de projection ne dépend pas de la cible mais
uniquement des variables explicatives (base de
projection non optimisée).
Risque de perte d’informations pertinentes.
•Pas de résultat de convergence démontré (méthode
empirique).
Séminaire SMASH
8 octobre 2004

Séminaire SMASH
8 octobre 2004
SIRSIR
Déterminer une base de projection
pertinente

Sliced Inverse Regression :
Le modèle
Li (1991)
),X'a,...X'a(fY q1
ε=
Pour X multidimentionnel •ε centrée et
indépendante de X
•f inconnue
•(aj)j linéairement
indépendants
Idée : Estimer par des méthodes d’algèbre linéaire
l’espace EDR (Vect{aj} ) : SIR ;
Estimer la fonction f (méthodes non paramètriques,
réseaux de neurones…).
Séminaire SMASH
8 octobre 2004

Ferré, Yao (2003)
Dauxois, Ferré, Yao (2003)
Pour X fonctionnel, ),X,a,...,X,a(fY q1
ε><><=
Théorème : (Condition de Li)
Notons A = (<a1 ,X>,…,<aq ,X>)T ; si
∀u ∈ L2, ∃ v ∈ Rq : E(<u,X> / A) = vT A
alors, E(X / Y) appartient à Vect { ΓX aj } où ΓX = E(X⊗X).
L’espace EDR s’obtient par décomposition spectrale
de l’opérateur ΓX
-1 ΓE(X / Y) .
Séminaire SMASH
8 octobre 2004
SIR Fonctionnelle (FIR)

Problème
ΓX n’est pas un opérateur borné !
ΓX
N est mal conditionné ;
Les vecteurs propres de (ΓX
N) -1 ΓN
E(X / Y) ne
convergent pas vers les vecteurs propres de ΓX
-1 ΓE(X / Y).
Solution
X
ACP
X kN
Sous certaines hypothèses techniques, les
vecteurs propres de (ΓX
kN) -1 ΓN
E(X / Y) convergent
vers (aj).
Séminaire SMASH
8 octobre 2004

Idée : On part de l’hypothèse que X fait partie d’un
ensemble de fonctions « lisses » (S) et on contraint les
vecteurs propres à appartenir également à cet espace en
pénalisant ΓX par une fonctionnelle de régularisation.
On estime ∀ f ,g∈ S,
<ΓX f,g> par Qα
N (f,g) = < ΓX
N f,g> + α [f , g]
où [f , g] =
∫τ
dt)t(gD)t(fD
22
Concrètement
Séminaire SMASH
8 octobre 2004
FIR régularisée
D’après les travaux de
Tihonov (1963) ; Leurgans, Moyeed et Silverman (1993)

Théorème : (Consistance)
Sous l’hypothèse de Li et des hypothèses techniques,
atteint son maximum sur S avec une probabilité qui tend
vers 1 lorsque N tend vers +∞.
De plus, si a1
N est le maximum de cette fonction sur S
alors
)a,a(Q
a,a
N
N
)Y/X(E
α
Γ ><
0aa),aa( N,P
1
N
11
N
1X
 →>−−< +∞→
Γ
Séminaire SMASH
8 octobre 2004
Ferré, Villa (2004)

Remarques
•Condition de Li : Li démontre que cette condition est
peu restrictive pour des vecteurs X de grande
dimension ;
•Pénalisation : L’hypothèse de régularité sur X est faite
au travers du choix de [ , ] : d’autres choix conduiraient
au même résultat de consistance ;
•Estimation de ΓE(X/Y) : L’estimateur de ΓE(X/Y) doit
converger à une vitesse . Plusieurs choix sont
possibles suivant les buts poursuivis…
N
Séminaire SMASH
8 octobre 2004

Estimation de ΓE(X/Y)
But : Régression
Estimateur par tranchage du support : pour une partition
(Ih)h du support de Y,
où et
h
h
h
h
N
)Y/X(E N
N
µµΓ ∑ ⊗=
∑






∈
=
n IY
h
h
n
IN ∑






∈
=
n IY
n
h
h
h
n
IX
N
1µ
Séminaire SMASH
8 octobre 2004

Estimateur à noyau :
où
∑ =⊗==
n
^
n
^
nN
)Y/X(E
)YY/X(E)YY/X(E
N
1Γ
∑
∑ 







−








−
==
n
m
m
n
n
^
h
yY
K
h
yY
KX
)yY/X(E
Séminaire SMASH
8 octobre 2004

Discrimination
∑ =⊗==
k
^^
k
N
)Y/X(E
)kY/X(E)kY/X(EN
N
1Γ
où et ∑






=
==
n kY
n
k
^
n
IX
N
1)kY/X(E∑






=
=
n kY
k n
IN
Séminaire SMASH
8 octobre 2004

Séminaire SMASH
8 octobre 2004
Exemples (en discrimination)
1) Données simulées : « waveform data »
2 4 6 8 10 12 14 16 18 20
-4
-2
0
2
4
6
8
Classe 1
2 4 6 8 10 12 14 16 18 20
-4
-2
0
2
4
6
8
10
Classe 2
2 4 6 8 10 12 14 16 18 20
-4
-2
0
2
4
6
8
Classe 3
uh1(t)+(1-u)h2(t)+ε(t) uh1(t)+(1-u)h3(t)+ε(t) uh2(t)+(1-u)h3(t)+ε(t)
•h1(t) = max(6-|t-11|,0)
•h2(t) = h1(t-4)
•h3(t) = h1(t+4)

Méthodes comparées :
SIR régularisée + Noyau
SIR projetée + Noyau
SIR inverse généralisé (Ferré, Yao 2004) + Noyau
Ridge-PDA (Hastie, Buja, Tibschirani)
NPCD – PCA (Ferraty, Vieu)
Protocole expérimental : Sur 50 échantillons aléatoires, on
effectue la discrimination sur un échantillon
d’apprentissage et on calcule le taux d’erreur sur un
échantillon de test.
Séminaire SMASH
8 octobre 2004

Séminaire SMASH
8 octobre 2004
14 %
19 %
18 %
17 %
16 %
15 %
RPDA SIR-Nr SIR-Np NPCD-PCA SIR2-N

Séminaire SMASH
8 octobre 2004
2) Données réelles : les phonèmes
SIR projetée + Noyau
SIR pseudo-inverse (Ferré, Yao 2004) + Noyau
Protocole expérimental : Idem.

Séminaire SMASH
8 octobre 2004
8 %
9 %
10 %
11 %
SIR-Nr SIR-Np SIR2-N RPDA NPCD-PCA

Projection sur les deux
premiers vecteurs
propres SIR
régularisée
Projection sur les deux
premiers vecteurs
propres SIR projetée
Séminaire SMASH
8 octobre 2004

50 100 150 200 250
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
50 100 150 200 250
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
Espace EDR pour SIR
régularisée
Espace EDR pour SIR
projetée

Séminaire SMASH
8 octobre 2004
SIRSIR--NNNN
Où l’on reparle de réseau de
neurones…

X
SIR
{< X,aj
N >}
(Projection des
données sur
l’espace EDR
estimé)
Perceptron
multi-couches Y
Séminaire SMASH
8 octobre 2004
SIR-NN :
Le principe

Théorème : (Consistance)
Sous les hypothèses du théorème précédent et un
certain nombre d’hypothèses techniques
(qui sont, par exemple, vérifiées par un perceptron avec
comme fonction de transfert sur la couche cachée la
fonction sigmoïde et comme fonction d’erreur, l’erreur
quadratique moyenne),
les poids permettant d’obtenir l’erreur empirique
minimum convergent en probabilité vers les poids
théoriques optimaux lorsque le nombre d’observations
tend vers +∞.
Séminaire SMASH
8 octobre 2004

Avantages
•Le jeu de données est simplifié ;
•La base de projection dépend des données
(procédure automatique de détermination) ;
•La base de projection tient compte de la cible : c’est la
projection optimale des données pour le problème de
discrimination ;
•Un résultat de convergence est démontré pour
l’estimation de la base (FIR) et pour l’estimation des
poids du réseau.
Séminaire SMASH
8 octobre 2004

Simulations et exemples
1) Données de phonèmes
Séminaire SMASH
8 octobre 2004
SIR régularisée + NN
SIR projetée + NN

SIRr-NN
SIR-Noyau
SIRp-NN
R-PDA
NPCD-PCA
0.07
0.075
0.08
0.085
0.09
0.095
0.1
0.105
0.11
Séminaire SMASH
8 octobre 2004

2) Données de spectrométrie
Séminaire SMASH
8 octobre 2004
SIR régularisée + NN
SIR pseudo-inverse + NN
ACP + NN (≈ Thodberg)
NNf (Rossi, méthode projection sur Spline)
SIR + Linéaire

Séminaire SMASH
8 octobre 2004
ACP-NN NNf
SIR-NNr
SIR-NNn SIR-l

Séminaire SMASH
8 octobre 2004
Merci de votre attentionMerci de votre attention

Réseaux de neurones à entrées fonctionnelles

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (16)

Similaire à Réseaux de neurones à entrées fonctionnelles

Similaire à Réseaux de neurones à entrées fonctionnelles (20)

Plus de tuxette

Plus de tuxette (20)

Réseaux de neurones à entrées fonctionnelles