RRééseaux de neuronesseaux de neurones àà
entrentréées fonctionnelleses fonctionnelles
Nathalie Villa (GRIMM - SMASH)
Univ...
Séminaire SMASH
8 octobre 2004
BUT DU TRAVAILBUT DU TRAVAIL
Ou comment utiliser des réseaux de
neurones en statistique fon...
Réseaux fonctionnels :
Mode d’emploi
But :
Discrimination
Perceptron
multi-couches
1
C1
1
CK
Y =
Régression
Perceptron
mul...
Exemples
1) Données de phonèmes (discrimination)
50 100 150 200 250
-5
0
5
10
15
20
25
30
[aa]
50 100 150 200 250
-5
0
5
1...
2) Données de spectrométrie
(régression)
10 20 30 40 50 60 70 80 90 100
2
2.5
3
3.5
4
4.5
5
5.5
Spectres d’absorbance
Mass...
Séminaire SMASH
8 octobre 2004
Le programme…
••Etat des lieux en réseaux de neuronesEtat des lieux en réseaux de neurones
...
Séminaire SMASH
8 octobre 2004
ETAT DES LIEUX ENETAT DES LIEUX EN
RESEAUX DE NEURONESRESEAUX DE NEURONES
FONCTIONNELSFONCT...
1) Approche directe
discrétisée
en t1…tD
X w ≈ <X,w> + b Ya
∑j
jj
)t(w)t(X
m
1
biais
g
SORTIESORTIE
Séminaire SMASH
8 octo...
Représentation des fonctions de poids w :
•Représentation linéaire des poids par rapport à une
base de B-Splines, d’ondele...
2) Approche par projection
X w <PX ,w> + b Ya
∑ ><
j,i
jiij
,w ψφα
biais
g
SORTIESORTIE
projection
∑=
j
jjX
)X(P ψα
Sémina...
Résultats
•Approximation universelle : il existe un perceptron
fonctionnel qui approche avec la précision voulue
n’importe...
Limites
•Approche directe : la détermination des minima locaux
peut devenir lourde lorsque le nombre de points de
discréti...
Base de projection qui dépend des données
(méthode mise en œuvre sur le jeu de
données de spectrométrie)
X
ACP
X kn
(Proje...
Avantages
•Le jeu de données est simplifié ;
•La base de projection dépend des données
(procédure automatique de détermina...
Séminaire SMASH
8 octobre 2004
SIRSIR
Déterminer une base de projection
pertinente
Sliced Inverse Regression :
Le modèle
Li (1991)
),X'a,...X'a(fY q1
ε=
Pour X multidimentionnel •ε centrée et
indépendante ...
Ferré, Yao (2003)
Dauxois, Ferré, Yao (2003)
Pour X fonctionnel, ),X,a,...,X,a(fY q1
ε><><=
Théorème : (Condition de Li)
N...
Problème
ΓX n’est pas un opérateur borné !
ΓX
N est mal conditionné ;
Les vecteurs propres de (ΓX
N) -1 ΓN
E(X / Y) ne
con...
Idée : On part de l’hypothèse que X fait partie d’un
ensemble de fonctions « lisses » (S) et on contraint les
vecteurs pro...
Théorème : (Consistance)
Sous l’hypothèse de Li et des hypothèses techniques,
atteint son maximum sur S avec une probabili...
Remarques
•Condition de Li : Li démontre que cette condition est
peu restrictive pour des vecteurs X de grande
dimension ;...
Estimation de ΓE(X/Y)
But : Régression
Estimateur par tranchage du support : pour une partition
(Ih)h du support de Y,
où ...
Estimateur à noyau :
où
∑ =⊗==
n
^
n
^
nN
)Y/X(E
)YY/X(E)YY/X(E
N
1Γ
∑
∑ 







−








−
==
n
m
m
n
n
...
Discrimination
∑ =⊗==
k
^^
k
N
)Y/X(E
)kY/X(E)kY/X(EN
N
1Γ
où et ∑






=
==
n kY
n
k
^
n
IX
N
1)kY/X(E∑





...
Ferré, Villa (2005)
Séminaire SMASH
8 octobre 2004
Exemples (en discrimination)
1) Données simulées : « waveform data »
2 ...
Méthodes comparées :
SIR régularisée + Noyau
SIR projetée + Noyau
SIR inverse généralisé (Ferré, Yao 2004) + Noyau
Ridge-P...
Séminaire SMASH
8 octobre 2004
14 %
19 %
18 %
17 %
16 %
15 %
RPDA SIR-Nr SIR-Np NPCD-PCA SIR2-N
Séminaire SMASH
8 octobre 2004
2) Données réelles : les phonèmes
Méthodes comparées :
SIR régularisée + Noyau
SIR projetée...
Séminaire SMASH
8 octobre 2004
8 %
9 %
10 %
11 %
SIR-Nr SIR-Np SIR2-N RPDA NPCD-PCA
Projection sur les deux
premiers vecteurs
propres SIR
régularisée
Projection sur les deux
premiers vecteurs
propres SIR pr...
50 100 150 200 250
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
50 100 150 200 250
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04...
Séminaire SMASH
8 octobre 2004
SIRSIR--NNNN
Où l’on reparle de réseau de
neurones…
X
SIR
{< X,aj
N >}
(Projection des
données sur
l’espace EDR
estimé)
Perceptron
multi-couches Y
Séminaire SMASH
8 octobre 2...
Théorème : (Consistance)
Sous les hypothèses du théorème précédent et un
certain nombre d’hypothèses techniques
(qui sont,...
Avantages
•Le jeu de données est simplifié ;
•La base de projection dépend des données
(procédure automatique de détermina...
Simulations et exemples
1) Données de phonèmes
Séminaire SMASH
8 octobre 2004
Méthodes comparées :
SIR régularisée + NN
SI...
SIRr-NN
SIR-Noyau
SIRp-NN
R-PDA
NPCD-PCA
0.07
0.075
0.08
0.085
0.09
0.095
0.1
0.105
0.11
Séminaire SMASH
8 octobre 2004
2) Données de spectrométrie
Séminaire SMASH
8 octobre 2004
Méthodes comparées :
SIR régularisée + NN
SIR pseudo-inverse + ...
Séminaire SMASH
8 octobre 2004
ACP-NN NNf
SIR-NNr
SIR-NNn SIR-l
Séminaire SMASH
8 octobre 2004
Merci de votre attentionMerci de votre attention
Prochain SlideShare
Chargement dans…5
×

Réseaux de neurones à entrées fonctionnelles

539 vues

Publié le

Séminaire GRIMM/SMASH, Université Toulouse 2 (Le Mirail), France
October, 8th, 2004

Publié dans : Sciences
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
539
Sur SlideShare
0
Issues des intégrations
0
Intégrations
20
Actions
Partages
0
Téléchargements
34
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Réseaux de neurones à entrées fonctionnelles

  1. 1. RRééseaux de neuronesseaux de neurones àà entrentréées fonctionnelleses fonctionnelles Nathalie Villa (GRIMM - SMASH) Université Toulouse Le Mirail Séminaire SMASH 8 octobre 2004
  2. 2. Séminaire SMASH 8 octobre 2004 BUT DU TRAVAILBUT DU TRAVAIL Ou comment utiliser des réseaux de neurones en statistique fonctionnelle ???
  3. 3. Réseaux fonctionnels : Mode d’emploi But : Discrimination Perceptron multi-couches 1 C1 1 CK Y = Régression Perceptron multi-couches Y réel Séminaire SMASH 8 octobre 2004
  4. 4. Exemples 1) Données de phonèmes (discrimination) 50 100 150 200 250 -5 0 5 10 15 20 25 30 [aa] 50 100 150 200 250 -5 0 5 10 15 20 25 30 [ao] 50 100 150 200 250 -5 0 5 10 15 20 [dcl] 50 100 150 200 250 -5 0 5 10 15 20 25 [iy] 50 100 150 200 250 0 5 10 15 20 25 [sh] Séminaire SMASH 8 octobre 2004 Phonème Enregistrements de voix
  5. 5. 2) Données de spectrométrie (régression) 10 20 30 40 50 60 70 80 90 100 2 2.5 3 3.5 4 4.5 5 5.5 Spectres d’absorbance Masse de matière grasse Séminaire SMASH 8 octobre 2004
  6. 6. Séminaire SMASH 8 octobre 2004 Le programme… ••Etat des lieux en réseaux de neuronesEtat des lieux en réseaux de neurones fonctionnelsfonctionnels ••SIRSIR ••SIRSIR--NNNN
  7. 7. Séminaire SMASH 8 octobre 2004 ETAT DES LIEUX ENETAT DES LIEUX EN RESEAUX DE NEURONESRESEAUX DE NEURONES FONCTIONNELSFONCTIONNELS
  8. 8. 1) Approche directe discrétisée en t1…tD X w ≈ <X,w> + b Ya ∑j jj )t(w)t(X m 1 biais g SORTIESORTIE Séminaire SMASH 8 octobre 2004 Rossi, Conan-Guez (2002)
  9. 9. Représentation des fonctions de poids w : •Représentation linéaire des poids par rapport à une base de B-Splines, d’ondelettes, de fonctions trigonométriques… : •Représentation non linéaire des poids par un perceptron multicouche multidimentionnel. ∑= i ii )t(w)t(w φ Séminaire SMASH 8 octobre 2004
  10. 10. 2) Approche par projection X w <PX ,w> + b Ya ∑ >< j,i jiij ,w ψφα biais g SORTIESORTIE projection ∑= j jjX )X(P ψα Séminaire SMASH 8 octobre 2004
  11. 11. Résultats •Approximation universelle : il existe un perceptron fonctionnel qui approche avec la précision voulue n’importe quelle application allant d’un compact de l’espace L² dans R. •Consistance : les paramètres (w) et (a) qui minimisent l’erreur empirique construite à partir d’un nombre fini d’observations discrétisées en un nombre fini de points convergent ps vers les paramètres optimaux théoriques lorsque le nombre d’observations et le nombre de points de discrétisation tendent vers l’infini. Séminaire SMASH 8 octobre 2004
  12. 12. Limites •Approche directe : la détermination des minima locaux peut devenir lourde lorsque le nombre de points de discrétisation augmente, particulièrement si la fonction de poids est représentée par un perceptron multicouche. •Approche par projection : trouver une base de projection adaptée au problème ; le choix du type de la base ainsi que du nombre de fonctions à y introduire n’est pas évident à priori. Risque de perte d’informations pertinentes. Séminaire SMASH 8 octobre 2004
  13. 13. Base de projection qui dépend des données (méthode mise en œuvre sur le jeu de données de spectrométrie) X ACP X kn (Projection des données sur les kn premiers vecteurs propres) Perceptron multi-couches classique Y Séminaire SMASH 8 octobre 2004 Thodberg (1996)
  14. 14. Avantages •Le jeu de données est simplifié ; •La base de projection dépend des données (procédure automatique de détermination). Inconvénients •La base de projection ne dépend pas de la cible mais uniquement des variables explicatives (base de projection non optimisée). Risque de perte d’informations pertinentes. •Pas de résultat de convergence démontré (méthode empirique). Séminaire SMASH 8 octobre 2004
  15. 15. Séminaire SMASH 8 octobre 2004 SIRSIR Déterminer une base de projection pertinente
  16. 16. Sliced Inverse Regression : Le modèle Li (1991) ),X'a,...X'a(fY q1 ε= Pour X multidimentionnel •ε centrée et indépendante de X •f inconnue •(aj)j linéairement indépendants Idée : Estimer par des méthodes d’algèbre linéaire l’espace EDR (Vect{aj} ) : SIR ; Estimer la fonction f (méthodes non paramètriques, réseaux de neurones…). Séminaire SMASH 8 octobre 2004
  17. 17. Ferré, Yao (2003) Dauxois, Ferré, Yao (2003) Pour X fonctionnel, ),X,a,...,X,a(fY q1 ε><><= Théorème : (Condition de Li) Notons A = (<a1 ,X>,…,<aq ,X>)T ; si ∀u ∈ L2, ∃ v ∈ Rq : E(<u,X> / A) = vT A alors, E(X / Y) appartient à Vect { ΓX aj } où ΓX = E(X⊗X). L’espace EDR s’obtient par décomposition spectrale de l’opérateur ΓX -1 ΓE(X / Y) . Séminaire SMASH 8 octobre 2004 SIR Fonctionnelle (FIR)
  18. 18. Problème ΓX n’est pas un opérateur borné ! ΓX N est mal conditionné ; Les vecteurs propres de (ΓX N) -1 ΓN E(X / Y) ne convergent pas vers les vecteurs propres de ΓX -1 ΓE(X / Y). Solution X ACP X kN Sous certaines hypothèses techniques, les vecteurs propres de (ΓX kN) -1 ΓN E(X / Y) convergent vers (aj). Séminaire SMASH 8 octobre 2004
  19. 19. Idée : On part de l’hypothèse que X fait partie d’un ensemble de fonctions « lisses » (S) et on contraint les vecteurs propres à appartenir également à cet espace en pénalisant ΓX par une fonctionnelle de régularisation. On estime ∀ f ,g∈ S, <ΓX f,g> par Qα N (f,g) = < ΓX N f,g> + α [f , g] où [f , g] = ∫τ dt)t(gD)t(fD 22 Concrètement Séminaire SMASH 8 octobre 2004 FIR régularisée D’après les travaux de Tihonov (1963) ; Leurgans, Moyeed et Silverman (1993)
  20. 20. Théorème : (Consistance) Sous l’hypothèse de Li et des hypothèses techniques, atteint son maximum sur S avec une probabilité qui tend vers 1 lorsque N tend vers +∞. De plus, si a1 N est le maximum de cette fonction sur S alors )a,a(Q a,a N N )Y/X(E α Γ >< 0aa),aa( N,P 1 N 11 N 1X  →>−−< +∞→ Γ Séminaire SMASH 8 octobre 2004 Ferré, Villa (2004)
  21. 21. Remarques •Condition de Li : Li démontre que cette condition est peu restrictive pour des vecteurs X de grande dimension ; •Pénalisation : L’hypothèse de régularité sur X est faite au travers du choix de [ , ] : d’autres choix conduiraient au même résultat de consistance ; •Estimation de ΓE(X/Y) : L’estimateur de ΓE(X/Y) doit converger à une vitesse . Plusieurs choix sont possibles suivant les buts poursuivis… N Séminaire SMASH 8 octobre 2004
  22. 22. Estimation de ΓE(X/Y) But : Régression Estimateur par tranchage du support : pour une partition (Ih)h du support de Y, où et h h h h N )Y/X(E N N µµΓ ∑ ⊗= ∑       ∈ = n IY h h n IN ∑       ∈ = n IY n h h h n IX N 1µ Séminaire SMASH 8 octobre 2004
  23. 23. Estimateur à noyau : où ∑ =⊗== n ^ n ^ nN )Y/X(E )YY/X(E)YY/X(E N 1Γ ∑ ∑         −         − == n m m n n ^ h yY K h yY KX )yY/X(E Séminaire SMASH 8 octobre 2004
  24. 24. Discrimination ∑ =⊗== k ^^ k N )Y/X(E )kY/X(E)kY/X(EN N 1Γ où et ∑       = == n kY n k ^ n IX N 1)kY/X(E∑       = = n kY k n IN Séminaire SMASH 8 octobre 2004
  25. 25. Ferré, Villa (2005) Séminaire SMASH 8 octobre 2004 Exemples (en discrimination) 1) Données simulées : « waveform data » 2 4 6 8 10 12 14 16 18 20 -4 -2 0 2 4 6 8 Classe 1 2 4 6 8 10 12 14 16 18 20 -4 -2 0 2 4 6 8 10 Classe 2 2 4 6 8 10 12 14 16 18 20 -4 -2 0 2 4 6 8 Classe 3 uh1(t)+(1-u)h2(t)+ε(t) uh1(t)+(1-u)h3(t)+ε(t) uh2(t)+(1-u)h3(t)+ε(t) •h1(t) = max(6-|t-11|,0) •h2(t) = h1(t-4) •h3(t) = h1(t+4)
  26. 26. Méthodes comparées : SIR régularisée + Noyau SIR projetée + Noyau SIR inverse généralisé (Ferré, Yao 2004) + Noyau Ridge-PDA (Hastie, Buja, Tibschirani) NPCD – PCA (Ferraty, Vieu) Protocole expérimental : Sur 50 échantillons aléatoires, on effectue la discrimination sur un échantillon d’apprentissage et on calcule le taux d’erreur sur un échantillon de test. Séminaire SMASH 8 octobre 2004
  27. 27. Séminaire SMASH 8 octobre 2004 14 % 19 % 18 % 17 % 16 % 15 % RPDA SIR-Nr SIR-Np NPCD-PCA SIR2-N
  28. 28. Séminaire SMASH 8 octobre 2004 2) Données réelles : les phonèmes Méthodes comparées : SIR régularisée + Noyau SIR projetée + Noyau SIR pseudo-inverse (Ferré, Yao 2004) + Noyau Ridge-PDA (Hastie, Buja, Tibschirani) NPCD – PCA (Ferraty, Vieu) Protocole expérimental : Idem.
  29. 29. Séminaire SMASH 8 octobre 2004 8 % 9 % 10 % 11 % SIR-Nr SIR-Np SIR2-N RPDA NPCD-PCA
  30. 30. Projection sur les deux premiers vecteurs propres SIR régularisée Projection sur les deux premiers vecteurs propres SIR projetée Séminaire SMASH 8 octobre 2004
  31. 31. 50 100 150 200 250 -0.03 -0.02 -0.01 0 0.01 0.02 0.03 0.04 0.05 50 100 150 200 250 -0.03 -0.02 -0.01 0 0.01 0.02 0.03 0.04 0.05 Espace EDR pour SIR régularisée Espace EDR pour SIR projetée
  32. 32. Séminaire SMASH 8 octobre 2004 SIRSIR--NNNN Où l’on reparle de réseau de neurones…
  33. 33. X SIR {< X,aj N >} (Projection des données sur l’espace EDR estimé) Perceptron multi-couches Y Séminaire SMASH 8 octobre 2004 SIR-NN : Le principe
  34. 34. Théorème : (Consistance) Sous les hypothèses du théorème précédent et un certain nombre d’hypothèses techniques (qui sont, par exemple, vérifiées par un perceptron avec comme fonction de transfert sur la couche cachée la fonction sigmoïde et comme fonction d’erreur, l’erreur quadratique moyenne), les poids permettant d’obtenir l’erreur empirique minimum convergent en probabilité vers les poids théoriques optimaux lorsque le nombre d’observations tend vers +∞. Séminaire SMASH 8 octobre 2004 Ferré, Villa (2004)
  35. 35. Avantages •Le jeu de données est simplifié ; •La base de projection dépend des données (procédure automatique de détermination) ; •La base de projection tient compte de la cible : c’est la projection optimale des données pour le problème de discrimination ; •Un résultat de convergence est démontré pour l’estimation de la base (FIR) et pour l’estimation des poids du réseau. Séminaire SMASH 8 octobre 2004
  36. 36. Simulations et exemples 1) Données de phonèmes Séminaire SMASH 8 octobre 2004 Méthodes comparées : SIR régularisée + NN SIR régularisée + Noyau SIR projetée + NN Ridge-PDA (Hastie, Buja, Tibschirani) NPCD – PCA (Ferraty, Vieu) Protocole expérimental : Idem.
  37. 37. SIRr-NN SIR-Noyau SIRp-NN R-PDA NPCD-PCA 0.07 0.075 0.08 0.085 0.09 0.095 0.1 0.105 0.11 Séminaire SMASH 8 octobre 2004
  38. 38. 2) Données de spectrométrie Séminaire SMASH 8 octobre 2004 Méthodes comparées : SIR régularisée + NN SIR pseudo-inverse + NN ACP + NN (≈ Thodberg) NNf (Rossi, méthode projection sur Spline) SIR + Linéaire Protocole expérimental : Idem.
  39. 39. Séminaire SMASH 8 octobre 2004 ACP-NN NNf SIR-NNr SIR-NNn SIR-l
  40. 40. Séminaire SMASH 8 octobre 2004 Merci de votre attentionMerci de votre attention

×