Séminaire SAMOS
4 février 2005
RRééseaux de neurones et SVMseaux de neurones et SVM
àà entrentréées fonctionnelles : unees...
Séminaire SAMOS
4 février 2005
OBJECTIFSOBJECTIFS
ObjectifsObjectifs
Trouver une base de projection optimaleTrouver une ba...
Séminaire SAMOS
4 février 2005
L’analyse de données
fonctionnelles
1) Données de phonèmes
(discrimination)
50 100 150 200 ...
Séminaire SAMOS
4 février 2005
2) Données de spectrométrie
(régression)
10 20 30 40 50 60 70 80 90 100
2
2.5
3
3.5
4
4.5
5...
Séminaire SAMOS
4 février 2005
Contexte théorique
• X ∈ (H,<.,.>) (espace de Hilbert ; typiquement
H=L2)
• On dispose de N...
Séminaire SAMOS
4 février 2005
Problèmes habituels liés
à ce cadre
• Problèmes d’inversion d’opérateurs
Exemple : dans le ...
Séminaire SAMOS
4 février 2005
Contexte pratique
• Les observations : (X1 ,Y1),…(XN ,YN) ne sont connues qu’au
travers d’u...
Séminaire SAMOS
4 février 2005
Quelques outils
habituels de résolution
• Projection des données sur un espace de
dimension...
Séminaire SAMOS
4 février 2005
– sur une base B-Spline
Voir : Rossi et Conan-Guez (2004)
• Régularisation : on impose aux ...
Séminaire SAMOS
4 février 2005
TROUVER UNE BASE DETROUVER UNE BASE DE
PROJECTION OPTIMALEPROJECTION OPTIMALE
ObjectifsObje...
Séminaire SAMOS
4 février 2005
Principaux avantages de
l’approche proposée
• On détermine une base de projection qui dépen...
Séminaire SAMOS
4 février 2005
Fonctional Inverse
Regression : le modèle
Pour X ∈ L2, on suppose que
Y = f (<X,a1>,…,<X,aq...
Séminaire SAMOS
4 février 2005
Consistance
Théorème : Sous les hypothèses
– E(||X||4) < +∞
– ∀ α > 0, inf{<ΓX
Na,a> + α [a...
Séminaire SAMOS
4 février 2005
Remarques
• Condition de Li peu restrictive pour les vecteurs de
grande dimension
• FIR peu...
Séminaire SAMOS
4 février 2005
Exemple : phonèmes
• Méthodes comparées :
– SIR régularisée + Noyau
– SIR projetée + Noyau
...
Séminaire SAMOS
4 février 2005
11 %
10 %
9 %
8 %
SIR2-N RPDA NPCD-PCASIR-Nr SIR-Np
Séminaire SAMOS
4 février 2005
Projection sur les deux
premiers vecteurs
propres SIR
régularisée
Projection sur les deux
p...
Séminaire SAMOS
4 février 2005
50 100 150 200 250
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
50 100 150 200 250
-0.03
-0...
Séminaire SAMOS
4 février 2005
RESEAUX DE NEURONESRESEAUX DE NEURONES
FONCTIONNELSFONCTIONNELS
ObjectifsObjectifsObjectifs...
Séminaire SAMOS
4 février 2005
Principe de FIR-NN
X Y = f (<X,a1>,…,<X,aq>,ε)
FIR
{<X,âj >}j=1…q
Perceptron
multi-couches ...
Séminaire SAMOS
4 février 2005
Consistance
Sous les hypothèses du théorème précédent et
d’un certain nombre d’hypothèses t...
Séminaire SAMOS
4 février 2005
Exemple : Tecator data
• Méthodes comparées :
– SIR régularisée + NN
– SIR pseudo-inverse +...
Séminaire SAMOS
4 février 2005
ACP-NN NNf
SIR-NNr
SIR-NNn SIR-l
Séminaire SAMOS
4 février 2005
SVM FONCTIONNELSSVM FONCTIONNELS
ObjectifsObjectifsObjectifs
Trouver une base de projection...
Séminaire SAMOS
4 février 2005
Principe SVM
Φ (non linéaire)
x1,…, xN ∈ H Espace image
(grande dimension)
z1,…,zN
Séminaire SAMOS
4 février 2005
Formulation
mathématique
• On cherche à minimiser ½ ||w||² sous la contrainte
yi (<zi , w> ...
Séminaire SAMOS
4 février 2005
Solution
• La classification se fait selon l’hyperplan
d’équation
sign(<z,w*>+b),
où w* = α...
Séminaire SAMOS
4 février 2005
Problèmes spécifiques
du cas fonctionnel
• Dans un espace de dimension infinie, il y a
touj...
Séminaire SAMOS
4 février 2005
FIR + SVM pour
classification
X ∈H
FIR
<X,â1>,…, <X,âq>
Y = f (<X,a1>,…,<X,aq>,ε)
Φ(non lin...
Séminaire SAMOS
4 février 2005
Exemple sur données
simulées : waveform
2 4 6 8 10 12 14 16 18 20
-4
-2
0
2
4
6
8
Classe 1
...
Séminaire SAMOS
4 février 2005
Méthodologie
• Méthodes comparées :
– SIR + SVM RBF
– SVM RBF sur la discrétisation
– Ridge...
Séminaire SAMOS
4 février 2005
Résultats
12,3712,4710,1711,73
Moyenne
(app)
1212,612,2010,20
Minimum
(test)
2,012,053,042,...
Séminaire SAMOS
4 février 2005
Conclusion et
perspectives
• FIR permet une approche semi-paramétrique pour
l’implémentatio...
Séminaire SAMOS
4 février 2005
Bibliographie (1)
• Leurgans, Moyeed and Silverman (1993) Canonical
Correlation Analysis wh...
Séminaire SAMOS
4 février 2005
Bibliographie (2)
• Cardot, Ferraty and Sarda (1999) Functional Linear Model,
Statistics an...
Séminaire SAMOS
4 février 2005
Bibliographie (3)
• Hastie, Buja and Tibshirani (1995) Penalized discriminant
analysis, Ann...
Séminaire SAMOS
4 février 2005
Merci de votre attentionMerci de votre attention
Séminaire SAMOS
4 février 2005
Annexe 1 : Opérateurs
hilbertiens
• Espérance de X ∈ H : ∀ u ∈ H, E(<X,u>)=<E(X),u>
(théorè...
Prochain SlideShare
Chargement dans…5
×

Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

596 vues

Publié le

Séminaire du SAMOS, Université Paris I, France
February 4th, 2005

Publié dans : Sciences
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
596
Sur SlideShare
0
Issues des intégrations
0
Intégrations
20
Actions
Partages
0
Téléchargements
22
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

  1. 1. Séminaire SAMOS 4 février 2005 RRééseaux de neurones et SVMseaux de neurones et SVM àà entrentréées fonctionnelles : unees fonctionnelles : une approche par rapproche par réégressiongression inverseinverse Nathalie Villa (GRIMM - SMASH) Université Toulouse Le Mirail
  2. 2. Séminaire SAMOS 4 février 2005 OBJECTIFSOBJECTIFS ObjectifsObjectifs Trouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnels SVM fonctionnelsSVM fonctionnelsSVM fonctionnels
  3. 3. Séminaire SAMOS 4 février 2005 L’analyse de données fonctionnelles 1) Données de phonèmes (discrimination) 50 100 150 200 250 -5 0 5 10 15 20 25 30 [aa] 50 100 150 200 250 -5 0 5 10 15 20 25 30 [ao] Enregistrements de voix 50 100 150 200 250 -5 0 5 10 15 20 [dcl] 50 100 150 200 250 -5 0 5 10 15 20 25 [iy] 50 100 150 200 250 0 5 10 15 20 25 [sh] Phonème
  4. 4. Séminaire SAMOS 4 février 2005 2) Données de spectrométrie (régression) 10 20 30 40 50 60 70 80 90 100 2 2.5 3 3.5 4 4.5 5 5.5 Spectres d’absorbance Masse de matière grasse
  5. 5. Séminaire SAMOS 4 février 2005 Contexte théorique • X ∈ (H,<.,.>) (espace de Hilbert ; typiquement H=L2) • On dispose de N observations : (X1 ,Y1),…(XN ,YN) et on cherche à estimer E(Y / X) par perceptron multi-couches, par SVM… Perceptron multi-couches, SVM 1 C1 1 CK Y = Y réel
  6. 6. Séminaire SAMOS 4 février 2005 Problèmes habituels liés à ce cadre • Problèmes d’inversion d’opérateurs Exemple : dans le modèle linéaire fonctionnel Y = <ψ , X> + ε, on a la relation ΓXY = ΓX ψ mais l’opérateur ΓX n’est pas borné et n’a donc pas d’inverse continu même lorsqu’il est bijectif. •Problèmes liés à l’existence de trop de solutions à une équation donnée (problèmes mal posés) Exemple : en AFD, on recherche a ∈ H qui maximise Cor(<a,X>,Y) ; étant donnés des exemples (X1,Y1),…, (XN,YN), on peut toujours trouver une infinité de a ∈ H tel que Cor({<a,Xk>,Yk }k=1..N) = 1 Voir : Leurgans, Moyeed and Silverman (1993)
  7. 7. Séminaire SAMOS 4 février 2005 Contexte pratique • Les observations : (X1 ,Y1),…(XN ,YN) ne sont connues qu’au travers d’une discrétisation aux points t1,…,tD ⇒ connaissance imparfaite des observations : il faut approcher les opérations usuelles (produit scalaire…) Voir : Rossi et Conan-Guez (2004) ⇒ nécessité de trouver un mode de représentation approprié des paramètres fonctionnels du modèle étudié Exemple : pour les perceptrons multi-couches, on cherchera à trouver une représentation adéquate des poids fonctionnels du réseau ⇒ travailler dans RD est habituellement une mauvaise idée… ! (variables de grandes dimensions et fortement corrélées, matrices mal conditionnées…)
  8. 8. Séminaire SAMOS 4 février 2005 Quelques outils habituels de résolution • Projection des données sur un espace de dimension finie (d) puis travail habituel dans Rd – sur une base ACP Voir : Bosq (1991) (Processus AR), Cardot, Ferraty et Sarda (1999) (Modèle Linéaire) Thodberg (1996) (Perceptron multi-couches) – sur une base orthonormée de L2 (base trigonométrique, par exemple) Voir : Biau, Bunea, Wegkamp (2004) (k Plus Proches Voisins)
  9. 9. Séminaire SAMOS 4 février 2005 – sur une base B-Spline Voir : Rossi et Conan-Guez (2004) • Régularisation : on impose aux estimateurs certaines conditions de régularité Voir : Leurgans, Moyeed and Silverman (1993) (Analyse Canonique)
  10. 10. Séminaire SAMOS 4 février 2005 TROUVER UNE BASE DETROUVER UNE BASE DE PROJECTION OPTIMALEPROJECTION OPTIMALE ObjectifsObjectifsObjectifs Trouver une base de projection optimaleTrouver une base de projection optimale Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnels SVM fonctionnelsSVM fonctionnelsSVM fonctionnels
  11. 11. Séminaire SAMOS 4 février 2005 Principaux avantages de l’approche proposée • On détermine une base de projection qui dépend : – des données (procédure automatique de détermination), – de la cible Y (la base est exactement adaptée au but poursuivi). • On projette les données sur cette base avant de les traiter par réseaux de neurones – le vecteur d’entrée est de faible dimension (traitement rapide). • On dispose d’un résultat qui assure la convergence des paramètres empiriques vers les poids optimaux théoriques du perceptron.
  12. 12. Séminaire SAMOS 4 février 2005 Fonctional Inverse Regression : le modèle Pour X ∈ L2, on suppose que Y = f (<X,a1>,…,<X,aq>,ε) (Condition de Li) Alors, E(Y/X) appartient à Vect{ΓXaj} et l’espace EDR (Vect{aj}) s’obtient par décomposition spectrale de l’opérateur ΓX -1 ΓE(Y/X). Problème : ΓX n’est pas inversible donc les vecteurs propres de (ΓX N)-1 ΓN E(Y/X) ne convergent pas vers les vecteurs propres de ΓX -1 ΓE(Y/X). ⇒ On estime ΓX par ΓX N + α [.,.] où [.,.] est un terme de pénalisation destiné à régulariser les estimateurs â1,…,âq.
  13. 13. Séminaire SAMOS 4 février 2005 Consistance Théorème : Sous les hypothèses – E(||X||4) < +∞ – ∀ α > 0, inf{<ΓX Na,a> + α [a,a] : ||a||=1} = ρα > 0 – limN→+∞ α = 0 et limN→+∞ Nα² = +∞ – Les valeurs propres de ΓX sont distinctes La probabilité que ΓE(X/Y) N admette un maximum sur inf{ΓX N + α [a,a] : ||a||=1} tend vers 1 et ce maximum a1 N converge en probabilité vers a1 Voir : Ferré et Villa (2005a)
  14. 14. Séminaire SAMOS 4 février 2005 Remarques • Condition de Li peu restrictive pour les vecteurs de grande dimension • FIR peut être utilisée pour des problèmes de régression et des problèmes de discrimination • De manière pratique, on a choisi [f,g] = <D²f,D²g>
  15. 15. Séminaire SAMOS 4 février 2005 Exemple : phonèmes • Méthodes comparées : – SIR régularisée + Noyau – SIR projetée + Noyau – SIR pseudo-inverse + Noyau – Ridge-PDA Voir : Hastie, Buja, Tibshirani (1995) – NPCD – PCA Voir : Ferraty, Vieu (2003) • Protocole expérimental : Sur 50 échantillons aléatoires, on effectue la discrimination sur un échantillon d’apprentissage et on calcule le taux d’erreur sur un échantillon de test.
  16. 16. Séminaire SAMOS 4 février 2005 11 % 10 % 9 % 8 % SIR2-N RPDA NPCD-PCASIR-Nr SIR-Np
  17. 17. Séminaire SAMOS 4 février 2005 Projection sur les deux premiers vecteurs propres SIR régularisée Projection sur les deux premiers vecteurs propres SIR projetée
  18. 18. Séminaire SAMOS 4 février 2005 50 100 150 200 250 -0.03 -0.02 -0.01 0 0.01 0.02 0.03 0.04 0.05 50 100 150 200 250 -0.03 -0.02 -0.01 0 0.01 0.02 0.03 0.04 0.05 Espace EDR pour SIR régularisée Espace EDR pour SIR projetée
  19. 19. Séminaire SAMOS 4 février 2005 RESEAUX DE NEURONESRESEAUX DE NEURONES FONCTIONNELSFONCTIONNELS ObjectifsObjectifsObjectifs Trouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnels SVM fonctionnelsSVM fonctionnelsSVM fonctionnels
  20. 20. Séminaire SAMOS 4 février 2005 Principe de FIR-NN X Y = f (<X,a1>,…,<X,aq>,ε) FIR {<X,âj >}j=1…q Perceptron multi-couches Y Estimation de f (Projection des données sur une estimation de l’espace EDR)
  21. 21. Séminaire SAMOS 4 février 2005 Consistance Sous les hypothèses du théorème précédent et d’un certain nombre d’hypothèses techniques, les poids permettant d’obtenir l’erreur empirique minimum convergent en probabilité vers les poids théoriques lorsque le nombre d’observations tend vers +∞.
  22. 22. Séminaire SAMOS 4 février 2005 Exemple : Tecator data • Méthodes comparées : – SIR régularisée + NN – SIR pseudo-inverse + NN – ACP + NN – NNf (par projection sur Spline) – SIR + Linéaire • Protocole expérimental : Sur 50 échantillons aléatoires, on effectue la discrimination sur un échantillon d’apprentissage et on calcule le taux d’erreur sur un échantillon de test.
  23. 23. Séminaire SAMOS 4 février 2005 ACP-NN NNf SIR-NNr SIR-NNn SIR-l
  24. 24. Séminaire SAMOS 4 février 2005 SVM FONCTIONNELSSVM FONCTIONNELS ObjectifsObjectifsObjectifs Trouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnels SVM fonctionnelsSVM fonctionnels
  25. 25. Séminaire SAMOS 4 février 2005 Principe SVM Φ (non linéaire) x1,…, xN ∈ H Espace image (grande dimension) z1,…,zN
  26. 26. Séminaire SAMOS 4 février 2005 Formulation mathématique • On cherche à minimiser ½ ||w||² sous la contrainte yi (<zi , w> + b) ≥ 1, ∀i = 1,…,N • Ceci se met sous la forme duale : maximiser αi – αi αj yiyj <zi , zj> sous la contrainte αi ≥ 0, ∀i = 1,…,N • zi = Φ(xi) où < Φ(x) , Φ(x’)> = K(z,z’) (théorème de Moore-Aronszajn) ∑= N i 1 ∑= N i 1
  27. 27. Séminaire SAMOS 4 février 2005 Solution • La classification se fait selon l’hyperplan d’équation sign(<z,w*>+b), où w* = αi * yi zi et où seuls un « petit » nombre de αi * sont non nuls : ils déterminent les vecteurs supports. Espace image zi,…,zN Vecteurs supports (participent à la construction de la frontière de décision) ∑= N i 1
  28. 28. Séminaire SAMOS 4 février 2005 Problèmes spécifiques du cas fonctionnel • Dans un espace de dimension infinie, il y a toujours une séparation linéaire • Mais, même dans ce cadre, on peut rencontrer les problèmes habituels dûs à la grande dimension ou de connaissance incomplète des données (discrétisation) • L’utilisation de noyaux fonctionnels peut apporter un plus (utilisation de la nature spécifique des données)
  29. 29. Séminaire SAMOS 4 février 2005 FIR + SVM pour classification X ∈H FIR <X,â1>,…, <X,âq> Y = f (<X,a1>,…,<X,aq>,ε) Φ(non linéaire) Noyau classique Espace image Z Estimation de f
  30. 30. Séminaire SAMOS 4 février 2005 Exemple sur données simulées : waveform 2 4 6 8 10 12 14 16 18 20 -4 -2 0 2 4 6 8 Classe 1 2 4 6 8 10 12 14 16 18 20 -4 -2 0 2 4 6 8 10 Classe 2 2 4 6 8 10 12 14 16 18 20 -4 -2 0 2 4 6 8 Classe 3 uh1(t)+(1-u)h2(t)+ε(t) uh1(t)+(1-u)h3(t)+ε(t) uh2(t)+(1-u)h3(t)+ε(t) •h1(t) = max(6-|t-11|,0) •h2(t) = h1(t-4) •h3(t) = h1(t+4)
  31. 31. Séminaire SAMOS 4 février 2005 Méthodologie • Méthodes comparées : – SIR + SVM RBF – SVM RBF sur la discrétisation – Ridge PDA – SIR + Noyau • Protocole expérimental : Sur 10 échantillons aléatoires, on détermine les paramètres optimaux par validation croisée puis on évalue l’erreur commise sur un échantillon indépendant (apprentissage : 3 × 100, validation : 500, test : 500).
  32. 32. Séminaire SAMOS 4 février 2005 Résultats 12,3712,4710,1711,73 Moyenne (app) 1212,612,2010,20 Minimum (test) 2,012,053,042,25 Ecart type (test) 14,1615,6215,4613,70 Moyenne (test) SIR + NoyR-PDASVMSIR + SVM
  33. 33. Séminaire SAMOS 4 février 2005 Conclusion et perspectives • FIR permet une approche semi-paramétrique pour l’implémentation de données fonctionnelles dans réseaux neuronaux et SVM • Implémentation facile et bon comportement expérimental • Perspectives : – SVM fonctionnels pour régression ; – Autres approches fonctionnelles pour SVM ; – Consistance de méthodes pour SVM fonctionnels…
  34. 34. Séminaire SAMOS 4 février 2005 Bibliographie (1) • Leurgans, Moyeed and Silverman (1993) Canonical Correlation Analysis when the Data are Curves, J. R. Statist. Soc. B, 55, 3, 725-740. • Rossi and Conan-Guez (2004) Functional multi-Layer perceptron: a non-linear tool for functional data analysis, Neural Networks, à paraître. • Bosq (1991) Modelization, non-parametric estimation and prediction for continuous time processes, In Roussas, G., editor, Nonparametric Functional Estimation and Related Topics, NATO, ASI Series, 509-529.
  35. 35. Séminaire SAMOS 4 février 2005 Bibliographie (2) • Cardot, Ferraty and Sarda (1999) Functional Linear Model, Statistics and Probability Letters, 45, 1, 11-22. • Thodberg (1996) A Review of Bayesian Neural Networks with an Application to Near Infrared Spectroscopy, IEEE Transactions on Neural Networks, 7, 1, 56-72. • Biau, Bunea and Wegkamp (2004) Functional classification in Hilbert Spaces, soumis. (www.math.univ-montp2.fr/~biau/publications.html) • Ferré and Villa (2005) Multi-Layer Neural Network with functional inputs: an inverse regression approach, soumis.
  36. 36. Séminaire SAMOS 4 février 2005 Bibliographie (3) • Hastie, Buja and Tibshirani (1995) Penalized discriminant analysis, Ann. Statist., 23, 1, 73-102. • Ferraty and Vieu (2003) Curves discrimination: a nonparametric functional approach, Computational Statistics and Data Analysis, 44, 161-173.
  37. 37. Séminaire SAMOS 4 février 2005 Merci de votre attentionMerci de votre attention
  38. 38. Séminaire SAMOS 4 février 2005 Annexe 1 : Opérateurs hilbertiens • Espérance de X ∈ H : ∀ u ∈ H, E(<X,u>)=<E(X),u> (théorème de Riesz) • Opérateur de variance de X : ΓX = E(X ⊗ X) avec X ⊗ X : u → <X,u> X (opérateur continu de H où l’ensemble des opérateurs continus de H est un espace de Hilbert) • Estimateur de l’opérateur de variance : ΓX N = Xn ⊗ Xn∑= N n N 1 1

×