Discrimination et régression pour des
dérivées : un résultat de consistance pour
des données fonctionnelles discrétisées
N...
Présentation générale
1 Introduction et motivations
2 Un résultat général de consistance
3 Exemples
2 / 25
Nathalie Villa-...
Introduction et motivations
Un problème de discrimination ou de ré-
gression fonctionnelles
Contexte
(X, Y) est un couple ...
Introduction et motivations
Un problème de discrimination ou de ré-
gression fonctionnelles
Contexte
(X, Y) est un couple ...
Introduction et motivations
Un problème de discrimination ou de ré-
gression fonctionnelles
Contexte
(X, Y) est un couple ...
Introduction et motivations
Un problème de discrimination ou de ré-
gression fonctionnelles
Contexte
(X, Y) est un couple ...
Introduction et motivations
Un problème de discrimination ou de ré-
gression fonctionnelles
Contexte
(X, Y) est un couple ...
Introduction et motivations
Un exemple
Prédire le taux de mitadinage dans le blé dur à partir de
spectres infra-rouges (NI...
Introduction et motivations
Utiliser les dérivées
De manière pratique, X(m) est souvent plus pertinent que X pour
faire de...
Introduction et motivations
Utiliser les dérivées
De manière pratique, X(m) est souvent plus pertinent que X pour
faire de...
Introduction et motivations
Fonctions discrétisées
En pratique, (Xi)i n’est pas parfaitement connue mais on connaît
une di...
Introduction et motivations
Fonctions discrétisées
En pratique, (Xi)i n’est pas parfaitement connue mais on connaît
une di...
Introduction et motivations
Fonctions discrétisées
En pratique, (Xi)i n’est pas parfaitement connue mais on connaît
une di...
Introduction et motivations
Dans cette présentation. . .
Trouver une fonction de discrimination ou de régression φn,τd
con...
Introduction et motivations
Dans cette présentation. . .
Trouver une fonction de discrimination ou de régression φn,τd
con...
Un résultat général de consistance
Quelques rappels élémentaires sur les
Splines
[Berlinet and Thomas-Agnan, 2004]: Soit X...
Un résultat général de consistance
Quelques rappels élémentaires sur les
Splines
[Berlinet and Thomas-Agnan, 2004]: Soit X...
Un résultat général de consistance
Quelques rappels élémentaires sur les
Splines
[Berlinet and Thomas-Agnan, 2004]: Soit X...
Un résultat général de consistance
Estimer les fonctions explicatives à par-
tir de splines de lissage I
Hypothèse (A1)
|τ...
Un résultat général de consistance
Estimer les fonctions explicatives à par-
tir de splines de lissage I
Hypothèse (A1)
|τ...
Un résultat général de consistance
Estimer les fonctions explicatives à par-
tir de splines de lissage I
Hypothèse (A1)
|τ...
Un résultat général de consistance
Estimer les fonctions explicatives à par-
tir de splines de lissage II
Sλ,τd
est :
Sλ,τ...
Un résultat général de consistance
Estimer les fonctions explicatives à par-
tir de splines de lissage II
Sλ,τd
est :
Sλ,τ...
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) ...
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) ...
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) ...
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) ...
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) ...
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) ...
Un résultat général de consistance
Discrimination et régression basées sur
des dérivées
Supposons que l’on connaisse un un...
Un résultat général de consistance
Discrimination et régression basées sur
des dérivées
Supposons que l’on connaisse un un...
Un résultat général de consistance
Discrimination et régression basées sur
des dérivées
Supposons que l’on connaisse un un...
Un résultat général de consistance
Discrimination et régression basées sur
des dérivées
Supposons que l’on connaisse un un...
Un résultat général de consistance
Remarques sur la consistance
Discrimination (les choses sont approximativement les même...
Un résultat général de consistance
Remarques sur la consistance
Discrimination (les choses sont approximativement les même...
Un résultat général de consistance
Remarques sur la consistance
Discrimination (les choses sont approximativement les même...
Un résultat général de consistance
Consistance des splines
Soit λ, dépendant de d, et notons (λd)d la suite des paramètres...
Un résultat général de consistance
Consistance des splines
Soit λ, dépendant de d, et notons (λd)d la suite des paramètres...
Un résultat général de consistance
Consistance vers le risque optimal
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}....
Un résultat général de consistance
Consistance vers le risque optimal
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}....
Un résultat général de consistance
Consistance vers le risque optimal
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}....
Un résultat général de consistance
Preuve sous l’hypothèse (A3a)
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}.
16 /...
Un résultat général de consistance
Preuve sous l’hypothèse (A3a)
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}.
La p...
Un résultat général de consistance
Preuve sous l’hypothèse (A3a)
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}.
La p...
Un résultat général de consistance
Preuve sous l’hypothèse (A3b)
Hypothèse (A3b)
τd ⊂ τd+1 pour tout d et E(Y2
) est finie....
Un résultat général de consistance
Preuve sous l’hypothèse (A3b)
Hypothèse (A3b)
τd ⊂ τd+1 pour tout d et E(Y2
) est finie....
Un résultat général de consistance
Résulat final
Théorème
Sous les hypothèses (A1)-(A3),
lim
d→+∞
lim
n→+∞
P φn,τd
(Xλd ,τd...
Un résultat général de consistance
Remarque sur le lien entre n et |τd|
Sous des hypothèses de régularité sur E(Y|X = .) e...
Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueur...
Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueur...
Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueur...
Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueur...
Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueur...
Exemples
Méthodologie pour évaluation de la va-
lidité de l’approche par splines
Séparation aléatoire du jeu de données en...
Exemples
Méthodologie pour évaluation de la va-
lidité de l’approche par splines
Séparation aléatoire du jeu de données en...
Exemples
Méthodologie pour évaluation de la va-
lidité de l’approche par splines
Séparation aléatoire du jeu de données en...
Exemples
Résultats
Méthodes comparées : SVM linéaire et non linéaire (Gaussien)
sur les données initiales et les dérivées ...
Exemples
Résultats
Méthodes comparées : SVM linéaire et non linéaire (Gaussien)
sur les données initiales et les dérivées ...
Exemples
Résultats
Méthodes comparées : SVM linéaire et non linéaire (Gaussien)
sur les données initiales et les dérivées ...
Exemples
Pour comparaison avec PLS...
MSE moyenne (test) Écart type MSE
PLS sur données initiales 0.154 0.012
Kernel PLS 0...
Exemples
Bruit simulé sur des spectres NIR
Données initiales :
850 900 950 1000 1050
2.53.03.54.04.5
wavelength
absorbance...
Exemples
Bruit simulé sur des spectres NIR
Données bruitées : Xb
i
(t) = Xi(t) + it , sd( it ) = 0,01
850 900 950 1000 105...
Exemples
Bruit simulé sur des spectres NIR
Données bruitées : Xb
i
(t) = Xi(t) + it , sd( it ) = 0,2
850 900 950 1000 1050...
Exemples
Résultats
q
qqq
q
q
q
q
q
q
q
q
qqq
qq
qq
q
q
q
q
qqq
q
qqq
q
O S1 DF1 IS1 S2 FD2
0.000.100.200.30
Noise with sd ...
Exemples
Résultats
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
O S1 FD1 S2
0.20.40.60.81.01.2
Noise with sd = 0.2
Meansquarederror
25 /...
Quelques références
Berlinet, A. and Thomas-Agnan, C. (2004).
Reproducing Kernel Hilbert Spaces in Probability and Statist...
Prochain SlideShare
Chargement dans…5
×

Discrimination et régression pour des dérivées : un résultat de consistance pour des données fonctionnelles discrétisées

364 vues

Publié le

Séminaire de Statistique, Laboratoire Jean Kuntzmann
Grenoble, France
April 10th, 2010

Publié dans : Sciences
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
364
Sur SlideShare
0
Issues des intégrations
0
Intégrations
31
Actions
Partages
0
Téléchargements
3
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Discrimination et régression pour des dérivées : un résultat de consistance pour des données fonctionnelles discrétisées

  1. 1. Discrimination et régression pour des dérivées : un résultat de consistance pour des données fonctionnelles discrétisées Nathalie Villa-Vialaneix http://www.nathalievilla.org IUT de Carcassonne (UPVD) & Institut de Mathématiques de Toulouse Séminaire de Statistique, Laboratoire Jean Kuntzmann Grenoble, 29 mars 2010 1 / 25 Nathalie Villa-Vialaneix
  2. 2. Présentation générale 1 Introduction et motivations 2 Un résultat général de consistance 3 Exemples 2 / 25 Nathalie Villa-Vialaneix
  3. 3. Introduction et motivations Un problème de discrimination ou de ré- gression fonctionnelles Contexte (X, Y) est un couple de variables aléatoires telles que Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression) 3 / 25 Nathalie Villa-Vialaneix
  4. 4. Introduction et motivations Un problème de discrimination ou de ré- gression fonctionnelles Contexte (X, Y) est un couple de variables aléatoires telles que Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression) X ∈ (X, ., . X), espace de Hilbert de dimension infinie 3 / 25 Nathalie Villa-Vialaneix
  5. 5. Introduction et motivations Un problème de discrimination ou de ré- gression fonctionnelles Contexte (X, Y) est un couple de variables aléatoires telles que Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression) X ∈ (X, ., . X), espace de Hilbert de dimension infinie On dispose d’un ensemble d’apprentissage Sn = {(Xi, Yi)}n i=1 de n réalisations i.i.d. de (X, Y). 3 / 25 Nathalie Villa-Vialaneix
  6. 6. Introduction et motivations Un problème de discrimination ou de ré- gression fonctionnelles Contexte (X, Y) est un couple de variables aléatoires telles que Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression) X ∈ (X, ., . X), espace de Hilbert de dimension infinie On dispose d’un ensemble d’apprentissage Sn = {(Xi, Yi)}n i=1 de n réalisations i.i.d. de (X, Y). But : Trouver φn : X → {−1, 1} ou R, universellement consistant: Discrimination : limn→+∞ P (φn(X) Y) = L∗ où L∗ = infφ:X→{−1,1} P (φ(X) Y) est l’erreur de Bayes. 3 / 25 Nathalie Villa-Vialaneix
  7. 7. Introduction et motivations Un problème de discrimination ou de ré- gression fonctionnelles Contexte (X, Y) est un couple de variables aléatoires telles que Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression) X ∈ (X, ., . X), espace de Hilbert de dimension infinie On dispose d’un ensemble d’apprentissage Sn = {(Xi, Yi)}n i=1 de n réalisations i.i.d. de (X, Y). But : Trouver φn : X → {−1, 1} ou R, universellement consistant: Discrimination : limn→+∞ P (φn(X) Y) = L∗ où L∗ = infφ:X→{−1,1} P (φ(X) Y) est l’erreur de Bayes. Régression : limn→+∞ E [φn(X) − Y]2 = L∗ où L∗ = infφ:X→R E [φ(X) − Y]2 sera aussi appelée erreur de Bayes. 3 / 25 Nathalie Villa-Vialaneix
  8. 8. Introduction et motivations Un exemple Prédire le taux de mitadinage dans le blé dur à partir de spectres infra-rouges (NIR). 4 / 25 Nathalie Villa-Vialaneix
  9. 9. Introduction et motivations Utiliser les dérivées De manière pratique, X(m) est souvent plus pertinent que X pour faire de la prédiction. 5 / 25 Nathalie Villa-Vialaneix
  10. 10. Introduction et motivations Utiliser les dérivées De manière pratique, X(m) est souvent plus pertinent que X pour faire de la prédiction. Mais X → X(m) entraîne une perte d’information et inf φ:DmX→{−1,1} P φ(X(m) ) Y ≥ inf φ:X→{−1,1} P (φ(X) Y) = L∗ et inf φ:DmX→R E φ(X(m) ) − Y 2 ≥ inf φ:X→R P [φ(X) − Y]2 = L∗ . 5 / 25 Nathalie Villa-Vialaneix
  11. 11. Introduction et motivations Fonctions discrétisées En pratique, (Xi)i n’est pas parfaitement connue mais on connaît une discrétisation de celle-ci : Xτd i = (Xi(t))t∈τd where τd = {tτd 1 , . . . , tτd |τd | }. 6 / 25 Nathalie Villa-Vialaneix
  12. 12. Introduction et motivations Fonctions discrétisées En pratique, (Xi)i n’est pas parfaitement connue mais on connaît une discrétisation de celle-ci : Xτd i = (Xi(t))t∈τd where τd = {tτd 1 , . . . , tτd |τd | }. 6 / 25 Nathalie Villa-Vialaneix
  13. 13. Introduction et motivations Fonctions discrétisées En pratique, (Xi)i n’est pas parfaitement connue mais on connaît une discrétisation de celle-ci : Xτd i = (Xi(t))t∈τd where τd = {tτd 1 , . . . , tτd |τd | }. Ainsi, X (m) i est estimée à partir de Xτd i et, si on note X (m) τd l’estimation, celle-ci induit aussi une perte d’information: inf φ:DmX→{−1,1} P φ(X (m) τd ) Y ≥ inf φ:DmX→{−1,1} P φ(X(m) ) Y ≥ L∗ et inf φ:DmX→R E φ(X (m) τd ) − Y 2 ≥ inf φ:DmX→R E φ(X(m) ) − Y 2 ≥ L∗ . 6 / 25 Nathalie Villa-Vialaneix
  14. 14. Introduction et motivations Dans cette présentation. . . Trouver une fonction de discrimination ou de régression φn,τd construite à partir de X (m) τd telle que le risque de φn,τd atteigne asymptotiquement le risque optimal (de Bayes) L∗: lim |τd |→+∞ lim n→+∞ P φn,τd (X (m) τd ) Y = L∗ ou lim |τd |→+∞ lim n→+∞ E φn,τd (X (m) τd ) − Y 2 = L∗ 7 / 25 Nathalie Villa-Vialaneix
  15. 15. Introduction et motivations Dans cette présentation. . . Trouver une fonction de discrimination ou de régression φn,τd construite à partir de X (m) τd telle que le risque de φn,τd atteigne asymptotiquement le risque optimal (de Bayes) L∗: lim |τd |→+∞ lim n→+∞ P φn,τd (X (m) τd ) Y = L∗ ou lim |τd |→+∞ lim n→+∞ E φn,τd (X (m) τd ) − Y 2 = L∗ Idée principale : Utiliser une estimation pertinente de X(m) à partir de Xτd (par des splines de lissage) et combiner la consistance des splines avec la consistance d’une méthode de discrimination ou de régression pour des données dans R|τd |. 7 / 25 Nathalie Villa-Vialaneix
  16. 16. Un résultat général de consistance Quelques rappels élémentaires sur les Splines [Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev Hm = h ∈ L2 [0,1]|∀ j = 1, . . . , m, Dj h existe au sens faible et Dm h ∈ L2 8 / 25 Nathalie Villa-Vialaneix
  17. 17. Un résultat général de consistance Quelques rappels élémentaires sur les Splines [Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev Hm = h ∈ L2 [0,1]|∀ j = 1, . . . , m, Dj h existe au sens faible et Dm h ∈ L2 muni du produit scalaire u, v Hm = Dm u, Dm v L2 + m j=1 Bj uBj v où B sont m conditions aux bornes telles que KerB ∩ Pm−1 = {0}. 8 / 25 Nathalie Villa-Vialaneix
  18. 18. Un résultat général de consistance Quelques rappels élémentaires sur les Splines [Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev Hm = h ∈ L2 [0,1]|∀ j = 1, . . . , m, Dj h existe au sens faible et Dm h ∈ L2 muni du produit scalaire u, v Hm = Dm u, Dm v L2 + m j=1 Bj uBj v où B sont m conditions aux bornes telles que KerB ∩ Pm−1 = {0}. (Hm , ., . Hm ) est un RKHS : il existe k0 : Pm−1 × Pm−1 → R and k1 : KerB × KerB → R tels que ∀ u ∈ Pm−1 , t ∈ [0, 1], u, k0(t, .) Hm = u(t) et ∀ u ∈ KerB, t ∈ [0, 1], u, k1(t, .) Hm = u(t) 8 / 25 Nathalie Villa-Vialaneix
  19. 19. Un résultat général de consistance Estimer les fonctions explicatives à par- tir de splines de lissage I Hypothèse (A1) |τd| ≥ m − 1 les points de discrétisation sont distincts dans [0, 1] Bj sont linéairement indépendants de h → h(t) pour tout t ∈ τd 9 / 25 Nathalie Villa-Vialaneix
  20. 20. Un résultat général de consistance Estimer les fonctions explicatives à par- tir de splines de lissage I Hypothèse (A1) |τd| ≥ m − 1 les points de discrétisation sont distincts dans [0, 1] Bj sont linéairement indépendants de h → h(t) pour tout t ∈ τd [Kimeldorf and Wahba, 1971]: pour xτd in R|τd |, ∃ !ˆxλ,τd ∈ Hm tq ˆxλ,τd = arg min h∈Hm 1 |τd| |τd | l=1 (h(tl) − xτd )2 + λ [0,1] (h(m) (t))2 dt. et ˆxλ,τd = Sλ,τd xτd où Sλ,τd : R|τd | → Hm est de plein rang. 9 / 25 Nathalie Villa-Vialaneix
  21. 21. Un résultat général de consistance Estimer les fonctions explicatives à par- tir de splines de lissage I Hypothèse (A1) |τd| ≥ m − 1 les points de discrétisation sont distincts dans [0, 1] Bj sont linéairement indépendants de h → h(t) pour tout t ∈ τd [Kimeldorf and Wahba, 1971]: pour xτd in R|τd |, ∃ !ˆxλ,τd ∈ Hm tq ˆxλ,τd = arg min h∈Hm 1 |τd| |τd | l=1 (h(tl) − xτd )2 + λ [0,1] (h(m) (t))2 dt. et ˆxλ,τd = Sλ,τd xτd où Sλ,τd : R|τd | → Hm est de plein rang. Ces hypothèses sont réalisées pour les conditions aux bornes Dj u(0) = 0, ∀ j = 0, . . . , m − 1 et 0 τd. 9 / 25 Nathalie Villa-Vialaneix
  22. 22. Un résultat général de consistance Estimer les fonctions explicatives à par- tir de splines de lissage II Sλ,τd est : Sλ,τd = ωT (U(K1 + λI|τd |)UT )−1 U(K1 + λI|τd |)−1 +ηT (K1 + λI|τd |)−1 (I|τd | − UT (U(K1 + λI|τd |)−1 U(K1 + λI|τd |)−1 ) = ωT M0 + ηT M1 où {ω1, . . . , ωm} est une base Pm−1 , ω = (ω1, . . . , ωm)T et U = (ωi(t))i=1,...,m t∈τd ; η = (k1(t, .))T t∈τd and K1 = (k1(t, t ))t,t ∈τd . 10 / 25 Nathalie Villa-Vialaneix
  23. 23. Un résultat général de consistance Estimer les fonctions explicatives à par- tir de splines de lissage II Sλ,τd est : Sλ,τd = ωT (U(K1 + λI|τd |)UT )−1 U(K1 + λI|τd |)−1 +ηT (K1 + λI|τd |)−1 (I|τd | − UT (U(K1 + λI|τd |)−1 U(K1 + λI|τd |)−1 ) = ωT M0 + ηT M1 où {ω1, . . . , ωm} est une base Pm−1 , ω = (ω1, . . . , ωm)T et U = (ωi(t))i=1,...,m t∈τd ; η = (k1(t, .))T t∈τd and K1 = (k1(t, t ))t,t ∈τd . Les observations de la variable fonctionnelle X sont estimées à partir de leurs discrétisations Xτd par Xλ,τd . 10 / 25 Nathalie Villa-Vialaneix
  24. 24. Un résultat général de consistance Deux conséquences importantes 1 Pas de perte d’information inf φ:Hm→{−1,1} P φ(Xλ,τd ) Y = inf φ:R|τd |→{−1,1} P (φ(Xτd ) Y) et inf φ:Hm→{−1,1} E φ(Xλ,τd ) − Y 2 = inf φ:R|τd |→{−1,1} P [φ(Xτd ) − Y]2 11 / 25 Nathalie Villa-Vialaneix
  25. 25. Un résultat général de consistance Deux conséquences importantes 1 Pas de perte d’information inf φ:Hm→{−1,1} P φ(Xλ,τd ) Y = inf φ:R|τd |→{−1,1} P (φ(Xτd ) Y) et inf φ:Hm→{−1,1} E φ(Xλ,τd ) − Y 2 = inf φ:R|τd |→{−1,1} P [φ(Xτd ) − Y]2 2 Utiliser les dérivées de manière directe: Sλ,τd uτd , Sλ,τd vτd Hm = uλ,τd , vλ,τd Hm 11 / 25 Nathalie Villa-Vialaneix
  26. 26. Un résultat général de consistance Deux conséquences importantes 1 Pas de perte d’information inf φ:Hm→{−1,1} P φ(Xλ,τd ) Y = inf φ:R|τd |→{−1,1} P (φ(Xτd ) Y) et inf φ:Hm→{−1,1} E φ(Xλ,τd ) − Y 2 = inf φ:R|τd |→{−1,1} P [φ(Xτd ) − Y]2 2 Utiliser les dérivées de manière directe: (uτd )T MT 0 WM0vτd + (uτd )T MT 1 K1M1vτd = uλ,τd , vλ,τd Hm où W = ( ωi, ωj Hm )i,j=1,...,m. 11 / 25 Nathalie Villa-Vialaneix
  27. 27. Un résultat général de consistance Deux conséquences importantes 1 Pas de perte d’information inf φ:Hm→{−1,1} P φ(Xλ,τd ) Y = inf φ:R|τd |→{−1,1} P (φ(Xτd ) Y) et inf φ:Hm→{−1,1} E φ(Xλ,τd ) − Y 2 = inf φ:R|τd |→{−1,1} P [φ(Xτd ) − Y]2 2 Utiliser les dérivées de manière directe: (uτd )T Mλ,τd vτd = uλ,τd , vλ,τd Hm où Mλ,τd est symétrique et définie positive. 11 / 25 Nathalie Villa-Vialaneix
  28. 28. Un résultat général de consistance Deux conséquences importantes 1 Pas de perte d’information inf φ:Hm→{−1,1} P φ(Xλ,τd ) Y = inf φ:R|τd |→{−1,1} P (φ(Xτd ) Y) et inf φ:Hm→{−1,1} E φ(Xλ,τd ) − Y 2 = inf φ:R|τd |→{−1,1} P [φ(Xτd ) − Y]2 2 Utiliser les dérivées de manière directe: (Qλ,τd uτd )T (Qλ,τd vτd ) = uλ,τd , vλ,τd Hm où Qλ,τd est la décomposition de Choleski de Mλ,τd : QT λ,τd Qλ,τd = Mλ,τd . Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ et de τd : ne dépend des données. 11 / 25 Nathalie Villa-Vialaneix
  29. 29. Un résultat général de consistance Deux conséquences importantes 1 Pas de perte d’information inf φ:Hm→{−1,1} P φ(Xλ,τd ) Y = inf φ:R|τd |→{−1,1} P (φ(Xτd ) Y) et inf φ:Hm→{−1,1} E φ(Xλ,τd ) − Y 2 = inf φ:R|τd |→{−1,1} P [φ(Xτd ) − Y]2 2 Utiliser les dérivées de manière directe: (Qλ,τd uτd )T (Qλ,τd vτd ) = uλ,τd , vλ,τd Hm u (m) λ,τd , v (m) λ,τd L2 où Qλ,τd est la décomposition de Choleski de Mλ,τd : QT λ,τd Qλ,τd = Mλ,τd . Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ et de τd : ne dépend des données. 11 / 25 Nathalie Villa-Vialaneix
  30. 30. Un résultat général de consistance Discrimination et régression basées sur des dérivées Supposons que l’on connaisse un une méthode de discrimination ou de régression consistante dans R|τd | basée uniquement sur la norme ou le produit scalaire de R|τd |. Exemple : Régression à noyau Ψ : u ∈ R|τd | → n i=1 TiK u−Ui R|τd | hn n i=1 K u−Ui R|τd | hn où (Ui, Ti)i=1,...,n sont les données (apprentissage) à valeur dans R|τd | × R. 12 / 25 Nathalie Villa-Vialaneix
  31. 31. Un résultat général de consistance Discrimination et régression basées sur des dérivées Supposons que l’on connaisse un une méthode de discrimination ou de régression consistante dans R|τd | basée uniquement sur la norme ou le produit scalaire de R|τd |. La méthode de discrimination ou de régression basée sur les dérivées correspondante est obtenue par composition des données fonctionnelles discrétisées avec Qλ,τd : Exemple : Régression à noyau Ψ : u ∈ R|τd | → n i=1 TiK u−Ui R|τd | hn n i=1 K u−Ui R|τd | hn où (Ui, Ti)i=1,...,n sont les données (apprentissage) à valeur dans R|τd | × R. 12 / 25 Nathalie Villa-Vialaneix
  32. 32. Un résultat général de consistance Discrimination et régression basées sur des dérivées Supposons que l’on connaisse un une méthode de discrimination ou de régression consistante dans R|τd | basée uniquement sur la norme ou le produit scalaire de R|τd |. La méthode de discrimination ou de régression basée sur les dérivées correspondante est obtenue par composition des données fonctionnelles discrétisées avec Qλ,τd : Exemple : Régression à noyau φn,d = Ψ ◦ Qλ,τd : x ∈ Hm → n i=1 YiK Qλ,τd xτd −Qλ,τd X τd i R|τd | hn n i=1 K Qλ,τd xτd −Qλ,τd X τd i R|τd | hn 12 / 25 Nathalie Villa-Vialaneix
  33. 33. Un résultat général de consistance Discrimination et régression basées sur des dérivées Supposons que l’on connaisse un une méthode de discrimination ou de régression consistante dans R|τd | basée uniquement sur la norme ou le produit scalaire de R|τd |. La méthode de discrimination ou de régression basée sur les dérivées correspondante est obtenue par composition des données fonctionnelles discrétisées avec Qλ,τd : Exemple : Régression à noyau φn,d = Ψ ◦ Qλ,τd : x ∈ Hm −→ n i=1 YiK x(m)−X (m) i L2 hn n i=1 K x(m)−X (m) i L2 hn 12 / 25 Nathalie Villa-Vialaneix
  34. 34. Un résultat général de consistance Remarques sur la consistance Discrimination (les choses sont approximativement les mêmes dans le cas de la régression): P φn,τd (Xλ,τd ) Y − L∗ = P φn,τd (Xλ,τd ) Y − L∗ d + L∗ d − L∗ où L∗ d = infφ:R|τd |→{−1,1} P (φ(Xτd ) Y). 13 / 25 Nathalie Villa-Vialaneix
  35. 35. Un résultat général de consistance Remarques sur la consistance Discrimination (les choses sont approximativement les mêmes dans le cas de la régression): P φn,τd (Xλ,τd ) Y − L∗ = P φn,τd (Xλ,τd ) Y − L∗ d + L∗ d − L∗ où L∗ d = infφ:R|τd |→{−1,1} P (φ(Xτd ) Y). 1 Pour tout d, lim n→+∞ P φn,τd (Xλ,τd ) Y = L∗ d grâce à la consistance dans R|τd | car il existe une application bijective entre Xτd et Xλ,τd . 13 / 25 Nathalie Villa-Vialaneix
  36. 36. Un résultat général de consistance Remarques sur la consistance Discrimination (les choses sont approximativement les mêmes dans le cas de la régression): P φn,τd (Xλ,τd ) Y − L∗ = P φn,τd (Xλ,τd ) Y − L∗ d + L∗ d − L∗ où L∗ d = infφ:R|τd |→{−1,1} P (φ(Xτd ) Y). 1 Pour tout d, lim n→+∞ P φn,τd (Xλ,τd ) Y = L∗ d grâce à la consistance dans R|τd | car il existe une application bijective entre Xτd et Xλ,τd . 2 L∗ d − L∗ ≤ E E(Y|Xλ,τd ) − E(Y|X) La convergence en norme 1 de E(Y|Xλ,τd ) vers E(Y|X) suffit donc à montrer la consistance globale de la méthode. 13 / 25 Nathalie Villa-Vialaneix
  37. 37. Un résultat général de consistance Consistance des splines Soit λ, dépendant de d, et notons (λd)d la suite des paramètres de régularisation des splines de lissage. Notons aussi ∆τd := max{t1, t2 − t1, . . . , 1 − t|τd |}, ∆τd := min 1≤i<|τd | {ti+1 − ti} Hypothèse (A2) Il existe R tel que ∆τd /∆τd ≤ R pour tout d; limd→+∞ |τd| = +∞; limd→+∞ λd = 0. 14 / 25 Nathalie Villa-Vialaneix
  38. 38. Un résultat général de consistance Consistance des splines Soit λ, dépendant de d, et notons (λd)d la suite des paramètres de régularisation des splines de lissage. Notons aussi ∆τd := max{t1, t2 − t1, . . . , 1 − t|τd |}, ∆τd := min 1≤i<|τd | {ti+1 − ti} Hypothèse (A2) Il existe R tel que ∆τd /∆τd ≤ R pour tout d; limd→+∞ |τd| = +∞; limd→+∞ λd = 0. [Ragozin, 1983]: Sous (A1) et (A2), ∃AR,m and BR,m tel que pour tout x ∈ Hm et tout λd > 0, ˆxλd ,τd − x 2 L2 ≤ AR,mλd + BR,m 1 |τd|2m Dm x 2 L2 d→+∞ −−−−−−→ 0 14 / 25 Nathalie Villa-Vialaneix
  39. 39. Un résultat général de consistance Consistance vers le risque optimal Hypothèse (A3a) E Dm X 2 L2 est finie et Y ∈ {−1, 1}. 15 / 25 Nathalie Villa-Vialaneix
  40. 40. Un résultat général de consistance Consistance vers le risque optimal Hypothèse (A3a) E Dm X 2 L2 est finie et Y ∈ {−1, 1}. ou Hypothèse (A3b) τd ⊂ τd+1 pour tout d et E(Y2 ) est finie. 15 / 25 Nathalie Villa-Vialaneix
  41. 41. Un résultat général de consistance Consistance vers le risque optimal Hypothèse (A3a) E Dm X 2 L2 est finie et Y ∈ {−1, 1}. ou Hypothèse (A3b) τd ⊂ τd+1 pour tout d et E(Y2 ) est finie. Sous (A1)-(A3), limd→+∞ L∗ d = L∗. 15 / 25 Nathalie Villa-Vialaneix
  42. 42. Un résultat général de consistance Preuve sous l’hypothèse (A3a) Hypothèse (A3a) E Dm X 2 L2 est finie et Y ∈ {−1, 1}. 16 / 25 Nathalie Villa-Vialaneix
  43. 43. Un résultat général de consistance Preuve sous l’hypothèse (A3a) Hypothèse (A3a) E Dm X 2 L2 est finie et Y ∈ {−1, 1}. La preuve est basée sur le résultat de [Faragó and Györfi, 1975] : Pour un couple de variables aléatoires (X, Y) à valeurs dans X × {−1, 1} où X est un espace métrique quelconque et pour une suite de fonctions Td : X → X telles que E(δ(Td(X), X)) d→+∞ −−−−−−→ 0 alors limd→+∞ infφ:X→{−1,1} P(φ(Td(X)) Y) = L∗. 16 / 25 Nathalie Villa-Vialaneix
  44. 44. Un résultat général de consistance Preuve sous l’hypothèse (A3a) Hypothèse (A3a) E Dm X 2 L2 est finie et Y ∈ {−1, 1}. La preuve est basée sur le résultat de [Faragó and Györfi, 1975] : En remplaçant Td par l’estimation splines, la précédente inégalité et le résultat de [Ragozin, 1983], on obtient la convergence de E(Y|Xλ,τd ) vers E(Y|X). 16 / 25 Nathalie Villa-Vialaneix
  45. 45. Un résultat général de consistance Preuve sous l’hypothèse (A3b) Hypothèse (A3b) τd ⊂ τd+1 pour tout d et E(Y2 ) est finie. 17 / 25 Nathalie Villa-Vialaneix
  46. 46. Un résultat général de consistance Preuve sous l’hypothèse (A3b) Hypothèse (A3b) τd ⊂ τd+1 pour tout d et E(Y2 ) est finie. Sous (A3b), (E(Y|Xλd ,τd ))d est une martingale uniformément bornée et converge donc en norme L1 . En utilisant la consistance de (Xλd ,τd )d vers X, on obtient la conclusion. 17 / 25 Nathalie Villa-Vialaneix
  47. 47. Un résultat général de consistance Résulat final Théorème Sous les hypothèses (A1)-(A3), lim d→+∞ lim n→+∞ P φn,τd (Xλd ,τd ) Y = L∗ et lim |τd |→+∞ lim n→+∞ E φn,τd (Xλd ,τd ) − Y 2 = L∗ Preuve : Soit > 0 et fixons d0 tel que, pour tout d ≥ d0, L∗ d − L∗ ≤ /2. Alors, par la convergence de la méthode de classification ou de régression choisie dans R|τd |, on peut conclure. 18 / 25 Nathalie Villa-Vialaneix
  48. 48. Un résultat général de consistance Remarque sur le lien entre n et |τd| Sous des hypothèses de régularité sur E(Y|X = .) et une relation de la forme n ∼ |τd| log |τd|, on peut obtenir une vitesse de convergence de l’ordre de d− 2m 2m+1 . 19 / 25 Nathalie Villa-Vialaneix
  49. 49. Exemples Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; 20 / 25 Nathalie Villa-Vialaneix
  50. 50. Exemples Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; mitadinage : déterminé en % du nombre de grains affectés par comptage. 20 / 25 Nathalie Villa-Vialaneix
  51. 51. Exemples Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; mitadinage : déterminé en % du nombre de grains affectés par comptage. Question : Comment prédire les valeurs de qualité correspondant au mitadinage à partir de la collecte des spectres infra-rouge ? 20 / 25 Nathalie Villa-Vialaneix
  52. 52. Exemples Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; mitadinage : déterminé en % du nombre de grains affectés par comptage. Question : Comment prédire les valeurs de qualité correspondant au mitadinage à partir de la collecte des spectres infra-rouge ? Les méthodes habituelles (PLS, réseau de neurones ...) donnent ici des résultats décevants. 20 / 25 Nathalie Villa-Vialaneix
  53. 53. Exemples Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; mitadinage : déterminé en % du nombre de grains affectés par comptage. Question : Comment prédire les valeurs de qualité correspondant au mitadinage à partir de la collecte des spectres infra-rouge ? Les méthodes habituelles (PLS, réseau de neurones ...) donnent ici des résultats décevants. ⇒ Présentation des résultats de la mise en œuvre de la méthode sur le mitadinage. 20 / 25 Nathalie Villa-Vialaneix
  54. 54. Exemples Méthodologie pour évaluation de la va- lidité de l’approche par splines Séparation aléatoire du jeu de données en apprentissage et test : cette séparation est répétée 50 fois ; 21 / 25 Nathalie Villa-Vialaneix
  55. 55. Exemples Méthodologie pour évaluation de la va- lidité de l’approche par splines Séparation aléatoire du jeu de données en apprentissage et test : cette séparation est répétée 50 fois ; Sur les 50 ensembles d’apprentissage, les fonctions de régression sont estimées avec évaluation des divers paramètres du modèle par validation croisée ; 21 / 25 Nathalie Villa-Vialaneix
  56. 56. Exemples Méthodologie pour évaluation de la va- lidité de l’approche par splines Séparation aléatoire du jeu de données en apprentissage et test : cette séparation est répétée 50 fois ; Sur les 50 ensembles d’apprentissage, les fonctions de régression sont estimées avec évaluation des divers paramètres du modèle par validation croisée ; Sur les 50 ensembles de test correspondants, l’erreur quadratique moyenne est calculée. 21 / 25 Nathalie Villa-Vialaneix
  57. 57. Exemples Résultats Méthodes comparées : SVM linéaire et non linéaire (Gaussien) sur les données initiales et les dérivées d’ordre 1 à 2 déterminées par splines. 22 / 25 Nathalie Villa-Vialaneix
  58. 58. Exemples Résultats Méthodes comparées : SVM linéaire et non linéaire (Gaussien) sur les données initiales et les dérivées d’ordre 1 à 2 déterminées par splines. Noyau (SVM) EQM pour test (et sd) Linéaire (L) 0.122 % (8.77) Linéaire sur dérivées (L(1)) 0.138 % (9.53) Linéaire sur dérivées secondes (L(2)) 0.122 % (1.71) Gaussien (G) 0.110 % (20.2) Gaussien sur dérivées (G(1)) 0.098 % (7.92) Gaussien sur dérivées secondes (G(2)) 0.094 % (8.35) où les différences sont significatives (Test de Wilcoxon apparié au niveau 1%) entre G(2) et G(1) et entre G(1) et G. 22 / 25 Nathalie Villa-Vialaneix
  59. 59. Exemples Résultats Méthodes comparées : SVM linéaire et non linéaire (Gaussien) sur les données initiales et les dérivées d’ordre 1 à 2 déterminées par splines. 22 / 25 Nathalie Villa-Vialaneix
  60. 60. Exemples Pour comparaison avec PLS... MSE moyenne (test) Écart type MSE PLS sur données initiales 0.154 0.012 Kernel PLS 0.154 0.013 SVM splines (reg. D2 ) 0.094 0.008 Gain de près de 40 % sur la prédiction moyenne. SVM−D2 KPLS PLS 0.080.100.120.140.160.18 23 / 25 Nathalie Villa-Vialaneix
  61. 61. Exemples Bruit simulé sur des spectres NIR Données initiales : 850 900 950 1000 1050 2.53.03.54.04.5 wavelength absorbance Variable à prédire : Taux de graisse (benchmark célèbre) 24 / 25 Nathalie Villa-Vialaneix
  62. 62. Exemples Bruit simulé sur des spectres NIR Données bruitées : Xb i (t) = Xi(t) + it , sd( it ) = 0,01 850 900 950 1000 1050 2.53.03.54.04.5 wavelength absorbance 24 / 25 Nathalie Villa-Vialaneix
  63. 63. Exemples Bruit simulé sur des spectres NIR Données bruitées : Xb i (t) = Xi(t) + it , sd( it ) = 0,2 850 900 950 1000 1050 2.02.53.03.54.04.5 wavelength absorbance 24 / 25 Nathalie Villa-Vialaneix
  64. 64. Exemples Résultats q qqq q q q q q q q q qqq qq qq q q q q qqq q qqq q O S1 DF1 IS1 S2 FD2 0.000.100.200.30 Noise with sd = 0.01 Meansquarederror 25 / 25 Nathalie Villa-Vialaneix
  65. 65. Exemples Résultats qq q q q q q q q q q q q q q q O S1 FD1 S2 0.20.40.60.81.01.2 Noise with sd = 0.2 Meansquarederror 25 / 25 Nathalie Villa-Vialaneix
  66. 66. Quelques références Berlinet, A. and Thomas-Agnan, C. (2004). Reproducing Kernel Hilbert Spaces in Probability and Statistics. Kluwer Academic Publisher. Faragó, T. and Györfi, L. (1975). On the continuity of the error distortion function for multiple-hypothesis decisions. IEEE Transactions on Information Theory, 21(4):458–460. Kimeldorf, G. and Wahba, G. (1971). Some results on Tchebycheffian spline functions. Journal of Mathematical Analysis and Applications, 33(1):82–95. Ragozin, D. (1983). Error bounds for derivative estimation based on spline smoothing of exact or noisy data. Journal of Approximation Theory, 37:335–355. Merci pour votre attention. 25 / 25 Nathalie Villa-Vialaneix

×