SlideShare une entreprise Scribd logo
1  sur  44
Télécharger pour lire hors ligne
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Application de l’analyse des données
fonctionnelles à l’identification de blé dur
fusarié, moucheté et mitadiné
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
En collaboration avec Cécile Levasseur (École d’Ingénieurs de Purpan) &
Fabrice Rossi (TELECOM ParisTech)
Institut de Mathématiques de Toulouse, France -
nathalie.villa@math.univ-toulouse.fr
Toulouse, Hélio-SPIR, 30 septembre 2009
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 1/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Introduction
Statisticienne spécialisée dans l’analyse des données
fonctionnelles :
−→ Valeur d’intérêt, Y
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 2/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Sommaire
1 Généralités sur l’Analyse des Données Fonctionnelles
(ADF)
2 Analyse par splines de lissage
3 Application
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 3/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Sommaire
1 Généralités sur l’Analyse des Données Fonctionnelles
(ADF)
2 Analyse par splines de lissage
3 Application
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 4/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Qu’est-ce qu’une donnée “fonctionnelle” ?
En théorie, une donnée fonctionnelle est une fonction,
X : [0, 1] → R.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 5/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Qu’est-ce qu’une donnée “fonctionnelle” ?
En théorie, une donnée fonctionnelle est une fonction,
X : [0, 1] → R. À partir des observations de cette variable et d’une
autre variable réelle d’intérêt, Y, on cherche à prédire Y à partir de
X.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 5/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Qu’est-ce qu’une donnée “fonctionnelle” ?
En théorie, une donnée fonctionnelle est une fonction,
X : [0, 1] → R. À partir des observations de cette variable et d’une
autre variable réelle d’intérêt, Y, on cherche à prédire Y à partir de
X.
En pratique, on n’observe jamais la fonction mais une
discrétisation de celle-ci :
X(t1), . . . , X(td)
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 5/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Problèmes posés par ce type de données
Du point de vue de la régression :
Grande dimension : Le nombre de fonctions observées, n, est
souvent plus petit que d (la dimension des données) −→
Problème mal posé ;
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 6/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Problèmes posés par ce type de données
Du point de vue de la régression :
Grande dimension : Le nombre de fonctions observées, n, est
souvent plus petit que d (la dimension des données) −→
Problème mal posé ;
⇒ Par ex, le modèle Y = aT
X + b + n’a plus une unique
solution selon les moindres carrés.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 6/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Problèmes posés par ce type de données
Du point de vue de la régression :
Grande dimension : Le nombre de fonctions observées, n, est
souvent plus petit que d (la dimension des données) −→
Problème mal posé ;
⇒ Par ex, le modèle Y = aT
X + b + n’a plus une unique
solution selon les moindres carrés.
Discrétisations très corrélées entre elles pour une même
observation du fait de la structure sous-jacente.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 6/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Problèmes posés par ce type de données
Du point de vue de la régression :
Grande dimension : Le nombre de fonctions observées, n, est
souvent plus petit que d (la dimension des données) −→
Problème mal posé ;
⇒ Par ex, le modèle Y = aT
X + b + n’a plus une unique
solution selon les moindres carrés.
Discrétisations très corrélées entre elles pour une même
observation du fait de la structure sous-jacente.
Conséquences : Les méthodes statistiques appliquées aux
données discrétisées donnent de mauvais résultats et,
notamment, se généralisent mal à de nouvelles observations.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 6/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Comment traiter ce type de donnée ?
Méthodes de régularisation ou de réduction de dimension.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 7/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Comment traiter ce type de donnée ?
Méthodes de régularisation ou de réduction de dimension.
Si L2
est l’ensemble des fonctions de carré intégrables, on sait qu’il
existe une (des, en fait) base(s) de fonctions (ei)i telles que toute
fonction de L2
s’exprime comme combinaison linéaire des (ei)i :
X =
i
αiei
Par exemple, la base trigonométrique :
e1(t) = cos(t) ; e2(t) = sin(t) ; e3(t) = cos(2t) ; e4(t) = sin(2t) . . .
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 7/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Comment traiter ce type de donnée ?
Méthodes de régularisation ou de réduction de dimension.
Si L2
est l’ensemble des fonctions de carré intégrables, on sait qu’il
existe une (des, en fait) base(s) de fonctions (ei)i telles que toute
fonction de L2
s’exprime comme combinaison linéaire des (ei)i :
X =
i
αiei
q
i=1
αiei
Par exemple, la base trigonométrique :
e1(t) = cos(t) ; e2(t) = sin(t) ; e3(t) = cos(2t) ; e4(t) = sin(2t) . . .
Pourquoi ? La dimension nécessaire pour bien représenter les
données, q, est souvent très inférieure à d si la base est bien
choisie.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 7/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Comment traiter ce type de donnée ?
Méthodes de régularisation ou de réduction de dimension.
Si L2
est l’ensemble des fonctions de carré intégrables, on sait qu’il
existe une (des, en fait) base(s) de fonctions (ei)i telles que toute
fonction de L2
s’exprime comme combinaison linéaire des (ei)i :
X =
i
αiei
q
i=1
αiei
Par exemple, la base trigonométrique :
e1(t) = cos(t) ; e2(t) = sin(t) ; e3(t) = cos(2t) ; e4(t) = sin(2t) . . .
Pourquoi ? La dimension nécessaire pour bien représenter les
données, q, est souvent très inférieure à d si la base est bien
choisie. Cette représentation permet d’avoir accès à des
opérations fonctionnelles comme la dérivée.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 7/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Sommaire
1 Généralités sur l’Analyse des Données Fonctionnelles
(ADF)
2 Analyse par splines de lissage
3 Application
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 8/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Principe général
Principe général : L’hypothèse de base est que la fonction
sous-jacente est régulière.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Principe général
Principe général : L’hypothèse de base est que la fonction
sous-jacente est régulière.
convient pour des spectres infra-rouges
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Principe général
Principe général : L’hypothèse de base est que la fonction
sous-jacente est régulière.
ne convient pas pour la spectrométrie de masse
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Principe général
Principe général : L’hypothèse de base est que la fonction
sous-jacente est régulière.
Dans ce cas, utilisation d’une projection sur des bases
d’ondelettes... (Travail en cours avec A. Paris (INRA) et N.
Hernandez (CENATAV, Cuba))
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Principe général
Principe général : L’hypothèse de base est que la fonction
sous-jacente est régulière.
Représentation des spectres dans un espace Hm
dans lequel la
norme d’un spectre est sensiblement égal à la norme de sa
dérivée d’ordre m
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Principe général
Principe général : L’hypothèse de base est que la fonction
sous-jacente est régulière.
Représentation des spectres dans un espace Hm
dans lequel la
norme d’un spectre est sensiblement égal à la norme de sa
dérivée d’ordre m ⇒ régularité et prise en compte de la courbure !
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Mise en œuvre pratique
Les données :
x1(t1) . . . x1(td)
. . .
xn(t1) . . . xn(td)
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Mise en œuvre pratique
Les données :
x1(t1) . . . x1(td)
. . .
xn(t1) . . . xn(td)
Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonction
sous-jacente. Elle est approchée par ˆxi telle que
d
l=1
(xi(tl) − ˆxi(tl))2
est petit et Dm
ˆxi
2
est petit
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Mise en œuvre pratique
Les données :
x1(t1) . . . x1(td)
. . .
xn(t1) . . . xn(td)
Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonction
sous-jacente. Elle est approchée par ˆxi telle que
d
l=1
(xi(tl) − ˆxi(tl))2
est petit et Dm
ˆxi
2
est petit
Fidélité aux données Régularité
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Mise en œuvre pratique
Les données :
x1(t1) . . . x1(td)
. . .
xn(t1) . . . xn(td)
Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonction
sous-jacente. Elle est approchée par ˆxi telle que
d
l=1
(xi(tl) − ˆxi(tl))2
est petit et Dm
ˆxi
2
est petit
Fidélité aux données Régularité
Étape 2 : Utiliser Dmˆxi
comme entrée d’une méthode de
régression (ici SVM) ⇒ nécessite de savoir calculer
Dm
ˆxi, Dm
ˆxj
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Mise en œuvre pratique
Les données :
x1(t1) . . . x1(td)
. . .
xn(t1) . . . xn(td)
Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonction
sous-jacente. Elle est approchée par ˆxi telle que
d
l=1
(xi(tl) − ˆxi(tl))2
est petit et Dm
ˆxi
2
est petit
Fidélité aux données Régularité
Étape 2 : Utiliser Dmˆxi
comme entrée d’une méthode de
régression (ici SVM) ⇒ nécessite de savoir calculer
Dm
ˆxi, Dm
ˆxj Qd,m ×


x1(t1) . . . x1(td)
. . .
xn(t1) . . . xn(td)


Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Conclusion théorique
L’utilisation d’une méthode de régression de type SVM (voir
Vapnik, The Nature of Statistical Learning Theory) permet de
garantir que la méthode atteint asymptotiquement une
performance optimale (lorsque n est “suffisamment grand” et d est
“suffisamment grand”).
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 11/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Sommaire
1 Généralités sur l’Analyse des Données Fonctionnelles
(ADF)
2 Analyse par splines de lissage
3 Application
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 12/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde
uniformément réparties entre 400 et 2498 nm ;
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde
uniformément réparties entre 400 et 2498 nm ;
fusariose : déterminée en % de la masse des grains par triage
préalable des grains affectés ;
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde
uniformément réparties entre 400 et 2498 nm ;
fusariose : déterminée en % de la masse des grains par triage
préalable des grains affectés ;
moucheture : déterminé en % de la masse des grains par
triage préalable des grains affectés ;
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde
uniformément réparties entre 400 et 2498 nm ;
fusariose : déterminée en % de la masse des grains par triage
préalable des grains affectés ;
moucheture : déterminé en % de la masse des grains par
triage préalable des grains affectés ;
mitadinage : déterminé en % du nombre de grains affectés
par comptage.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde
uniformément réparties entre 400 et 2498 nm ;
fusariose : déterminée en % de la masse des grains par triage
préalable des grains affectés ;
moucheture : déterminé en % de la masse des grains par
triage préalable des grains affectés ;
mitadinage : déterminé en % du nombre de grains affectés
par comptage.
Question : Comment prédire les valeurs de qualité correspondant
à la fusariose, à la moucheture et au mitadinage à partir de la
collecte des spectres infra-rouge ?
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde
uniformément réparties entre 400 et 2498 nm ;
fusariose : déterminée en % de la masse des grains par triage
préalable des grains affectés ;
moucheture : déterminé en % de la masse des grains par
triage préalable des grains affectés ;
mitadinage : déterminé en % du nombre de grains affectés
par comptage.
Question : Comment prédire les valeurs de qualité correspondant
à la fusariose, à la moucheture et au mitadinage à partir de la
collecte des spectres infra-rouge ?
Les méthodes habituelles (PLS, réseau de neurones ...) donnent
ici des résultats décevants.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde
uniformément réparties entre 400 et 2498 nm ;
fusariose : déterminée en % de la masse des grains par triage
préalable des grains affectés ;
moucheture : déterminé en % de la masse des grains par
triage préalable des grains affectés ;
mitadinage : déterminé en % du nombre de grains affectés
par comptage.
Question : Comment prédire les valeurs de qualité correspondant
à la fusariose, à la moucheture et au mitadinage à partir de la
collecte des spectres infra-rouge ?
Les méthodes habituelles (PLS, réseau de neurones ...) donnent
ici des résultats décevants. ⇒ Présentation des résultats de la
mise en œuvre de la méthode sur le mitadinage.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Méthodologie pour évaluation de la validité de
l’approche par splines
Séparation aléatoire du jeu de données en apprentissage
(pour la définition de la régression) et test (pour évaluer les
performances de la régression) : cette séparation est répétée
50 fois pour évaluer la variabilité de la qualité de
l’approximation ;
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 14/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Méthodologie pour évaluation de la validité de
l’approche par splines
Séparation aléatoire du jeu de données en apprentissage
(pour la définition de la régression) et test (pour évaluer les
performances de la régression) : cette séparation est répétée
50 fois pour évaluer la variabilité de la qualité de
l’approximation ;
Sur les 50 ensembles d’apprentissage, des erreurs de
prédiction sont calculées :
MSE =
1
|Testk | Testk
(Mitadinage−Mitadinage estimé par la régression)2
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 14/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Méthodologie pour évaluation de la validité de
l’approche par splines
Séparation aléatoire du jeu de données en apprentissage
(pour la définition de la régression) et test (pour évaluer les
performances de la régression) : cette séparation est répétée
50 fois pour évaluer la variabilité de la qualité de
l’approximation ;
Sur les 50 ensembles d’apprentissage, des erreurs de
prédiction sont calculées :
MSE =
1
|Testk | Testk
(Mitadinage−Mitadinage estimé par la régression)2
Les divers paramètres du modèle sont évalués par validation
croisée sur l’ensemble d’apprentissage.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 14/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Résultats
Méthodes comparées : SVM linéaire et non linéaire (Gaussien) sur
les données initiales et les dérivées d’ordre 1 à 2 déterminées par
splines.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 15/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Résultats
Méthodes comparées : SVM linéaire et non linéaire (Gaussien) sur
les données initiales et les dérivées d’ordre 1 à 2 déterminées par
splines.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 15/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Pour comparaison avec PLS...
MSE moyenne (test) Écart type MSE
PLS sur données initiales 0.154 0.012
Kernel PLS 0.154 0.013
SVM splines (reg. D2
) 0.094 0.008
Gain de près de 40 % sur la prédiction moyenne.
SVM−D2 KPLS PLS
0.080.100.120.140.160.18
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 16/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Conclusions
Résumé des résultats : Les différences sont significatives entre
l’utilisation des dérivées d’ordre 2 et d’ordre 1 ;
l’utilisation des dérivées et l’utilisation des données initiales ;
l’utilisation d’une approche non linéaire et d’une approche
linéaire.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 17/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)
Analyse par splines de lissage
Application
Conclusions
Résumé des résultats : Les différences sont significatives entre
l’utilisation des dérivées d’ordre 2 et d’ordre 1 ;
l’utilisation des dérivées et l’utilisation des données initiales ;
l’utilisation d’une approche non linéaire et d’une approche
linéaire.
Perspectives :
recherche des endroits du spectres impliqués dans la
prédiction ;
comparaison méthodologique similaire avec les splines
combinées avec diverses méthodes : PLS, forêts aléatoires ...
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 17/17

Contenu connexe

Similaire à Application de l’analyse des données fonctionnelles à l’identification de blé dur fusarié, moucheté et mitadiné

Data Mining (Partie 2).pdf
Data Mining (Partie 2).pdfData Mining (Partie 2).pdf
Data Mining (Partie 2).pdfOuailChoukhairi
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes PrincipalesJaouad Dabounou
 
Implémentation optimale de filtres linéaires en arithmétique virgule fixe
Implémentation optimale de filtres linéaires en arithmétique virgule fixeImplémentation optimale de filtres linéaires en arithmétique virgule fixe
Implémentation optimale de filtres linéaires en arithmétique virgule fixeBenoit Lopez
 
Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régres...
Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régres...Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régres...
Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régres...tuxette
 
Seminaire Recherche UPPA 2016
Seminaire Recherche UPPA 2016Seminaire Recherche UPPA 2016
Seminaire Recherche UPPA 2016Gilles Hubert
 
Analyse_desDonnées_sousR.pptx
Analyse_desDonnées_sousR.pptxAnalyse_desDonnées_sousR.pptx
Analyse_desDonnées_sousR.pptxanashoummas
 
PJ - machine learning avec scikit-learn.pdf
PJ - machine learning avec scikit-learn.pdfPJ - machine learning avec scikit-learn.pdf
PJ - machine learning avec scikit-learn.pdfYounesOuladSayad1
 
Graphes, multi-graphes et recherche d’information
Graphes, multi-graphes et recherche d’informationGraphes, multi-graphes et recherche d’information
Graphes, multi-graphes et recherche d’informationtuxette
 

Similaire à Application de l’analyse des données fonctionnelles à l’identification de blé dur fusarié, moucheté et mitadiné (11)

Data Mining (Partie 2).pdf
Data Mining (Partie 2).pdfData Mining (Partie 2).pdf
Data Mining (Partie 2).pdf
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Actuariat et Données
Actuariat et DonnéesActuariat et Données
Actuariat et Données
 
Implémentation optimale de filtres linéaires en arithmétique virgule fixe
Implémentation optimale de filtres linéaires en arithmétique virgule fixeImplémentation optimale de filtres linéaires en arithmétique virgule fixe
Implémentation optimale de filtres linéaires en arithmétique virgule fixe
 
Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régres...
Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régres...Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régres...
Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régres...
 
Seminaire Recherche UPPA 2016
Seminaire Recherche UPPA 2016Seminaire Recherche UPPA 2016
Seminaire Recherche UPPA 2016
 
Analyse_desDonnées_sousR.pptx
Analyse_desDonnées_sousR.pptxAnalyse_desDonnées_sousR.pptx
Analyse_desDonnées_sousR.pptx
 
TI.pdf
TI.pdfTI.pdf
TI.pdf
 
PJ - machine learning avec scikit-learn.pdf
PJ - machine learning avec scikit-learn.pdfPJ - machine learning avec scikit-learn.pdf
PJ - machine learning avec scikit-learn.pdf
 
Graphes, multi-graphes et recherche d’information
Graphes, multi-graphes et recherche d’informationGraphes, multi-graphes et recherche d’information
Graphes, multi-graphes et recherche d’information
 
C4 spec-adt
C4 spec-adtC4 spec-adt
C4 spec-adt
 

Plus de tuxette

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathstuxette
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènestuxette
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquestuxette
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-Ctuxette
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?tuxette
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...tuxette
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquestuxette
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeantuxette
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...tuxette
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquestuxette
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...tuxette
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...tuxette
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation datatuxette
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?tuxette
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysistuxette
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Predictiontuxette
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelstuxette
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random foresttuxette
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICStuxette
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICStuxette
 

Plus de tuxette (20)

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en maths
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènes
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiques
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-C
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiques
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWean
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation data
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysis
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Prediction
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction models
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random forest
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICS
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICS
 

Application de l’analyse des données fonctionnelles à l’identification de blé dur fusarié, moucheté et mitadiné

  • 1. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Application de l’analyse des données fonctionnelles à l’identification de blé dur fusarié, moucheté et mitadiné Nathalie Villa-Vialaneix http://www.nathalievilla.org En collaboration avec Cécile Levasseur (École d’Ingénieurs de Purpan) & Fabrice Rossi (TELECOM ParisTech) Institut de Mathématiques de Toulouse, France - nathalie.villa@math.univ-toulouse.fr Toulouse, Hélio-SPIR, 30 septembre 2009 Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 1/17
  • 2. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Introduction Statisticienne spécialisée dans l’analyse des données fonctionnelles : −→ Valeur d’intérêt, Y Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 2/17
  • 3. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Sommaire 1 Généralités sur l’Analyse des Données Fonctionnelles (ADF) 2 Analyse par splines de lissage 3 Application Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 3/17
  • 4. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Sommaire 1 Généralités sur l’Analyse des Données Fonctionnelles (ADF) 2 Analyse par splines de lissage 3 Application Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 4/17
  • 5. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Qu’est-ce qu’une donnée “fonctionnelle” ? En théorie, une donnée fonctionnelle est une fonction, X : [0, 1] → R. Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 5/17
  • 6. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Qu’est-ce qu’une donnée “fonctionnelle” ? En théorie, une donnée fonctionnelle est une fonction, X : [0, 1] → R. À partir des observations de cette variable et d’une autre variable réelle d’intérêt, Y, on cherche à prédire Y à partir de X. Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 5/17
  • 7. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Qu’est-ce qu’une donnée “fonctionnelle” ? En théorie, une donnée fonctionnelle est une fonction, X : [0, 1] → R. À partir des observations de cette variable et d’une autre variable réelle d’intérêt, Y, on cherche à prédire Y à partir de X. En pratique, on n’observe jamais la fonction mais une discrétisation de celle-ci : X(t1), . . . , X(td) Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 5/17
  • 8. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Problèmes posés par ce type de données Du point de vue de la régression : Grande dimension : Le nombre de fonctions observées, n, est souvent plus petit que d (la dimension des données) −→ Problème mal posé ; Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 6/17
  • 9. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Problèmes posés par ce type de données Du point de vue de la régression : Grande dimension : Le nombre de fonctions observées, n, est souvent plus petit que d (la dimension des données) −→ Problème mal posé ; ⇒ Par ex, le modèle Y = aT X + b + n’a plus une unique solution selon les moindres carrés. Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 6/17
  • 10. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Problèmes posés par ce type de données Du point de vue de la régression : Grande dimension : Le nombre de fonctions observées, n, est souvent plus petit que d (la dimension des données) −→ Problème mal posé ; ⇒ Par ex, le modèle Y = aT X + b + n’a plus une unique solution selon les moindres carrés. Discrétisations très corrélées entre elles pour une même observation du fait de la structure sous-jacente. Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 6/17
  • 11. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Problèmes posés par ce type de données Du point de vue de la régression : Grande dimension : Le nombre de fonctions observées, n, est souvent plus petit que d (la dimension des données) −→ Problème mal posé ; ⇒ Par ex, le modèle Y = aT X + b + n’a plus une unique solution selon les moindres carrés. Discrétisations très corrélées entre elles pour une même observation du fait de la structure sous-jacente. Conséquences : Les méthodes statistiques appliquées aux données discrétisées donnent de mauvais résultats et, notamment, se généralisent mal à de nouvelles observations. Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 6/17
  • 12. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Comment traiter ce type de donnée ? Méthodes de régularisation ou de réduction de dimension. Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 7/17
  • 13. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Comment traiter ce type de donnée ? Méthodes de régularisation ou de réduction de dimension. Si L2 est l’ensemble des fonctions de carré intégrables, on sait qu’il existe une (des, en fait) base(s) de fonctions (ei)i telles que toute fonction de L2 s’exprime comme combinaison linéaire des (ei)i : X = i αiei Par exemple, la base trigonométrique : e1(t) = cos(t) ; e2(t) = sin(t) ; e3(t) = cos(2t) ; e4(t) = sin(2t) . . . Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 7/17
  • 14. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Comment traiter ce type de donnée ? Méthodes de régularisation ou de réduction de dimension. Si L2 est l’ensemble des fonctions de carré intégrables, on sait qu’il existe une (des, en fait) base(s) de fonctions (ei)i telles que toute fonction de L2 s’exprime comme combinaison linéaire des (ei)i : X = i αiei q i=1 αiei Par exemple, la base trigonométrique : e1(t) = cos(t) ; e2(t) = sin(t) ; e3(t) = cos(2t) ; e4(t) = sin(2t) . . . Pourquoi ? La dimension nécessaire pour bien représenter les données, q, est souvent très inférieure à d si la base est bien choisie. Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 7/17
  • 15. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Comment traiter ce type de donnée ? Méthodes de régularisation ou de réduction de dimension. Si L2 est l’ensemble des fonctions de carré intégrables, on sait qu’il existe une (des, en fait) base(s) de fonctions (ei)i telles que toute fonction de L2 s’exprime comme combinaison linéaire des (ei)i : X = i αiei q i=1 αiei Par exemple, la base trigonométrique : e1(t) = cos(t) ; e2(t) = sin(t) ; e3(t) = cos(2t) ; e4(t) = sin(2t) . . . Pourquoi ? La dimension nécessaire pour bien représenter les données, q, est souvent très inférieure à d si la base est bien choisie. Cette représentation permet d’avoir accès à des opérations fonctionnelles comme la dérivée. Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 7/17
  • 16. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Sommaire 1 Généralités sur l’Analyse des Données Fonctionnelles (ADF) 2 Analyse par splines de lissage 3 Application Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 8/17
  • 17. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Principe général Principe général : L’hypothèse de base est que la fonction sous-jacente est régulière. Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
  • 18. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Principe général Principe général : L’hypothèse de base est que la fonction sous-jacente est régulière. convient pour des spectres infra-rouges Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
  • 19. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Principe général Principe général : L’hypothèse de base est que la fonction sous-jacente est régulière. ne convient pas pour la spectrométrie de masse Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
  • 20. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Principe général Principe général : L’hypothèse de base est que la fonction sous-jacente est régulière. Dans ce cas, utilisation d’une projection sur des bases d’ondelettes... (Travail en cours avec A. Paris (INRA) et N. Hernandez (CENATAV, Cuba)) Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
  • 21. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Principe général Principe général : L’hypothèse de base est que la fonction sous-jacente est régulière. Représentation des spectres dans un espace Hm dans lequel la norme d’un spectre est sensiblement égal à la norme de sa dérivée d’ordre m Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
  • 22. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Principe général Principe général : L’hypothèse de base est que la fonction sous-jacente est régulière. Représentation des spectres dans un espace Hm dans lequel la norme d’un spectre est sensiblement égal à la norme de sa dérivée d’ordre m ⇒ régularité et prise en compte de la courbure ! Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
  • 23. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Mise en œuvre pratique Les données : x1(t1) . . . x1(td) . . . xn(t1) . . . xn(td) Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17
  • 24. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Mise en œuvre pratique Les données : x1(t1) . . . x1(td) . . . xn(t1) . . . xn(td) Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonction sous-jacente. Elle est approchée par ˆxi telle que d l=1 (xi(tl) − ˆxi(tl))2 est petit et Dm ˆxi 2 est petit Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17
  • 25. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Mise en œuvre pratique Les données : x1(t1) . . . x1(td) . . . xn(t1) . . . xn(td) Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonction sous-jacente. Elle est approchée par ˆxi telle que d l=1 (xi(tl) − ˆxi(tl))2 est petit et Dm ˆxi 2 est petit Fidélité aux données Régularité Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17
  • 26. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Mise en œuvre pratique Les données : x1(t1) . . . x1(td) . . . xn(t1) . . . xn(td) Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonction sous-jacente. Elle est approchée par ˆxi telle que d l=1 (xi(tl) − ˆxi(tl))2 est petit et Dm ˆxi 2 est petit Fidélité aux données Régularité Étape 2 : Utiliser Dmˆxi comme entrée d’une méthode de régression (ici SVM) ⇒ nécessite de savoir calculer Dm ˆxi, Dm ˆxj Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17
  • 27. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Mise en œuvre pratique Les données : x1(t1) . . . x1(td) . . . xn(t1) . . . xn(td) Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonction sous-jacente. Elle est approchée par ˆxi telle que d l=1 (xi(tl) − ˆxi(tl))2 est petit et Dm ˆxi 2 est petit Fidélité aux données Régularité Étape 2 : Utiliser Dmˆxi comme entrée d’une méthode de régression (ici SVM) ⇒ nécessite de savoir calculer Dm ˆxi, Dm ˆxj Qd,m ×   x1(t1) . . . x1(td) . . . xn(t1) . . . xn(td)   Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17
  • 28. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Conclusion théorique L’utilisation d’une méthode de régression de type SVM (voir Vapnik, The Nature of Statistical Learning Theory) permet de garantir que la méthode atteint asymptotiquement une performance optimale (lorsque n est “suffisamment grand” et d est “suffisamment grand”). Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 11/17
  • 29. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Sommaire 1 Généralités sur l’Analyse des Données Fonctionnelles (ADF) 2 Analyse par splines de lissage 3 Application Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 12/17
  • 30. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
  • 31. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; fusariose : déterminée en % de la masse des grains par triage préalable des grains affectés ; Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
  • 32. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; fusariose : déterminée en % de la masse des grains par triage préalable des grains affectés ; moucheture : déterminé en % de la masse des grains par triage préalable des grains affectés ; Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
  • 33. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; fusariose : déterminée en % de la masse des grains par triage préalable des grains affectés ; moucheture : déterminé en % de la masse des grains par triage préalable des grains affectés ; mitadinage : déterminé en % du nombre de grains affectés par comptage. Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
  • 34. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; fusariose : déterminée en % de la masse des grains par triage préalable des grains affectés ; moucheture : déterminé en % de la masse des grains par triage préalable des grains affectés ; mitadinage : déterminé en % du nombre de grains affectés par comptage. Question : Comment prédire les valeurs de qualité correspondant à la fusariose, à la moucheture et au mitadinage à partir de la collecte des spectres infra-rouge ? Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
  • 35. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; fusariose : déterminée en % de la masse des grains par triage préalable des grains affectés ; moucheture : déterminé en % de la masse des grains par triage préalable des grains affectés ; mitadinage : déterminé en % du nombre de grains affectés par comptage. Question : Comment prédire les valeurs de qualité correspondant à la fusariose, à la moucheture et au mitadinage à partir de la collecte des spectres infra-rouge ? Les méthodes habituelles (PLS, réseau de neurones ...) donnent ici des résultats décevants. Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
  • 36. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; fusariose : déterminée en % de la masse des grains par triage préalable des grains affectés ; moucheture : déterminé en % de la masse des grains par triage préalable des grains affectés ; mitadinage : déterminé en % du nombre de grains affectés par comptage. Question : Comment prédire les valeurs de qualité correspondant à la fusariose, à la moucheture et au mitadinage à partir de la collecte des spectres infra-rouge ? Les méthodes habituelles (PLS, réseau de neurones ...) donnent ici des résultats décevants. ⇒ Présentation des résultats de la mise en œuvre de la méthode sur le mitadinage. Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
  • 37. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Méthodologie pour évaluation de la validité de l’approche par splines Séparation aléatoire du jeu de données en apprentissage (pour la définition de la régression) et test (pour évaluer les performances de la régression) : cette séparation est répétée 50 fois pour évaluer la variabilité de la qualité de l’approximation ; Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 14/17
  • 38. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Méthodologie pour évaluation de la validité de l’approche par splines Séparation aléatoire du jeu de données en apprentissage (pour la définition de la régression) et test (pour évaluer les performances de la régression) : cette séparation est répétée 50 fois pour évaluer la variabilité de la qualité de l’approximation ; Sur les 50 ensembles d’apprentissage, des erreurs de prédiction sont calculées : MSE = 1 |Testk | Testk (Mitadinage−Mitadinage estimé par la régression)2 Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 14/17
  • 39. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Méthodologie pour évaluation de la validité de l’approche par splines Séparation aléatoire du jeu de données en apprentissage (pour la définition de la régression) et test (pour évaluer les performances de la régression) : cette séparation est répétée 50 fois pour évaluer la variabilité de la qualité de l’approximation ; Sur les 50 ensembles d’apprentissage, des erreurs de prédiction sont calculées : MSE = 1 |Testk | Testk (Mitadinage−Mitadinage estimé par la régression)2 Les divers paramètres du modèle sont évalués par validation croisée sur l’ensemble d’apprentissage. Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 14/17
  • 40. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Résultats Méthodes comparées : SVM linéaire et non linéaire (Gaussien) sur les données initiales et les dérivées d’ordre 1 à 2 déterminées par splines. Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 15/17
  • 41. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Résultats Méthodes comparées : SVM linéaire et non linéaire (Gaussien) sur les données initiales et les dérivées d’ordre 1 à 2 déterminées par splines. Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 15/17
  • 42. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Pour comparaison avec PLS... MSE moyenne (test) Écart type MSE PLS sur données initiales 0.154 0.012 Kernel PLS 0.154 0.013 SVM splines (reg. D2 ) 0.094 0.008 Gain de près de 40 % sur la prédiction moyenne. SVM−D2 KPLS PLS 0.080.100.120.140.160.18 Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 16/17
  • 43. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Conclusions Résumé des résultats : Les différences sont significatives entre l’utilisation des dérivées d’ordre 2 et d’ordre 1 ; l’utilisation des dérivées et l’utilisation des données initiales ; l’utilisation d’une approche non linéaire et d’une approche linéaire. Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 17/17
  • 44. Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Conclusions Résumé des résultats : Les différences sont significatives entre l’utilisation des dérivées d’ordre 2 et d’ordre 1 ; l’utilisation des dérivées et l’utilisation des données initiales ; l’utilisation d’une approche non linéaire et d’une approche linéaire. Perspectives : recherche des endroits du spectres impliqués dans la prédiction ; comparaison méthodologique similaire avec les splines combinées avec diverses méthodes : PLS, forêts aléatoires ... Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 17/17