Une introduction à la géométrie de l'informationFrank Nielsen
These are the slide deck in french of a 40 minute lecture given at College de France on 23 February 2022 in the curriculum "Information and Complexity" of Prof. Stephane Mallat. https://www.college-de-france.fr/site/stephane-mallat/seminar-2022-02-23-11h15.htm
Les systèmes non linéaires sont plus difficiles à étudier que les systèmes linéaires. Néanmoins, en linéarisant (cas de systèmes linéarisable) un SNL, autour d'un point A de considération finie (situation ou état du système), on obtient un système linéaire qui correspond à une approximation grossière du système non linéaire d’origine.
Cette approche a atteint sa maturité dans le livre de H.W.Bode (1905-1982) à la fin de la IIème guerre mondiale. Les travaux de R.E.Bellman (1920-1984), L.S.Pontryagin et al (1908-1988) surtout de R.Kalman (1930) ont conduit nombre d'automaticiens à privilégier la représentation d‘espace d’état à partir des années 1960.
Un système est non linéaire s’il se comporte non linéairement par rapport à ses composantes intrinsèques.
(1) La Casa de Ladrillo de 1923 diseñada por Mies van der Rohe fue influenciada por las corrientes arquitectónicas de la época como el neoplasticismo y el constructivismo. (2) La casa se componía de tres largas paredes de ladrillo que dividían el jardín y creaban espacios fluidos sin compartimentación en el interior. (3) Aunque el proyecto no se construyó, influenció proyectos posteriores y estableció conceptos espaciales y estructurales fundamentales en la obra de Mies van
Villa Savoye, completed in 1931, was designed by Swiss architect Le Corbusier as a private country house. It is considered one of the most influential buildings of the International style and cemented Le Corbusier's reputation. The villa was built according to Le Corbusier's five points of modernist architecture and became iconic for its use of pilotis, a roof garden, free floor plan, horizontal windows, and unconstrained facades. While pioneering modern design, the villa also proved complex to build and faced issues that highlighted tensions between new and traditional construction methods.
Une introduction à la géométrie de l'informationFrank Nielsen
These are the slide deck in french of a 40 minute lecture given at College de France on 23 February 2022 in the curriculum "Information and Complexity" of Prof. Stephane Mallat. https://www.college-de-france.fr/site/stephane-mallat/seminar-2022-02-23-11h15.htm
Les systèmes non linéaires sont plus difficiles à étudier que les systèmes linéaires. Néanmoins, en linéarisant (cas de systèmes linéarisable) un SNL, autour d'un point A de considération finie (situation ou état du système), on obtient un système linéaire qui correspond à une approximation grossière du système non linéaire d’origine.
Cette approche a atteint sa maturité dans le livre de H.W.Bode (1905-1982) à la fin de la IIème guerre mondiale. Les travaux de R.E.Bellman (1920-1984), L.S.Pontryagin et al (1908-1988) surtout de R.Kalman (1930) ont conduit nombre d'automaticiens à privilégier la représentation d‘espace d’état à partir des années 1960.
Un système est non linéaire s’il se comporte non linéairement par rapport à ses composantes intrinsèques.
(1) La Casa de Ladrillo de 1923 diseñada por Mies van der Rohe fue influenciada por las corrientes arquitectónicas de la época como el neoplasticismo y el constructivismo. (2) La casa se componía de tres largas paredes de ladrillo que dividían el jardín y creaban espacios fluidos sin compartimentación en el interior. (3) Aunque el proyecto no se construyó, influenció proyectos posteriores y estableció conceptos espaciales y estructurales fundamentales en la obra de Mies van
Villa Savoye, completed in 1931, was designed by Swiss architect Le Corbusier as a private country house. It is considered one of the most influential buildings of the International style and cemented Le Corbusier's reputation. The villa was built according to Le Corbusier's five points of modernist architecture and became iconic for its use of pilotis, a roof garden, free floor plan, horizontal windows, and unconstrained facades. While pioneering modern design, the villa also proved complex to build and faced issues that highlighted tensions between new and traditional construction methods.
El documento resume la vida y obras del arquitecto suizo-francés Le Corbusier. Nació en 1887 en Suiza y fue influenciado por arquitectos como Perret y Behrens. Algunas de sus obras tempranas incluyen la Villa La Roche y la Villa Cook. Su obra más famosa es la Villa Savoye de 1929 en Poissy, Francia, notable por su uso de pilotis, planta libre, terraza-jardín y ventanas longitudinales.
La Villa Rotonda es una villa rural renacentista diseñada por Andrea Palladio en 1566-1569 en Vicenza, Italia. La villa tiene una planta central en forma de cruz griega con una rotonda en el centro y cuatro pórticos simétricos. La geometría y proporción clásicas desempeñan un papel fundamental en el diseño de la villa, que también establece una armoniosa relación entre la arquitectura y el paisaje circundante.
Racines en haut et feuilles en bas : les arbres en mathstuxette
1. The document discusses methods for clustering and differential analysis of Hi-C matrices, which represent the 3D organization of DNA.
2. It proposes extending Ward's hierarchical clustering to directly use Hi-C similarity matrices while enforcing adjacency constraints. A fast algorithm was also developed.
3. A new method called "treediff" was created to perform differential analysis of Hi-C matrices based on the Wasserstein distance between hierarchical clusterings. Software implementations of these methods were also developed.
Méthodes à noyaux pour l’intégration de données hétérogènestuxette
The document discusses a presentation about multi-omics data integration methods using kernel methods. The presentation introduces kernel methods, how they can be used to integrate heterogeneous omics data, and examples of applications. Specifically, it discusses using kernel methods to perform unsupervised transformation-based integration of multi-omics data. It also presents an application of constrained kernel hierarchical clustering to analyze Hi-C data by directly using Hi-C matrices as kernels.
Méthodologies d'intégration de données omiquestuxette
This document presents a presentation on multi-omics data integration methods given by Nathalie Vialaneix on December 13, 2023. The presentation discusses different types of omics data that can be integrated, both vertically across different levels of omics data on the same samples and horizontally across similar types of omics data on different samples. It also discusses different analysis approaches that can be taken, including supervised and unsupervised methods. The rest of the presentation focuses on unsupervised transformation-based integration methods using kernels.
The document discusses current and future work on analyzing Hi-C data and differential analysis of Hi-C matrices. It describes a clustering method developed to partition chromosomes based on Hi-C matrix similarity. It also introduces a new method called treediff for differential analysis of Hi-C data that calculates the distance between hierarchical clusterings. Current work includes reviewing differential analysis methods, investigating differential subtrees with multiple testing control, and inferring chromatin interaction networks.
Can deep learning learn chromatin structure from sequence?tuxette
This document discusses a deep learning model called ORCA that can predict chromatin structure from DNA sequence. The model uses a neural network with an encoder to extract features from sequence and a decoder to predict Hi-C matrices. It was trained on Hi-C data from multiple cell types and can predict interactions between regions at various resolutions. The model accurately captures features like CTCF-mediated loops and can predict effects of structural variants on chromatin structure. It allows for in silico mutagenesis to study how mutations may alter 3D genome organization.
Multi-omics data integration methods: kernel and other machine learning appro...tuxette
The document discusses multi-omics data integration methods, particularly kernel methods. It describes how kernel methods transform data into similarity matrices between samples rather than relying on variable space. Multiple kernel integration approaches are presented that combine multiple similarity matrices into a consensus kernel in an unsupervised manner, such as through a STATIS-like framework that maximizes the similarity between kernels. Examples of applications to datasets from the TARA Oceans expedition are given.
This document provides an overview of the MetaboWean and Idefics projects. MetaboWean aims to study the co-evolution of gut microbiota and epithelium during suckling-to-weaning transition in rabbits, using metabolomics, metagenomics, and single-cell RNA sequencing data. Idefics integrates multiple omics datasets from human skin samples to understand relationships between microorganisms and molecules and how they are structured in patient groups. The datasets include metagenomics, metabolomics, and proteomics from host and microbiota.
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...tuxette
ASTERICS is an interactive and integrative data analysis tool for omics data. It uses Rserve and PyRserve with Flask and Vue.js in a Docker container to integrate omics data. The backend uses Rserve and PyRserve with Flask on the server side, while the frontend uses Vue.js. This architecture was chosen for its open source and light design. Data communication between Rserve and PyRserve is limited, requiring an object database. ASTERICS is deployed using three Docker containers for R, Python, and
Apprentissage pour la biologie moléculaire et l’analyse de données omiquestuxette
This document summarizes a scientific presentation about molecular biology and omics data analysis. The presentation covers topics related to analyzing large omics datasets using methods like kernel methods, graphical models, and neural networks to learn gene regulation networks and predict phenotypes. Key challenges addressed are handling big data, missing values, non-Gaussian data types like counts and compositional data. The goal is to better understand complex biological systems from multi-omics data.
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...tuxette
The document summarizes preliminary results from evaluating methods for inferring gene regulatory networks from expression data in Bacillus subtilis. It finds that recall of the known network is generally poor (<20% for random forest), but inferred clusters still retain biological information about common regulators. It plans to confirm results, test restricting edges to sigma factors, and explore other inference methods like Bayesian networks and ARACNE.
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...tuxette
The document discusses methods for integrating multi-scale omics data using kernel and machine learning approaches. It describes how omics data is large, heterogeneous, and multi-scaled, creating bottlenecks for analysis. Methods discussed for data integration include multiple kernel learning to combine different relational datasets in an unsupervised way. The methods are applied to integrate different datasets from the TARA Oceans expedition to identify patterns in ocean microbial communities. Improving interpretability of the methods and making them more accessible to biological users is discussed.
Journal club: Validation of cluster analysis results on validation datatuxette
This document presents a framework for validating cluster analysis results on validation data. It describes situations where clustering is inferential versus descriptive and recommends using validation data separate from the data used for clustering. A typology of validation methods is provided, including validation based on the clustering method or results, and evaluation using internal validation, external validation, visual properties, or stability measures.
The document discusses the differences between overfitting and overparametrization in machine learning models. It explores how random forests may exhibit a phenomenon known as "double descent" where test error initially decreases then increases with more parameters before decreasing again. While double descent has been observed in other models, the document questions whether it is directly due to model complexity in random forests since very large trees may be unable to fully interpolate extremely large datasets.
Selective inference and single-cell differential analysistuxette
This document discusses selective inference and single-cell differential analysis. It introduces the problem of "double dipping" in the standard single-cell analysis pipeline where the same dataset is used for clustering and differential analysis. Two approaches for addressing this are presented: 1) A method that perturbs clusters before testing for differences, and 2) A test based on a truncated distribution that assumes clusters and genes are given separately. Experiments applying these methods to real single-cell datasets are described. The document outlines challenges in extending these approaches to more complex analyses.
SOMbrero : un package R pour les cartes auto-organisatricestuxette
SOMbrero is an R package that implements self-organizing map (SOM) algorithms. It can handle numeric, non-numeric, and relational data. The package contains functions for training SOMs, diagnosing results, and plotting maps. It also includes tools like a shiny app and vignettes to aid users without programming experience. SOMbrero supports missing data imputation and extends SOM to relational datasets through non-Euclidean distance measures.
Graph Neural Network for Phenotype Predictiontuxette
This document describes a study on using graph neural networks (GNNs) for phenotype prediction from gene expression data. The objectives are to determine if including network information can improve predictions, which network types work best, and if GNNs can learn network inferences. It provides background on GNNs and how they generalize convolutional layers to graph data. The authors implemented a GNN model from previous work as a starting point and tested it on different network types to see which network information is most useful for predictions. Their methodology involves comparing GNN performance to other methods like random forests using 10-fold cross validation.
A short and naive introduction to using network in prediction modelstuxette
The document provides an introduction to using network information in prediction models. It discusses representing a network as a graph with a Laplacian matrix. The Laplacian captures properties like random walks on the graph and heat diffusion. Eigenvectors of the Laplacian related to small eigenvalues are strongly tied to graph structure. The document discusses using the Laplacian in prediction models by working in the feature space defined by the Laplacian eigenvectors or directly regularizing a linear model with the Laplacian. This introduces network information and encourages similar contributions from connected nodes. The approaches are applied to problems like predicting phenotypes from gene expression using a known gene network.
1. SVM & FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Discrimination de courbes par SVM
Nathalie Villa-Vialaneix
Équipe GRIMM, Université Toulouse Le Mirail
villa@univ-tlse2.fr
ENAC, 24 nov. 2005
2. SVM & FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
3. SVM & FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
4. SVM & FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Les données fonctionnelles : Définition
Données classiques : chaque observation est un vecteur
de RD ;
5. SVM & FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Les données fonctionnelles : Définition
Données classiques : chaque observation est un vecteur
de RD ;
Données fonctionnelles : chaque observation est une
fonction d’un espace de dimension infinie (L2
, par
exemple ; espace de Hilbert, en général).
6. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Exemples
Représentation temporelle (reconnaissance vocale 1)
0 2000 4000 6000 8000
−1.0 −0.5 0.0 0.5 1.0
Temps (ms)
Frequences
Boat
Goat
But : Reconnaître le mot. . .
1Données disponibles sur
http ://www.math.univ-montp2.fr/˜biau/bbwdata.tgz
7. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Exemples
Représentation fréquentielle (reconnaissance vocale 1)
0 50 100 150 200 250
0 5 10 15 20 25
Frequences
Log−periodogramme
[aa]
[ao]
But : Reconnaître le son. . .
1TIMIT database disponible sur
http ://www-stat.stanford.edu/˜tibs/ElemStatLearn/datasets/phoneme.data
8. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Exemples
Courbe de réponse (chimiométrie 1)
0 20 40 60 80 100
2 3 4 5
Longueur d’onde
Absorbance
But : Déterminer le taux de graisse. . .
1Tecator database disponible sur
http ://lib.stat.cmu.edu/datasets/tecator
9. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Exemple de problèmes en FDA (1)
Problèmes d’inversion d’opérateurs
X = E(X
X) − E(X)
E(X) est de Hilbert-Schmidt ) −1
X est
non borné (ce n’est pas un opérateur continu de L2
) ! !
10. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Exemple de problèmes en FDA (1)
Problèmes d’inversion d’opérateurs
X = E(X
X) − E(X)
E(X) est de Hilbert-Schmidt ) −1
X est
non borné (ce n’est pas un opérateur continu de L2
) ! !
ni
Conséquence au niveau de l’estimation
Pn
= 1
X n
=1 xi
xi − X
X est mal conditionné ) nécessité de
pénalisation ou de régularisation.
Exemple : Régression inverse fonctionnelle
[Ferré Villa, 2005]
11. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Les données fonctionnelles en pratique
Soit X une variable aléatoire fonctionnelle,
on ne connaît jamais complètement les observations
(xi)i=1,...,n de X !
12. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Les données fonctionnelles en pratique
Soit X une variable aléatoire fonctionnelle,
D
ii1
on ne connaît jamais complètement les observations
(xi)i=1,...,n de X !
on dispose de xi(t), . . . , xi(t) ;
dans le pire cas, le nombre et la place des points de
discrétisation dépendent de l’observation.
13. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Exemple de problèmes en FDA (2)
D’un point de vue pratique...
représenter les fonctions observées et les fonctions
paramètres ;
14. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Exemple de problèmes en FDA (2)
D’un point de vue pratique...
représenter les fonctions observées et les fonctions
paramètres ;
n D, les observations pour un même individu sont
fortement corrélées (fonction sous-jacente) ) problèmes
mal posés, méthodes usuelles souvent inapplicables
directement.
15. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Apports de notre travail en FDA
Mise au point d’une méthode de régression inverse
fonctionnelle, FIR, régularisée par pénalisation ;
16. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Apports de notre travail en FDA
Mise au point d’une méthode de régression inverse
fonctionnelle, FIR, régularisée par pénalisation ;
Extension des perceptrons multi-couches pour le
traitement de données fonctionnelles : approche par
FIR ;
17. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Apports de notre travail en FDA
Mise au point d’une méthode de régression inverse
fonctionnelle, FIR, régularisée par pénalisation ;
Extension des perceptrons multi-couches pour le
traitement de données fonctionnelles : approche par
FIR ;
Généralisation des SVM au traitement de données
fonctionnelles.
18. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
19. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Rappel sur le principe SVM
Le problème
Soit X 2 H et Y 2 {−1; 1}.
On cherche à déterminer la valeur de Y connaissant la variable
X.
20. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Rappel sur le principe SVM
Le problème
Soit X 2 H et Y 2 {−1; 1}.
On cherche à déterminer la valeur de Y connaissant la variable
X.
Les données
On dispose de n réalisations indépendantes de (X, Y) :
(x1, y1), . . . , (xn, yn).
21. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Discrimination linéaire à marge optimale
22. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Discrimination linéaire à marge optimale
23. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Discrimination linéaire à marge optimale
w
marge : 1
kwk2
Vecteur Support
24. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Discrimination linéaire à marge optimale
w
marge : 1
kwk2
Vecteur Support
On cherche w tel que :
minw,b hw,wi,
sous les contraintes : yi(hw, xii + b) 1, 1 i n.
25. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Discrimination linéaire à marge souple
26. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Discrimination linéaire à marge souple
27. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Discrimination linéaire à marge souple
w
marge : 1
kwk2
Vecteur Support
28. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Discrimination linéaire à marge souple
w
marge : 1
kwk2
Vecteur Support
On cherche w tel que :
minw,b,hw,wi + C
Pni
=1 i ,
sous les contraintes : yi(hw, xii + b) 1 − i , 1 i n,
i 0, 1 i n.
29. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Envoyer les données dans un espace de grande
dimension
Espace initial H
30. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Envoyer les données dans un espace de grande
dimension
Espace initial H Espace image X
(non linéaire)
31. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Envoyer les données dans un espace de grande
dimension
Espace initial H Espace image X
(non linéaire)
32. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Envoyer les données dans un espace de grande
dimension
Espace initial H Espace image X
(non linéaire)
On cherche w tel que :
(PC,X) minw,b,hw,wi + C
Pni
=1 i ,
sous les contraintes : yi(hw,(xi)i + b) 1 − i , 1 i n,
i 0, 1 i n.
33. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Intérêt du non linéaire
Formulation régularisation : (PC,X) ,
(R,X) min
f2X
1
n
Xn
i=1
max(0, 1 − yi f (xi)) + hf , f iX.
34. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Intérêt du non linéaire
Formulation régularisation : (PC,X) ,
(R,X) min
f2X
1
n
Xn
i=1
max(0, 1 − yi f (xi)) + hf , f iX.
Formulation duale : (PC,X) ,
(DC,X) max
Pni
=1 i −
Pni
=1
Pnj
=1 ijyiyjh(xi),(xj)iX,
avec
PNi
=1 iyi = 0,
0 i C, 1 i n.
35. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Intérêt du non linéaire
Formulation régularisation : (PC,X) ,
(R,X) min
f2X
1
n
Xn
i=1
max(0, 1 − yi f (xi)) + hf , f iX.
Formulation duale : (PC,X) ,
(DC,X) max
Pni
=1 i −
Pni
=1
Pnj
=1 ijyiyjh(xi),(xj)iX,
avec
PNi
=1 iyi = 0,
0 i C, 1 i n.
Produit scalaire dans X :
8 u, v 2 H, K(u, v) = h(u),(v)iX
36. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
37. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Présentation des travaux
En collaboration avec Fabrice Rossi
Support vector machine for functional data
classification (2005), paru dans ESANN proceedings.
En collaboration avec Fabrice Rossi
Classification in Hilbert spaces with support vector
machines (2005), paru dans ASMDA proceedings
En collaboration avec Fabrice Rossi
Support vector machine for functional data
classification (2005), à paraître dans Neurocomputing.
38. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Noyaux pour FDA
Forme générale
Prétraitement : P : H ! D
8 u, v 2 H,Q(u, v) = K(P(u), P(v)).
39. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Noyaux pour FDA
Forme générale
Prétraitement : P : H ! D
8 u, v 2 H,Q(u, v) = K(P(u), P(v)).
1 Projections : pour VD = Vect{ 1, . . . , D},
P(x) =
XD
j=1
hx, ji j .
40. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Noyaux pour FDA
Forme générale
Prétraitement : P : H ! D
8 u, v 2 H,Q(u, v) = K(P(u), P(v)).
1 Projections : pour VD = Vect{ 1, . . . , D},
P(x) =
XD
j=1
hx, ji j .
2 Transformations fonctionnelles : P(x) = Dqx,. . .
41. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Noyaux pour FDA
Forme générale
Prétraitement : P : H ! D
8 u, v 2 H,Q(u, v) = K(P(u), P(v)).
1 Projections : pour VD = Vect{ 1, . . . , D},
P(x) =
XD
j=1
hx, ji j .
2 Transformations fonctionnelles : P(x) = Dqx,. . .
3 FIR. . .
42. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
43. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Une approche consistante
Approche par projection
1 ( j)j base Hilbertienne de H : projection sur ( j)j=1,...,d ;
44. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Une approche consistante
Approche par projection
1 ( j)j base Hilbertienne de H : projection sur ( j)j=1,...,d ;
2 Choix des paramètres : a d 2 N, K 2 Jd, C 2 [0; Cd]
45. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Une approche consistante
Approche par projection
1 ( j)j base Hilbertienne de H : projection sur ( j)j=1,...,d ;
2 Choix des paramètres : a d 2 N, K 2 Jd, C 2 [0; Cd]
partage des données : B1 = (x1, y1), . . . , (xl , yl ) et
B2 = (xl+1, yl+1), . . . , (xn, yn) ;
46. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Une approche consistante
Approche par projection
1 ( j)j base Hilbertienne de H : projection sur ( j)j=1,...,d ;
2 Choix des paramètres : a d 2 N, K 2 Jd, C 2 [0; Cd]
partage des données : B1 = (x1, y1), . . . , (xl , yl ) et
B2 = (xl+1, yl+1), . . . , (xn, yn) ;
construction du SVM sur B1 : fa ;
47. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Une approche consistante
Approche par projection
1 ( j)j base Hilbertienne de H : projection sur ( j)j=1,...,d ;
2 Choix des paramètres : a d 2 N, K 2 Jd, C 2 [0; Cd]
partage des données : B1 = (x1, y1), . . . , (xl , yl ) et
B2 = (xl+1, yl+1), . . . , (xn, yn) ;
construction du SVM sur B1 : fa ;
choix du paramètre optimal sur B2 :
a = argmina
bL
n−l fa +
d
p
n − l
avecbL
n−l fa = 1
n−l
Pni
=l+1 I{fa (xi ),yi }.
48. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Une approche consistante
Approche par projection
1 ( j)j base Hilbertienne de H : projection sur ( j)j=1,...,d ;
2 Choix des paramètres : a d 2 N, K 2 Jd, C 2 [0; Cd]
partage des données : B1 = (x1, y1), . . . , (xl , yl ) et
B2 = (xl+1, yl+1), . . . , (xn, yn) ;
construction du SVM sur B1 : fa ;
choix du paramètre optimal sur B2 :
a = argmina
bL
n−l fa +
d
p
n − l
avecbL
n−l fa = 1
n−l
Pni
=l+1 I{fa (xi ),yi }.
) On obtient un SVM fn.
49. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Hypothèses
Hypothèses sur la distribution de X
(H1) X prend ses valeurs dans un borné de H.
50. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Hypothèses
Hypothèses sur la distribution de X
(H1) X prend ses valeurs dans un borné de H.
Hypothèses sur les paramètres : 8 d 1,
(H2) Jd est un ensemble fini ;
(H3) 9Kd 2 Jd tel que : Kd est universel et
9d 0 : N(Kd, ) = O(−d ) ;
(H4) Cd 1 ;
(H5)
P
d1 |Jd|e−22d
+1.
51. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Hypothèses
Hypothèses sur la distribution de X
(H1) X prend ses valeurs dans un borné de H.
Hypothèses sur les paramètres : 8 d 1,
(H2) Jd est un ensemble fini ;
(H3) 9Kd 2 Jd tel que : Kd est universel et
9d 0 : N(Kd, ) = O(−d ) ;
(H4) Cd 1 ;
(H5)
P
d1 |Jd|e−22d
+1.
Hypothèses sur la validation
(H6) limn!+1 l = +1;
(H7) limn!+1 n − l = +1;
(H8) limnl log(n−l)
!+1
n−l = 0.
52. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Convergence par procédure de validation
Théorème 1 Consistance universelle
Sous les hypothèses (H1)-(H8), fn est consistant :
Lfn
n!+1
−−−−−! L,
où Lfn = (
P(fn(X) , Y) et L = P(f (X) , Y) avec
1 si P(Y = 1|X = x) 1/2,
f (x) =
−1 sinon.
53. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Application : reconnaissance vocale
Description des données et méthodes
3 problèmes et pour chaque problème, 100
enregistrements discrétisés en 8 192 points ;
54. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Application : reconnaissance vocale
Description des données et méthodes
3 problèmes et pour chaque problème, 100
enregistrements discrétisés en 8 192 points ;
Mise en oeuvre de la procédure consistante :
Projection sur une base trigonométrique ;
Partage de la base de données en 50 spectres
(apprentissage) / 49 (validation) ;
Performances déterminées par leave-one-out.
55. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Application : reconnaissance vocale
Description des données et méthodes
3 problèmes et pour chaque problème, 100
enregistrements discrétisés en 8 192 points ;
Mise en oeuvre de la procédure consistante :
Projection sur une base trigonométrique ;
Partage de la base de données en 50 spectres
(apprentissage) / 49 (validation) ;
Performances déterminées par leave-one-out.
Résultats
Prob. k-nn QDA SVM gau. SVM lin. SVM lin.
(proj) (proj) (direct)
yes/no 10% 7% 10% 19% 58%
boat/goat 21% 35% 8% 29% 46%
sh/ao 16% 19% 12% 25% 47%
56. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Application : Tecator data Set
Description des données et méthodes
215 spectres discrétisés en 100 points ; 2 classes : taux de
graisse 20% et 20%.
57. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Application : Tecator data Set
Description des données et méthodes
215 spectres discrétisés en 100 points ; 2 classes : taux de
graisse 20% et 20%.
Procédure :
Projection sur une base de splines cubiques (déterminée
par leave-one-out) ;
Partage aléatoire de la base de données en 60 spectres
(apprentissage) / 60 spectres (validation) ;
Performances déterminées sur un échantillon de test
aléatoire de 95 spectres.
58. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Application : Tecator data Set
Description des données et méthodes
215 spectres discrétisés en 100 points ; 2 classes : taux de
graisse 20% et 20%.
Procédure :
Projection sur une base de splines cubiques (déterminée
par leave-one-out) ;
Partage aléatoire de la base de données en 60 spectres
(apprentissage) / 60 spectres (validation) ;
Performances déterminées sur un échantillon de test
aléatoire de 95 spectres.
Résultats (Moyenne pour 250 répétitions)
Noyau Erreur moyenne (test)
Linéaire 3.38%
Linéaire sur D2X 3.28%
Gaussien 7.5%
Gaussien sur D2X 2.6%
59. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
60. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Approche directe pour SVM sur dérivées
X est régulière : X 2 H = Hm = {x : [0; 1] ! R :
Dmx existe et Dmx 2 L2 + conditions aux limites} ;
61. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Approche directe pour SVM sur dérivées
X est régulière : X 2 H = Hm = {x : [0; 1] ! R :
Dmx existe et Dmx 2 L2 + conditions aux limites} ;
Produit scalaire : H est muni du produit scalaire
hf , giH = hLf , LgiL2 =
Z
[0;1]
Lf (t)Lg(t)dt
où Lx =
Pmj
=1 ajDjx avec am , 0 et les conditions aux
limites qui impliquent Lx , 0 si x , 0.
62. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Exemples d’espaces de Sobolev
H1 avec L = I + D et x(0) = 0 (Lx = 0 ) x = ae−t et
x(0) = a) ;
63. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Exemples d’espaces de Sobolev
H1 avec L = I + D et x(0) = 0 (Lx = 0 ) x = ae−t et
x(0) = a) ;
H2 avec L = I + D2 et x(0) = Dx(0) = 0 ;
64. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Exemples d’espaces de Sobolev
H1 avec L = I + D et x(0) = 0 (Lx = 0 ) x = ae−t et
x(0) = a) ;
H2 avec L = I + D2 et x(0) = Dx(0) = 0 ;
Hm (m 1) avec L = Dm et Djx(0) = 0, 8 j = 1, . . . ,m − 1.
Pour d’autres exemples, voir [Besse Ramsay, 1986] et
[Berlinet Thomas-Agnan, 2004].
65. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
RKHS
H peut être un RKHS
Un RKHS est un espace de fonctions tel que 9 K : R ×R ! H :
8 x 2 H, hx, K(t, .)iH = x(t).
66. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
RKHS
H peut être un RKHS
Un RKHS est un espace de fonctions tel que 9 K : R ×R ! H :
8 x 2 H, hx, K(t, .)iH = x(t).
H1 avec L = I + D et x(0) = 0 est un RKHS de noyau
K(s, t) = e− max(s,t) sinh(min(s, t));
67. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
RKHS
H peut être un RKHS
Un RKHS est un espace de fonctions tel que 9 K : R ×R ! H :
8 x 2 H, hx, K(t, .)iH = x(t).
H1 avec L = I + D et x(0) = 0 est un RKHS de noyau
K(s, t) = e− max(s,t) sinh(min(s, t));
H2 avec L = I + D2 et x(0) = Dx(0) = 0 est un RKHS de
noyau
K(s, t) = (min(s, t) cos(s − t) − cos(s) cos(t))/2
68. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
SVM fonctionnels par interpolation spline
[Besse Ramsay, 1986]
Si H est un RKHS de noyau K alors, 8 x 2 H, connue aux
points (tk )k=1,...,d, spline d’interpolation
h = PVect{K(tk ,.),k=1,...,d}(x).
69. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
SVM fonctionnels par interpolation spline
[Besse Ramsay, 1986]
Si H est un RKHS de noyau K alors, 8 x 2 H, connue aux
points (tk )k=1,...,d, spline d’interpolation
h = PVect{K(tk ,.),k=1,...,d}(x).
Application aux SVM
dans L2
SVM sur (Lhn)n avec noyau G1
[0;1]
,
SVM sur (xn)n avec noyau Gd
K−1/2 dans Rd.
où xn = (xn(t1), . . . , xn(td)) et K = (K(ti , tj))i,j .
70. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Consistance directe
Théorème 2 Consistance universelle
Soit (tk )k=1,...,d des points de discrétisation dans [0; 1] tels que
K = (K(ti , tj))i,j=1,...,d soit inversible. Alors,
71. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Consistance directe
Théorème 2 Consistance universelle
Soit (tk )k=1,...,d des points de discrétisation dans [0; 1] tels que
K = (K(ti , tj))i,j=1,...,d soit inversible. Alors,
il existe une suite de points de discrétisation (D)D1 telle
que
d = (tk )k=1,...,d,
8D 1, D D+1 et KD = (K(ti , tj ))i,j=1,...,D est inversible,
Vect{K(t, .), t 2 [D1D} est dense dans H ;
72. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Consistance directe
Théorème 2 Consistance universelle
Soit (tk )k=1,...,d des points de discrétisation dans [0; 1] tels que
K = (K(ti , tj))i,j=1,...,d soit inversible. Alors,
il existe une suite de points de discrétisation (D)D1 telle
que
d = (tk )k=1,...,d,
8D 1, D D+1 et KD = (K(ti , tj ))i,j=1,...,D est inversible,
Vect{K(t, .), t 2 [D1D} est dense dans H ;
le SVM construit à partir de la spline d’interpolation avec
une suite de régularisation (CD
n )n = O(n1−
74. D 1/D est universellement consistant :
lim
n!+1
lim
D!+1
Lfn,D = L
où L est l’erreur de Bayes.
75. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
76. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Régression inverse fonctionnelle
Modèle ([Ferré Yao, 2003], [Ferré Villa, 2005])
Y = f (ha1, Xi . . . haq, Xi, ),
où y X, E() = 0, f inconnue, {a1, . . . , aq} linéairement
independants.
EDR = Vect{a1, . . . aq}
77. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Régression inverse fonctionnelle
Modèle ([Ferré Yao, 2003], [Ferré Villa, 2005])
Y = f (ha1, Xi . . . haq, Xi, ),
où y X, E() = 0, f inconnue, {a1, . . . , aq} linéairement
independants.
EDR = Vect{a1, . . . aq}
Caractérisation de l’espace EDR
Si, pour A = (hX, a1i, . . . , hX, aqi),
Condition de Li 8 u 2 H, 9v 2 Rq : E(hu, Xi|A) = vTA,
alors E(X|Y) 2 X(EDR).
78. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Régression inverse fonctionnelle
Modèle ([Ferré Yao, 2003], [Ferré Villa, 2005])
Y = f (ha1, Xi . . . haq, Xi, ),
où y X, E() = 0, f inconnue, {a1, . . . , aq} linéairement
independants.
EDR = Vect{a1, . . . aq}
Caractérisation de l’espace EDR
Si, pour A = (hX, a1i, . . . , hX, aqi),
Condition de Li 8 u 2 H, 9v 2 Rq : E(hu, Xi|A) = vTA,
alors E(X|Y) 2 X(EDR).
) On choisit d’estimer a1, . . . , aq, vecteurs propres de
−1
X E(X|Y).
79. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
SVM par FIR
Estimation de EDR : [Ferré Yao, 2003],
[Ferré Villa, 2005] proposent des approches
consistantes de l’estimation de l’espace EDR,[EDR;
80. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
SVM par FIR
Estimation de EDR : [Ferré Yao, 2003],
[Ferré Villa, 2005] proposent des approches
consistantes de l’estimation de l’espace EDR,[EDR;
Estimation de f par SVM : SVM sur P[EDR(X) ;
81. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
SVM par FIR
Estimation de EDR : [Ferré Yao, 2003],
[Ferré Villa, 2005] proposent des approches
consistantes de l’estimation de l’espace EDR,[EDR;
Estimation de f par SVM : SVM sur P[EDR(X) ;
Résultat de consistance universelle pour ce SVM : ? ? ?
82. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Simulations
Données simulées Waveform
2 4 6 8 10 12 14 16 18 20
8
6
4
2
0
−2
−4
Classe 1
2 4 6 8 10 12 14 16 18 20
10
8
6
4
2
0
−2
−4
Classe 2
2 4 6 8 10 12 14 16 18 20
8
6
4
2
0
−2
−4
Classe 3
300 courbes (apprentissage) / 500 courbes (validation) ;
erreur calculée sur un échantillon de 500 courbes ;
10 répétitions.
83. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Simulations
Données simulées Waveform
2 4 6 8 10 12 14 16 18 20
8
6
4
2
0
−2
−4
Classe 1
2 4 6 8 10 12 14 16 18 20
10
8
6
4
2
0
−2
−4
Classe 2
2 4 6 8 10 12 14 16 18 20
8
6
4
2
0
−2
−4
Classe 3
300 courbes (apprentissage) / 500 courbes (validation) ;
erreur calculée sur un échantillon de 500 courbes ;
10 répétitions.
Résultats
FIR-SVM SVM R-PDA FIR-N
Moyenne (test) 13,70 15,46 15,62 14,16
Ecart type (test) 2,25 3,04 2,05 2,01
Minimum (test) 10,20 12,20 12,60 12,00
Moyenne (apprentissage) 11,73 10,17 12,47 12,37
84. SVM FDA
Toulouse,
24 nov. 2005
Nathalie VILLA
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Bibliographie
Berlinet, A. Thomas-Agnan, C. (2004).
Reproducing kernel Hilbert spaces in probability and statistics.
Kluwer Academic Publisher.
Besse, P. Ramsay, J. (1986).
Principal component analysis of sampled curves.
Psychometrica, 51, 285–311.
Ferré, L. Villa, N. (2005).
Discrimination de courbes par régression inverse fonctionnelle.
Revue de Statistique Appliquée, LIII(1), 39–57.
Ferré, L. Yao, A. (2003).
Functional sliced inverse regression analysis.
Statistics, 37, 475–488.