Une introduction à la géométrie de l'informationFrank Nielsen
These are the slide deck in french of a 40 minute lecture given at College de France on 23 February 2022 in the curriculum "Information and Complexity" of Prof. Stephane Mallat. https://www.college-de-france.fr/site/stephane-mallat/seminar-2022-02-23-11h15.htm
Les systèmes non linéaires sont plus difficiles à étudier que les systèmes linéaires. Néanmoins, en linéarisant (cas de systèmes linéarisable) un SNL, autour d'un point A de considération finie (situation ou état du système), on obtient un système linéaire qui correspond à une approximation grossière du système non linéaire d’origine.
Cette approche a atteint sa maturité dans le livre de H.W.Bode (1905-1982) à la fin de la IIème guerre mondiale. Les travaux de R.E.Bellman (1920-1984), L.S.Pontryagin et al (1908-1988) surtout de R.Kalman (1930) ont conduit nombre d'automaticiens à privilégier la représentation d‘espace d’état à partir des années 1960.
Un système est non linéaire s’il se comporte non linéairement par rapport à ses composantes intrinsèques.
Une introduction à la géométrie de l'informationFrank Nielsen
These are the slide deck in french of a 40 minute lecture given at College de France on 23 February 2022 in the curriculum "Information and Complexity" of Prof. Stephane Mallat. https://www.college-de-france.fr/site/stephane-mallat/seminar-2022-02-23-11h15.htm
Les systèmes non linéaires sont plus difficiles à étudier que les systèmes linéaires. Néanmoins, en linéarisant (cas de systèmes linéarisable) un SNL, autour d'un point A de considération finie (situation ou état du système), on obtient un système linéaire qui correspond à une approximation grossière du système non linéaire d’origine.
Cette approche a atteint sa maturité dans le livre de H.W.Bode (1905-1982) à la fin de la IIème guerre mondiale. Les travaux de R.E.Bellman (1920-1984), L.S.Pontryagin et al (1908-1988) surtout de R.Kalman (1930) ont conduit nombre d'automaticiens à privilégier la représentation d‘espace d’état à partir des années 1960.
Un système est non linéaire s’il se comporte non linéairement par rapport à ses composantes intrinsèques.
Méthode d'Analyse en Composantes Principales dans la perspective de son utilisation pour réduire la dimensionnalité dans le cadre d'un traitement par réseau de neurones.
Ce document s'inscrit dans un travail global sur l'Intelligence artificielle.
Racines en haut et feuilles en bas : les arbres en mathstuxette
1. The document discusses methods for clustering and differential analysis of Hi-C matrices, which represent the 3D organization of DNA.
2. It proposes extending Ward's hierarchical clustering to directly use Hi-C similarity matrices while enforcing adjacency constraints. A fast algorithm was also developed.
3. A new method called "treediff" was created to perform differential analysis of Hi-C matrices based on the Wasserstein distance between hierarchical clusterings. Software implementations of these methods were also developed.
Méthodes à noyaux pour l’intégration de données hétérogènestuxette
The document discusses a presentation about multi-omics data integration methods using kernel methods. The presentation introduces kernel methods, how they can be used to integrate heterogeneous omics data, and examples of applications. Specifically, it discusses using kernel methods to perform unsupervised transformation-based integration of multi-omics data. It also presents an application of constrained kernel hierarchical clustering to analyze Hi-C data by directly using Hi-C matrices as kernels.
Méthodologies d'intégration de données omiquestuxette
This document presents a presentation on multi-omics data integration methods given by Nathalie Vialaneix on December 13, 2023. The presentation discusses different types of omics data that can be integrated, both vertically across different levels of omics data on the same samples and horizontally across similar types of omics data on different samples. It also discusses different analysis approaches that can be taken, including supervised and unsupervised methods. The rest of the presentation focuses on unsupervised transformation-based integration methods using kernels.
The document discusses current and future work on analyzing Hi-C data and differential analysis of Hi-C matrices. It describes a clustering method developed to partition chromosomes based on Hi-C matrix similarity. It also introduces a new method called treediff for differential analysis of Hi-C data that calculates the distance between hierarchical clusterings. Current work includes reviewing differential analysis methods, investigating differential subtrees with multiple testing control, and inferring chromatin interaction networks.
Can deep learning learn chromatin structure from sequence?tuxette
This document discusses a deep learning model called ORCA that can predict chromatin structure from DNA sequence. The model uses a neural network with an encoder to extract features from sequence and a decoder to predict Hi-C matrices. It was trained on Hi-C data from multiple cell types and can predict interactions between regions at various resolutions. The model accurately captures features like CTCF-mediated loops and can predict effects of structural variants on chromatin structure. It allows for in silico mutagenesis to study how mutations may alter 3D genome organization.
Multi-omics data integration methods: kernel and other machine learning appro...tuxette
The document discusses multi-omics data integration methods, particularly kernel methods. It describes how kernel methods transform data into similarity matrices between samples rather than relying on variable space. Multiple kernel integration approaches are presented that combine multiple similarity matrices into a consensus kernel in an unsupervised manner, such as through a STATIS-like framework that maximizes the similarity between kernels. Examples of applications to datasets from the TARA Oceans expedition are given.
This document provides an overview of the MetaboWean and Idefics projects. MetaboWean aims to study the co-evolution of gut microbiota and epithelium during suckling-to-weaning transition in rabbits, using metabolomics, metagenomics, and single-cell RNA sequencing data. Idefics integrates multiple omics datasets from human skin samples to understand relationships between microorganisms and molecules and how they are structured in patient groups. The datasets include metagenomics, metabolomics, and proteomics from host and microbiota.
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...tuxette
ASTERICS is an interactive and integrative data analysis tool for omics data. It uses Rserve and PyRserve with Flask and Vue.js in a Docker container to integrate omics data. The backend uses Rserve and PyRserve with Flask on the server side, while the frontend uses Vue.js. This architecture was chosen for its open source and light design. Data communication between Rserve and PyRserve is limited, requiring an object database. ASTERICS is deployed using three Docker containers for R, Python, and
Apprentissage pour la biologie moléculaire et l’analyse de données omiquestuxette
This document summarizes a scientific presentation about molecular biology and omics data analysis. The presentation covers topics related to analyzing large omics datasets using methods like kernel methods, graphical models, and neural networks to learn gene regulation networks and predict phenotypes. Key challenges addressed are handling big data, missing values, non-Gaussian data types like counts and compositional data. The goal is to better understand complex biological systems from multi-omics data.
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...tuxette
The document summarizes preliminary results from evaluating methods for inferring gene regulatory networks from expression data in Bacillus subtilis. It finds that recall of the known network is generally poor (<20% for random forest), but inferred clusters still retain biological information about common regulators. It plans to confirm results, test restricting edges to sigma factors, and explore other inference methods like Bayesian networks and ARACNE.
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...tuxette
The document discusses methods for integrating multi-scale omics data using kernel and machine learning approaches. It describes how omics data is large, heterogeneous, and multi-scaled, creating bottlenecks for analysis. Methods discussed for data integration include multiple kernel learning to combine different relational datasets in an unsupervised way. The methods are applied to integrate different datasets from the TARA Oceans expedition to identify patterns in ocean microbial communities. Improving interpretability of the methods and making them more accessible to biological users is discussed.
Journal club: Validation of cluster analysis results on validation datatuxette
This document presents a framework for validating cluster analysis results on validation data. It describes situations where clustering is inferential versus descriptive and recommends using validation data separate from the data used for clustering. A typology of validation methods is provided, including validation based on the clustering method or results, and evaluation using internal validation, external validation, visual properties, or stability measures.
The document discusses the differences between overfitting and overparametrization in machine learning models. It explores how random forests may exhibit a phenomenon known as "double descent" where test error initially decreases then increases with more parameters before decreasing again. While double descent has been observed in other models, the document questions whether it is directly due to model complexity in random forests since very large trees may be unable to fully interpolate extremely large datasets.
Selective inference and single-cell differential analysistuxette
This document discusses selective inference and single-cell differential analysis. It introduces the problem of "double dipping" in the standard single-cell analysis pipeline where the same dataset is used for clustering and differential analysis. Two approaches for addressing this are presented: 1) A method that perturbs clusters before testing for differences, and 2) A test based on a truncated distribution that assumes clusters and genes are given separately. Experiments applying these methods to real single-cell datasets are described. The document outlines challenges in extending these approaches to more complex analyses.
SOMbrero : un package R pour les cartes auto-organisatricestuxette
SOMbrero is an R package that implements self-organizing map (SOM) algorithms. It can handle numeric, non-numeric, and relational data. The package contains functions for training SOMs, diagnosing results, and plotting maps. It also includes tools like a shiny app and vignettes to aid users without programming experience. SOMbrero supports missing data imputation and extends SOM to relational datasets through non-Euclidean distance measures.
Graph Neural Network for Phenotype Predictiontuxette
This document describes a study on using graph neural networks (GNNs) for phenotype prediction from gene expression data. The objectives are to determine if including network information can improve predictions, which network types work best, and if GNNs can learn network inferences. It provides background on GNNs and how they generalize convolutional layers to graph data. The authors implemented a GNN model from previous work as a starting point and tested it on different network types to see which network information is most useful for predictions. Their methodology involves comparing GNN performance to other methods like random forests using 10-fold cross validation.
A short and naive introduction to using network in prediction modelstuxette
The document provides an introduction to using network information in prediction models. It discusses representing a network as a graph with a Laplacian matrix. The Laplacian captures properties like random walks on the graph and heat diffusion. Eigenvectors of the Laplacian related to small eigenvalues are strongly tied to graph structure. The document discusses using the Laplacian in prediction models by working in the feature space defined by the Laplacian eigenvectors or directly regularizing a linear model with the Laplacian. This introduces network information and encourages similar contributions from connected nodes. The approaches are applied to problems like predicting phenotypes from gene expression using a known gene network.
Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse
1. Séminaire SAMOS
4 février 2005
RRééseaux de neurones et SVMseaux de neurones et SVM
àà entrentréées fonctionnelles : unees fonctionnelles : une
approche par rapproche par réégressiongression
inverseinverse
Nathalie Villa (GRIMM - SMASH)
Université Toulouse Le Mirail
2. Séminaire SAMOS
4 février 2005
OBJECTIFSOBJECTIFS
ObjectifsObjectifs
Trouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale
Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnels
SVM fonctionnelsSVM fonctionnelsSVM fonctionnels
5. Séminaire SAMOS
4 février 2005
Contexte théorique
• X ∈ (H,<.,.>) (espace de Hilbert ; typiquement
H=L2)
• On dispose de N observations : (X1 ,Y1),…(XN ,YN)
et on cherche à estimer E(Y / X) par perceptron
multi-couches, par SVM…
Perceptron
multi-couches,
SVM
1
C1
1
CK
Y =
Y réel
6. Séminaire SAMOS
4 février 2005
Problèmes habituels liés
à ce cadre
• Problèmes d’inversion d’opérateurs
Exemple : dans le modèle linéaire fonctionnel Y = <ψ , X> + ε, on a la
relation ΓXY = ΓX ψ mais l’opérateur ΓX n’est pas borné et n’a donc pas
d’inverse continu même lorsqu’il est bijectif.
•Problèmes liés à l’existence de trop de solutions à
une équation donnée (problèmes mal posés)
Exemple : en AFD, on recherche a ∈ H qui maximise Cor(<a,X>,Y) ;
étant donnés des exemples (X1,Y1),…, (XN,YN), on peut toujours trouver
une infinité de a ∈ H tel que Cor({<a,Xk>,Yk }k=1..N) = 1
Voir : Leurgans, Moyeed and Silverman (1993)
7. Séminaire SAMOS
4 février 2005
Contexte pratique
• Les observations : (X1 ,Y1),…(XN ,YN) ne sont connues qu’au
travers d’une discrétisation aux points t1,…,tD
⇒ connaissance imparfaite des observations : il faut approcher les
opérations usuelles (produit scalaire…)
Voir : Rossi et Conan-Guez (2004)
⇒ nécessité de trouver un mode de représentation approprié des
paramètres fonctionnels du modèle étudié
Exemple : pour les perceptrons multi-couches, on cherchera à trouver
une représentation adéquate des poids fonctionnels du réseau
⇒ travailler dans RD est habituellement une mauvaise idée… !
(variables de grandes dimensions et fortement corrélées,
matrices mal conditionnées…)
8. Séminaire SAMOS
4 février 2005
Quelques outils
habituels de résolution
• Projection des données sur un espace de
dimension finie (d) puis travail habituel dans Rd
– sur une base ACP
Voir : Bosq (1991) (Processus AR),
Cardot, Ferraty et Sarda (1999) (Modèle Linéaire)
Thodberg (1996) (Perceptron multi-couches)
– sur une base orthonormée de L2 (base trigonométrique,
par exemple)
Voir : Biau, Bunea, Wegkamp (2004) (k Plus Proches Voisins)
9. Séminaire SAMOS
4 février 2005
– sur une base B-Spline
Voir : Rossi et Conan-Guez (2004)
• Régularisation : on impose aux estimateurs
certaines conditions de régularité
Voir : Leurgans, Moyeed and Silverman (1993) (Analyse Canonique)
10. Séminaire SAMOS
4 février 2005
TROUVER UNE BASE DETROUVER UNE BASE DE
PROJECTION OPTIMALEPROJECTION OPTIMALE
ObjectifsObjectifsObjectifs
Trouver une base de projection optimaleTrouver une base de projection optimale
Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnels
SVM fonctionnelsSVM fonctionnelsSVM fonctionnels
11. Séminaire SAMOS
4 février 2005
Principaux avantages de
l’approche proposée
• On détermine une base de projection qui dépend :
– des données (procédure automatique de détermination),
– de la cible Y (la base est exactement adaptée au but poursuivi).
• On projette les données sur cette base avant de les traiter
par réseaux de neurones
– le vecteur d’entrée est de faible dimension (traitement rapide).
• On dispose d’un résultat qui assure la convergence des
paramètres empiriques vers les poids optimaux théoriques
du perceptron.
12. Séminaire SAMOS
4 février 2005
Fonctional Inverse
Regression : le modèle
Pour X ∈ L2, on suppose que
Y = f (<X,a1>,…,<X,aq>,ε) (Condition de Li)
Alors, E(Y/X) appartient à Vect{ΓXaj} et l’espace EDR
(Vect{aj}) s’obtient par décomposition spectrale de l’opérateur
ΓX
-1 ΓE(Y/X).
Problème : ΓX n’est pas inversible donc les vecteurs
propres de (ΓX
N)-1 ΓN
E(Y/X) ne convergent pas vers les
vecteurs propres de ΓX
-1 ΓE(Y/X).
⇒ On estime ΓX par ΓX
N + α [.,.] où [.,.] est
un terme de pénalisation destiné à régulariser
les estimateurs â1,…,âq.
13. Séminaire SAMOS
4 février 2005
Consistance
Théorème : Sous les hypothèses
– E(||X||4) < +∞
– ∀ α > 0, inf{<ΓX
Na,a> + α [a,a] : ||a||=1} = ρα > 0
– limN→+∞ α = 0 et limN→+∞ Nα² = +∞
– Les valeurs propres de ΓX sont distinctes
La probabilité que ΓE(X/Y)
N admette un maximum sur
inf{ΓX
N + α [a,a] : ||a||=1} tend vers 1 et ce maximum a1
N
converge en probabilité vers a1
Voir : Ferré et Villa (2005a)
14. Séminaire SAMOS
4 février 2005
Remarques
• Condition de Li peu restrictive pour les vecteurs de
grande dimension
• FIR peut être utilisée pour des problèmes de
régression et des problèmes de discrimination
• De manière pratique, on a choisi [f,g] = <D²f,D²g>
15. Séminaire SAMOS
4 février 2005
Exemple : phonèmes
• Méthodes comparées :
– SIR régularisée + Noyau
– SIR projetée + Noyau
– SIR pseudo-inverse + Noyau
– Ridge-PDA Voir : Hastie, Buja, Tibshirani (1995)
– NPCD – PCA Voir : Ferraty, Vieu (2003)
• Protocole expérimental : Sur 50 échantillons
aléatoires, on effectue la discrimination sur un échantillon
d’apprentissage et on calcule le taux d’erreur sur un
échantillon de test.
17. Séminaire SAMOS
4 février 2005
Projection sur les deux
premiers vecteurs
propres SIR
régularisée
Projection sur les deux
premiers vecteurs
propres SIR projetée
18. Séminaire SAMOS
4 février 2005
50 100 150 200 250
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
50 100 150 200 250
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
Espace EDR pour SIR
régularisée
Espace EDR pour SIR
projetée
19. Séminaire SAMOS
4 février 2005
RESEAUX DE NEURONESRESEAUX DE NEURONES
FONCTIONNELSFONCTIONNELS
ObjectifsObjectifsObjectifs
Trouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale
Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnels
SVM fonctionnelsSVM fonctionnelsSVM fonctionnels
20. Séminaire SAMOS
4 février 2005
Principe de FIR-NN
X Y = f (<X,a1>,…,<X,aq>,ε)
FIR
{<X,âj >}j=1…q
Perceptron
multi-couches Y
Estimation de f
(Projection des données
sur une estimation de
l’espace EDR)
21. Séminaire SAMOS
4 février 2005
Consistance
Sous les hypothèses du théorème précédent et
d’un certain nombre d’hypothèses techniques, les
poids permettant d’obtenir l’erreur empirique
minimum convergent en probabilité vers les poids
théoriques lorsque le nombre d’observations tend
vers +∞.
22. Séminaire SAMOS
4 février 2005
Exemple : Tecator data
• Méthodes comparées :
– SIR régularisée + NN
– SIR pseudo-inverse + NN
– ACP + NN
– NNf (par projection sur Spline)
– SIR + Linéaire
• Protocole expérimental :
Sur 50 échantillons aléatoires, on effectue la discrimination
sur un échantillon d’apprentissage et on calcule le taux
d’erreur sur un échantillon de test.
24. Séminaire SAMOS
4 février 2005
SVM FONCTIONNELSSVM FONCTIONNELS
ObjectifsObjectifsObjectifs
Trouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale
Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnels
SVM fonctionnelsSVM fonctionnels
25. Séminaire SAMOS
4 février 2005
Principe SVM
Φ (non linéaire)
x1,…, xN ∈ H Espace image
(grande dimension)
z1,…,zN
26. Séminaire SAMOS
4 février 2005
Formulation
mathématique
• On cherche à minimiser ½ ||w||² sous la contrainte
yi (<zi , w> + b) ≥ 1, ∀i = 1,…,N
• Ceci se met sous la forme duale : maximiser
αi – αi αj yiyj <zi , zj>
sous la contrainte αi ≥ 0, ∀i = 1,…,N
• zi = Φ(xi) où < Φ(x) , Φ(x’)> = K(z,z’) (théorème de
Moore-Aronszajn)
∑=
N
i 1
∑=
N
i 1
27. Séminaire SAMOS
4 février 2005
Solution
• La classification se fait selon l’hyperplan
d’équation
sign(<z,w*>+b),
où w* = αi
* yi zi et où seuls un « petit » nombre
de αi
* sont non nuls : ils déterminent les vecteurs
supports.
Espace image
zi,…,zN
Vecteurs
supports
(participent à la
construction de la
frontière de décision)
∑=
N
i 1
28. Séminaire SAMOS
4 février 2005
Problèmes spécifiques
du cas fonctionnel
• Dans un espace de dimension infinie, il y a
toujours une séparation linéaire
• Mais, même dans ce cadre, on peut rencontrer les
problèmes habituels dûs à la grande dimension ou
de connaissance incomplète des données
(discrétisation)
• L’utilisation de noyaux fonctionnels peut apporter
un plus (utilisation de la nature spécifique des
données)
29. Séminaire SAMOS
4 février 2005
FIR + SVM pour
classification
X ∈H
FIR
<X,â1>,…, <X,âq>
Y = f (<X,a1>,…,<X,aq>,ε)
Φ(non linéaire)
Noyau classique
Espace image
Z
Estimation de f
31. Séminaire SAMOS
4 février 2005
Méthodologie
• Méthodes comparées :
– SIR + SVM RBF
– SVM RBF sur la discrétisation
– Ridge PDA
– SIR + Noyau
• Protocole expérimental :
Sur 10 échantillons aléatoires, on détermine les
paramètres optimaux par validation croisée puis on évalue
l’erreur commise sur un échantillon indépendant
(apprentissage : 3 × 100, validation : 500, test : 500).
32. Séminaire SAMOS
4 février 2005
Résultats
12,3712,4710,1711,73
Moyenne
(app)
1212,612,2010,20
Minimum
(test)
2,012,053,042,25
Ecart type
(test)
14,1615,6215,4613,70
Moyenne
(test)
SIR + NoyR-PDASVMSIR + SVM
33. Séminaire SAMOS
4 février 2005
Conclusion et
perspectives
• FIR permet une approche semi-paramétrique pour
l’implémentation de données fonctionnelles dans
réseaux neuronaux et SVM
• Implémentation facile et bon comportement
expérimental
• Perspectives :
– SVM fonctionnels pour régression ;
– Autres approches fonctionnelles pour SVM ;
– Consistance de méthodes pour SVM fonctionnels…
34. Séminaire SAMOS
4 février 2005
Bibliographie (1)
• Leurgans, Moyeed and Silverman (1993) Canonical
Correlation Analysis when the Data are Curves, J. R. Statist.
Soc. B, 55, 3, 725-740.
• Rossi and Conan-Guez (2004) Functional multi-Layer
perceptron: a non-linear tool for functional data analysis,
Neural Networks, à paraître.
• Bosq (1991) Modelization, non-parametric estimation and
prediction for continuous time processes, In Roussas, G.,
editor, Nonparametric Functional Estimation and Related Topics,
NATO, ASI Series, 509-529.
35. Séminaire SAMOS
4 février 2005
Bibliographie (2)
• Cardot, Ferraty and Sarda (1999) Functional Linear Model,
Statistics and Probability Letters, 45, 1, 11-22.
• Thodberg (1996) A Review of Bayesian Neural Networks
with an Application to Near Infrared Spectroscopy, IEEE
Transactions on Neural Networks, 7, 1, 56-72.
• Biau, Bunea and Wegkamp (2004) Functional classification
in Hilbert Spaces, soumis.
(www.math.univ-montp2.fr/~biau/publications.html)
• Ferré and Villa (2005) Multi-Layer Neural Network with
functional inputs: an inverse regression approach, soumis.
36. Séminaire SAMOS
4 février 2005
Bibliographie (3)
• Hastie, Buja and Tibshirani (1995) Penalized discriminant
analysis, Ann. Statist., 23, 1, 73-102.
• Ferraty and Vieu (2003) Curves discrimination: a
nonparametric functional approach, Computational Statistics
and Data Analysis, 44, 161-173.
38. Séminaire SAMOS
4 février 2005
Annexe 1 : Opérateurs
hilbertiens
• Espérance de X ∈ H : ∀ u ∈ H, E(<X,u>)=<E(X),u>
(théorème de Riesz)
• Opérateur de variance de X : ΓX = E(X ⊗ X) avec
X ⊗ X : u → <X,u> X (opérateur continu de H où
l’ensemble des opérateurs continus de H est un
espace de Hilbert)
• Estimateur de l’opérateur de variance :
ΓX
N = Xn ⊗ Xn∑=
N
n
N 1
1