Apprentissage du quantron : un problème d\’optimisation non différentiablesdemontigny
Présentation au séminaire de mathématiques appliquées du département de Mathématiques et de Génie Industriel (3 avril 2008, École Polytechnique de Montréal)
Enhance The K Means Algorithm On Spatial DatasetAlaaZ
The document describes an enhancement to the standard k-means clustering algorithm. The enhancement aims to improve computational speed by storing additional information from each iteration, such as the closest cluster and distance for each data point. This avoids needing to recompute distances to all cluster centers in subsequent iterations if a point does not change clusters. The complexity of the enhanced algorithm is reduced from O(nkl) to O(nk) where n is points, k is clusters, and l is iterations.
The k-means clustering algorithm takes as input the number of clusters k and a set of data points, and assigns each data point to one of k clusters. It works by first randomly selecting k data points as initial cluster centroids. It then assigns each remaining point to the closest centroid, and recalculates the centroid positions. This process repeats until the centroids are stable or a stopping criteria is reached. As an example, the document applies k-means to cluster 6 data points into 2 groups, showing the random selection of initial centroids, assignment of points, and recalculation of centroids over multiple steps.
The document describes the k-means clustering algorithm. It introduces clustering and its aim to divide data points into k clusters to minimize within-cluster sums of squares. The algorithm involves initializing cluster centers, then iteratively performing optimal transfers of points between clusters and quick transfers until convergence is reached. Optimal transfers minimize an objective function to determine the best cluster for a point, while quick transfers perform simpler transfers without minimizing the objective.
Apprentissage du quantron : un problème d\’optimisation non différentiablesdemontigny
Présentation au séminaire de mathématiques appliquées du département de Mathématiques et de Génie Industriel (3 avril 2008, École Polytechnique de Montréal)
Enhance The K Means Algorithm On Spatial DatasetAlaaZ
The document describes an enhancement to the standard k-means clustering algorithm. The enhancement aims to improve computational speed by storing additional information from each iteration, such as the closest cluster and distance for each data point. This avoids needing to recompute distances to all cluster centers in subsequent iterations if a point does not change clusters. The complexity of the enhanced algorithm is reduced from O(nkl) to O(nk) where n is points, k is clusters, and l is iterations.
The k-means clustering algorithm takes as input the number of clusters k and a set of data points, and assigns each data point to one of k clusters. It works by first randomly selecting k data points as initial cluster centroids. It then assigns each remaining point to the closest centroid, and recalculates the centroid positions. This process repeats until the centroids are stable or a stopping criteria is reached. As an example, the document applies k-means to cluster 6 data points into 2 groups, showing the random selection of initial centroids, assignment of points, and recalculation of centroids over multiple steps.
The document describes the k-means clustering algorithm. It introduces clustering and its aim to divide data points into k clusters to minimize within-cluster sums of squares. The algorithm involves initializing cluster centers, then iteratively performing optimal transfers of points between clusters and quick transfers until convergence is reached. Optimal transfers minimize an objective function to determine the best cluster for a point, while quick transfers perform simpler transfers without minimizing the objective.
During the joint meetup with Duchess France and PyLadies Paris, Deborah Boyenval, PhD Student at Université Côté d'Azur presented a part of her PhD work: “Formal modeling of biological cyclic behavior with control points: the case of the cell cycle”.
The main limitation of biologists rooted in an experimental practice is the ability to perform rigorous proofs in the absence of a language for formalizing the biological knowledge extracted from their experiments.
Biologists have identified numerous biochemical and genetic mechanisms involved in physiological functions or diseases, but once this knowledge is linked together it remains extremely difficult and expensive to predict the impact of genetic mechanisms on physiological functions.
Déborah will present to us her thesis, which focuses firstly on a reasonable mathematical specification of complex biological functions such as cell cycle checkpoints, which represent the main barrier against cancer. Secondly, she focused on the development of an automated proof method, using the mentioned tools, proving whether a set of genetic regulations is sufficient to generate cell cycle checkpoints.
Calcul de la vulnérabilité aux changements climatiques pour les vagues de cha...ACSG - Section Montréal
Calcul de la vulnérabilité aux changements climatiques pour les vagues de chaleur à l’aide de l’intelligence artificielle et des SIG
Jean-Nicolas Côté, B.pharm., M.env.
Doctorant au département de géomatique appliquée de l’Université de Sherbrooke
predict if a customer will remain faithful with a large telephone company in the north America or he will leave it based on some predictive models such as logistic regression, support vector machines, neural networks and decision trees.
Racines en haut et feuilles en bas : les arbres en mathstuxette
1. The document discusses methods for clustering and differential analysis of Hi-C matrices, which represent the 3D organization of DNA.
2. It proposes extending Ward's hierarchical clustering to directly use Hi-C similarity matrices while enforcing adjacency constraints. A fast algorithm was also developed.
3. A new method called "treediff" was created to perform differential analysis of Hi-C matrices based on the Wasserstein distance between hierarchical clusterings. Software implementations of these methods were also developed.
Méthodes à noyaux pour l’intégration de données hétérogènestuxette
The document discusses a presentation about multi-omics data integration methods using kernel methods. The presentation introduces kernel methods, how they can be used to integrate heterogeneous omics data, and examples of applications. Specifically, it discusses using kernel methods to perform unsupervised transformation-based integration of multi-omics data. It also presents an application of constrained kernel hierarchical clustering to analyze Hi-C data by directly using Hi-C matrices as kernels.
Méthodologies d'intégration de données omiquestuxette
This document presents a presentation on multi-omics data integration methods given by Nathalie Vialaneix on December 13, 2023. The presentation discusses different types of omics data that can be integrated, both vertically across different levels of omics data on the same samples and horizontally across similar types of omics data on different samples. It also discusses different analysis approaches that can be taken, including supervised and unsupervised methods. The rest of the presentation focuses on unsupervised transformation-based integration methods using kernels.
Contenu connexe
Similaire à Comparaison de méthodes de classification de sommets dans un réseau biologique
During the joint meetup with Duchess France and PyLadies Paris, Deborah Boyenval, PhD Student at Université Côté d'Azur presented a part of her PhD work: “Formal modeling of biological cyclic behavior with control points: the case of the cell cycle”.
The main limitation of biologists rooted in an experimental practice is the ability to perform rigorous proofs in the absence of a language for formalizing the biological knowledge extracted from their experiments.
Biologists have identified numerous biochemical and genetic mechanisms involved in physiological functions or diseases, but once this knowledge is linked together it remains extremely difficult and expensive to predict the impact of genetic mechanisms on physiological functions.
Déborah will present to us her thesis, which focuses firstly on a reasonable mathematical specification of complex biological functions such as cell cycle checkpoints, which represent the main barrier against cancer. Secondly, she focused on the development of an automated proof method, using the mentioned tools, proving whether a set of genetic regulations is sufficient to generate cell cycle checkpoints.
Calcul de la vulnérabilité aux changements climatiques pour les vagues de cha...ACSG - Section Montréal
Calcul de la vulnérabilité aux changements climatiques pour les vagues de chaleur à l’aide de l’intelligence artificielle et des SIG
Jean-Nicolas Côté, B.pharm., M.env.
Doctorant au département de géomatique appliquée de l’Université de Sherbrooke
predict if a customer will remain faithful with a large telephone company in the north America or he will leave it based on some predictive models such as logistic regression, support vector machines, neural networks and decision trees.
Similaire à Comparaison de méthodes de classification de sommets dans un réseau biologique (19)
Racines en haut et feuilles en bas : les arbres en mathstuxette
1. The document discusses methods for clustering and differential analysis of Hi-C matrices, which represent the 3D organization of DNA.
2. It proposes extending Ward's hierarchical clustering to directly use Hi-C similarity matrices while enforcing adjacency constraints. A fast algorithm was also developed.
3. A new method called "treediff" was created to perform differential analysis of Hi-C matrices based on the Wasserstein distance between hierarchical clusterings. Software implementations of these methods were also developed.
Méthodes à noyaux pour l’intégration de données hétérogènestuxette
The document discusses a presentation about multi-omics data integration methods using kernel methods. The presentation introduces kernel methods, how they can be used to integrate heterogeneous omics data, and examples of applications. Specifically, it discusses using kernel methods to perform unsupervised transformation-based integration of multi-omics data. It also presents an application of constrained kernel hierarchical clustering to analyze Hi-C data by directly using Hi-C matrices as kernels.
Méthodologies d'intégration de données omiquestuxette
This document presents a presentation on multi-omics data integration methods given by Nathalie Vialaneix on December 13, 2023. The presentation discusses different types of omics data that can be integrated, both vertically across different levels of omics data on the same samples and horizontally across similar types of omics data on different samples. It also discusses different analysis approaches that can be taken, including supervised and unsupervised methods. The rest of the presentation focuses on unsupervised transformation-based integration methods using kernels.
The document discusses current and future work on analyzing Hi-C data and differential analysis of Hi-C matrices. It describes a clustering method developed to partition chromosomes based on Hi-C matrix similarity. It also introduces a new method called treediff for differential analysis of Hi-C data that calculates the distance between hierarchical clusterings. Current work includes reviewing differential analysis methods, investigating differential subtrees with multiple testing control, and inferring chromatin interaction networks.
Can deep learning learn chromatin structure from sequence?tuxette
This document discusses a deep learning model called ORCA that can predict chromatin structure from DNA sequence. The model uses a neural network with an encoder to extract features from sequence and a decoder to predict Hi-C matrices. It was trained on Hi-C data from multiple cell types and can predict interactions between regions at various resolutions. The model accurately captures features like CTCF-mediated loops and can predict effects of structural variants on chromatin structure. It allows for in silico mutagenesis to study how mutations may alter 3D genome organization.
Multi-omics data integration methods: kernel and other machine learning appro...tuxette
The document discusses multi-omics data integration methods, particularly kernel methods. It describes how kernel methods transform data into similarity matrices between samples rather than relying on variable space. Multiple kernel integration approaches are presented that combine multiple similarity matrices into a consensus kernel in an unsupervised manner, such as through a STATIS-like framework that maximizes the similarity between kernels. Examples of applications to datasets from the TARA Oceans expedition are given.
This document provides an overview of the MetaboWean and Idefics projects. MetaboWean aims to study the co-evolution of gut microbiota and epithelium during suckling-to-weaning transition in rabbits, using metabolomics, metagenomics, and single-cell RNA sequencing data. Idefics integrates multiple omics datasets from human skin samples to understand relationships between microorganisms and molecules and how they are structured in patient groups. The datasets include metagenomics, metabolomics, and proteomics from host and microbiota.
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...tuxette
ASTERICS is an interactive and integrative data analysis tool for omics data. It uses Rserve and PyRserve with Flask and Vue.js in a Docker container to integrate omics data. The backend uses Rserve and PyRserve with Flask on the server side, while the frontend uses Vue.js. This architecture was chosen for its open source and light design. Data communication between Rserve and PyRserve is limited, requiring an object database. ASTERICS is deployed using three Docker containers for R, Python, and
Apprentissage pour la biologie moléculaire et l’analyse de données omiquestuxette
This document summarizes a scientific presentation about molecular biology and omics data analysis. The presentation covers topics related to analyzing large omics datasets using methods like kernel methods, graphical models, and neural networks to learn gene regulation networks and predict phenotypes. Key challenges addressed are handling big data, missing values, non-Gaussian data types like counts and compositional data. The goal is to better understand complex biological systems from multi-omics data.
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...tuxette
The document summarizes preliminary results from evaluating methods for inferring gene regulatory networks from expression data in Bacillus subtilis. It finds that recall of the known network is generally poor (<20% for random forest), but inferred clusters still retain biological information about common regulators. It plans to confirm results, test restricting edges to sigma factors, and explore other inference methods like Bayesian networks and ARACNE.
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...tuxette
The document discusses methods for integrating multi-scale omics data using kernel and machine learning approaches. It describes how omics data is large, heterogeneous, and multi-scaled, creating bottlenecks for analysis. Methods discussed for data integration include multiple kernel learning to combine different relational datasets in an unsupervised way. The methods are applied to integrate different datasets from the TARA Oceans expedition to identify patterns in ocean microbial communities. Improving interpretability of the methods and making them more accessible to biological users is discussed.
Journal club: Validation of cluster analysis results on validation datatuxette
This document presents a framework for validating cluster analysis results on validation data. It describes situations where clustering is inferential versus descriptive and recommends using validation data separate from the data used for clustering. A typology of validation methods is provided, including validation based on the clustering method or results, and evaluation using internal validation, external validation, visual properties, or stability measures.
The document discusses the differences between overfitting and overparametrization in machine learning models. It explores how random forests may exhibit a phenomenon known as "double descent" where test error initially decreases then increases with more parameters before decreasing again. While double descent has been observed in other models, the document questions whether it is directly due to model complexity in random forests since very large trees may be unable to fully interpolate extremely large datasets.
Selective inference and single-cell differential analysistuxette
This document discusses selective inference and single-cell differential analysis. It introduces the problem of "double dipping" in the standard single-cell analysis pipeline where the same dataset is used for clustering and differential analysis. Two approaches for addressing this are presented: 1) A method that perturbs clusters before testing for differences, and 2) A test based on a truncated distribution that assumes clusters and genes are given separately. Experiments applying these methods to real single-cell datasets are described. The document outlines challenges in extending these approaches to more complex analyses.
SOMbrero : un package R pour les cartes auto-organisatricestuxette
SOMbrero is an R package that implements self-organizing map (SOM) algorithms. It can handle numeric, non-numeric, and relational data. The package contains functions for training SOMs, diagnosing results, and plotting maps. It also includes tools like a shiny app and vignettes to aid users without programming experience. SOMbrero supports missing data imputation and extends SOM to relational datasets through non-Euclidean distance measures.
Graph Neural Network for Phenotype Predictiontuxette
This document describes a study on using graph neural networks (GNNs) for phenotype prediction from gene expression data. The objectives are to determine if including network information can improve predictions, which network types work best, and if GNNs can learn network inferences. It provides background on GNNs and how they generalize convolutional layers to graph data. The authors implemented a GNN model from previous work as a starting point and tested it on different network types to see which network information is most useful for predictions. Their methodology involves comparing GNN performance to other methods like random forests using 10-fold cross validation.
A short and naive introduction to using network in prediction modelstuxette
The document provides an introduction to using network information in prediction models. It discusses representing a network as a graph with a Laplacian matrix. The Laplacian captures properties like random walks on the graph and heat diffusion. Eigenvectors of the Laplacian related to small eigenvalues are strongly tied to graph structure. The document discusses using the Laplacian in prediction models by working in the feature space defined by the Laplacian eigenvectors or directly regularizing a linear model with the Laplacian. This introduces network information and encourages similar contributions from connected nodes. The approaches are applied to problems like predicting phenotypes from gene expression using a known gene network.
Comparaison de méthodes de classification de sommets dans un réseau biologique
1. Comparaison de méthodes de
classification de sommets dans un réseau
biologique
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
Institut de Mathématiques de Toulouse &
IUT de Carcassonne (Université de Perpignan)
30 mars 2010
Séminaire de Biomathématiques, INRA de Castanet
1 / 24
Classification dans les réseaux biologiques
2. Travail réalisé en collaboration avec :
Pierre Cherel
Adrien Gamot
Laurence Liaubet
Fabrice Rossi
Magali SanCristobal
2 / 24
Classification dans les réseaux biologiques
3. Sommaire
1 Présentation des données
2 Classification des sommets
3 / 24
Classification dans les réseaux biologiques
5. Présentation des données
Production d’animaux F2 avec des fac-
teurs de variation génétique
F0 : 16 ♂ (Piétrain) × 28 ♀ (Synthétique)
F1 : 17 ♂ × 62 ♀
F2 : 1200 animaux structurés par lignée de père
Prélèvement de tissus
(dont longissimus dorsi)
Mesures phénotypiques (30)
(force de cisaillement, PH ...)
5 / 24
Classification dans les réseaux biologiques
6. Présentation des données
Production d’animaux F2 avec des fac-
teurs de variation génétique
F0 : 16 ♂ (Piétrain) × 28 ♀ (Synthétique)
F1 : 17 ♂ × 62 ♀
F2 : 1200 animaux structurés par lignée de père
Prélèvement de tissus
(dont longissimus dorsi)
Mesures phénotypiques (30)
(force de cisaillement, PH ...)
Données retenues : Une famille de 56 individus F2 (plus forte
variabilité pour force de cisaillement et PH) ; transcri. 2 464 gènes.
5 / 24
Classification dans les réseaux biologiques
7. Présentation des données
Sélection d’un sous-ensemble de gènes
: eQTL
QTL (Quantitative Trait Locus) : Un QTL correspond à une
région génomique liée à un caractère (phénotype) d’intérêt
(contrôlé génétiquement, dans l’idéal).
Exemple : QTL pour la force de cisaillement et la tendreté de la
viande
6 / 24
Classification dans les réseaux biologiques
8. Présentation des données
Sélection d’un sous-ensemble de gènes
: eQTL
QTL (Quantitative Trait Locus) : Un QTL correspond à une
région génomique liée à un caractère (phénotype) d’intérêt
(contrôlé génétiquement, dans l’idéal).
eQTL (QTL d’expression) : Un eQTL est une position
chromosomique responsable de la variabilité d’expression d’un ou
plusieurs gènes.
Exemple : Dans le jeu de données 330 gènes sont régulés par un
eQTL.
6 / 24
Classification dans les réseaux biologiques
9. Présentation des données
Sélection d’un sous-ensemble de gènes
: eQTL
QTL (Quantitative Trait Locus) : Un QTL correspond à une
région génomique liée à un caractère (phénotype) d’intérêt
(contrôlé génétiquement, dans l’idéal).
eQTL (QTL d’expression) : Un eQTL est une position
chromosomique responsable de la variabilité d’expression d’un ou
plusieurs gènes.
Exemple : Dans le jeu de données 330 gènes sont régulés par un
eQTL.
Héritabilité : L’héritabilité est la part de variance génétique sur la
variance totale.
Gènes retenus : eQTL dont l’héritabilité est supérieure à 10% :
128 gènes.
6 / 24
Classification dans les réseaux biologiques
10. Présentation des données
Des gènes aux réseaux de gènes
Intérêt : Détecter et analyser les réseaux de gènes impliqués dans
une ou plusieurs fonctions biologiques.
7 / 24
Classification dans les réseaux biologiques
11. Présentation des données
Des gènes aux réseaux de gènes
Intérêt : Détecter et analyser les réseaux de gènes impliqués dans
une ou plusieurs fonctions biologiques.
Que modélise un réseau de gènes ?
Sommets : Gènes (128 dans
notre exemple)
Arêtes : Corrélation forte dans
l’expression des deux gènes
7 / 24
Classification dans les réseaux biologiques
12. Présentation des données
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènes
peut être perturbé par des relations communes indirectes qui ne
sont pas révélatrices d’un phénomène biologique.
8 / 24
Classification dans les réseaux biologiques
13. Présentation des données
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènes
peut être perturbé par des relations communes indirectes qui ne
sont pas révélatrices d’un phénomène biologique.
Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X, est issue d’une
distribution N(µ, Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,
πij = Cor(Xi
, Xj
|(Xk
)k i,j) ;
8 / 24
Classification dans les réseaux biologiques
14. Présentation des données
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènes
peut être perturbé par des relations communes indirectes qui ne
sont pas révélatrices d’un phénomène biologique.
Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X, est issue d’une
distribution N(µ, Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,
πij = Cor(Xi
, Xj
|(Xk
)k i,j) ;
Sous H, πij =
−wij
√
wii wjj
avec Σ−1
= (wij)i,j.
8 / 24
Classification dans les réseaux biologiques
15. Présentation des données
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènes
peut être perturbé par des relations communes indirectes qui ne
sont pas révélatrices d’un phénomène biologique.
Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X, est issue d’une
distribution N(µ, Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,
πij = Cor(Xi
, Xj
|(Xk
)k i,j) ;
Sous H, πij =
−wij
√
wii wjj
avec Σ−1
= (wij)i,j.
Problème important : Estimation et inversion de Σ !
8 / 24
Classification dans les réseaux biologiques
16. Présentation des données
Estimation des corrélations partielles
[Schäfer and Strimmer, 2005]
Estimation des corrélations partielles par boostrap (package R
“GeneNet”) : Répéter
1 Générer un échantillon bootstrap b∗
dans les données initiales ;
2 Déterminer la variance empirique sur l’échantillon boostrap, ˆΣb∗
;
3 Calculer le pseudo-inverse de ˆΣb∗
, ˆWb∗
puis ˆΠb∗
;
9 / 24
Classification dans les réseaux biologiques
17. Présentation des données
Estimation des corrélations partielles
[Schäfer and Strimmer, 2005]
Estimation des corrélations partielles par boostrap (package R
“GeneNet”) : Répéter
1 Générer un échantillon bootstrap b∗
dans les données initiales ;
2 Déterminer la variance empirique sur l’échantillon boostrap, ˆΣb∗
;
3 Calculer le pseudo-inverse de ˆΣb∗
, ˆWb∗
puis ˆΠb∗
;
Estimer Π par la moyenne des ˆΠb∗
.
9 / 24
Classification dans les réseaux biologiques
18. Présentation des données
Estimation des corrélations partielles
[Schäfer and Strimmer, 2005]
Estimation des corrélations partielles par boostrap (package R
“GeneNet”) : Répéter
1 Générer un échantillon bootstrap b∗
dans les données initiales ;
2 Déterminer la variance empirique sur l’échantillon boostrap, ˆΣb∗
;
3 Calculer le pseudo-inverse de ˆΣb∗
, ˆWb∗
puis ˆΠb∗
;
Estimer Π par la moyenne des ˆΠb∗
.
Combien d’observations pour estimer correctement Π ?
9 / 24
Classification dans les réseaux biologiques
19. Présentation des données
Résultat de l’estimation des corrélations
partielles
Histogramme des corrélations partielles estimées sur les 128 eQTL
Corrélations partielles
−0.2 −0.1 0.0 0.1 0.2
01000200030004000
Seules les corrélations les
plus importantes sont con-
servées.
Méthode 1 : Test
[Schäfer and Strimmer, 2005]
basé sur un a priori bayésien.
Méthode 2 (utilisée) : Seuil-
lage pour l’obtention d’une
densité fixée à l’avance (ici :
entre 5% et 10%).
10 / 24
Classification dans les réseaux biologiques
23. Classification des sommets
Objectifs du travail
Point de vue méthodologique : Évaluer la pertinence biologique
de diverses approches de classification de sommets ;
Point de vue biologique : Formuler des hypothèses sur la fonction
biologique de certains gènes non répertoriés.
13 / 24
Classification dans les réseaux biologiques
24. Classification des sommets
Objectifs du travail
Point de vue méthodologique : Évaluer la pertinence biologique
de diverses approches de classification de sommets ;
Point de vue biologique : Formuler des hypothèses sur la fonction
biologique de certains gènes non répertoriés.
Deux approches comparées :
Approches à noyau (ici, kernel k-means)
Approches basées sur la modularité
13 / 24
Classification dans les réseaux biologiques
25. Classification des sommets
Présentation des approches à noyau
Principe de base : Doter le graphe G d’une métrique par le biais
d’un noyau et utiliser un algorithme de classification (type
k-means) à partir de cette métrique.
14 / 24
Classification dans les réseaux biologiques
26. Classification des sommets
Présentation des approches à noyau
Principe de base : Doter le graphe G d’une métrique par le biais
d’un noyau et utiliser un algorithme de classification (type
k-means) à partir de cette métrique.
Qu’est-ce qu’un noyau ? C’est une fonction K : G × G → R,
symétrique et positive ⇒ ∃φ : G → (H, ., . ) telle que :
φ(x), φ(x ) = K(x, x ).
14 / 24
Classification dans les réseaux biologiques
27. Classification des sommets
Quels noyaux pour les graphes ?
La plupart sont des régularisations du Laplacien
[Smola and Kondor, 2003] L =
−πij si i j
di = k i πik si i = j
15 / 24
Classification dans les réseaux biologiques
28. Classification des sommets
Quels noyaux pour les graphes ?
La plupart sont des régularisations du Laplacien
[Smola and Kondor, 2003] L =
−πij si i j
di = k i πik si i = j
Exemples :
noyau de la chaleur [Kondor and Lafferty, 2002] : K = e−βL
Peut être vu comme la quantité d’énergie mesurée en un sommet
du graphe après une diffusion continue le long des arêtes à partir
d’un autre sommet.
Exemple : Pour le graphe de co-apparition des Misérables, le
noyau de la chaleur vu depuis Jean Valjean Voir
15 / 24
Classification dans les réseaux biologiques
29. Classification des sommets
Quels noyaux pour les graphes ?
La plupart sont des régularisations du Laplacien
[Smola and Kondor, 2003] L =
−πij si i j
di = k i πik si i = j
Exemples :
noyau de la chaleur [Kondor and Lafferty, 2002] : K = e−βL
Peut être vu comme la quantité d’énergie mesurée en un sommet
du graphe après une diffusion continue le long des arêtes à partir
d’un autre sommet.
Exemple : Pour le graphe de co-apparition des Misérables, le
noyau de la chaleur vu depuis Jean Valjean Voir
inverse généralisée [Fouss et al., 2007] : K = L+
Temps moyen d’attente d’un sommet à partir d’un autre lors d’une
marche aléatoire sur le graphe.
15 / 24
Classification dans les réseaux biologiques
30. Classification des sommets
Modularité [Newman and Girvan, 2004]
Mesure de qualité d’une classification de graphe : Une partition
des sommets en C classes, (Ck )k=1,...,C a une modularité égale à :
Q(C) =
1
2m
C
k=1 i,j∈Ck
(Πij − Pij)
où Pij sont les poids dans un “modèle nul” pour lequel les poids
dépendent uniquement des propriétés des sommets et non de la
classe à laquelle ils appartiennent.
16 / 24
Classification dans les réseaux biologiques
31. Classification des sommets
Modularité [Newman and Girvan, 2004]
Mesure de qualité d’une classification de graphe : Une partition
des sommets en C classes, (Ck )k=1,...,C a une modularité égale à :
Q(C) =
1
2m
C
k=1 i,j∈Ck
(Πij − Pij)
où Pij sont les poids dans un “modèle nul” pour lequel les poids
dépendent uniquement des propriétés des sommets et non de la
classe à laquelle ils appartiennent.
De manière plus précise,
Pij =
didj
2m
où di = 1
2 j i πij est le degré du sommet xi.
16 / 24
Classification dans les réseaux biologiques
32. Classification des sommets
Modularité [Newman and Girvan, 2004]
Mesure de qualité d’une classification de graphe : Une partition
des sommets en C classes, (Ck )k=1,...,C a une modularité égale à :
Q(C) =
1
2m
C
k=1 i,j∈Ck
(Πij − Pij)
où Pij sont les poids dans un “modèle nul” pour lequel les poids
dépendent uniquement des propriétés des sommets et non de la
classe à laquelle ils appartiennent.
De manière plus précise,
Pij =
didj
2m
où di = 1
2 j i πij est le degré du sommet xi.
Une “bonne” classification correspond à Q maximale.
16 / 24
Classification dans les réseaux biologiques
33. Classification des sommets
Interprétation
Q augmente lorsque (xi, xj) sont dans une même classe et ont un
poids réel πij plus grand que le poids du modèle nul, Pij
Q diminue lorsque (xi, xj) sont dans deux classes distinctes et ont
un poids réel πij plus petit que le poids du modèle nul, Pij car
Q(C) +
1
2m k k i∈Ck , j∈Ck
(Wij − Pij) = 0.
17 / 24
Classification dans les réseaux biologiques
34. Classification des sommets
Interprétation
Q augmente lorsque (xi, xj) sont dans une même classe et ont un
poids réel πij plus grand que le poids du modèle nul, Pij
Q diminue lorsque (xi, xj) sont dans deux classes distinctes et ont
un poids réel πij plus petit que le poids du modèle nul, Pij car
Q(C) +
1
2m k k i∈Ck , j∈Ck
(Wij − Pij) = 0.
À l’inverse de la minimisation du nombre de sommets entre les
classes, la modularité permet de séparer des sommets de forts
degrés (hubs) dans des classes différentes.
17 / 24
Classification dans les réseaux biologiques
35. Classification des sommets
Optimiser la modularité par recuit
simulé
[Reichardt and Bornholdt, 2006, Villa et al., 2009] Principe :
Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f)), on
simule de manière stochastique (chaîne de Markov sur les états, f
: classifications des sommets) ,la probabilité
PT (f) =
e−E(f)/T
g e−E(g)/T
.
Lorque T → 0, PT (f) se concentre sur minf E(f).
18 / 24
Classification dans les réseaux biologiques
36. Classification des sommets
Optimiser la modularité par recuit
simulé
[Reichardt and Bornholdt, 2006, Villa et al., 2009] Principe :
Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f)), on
simule de manière stochastique (chaîne de Markov sur les états, f
: classifications des sommets) ,la probabilité
PT (f) =
e−E(f)/T
g e−E(g)/T
.
Lorque T → 0, P (f) se concentre sur min E(f). 18 / 24
Classification dans les réseaux biologiques
37. Classification des sommets
Optimiser la modularité par recuit
simulé
Algorithme
1 On initialise la classification des sommets à un état aléatoire
f0
∈ {1, . . . , m}⊗n
2 On répète
2 On tire deux classes j1 et j2 dans {1, . . . , m} et un sommet xi
dans (f0
)−1
(j1) ∩ (f0
)−1
(j2) (les deux opérations équiprobables)
2 Notons ˜f l’état dans lequel xi a subi un échange de classe entre j1
et j2. On note ∆E = Q(˜f) − Q(f0
)
2 si ∆E > 0 alors f1
= ˜f
2 sinon f1
= ˜f avec probabilité e∆E/T
et f1
= f0
avec probabilité
e−∆E/T
2 On diminue T
3 On stoppe à stabilisation de l’algorithme.
18 / 24
Classification dans les réseaux biologiques
38. Classification des sommets
Optimiser la modularité par recuit déter-
ministe
[Lehmann and Hansen, 2007, Rossi and Villa-Vialaneix, 2010]
Pour une température donnée 1
β , on suppose une distribution de
Gibbs sur l’espace des solutions P(f) = 1
Zf
eβQ(f)
On calcule E(f) selon P
Lorsque β → +∞, E(f) converge vers f∗
où f∗
réalise le maximum
de F(f)
19 / 24
Classification dans les réseaux biologiques
39. Classification des sommets
Optimiser la modularité par recuit déter-
ministe
[Lehmann and Hansen, 2007, Rossi and Villa-Vialaneix, 2010]
Pour une température donnée 1
β , on suppose une distribution de
Gibbs sur l’espace des solutions P(f) = 1
Zf
eβQ(f)
On calcule E(f) selon P
Lorsque β → +∞, E(f) converge vers f∗
où f∗
réalise le maximum
de F(f)
Problème : Zf = f eβQ(f) est impossible à calculer si P(f) ne se
factorise pas en f ⇒ On approche P(f) par une distribution qui
factorise puis on utilise un algorithme de type EM pour
itérativement optimiser cette approximation (minimisation de la
divergence de Kullback Leibler) et calculer l’espérance de f selon
cette distribution (détails dans [Rossi and Villa-Vialaneix, 2010]).
19 / 24
Classification dans les réseaux biologiques
40. Classification des sommets
Méthodologie
Pour un nombre de classes variant de 5 à 10 :
Kernel k-means avec divers noyaux ;
Optimisation de la modularité par recuit simulé et par recuit
déterministe
Détermination de la modularité des classifications
Validation biologique des meilleures classifications obtenues
20 / 24
Classification dans les réseaux biologiques
41. Classification des sommets
Analyse de la classification retenue
Classification retenue :
Optimisation de la modularité par recuit simulé ;
5 classes ;
Modularité = 0,25 (plutôt faible).
21 / 24
Classification dans les réseaux biologiques
42. Classification des sommets
Analyse de la classification retenue
Classification retenue :
Optimisation de la modularité par recuit simulé ;
5 classes ;
Modularité = 0,25 (plutôt faible).
21 / 24
Classification dans les réseaux biologiques
43. Classification des sommets
Analyse de la classification retenue
Classification retenue :
Optimisation de la modularité par recuit simulé ;
5 classes ;
Modularité = 0,25 (plutôt faible).
Conclusion plus générale : L’optimisation de la modularité est
meilleure que les approches à noyau sur cet exemple.
21 / 24
Classification dans les réseaux biologiques
44. Classification des sommets
Validation biologique
Recherche des fonctions biologiques des gènes connus de
chaque classe : 1 classe = 1 ou 2 fonctions
Num. Fonction biologique Taille classe Nb gènes
reconnus
1 Synthèse protéique 24 14
2 Stress oxydatif et act kinase cell 13 9
cycle/apoptose+SH2adaptator
3 Activités déaminase et hydrolase 32 20
réticulum andoplasmique
4 Non connu 26 13
5 Régulation de la transcription 15 7
22 / 24
Classification dans les réseaux biologiques
45. Classification des sommets
Conclusion et perspectives
Conclusion
L”approche de classification de sommets semblent pertinente dans
le cadre biologique ;
L’optimisation de la modularité semble être une méthodologie
intéressante.
23 / 24
Classification dans les réseaux biologiques
46. Classification des sommets
Conclusion et perspectives
Conclusion
L”approche de classification de sommets semblent pertinente dans
le cadre biologique ;
L’optimisation de la modularité semble être une méthodologie
intéressante.
Perspectives Travail à confirmer par comparaison à des
méthodes plus courantes dans la communauté
biostatistique/bioinformatique (Markov Clustering, par exemple) et
sur un jeu de données plus large (public).
23 / 24
Classification dans les réseaux biologiques
47. Fouss, F., Pirotte, A., Renders, J., and Saerens, M. (2007).
Random-walk computation of similarities between nodes of a graph, with application to collaborative
recommendation.
IEEE Transactions on Knowledge and Data Engineering, 19(3):355–369.
Kondor, R. and Lafferty, J. (2002).
Diffusion kernels on graphs and other discrete structures.
In Proceedings of the 19th International Conference on Machine Learning, pages 315–322.
Lehmann, S. and Hansen, L. (2007).
Deterministic modularity optimization.
The European Physical Journal B, 60(1):83–88.
Newman, M. and Girvan, M. (2004).
Finding and evaluating community structure in networks.
Physical Review, E, 69:026113.
Reichardt, J. and Bornholdt, S. (2006).
Statistical mechanics of community detection.
Physical Review E, 74(016110).
Rossi, F. and Villa-Vialaneix, N. (2010).
Optimizing an organized modularity measure for topographic graph clustering : a deterministic annealing
approach.
Neurocomputing, 73(7-9):1142–1163.
Schäfer, J. and Strimmer, K. (2005).
An empirical bayes approach to inferring large-scale gene association networks.
Bioinformatics, 21(6):754–764.
23 / 24
Classification dans les réseaux biologiques
48. Smola, A. and Kondor, R. (2003).
Kernels and regularization on graphs.
In Warmuth, M. and Schölkopf, B., editors, Proceedings of the Conference on Learning Theory (COLT) and
Kernel Workshop.
Villa, N., Dkaki, T., Gadat, S., Inglebert, J., and Truong, Q. (2009).
Recherche et représentation de communautés dans des grands graphes.
In Actes du colloque Veille Stratégique, Scientifique et Technologique (VSST 2009), Nancy, France.
À paraître.
24 / 24
Classification dans les réseaux biologiques
49. Classification des sommets
Noyau de la chaleur des Misérables
selon Valjean Retour
24 / 24
Classification dans les réseaux biologiques
50. Classification des sommets
Noyau de la chaleur des Misérables
selon Valjean Retour
24 / 24
Classification dans les réseaux biologiques