A comparison of three learning methods to predict N20 fluxes and N leachingtuxette
The document compares three machine learning methods - multi-layer perceptrons (neural networks), support vector machines (SVMs), and random forests - for predicting N2O fluxes and N leaching from various data inputs. It provides background on machine learning for regression problems, describes the three methods and how they are trained and tuned, and discusses the methodology and results of a study comparing the performance of these methods.
Several nonlinear models and methods for FDAtuxette
This document summarizes several nonlinear models and methods for functional data analysis (FDA), including nonparametric kernel models. It describes the Nadaraya-Watson kernel estimator for regression with functional data. This estimator takes a weighted average of the observed y-values, with weights based on a kernel function of the distance between the observed curves. The document outlines the assumptions needed for the estimator to converge pointwise and uniformly, and states the optimal rates of convergence. It also discusses choosing the kernel and bandwidth parameters and extending the estimator to functional data in Hilbert spaces.
Metabolomic data: combining wavelet representation with learning approachestuxette
The document discusses metabolomic data from mice urine samples that were analyzed using NMR spectroscopy. The data consists of 950 variables measuring metabolite concentrations from 0.50 ppm to 9.99 ppm. 72 mice were divided into groups based on gender, dosage of Hypochoeris radicata ingested (0%, 3%, 9%), and date of sacrifice. Urine samples were collected from the mice on various days. Wavelet decomposition and normalization techniques are explored as preprocessing steps before applying learning methods to identify relevant metabolites affected by HR ingestion.
Influence of the sampling on Functional Data Analysistuxette
This document discusses the influence of sampling on functional data analysis. It notes that functional data is typically observed through discrete sampling rather than as true continuous functions. This sampling must be accounted for in functional data analysis methods. Specifically, the document discusses using spline approximations to represent sampled functions as elements of a reproducing kernel Hilbert space. This allows building estimators of the true functions from their sampling and understanding how sampling impacts estimators and errors in functional models.
Classification and regression based on derivatives: a consistency result for ...tuxette
This document summarizes a presentation on using derivatives for classification and regression of functions. It discusses using smoothing splines to estimate functions and their derivatives from discrete sampled data. A consistency result is presented that finds a classifier or regression function built from the estimated derivative functions that achieves the optimal Bayes risk, as the number of samples and examples increases. The key idea is to use smoothing splines, which consistently estimate functions and derivatives, combined with a consistent classifier or regressor on the estimated values.
Graph mining with kernel self-organizing maptuxette
The document discusses using a kernel self-organizing map (SOM) to cluster the vertices of a large graph to understand its structure. Specifically, it aims to cluster vertices in a graph representing relationships between 615 peasants in medieval France based on agricultural contracts. It motivates the use of graph clustering and discusses defining distances between vertices using methods like the Laplacian matrix. The kernel SOM is proposed to cluster the non-vectorial graph vertices.
Inferring networks from multiple samples with consensus LASSOtuxette
This document provides an overview of biological concepts and network inference methods. It discusses DNA, transcription, gene expression, and how transcriptomic data is obtained. Gene networks can be inferred from expression data using correlations or partial correlations between genes. Network inference focuses on direct relationships between genes and can identify interactions for previously unannotated genes.
Inferring networks from multiple samples with consensus LASSOtuxette
The document discusses network inference from gene expression data. It provides background on DNA, transcription, and gene expression. Gene expression data from microarrays contains measurements of thousands of genes across multiple samples. The goal is to infer a gene network or graph with nodes as genes and edges as strong links between gene expressions. Graphical Gaussian models (GGMs) are commonly used, where the concentration matrix encodes conditional independence relationships between genes. Several approaches are discussed for estimating the concentration matrix from data, including graphical lasso methods that promote sparse solutions.
Visualiser et fouiller des réseaux - Méthodes et exemples dans Rtuxette
AG du PEPI IBIS, 1er avril 2014
Cet exposé introduira la notion de réseaux et les problématiques élémentaires qui y sont généralement associées (visualisation, recherche de sommets importants, recherche de modules). Les notions seront illustrées à l'aide d'exemples utilisant le logiciel R sur un réseau réel.
A comparison of three learning methods to predict N20 fluxes and N leachingtuxette
The document compares three machine learning methods - multi-layer perceptrons (neural networks), support vector machines (SVMs), and random forests - for predicting N2O fluxes and N leaching from various data inputs. It provides background on machine learning for regression problems, describes the three methods and how they are trained and tuned, and discusses the methodology and results of a study comparing the performance of these methods.
Several nonlinear models and methods for FDAtuxette
This document summarizes several nonlinear models and methods for functional data analysis (FDA), including nonparametric kernel models. It describes the Nadaraya-Watson kernel estimator for regression with functional data. This estimator takes a weighted average of the observed y-values, with weights based on a kernel function of the distance between the observed curves. The document outlines the assumptions needed for the estimator to converge pointwise and uniformly, and states the optimal rates of convergence. It also discusses choosing the kernel and bandwidth parameters and extending the estimator to functional data in Hilbert spaces.
Metabolomic data: combining wavelet representation with learning approachestuxette
The document discusses metabolomic data from mice urine samples that were analyzed using NMR spectroscopy. The data consists of 950 variables measuring metabolite concentrations from 0.50 ppm to 9.99 ppm. 72 mice were divided into groups based on gender, dosage of Hypochoeris radicata ingested (0%, 3%, 9%), and date of sacrifice. Urine samples were collected from the mice on various days. Wavelet decomposition and normalization techniques are explored as preprocessing steps before applying learning methods to identify relevant metabolites affected by HR ingestion.
Influence of the sampling on Functional Data Analysistuxette
This document discusses the influence of sampling on functional data analysis. It notes that functional data is typically observed through discrete sampling rather than as true continuous functions. This sampling must be accounted for in functional data analysis methods. Specifically, the document discusses using spline approximations to represent sampled functions as elements of a reproducing kernel Hilbert space. This allows building estimators of the true functions from their sampling and understanding how sampling impacts estimators and errors in functional models.
Classification and regression based on derivatives: a consistency result for ...tuxette
This document summarizes a presentation on using derivatives for classification and regression of functions. It discusses using smoothing splines to estimate functions and their derivatives from discrete sampled data. A consistency result is presented that finds a classifier or regression function built from the estimated derivative functions that achieves the optimal Bayes risk, as the number of samples and examples increases. The key idea is to use smoothing splines, which consistently estimate functions and derivatives, combined with a consistent classifier or regressor on the estimated values.
Graph mining with kernel self-organizing maptuxette
The document discusses using a kernel self-organizing map (SOM) to cluster the vertices of a large graph to understand its structure. Specifically, it aims to cluster vertices in a graph representing relationships between 615 peasants in medieval France based on agricultural contracts. It motivates the use of graph clustering and discusses defining distances between vertices using methods like the Laplacian matrix. The kernel SOM is proposed to cluster the non-vectorial graph vertices.
Inferring networks from multiple samples with consensus LASSOtuxette
This document provides an overview of biological concepts and network inference methods. It discusses DNA, transcription, gene expression, and how transcriptomic data is obtained. Gene networks can be inferred from expression data using correlations or partial correlations between genes. Network inference focuses on direct relationships between genes and can identify interactions for previously unannotated genes.
Inferring networks from multiple samples with consensus LASSOtuxette
The document discusses network inference from gene expression data. It provides background on DNA, transcription, and gene expression. Gene expression data from microarrays contains measurements of thousands of genes across multiple samples. The goal is to infer a gene network or graph with nodes as genes and edges as strong links between gene expressions. Graphical Gaussian models (GGMs) are commonly used, where the concentration matrix encodes conditional independence relationships between genes. Several approaches are discussed for estimating the concentration matrix from data, including graphical lasso methods that promote sparse solutions.
Visualiser et fouiller des réseaux - Méthodes et exemples dans Rtuxette
AG du PEPI IBIS, 1er avril 2014
Cet exposé introduira la notion de réseaux et les problématiques élémentaires qui y sont généralement associées (visualisation, recherche de sommets importants, recherche de modules). Les notions seront illustrées à l'aide d'exemples utilisant le logiciel R sur un réseau réel.
Réseaux bayésiens, vers des modèles d’IA directement compréhensibles et soutenables pour la modélisation de systèmes complexes, 5 juin. 2023, colloque "Modélisation et IA en Sciences et Technologies", Journées Scientifiques de l'Université de Nantes
Université d’été ferney voltaire 2014 – les réseaux atelier-pajekMarion Maisonobe
Une présentation réalisée pour l'atelier PAJEK de l'Université d'été sur les Réseaux qui s'est tenue fin aout 2014 à Ferney. La présentation comprend une brève introduction à l'analyse de réseau.
Apprentissage et utilisation de modèles graphiques probabilistes pour la modélisation de systèmes complexes, 7 sept 2023, conférence "Recherche en IA pour la Santé et l'Industrie", Nantes Université et TRAIL
Sociologie des réseaux sociaux, 7, EHESS/ENS/ENSAEPaola Tubaro
Session 7 : Influence sociale, diffusion et apprentissage
Théorie : Influence sociale, diffusion et innovation à travers les réseaux sociaux
Méthode : mesures de « exposition »
Atelier pratique : présentation des idées de projet de fin de cours
Cliques de neurones liées aux cavités fournissant un chaînon manquant entre S...-
Nous nous sommes rapprochés de la description d'un tel lien en tenant compte du sens de transmission synaptique, en construisant des graphes d' un réseau
reflétant le sens de circulation de l'information et en analysant ces graphes orienté à l'aide de la topologie algébrique.
L'application de cette approche à un réseau local de neurones dans le néocortex a révélé une topologie complexe et inédite de
la connectivité synaptique.
Le réseau synaptique contient une abondance de cliques de neurones liés dans des cavités qui guident l'émergence de l'activité
corrélée.
En réponse à des stimuli, l'activité corrélée lie les neurones synaptiques connectés en
cliques et cavités fonctionnelles qui évoluent dans une séquence stéréotypée vers le pic
complexité.
Nous proposons que le cerveau traite les stimuli en formant des cliques et cavités fonctionnelles.
EcoSyst est un projet fédérateur inter-régional visant à faire émerger l’Ecologie des Systèmes au niveau du Grand Ouest. En s’appuyant sur les forces et compétences en présence, EcoSyst se veut l’incubateur de nouvelles idées et nouveaux projets aux interfaces disciplinaires. En animant une communauté au niveau bi-régional (Bretagne et Pays de la Loire), EcoSyst vise à valoriser les compétences du Grand-Ouest en écologie, environnement, modélisation, bioinformatique et biologie des systèmes et leurs applications sur des espèces d’intérêt en agronomie, mer et santé.
Cartes auto organisées pour l’analyse exploratoire deJovani NDABTJE
L’objet de cet article est de présenter comment on peut se servir de l’algorithme
de Kohonen pour représenter des données multidimensionnelles, grâce à la
propriété d’auto-organisation. On montre comment obtenir ces cartes tant pour
des données quantitatives que pour des données qualitatives, ou pour un mélange
des deux.
Similaire à Compte-rendu bibliographique sur les réseaux biologiques (14)
Racines en haut et feuilles en bas : les arbres en mathstuxette
1. The document discusses methods for clustering and differential analysis of Hi-C matrices, which represent the 3D organization of DNA.
2. It proposes extending Ward's hierarchical clustering to directly use Hi-C similarity matrices while enforcing adjacency constraints. A fast algorithm was also developed.
3. A new method called "treediff" was created to perform differential analysis of Hi-C matrices based on the Wasserstein distance between hierarchical clusterings. Software implementations of these methods were also developed.
Méthodes à noyaux pour l’intégration de données hétérogènestuxette
The document discusses a presentation about multi-omics data integration methods using kernel methods. The presentation introduces kernel methods, how they can be used to integrate heterogeneous omics data, and examples of applications. Specifically, it discusses using kernel methods to perform unsupervised transformation-based integration of multi-omics data. It also presents an application of constrained kernel hierarchical clustering to analyze Hi-C data by directly using Hi-C matrices as kernels.
Méthodologies d'intégration de données omiquestuxette
This document presents a presentation on multi-omics data integration methods given by Nathalie Vialaneix on December 13, 2023. The presentation discusses different types of omics data that can be integrated, both vertically across different levels of omics data on the same samples and horizontally across similar types of omics data on different samples. It also discusses different analysis approaches that can be taken, including supervised and unsupervised methods. The rest of the presentation focuses on unsupervised transformation-based integration methods using kernels.
The document discusses current and future work on analyzing Hi-C data and differential analysis of Hi-C matrices. It describes a clustering method developed to partition chromosomes based on Hi-C matrix similarity. It also introduces a new method called treediff for differential analysis of Hi-C data that calculates the distance between hierarchical clusterings. Current work includes reviewing differential analysis methods, investigating differential subtrees with multiple testing control, and inferring chromatin interaction networks.
Can deep learning learn chromatin structure from sequence?tuxette
This document discusses a deep learning model called ORCA that can predict chromatin structure from DNA sequence. The model uses a neural network with an encoder to extract features from sequence and a decoder to predict Hi-C matrices. It was trained on Hi-C data from multiple cell types and can predict interactions between regions at various resolutions. The model accurately captures features like CTCF-mediated loops and can predict effects of structural variants on chromatin structure. It allows for in silico mutagenesis to study how mutations may alter 3D genome organization.
Multi-omics data integration methods: kernel and other machine learning appro...tuxette
The document discusses multi-omics data integration methods, particularly kernel methods. It describes how kernel methods transform data into similarity matrices between samples rather than relying on variable space. Multiple kernel integration approaches are presented that combine multiple similarity matrices into a consensus kernel in an unsupervised manner, such as through a STATIS-like framework that maximizes the similarity between kernels. Examples of applications to datasets from the TARA Oceans expedition are given.
This document provides an overview of the MetaboWean and Idefics projects. MetaboWean aims to study the co-evolution of gut microbiota and epithelium during suckling-to-weaning transition in rabbits, using metabolomics, metagenomics, and single-cell RNA sequencing data. Idefics integrates multiple omics datasets from human skin samples to understand relationships between microorganisms and molecules and how they are structured in patient groups. The datasets include metagenomics, metabolomics, and proteomics from host and microbiota.
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...tuxette
ASTERICS is an interactive and integrative data analysis tool for omics data. It uses Rserve and PyRserve with Flask and Vue.js in a Docker container to integrate omics data. The backend uses Rserve and PyRserve with Flask on the server side, while the frontend uses Vue.js. This architecture was chosen for its open source and light design. Data communication between Rserve and PyRserve is limited, requiring an object database. ASTERICS is deployed using three Docker containers for R, Python, and
Apprentissage pour la biologie moléculaire et l’analyse de données omiquestuxette
This document summarizes a scientific presentation about molecular biology and omics data analysis. The presentation covers topics related to analyzing large omics datasets using methods like kernel methods, graphical models, and neural networks to learn gene regulation networks and predict phenotypes. Key challenges addressed are handling big data, missing values, non-Gaussian data types like counts and compositional data. The goal is to better understand complex biological systems from multi-omics data.
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...tuxette
The document summarizes preliminary results from evaluating methods for inferring gene regulatory networks from expression data in Bacillus subtilis. It finds that recall of the known network is generally poor (<20% for random forest), but inferred clusters still retain biological information about common regulators. It plans to confirm results, test restricting edges to sigma factors, and explore other inference methods like Bayesian networks and ARACNE.
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...tuxette
The document discusses methods for integrating multi-scale omics data using kernel and machine learning approaches. It describes how omics data is large, heterogeneous, and multi-scaled, creating bottlenecks for analysis. Methods discussed for data integration include multiple kernel learning to combine different relational datasets in an unsupervised way. The methods are applied to integrate different datasets from the TARA Oceans expedition to identify patterns in ocean microbial communities. Improving interpretability of the methods and making them more accessible to biological users is discussed.
Journal club: Validation of cluster analysis results on validation datatuxette
This document presents a framework for validating cluster analysis results on validation data. It describes situations where clustering is inferential versus descriptive and recommends using validation data separate from the data used for clustering. A typology of validation methods is provided, including validation based on the clustering method or results, and evaluation using internal validation, external validation, visual properties, or stability measures.
The document discusses the differences between overfitting and overparametrization in machine learning models. It explores how random forests may exhibit a phenomenon known as "double descent" where test error initially decreases then increases with more parameters before decreasing again. While double descent has been observed in other models, the document questions whether it is directly due to model complexity in random forests since very large trees may be unable to fully interpolate extremely large datasets.
Selective inference and single-cell differential analysistuxette
This document discusses selective inference and single-cell differential analysis. It introduces the problem of "double dipping" in the standard single-cell analysis pipeline where the same dataset is used for clustering and differential analysis. Two approaches for addressing this are presented: 1) A method that perturbs clusters before testing for differences, and 2) A test based on a truncated distribution that assumes clusters and genes are given separately. Experiments applying these methods to real single-cell datasets are described. The document outlines challenges in extending these approaches to more complex analyses.
SOMbrero : un package R pour les cartes auto-organisatricestuxette
SOMbrero is an R package that implements self-organizing map (SOM) algorithms. It can handle numeric, non-numeric, and relational data. The package contains functions for training SOMs, diagnosing results, and plotting maps. It also includes tools like a shiny app and vignettes to aid users without programming experience. SOMbrero supports missing data imputation and extends SOM to relational datasets through non-Euclidean distance measures.
Graph Neural Network for Phenotype Predictiontuxette
This document describes a study on using graph neural networks (GNNs) for phenotype prediction from gene expression data. The objectives are to determine if including network information can improve predictions, which network types work best, and if GNNs can learn network inferences. It provides background on GNNs and how they generalize convolutional layers to graph data. The authors implemented a GNN model from previous work as a starting point and tested it on different network types to see which network information is most useful for predictions. Their methodology involves comparing GNN performance to other methods like random forests using 10-fold cross validation.
A short and naive introduction to using network in prediction modelstuxette
The document provides an introduction to using network information in prediction models. It discusses representing a network as a graph with a Laplacian matrix. The Laplacian captures properties like random walks on the graph and heat diffusion. Eigenvectors of the Laplacian related to small eigenvalues are strongly tied to graph structure. The document discusses using the Laplacian in prediction models by working in the feature space defined by the Laplacian eigenvectors or directly regularizing a linear model with the Laplacian. This introduces network information and encourages similar contributions from connected nodes. The approaches are applied to problems like predicting phenotypes from gene expression using a known gene network.
Compte-rendu bibliographique sur les réseaux biologiques
1. Compte-rendu bibliographique sur les réseaux
biologiques
Nathalie Villa-Vialaneix
http ://www.nathalievilla.org
Institut de Mathématiques de Toulouse
IUT de Carcassonne (Université de Perpignan)
Groupe de travail BioPuces, INRA de Castanet
6 novembre 2009
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 1 / 25
2. Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 2 / 25
3. Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe
• non supervisée • Recherche de motifs
• semi supervisée • Classification de sommets
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 2 / 25
4. Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 3 / 25
5. Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
Sommets (ou nœuds) / en anglais : vertices, nodes
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 3 / 25
6. Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
Sommets
Arêtes / en anglais : edges
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 3 / 25
7. Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
3
5
7
6,15
4,35
2
4
3.4
Sommets
Arêtes
éventuellement pondérées
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 3 / 25
8. Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 4 / 25
9. Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 4 / 25
10. Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 4 / 25
11. Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E
Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 4 / 25
12. Sommaire
1 Inférence de graphes
2 Analyse de graphes
Structure et recherche de motifs
Recherche de modules : classification des sommets
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 5 / 25
13. Sommaire
1 Inférence de graphes
2 Analyse de graphes
Structure et recherche de motifs
Recherche de modules : classification des sommets
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 6 / 25
14. Références
1 Schäfer, J. and Strimmer, K. (2005) An empirical Bayes approach to
inferring large-scale gene association networks. Bioinformatics, 21(6),
pp 754-764.
2 Yamanishi, Y. and Vert, J.P. and Kanehisa, M. (2005) Supervised
enzyme network inference from the integration of genomic data and
chemical information. Bioinformatics, 21(Supp. 1), i468-i477.
3 Kato, T. and Tsuda, K. and Asai, K. (2005) Selective integration of
multiple biological data for supervised network inference.
Bioinformatics, 21(10), 2488-2495.
4 Geurts, P. and Touleimat, N. and Dutreix, M. and d’Alché-Buc, F.
(2007) Inferring biological networks with output kernel trees. BMC
Bioinformatics, 8(Supp. 2).
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 7 / 25
15. Sommaire
1 Inférence de graphes
2 Analyse de graphes
Structure et recherche de motifs
Recherche de modules : classification des sommets
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 8 / 25
16. Un élément important de la structure d’un graphe : la
distribution des degrés
Définition
On appelle degré du sommet xi le nombre di = j i wij.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 9 / 25
17. Un élément important de la structure d’un graphe : la
distribution des degrés
Définition
On appelle degré du sommet xi le nombre di = j i wij.
Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 9 / 25
18. Un élément important de la structure d’un graphe : la
distribution des degrés
Définition
On appelle degré du sommet xi le nombre di = j i wij.
Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi.
Dans de nombreux réseaux réels (sociaux, biologiques ...), la distribution
des degrés suit une loi de puissance (graphes sans échelle typique) :
voir [Dorogovtsev and Mendes, 2003].
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 9 / 25
19. Conséquences concrètes
Les graphes en loi de puissances contiennent quelques sommets
dont le degré est très fort par rapport aux degrés des autres
sommets : ce sont, par exemple, des protéines qui interagissent avec
beaucoup d’autres protéines (réseaux d’interactions de protéines).
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 10 / 25
20. Conséquences concrètes
Les graphes en loi de puissances contiennent quelques sommets
dont le degré est très fort par rapport aux degrés des autres
sommets : ce sont, par exemple, des protéines qui interagissent avec
beaucoup d’autres protéines (réseaux d’interactions de protéines). En
biologie, on les appelle hubs.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 10 / 25
21. Conséquences concrètes
Les graphes en loi de puissances contiennent quelques sommets
dont le degré est très fort par rapport aux degrés des autres
sommets : ce sont, par exemple, des protéines qui interagissent avec
beaucoup d’autres protéines (réseaux d’interactions de protéines). En
biologie, on les appelle hubs.
Sur les réseaux de taille moyenne (quelques centaines de sommets),
on observe plus fréquemment une loi de puissance tronquée (TPL) :
c’est un simple effet de taille mais l’interprétation est conservée.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 10 / 25
22. Conséquences concrètes
Les graphes en loi de puissances contiennent quelques sommets
dont le degré est très fort par rapport aux degrés des autres
sommets : ce sont, par exemple, des protéines qui interagissent avec
beaucoup d’autres protéines (réseaux d’interactions de protéines). En
biologie, on les appelle hubs.
Sur les réseaux de taille moyenne (quelques centaines de sommets),
on observe plus fréquemment une loi de puissance tronquée (TPL) :
c’est un simple effet de taille mais l’interprétation est conservée.
Ces phénomènes sont très loin de graphes dans lesquels les arêtes
seraient réparties aléatoirement avec la même probabilité : ceci
donne lieu à des lois binomiales pour la distribution des degrés : il
n’existe pas de “hubs” dans ces graphes.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 10 / 25
23. Conséquence de la loi de puissance sur la résistance
aux dommages
[Dorogovtsev and Mendes, 2003]
Les réseaux dont la distribution des degrés est en loi de
puissance sont résistants aux dommages qui affectent
aléatoirement leurs sommets (la structure macroscopique du
réseau est conservée malgré un fort taux de destruction de
sommets).
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 11 / 25
24. Conséquence de la loi de puissance sur la résistance
aux dommages
[Dorogovtsev and Mendes, 2003]
Les réseaux dont la distribution des degrés est en loi de
puissance sont résistants aux dommages qui affectent
aléatoirement leurs sommets (la structure macroscopique du
réseau est conservée malgré un fort taux de destruction de
sommets).
À l’inverse, les destructions qui affectent préférentiellement les
hubs endommagent rapidement la structure du réseau.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 11 / 25
25. Graphes aléatoires
Pour repérer des phénomènes exceptionnels dans les réseaux réels
étudiés (par exemple, la fréquence de certains motifs), il est courant de
comparer le graphe réel à des modèles de graphes aléatoires.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 12 / 25
26. Graphes aléatoires
Pour repérer des phénomènes exceptionnels dans les réseaux réels
étudiés (par exemple, la fréquence de certains motifs), il est courant de
comparer le graphe réel à des modèles de graphes aléatoires.
Quelques exemples courants de graphes aléatoires :
1 [Erdõs and Rényi, 1959] : n sommets (fixés) ; la probabilité d’une
arête entre deux sommets est p pour toutes les paires.
Loi binomiale pour les degrés ;
Modèle simple mais pas réaliste.
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 12 / 25
27. Graphes aléatoires
Pour repérer des phénomènes exceptionnels dans les réseaux réels
étudiés (par exemple, la fréquence de certains motifs), il est courant de
comparer le graphe réel à des modèles de graphes aléatoires.
Quelques exemples courants de graphes aléatoires :
1 [Erdõs and Rényi, 1959] : n sommets (fixés) ; la probabilité d’une
arête entre deux sommets est p pour toutes les paires.
2 [Albert and Barabási, 2002] : Modèle d’attachement préférentiel.
Les sommets sont ajoutés un à un et reliés aléatoirement aux
sommets préexistants avec une probabilité plus forte pour les
sommets à forts degrés.
Loi de puissance : P(D ≥ k) ∼ k−3
.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 12 / 25
28. Graphes aléatoires
Pour repérer des phénomènes exceptionnels dans les réseaux réels
étudiés (par exemple, la fréquence de certains motifs), il est courant de
comparer le graphe réel à des modèles de graphes aléatoires.
Quelques exemples courants de graphes aléatoires :
1 [Erdõs and Rényi, 1959] : n sommets (fixés) ; la probabilité d’une
arête entre deux sommets est p pour toutes les paires.
2 [Albert and Barabási, 2002] : Modèle d’attachement préférentiel.
Les sommets sont ajoutés un à un et reliés aléatoirement aux
sommets préexistants avec une probabilité plus forte pour les
sommets à forts degrés.
3 [Molloy and Reed, 1995] : Modèle dans lequel la loi des degrés est
choisie à l’avance : on génère les degrés de chaque sommet selon
cette loi puis on apparie les sommets deux à deux aléatoirement en
respectant les degrés générés.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 12 / 25
29. Recherche de motifs dans le réseau de régulation
transcriptionnelle de Escherichia Coli
Référence : Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002)
Network motifs in the transcriptional regulation network of Escherichia
Coli. Nature genetics, 31, 64-68.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 13 / 25
30. Recherche de motifs dans le réseau de régulation
transcriptionnelle de Escherichia Coli
Référence : Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002)
Network motifs in the transcriptional regulation network of Escherichia
Coli. Nature genetics, 31, 64-68.
Description des données : Réseau de régulation transcriptionnelle
modélisé par un graphe orienté dont
les sommets sont des opérons (groupes de gènes contigus qui sont
transcrit en ARNm simple) ;
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 13 / 25
31. Recherche de motifs dans le réseau de régulation
transcriptionnelle de Escherichia Coli
Référence : Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002)
Network motifs in the transcriptional regulation network of Escherichia
Coli. Nature genetics, 31, 64-68.
Description des données : Réseau de régulation transcriptionnelle
modélisé par un graphe orienté dont
les sommets sont des opérons (groupes de gènes contigus qui sont
transcrit en ARNm simple) ;
les arêtes sont des interactions directes dans la transcription :
l’opérons i régule l’opérons j est modélisé par une arête du sommet i
vers le sommet j.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 13 / 25
32. Recherche de motifs dans le réseau de régulation
transcriptionnelle de Escherichia Coli
Référence : Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002)
Network motifs in the transcriptional regulation network of Escherichia
Coli. Nature genetics, 31, 64-68.
Description des données : Réseau de régulation transcriptionnelle
modélisé par un graphe orienté dont
les sommets sont des opérons (groupes de gènes contigus qui sont
transcrit en ARNm simple) ;
les arêtes sont des interactions directes dans la transcription :
l’opérons i régule l’opérons j est modélisé par une arête du sommet i
vers le sommet j.
Le réseau initial est composé de 377 interactions pour 424 opérons avec
116 facteurs de transcription. Une recherche bibliographique intensive a
permis d’ajouter 35 facteurs d’interactions.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 13 / 25
33. But et méthodologie
But : Mettre en valeur des motifs exceptionnellement présents dans le
réseau.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 14 / 25
34. But et méthodologie
But : Mettre en valeur des motifs exceptionnellement présents dans le
réseau.
Méthodologie : On simule 1000 réseaux aléatoires ayant :
même nombre d’opérons (sommets) ;
même nombre d’interactions (arêtes) ;
mêmes degrés (entrant et sortant) des sommets ;
puis on compare la fréquence d’apparition d’un motif donné dans la réalité
et sur les 1000 graphes aléatoires.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 14 / 25
35. But et méthodologie
But : Mettre en valeur des motifs exceptionnellement présents dans le
réseau.
Méthodologie : On simule 1000 réseaux aléatoires ayant :
même nombre d’opérons (sommets) ;
même nombre d’interactions (arêtes) ;
mêmes degrés (entrant et sortant) des sommets ;
puis on compare la fréquence d’apparition d’un motif donné dans la réalité
et sur les 1000 graphes aléatoires.
Si un motif apparaît bien plus souvent dans le graphe réel qu’en moyenne
sur les 1000 graphes aléatoires, c’est qu’il a une signification biologique
(car il n’est pas le simple fait du hasard...).
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 14 / 25
36. Motifs étudiés
1 Feedforward loop (boucle)
A B C
A régule B qui régule C et A régule directement C.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 15 / 25
37. Motifs étudiés
1 Feedforward loop (boucle)
A B C
A régule B qui régule C et A régule directement C. La boucle est dite
cohérente si l’effet direct de A sur C est dans le même sens que
l’effet indirect de A sur C. Sinon, la boucle est dite incohérente.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 15 / 25
38. Motifs étudiés
1 Feedforward loop (boucle)
2 SIM (groupe à entrée unique)
X
Z1 Z2 Z3 Zn
...
X régule un groupe de n (grand) opérons qui ne sont régulés que par
X ; X est souvent auto-régulé.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 15 / 25
39. Motifs étudiés
1 Feedforward loop (boucle)
2 SIM (groupe à entrée unique)
3 Paires d’opérons régulés par la même paire d’opérons
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 15 / 25
40. Motifs étudiés
1 Feedforward loop (boucle)
2 SIM (groupe à entrée unique)
3 Paires d’opérons régulés par la même paire d’opérons
4 DOR (régulations denses se chevauchant)
X1 X2 Xm
Z1 Z2 Z3 Zn
......
Groupes d’opérons régulés par un même groupe d’opérons dans
lequel le nombre d’arêtes est bien plus grand que dans un graphe
aléatoire de mêmes caractéristiques.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 15 / 25
41. Significativité de l’apparition des motifs
Motif Nombre d’apparitions p-value
Boucles cohérentes 34 < 0.001
Boucles incohérentes 6 ∼ 0.03
SIM (> 13 opérons) 68 < 0.01
Paires régulées par des paires 203 < 0.001
DOR NC < 0.001
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 16 / 25
43. Synthèse de quelques propriétés de structure des
réseaux biologiques
Référence : Proulx S.R., Promislow D.E.L. and Phillips P.C. (2005)
Network thinking in ecology and evolution. Trends in Ecology and
Evolution, 20(6), 345-353.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 18 / 25
44. Quelques faits connus sur les réseaux d’interactions
de protéines
Beaucoup des motifs locaux existent depuis très longtemps
(persistance).
Les hubs sont plus fréquemment des protéines essentielles pour la
survie.
Les hubs sont plus fréquemment des protéines pléiotropes (plusieurs
fonctions ?).
Les hubs ont moins disparu au cours de l’évolution.
Les hubs sont faiblement connectés entre eux.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 19 / 25
45. Quelques faits connus sur les voies métaboliques
Elles sont très résistantes aux dommages.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 20 / 25
46. Quelques faits connus sur les réseaux de régulation
de gènes
Ils contiennent beaucoup de petits motifs locaux.
Ils sont robustes aux dommages (mutations, par exemples).
Les gènes régulés par beaucoup de gènes sont plus variables dans
leurs niveaux d’expression selon les conditions environnementales.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 21 / 25
47. Remise en cause des conclusions portées sur les
réseaux biologiques
Référence : Siegal M., Promislow D.E.L. and Bergman A. (2007)
Functional and evolutionary inference in gene networks : does topology
matter ? Genetica, 129, 83-103.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 22 / 25
48. Motifs, distribution des degrés
Les motifs n’ont pas la même signification selon qu’on les considère
dans leur version orientée ou non orientée. Par exemple :
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 23 / 25
49. Motifs, distribution des degrés
Les motifs n’ont pas la même signification selon qu’on les considère
dans leur version orientée ou non orientée. Par exemple :
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 23 / 25
50. Motifs, distribution des degrés
Les motifs n’ont pas la même signification selon qu’on les considère
dans leur version orientée ou non orientée. Par exemple :
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 23 / 25
51. Motifs, distribution des degrés
Les motifs n’ont pas la même signification selon qu’on les considère
dans leur version orientée ou non orientée. Par exemple :
La distribution des degrés est rarement en loi de puissance mais en
loi de puissance tronquée (ndlr : effet de taille car on ne peut
observer une “vraie” loi de puissance sur un petit graphe).
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 23 / 25
52. Hubs
Ce que l’on pense : Les hubs sont mortels si supprimés (la
proportion de protéines essentielles est 3 fois plus forte dans les hubs
et, inversement, les protéines essentielles ont un degré moyen plus
grand que les protéines non essentielles).
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 24 / 25
53. Hubs
Ce que l’on pense : Les hubs sont mortels si supprimés (la
proportion de protéines essentielles est 3 fois plus forte dans les hubs
et, inversement, les protéines essentielles ont un degré moyen plus
grand que les protéines non essentielles).
Mais : Si on regarde la variabilité de l’expression des gènes lorsqu’un
gène est supprimé, la corrélation est très faible entre le degré du
gène supprimé et la variabilité.
Et : Le degré explique seulement 1% de la variance dans le taux
d’évolution d’une protéine.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 24 / 25
54. Hubs
Ce que l’on pense : Les hubs sont mortels si supprimés (la
proportion de protéines essentielles est 3 fois plus forte dans les hubs
et, inversement, les protéines essentielles ont un degré moyen plus
grand que les protéines non essentielles).
Mais : Si on regarde la variabilité de l’expression des gènes lorsqu’un
gène est supprimé, la corrélation est très faible entre le degré du
gène supprimé et la variabilité.
Et : Le degré explique seulement 1% de la variance dans le taux
d’évolution d’une protéine.
L’article contient aussi des expériences faites sur des modèles de réseaux
d’interactions : non rapporté ici car loin de la réalité.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 24 / 25
55. Recherche de modules, classification de sommets
À SUIVRE...
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 25 / 25
56. Albert, R. and Barabási, A. (2002).
Statistical mechanics of complex networks.
Reviews of Modern Physics, 74 :47–97.
Dorogovtsev, S. and Mendes, J. (2003).
Evolution of Networks. From biological Nets to the Internet and WWW.
Oxford University Press.
Erdõs, P. and Rényi, A. (1959).
On random graphs. i.
Publicationes Mathematicae, 6 :290–297.
Molloy, M. and Reed, B. (1995).
A critical point for random graphs with a given degree sequence.
Random Structures and Algorithms, 6 :161–180.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 25 / 25