Joint gene network inference with multiple samples: a bootstrapped consensual...tuxette
The document describes a method for jointly inferring gene networks from multiple samples using a consensus LASSO approach. It begins with an overview of network inference with Gaussian graphical models and the use of partial correlations. It then discusses challenges with independently estimating networks from multiple samples. The consensus LASSO approach is proposed to infer multiple networks by forcing them towards a consensus network, using an L2 penalty to constrain differences between networks. Simulation results demonstrate that the consensus LASSO approach can accurately recover the shared structure between networks generated from a common original network.
Consensual gene co-expression network inference with multiple samplestuxette
This document discusses methods for inferring gene co-expression networks from multiple gene expression samples, such as from different breeds or conditions. It describes using graphical Gaussian models and sparse regression approaches like the graphical lasso to learn networks from individual samples. For multiple samples, independent or joint network estimation methods are discussed, including the GroupLasso and CoopLasso approaches implemented in the R package simone, which aim to find consensus networks that are consistent or sign-coherent across conditions. An example dataset with gene expression from two pig breeds is analyzed to compare the methods.
The document describes multiple kernel self-organizing maps (MK-SOM), which combine self-organizing maps with multiple kernels to cluster nodes in graphs using both network structure and node attributes. MK-SOM projects graph nodes onto a grid such that nodes in the same cluster are densely connected and have similar attributes. It handles multiple data sources by defining kernels on each and combining them. The algorithm initializes prototype vectors and assigns nodes to best-matching prototypes, updating the prototypes over time to better represent assigned nodes. MK-SOM can cluster graphs while incorporating different node attributes like numeric variables, text, or categories.
This document provides an introduction to network analysis and graphs. It discusses how networks can be used to model relationships between entities, with nodes representing entities and edges representing relationships. It also discusses issues like network inference from data, visualization of networks, identifying important nodes, and clustering nodes into communities. Standard algorithms and tools for tasks like force-directed placement, centrality measures, and modularity optimization are also introduced.
Large network analysis : visualization and clusteringtuxette
This document provides an introduction to network analysis and visualization. It discusses what networks are and common examples like social and biological networks. It also describes techniques for simple network mining including calculating numerical metrics like degree and betweenness centrality to identify important nodes, and using force-directed placement algorithms for network visualization. The goal is to understand the macro-structure and organization of large networks.
MOOCs are massive open online courses that are free to register for and are conducted simultaneously for thousands of students online. They typically include short instructional videos, interactive quizzes, assignments that are automatically or peer-graded, and discussion forums. While MOOCs aim to provide open access to education, low completion rates remain a challenge as most students who register do not obtain certificates of completion.
Inferring networks from multiple samples with consensus LASSOtuxette
This document provides an overview of biological concepts and network inference methods. It discusses DNA, transcription, gene expression, and how transcriptomic data is obtained. Gene networks can be inferred from expression data using correlations or partial correlations between genes. Network inference focuses on direct relationships between genes and can identify interactions for previously unannotated genes.
Inferring networks from multiple samples with consensus LASSOtuxette
The document discusses network inference from gene expression data. It provides background on DNA, transcription, and gene expression. Gene expression data from microarrays contains measurements of thousands of genes across multiple samples. The goal is to infer a gene network or graph with nodes as genes and edges as strong links between gene expressions. Graphical Gaussian models (GGMs) are commonly used, where the concentration matrix encodes conditional independence relationships between genes. Several approaches are discussed for estimating the concentration matrix from data, including graphical lasso methods that promote sparse solutions.
Inferring networks from multiple samples with consensus LASSOtuxette
This document provides a short overview of network inference using graphical Gaussian models (GGMs). It discusses inferring networks from multiple samples, with the motivation being to identify genes that are linked independently or depending on different conditions. A naive approach of performing independent estimations on each sample is described. Joint network inference using the consensus LASSO method is then introduced to better identify common and condition-specific network structures across multiple related samples.
Interpretable Sparse Sliced Inverse Regression for digitized functional datatuxette
The document discusses interpretable sparse sliced inverse regression (IS-SIR) for functional data regression. It begins with background on using metamodels as proxies for computationally expensive agronomic models to understand relationships between climate inputs and plant outputs. SIR is presented as a semi-parametric regression technique that identifies relevant subspaces to predict outputs from functional inputs. The proposal involves combining SIR with automatic interval selection to point out interpretable predictor intervals. Simulations are discussed to evaluate the proposed method.
Visualiser et fouiller des réseaux - Méthodes et exemples dans Rtuxette
AG du PEPI IBIS, 1er avril 2014
Cet exposé introduira la notion de réseaux et les problématiques élémentaires qui y sont généralement associées (visualisation, recherche de sommets importants, recherche de modules). Les notions seront illustrées à l'aide d'exemples utilisant le logiciel R sur un réseau réel.
Joint gene network inference with multiple samples: a bootstrapped consensual...tuxette
The document describes a method for jointly inferring gene networks from multiple samples using a consensus LASSO approach. It begins with an overview of network inference with Gaussian graphical models and the use of partial correlations. It then discusses challenges with independently estimating networks from multiple samples. The consensus LASSO approach is proposed to infer multiple networks by forcing them towards a consensus network, using an L2 penalty to constrain differences between networks. Simulation results demonstrate that the consensus LASSO approach can accurately recover the shared structure between networks generated from a common original network.
Consensual gene co-expression network inference with multiple samplestuxette
This document discusses methods for inferring gene co-expression networks from multiple gene expression samples, such as from different breeds or conditions. It describes using graphical Gaussian models and sparse regression approaches like the graphical lasso to learn networks from individual samples. For multiple samples, independent or joint network estimation methods are discussed, including the GroupLasso and CoopLasso approaches implemented in the R package simone, which aim to find consensus networks that are consistent or sign-coherent across conditions. An example dataset with gene expression from two pig breeds is analyzed to compare the methods.
The document describes multiple kernel self-organizing maps (MK-SOM), which combine self-organizing maps with multiple kernels to cluster nodes in graphs using both network structure and node attributes. MK-SOM projects graph nodes onto a grid such that nodes in the same cluster are densely connected and have similar attributes. It handles multiple data sources by defining kernels on each and combining them. The algorithm initializes prototype vectors and assigns nodes to best-matching prototypes, updating the prototypes over time to better represent assigned nodes. MK-SOM can cluster graphs while incorporating different node attributes like numeric variables, text, or categories.
This document provides an introduction to network analysis and graphs. It discusses how networks can be used to model relationships between entities, with nodes representing entities and edges representing relationships. It also discusses issues like network inference from data, visualization of networks, identifying important nodes, and clustering nodes into communities. Standard algorithms and tools for tasks like force-directed placement, centrality measures, and modularity optimization are also introduced.
Large network analysis : visualization and clusteringtuxette
This document provides an introduction to network analysis and visualization. It discusses what networks are and common examples like social and biological networks. It also describes techniques for simple network mining including calculating numerical metrics like degree and betweenness centrality to identify important nodes, and using force-directed placement algorithms for network visualization. The goal is to understand the macro-structure and organization of large networks.
MOOCs are massive open online courses that are free to register for and are conducted simultaneously for thousands of students online. They typically include short instructional videos, interactive quizzes, assignments that are automatically or peer-graded, and discussion forums. While MOOCs aim to provide open access to education, low completion rates remain a challenge as most students who register do not obtain certificates of completion.
Inferring networks from multiple samples with consensus LASSOtuxette
This document provides an overview of biological concepts and network inference methods. It discusses DNA, transcription, gene expression, and how transcriptomic data is obtained. Gene networks can be inferred from expression data using correlations or partial correlations between genes. Network inference focuses on direct relationships between genes and can identify interactions for previously unannotated genes.
Inferring networks from multiple samples with consensus LASSOtuxette
The document discusses network inference from gene expression data. It provides background on DNA, transcription, and gene expression. Gene expression data from microarrays contains measurements of thousands of genes across multiple samples. The goal is to infer a gene network or graph with nodes as genes and edges as strong links between gene expressions. Graphical Gaussian models (GGMs) are commonly used, where the concentration matrix encodes conditional independence relationships between genes. Several approaches are discussed for estimating the concentration matrix from data, including graphical lasso methods that promote sparse solutions.
Inferring networks from multiple samples with consensus LASSOtuxette
This document provides a short overview of network inference using graphical Gaussian models (GGMs). It discusses inferring networks from multiple samples, with the motivation being to identify genes that are linked independently or depending on different conditions. A naive approach of performing independent estimations on each sample is described. Joint network inference using the consensus LASSO method is then introduced to better identify common and condition-specific network structures across multiple related samples.
Interpretable Sparse Sliced Inverse Regression for digitized functional datatuxette
The document discusses interpretable sparse sliced inverse regression (IS-SIR) for functional data regression. It begins with background on using metamodels as proxies for computationally expensive agronomic models to understand relationships between climate inputs and plant outputs. SIR is presented as a semi-parametric regression technique that identifies relevant subspaces to predict outputs from functional inputs. The proposal involves combining SIR with automatic interval selection to point out interpretable predictor intervals. Simulations are discussed to evaluate the proposed method.
Visualiser et fouiller des réseaux - Méthodes et exemples dans Rtuxette
AG du PEPI IBIS, 1er avril 2014
Cet exposé introduira la notion de réseaux et les problématiques élémentaires qui y sont généralement associées (visualisation, recherche de sommets importants, recherche de modules). Les notions seront illustrées à l'aide d'exemples utilisant le logiciel R sur un réseau réel.
Initiation à l'analyse de réseaux - formation fmr - séance 1Marion Maisonobe
Diaporama présenté lors de la première séance du cycle d'initiation à l'analyse de réseaux avec R, 24 octobre 2017, par Marion Maisonobe et Paul Gourdon
Voici les acétates utilisées lors de la soutenance de ma maitrise en 2003 intitulée:
"Optimisation des réseaux de neurones de grande capacité: étude expérimentale de leur inefficacité et exploration de solutions"
Superviseur: Yoshua Bengio
Université d’été ferney voltaire 2014 – les réseaux atelier-pajekMarion Maisonobe
Une présentation réalisée pour l'atelier PAJEK de l'Université d'été sur les Réseaux qui s'est tenue fin aout 2014 à Ferney. La présentation comprend une brève introduction à l'analyse de réseau.
Racines en haut et feuilles en bas : les arbres en mathstuxette
1. The document discusses methods for clustering and differential analysis of Hi-C matrices, which represent the 3D organization of DNA.
2. It proposes extending Ward's hierarchical clustering to directly use Hi-C similarity matrices while enforcing adjacency constraints. A fast algorithm was also developed.
3. A new method called "treediff" was created to perform differential analysis of Hi-C matrices based on the Wasserstein distance between hierarchical clusterings. Software implementations of these methods were also developed.
Méthodes à noyaux pour l’intégration de données hétérogènestuxette
The document discusses a presentation about multi-omics data integration methods using kernel methods. The presentation introduces kernel methods, how they can be used to integrate heterogeneous omics data, and examples of applications. Specifically, it discusses using kernel methods to perform unsupervised transformation-based integration of multi-omics data. It also presents an application of constrained kernel hierarchical clustering to analyze Hi-C data by directly using Hi-C matrices as kernels.
Méthodologies d'intégration de données omiquestuxette
This document presents a presentation on multi-omics data integration methods given by Nathalie Vialaneix on December 13, 2023. The presentation discusses different types of omics data that can be integrated, both vertically across different levels of omics data on the same samples and horizontally across similar types of omics data on different samples. It also discusses different analysis approaches that can be taken, including supervised and unsupervised methods. The rest of the presentation focuses on unsupervised transformation-based integration methods using kernels.
The document discusses current and future work on analyzing Hi-C data and differential analysis of Hi-C matrices. It describes a clustering method developed to partition chromosomes based on Hi-C matrix similarity. It also introduces a new method called treediff for differential analysis of Hi-C data that calculates the distance between hierarchical clusterings. Current work includes reviewing differential analysis methods, investigating differential subtrees with multiple testing control, and inferring chromatin interaction networks.
Can deep learning learn chromatin structure from sequence?tuxette
This document discusses a deep learning model called ORCA that can predict chromatin structure from DNA sequence. The model uses a neural network with an encoder to extract features from sequence and a decoder to predict Hi-C matrices. It was trained on Hi-C data from multiple cell types and can predict interactions between regions at various resolutions. The model accurately captures features like CTCF-mediated loops and can predict effects of structural variants on chromatin structure. It allows for in silico mutagenesis to study how mutations may alter 3D genome organization.
Multi-omics data integration methods: kernel and other machine learning appro...tuxette
The document discusses multi-omics data integration methods, particularly kernel methods. It describes how kernel methods transform data into similarity matrices between samples rather than relying on variable space. Multiple kernel integration approaches are presented that combine multiple similarity matrices into a consensus kernel in an unsupervised manner, such as through a STATIS-like framework that maximizes the similarity between kernels. Examples of applications to datasets from the TARA Oceans expedition are given.
This document provides an overview of the MetaboWean and Idefics projects. MetaboWean aims to study the co-evolution of gut microbiota and epithelium during suckling-to-weaning transition in rabbits, using metabolomics, metagenomics, and single-cell RNA sequencing data. Idefics integrates multiple omics datasets from human skin samples to understand relationships between microorganisms and molecules and how they are structured in patient groups. The datasets include metagenomics, metabolomics, and proteomics from host and microbiota.
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...tuxette
ASTERICS is an interactive and integrative data analysis tool for omics data. It uses Rserve and PyRserve with Flask and Vue.js in a Docker container to integrate omics data. The backend uses Rserve and PyRserve with Flask on the server side, while the frontend uses Vue.js. This architecture was chosen for its open source and light design. Data communication between Rserve and PyRserve is limited, requiring an object database. ASTERICS is deployed using three Docker containers for R, Python, and
Apprentissage pour la biologie moléculaire et l’analyse de données omiquestuxette
This document summarizes a scientific presentation about molecular biology and omics data analysis. The presentation covers topics related to analyzing large omics datasets using methods like kernel methods, graphical models, and neural networks to learn gene regulation networks and predict phenotypes. Key challenges addressed are handling big data, missing values, non-Gaussian data types like counts and compositional data. The goal is to better understand complex biological systems from multi-omics data.
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...tuxette
The document summarizes preliminary results from evaluating methods for inferring gene regulatory networks from expression data in Bacillus subtilis. It finds that recall of the known network is generally poor (<20% for random forest), but inferred clusters still retain biological information about common regulators. It plans to confirm results, test restricting edges to sigma factors, and explore other inference methods like Bayesian networks and ARACNE.
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...tuxette
The document discusses methods for integrating multi-scale omics data using kernel and machine learning approaches. It describes how omics data is large, heterogeneous, and multi-scaled, creating bottlenecks for analysis. Methods discussed for data integration include multiple kernel learning to combine different relational datasets in an unsupervised way. The methods are applied to integrate different datasets from the TARA Oceans expedition to identify patterns in ocean microbial communities. Improving interpretability of the methods and making them more accessible to biological users is discussed.
Journal club: Validation of cluster analysis results on validation datatuxette
This document presents a framework for validating cluster analysis results on validation data. It describes situations where clustering is inferential versus descriptive and recommends using validation data separate from the data used for clustering. A typology of validation methods is provided, including validation based on the clustering method or results, and evaluation using internal validation, external validation, visual properties, or stability measures.
The document discusses the differences between overfitting and overparametrization in machine learning models. It explores how random forests may exhibit a phenomenon known as "double descent" where test error initially decreases then increases with more parameters before decreasing again. While double descent has been observed in other models, the document questions whether it is directly due to model complexity in random forests since very large trees may be unable to fully interpolate extremely large datasets.
Selective inference and single-cell differential analysistuxette
This document discusses selective inference and single-cell differential analysis. It introduces the problem of "double dipping" in the standard single-cell analysis pipeline where the same dataset is used for clustering and differential analysis. Two approaches for addressing this are presented: 1) A method that perturbs clusters before testing for differences, and 2) A test based on a truncated distribution that assumes clusters and genes are given separately. Experiments applying these methods to real single-cell datasets are described. The document outlines challenges in extending these approaches to more complex analyses.
SOMbrero : un package R pour les cartes auto-organisatricestuxette
SOMbrero is an R package that implements self-organizing map (SOM) algorithms. It can handle numeric, non-numeric, and relational data. The package contains functions for training SOMs, diagnosing results, and plotting maps. It also includes tools like a shiny app and vignettes to aid users without programming experience. SOMbrero supports missing data imputation and extends SOM to relational datasets through non-Euclidean distance measures.
Graph Neural Network for Phenotype Predictiontuxette
This document describes a study on using graph neural networks (GNNs) for phenotype prediction from gene expression data. The objectives are to determine if including network information can improve predictions, which network types work best, and if GNNs can learn network inferences. It provides background on GNNs and how they generalize convolutional layers to graph data. The authors implemented a GNN model from previous work as a starting point and tested it on different network types to see which network information is most useful for predictions. Their methodology involves comparing GNN performance to other methods like random forests using 10-fold cross validation.
A short and naive introduction to using network in prediction modelstuxette
The document provides an introduction to using network information in prediction models. It discusses representing a network as a graph with a Laplacian matrix. The Laplacian captures properties like random walks on the graph and heat diffusion. Eigenvectors of the Laplacian related to small eigenvalues are strongly tied to graph structure. The document discusses using the Laplacian in prediction models by working in the feature space defined by the Laplacian eigenvectors or directly regularizing a linear model with the Laplacian. This introduces network information and encourages similar contributions from connected nodes. The approaches are applied to problems like predicting phenotypes from gene expression using a known gene network.
Combiner classification et visualisation pour l’exploration de grands réseaux
1. Combiner classification et visualisation pour
l’exploration de grands réseaux
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
nathalie.villa@univ-paris1.fr
Journées MSTGA, INRA Toulouse, 7-8/11/2011
Travail joint avec Fabrice Rossi (SAMM, Université Paris 1)
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 1 / 23
2. Visualisation de graphes : pourquoi ?
Plan
1 Visualisation de graphes : pourquoi ?
2 Visualisation par classification hiérarchique
Obtention d’une hiérarchie de classifications
Visualisation d’une hiérarchie de classifications
Exemples et comparaisons
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 2 / 23
3. Visualisation de graphes : pourquoi ?
Contexte et problématique
Un réseau (graphe) G = (V, E, W) avec
• n sommets V = {x1, . . . , xn} ;
• des arêtes, E, pondérées par des poids Wij = Wji ≥ 0 (Wii = 0).
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 3 / 23
4. Visualisation de graphes : pourquoi ?
Visualisation : un outil pour comprendre le graphe
Approche courante pour explorer le graphe : visualisation par algorithme
de forces (FDP), par exemple [Fruchterman and Reingold, 1991]
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 4 / 23
5. Visualisation de graphes : pourquoi ?
Visualisation : un outil pour comprendre le graphe
Approche courante pour explorer le graphe : visualisation par algorithme
de forces (FDP), par exemple [Fruchterman and Reingold, 1991]
• forces attractives : le long des arêtes (analogues à des ressorts)
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 4 / 23
6. Visualisation de graphes : pourquoi ?
Visualisation : un outil pour comprendre le graphe
Approche courante pour explorer le graphe : visualisation par algorithme
de forces (FDP), par exemple [Fruchterman and Reingold, 1991]
• forces attractives : le long des arêtes (analogues à des ressorts)
• forces répulsives : entre toutes les paires de sommets (analogues à
des forces électriques)
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 4 / 23
7. Visualisation de graphes : pourquoi ?
Visualisation : un outil pour comprendre le graphe
Approche courante pour explorer le graphe : visualisation par algorithme
de forces (FDP), par exemple [Fruchterman and Reingold, 1991]
• forces attractives : le long des arêtes (analogues à des ressorts)
• forces répulsives : entre toutes les paires de sommets (analogues à
des forces électriques)
algorithme itératif jusqu’à stabilisation des positions des sommets.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 4 / 23
8. Visualisation de graphes : pourquoi ?
Limites des approches FDP
• lents (difficiles à mettre en œuvre pour des graphes de très grande
taille) ;
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 5 / 23
9. Visualisation de graphes : pourquoi ?
Limites des approches FDP
• lents (difficiles à mettre en œuvre pour des graphes de très grande
taille) ;
• privilégient l’esthétique à l’interprétabilité :
• Tendance : arêtes courtes et de tailles uniformes
• Conséquence négative : regroupement des nœuds de forts degrés au
centre de la figure
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 5 / 23
10. Visualisation de graphes : pourquoi ?
Limites des approches FDP
• lents (difficiles à mettre en œuvre pour des graphes de très grande
taille) ;
• privilégient l’esthétique à l’interprétabilité :
• Tendance : arêtes courtes et de tailles uniformes
• Conséquence négative : regroupement des nœuds de forts degrés au
centre de la figure
Or, approche naturelle d’exploration d’un graphe :
1 repérer la structure macroscopique : recherche de “communautés”
et de leurs relations ;
2 affiner les détails dans certaines parties.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 5 / 23
11. Visualisation de graphes : pourquoi ?
Mettre en valeur les “communautés” lors de la
représentation
1 approche globale : représenter tous les sommets du graphe en
modifiant les forces de manière à mettre en valeur les zones denses :
[Noack, 2007] algorithme LinLog
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 6 / 23
12. Visualisation de graphes : pourquoi ?
Mettre en valeur les “communautés” lors de la
représentation
1 approche globale : représenter tous les sommets du graphe en
modifiant les forces de manière à mettre en valeur les zones denses :
[Noack, 2007] algorithme LinLog
2 faire une classification des sommets puis une représentation
simplifiée [Herman et al., 2000]
• classification des sommets en classes V1, . . . , VC ;
• représenter le graphe des classes : sommets V1, . . . , VC (aire
proportionnelle à |Vj|) et arêtes d’épaisseur proportionnelle à
xk ∈Vi ,xk ∈Vj
Wij
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 6 / 23
13. Visualisation de graphes : pourquoi ?
Mettre en valeur les “communautés” lors de la
représentation
1 approche globale : représenter tous les sommets du graphe en
modifiant les forces de manière à mettre en valeur les zones denses :
[Noack, 2007] algorithme LinLog
2 faire une classification des sommets puis une représentation
simplifiée [Herman et al., 2000]
• classification des sommets en classes V1, . . . , VC ;
• représenter le graphe des classes : sommets V1, . . . , VC (aire
proportionnelle à |Vj|) et arêtes d’épaisseur proportionnelle à
xk ∈Vi ,xk ∈Vj
Wij
problème : Modifier FDP pour sommets de tailles variables.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 6 / 23
14. Visualisation de graphes : pourquoi ?
Mettre en valeur les “communautés” lors de la
représentation
1 approche globale : représenter tous les sommets du graphe en
modifiant les forces de manière à mettre en valeur les zones denses :
[Noack, 2007] algorithme LinLog
2 faire une classification des sommets puis une représentation
simplifiée
approche alternative : classification et placement simultanés sur
une carte auto-organisatrice [Rossi and Villa-Vialaneix, 2010]
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 6 / 23
15. Visualisation de graphes : pourquoi ?
Mettre en valeur les “communautés” lors de la
représentation
1 approche globale : représenter tous les sommets du graphe en
modifiant les forces de manière à mettre en valeur les zones denses :
[Noack, 2007] algorithme LinLog
2 faire une classification des sommets puis une représentation
simplifiée
3 approche hybride : représentations hiérarchiques dont la précision
augmente
[Auber et al., 2003, Auber and Jourdan, 2005, Seifi et al., 2010]
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 6 / 23
16. Visualisation de graphes : pourquoi ?
Approches combinant classification et visualisation...
... basées sur la modularité :
Q(V1, . . . , VC) =
1
2m
C
k=1 xi,xj∈Vk
(Wij − Pij)
avec Pij poids d’un « modèle nul »(poids dépendant seulement des degrés
des sommets et non de leurs classes) :
Pij =
didj
2m
avec di = 1
2 j i Wij.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 7 / 23
17. Visualisation de graphes : pourquoi ?
Interprétation
Une bonne classification maximise la modularité :
• Q quand (xi, xj) sont dans la même classe et Wij >> Pij
• Q quand (xi, xj) sont dans deux classes différentes et Wij << Pij
car
Q(C) +
1
2m
k k i∈Ck , j∈Ck
(Wij − Pij) = 0.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 8 / 23
18. Visualisation de graphes : pourquoi ?
Interprétation
Une bonne classification maximise la modularité :
• Q quand (xi, xj) sont dans la même classe et Wij >> Pij
• Q quand (xi, xj) sont dans deux classes différentes et Wij << Pij
car
Q(C) +
1
2m
k k i∈Ck , j∈Ck
(Wij − Pij) = 0.
• Modularité : aide à séparer des hubs ( spectral clustering ou
critère de coupe minimal) mais petit défaut de résolution (voir
[Fortunato and Barthélémy, 2007]).
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 8 / 23
19. Visualisation de graphes : pourquoi ?
Interprétation
Une bonne classification maximise la modularité :
• Q quand (xi, xj) sont dans la même classe et Wij >> Pij
• Q quand (xi, xj) sont dans deux classes différentes et Wij << Pij
car
Q(C) +
1
2m
k k i∈Ck , j∈Ck
(Wij − Pij) = 0.
• Modularité : aide à séparer des hubs ( spectral clustering ou
critère de coupe minimal) mais petit défaut de résolution (voir
[Fortunato and Barthélémy, 2007]).
Problème : Optimisation = Pb NP-complet (pas possible pour des
graphes de plus de qq centaines de sommets)
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 8 / 23
20. Visualisation par classification hiérarchique
Plan
1 Visualisation de graphes : pourquoi ?
2 Visualisation par classification hiérarchique
Obtention d’une hiérarchie de classifications
Visualisation d’une hiérarchie de classifications
Exemples et comparaisons
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 9 / 23
21. Visualisation par classification hiérarchique
Présentation générale de la méthodologie
2 étapes combinées :
• Obtention d’une hiérarchie de classifications (par optimisation de la
modularité) + test de la significativité du partitionnement à
chaque niveau ;
• Représentations des divers niveaux de la hiérarchie avec algorithme
de forces modifié.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 10 / 23
22. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Plan
1 Visualisation de graphes : pourquoi ?
2 Visualisation par classification hiérarchique
Obtention d’une hiérarchie de classifications
Visualisation d’une hiérarchie de classifications
Exemples et comparaisons
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 11 / 23
23. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Méthodes d’approximation de l’optimisation de la
modularité
Méthode rapide : « Algorithme de Louvain » [Blondel et al., 2008]
(méthode gloutonne multi-niveaux) : peut traiter des graphes avec des
millions de nœuds ; légèrement sous efficace en terme d’optimisation.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 12 / 23
24. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Méthodes d’approximation de l’optimisation de la
modularité
Méthode rapide : « Algorithme de Louvain » [Blondel et al., 2008]
(méthode gloutonne multi-niveaux) : peut traiter des graphes avec des
millions de nœuds ; légèrement sous efficace en terme d’optimisation.
[Noack and Rotta, 2009] : travail expérimental comparatif ⇒
recommandation pour des améliorations de l’approche précédente (rapide
et plus efficace)
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 12 / 23
25. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Méthodes d’approximation de l’optimisation de la
modularité
Méthode rapide : « Algorithme de Louvain » [Blondel et al., 2008]
(méthode gloutonne multi-niveaux) : peut traiter des graphes avec des
millions de nœuds ; légèrement sous efficace en terme d’optimisation.
[Noack and Rotta, 2009] : travail expérimental comparatif ⇒
recommandation pour des améliorations de l’approche précédente (rapide
et plus efficace)
Ici : méthodologie basée sur [Noack and Rotta, 2009] avec quelques
améliorations (dont ajout d’un test de connexité)
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 12 / 23
26. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Description de l’approche de classification retenue
Étape 1 : Obtention d’une première partition
• Construction gloutonne d’une partition
• Initialiser les classes : C
(1)
1
= {x1}, . . . , C
(1)
n = {xn}
• Répéter : fusionner 2 classes qui maximisent
Sig(Ci, Cj) =
∆QCi ,Cj
deg(Ci)deg(Cj)
jusqu’à ne plus pouvoir augmenter la modularité par fusion.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 13 / 23
27. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Description de l’approche de classification retenue
Étape 1 : Obtention d’une première partition
• Construction gloutonne d’une partition
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 13 / 23
28. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Description de l’approche de classification retenue
Étape 1 : Obtention d’une première partition
• Construction gloutonne d’une partition
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 13 / 23
29. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Description de l’approche de classification retenue
Étape 1 : Obtention d’une première partition
• Construction gloutonne d’une partition
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 13 / 23
30. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Description de l’approche de classification retenue
Étape 1 : Obtention d’une première partition
• Construction gloutonne d’une partition
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 13 / 23
31. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Description de l’approche de classification retenue
Étape 1 : Obtention d’une première partition
• Construction gloutonne d’une partition
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 13 / 23
32. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Description de l’approche de classification retenue
Étape 1 : Obtention d’une première partition
• Construction gloutonne d’une partition
• Au cours de l’algorithme, conservation des étapes correspondant
à une diminution de 25% du nombre de classes
. . .
Niveau 1 Niveau 2 ... Niveau L (final)
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 13 / 23
33. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Description de l’approche de classification retenue
Étape 1 : Obtention d’une première partition
• Construction gloutonne d’une partition
• Au cours de l’algorithme, conservation des étapes correspondant
à une diminution de 25% du nombre de classes
• Raffinement multi-niveaux des niveaux l = L − 1 → 1
• Déterminer le graphe induit par la classification au niveau l...
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 13 / 23
34. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Description de l’approche de classification retenue
Étape 1 : Obtention d’une première partition
• Construction gloutonne d’une partition
• Au cours de l’algorithme, conservation des étapes correspondant
à une diminution de 25% du nombre de classes
• Raffinement multi-niveaux des niveaux l = L − 1 → 1
• Déterminer le graphe induit par la classification au niveau l...
• ... et utiliser la classification de ses sommets selon le niveau l + 1...
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 13 / 23
35. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Description de l’approche de classification retenue
Étape 1 : Obtention d’une première partition
• Construction gloutonne d’une partition
• Au cours de l’algorithme, conservation des étapes correspondant
à une diminution de 25% du nombre de classes
• Raffinement multi-niveaux des niveaux l = L − 1 → 1
• Déterminer le graphe induit par la classification au niveau l...
• ... et utiliser la classification de ses sommets selon le niveau l + 1...
• ... pour effectuer des changements de classes opportunistes de
certains « super-sommets »
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 13 / 23
36. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Description de l’approche de classification retenue
Étape 1 : Obtention d’une première partition
• Construction gloutonne d’une partition
• Au cours de l’algorithme, conservation des étapes correspondant
à une diminution de 25% du nombre de classes
• Raffinement multi-niveaux des niveaux l = L − 1 → 1
• Contrôle de connexité : au niveau L, vérifier la connexité et scinder
les classes non connexes selon leurs composantes connexes
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 13 / 23
37. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Description de l’approche de classification retenue
Étape 1 : Obtention d’une première partition
Étape 2 : Itérations jusqu’à stabilisation
• Fusion éventuelle des classes de la classification de niveau L ;
• Raffinement multi-niveaux aux niveaux 1, L et L + 1 ;
• Contrôle de connexité.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 13 / 23
38. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Obtention d’une hiérarchie de classifications
But : Limiter le défaut de résolution de la modularité.
Principe : Itérer l’optimisation de la modularité dans chacune des classes
trouvées.
Niveau 1
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 14 / 23
39. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Obtention d’une hiérarchie de classifications
But : Limiter le défaut de résolution de la modularité.
Principe : Itérer l’optimisation de la modularité dans chacune des classes
trouvées.
Niveau 2
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 14 / 23
40. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Obtention d’une hiérarchie de classifications
But : Limiter le défaut de résolution de la modularité.
Principe : Itérer l’optimisation de la modularité dans chacune des classes
trouvées.
Niveau 3
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 14 / 23
41. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Critère d’arrêt de la hiérarchie
Limite des algorithmes de classification : ils fournissent toujours un
résultat !
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 15 / 23
42. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Critère d’arrêt de la hiérarchie
Limite des algorithmes de classification : ils fournissent toujours un
résultat !
Significativité d’une partition :
1 Générer des graphes aléatoires dans l’ensemble des graphes de
même distribution de degrés ;
Approche utilisée : algorithme MCMC de [Roberts Jr., 2000] par
permutations aléatoires d’arêtes du graphe observé
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 15 / 23
43. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Critère d’arrêt de la hiérarchie
Limite des algorithmes de classification : ils fournissent toujours un
résultat !
Significativité d’une partition :
1 Générer des graphes aléatoires dans l’ensemble des graphes de
même distribution de degrés ;
Approche utilisée : algorithme MCMC de [Roberts Jr., 2000] par
permutations aléatoires d’arêtes du graphe observé
Après Q|E| permutations, obtention d’un graphe aléatoire pour la distribution
uniforme dans l’ensemble des graphes de distribution de degrés fixée.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 15 / 23
44. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Critère d’arrêt de la hiérarchie
Limite des algorithmes de classification : ils fournissent toujours un
résultat !
Significativité d’une partition :
1 Générer des graphes aléatoires dans l’ensemble des graphes de
même distribution de degrés ;
2 Chercher l’optimum de la modularité ;
3 Déterminer la p-value de l’optimum selon la distribution
empirique ;
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 15 / 23
45. Visualisation par classification hiérarchique Obtention d’une hiérarchie de classifications
Critère d’arrêt de la hiérarchie
Limite des algorithmes de classification : ils fournissent toujours un
résultat !
Significativité d’une partition :
1 Générer des graphes aléatoires dans l’ensemble des graphes de
même distribution de degrés ;
2 Chercher l’optimum de la modularité ;
3 Déterminer la p-value de l’optimum selon la distribution
empirique ;
4 Si maximum de la modularité observée significatif (supérieure à
la modularité maximum de 100 graphes aléatoires), on conserve la
partition ; sinon, on arrête le partitionnement.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 15 / 23
46. Visualisation par classification hiérarchique Visualisation d’une hiérarchie de classifications
Plan
1 Visualisation de graphes : pourquoi ?
2 Visualisation par classification hiérarchique
Obtention d’une hiérarchie de classifications
Visualisation d’une hiérarchie de classifications
Exemples et comparaisons
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 16 / 23
47. Visualisation par classification hiérarchique Visualisation d’une hiérarchie de classifications
Principe général de la visualisation d’une classification
À partir d’un graphe G = (V, E, W) et d’une classification C1, . . . , CK ,
• déterminer le graphe induit par la classification :
• sommets : classes ;
• arêtes pondérées par la somme des arêtes entre les classes.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 17 / 23
48. Visualisation par classification hiérarchique Visualisation d’une hiérarchie de classifications
Principe général de la visualisation d’une classification
À partir d’un graphe G = (V, E, W) et d’une classification C1, . . . , CK ,
• déterminer le graphe induit par la classification :
• sommets : classes ;
• arêtes pondérées par la somme des arêtes entre les classes.
• représenter le graphe induit :
• classes représentées par un symbole de surface proportionnelle à |C| ;
• arêtes représentées par un trait d’épaisseur proportionnelle à la
contribution à la modularité.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 17 / 23
49. Visualisation par classification hiérarchique Visualisation d’une hiérarchie de classifications
Représenter une hiérarchie de classifications
Principe général
• partir de la classification la plus grossière
• développer les classes par ordre de plus faible réduction de la
modularité.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 18 / 23
50. Visualisation par classification hiérarchique Visualisation d’une hiérarchie de classifications
Représenter une hiérarchie de classifications
Principe général
• partir de la classification la plus grossière
• développer les classes par ordre de plus faible réduction de la
modularité.
Problèmes
1 tenir compte de la taille des sommets : [Tunkelang, 1999]
(modification des forces de l’algorithme de Fruchterman et Reingold)
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 18 / 23
51. Visualisation par classification hiérarchique Visualisation d’une hiérarchie de classifications
Représenter une hiérarchie de classifications
Principe général
• partir de la classification la plus grossière
• développer les classes par ordre de plus faible réduction de la
modularité.
Problèmes
1 tenir compte de la taille des sommets : [Tunkelang, 1999]
(modification des forces de l’algorithme de Fruchterman et Reingold)
2 anticiper l’espace nécessaire au développement d’une classe
donnée : estimation récursive de l’espace nécessaire à la
représentation par la méthode précédente (en partant du niveau le
plus fin)
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 18 / 23
52. Visualisation par classification hiérarchique Visualisation d’une hiérarchie de classifications
Représenter la contribution à la modularité des liens
entre classes
Fusion des classes Ci et Cj induit une modification de modularité égale à
∆QCi,Cj
=
1
m
WCi,Cj
−
d(Ci)d(Cj)
2m
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 19 / 23
53. Visualisation par classification hiérarchique Visualisation d’une hiérarchie de classifications
Représenter la contribution à la modularité des liens
entre classes
Fusion des classes Ci et Cj induit une modification de modularité égale à
∆QCi,Cj
=
1
m
WCi,Cj
−
d(Ci)d(Cj)
2m
Proposition
• arêtes telles que ∆QCi,Cj
< 0 en pointillés bleus (lien faible au sens de
la modularité) d’épaisseur égale à 1 ;
• arêtes telles que ∆QCi,Cj
> 0 en rouge (lien fort au sens de la
modularité) d’épaisseur comprise entre 1 et 5 (proportionnellement à
la valeur) ;
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 19 / 23
54. Visualisation par classification hiérarchique Exemples et comparaisons
Plan
1 Visualisation de graphes : pourquoi ?
2 Visualisation par classification hiérarchique
Obtention d’une hiérarchie de classifications
Visualisation d’une hiérarchie de classifications
Exemples et comparaisons
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 20 / 23
55. Visualisation par classification hiérarchique Exemples et comparaisons
« Political books »
Description :
• sommets : 105 livres politiques américains ;
• arêtes pondérées par le nombre d’achats communs sur amazon.
Représentation FDP
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 21 / 23
56. Visualisation par classification hiérarchique Exemples et comparaisons
« Political books »
Description :
• sommets : 105 livres politiques américains ;
• arêtes pondérées par le nombre d’achats communs sur amazon.
Représentation LinLog
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 21 / 23
57. Visualisation par classification hiérarchique Exemples et comparaisons
« Political books »
Description :
• sommets : 105 livres politiques américains ;
• arêtes pondérées par le nombre d’achats communs sur amazon.
Représentation hiérarchique (niveau 1/2)
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 21 / 23
58. Visualisation par classification hiérarchique Exemples et comparaisons
« Political books »
Description :
• sommets : 105 livres politiques américains ;
• arêtes pondérées par le nombre d’achats communs sur amazon.
Représentation hiérarchique (niveau 2/2)
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 21 / 23
59. Visualisation par classification hiérarchique Exemples et comparaisons
Visualisation d’un grand graphe
Description : graphe issu d’un corpus d’archives médiévales
http://graphcomp.univ-tlse2.fr/ :
• sommets : transactions du corpus et personnes actives (seigneurs,
tenanciers). 3 918 individus impliqués dans 6 455 transactions (total :
10 373 sommets) ;
• arêtes modélisent l’implication active d’une personne dans une
transaction.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 22 / 23
60. Visualisation par classification hiérarchique Exemples et comparaisons
Visualisation d’un grand graphe
Description : graphe issu d’un corpus d’archives médiévales
http://graphcomp.univ-tlse2.fr/ :
• sommets : transactions du corpus et personnes actives (seigneurs,
tenanciers). 3 918 individus impliqués dans 6 455 transactions (total :
10 373 sommets) ;
• arêtes modélisent l’implication active d’une personne dans une
transaction.
Optimisation de la modularité : 48 classes composées de 10 à 740
sommets.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 22 / 23
61. Visualisation par classification hiérarchique Exemples et comparaisons
Visualisation d’un grand graphe
Description : graphe issu d’un corpus d’archives médiévales
http://graphcomp.univ-tlse2.fr/ :
• sommets : transactions du corpus et personnes actives (seigneurs,
tenanciers). 3 918 individus impliqués dans 6 455 transactions (total :
10 373 sommets) ;
• arêtes modélisent l’implication active d’une personne dans une
transaction.
Optimisation de la modularité : 48 classes composées de 10 à 740
sommets.
Hiérarchie : 4 niveaux (limitée à 100 classes maximum) : 89 classes
retenues sur le niveau le plus fin.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 22 / 23
62. Visualisation par classification hiérarchique Exemples et comparaisons
Visualisation d’un grand graphe
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 22 / 23
63. Visualisation par classification hiérarchique Exemples et comparaisons
Visualisation d’un grand graphe
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 22 / 23
64. Visualisation par classification hiérarchique Exemples et comparaisons
Visualisation d’un grand graphe
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 22 / 23
65. Visualisation par classification hiérarchique Exemples et comparaisons
Visualisation d’un grand graphe
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 22 / 23
66. Visualisation par classification hiérarchique Exemples et comparaisons
Visualisation d’un grand graphe
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 22 / 23
67. Visualisation par classification hiérarchique Exemples et comparaisons
Visualisation d’un grand graphe
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 22 / 23
68. Visualisation par classification hiérarchique Exemples et comparaisons
Visualisation d’un grand graphe
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 22 / 23
69. Visualisation par classification hiérarchique Exemples et comparaisons
Visualisation d’un grand graphe
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 22 / 23
70. Visualisation par classification hiérarchique Exemples et comparaisons
Conclusion et limites
Résumé des avantages de l’approche
• rapide
• totalement automatisée
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 23 / 23
71. Visualisation par classification hiérarchique Exemples et comparaisons
Conclusion et limites
Résumé des avantages de l’approche
• rapide
• totalement automatisée
Principale limite : estimation récursive de la place occupée par une
classe parfois surestimée ⇒ arêtes inutilement longues et biais de
visualisation
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 23 / 23
72. Visualisation par classification hiérarchique Exemples et comparaisons
Conclusion et limites
Résumé des avantages de l’approche
• rapide
• totalement automatisée
Principale limite : estimation récursive de la place occupée par une
classe parfois surestimée ⇒ arêtes inutilement longues et biais de
visualisation
Merci pour votre attention
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 23 / 23
73. Visualisation par classification hiérarchique Exemples et comparaisons
Références
Auber, D., Chiricota, Y., Jourdan, F., and Melançon, G. (2003).
Multiscale visualization of small world networks.
In INFOVIS’03.
Auber, D. and Jourdan, F. (2005).
Interactive refinement of multi-scale network clusterings.
In International Conference on Information Visualisation, International Conference,
pages 703–709, Los Alamitos, CA, USA. IEEE Computer Society.
Blondel, V., Guillaume, J., Lambiotte, R., and Lefebvre, E. (2008).
Fast unfolding of communites in large networks.
Journal of Statistical Mechanics : Theory and Experiment, P10008 :1742–5468.
Fortunato, S. and Barthélémy, M. (2007).
Resolution limit in community detection.
In Proceedings of the National Academy of Sciences, volume 104, pages 36–41.
doi :10.1073/pnas.0605965104 ; URL :
http://www.pnas.org/content/104/1/36.abstract.
Fruchterman, T. and Reingold, B. (1991).
Graph drawing by force-directed placement.
Software-Practice and Experience, 21 :1129–1164.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 23 / 23
74. Visualisation par classification hiérarchique Exemples et comparaisons
Herman, I., Melançon, G., and Scott Marshall, M. (2000).
Graph visualization and navigation in information visualisation.
IEEE Transactions on Visualization and Computer Graphics, 6(1) :24–43.
Noack, A. (2007).
Energy models for graph clustering.
Journal of Graph Algorithms and Applications, 11(2) :453–480.
Noack, A. and Rotta, R. (2009).
Multi-level algorithms for modularity clustering.
In SEA ’09 : Proceedings of the 8th International Symposium on Experimental
Algorithms, pages 257–268, Berlin, Heidelberg. Springer-Verlag.
Roberts Jr., J. M. (2000).
Simple methods for simulating sociomatrices with given marginal totals.
Social Networks, 22(3) :273 – 283.
Rossi, F. and Villa-Vialaneix, N. (2010).
Optimizing an organized modularity measure for topographic graph clustering : a
deterministic annealing approach.
Neurocomputing, 73(7-9) :1142–1163.
Seifi, M., Guillaume, J., Latapy, M., and Le Grand, B. (2010).
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 23 / 23
75. Visualisation par classification hiérarchique Exemples et comparaisons
Visualisation interactive multi-échelle des grands graphes : application à un réseau
de blogs.
In Atelier EGC 2010, Visualisation et Extraction de Connaissances, Hammamet,
Tunisie.
Tunkelang, D. (1999).
A Numerical Optimization Approach to General Graph Drawing.
PhD thesis, School of Computer Science, Carnegie Mellon University.
CMU-CS-98-189.
Visualisation de réseaux (Journées MSTGA) Nathalie Villa-Vialaneix & Fabrice Rossi Toulouse, 8/11/2011 23 / 23