4. gipsa-lab
CONTEXTE
METHODES
4
MODELES GENERATIFS
Illustration « Small World », Collective dynamics of
‘small-world’ networks, D. J. Watts & S. H. Strogatz
Illustration « Preferential Attachement », Choice-driven phase
transition in complex networks, P. L. Krapivsky and S. Redner
• Erdos-Renyi
• Forest Fire
• Kronecker
• Preferential Attachment
• Random k-regular
• Random Power Law
• Random Typing
• Small-World
5. gipsa-lab
CONTEXTE
METHODES
5
COMPARAISON DE GRAPHES
• Tansformation d’un graphe vers un autre
ex : Distance d’édition
MESURES
STRUCTURELLES
• Tendance des nœuds à se regrouper, distribution
des degrés, chemins entre nœuds
ex : Clustering, PlusCourtChemin
MESURES
LOCALES
(pour chaque nœud)
• Mesureslocalesmoyennées,formationdenoyaux etde
communautés
ex:Assortativité, Centralité, Modularité,Diamètre
MESURES
GLOBALES
6. gipsa-lab
METHODES
MESURE LOCALE
6
Comptage de Graphlets
Ensemble
d’apprentissage
Instance de
graphe
Nombre de
Graphlets
Classifieur
Modèle de graphe
entrée du classifieurapprentissage du classifieur
ETAT DE L’ART : JANSSEN et al. 2012
Nombre de
Graphlets
8. gipsa-lab
METHODES
MESURE LOCALE
8
MODELISATION DES GCC
Caractérisation des GCC vers 4 modèles
(Erdos-Renyi, Preferential Attachement, Random k-regular, Small-World)
Classe Prédiction E-R P A R k-R S-W
Control Small-World 0.2502 0.2501 0.2492 0.2505
Patient Small-World 0.2502 0.2501 0.2492 0.2505
Résultat de la caractérisation avec mesures globales et classifieur SVM
Intervalle de
confiance ~25%
9. gipsa-lab
METHODES
MESURE LOCALE
9
IDENTIFICATION DES GCC
true Control true Patient class precision
pred. Control 13 11 54.17%
pred. Patient 7 6 46.15%
class recall 65.00% 35.29% 50.16%
Résultat de l’identification avec mesures globales et classifieur SVM
Précision de la méthode à 50.16%, aléatoire à 50%
11. gipsa-lab
MESURE LOCALE
RESULTATS
HISTOGRAMME NORMALISE
11
• Clustering Coefficient
• Characteristic Path Length
• Degrees Distribution
• Efficiency
Ensemble
d’apprentissage
Instance de
réseau
Histogrammes
normalisés moyens
Distances entre
Histogrammes
Modèle de graphe
Histogramme des
mesures locales
Histogramme
normalisé
minimum des distances ou un classifieur
12. gipsa-lab
MESURE LOCALE
RESULTATS
DISTANCE ENTRE HISTOGRAMMES
12
• Mesure de dissemblance bin à bin :
Battacharyya:
Chi²
Hellinger:
• Mesure de dissemblance avec conservation de la silhouette :
EarthMoverDistance:Optimisation du travail minimum qu'un cantonnier
doit fournir pour transporter un tas de terre en un autre
Match:Comparaison des histogrammes cumulés
13. gipsa-lab
RESULTATS
DONNEES DE SYNTHESES
13
Performances
graphlets : 78%
mesures globales : 88% à 97.3% 6 mesures voire plus
mesures locales : 86% ou 100% 1 seule mesure
Precision
SW 100%
RPL 100%
RkR 100%
PA 100%
KG 100%
FF 100%
ER 100%
100%
Precision
SW 100%
RTG 96%
RPL 98%
PA 99%
KG 96%
FF 98%
ER 93%
97.2%
Résultat de la
classification
mesures locales mesures globales
14. gipsa-lab
RESULTATS
GRAPHES DE CONNECTIVITES
14
GLOBALES
A.N.N.
C P
C 11 9 55%
P 5 12 71%
69% 57% 63%
mesures globales 63% V.S. 83% histogrammes
Matrice de confusion de l’identification Control / Patient
HISTOGRAMME
CLUSTERING
ETCHI²
C P
C 18 2 90%
P 4 13 76%
82% 87% 83%
15. gipsa-lab
RESULTATS
MODELISATION DES GCC
15
7 Clustering Degrés
ER 0,418 0,133
FF 0,207 0,074
KG 0,112 0,211
RPL 0,156 0,088
PA 0,437 0,242
RkR 0,459 0,183
SW 0,103 0,238
Distance EMD entre GCC et modèles pour deux mesures locales
16. gipsa-lab
CONCLUSION
De bonnes performances sur les graphes de synthèse
Les histogrammes locaux sont importants
Le clustering local est particulièrement intéressant
Dépendant du nombre et du choix des modèles
Les résultats sur les données réelles sont
à approfondir
Une combinaison des modèles est à envisager
Notes de l'éditeur
Bonjour à tous
Je vais vous présenter mes travaux sur les graphes, et plus particulièrement sur la classif…erveau issue de mon stage ici au GIPSA lab
Après une rapide présentation du contexte je vais vous présenter deux méthodes usuelles issues de la littérature avant d’introduire les concepts de mesures locales et d‘histogrammes et enfin une comparaison des résultats et des performances.
Dans cette étude nous cherchons à comparer des graphes entre eux.
Vous avez ici l’exemples de Graphes de Connectivité du Cerveau avec les nœuds en noirs, et les arêtes en bleu, on les obtient par imagerie IRM sur des personnes saines agissant comme control et sur des patients atteints de troubles psychologiques ou neurologiques comme un comma. On sépare alors le cerveau en différentes régions représentées chacune par un nœud. Une arête montrant un lien fonctionnel entre deux régions.
Ces GCC constituent nos données réelles, nous allons pouvoir les comparer par la suite à des graphes de synthèses pour en définir un modèle.
VISUEL GRAPH CONNECTIVITE -> COMMENT CARACTERISER LES GRAPHES LES UNS AU AUTRES / MODELISER ELS DONNEES REELES PAR UNE (DES) METHODES GENERATIVES / CATEGORISER LES DONNEES REELLES ENTRES ELLES.
Les modèles génératifs présentent différentes manières de générer des graphes. Tous ces modèles sont simulés d’après plusieurs paramètres comme leur nombre de noeuds et d’arêtes.
Vous avez ici une autre représentation visuelle des graphes où les noeuds sont répartis sur un cercle.
Trois modèles peuvent êtres définis comme présentés ici, le modèle régulier ou tous les nœuds sont liés à leurs k plus proches voisins.
On va pouvoir ensuite reconnecter aléatoirement les arêtes avec une probabilité p jusqu’à atteindre le modèle dit Small-World
Si on continue encore on va obtenir un modèle complètement aléatoire ou modèle Erdos Renyi.
Un autre modèle initié par Barabasi est le Préférential Attachment, l’idée représentée ici est qu’il est plus probable de trouver de nouveaux amis chez les amis de mes amis que chez des personnes avec lesquelles je n’ai aucune relation. Le Préférential attachement modèlise parfaitement les réseaux sociaux ou encore le système de citation dans les articles.
Maintenant que nous avons plusieurs types de graphes nous allons chercher à les comparer.
Pour cela il existe plusieurs types de mesures
heavy tailed degree distribution, high clustering, small path length
Nous allons maintenant entrer dans le vif du sujet avec une première méthode de classification de graphes basé sur le comptage de motifs appelés GRAPHLETS
On peut voir ici les différents motifs pour 3 et 4 nœuds.
On commence par compter le nombre de graphlets d’un ensemble d’apprentissage composés d’un certain nombre de graphes pour chaque modèle étudié ont on va se servir pour créer un classifieur.
Pour chaque nouvelle instance de graphe à tester on va
Classifieur adapté au graph en entrée et on cherche une indépendance vis-à-vis du nombre de noeud
On a donc commencé par essayer de repartir les graphes de connectivites selon differents modeles generatifs pour voir s’il y en a un qui colle.
Pour cela on a utilisé les mesures globales d’une centaine de graphes pour 4 modeles generatifs comme ensemble d’apprentissage et on a ensuite passé les 37 GCC dans un classifieur SVM.
Prédiction basée sur le max pas de sens, même données autres classifieurs autres modèles.
25% partout, ces 4 modèles de synthèses avec les paramètres, ne permettent pas de caractériser les données réelles, pas adéquat, pas discriminant, le graph n’est pas reconnu Patient comme Control
Inspiration pour classifier les PATIENT/CONTROL en cross valiation/leave one out avec un classifieur SVM, on voit bien qu’on est incapable de les séparer avec mesures globales.
RESULTATS mitigés, en simulation avec graphes de synthèses seuls, comme ce qu’on voit dans la littérature, ça marche bien mais... Faiblesse des méthodes précédentes.
PBMTK -> Intérêt des mesures locales, un histogramme pour illustrer,
FORTEMENT INSPIRE DE LA DEUXIEME METHODE APPRENTISSAGE 7 modèles génératifs
Un histogramme moyen pour chaque modèle
Plus petit / apprentissage
NORMALISE / MOYENS Mesures locales, les histogrammes moyens
2 histogrammes de graphes <>
5 distances, sens physique (pas de divergence car elles nécessitent un support commun)
1 seule mesure (Clustering)
Expliquer le process + METHODE DE S. MOTALLEBI
Pourquoi pas fitter des lois ? On ne peut pas toujours au vu de la forme des histogrammes.
Pourquoi pas directement un histogramme dans le classifieur ? Pas vraiment de sens, 30 mesures, un énorme nombre d’échantillons
Regarder histo Kro/SW