Les principaux logiciels pour l'analyse de réseau

1 254 vues

Publié le

Présentation des principaux logiciels d'analyse de réseau faite à l'école Quantilille, juin 2013

Publié dans : Logiciels
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 254
Sur SlideShare
0
Issues des intégrations
0
Intégrations
8
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Les principaux logiciels pour l'analyse de réseau

  1. 1. Les principaux logiciels pour l’analyse de réseau Laurent Beauguitte CNRS, UMR IDEES 27 juin 2013 L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 1 / 72
  2. 2. Objectifs de la séance présenter différents logiciels (les principaux ?) présenter les critères de choix manipuler plusieurs logiciels et savoir passer de l’un à l’autre sans (trop d’) effort Ceci n’est pas un cours. . . N’hésitez pas à m’interrompre ! L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 2 / 72
  3. 3. Ego-histoire 2008 : tentative Degenne - Forsé et Pajek 2009 : Wasserman - Faust et Ucinet Création en 2010 avec C. Ducruet du groupe fmr (flux,matrices, réseaux) depuis septembre 2010 : séminaire mensuel (traduction) décembre 2010 : création de la collection hal-shs (fiches méthodologiques & tutoriels) octobre 2011 : création de la page facebook (brèves et actualités) juin 2012 : blog http ://groupefmr.hypotheses.org/ 27 septembre 2012 : première journée d’étude à Paris 19 septembre 2013 : deuxième journée d’étude à Paris Rédaction tutoriels et billets : Ucinet et Netdraw, Pajek (avec P. Mercklé), R, Pigale, Cytoscape, NodeXL. . . L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 3 / 72
  4. 4. Travaux de recherche en analyse de réseaux Travail de thèse sur l’AG de l’ONU / contrat sur un PCRD (2009-2011) matrice États - résolution -> matrice de similarité État - État / graphe valué matrice États - groupes -> graphe biparti matrice États - États de flux commerciaux, relations diplomatiques, FDI etc. indicateurs globaux (densité, ordre, taille, nombre de composantes connexes), locaux (centralités. . .) et meso (clustering coefficient, k-cores), ego-networks, blockmodel etc. En cours ou à venir parcours de santé en psychiatrie blogs tour du monde (graphe biparti blogueur - État visité) flux RSS (rubrique international) d’une centaine de journaux L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 4 / 72
  5. 5. Vous et les logiciels 20 participant-e-s dont 10 ne citent aucun logiciel 6 logiciels cités (max. 4 références) Logiciels cités plus d’une fois : Ucinet (Netdraw), Pajek, Gephi, R Premier logiciel : Ucinet (3), Pajek (2), Gephi (2), NodeXL (1) Raisons données libre et gratuit / open source (Ucinet & Pajek) facilité d’utilisation (Ucinet, Gephi, NodeXL) langue française (Gephi ( !)) documentation disponible (Ucinet) L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 5 / 72
  6. 6. 1 Critères de choix 2 Des logiciels pour débuter : Ucinet, NodeXL et Visone 3 Pajek : un logiciel de référence mal fichu 4 Cytoscape, Gephi et Tulip : grands réseaux et visualisation 5 La RéféRence ? R L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 6 / 72
  7. 7. Trois constats peu encourageants il est impossible de connaître tous les logiciels ; il est impossible de suivre leur actualité ; maîtriser un logiciel est (plus ou moins) long. . . Deux contraintes anglais indispensable ; bilinguisme SNA/physique-informatique recommandé. Mais l’offre est abondante, diversifiée et l’ergonomie ne cesse de progresser ! Toutes les captures d’écran ont été réalisées sous environnement Windows 7 64-bits L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 7 / 72
  8. 8. Critères de choix Liste non exhaustive. . . Raisons liées aux données réseau classique ou non (biparti, spatial, personnel, longitudinal. . .) taille du réseau Raisons liées au logiciel facilité d’apprentissage et d’utilisation qualité de la documentation (en français ? liste de diffusion ?) format des données et compatibilité ancienneté et fréquence des mises à jour L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 8 / 72
  9. 9. Critères de choix Raisons personnelles logiciel payant, gratuit, libre système d’exploitation utilisé votre réseau personnel vos objectifs (enseignement, mesures, visualisation, modélisation) usage quotidien ou rare connaissance d’un autre logiciel d’analyse de réseaux L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 9 / 72
  10. 10. Critères de choix Données Pas de format standard mais passerelle d’un logiciel à l’autre Contraintes plus ou moins fortes (données manquantes, attributs des sommets ou des liens) Format le plus courant : liste de sommets (et attributs), liste de liens (et attributs) Réflexe à acquérir : ouvrir les données test avec un éditeur de texte et étudier la structure L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 10 / 72
  11. 11. Critères de choix Exemple d’un fichier pour Pajek (World_trade.paj) *Network Imports_manufactures.net *Vertices 80 1 "Algeria" 0.8281 0.7178 0.5000 2 "Argentina" 0.3063 0.3063 0.5000 3 "Australia" 0.4152 0.7755 0.5000 *Arcs 78 25 556 24 25 23023 26 25 12714 L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 11 / 72
  12. 12. Critères de choix Standard probable à l’avenir : graphml (http ://graphml.graphdrawing.org/) Contient les informations sur les sommets, les liens et les attributs visuels <node id="n0"> <data key="d0"> <visone:shapeNode> <y:ShapeNode> <y:Geometry height="30.0" width="30.0" x="458" y="3 <y:Fill color="#3399FF" transparent="false"/> <y:BorderStyle color="#000000" type="line" width="1 <y:NodeLabel alignment="center" fontFamily="Dialog" height="18" modelName="internal" modelPosition="c" width="11.0" x="9.5" y="5.6">0</y:NodeLabel> <y:Shape type="roundrectangle"/> </y:ShapeNode> </visone:shapeNode> </data> <data key="d1">0</data> </node>L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 12 / 72
  13. 13. Critères de choix Comment choisir un logiciel ? Logiciels généralistes vs logiciels spécialisés Un logiciel généraliste permet de analyser des réseaux différents (valués, bipartis) mesurer visualiser Exemples : Ucinet/Netdraw, Pajek, Cytoscape, R L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 13 / 72
  14. 14. Critères de choix Un logiciel spécialisé est conçu pour un objectif spécifique réseaux longitudinaux : Siena, RSiena, LPNet réseaux personnels : E-net, Egonet, Vennmaker réseaux valués : R (tnet) modèles ERGM : PNet graphes planaires : Pigale réseaux spatiaux : ArcGis (Network Analysis), QGis (Networks) réseaux 2-mode : R (bipartite) L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 14 / 72
  15. 15. Des logiciels pour débuter : Ucinet, NodeXL et Visone Avec quoi commencer ? Préférer un logiciel avec interface graphique Choisir une valeur sûre Prendre le temps d’étudier la documentation (format de données) Créer des données tests (petite taille) Exemples : Ucinet, NodeXL et Visone L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 15 / 72
  16. 16. Des logiciels pour débuter : Ucinet, NodeXL et Visone Ucinet (analyse) et Netdraw (visualisation) : logiciel payant développé depuis 2002 par Freeman, Borgatti et Everett Plateforme Windows et menus déroulants Taille des réseaux limitée (256 sommets ?) Gros générateur de fichiers .txt (une mesure = un fichier) Version 6.474 L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 16 / 72
  17. 17. Des logiciels pour débuter : Ucinet, NodeXL et Visone Lancement L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 17 / 72
  18. 18. Des logiciels pour débuter : Ucinet, NodeXL et Visone Plein de mesures possibles. . . L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 18 / 72
  19. 19. Des logiciels pour débuter : Ucinet, NodeXL et Visone Netdraw peut être utilisé seul - moins de mesures disponibles L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 19 / 72
  20. 20. Des logiciels pour débuter : Ucinet, NodeXL et Visone NodeXL (analyse et visualisation de réseau 1-mode) : plug-in open source développé par la Social media research foundation depuis 2008 Utilisable seulement avec Excel 2007 et versions postérieures. . . Importation des données facile, manipulation facile (onglets & menus), visualisation médiocre et pas d’exportation vectorielle Version 1.0.1.229 L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 20 / 72
  21. 21. Des logiciels pour débuter : Ucinet, NodeXL et Visone Au lancement L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 21 / 72
  22. 22. Des logiciels pour débuter : Ucinet, NodeXL et Visone Publicité (à moitié) mensongère ? L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 22 / 72
  23. 23. Des logiciels pour débuter : Ucinet, NodeXL et Visone Visone : logiciel gratuit et non libre, Windows, Mac et Linux Développé depuis 2002 à Constance (Ulrik Brandes et al.) Ergonomie standard des 00s, lien avec R (modèle Siena) Produit difficile à situer (et logo pas beau. . .) Version 2.7 L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 23 / 72
  24. 24. Des logiciels pour débuter : Ucinet, NodeXL et Visone L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 24 / 72
  25. 25. Des logiciels pour débuter : Ucinet, NodeXL et Visone L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 25 / 72
  26. 26. Pajek : un logiciel de référence mal fichu Pajek (analyse et visualisation) : logiciel gratuit non libre développé depuis 1997 par Vladimir Batagelj et Andrej Mrvar. Windows, Linux et Mac, menus déroulants Taille pour la visualisation : plusieurs milliers de sommets Taille pour l’analyse : plusieurs dizaines de milliers de sommets (PajekXXL) Ergonomie discutable. . . Documentation de base indigente, manuel (payant) de qualité, logo superbe Version Pajek64 3.12 L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 26 / 72
  27. 27. Pajek : un logiciel de référence mal fichu L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 27 / 72
  28. 28. Pajek : un logiciel de référence mal fichu Lancement L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 28 / 72
  29. 29. Pajek : un logiciel de référence mal fichu Un graphe, les degrés et les degrés normalisés = 3 objets différents L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 29 / 72
  30. 30. Cytoscape, Gephi et Tulip : grands réseaux et visualisation Trois logiciels open source et multi-plateformes (Linux, Mac, Windows) Analyse et visualisation de réseaux de grande taille (plusieurs milliers de sommets) Menus déroulants et fenêtres de travail Tulip : développé depuis 2001 par le LABRI (Bordeaux) en collaboration avec des géographes (version 4.2) Cytoscape : développé depuis 2003 et (au départ) conçu pour l’analyse de réseaux biologiques (version 3.0.1) Gephi : développé depuis 2009 par un consortium français (Sciences-Po, ISC Paris etc.) (version 0.8.2) L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 30 / 72
  31. 31. Cytoscape, Gephi et Tulip : grands réseaux et visualisation Les points forts Tulip : visualisation réseaux spatiaux, analyse de grands graphes Gephi : effet de mode donc facile de trouver des utilisateurs, prise en main (relativement) aisée Cytoscape : facilité de prise en main (import, analyse, visualisation), ne plante pas Les points faibles Tulip : pas d’exportation vectorielle des images, plante souvent, fonctions défaillantes (importation) Gephi : peu de mesures disponibles, plante souvent, version bêta (0.xx) Cytoscape : ? L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 31 / 72
  32. 32. Cytoscape, Gephi et Tulip : grands réseaux et visualisation L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 33 / 72
  33. 33. Cytoscape, Gephi et Tulip : grands réseaux et visualisation L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 35 / 72
  34. 34. Cytoscape, Gephi et Tulip : grands réseaux et visualisation L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 36 / 72
  35. 35. Cytoscape, Gephi et Tulip : grands réseaux et visualisation L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 37 / 72
  36. 36. Cytoscape, Gephi et Tulip : grands réseaux et visualisation L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 38 / 72
  37. 37. Cytoscape, Gephi et Tulip : grands réseaux et visualisation L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 39 / 72
  38. 38. Cytoscape, Gephi et Tulip : grands réseaux et visualisation L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 40 / 72
  39. 39. Cytoscape, Gephi et Tulip : grands réseaux et visualisation L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 42 / 72
  40. 40. Cytoscape, Gephi et Tulip : grands réseaux et visualisation L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 43 / 72
  41. 41. La RéféRence ? R Logiciel open source et multi-plateforme d’analyse de données Nombreux modules d’analyse de réseaux généralistes (statnet, igraph) et spécialisés (bipartite, RSiena, tnet. . .) Nécessite l’écriture de scripts Déconseillé pour débuter, devient vite indispensable quand pratique régulière (gain de temps, puissance d’analyse) L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 44 / 72
  42. 42. La RéféRence ? R Conseils Préférer les modules portés par une équipe (taux de mortalité élevé des packages) S’attaquer aux problèmes de façon séquentielle. . . Adapter l’usage à ses objectifs Lire et tester la documentation et s’abonner aux listes de diffusion L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 45 / 72
  43. 43. La RéféRence ? R R et les réseaux 46 packages contenant le terme network dans leur titre ou leur description sur CRAN (recherche faite le 12 avril 2013) L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 46 / 72
  44. 44. La RéféRence ? R Cinq grandes catégories les généralistes les spécialistes les adaptables les inutiles & inutilisables les morts L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 47 / 72
  45. 45. La RéféRence ? R Packages généralistes Deux packages généralistes et non compatibles igraph package développé par des informaticiens & des physiciens très nombreuses mesures issues de la sociologie et de la physique objet igraph statnet ensemble de packages développé par des sociologues nombreuses mesures issues de la sociologie et de la physique et modèles statistiques (ERGM - Exponential Random Graph Model) objet network Dans les deux cas, site internet, documentation, tutoriaux et mailing list L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 48 / 72
  46. 46. La RéféRence ? R Lequel choisir ? igraph importation des données plus simple résultats présentés de façon parfois peu lisibles plus d’indicateurs disponibles sortie graphique par défaut laide & fausse 3D statnet (un peu) moins d’indicateurs importation moins aisée (attributs) modèles statistiques vraie 3D Utilisez les deux. . . L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 49 / 72
  47. 47. La RéféRence ? R Un exemple : propriétés du graphe statnet igraph L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 50 / 72
  48. 48. statnet igraph
  49. 49. La RéféRence ? R Packages spécialisés package QuACN : analyse de réseaux complexes et biologiques (mesures très spécifiques) package bipartite : analyse de réseaux bipartis, développé par des écologues package enaR : analyse de réseaux écologiques (procédures MatLab) package tnet : analyse de réseaux valués (simples et bipartis) package egonet : analyse de réseaux personnels package intergraph : transforme les objets network (statnet) en objet igraph et vice versa (mais pas les graphes bipartis. . .) L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 52 / 72
  50. 50. La RéféRence ? R Packages adaptables Packages non conçus pour l’analyse de réseaux mais qu’il est possible de détourner. . . Analyse de réseau -> calcul matriciel L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 53 / 72
  51. 51. La RéféRence ? R Packages inutiles & inutilisables Inutilisables : documentation incomplète et/ou incompréhensible (blockmodeling) Inutiles : non multiplateforme, maintenance non assurée (InteractiveIgraph) L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 54 / 72
  52. 52. La RéféRence ? R Packages morts Un des vrais problèmes concernant la portabilité de R (requête Google "was removed from the CRAN repository" : 26 000 résultats. . .) Packages récemment disparus : biGraph, Rgraphviz, graphComp Capacité à maintenir le package en fonction des changements de version de R et des packages parents L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 55 / 72
  53. 53. La RéféRence ? R Avantages Ceux de R en général. . . Rapidité (différente selon les packages) Utilisation de scripts Très grande variété des analyses possibles L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 56 / 72
  54. 54. La RéféRence ? R Inconvénients Packages différents utilisant des objets différents. Difficile de jongler entre eux. igraph : objet igraph ; statnet : objet network ; tnet : objet matrix etc. Pas de package dédié à l’analyse des graphes planaires ! Mortalité élevée des packages Visualisation correcte pour du travail exploratoire Visualisation insuffisante comme outil de communication L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 57 / 72
  55. 55. La RéféRence ? R Visualisation par défaut statnet igraph L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 58 / 72
  56. 56. La RéféRence ? R Visualisation avec (petit) script L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 59 / 72
  57. 57. La RéféRence ? R Ressources http ://statnet.csde.washington.edu/ http ://igraph.sourceforge.net/ http ://groupefmr.hypotheses.org/, voir notamment le billet « Analyse de réseaux avec R : des ressources gratuites pour un logiciel libre ! » L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 60 / 72
  58. 58. Conclusion Le logiciel idéal n’existe (heureusement) pas. Les logiciels peu utiles sont légions. . . Apprendre à utiliser un nouveau logiciel est (plus) facile si on en maîtrise déjà un Choisir une valeur sûre est souvent pertinent (format de données, documentation) Ne vous laissez jamais contraindre par les possibilités d’un logiciel. . . Et surtout, n’hésitez pas à écrire des tutoriels ! L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 61 / 72
  59. 59. Conclusion Merci de votre attention Des questions ?. . . L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 62 / 72
  60. 60. Exercice Soit le graphe non orienté suivant Créer un fichier .txt de type origine - destination Mesurer la densité du graphe avec Ucinet - Pajek (optionnel : Cytoscape) Visualiser le graphe avec Netdraw - Cytoscape (optionnel : Gephi). La taille des sommets sera proportionnelle au degré
  61. 61. Aide Ucinet : format matriciel des données Ucinet : choisir la mesure puis le graphe Tous les logiciels : quels sont les formats possibles pour l’importation ? pour l’exportation ? Passerelle Ucinet - Pajek ? Import directe du fichier .txt dans Cytoscape ? Passerelle Cytoscape - Gephi ?
  62. 62. Aide pas à pas Construction matrice dans Ucinet Enregistrer en tant que fichier Ucinet (File > Save as > UCINET 4-6 dataset) Exporter en tant que fichier Pajek (Data > Export Pajek > Network) Mesurer densité (Network > Cohesion > Density)
  63. 63. Ouvrir dans Netdraw Calcul des degrés (Analysis > Centrality measures)
  64. 64. Ouvrir le fichier .net dans Pajek (File > Network > Read) Calcul de la densité (Network > Info > General) Calcul des degrés (pondérés) (Network > Create Vector > Centrality > ...) Visualisation (Draw > Network + First Vector)
  65. 65. Import du fichier .txt dans Cytoscape File > Import > Network > File (.tsv, .csv or .txt) Cocher les options adaptées à votre fichier .txt
  66. 66. Calculer les degrés et la densité
  67. 67. Gephi : importer le fichier .net (attention à l’orientation), calculer la densité et les degrés
  68. 68. L. Beauguitte (UMR IDEES) Les logiciels d’analyse de réseau 27 juin 2013 72 / 72

×