IC 05 / semestre printemps 2008 IC 05 / semestre printemps 2008 Franck.ghitalla Département TSH Président de WebAtlas [email_address]
IC 05 / semestre printemps 2008 Agrégats  et loi de puissance ( information geography ) 1) Principes théoriques 2) La « physis » des  objets  web 3) Expérimentations ( Web Information Systems , S.I.W.)
IC 05 / semestre printemps 2008 1) Principes théoriques
IC 05 / semestre printemps 2008 Clustering Degree =  High Distance Degree =  Low Principe de clustering + distribution des  Weak Ties  (bridging, shortcuts) issue de la tradition des Random Graphs 1) Principes théoriques Nécessité de prendre en compte Évolution du nombre de nœuds/liens  Leur nombre « infini » (web) La distribution inégale du nombre de liens entre les nœuds ( power-law ) Le comportement des nouveaux nœuds entrants dans le système (attachement préférentiel) Les phénomènes dynamiques de circulation de l’information SUR le réseau
IC 05 / semestre printemps 2008 Loi de puissance ( power-law ) 20% des nœuds (sites/pages) reçoivent ou attirent 80% des liens (connectivité hypertextuelle) (et inversement) Structure hiérarchique forte des nœuds dominants qui assurent au web son unité et garantissent la circulation entre nœuds secondaires En haut – distribution de la connectivité a) en random graph b) en  power-law  (Barabasi). A droite – distribution de la connectivité « entrante » sur les principaux sites francophones consacrés à la CSTI – Mathieu Jacomy, 2005. 1) Principes théoriques
IC 05 / semestre printemps 2008 1) Principes théoriques Modèle d’évolution temporel – modèle prédictif («  the rich get richer  ») / network dynamics over time Preferential attachment / « links between nodes don’t come into existence entirely independently of one another » (D.Watts, Six Degrees, p.108) Clearly, the standard model of random graphs proposed by Erdos and Rényi has some serious problems, not just because it fails to predict the clustering that we discussed earlier, but also just because it cannot explain why barabasi and Albert found the degree distribution they did (i.e.scale free networks) » (D.Watts, Six Degrees, p.109).
IC 05 / semestre printemps 2008 1) Principes théoriques Distribution de la connectivité hypertexte entre sites « pour le non » au référendum sur la Constitution Européenne en 2005. Exploration dynamique du corpus via une application  Flash  – Antonin Rhomer, RTGI.
IC 05 / semestre printemps 2008 2) La « physis » des objets-web
IC 05 / semestre printemps 2008 a) propriétés : diamètre, densité b) « cœur » et hiérarchisation c) clusters et composition - d) évolution temporelles : structure et mutation ( preferential attachment, transitions phases, tipping point ), flux et propagation (modèles de diffusion, acteurs-relai, détection de signal faible et anticipation...) 2) La « physis » des objets relationnels Extraire et analyser des données Produire et comprendre des formes (patterns)
IC 05 / semestre printemps 2008 2) La « physis » des objets relationnels Diamètre invariance d’échelle ( scale-free network ) Chemin moyen entre chaque paire de nœuds Graphe orienté ou non-orienté (prise en compte du sens des liens) Expérience de  Barabasi et al.  en 1998 Un premier graphe comprenant 1000 sites web avait un diamètre voisin de 8.  Quel diamètre pour 10.000 et 100.000 nœuds? 80 ou 800? 11 seulement. Densité  : nob liens réels / nb liens possibles
IC 05 / semestre printemps 2008 2) La « physis » des objets relationnels Hubs   et  Authorities  ( les  cœurs) Tous les nœuds d’un graphe peuvent se décrire en fonction de leurs scores de  HUB  (nombre de liens sortants) et  d’AUTHORITY  (nombre de liens entrants). HUBS  (nœuds qui diffusent beaucoup de liens) AUTHORITIES  (nœuds qui reçoivent beaucoup de liens) Hubs et Authorities ont tendance à se  renforcer  mutuellement Ils forment le « cœur » des agrégats de documents web
IC 05 / semestre printemps 2008 2) La « physis » des objets relationnels Clusters  et composition interne Analyse en  clusters  à partir de la distribution des  liens  dans le corpus, des similarités de  contenus  (mots-clef) et/ou de la concentration de certains  acteurs  identifiés
IC 05 / semestre printemps 2008 2) La « physis » des objets relationnels The Achilles’heel of the Internet Attachement préférentiel Chaque nouveau entrant de le système aura tendance à se relier directement aux  Hubs  et aux  Authorités Temporellement,  Hubs  et  authorities  renforcent leur pouvoir Le « talon d’Achille » du web
IC 05 / semestre printemps 2008 3) Expérimentations et Systèmes d’Information Web
IC 05 / semestre printemps 2008 Extraction des données ( crawling system ) Bases et process de traitement Indexation Calculs Structure de graphe … Agora , un crawler de forum
IC 05 / semestre printemps 2008 3) Expérimentations (S.I.W.)
IC 05 / semestre printemps 2008 IC 05 / semestre printemps 2008 Franck.ghitalla Département TSH Président de WebAtlas [email_address]

IC05 cours 2

  • 1.
    IC 05 /semestre printemps 2008 IC 05 / semestre printemps 2008 Franck.ghitalla Département TSH Président de WebAtlas [email_address]
  • 2.
    IC 05 /semestre printemps 2008 Agrégats et loi de puissance ( information geography ) 1) Principes théoriques 2) La « physis » des objets web 3) Expérimentations ( Web Information Systems , S.I.W.)
  • 3.
    IC 05 /semestre printemps 2008 1) Principes théoriques
  • 4.
    IC 05 /semestre printemps 2008 Clustering Degree = High Distance Degree = Low Principe de clustering + distribution des Weak Ties (bridging, shortcuts) issue de la tradition des Random Graphs 1) Principes théoriques Nécessité de prendre en compte Évolution du nombre de nœuds/liens Leur nombre « infini » (web) La distribution inégale du nombre de liens entre les nœuds ( power-law ) Le comportement des nouveaux nœuds entrants dans le système (attachement préférentiel) Les phénomènes dynamiques de circulation de l’information SUR le réseau
  • 5.
    IC 05 /semestre printemps 2008 Loi de puissance ( power-law ) 20% des nœuds (sites/pages) reçoivent ou attirent 80% des liens (connectivité hypertextuelle) (et inversement) Structure hiérarchique forte des nœuds dominants qui assurent au web son unité et garantissent la circulation entre nœuds secondaires En haut – distribution de la connectivité a) en random graph b) en power-law (Barabasi). A droite – distribution de la connectivité « entrante » sur les principaux sites francophones consacrés à la CSTI – Mathieu Jacomy, 2005. 1) Principes théoriques
  • 6.
    IC 05 /semestre printemps 2008 1) Principes théoriques Modèle d’évolution temporel – modèle prédictif («  the rich get richer  ») / network dynamics over time Preferential attachment / « links between nodes don’t come into existence entirely independently of one another » (D.Watts, Six Degrees, p.108) Clearly, the standard model of random graphs proposed by Erdos and Rényi has some serious problems, not just because it fails to predict the clustering that we discussed earlier, but also just because it cannot explain why barabasi and Albert found the degree distribution they did (i.e.scale free networks) » (D.Watts, Six Degrees, p.109).
  • 7.
    IC 05 /semestre printemps 2008 1) Principes théoriques Distribution de la connectivité hypertexte entre sites « pour le non » au référendum sur la Constitution Européenne en 2005. Exploration dynamique du corpus via une application Flash – Antonin Rhomer, RTGI.
  • 8.
    IC 05 /semestre printemps 2008 2) La « physis » des objets-web
  • 9.
    IC 05 /semestre printemps 2008 a) propriétés : diamètre, densité b) « cœur » et hiérarchisation c) clusters et composition - d) évolution temporelles : structure et mutation ( preferential attachment, transitions phases, tipping point ), flux et propagation (modèles de diffusion, acteurs-relai, détection de signal faible et anticipation...) 2) La « physis » des objets relationnels Extraire et analyser des données Produire et comprendre des formes (patterns)
  • 10.
    IC 05 /semestre printemps 2008 2) La « physis » des objets relationnels Diamètre invariance d’échelle ( scale-free network ) Chemin moyen entre chaque paire de nœuds Graphe orienté ou non-orienté (prise en compte du sens des liens) Expérience de Barabasi et al. en 1998 Un premier graphe comprenant 1000 sites web avait un diamètre voisin de 8. Quel diamètre pour 10.000 et 100.000 nœuds? 80 ou 800? 11 seulement. Densité : nob liens réels / nb liens possibles
  • 11.
    IC 05 /semestre printemps 2008 2) La « physis » des objets relationnels Hubs et Authorities ( les cœurs) Tous les nœuds d’un graphe peuvent se décrire en fonction de leurs scores de HUB (nombre de liens sortants) et d’AUTHORITY (nombre de liens entrants). HUBS (nœuds qui diffusent beaucoup de liens) AUTHORITIES (nœuds qui reçoivent beaucoup de liens) Hubs et Authorities ont tendance à se renforcer mutuellement Ils forment le « cœur » des agrégats de documents web
  • 12.
    IC 05 /semestre printemps 2008 2) La « physis » des objets relationnels Clusters et composition interne Analyse en clusters à partir de la distribution des liens dans le corpus, des similarités de contenus (mots-clef) et/ou de la concentration de certains acteurs identifiés
  • 13.
    IC 05 /semestre printemps 2008 2) La « physis » des objets relationnels The Achilles’heel of the Internet Attachement préférentiel Chaque nouveau entrant de le système aura tendance à se relier directement aux Hubs et aux Authorités Temporellement, Hubs et authorities renforcent leur pouvoir Le « talon d’Achille » du web
  • 14.
    IC 05 /semestre printemps 2008 3) Expérimentations et Systèmes d’Information Web
  • 15.
    IC 05 /semestre printemps 2008 Extraction des données ( crawling system ) Bases et process de traitement Indexation Calculs Structure de graphe … Agora , un crawler de forum
  • 16.
    IC 05 /semestre printemps 2008 3) Expérimentations (S.I.W.)
  • 17.
    IC 05 /semestre printemps 2008 IC 05 / semestre printemps 2008 Franck.ghitalla Département TSH Président de WebAtlas [email_address]