WebAtlas URFIST NICE Franck Ghitalla Département TSH Président de WebAtlas [email_address] Mathieu Jacomy Trésorier de Web...
information geography Les agrégats de documents web 1) Principes théoriques 2) La « physis » des  objets  web 3) Expérimen...
1) Principes théoriques WebAtlas
Clustering Degree =  High Distance Degree =  High Clustering Degree =  Low Distance Degree =  Low Clustering Degree =  Hig...
Loi de puissance ( power-law ) 20% des nœuds (sites/pages) reçoivent ou attirent 80% des liens (connectivité hypertextuell...
3 propriétés des web-graphs a) de forme b) de distribution de l’ordre c) de domaines (mots, liens, acteurs) 1) Principes t...
1) Principes théoriques Distribution de la connectivité hypertexte entre sites « pour le non » au référendum sur la Consti...
2) La « physis » des objets-web WebAtlas
<ul><li>a) propriétés : diamètre, densité </li></ul><ul><li>b) « cœur » et hiérarchisation </li></ul><ul><li>c) clusters e...
2) La « physis » des objets relationnels Diamètre invariance d’échelle ( scale-free network ) Chemin moyen entre chaque pa...
2) La « physis » des objets relationnels Hubs   et  Authorities  ( les  cœurs) Tous les nœuds d’un graphe peuvent se décri...
2) La « physis » des objets relationnels Clusters  et composition interne Analyse en  clusters  à partir de la distributio...
2) La « physis » des objets relationnels The Achilles’heel of the Internet Attachement préférentiel Chaque nouveau entrant...
3) Expérimentations et Systèmes d’Information Web WebAtlas
Extraction des données Bases et process de traitement Indexation Calculs d’occurrences Structure de graphe Algorithmes de ...
3) Expérimentations (S.I.W.) Processus de découverte d’une structure web locale… … a partir d’un site ou d’un moteur (a), ...
3) Expérimentations (S.I.W.) WebAtlas
Cadres conceptuels A.-L. BARABASI  linked  -  the new science of networks , new ed. 2005. S. JONHSON - emergence: the conn...
URFIST NICE Franck Ghitalla Département TSH Président de WebAtlas [email_address] Mathieu Jacomy Trésorier de WebAtlas Doc...
Prochain SlideShare
Chargement dans…5
×

Géographie de l'information

1 382 vues

Publié le

Les agrégats de documents sur le web (géographie de l'information). Présentation par WebAtlas dans le cadre d'une formation aux Urfist.

Publié dans : Technologie
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 382
Sur SlideShare
0
Issues des intégrations
0
Intégrations
19
Actions
Partages
0
Téléchargements
40
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Géographie de l'information

  1. 1. WebAtlas URFIST NICE Franck Ghitalla Département TSH Président de WebAtlas [email_address] Mathieu Jacomy Trésorier de WebAtlas Doctorant CELSA [email_address]
  2. 2. information geography Les agrégats de documents web 1) Principes théoriques 2) La « physis » des objets web 3) Expérimentations ( Web Information Systems , S.I.W.) WebAtlas
  3. 3. 1) Principes théoriques WebAtlas
  4. 4. Clustering Degree = High Distance Degree = High Clustering Degree = Low Distance Degree = Low Clustering Degree = High Distance Degree = Low WebAtlas
  5. 5. Loi de puissance ( power-law ) 20% des nœuds (sites/pages) reçoivent ou attirent 80% des liens (connectivité hypertextuelle) (et inversement) Structure hiérarchique forte des nœuds dominants qui assurent au web son unité et garantissent la circulation entre nœuds secondaires En haut – distribution de la connectivité a) en random graph b) en power-law (Barabasi). A droite – distribution de la connectivité « entrante » sur les principaux sites francophones consacrés à la CSTI – Mathieu Jacomy, 2005. 1) Principes théoriques WebAtlas
  6. 6. 3 propriétés des web-graphs a) de forme b) de distribution de l’ordre c) de domaines (mots, liens, acteurs) 1) Principes théoriques WebAtlas
  7. 7. 1) Principes théoriques Distribution de la connectivité hypertexte entre sites « pour le non » au référendum sur la Constitution Européenne en 2005. Exploration dynamique du corpus via une application Flash – Antonin Rhomer, RTGI. WebAtlas
  8. 8. 2) La « physis » des objets-web WebAtlas
  9. 9. <ul><li>a) propriétés : diamètre, densité </li></ul><ul><li>b) « cœur » et hiérarchisation </li></ul><ul><li>c) clusters et composition </li></ul><ul><li>- d) évolution temporelles : structure et mutation ( preferential attachment, transitions phases, tipping point ), flux et propagation (modèles de diffusion, acteurs-relai, détection de signal faible et anticipation...) </li></ul>2) La « physis » des objets relationnels Extraire et analyser des données Produire et comprendre des formes ( patterns ) WebAtlas
  10. 10. 2) La « physis » des objets relationnels Diamètre invariance d’échelle ( scale-free network ) Chemin moyen entre chaque paire de nœuds Graphe orienté ou non-orienté (prise en compte du sens des liens) Expérience de Barabasi et al. en 1998 Un premier graphe comprenant 1000 sites web avait un diamètre voisin de 8. Quel diamètre pour 10.000 et 100.000 nœuds? 80 ou 800? 11 seulement. Densité : nob liens réels / nb liens possibles WebAtlas
  11. 11. 2) La « physis » des objets relationnels Hubs et Authorities ( les cœurs) Tous les nœuds d’un graphe peuvent se décrire en fonction de leurs scores de HUB (nombre de liens sortants) et d’AUTHORITY (nombre de liens entrants). HUBS (nœuds qui diffusent beaucoup de liens) AUTHORITIES (nœuds qui reçoivent beaucoup de liens) Hubs et Authorities ont tendance à se renforcer mutuellement Ils forment le « cœur » des agrégats de documents web WebAtlas
  12. 12. 2) La « physis » des objets relationnels Clusters et composition interne Analyse en clusters à partir de la distribution des liens dans le corpus, des similarités de contenus (mots-clef) et/ou de la concentration de certains acteurs identifiés Données traitées dans le projet SIS-Map constituées par : 6760 expressions , modélisées sous forme de graphes relationnels (expansion du corpus à partir de 130 mots-clefs de départ à 940, puis de 940 à 7670) Un graphe associé de 26787 sites (sélection des 10 meilleures URL pour chaque mot-clef sur 240 000 sites extraits des bases Exalead ) 71744 relations sites-expressions WebAtlas
  13. 13. 2) La « physis » des objets relationnels The Achilles’heel of the Internet Attachement préférentiel Chaque nouveau entrant de le système aura tendance à se relier directement aux Hubs et aux Authorités Temporellement, Hubs et authorities renforcent leur pouvoir Le « talon d’Achille » du web WebAtlas
  14. 14. 3) Expérimentations et Systèmes d’Information Web WebAtlas
  15. 15. Extraction des données Bases et process de traitement Indexation Calculs d’occurrences Structure de graphe Algorithmes de ranking (PageRank, HITS…) Algorithmes de clustering … Les patterns identifiables (logiques, statistiques, relationnels) peuvent aussi être visualisés, voire même identifiés via des visualisations de grandes masses de données web. Un Système d’Information Web dédié à l’exploration des structures du système doit pouvoir inclure différents process de traitement des données L’extraction des données web (mots-clefs, contenus, liens internes et/ou externes au sites…) peut être effectuée manuellement (via un bookmark par exemple), semi-automatiquement (Navicrawler, Timmy) ou automatiquement via un crawler paramétrable. Explorer le web comme univers complexe, c’est d’abord mettre en oeuvre une ingénierie de la découverte basée sur la conception de Systèmes d’Information Web (S.I.W.) expérimentaux. Cette ingénierie heuristique peut être conçue de façon modulaire (développement séparé de différents types de modules d’extraction, de traitement des données et de visualisation/identification de patterns relationnels). WebAtlas
  16. 16. 3) Expérimentations (S.I.W.) Processus de découverte d’une structure web locale… … a partir d’un site ou d’un moteur (a), du Navicrawler (b), d’une liste d’URL (c). WebAtlas
  17. 17. 3) Expérimentations (S.I.W.) WebAtlas
  18. 18. Cadres conceptuels A.-L. BARABASI linked - the new science of networks , new ed. 2005. S. JONHSON - emergence: the connected lives of ants, brains, cities, and software, 2002. Théorie des graphes D. WATTS six degrees - the science of a connected age , 2004. S. STROGATZ - sync: the emerging science of spontaneous order , 2004. M. NEWMAN - the structure and dynamics of networks, 2003. Web-Mining S. CHAKRABARTI mining the web , 2002. J. KLEINBERG - algorithm design, 2006. InfoViz B. SHNEIDERMAN - readings in information visualization: using vision to think, 1999. Ouvrages de référence en Network Sciences WebAtlas
  19. 19. URFIST NICE Franck Ghitalla Département TSH Président de WebAtlas [email_address] Mathieu Jacomy Trésorier de WebAtlas Doctorant CELSA [email_address] WebAtlas

×